JP2023166423A - Mdct係数からのスペクトル形状予測 - Google Patents
Mdct係数からのスペクトル形状予測 Download PDFInfo
- Publication number
- JP2023166423A JP2023166423A JP2023133704A JP2023133704A JP2023166423A JP 2023166423 A JP2023166423 A JP 2023166423A JP 2023133704 A JP2023133704 A JP 2023133704A JP 2023133704 A JP2023133704 A JP 2023133704A JP 2023166423 A JP2023166423 A JP 2023166423A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- old
- spectral
- shape
- spectral shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 261
- 238000000034 method Methods 0.000 claims abstract description 201
- 238000001228 spectrum Methods 0.000 claims abstract description 99
- 238000010183 spectrum analysis Methods 0.000 claims abstract description 51
- 230000001052 transient effect Effects 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 29
- 230000004044 response Effects 0.000 claims abstract description 23
- 238000004458 analytical method Methods 0.000 claims description 46
- 238000005070 sampling Methods 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 14
- 230000010363 phase shift Effects 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000011010 flushing procedure Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000000654 additive Substances 0.000 claims 1
- 230000000996 additive effect Effects 0.000 claims 1
- 238000006467 substitution reaction Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 49
- 238000010586 diagram Methods 0.000 description 31
- 230000005236 sound signal Effects 0.000 description 25
- 230000006978 adaptation Effects 0.000 description 24
- 230000004048 modification Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 230000007774 longterm Effects 0.000 description 7
- 230000036961 partial effect Effects 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 230000000737 periodic effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000013016 damping Methods 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000008014 freezing Effects 0.000 description 3
- 238000007710 freezing Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/60—Network streaming of media packets
- H04L65/75—Media network packet handling
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Discrete Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Communication Control (AREA)
Abstract
【課題】失われた音響フレームのための隠蔽方法を制御するための方法、デコーダおよびプログラムコードを提供する。【解決手段】隠蔽方法は、修正離散コサイン変換(MDCT)係数を得るために受け取った音響信号の第1の音響フレームおよび第2の音響フレームを復号し、復号された第1の音響フレームから復号されたMDCT係数に基づく第1のスペクトル形状の値および復号された第2の音響フレームから復号されたMDCT係数に基づく第2のスペクトル形状の値を決定し、決定された第1の音響フレームおよび第2の音響フレームのスペクトル形状の値およびフレームエネルギーをFFTに基づくスペクトル解析の表現に変換し、変換されたFFTの表現に基づいて過渡状態を検出し、過渡状態の検出に応答して置換フレームスペクトルのスペクトルの大きさを選択的に調整する。【選択図】図9
Description
本発明は、一般に、受け取った音響信号に関連する失われた音響フレームを隠蔽する方法に関する。また、本発明は、受け取った符号化音響信号に関連する失われた音響フレームを隠蔽するように設定されたデコーダにも関する。
近代の通信チャネル/ネットワークを介した音声/音響の伝送は、音声/音響コーデックを使用して主としてデジタル領域で実施されている。これは、デジタルサンプルを得るためにアナログ信号を取得し、サンプリングおよびアナログ-デジタル変換器(ADC)を使用してアナログ信号をデジタル化することを伴うことがある。これらのデジタルサンプルは、アプリケーションに応じて10~40msの連続する期間からのサンプルを含有するフレームにさらに分類することができる。これらのフレームは、次に、転送する必要があるビット数を少なくし、かつ、依然として可能な限り高い品質を達成することができる圧縮アルゴリズムを使用して処理することができる。次に、符号化されたビットストリームがデータパケットとしてデジタルネットワークを介して受信機に転送される。受信機ではプロセスが逆転される。最初にデータパケットを復号して、デジタルサンプルを有するフレームを再形成することができ、次に、再形成されたフレームをデジタル-アナログ変換器(DAC)に入力して、入力アナログ信号の近似を受信機で再形成することができる。図1は、上で説明した手法を使用した、デジタルネットワークなどのネットワークを介した音響エンコーダおよびデコーダを使用した音響伝達のブロック図の一例を提供したものである。
データパケットがネットワークを介して転送されるとき、トラフィック負荷のためにネットワークによって落とされ得るか、またはデジタルデータを無効にして復号することができないようにするビット誤りの結果として落とされ得るか、のいずれかのデータパケットが存在し得る。これらの事象が生じると、デコーダは、実際に復号することが不可能な期間の間、出力信号を取り替える必要がある。この取替えプロセスは、典型的にはフレーム/パケット損失隠蔽と呼ばれている。図2は、パケット損失隠蔽を含むデコーダ200のブロック図を図解したものである。不良フレームインジケータ(BFI)が失われたフレームまたは破損したフレームを示すと、PLC202は、失われた/破損したフレームを取り替えるための信号を作り出すことができる。そうでない場合、すなわちBFIが失われたフレームまたは破損したフレームを示さない場合、受け取った信号がストリームデコーダ204によって復号される。フレームの消去は、現在のフレームに対する不良フレームインジケータ変数をアクティブにセットする、すなわちBFI=1にすることによってデコーダに信号を発信することができる。復号されたフレームまたは隠蔽されたフレームは、次に、アナログ信号を出力するためにDAC206に入力される。フレーム/パケット損失隠蔽は、誤り隠蔽ユニット(ECU)と呼ぶことも可能である。
デコーダの中でパケット損失隠蔽を実施する多くの方法が存在している。いくつかの例は、失われたフレームを無音と取り替え、最後のフレームを繰り返す(または最後のフレームパラメータを復号する)ものである。他の解決法は、音響信号の最もありそうな継続とのフレームの取替えを試みる。雑音のような信号に対して、1つの解決法は、同様のスペクトル構造を有する雑音を生成する。音色信号に対しては、最初に現在の音調の特性(周波数、振幅、および位相)を予測し、これらのパラメータを使用して、失われたフレームの対応する一時的な位置に音調の継続を生成することができる。
ECUの別の実施形態の一例は、国際特許出願第WO2014123470号に元々記載されている位相ECUであり、ここでデコーダは、通常の復号の間、復号された信号のプロトタイプを連続的に保存することができる。このプロトタイプは、失われたフレームの場合に使用することができる。プロトタイプは、そのスペクトルが解析され、雑音および音色ECU機能がスペクトル領域で組み合わされる。位相ECUは音調を識別し、関係するスペクトルビンのスペクトル一時的取替えを計算する。他のビンは雑音として取り扱うことができ、また、これらのスペクトル域における音色アーチファクトを回避するためにスクランブルされる。結果として得られる再形成スペクトルは、時間領域に変換された逆FFT(高速フーリエ変換)であり、また、信号は、失われたフレームの取替えを作り出すために処理される。
ほとんどの信号は、長い時間期間にわたって継続することはめったにない。誤りバーストをより良好に取り扱うために、ECUは、現在の入力信号の低分解能スペクトル予測を長期背景予測として使用することができる。より長いバーストの間、ECUは、再構成するターゲットを時間と共に変更することができる。最初、ターゲットは最後の信号と取り替えることである。時間と共に、ターゲットは、予測をより雑音様にし、最終的には出力を消音させるターゲットへ移動することになる低分解能背景予測に切り替えることができる。
パケット損失隠蔽の場合、現在の入力の低分解能スペクトル表現が必要である。国際特許出願第WO2014123471号(付録1を参照されたい)に記載されている実施形態では、2つの短いFFTからスペクトル表現を形成することができ、短いFFTの各々はプロトタイプフレームの四分の一であり、過渡検出のために使用される。短い変換の場合、予測は高い分散を有し得る。より安定した長期予測を得るために、2つのFFTの平均を使用することができる。これらの実施形態では、FFTビンは、聴覚システムにおける臨界帯域を近似的に表す副帯域に分類する。
長期予測は、より長い誤りバーストにおけるターゲットスペクトルとして使用することができ、したがって、時間と共に、失われたフレームを現在の入力背景信号を表す信号と取り替えることができる。
この手法が抱えている欠点は、短いFFTが第1の誤りフレームにおける複雑性を実質的に増すことである。第1の誤りフレームは、失われた信号の再構成を実施することができる前に、スペクトル解析、正弦曲線位置、および正弦曲線成分の一時的補償の完全なPLCチェーンを実施するために使用されるため、既に高い複雑性を有している。
このような場合、2つの短いFFT(総合プロトタイプフレームの個々の側に位置している)をスペクトル過渡検出器のために使用することもできる(オンセットおよびオフセットを検出する)。したがって、すべての取替えは、その目的に使用するためにも十分に正確でなければならない。
位相ECU PLCが動作する様子に関するさらなる情報は、国際特許出願第WO2014123471号(付録1を参照されたい)および3GPP TS 26.447 V15.0.0 clause 5.4.3.5の中に見出すことができる。
本明細書において開示される本発明の概念の様々な実施形態は、場合によっては、短いFFTが第1の誤りフレームにおける複雑性を実質的に増す、という現在の認識から生じている。第1の誤りフレームは、失われた信号の再構成を実施することができる前に、スペクトル解析、正弦曲線位置、および正弦曲線成分の一時的補償の完全なPLCチェーンを実施するために使用されるため、既に高い複雑性を有している。
本発明の概念のいくつかの実施形態によれば、受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御する方法が提供される。このような方法では、修正離散コサイン変換(MDCT)係数を得るために、受け取った音響信号の第1の音響フレームが復号される。復号された第1の音響フレームから復号されたMDCT係数に基づいて第1のスペクトル形状の値が決定され、第1のスペクトル形状はある数の副帯域を含む。第2の音響フレームのためのMDCT係数を得るために、受け取った音響信号の第2の音響フレームが復号される。復号された第2の音響フレームから復号されたMDCT係数に基づいて第2のスペクトル形状の値が決定され、第2のスペクトル形状は上記数の副帯域を含む。第1の音響フレームの第1のスペクトル形状の値および第1のフレームエネルギーは、第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換され、また、第2の音響フレームの第2のスペクトル形状の値および第2のフレームエネルギーは、第2のFFTスペクトル解析の第2の表現に変換される。過渡状態は、第1のFFTの第1の表現および第2のFFTの第2の表現に基づいて検出される。過渡状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法が修正される。
本発明の概念のいくつかの実施形態によれば、受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するためにデコーダ装置が提供される。本デコーダ装置は、修正離散コサイン変換(MDCT)係数を得るために、受け取った音響信号の第1の音響フレームを復号する。本デコーダ装置は、復号された音響フレームから復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定し、第1のスペクトル形状はある数の副帯域を含む。本デコーダ装置は、受け取った音響信号の第2の音響フレームを復号する。本デコーダ装置は、復号された第2の音響フレームから復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定し、第2のスペクトル形状は上記数の副帯域を含む。本デコーダ装置は、第1の音響フレームの第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換し、また、第2の音響フレームの第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換する。本デコーダ装置は、第1のFFTの第1の表現および第2のFFTの第2の表現に基づいて過渡状態を検出する。本デコーダ装置は、過渡状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正する。
本発明の概念のいくつかの実施形態によれば、受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するためのコンピュータプロセッサによる方法が提供される。本方法は、修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号することを含む。本方法は、復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること、および計算された第1のスペクトル形状の値をshapeoldバッファに記憶することを含み、第1のスペクトル形状はある数の副帯域を含む。本方法は、音響フレームの第1のフレームエネルギーを決定すること、および計算された第1のフレームエネルギーをE_woldバッファに記憶することを含む。本方法は、受け取った音響信号の第2の音響フレームを復号することを含む。本方法は、計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移すことを含む。本方法は、計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すことを含む。本方法は、復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること、および計算された第2のスペクトル形状の値をshapeoldバッファに記憶することを含み、第2のスペクトル形状は上記数の副帯域を含む。本方法は、第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された第2のフレームエネルギーをE_woldバッファに記憶することを含む。本方法は、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること、ならびに第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することを含む。本方法は、第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出することを含む。本方法は、上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正すること(921)を含む。
以下で説明される様々な実施形態における技法の利点は、2つの短いFFTの使用を回避することができることである。この回避により、第1の失われたフレームの複雑性、および失われたフレームを処理する処理オーバヘッドが直接低減されるため、これは重要である。第1の失われたフレームでは、プロトタイプフレームのやや長いFFT、および再構成されたスペクトルの同様に長い逆FFTの両方が必要であるため、複雑性が高い。
本開示のさらなる理解を提供するために含まれ、また、本出願に組み込まれ、かつ、本出願の一部を構成している添付の図面は、本発明の概念の特定の非制限の実施形態を図解したものである。
以下、本発明の概念について、本発明の概念の実施形態の例が示されている添付の図面を参照してより完全に説明する。しかしながら本発明の概念は、多くの異なる形態で具体化することができ、本明細書において説明されている実施形態に限定されるものとして解釈してはならない。そうではなく、これらの実施形態は、本開示が徹底的で、かつ、完全なものであり、また、本発明の概念の範囲が当業者に完全に伝わるように提供されている。また、これらの実施形態は相互に排他的ではないことに同じく留意されたい。1つの実施形態からの構成要素は、別の実施形態にも存在し/使用されることが暗黙のうちに仮定され得る。
以下の説明は、開示される主題の様々な実施形態を提供したものであり、これらの実施形態は教示例として提供されており、開示される主題の範囲を制限するものとして解釈してはならない。例えば説明されている実施形態の特定の詳細は、その説明されている主題の範囲を逸脱することなく、修正し、省略し、あるいは拡張することが可能である。
本明細書において説明されている本発明の概念はPLCの複雑性を低減する。これらの実施形態は、パケット隠蔽のために使用される手法が周波数領域における正弦波モデル化である実施形態の複雑性を、バースト誤りをより良好に取り扱うための追加低分解能背景雑音モデルを使用して低減することに関している。この場合、手法は、より長い誤りバーストにわたって、正弦波モデルから低分解能雑音モデルへ向かって進行する。低分解能雑音モデルは、第1の誤りフレームの間、保存されたプロトタイプフレームに基づいて更新することができる。説明されている技法を同じく使用して、様々な周波数帯域における信号に対する時間によるエネルギー崩壊の高品質(および低複雑性)周波数帯域予測を決定することができ、この予測を使用して、隠蔽されたフレームの帯域エネルギーをモデル化することができる。
音声/音響圧縮が周波数領域で実施される場合、修正離散コサイン変換(MDCT)領域が最もしばしばである周波数領域で利用することができるスペクトル表現が既に存在し得る。多くの状況において利用することができるスペクトル表現の係数を使用して、短いFFTの複雑性と取り替えるための代替スペクトル形状を形成することができる。例えば第1のフレーム誤りのスペクトル形状を使用して、短いFFTによって生成されたであろうスペクトル予測に対応するスペクトル予測を作り出すことができる。
本明細書において説明されている実施形態では、利用可能なMDCT係数を使用してスペクトル形状を提供することができ、一方、スペクトル予測のためのエネルギー(すなわちレベル)は、窓処理されたプロトタイプフレームのエネルギーに基づいている。しかしながら本発明者らは、MDCT係数のみを形状およびレベルの両方に使用すると、取り替えられるべき2つの短いFFTのための不十分な品質予測を提供することが分かったことを認識するに至った。
以下で説明される技法の利点は、2つの短いFFTの使用を回避することができることである。この回避により、第1の失われたフレームの複雑性が直接低減されるため、これは重要である。第1の失われたフレームでは、プロトタイプフレームのやや長いFFT、および再構成されたスペクトルの同様に長い逆FFTの両方が必要であるため、複雑性が高い。
デコーダに利用することができるMDCT係数は安定したエネルギー予測を提供しないが、係数はスペクトル形状予測のために使用することができる。窓処理されたプロトタイプフレームのエネルギーは実際のFFTスペクトルのより良好な予測をもたらすことができるため、スペクトル予測のためのレベルを得るために、この窓処理されたプロトタイプフレームのエネルギーを使用することができる。
2つのより短いFFTを使用する複雑性を回避することにより、一時的な特性およびスペクトル特性の両方にわずかな相違が生じることがある。このような相違は、背景信号の長期予測の形態で使用するためには大して重要な相違ではなく、また、このわずかな相違は、過渡検出器エネルギー崩壊予測に対する大きな問題ではない。
MDCT係数(または通常の符号化された領域に利用することができる任意の他のスペクトル領域情報)、および2つの短いFFT変換の代わりに使用することができるスペクトル形状への変換を再使用する本発明の概念により、複雑性および失われたフレームを処理する処理オーバヘッドが低減される。これには、FFTビンを可能な限り近く近似するフォーマットにMDCT係数がどのように分類されるかということも関与する。
デコーダ装置は、2つのユニットからなっていてもよく、または図2に図解されているPLCの一部もしくは図12および図13に図解されているデコーダ装置であってもよい。デコーダ(1201、1301)は、誤りがない操作の間、スペクトル形状およびフレームエネルギーを更新することができる。デコーダ(1201、1301)は、第1のフレーム誤りの間、保存されたスペクトル形状およびフレームエネルギーを使用して、誤り隠蔽中に使用されるべき長期スペクトル予測を生成することができる。デコーダ(1201、1301)の第3の構成要素を同じく使用して、エネルギーの著しい低下が存在している場合などのPLC再構成において適用されるべき周波数帯域崩壊を決定することができる。
MDCT係数を再使用しても、典型的にはフレーム毎に1つのスペクトル形状が生成されるだけである。第1の誤りフレームの間、2つのスペクトル形状を有することは、良好なフレーム毎に1つのスペクトル形状予測を生成することによって、また、先行する良好なフレームからのスペクトル形状予測を同じく保存することによって達成することができる。スペクトル予測の正しいレベルを得るために、MDCTに基づくデコーダにおける良好なフレーム処理の終わりに、対応するPLC-プロトタイプフレームの窓処理されたエネルギーを保存することができる。良好なフレームは、正しく受け取られた、誤りがないフレームを意味し、一方、不良フレームは、消去された、すなわち失われた、または破損したフレームを意味している。
失われたフレームの間、第2のユニットは、2つの保存されたスペクトル形状およびフレームエネルギーを使用して、2つの短いFFTによって生成されたであろう2つのスペクトル予測に対応する2つのスペクトル予測を生成する。これにより、複雑性およびプロセッサオーバヘッドが低減される。第3のユニットは、保存された形状およびエネルギーに基づいて、失われたフレームのPLC再構成において、周波数帯域毎に使用されるべき崩壊ファクターを確立することができる。この後に、前述のように位相ECUの通常の処理が継続され、国際特許出願第WO2014123471号(付録1)または3GPP TS 26.447 V15.0.0 clause 5.4.3.5を参照されたい。
本明細書において説明されている技法は、上で説明したようにMDCTからのスペクトル予測の使用に限定されない。この技法は、コーデックに使用される任意の他のスペクトル予測技法と共に動作するように適合させることができる。
以下は、MDCTを使用する機能をより詳細に説明している。
MDCT係数を得るために、MDCTは、20msウィンドウにわたって、10msの前進で獲得される。1つの変換、例えばMDCTを使用して、別の変換、例えばFFTの副帯域予測を実施する場合、正しい係数にわたって副帯域への分類を実施することが重要である。良好なフレームの後に保存されたPLCプロトタイプフレームは長さが16msであり、また、過渡検出器副帯域解析モジュールは、PLCプロトタイプフレームの四分の一である長さ4msの2つの短いFFTを使用する。これらの項目の実際の長さは、使用されるサンプリング周波数に応じて決まり、また、8kHzから48kHzまでであり得る。これらの長さは、個々の変換におけるスペクトルビンの数に影響を及ぼす。2つの短いFFT解析結果を使用して、以下で説明されるように変換ファクターμが決定される。
良好なフレームにおけるスペクトル形状履歴更新
過渡解析のために、位相ECUは、MDCTに基づくスペクトル形状およびMDCT-合成窓処理エネルギーの履歴を使用して、入力信号が時間と共にどのように進展してきたかの画像を構築することができる。スペクトル形状は、復号された信号のスペクトル表現を保持している復号されたMDCT係数に基づいて計算される。スペクトル形状は副帯域からなっており、ここで副帯域の数Ngrpは、表1に示されているようにサンプリング周波数に応じて決まる。
過渡解析のために、位相ECUは、MDCTに基づくスペクトル形状およびMDCT-合成窓処理エネルギーの履歴を使用して、入力信号が時間と共にどのように進展してきたかの画像を構築することができる。スペクトル形状は、復号された信号のスペクトル表現を保持している復号されたMDCT係数に基づいて計算される。スペクトル形状は副帯域からなっており、ここで副帯域の数Ngrpは、表1に示されているようにサンプリング周波数に応じて決まる。
良好なフレームの場合、すなわちフレームが不良フレームではないことを不良フレームインジケータが示している場合(例えばBFI=0)、スペクトル形状の値およびフレームエネルギーを更新することができる。これらのステップは図3のフローチャートに図解されている。図3を参照すると、301の操作で、BIF=0であるかどうかの決定がなされる。パラメータは、現在のフレームに対してのみ計算することができることに留意されたい。前のフレームが良好なフレームであった場合、最後のフレームの間に保存された値を第2の最後のフレームとして指定されたバッファ(すなわちshapeooldバッファ)へ移すことができる。引き続く操作303で、最後のフレームからのスペクトル形状shapeold(k)が第2のバッファshapeoold(k)に移されて保存される。
shapeoold(k)=shapeold(k)、0≦k<Ngrp (1)
shapeoold(k)=shapeold(k)、0≦k<Ngrp (1)
同様に操作305で、最後のフレームエネルギーが第2のバッファE_wooldに移される。
E_woold=E_wold (2)
E_woold=E_wold (2)
これらの更新に引き続いて操作307および309で、最後のフレームバッファのためのスペクトル形状shapeold(k)およびフレームエネルギーE_woldの新しい値を計算することができる。表2は、現在のMDCT係数のビンをどのように副帯域の間で分割することができるかを実例で示したものである。表2の表項目は、国際出願WO 2014/123471に記載されている方法に使用することができる一実施形態のための個々の副帯域の開始係数を示したものである。他の実施形態に対しては他の副帯域を使用することができる。
副帯域に基づく、範囲[0,...1]のスペクトル形状を有することが場合によっては望ましい。これは、
としてMDCT係数の全体の大きさ(q_d(n))を最初に計算することによって達成することができ、上式でNMDCTはMDCT係数の数であり、表3に実例で示されているサンプリング周波数などのサンプリング周波数に応じて決まる。
としてMDCT係数の全体の大きさ(q_d(n))を最初に計算することによって達成することができ、上式でNMDCTはMDCT係数の数であり、表3に実例で示されているサンプリング周波数などのサンプリング周波数に応じて決まる。
次に、shape_totに対して計算された値を使用して、
として決定することができる個々の副帯域のスペクトル形状を正規化することができ、上式は、最後のフレームの新しい値のためのスペクトル形状予測を形成する。スペクトル形状に割り当てられないいくつかのMDCT係数が存在し得ることに留意されたい。これは、DCビンを対応する短いFFTに使用しないことによるものである。
として決定することができる個々の副帯域のスペクトル形状を正規化することができ、上式は、最後のフレームの新しい値のためのスペクトル形状予測を形成する。スペクトル形状に割り当てられないいくつかのMDCT係数が存在し得ることに留意されたい。これは、DCビンを対応する短いFFTに使用しないことによるものである。
再構成の間、スペクトル形状を使用することができるようにするために、窓処理されたプロトタイプフレームに基づいてフレームエネルギーを計算することができる。これは、
として決定することができ、上式でwwhrは(とりわけ長期背景近似予測のための)長いFFTスペクトル解析ウィンドウであってもよく、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される位相ECU時間領域プロトタイプ信号であり、また、Lprotは、時間ウィンドウwwhrの長さに同じく対応するxprev信号におけるサンプルの数である。
として決定することができ、上式でwwhrは(とりわけ長期背景近似予測のための)長いFFTスペクトル解析ウィンドウであってもよく、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される位相ECU時間領域プロトタイプ信号であり、また、Lprotは、時間ウィンドウwwhrの長さに同じく対応するxprev信号におけるサンプルの数である。
一代替実施形態では、総合スペクトル近似性能は、良好な背景予測の提供と、過渡オフセット検出のための良好な予測との間で平衡を取ることができる。この平衡化は、適用されるwwhrウィンドウを任意選択で長い/16msFFTスペクトル解析ウィンドウとは異なるウィンドウに変更することによって一実施形態の中で実施することができる。適用されるwwhrウィンドウを変更する1つの可能な手法は、エネルギー予測が短い(4ms)FFTウィンドウのエネルギー内容とさらに時間整列するよう、ウィンドウを短くし、かつ、エネルギー予測ウィンドウを未来に向かってシフトさせることである。この手法は、エネルギーアライメント計算の複雑性を同じく低減する。例えばE_woldを直近に合成されたサンプルである3*L_prot/4(12ms)、さらには直近のサンプルであるL_prot/2(8ms)の窓処理されたエネルギーに低減することができる。これは、背景予測(16msの総スペクトル期間をターゲットとした)と過渡オフセット予測(最後の4msをターゲットとした)との間でスペクトル近似を平衡させることができる。
図4を参照すると、不良フレームまたは不良フレームのバーストの後の二次バッファの中の古い値の使用を回避するために、スペクトル形状およびフレームエネルギーのshapeoold(k)およびE_woold状態を再初期化することができる。したがって良好なフレームBFI=0(操作401によって図解されている)が不良フレームBFIprev=1(操作403によって図解されている)の後に続く場合、それぞれ操作405および407における第1の式(1)および(2)で記述されているように、計算された値が二次バッファにコピーされる。
短いFFT副帯域エネルギーへのスペクトル形状の変換
過渡解析には、副帯域エネルギーが時間と共にどのように進展しているかを解析するために、保存されたスペクトル形状およびフレームエネルギーを使用することができる。これらの値は、2つのことのため、すなわち第1に副帯域過渡検出器のため、および第2に長期平均
を形成するために使用することができ、
は、バースト誤りの間、副帯域エネルギーを調整するために使用することができる。これらの値は、誤りバーストの間に使用される信号修正値を計算するための基本を形成する。
過渡解析には、副帯域エネルギーが時間と共にどのように進展しているかを解析するために、保存されたスペクトル形状およびフレームエネルギーを使用することができる。これらの値は、2つのことのため、すなわち第1に副帯域過渡検出器のため、および第2に長期平均
を形成するために使用することができ、
は、バースト誤りの間、副帯域エネルギーを調整するために使用することができる。これらの値は、誤りバーストの間に使用される信号修正値を計算するための基本を形成する。
スペクトル形状およびフレームエネルギーを使用して、誤りがない2つの最後のフレームのための副帯域エネルギーの近似が生成される。これは、図5のフローチャートにおいて、不良フレームインジケータが、操作501で不良フレーム(すなわちBFI=1)を示す場合と図解されている。図5を参照すると、第1のフレームは、最後のフレームの前の副帯域フレームエネルギーを表しており、操作503で、
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp (6)
によって生成することができる。
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp (6)
によって生成することができる。
第2の副フレームフレームエネルギーは、最後のフレームのためのものであり、
によって操作505で生成することができ、上式でμは、サンプリング周波数に応じて決まるスカラー定数であり、MDCTに基づくスペクトル形状の、FFTに基づくスペクトル解析の近似への変換
を取り扱っている。様々なfs周波数に対するμの一例は表5に示されている。
によって操作505で生成することができ、上式でμは、サンプリング周波数に応じて決まるスカラー定数であり、MDCTに基づくスペクトル形状の、FFTに基づくスペクトル解析の近似への変換
を取り扱っている。様々なfs周波数に対するμの一例は表5に示されている。
変換ファクターμはオフラインで計算することができ、また、MDCTウィンドウ、および失われたフレーム再構成の間、MDCTウィンドウが近似としてサーブするFFTに使用されるウィンドウに応じて決まる。これらの係数を見出すためには、変換ファクターの計算に有効である両方の方法(元のFFT解析、およびMDCTを使用した、FFTの複雑性が低減された近似)を使用してPLCを走らせなければならない。変換ファクターを計算するための便利な方法はサイン波を使用することである。個々のグループインターバルの中心に1つの波を使用することができ、また、1にセットされた係数で計算を開始することができる。2つの方法を比較することによって正しい値を計算することができる。表4の中のビンは、PLCによってプロトタイプフレームに対して使用されるスペクトル解析のために使用される解析長さの四分の一である解析長さを有するFFTのためのビン分類を示しており、すなわちスペクトル解析が16msFFTを使用してなされる場合、ビン分類は4msスペクトル解析のためのものであることに留意されたい。
図6は、MDCTコーダのフレーム化および関係するフレーム構造が、非対称的に配置されたMDCTウィンドウのためにどのように適用されるかの概要を図解したものであり、MDCTウィンドウはルックアヘッドゼロ-LA_ZEROSのセグメントを有している。信号線図は、MDCTウィンドウの中にルックアヘッドゼロ(LA_ZEROS-フレーム長さの3/8)を使用しているため、フレームは現在のフレームの3/4の点までしか復号されないことを示していることに留意されたい。フレーム化は、現在のフレームのうちの復号が可能である部分に影響を及ぼし、したがって次のフレームが失われる場合に保存され、かつ、使用されるPLCプロトタイプフレームの位置に影響を及ぼす。
図6は、この実施形態で使用される、関与する変換の長さの相違も図解している。符号化されたフレームの長さの2倍の長さを有するMDCTにおいても、個々のスペクトル点は2つの係数を使用して表され(NサンプルがN個の複素数、すなわち2N個のスカラー値をもたらすFFTと比較して)、ここで一方は、もう一方の時間反転であってもよい。
図7は、MDCTコーダのフレーム化および関係するフレーム構造が、上で説明したように副帯域エネルギーおよびスペクトル形状を決定するためにどのように適用されるかの概要を図解したものである。図7は、現在のフレームおよび先行するフレームが良好なフレームであることを図解しており、また、符号化プロセスに関係して、図3および図9~図11の方法を実施することができることを示している。
図8は、異なるスペクトル表現の図形表現を図解したものである。PLCスペクトル解析は16ms時間セグメント上でなされており、これは62.5Hzのビン間距離をもたらしている。N点FFTからN/2+1個のビンが得られ、ここで開始点は0Hzであり、また、最後はfs/2である(サンプリング周波数の1/2)。短いFFTが取り替えられる過渡解析に対しても同様であり、相違は、時間ウィンドウが4msであり、これが250Hzのビン間距離をもたらすことである。20ms時間セグメントにわたってなされるMDCTの場合、ビン間距離は、M MDCTおよびM MDCTの長さに対して時間係数および時間反転された係数を分類した後では100Hzになり、分類した後ではM/4個の係数が存在する。MDCTはDC係数またはfs/2係数を有していないため、最も単純な表現は、図8に示されているように1/2ビンオフセットを有することである。
一実施形態では、国際特許出願第WO2014123471号(付録1を参照されたい)に記載されているように、上で説明したような過渡解析のためのスペクトル予測のこれらの予測を使用して、過渡計算および隠蔽適合に使用されたスペクトル予測を取り替えることができる。また、これらの予測は、スペクトル予測が3GPP TS 25.447 V. 15.0.0におけるように使用される他の状況においても同じく使用することができる。
例えば図9を参照すると、デコーダ(1201、1301)は、操作901で、MDCTに基づいて、受け取った音響信号の第1の音響フレームを復号することができる。操作903でデコーダ(1201、1301)は、復号された第1の音響フレームからのMDCT係数に基づいて第1のスペクトル形状の値を決定し、かつ、第1のスペクトル形状の決定された値をshapeoldバッファに記憶することができ、第1のスペクトル形状はある数の副帯域を含む。操作905でデコーダ(1201、1301)は、第1の音響フレームの第1のフレームエネルギーを決定し、かつ、決定された第1のフレームエネルギーをE_woldバッファに記憶することができる。
操作907でデコーダ(1201、1301)は、MDCTに基づいて、受け取った音響信号の第2の音響フレームを復号することができる。操作909でデコーダ(1201、1301)は、第1のスペクトル形状の決定された値をshapeoldバッファからshapeooldバッファへ移すことができる。操作909は図3の操作303に対応し得る。操作911でデコーダ(1201、1301)は、決定された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すことができる。操作911は図3の操作305に対応し得る。
操作913でデコーダ(1201、1301)は、復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定し、かつ、第2のスペクトル形状の決定された値をshapeoldバッファに記憶することができ、第2のスペクトル形状は上記数の副帯域を含む。操作915でデコーダ(1201、1301)は、第2の音響フレームの第2のフレームエネルギーを決定し、かつ、計算された第2のフレームエネルギーをE_woldバッファに記憶することができる。
操作917でデコーダ(1201、1301)は、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換し、また、第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することができる。
操作919でデコーダ(1201、1301)は、第1のスペクトル形状の変換された値および第2のスペクトル形状の値に基づいて、置換フレームを作り出すために隠蔽方法が使用される場合に、失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出することができる。
操作921でデコーダ(1201、1301)は、上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正することができる。
1つの実施形態では、上で説明したスペクトル予測を使用して、国際特許出願第WO2014123471号および3GPP TS 25.447 V. 15.0.0 clause 5.4.3.5に記載されているような過渡計算および隠蔽適合における複雑性および処理オーバヘッドを低減することができる。Eoold(k)およびEold(k)を使用してエネルギー比率予測が計算され、また、Eoold(k)およびEold(k)のビンを使用して過渡検出を実施することができる。例えば図10を参照すると、操作1001で、上で説明したようにEoold(k)およびEold(k)の副帯域エネルギーを決定することができる。周波数グループ選択性過渡検出は、ここではEoold(k)およびEold(k)に関連するフレームのそれぞれの帯域エネルギー間の帯域による比率に基づき得る。
他の比率を使用することも可能である。
他の比率を使用することも可能である。
インターバルIk=[mk-1+1,...,mk]は周波数帯域
に対応しており、上式でfsは音響サンプリング周波数を表し、また、Npartはフレームのサイズに対応していることに留意されたい。最も低い下側の周波数帯域限界m0は0にセットすることができるが、周波数が低くなるほど大きくなる予測誤りを軽減するために、もっと高い周波数に対応するDFT指標にセットすることも可能である。最も高い上側の周波数帯域限界mKは
にセットすることができるが、依然として過渡が著しい可聴効果を有する幾分かより低い周波数に対応するように選択されることが好ましい。
に対応しており、上式でfsは音響サンプリング周波数を表し、また、Npartはフレームのサイズに対応していることに留意されたい。最も低い下側の周波数帯域限界m0は0にセットすることができるが、周波数が低くなるほど大きくなる予測誤りを軽減するために、もっと高い周波数に対応するDFT指標にセットすることも可能である。最も高い上側の周波数帯域限界mKは
にセットすることができるが、依然として過渡が著しい可聴効果を有する幾分かより低い周波数に対応するように選択されることが好ましい。
比率は、特定の閾値に対して比較することができる。例えば(周波数選択性)オンセット検出1003のためのそれぞれの上側の閾値、および(周波数選択性)オフセット検出1005のためのそれぞれの下側の閾値を使用することができる。エネルギー比率が上側の閾値を超えている場合、または下側の閾値未満である場合、操作1007で隠蔽方法を修正することができる。これらの操作は図9の操作919に対応している。
図9の操作921の隠蔽方法を修正する一例が図11に図解されている。隠蔽方法修正のこの実施形態では、置換フレームスペクトルの大きさおよび位相が決定される。大きさは、2つのファクターα(m)およびβ(m)を使用してスケーリングすることによって修正され、また、位相は付加的位相成分θ(m)を使用して修正される。これにより置換フレームの計算が導かれる。
上式でZ(m)は置換フレームスペクトルであり、α(m)は第1の大きさ減衰ファクターであり、β(m)は第2の大きさ減衰ファクターであり、Y(m)はプロトタイプフレームであり、θkは位相シフトであり、θ(m)は付加的位相成分である。
上式でZ(m)は置換フレームスペクトルであり、α(m)は第1の大きさ減衰ファクターであり、β(m)は第2の大きさ減衰ファクターであり、Y(m)はプロトタイプフレームであり、θkは位相シフトであり、θ(m)は付加的位相成分である。
この実施形態では、連続して観察されたフレーム損失の数nburstが決定され、ここでフレーム損失毎にバースト損失カウンタが1だけ増分され、また、有効フレームを受け取るとゼロにリセットされる。操作1101における大きさ適合は、操作1103で決定されるように、バースト損失カウンタnburstが何らかの閾値thrburst、例えばthrburst=3を超えると実施されることが好ましい。その場合、減衰ファクターには1よりも小さい値、例えばα(m)=0.1が使用される。大きさ減衰ファクターに関するさらなる適合は、操作1105で決定されるように、インジケータRold\oold,band(k)または別法としてRold\oold(m)あるいはRold\ooldが閾値を通過したことに基づいて過渡が検出された場合に実施することができる。その場合、操作1107における適切な適合アクションは、2つのファクターの積α(m)・β(m)によって総減衰が制御されるよう、第2の大きさ減衰ファクターβ(m)を修正することである。
β(m)は、示された過渡に応答して設定することができる。オフセットが検出される場合、ファクターβ(m)は、オフセットのエネルギー減少を反映するように選択することができる。適切な選択は、β(m)を検出された利得変化にセットすることである。
オンセットが検出される場合、どちらかと言えば、置換フレームにおけるエネルギー増加を制限することが有利であることが分かっている。その場合、ファクターを例えば1である何らかの固定された値にセットすることができ、これは減衰が存在していないことを意味しているが、増幅も全く存在していないことも同じく意味している。
操作1109における位相ディザリングの例は、国際特許出願第WO2014123471号(付録1を参照されたい)および3GPP_TS_26.447_v.15.0.0_2018_06, clause 5.4.3.5.3に記載されており、本明細書において詳細に説明する必要はない。
図12は、実施形態に従って使用することができるデコーダの略ブロック図である。デコーダ1201は、符号化された音響信号を受け取るように設定された入力ユニット1203を備えている。図11は、論理フレーム損失隠蔽ユニット1205によるフレーム損失隠蔽を図解したものであり、これは、デコーダが失われた音響フレームの隠蔽を上で説明した実施形態に従って実現するように設定されていることを示している。さらに、デコーダは、図3~図5および図9~図11に図解されている操作、および/またはそれぞれの例示的実施形態に関係して以下で考察される操作を含む、上で説明した実施形態を実現するためのコントローラ1207を備えている。
例えばコントローラ1207は、既に受け取られ、かつ、再構成された音響信号の特性、または元の非適合位相ECU方法による失われたフレームの置換が比較的低減された品質を提供する観察されたフレーム損失の統計的特性を決定するように設定することができる。このような状態が検出される場合、コントローラ1207は、上で説明したような位相またはスペクトルの大きさを選択的に調整することによって計算される置換フレームスペクトルに応じて隠蔽方法の要素を修正し、また、再生のために受信機に向けて音響フレームを出力するように設定することができる。受信機は、拡声器、拡声器デバイス、電話、等々を有するデバイスであってもよい。
デコーダはハードウェアの中で実現することができる。デコーダのユニットの機能を達成するために使用し、組み合わせることができる多くの様々な回路機構要素が存在している。このような変形形態は実施形態によって包含されている。デコーダのハードウェア実施態様の特定の例は、デジタル信号プロセッサ(DSP)ハードウェア、および汎用電子回路機構および特定用途向け回路機構の両方を含む集積回路技術における実施態様である。
本明細書において説明されているデコーダは、別法として、図3~図5および図9~図11に示されているように、本明細書において説明されている実施形態に従って音響フレーム損失隠蔽を実施することを含む音響信号の再構成のために、例えば図13に図解されているように実現することも可能であり、すなわちプロセッサ1305、およびそのための適切な記憶装置すなわちメモリ1311を有する適切なソフトウェア1309のうちの1つまたは複数によって実現することができる。入ってくる符号化された音響信号は、プロセッサ1305およびメモリ1311が接続されている入力(IN)1303によって受け取られる。ソフトウェアから得られた、復号され、かつ、再構成された音響信号は、再生のために出力(OUT)1307から受信機に向けて出力される。本明細書において考察されているように、デコーダ1301の操作はプロセッサ1305によって実施することができる。さらに、モジュールはメモリ1311に記憶することができ、また、これらのモジュールは命令を提供することができ、したがってモジュールの命令がプロセッサ1305によって実行されると、プロセッサ1305はそれぞれの操作を実施する。
上で説明した技術は、例えば、移動デバイス(例えば移動電話、ラップトップコンピュータ)、またはパーソナルコンピュータなどの据付けデバイスに使用することができる受信機に使用することができる。
対話ユニットまたはモジュール、ならびにユニットの名前付けの選択は、単に例示的目的のためにすぎず、開示されたプロセスアクションを実行することができるようにするために複数の代替方法で設定することができることを理解されたい。
略称
以下の略称のうちの少なくともいくつかは本開示に使用することができる。略称同士の間に矛盾が存在している場合、その略称が上でどのように使用されているかを優先するべきである。以下で複数回にわたって列挙されている場合、最初の列挙をすべての後続する列挙よりも優先すべきである。
略称 説明
ADC アナログ-デジタル変換器
BFI 不良フレームインジケータ
BFI_prev 先行するフレームの不良フレームインジケータ
DAC デジタル-アナログ変換器
FFT 高速フーリエ変換
MDCT 修正離散コサイン変換
参考文献
[1] 国際特許出願第WO2014123470号
[2] 国際特許出願第WO2014123471号
[3] 参照によりその全体が本明細書に組み込まれている3GPP TS 26.445 V15.1.0 (clauses 5.3.2.2 and 6.2.4.1)
[4] 参照によりその全体が本明細書に組み込まれている3GPP TS 26.447 V15.0.0 (clause 5.4.3.5)
以下の略称のうちの少なくともいくつかは本開示に使用することができる。略称同士の間に矛盾が存在している場合、その略称が上でどのように使用されているかを優先するべきである。以下で複数回にわたって列挙されている場合、最初の列挙をすべての後続する列挙よりも優先すべきである。
略称 説明
ADC アナログ-デジタル変換器
BFI 不良フレームインジケータ
BFI_prev 先行するフレームの不良フレームインジケータ
DAC デジタル-アナログ変換器
FFT 高速フーリエ変換
MDCT 修正離散コサイン変換
参考文献
[1] 国際特許出願第WO2014123470号
[2] 国際特許出願第WO2014123471号
[3] 参照によりその全体が本明細書に組み込まれている3GPP TS 26.445 V15.1.0 (clauses 5.3.2.2 and 6.2.4.1)
[4] 参照によりその全体が本明細書に組み込まれている3GPP TS 26.447 V15.0.0 (clause 5.4.3.5)
例示的実施形態の列挙
以下、例示的実施形態が考察される。参照番号/文字は、例示的実施形態を参照番号/文字によって示されている特定の要素に限定することなく、一例/例証として括弧に入れて提供されている。
1. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するためのコンピュータプロセッサによる方法であって、本方法は、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(307~309、903)、および計算された第1のスペクトル形状の値をshapeoldバッファに記憶することであって、第1のスペクトル形状はある数の副帯域を含む、第1のスペクトル形状の値を記憶することと、
音響フレームの第1のフレームエネルギーを決定すること(905)、および計算された第1のフレームエネルギーをE_woldバッファに記憶することと、
受け取った音響信号の第2の音響フレームを復号すること(907)と、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すこと(305、911)と、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)、および計算された第2のスペクトル形状の値をshapeoldバッファに記憶することであって、第2のスペクトル形状は上記数の副帯域を含む、第2のスペクトル形状の値を記憶することと、
第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された第2のフレームエネルギーをE_woldバッファに記憶することと、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること(917)と、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出すること(919)と、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正すること(921)と
を含む。
2. 実施形態1の方法であって、復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定することは、
MDCT係数の全体の大きさを決定すること(307)と、
第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を第1のスペクトル形状の値のうちの一値として記憶することと
を含む。
3. 実施形態2の方法であって、MDCT係数の全体の大きさは、
に従って決定され、上式でshape_totはMDCT係数の全体の大きさであり、NMDCTはMDCT係数の数であってサンプリング周波数に応じて決まり、また、q_d(n)はMDCT係数である。
4. 実施形態2~3のうちのいずれかの方法であって、個々の副帯域の正規化は、
に従って正規化され、上式でshapeold(k)は副帯域(k)のスペクトル形状であり、shape_totはMDCT係数の全体の大きさであり、q_d(n)はMDCT係数であり、NgrpはMDCT係数の数であり、grp_bin(k)は副帯域(k)におけるMDCT係数に対する開始指標であり、Ngrpは副帯域の数である。
5. 実施形態1~4のうちのいずれかの方法であって、第1のフレームエネルギーおよび第2のフレームエネルギーのフレームエネルギーは、
に従って決定され、上式でE_woldはフレームエネルギーであり、wwhrは長いFFTスペクトル解析ウィンドウであり、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される時間領域プロトタイプ信号であり、Lprotはxprev信号におけるサンプルの数である。
6. 実施形態1~5のうちのいずれかの方法であって、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、ならびに第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することは、第1のスペクトル形状の値および第1のフレームエネルギー、ならびに第2のスペクトル形状の値および第2のフレームエネルギーに変換ファクターを適用することを含む。
7. 実施形態6の方法であって、変換ファクターは復号のサンプリング周波数に応じて決まる。
8. 実施形態4~7のうちのいずれかの方法であって、
Eoold(k)が第1の表現であり、μが変換ファクターであり、shapeoold(k)が第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldが第1のフレームエネルギーであり、Eold(k)が第2の表現であり、shapeold(k)が第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldが第2のフレームエネルギーであり、Ngrpが副帯域の数である、
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること
をさらに含む。
9. 実施形態8の方法であって、
Eoold(k)およびEold(k)に基づいて副帯域過渡が閾値を超えているかどうかを決定すること(1105)と、
副帯域過渡が閾値を超えていることに応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整する(1107)ことによって隠蔽方法を修正することと
をさらに含む。
10. 実施形態9の方法であって、置換フレームスペクトルは、
の表現式に従って計算され、
また、スペクトルの大きさを調整することは、β(m)を調整すること(1107)を含み、ここで、Z(m)が置換フレームスペクトルであり、α(m)が第1の大きさ減衰ファクターであり、β(m)が第2の大きさ減衰ファクターであり、Y(m)がプロトタイプフレームであり、θkが位相シフトであり、また、θ(m)が付加的位相成分である。
11. 実施形態1~10のうちのいずれかの方法であって、
不良フレームインジケータを受け取ること(403、501)と、
不良フレームインジケータの受取りに応答して、shapeooldバッファおよびE_wooldエネルギーバッファをフラッシングすることと、
受け取った音響信号の新しい音響フレームを受け取ることと、
復号された新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された新しいスペクトル形状の値をshapeoldバッファおよびshapeooldバッファに記憶すること(405)であって、新しいスペクトル形状はある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された新しいフレームエネルギーをE_woldバッファおよびE_wooldバッファに記憶すること(407)と
をさらに含む。
12. 実施形態1~11のうちの任意の実施形態による操作を実施するように適合されたデコーダ装置(1201、1301)。
13. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するように設定されたデコーダ装置(1201、1301)であって、本デコーダ装置は、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号し、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定し、また、計算された第1のスペクトル形状の値をshapeoldバッファに記憶し、第1のスペクトル形状はある数の副帯域を含み、
音響フレームの第1のフレームエネルギーを決定し、また、計算された第1のフレームエネルギーをE_woldバッファに記憶し、
受け取った音響信号の第2の音響フレームを復号し、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移し、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移し、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定し、また、計算された第2のスペクトル形状の値をshapeoldバッファに記憶し、第2のスペクトル形状は上記数の副帯域を含み、
第2の音響フレームの第2のフレームエネルギーを決定し、また、計算された第2のフレームエネルギーをE_woldバッファに記憶し、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換し、また、第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換し、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出し、また、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正する
ように設定される。
14. 実施形態13のデコーダ装置であって、本デコーダ装置は実施形態2~11の操作を実施するように設定される。
15. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するように設定されたデコーダ装置(1201、1301)であって、本デコーダ装置は、
プロセッサ(1305)と、
メモリ(1311)であって、プロセッサによって実行されると、デコーダ装置(1201、1301)に、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(903)、および計算された第1のスペクトル形状の値をshapeoldバッファに記憶することであって、第1のスペクトル形状はある数の副帯域を含む、第1のスペクトル形状の値を記憶することと、
音響フレームの第1のフレームエネルギーを決定すること(905)、および計算された第1のフレームエネルギーをE_woldバッファに記憶することと、
受け取った音響信号の第2の音響フレームを復号すること(907)と、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すこと(305、911)と、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)、および計算された第2のスペクトル形状の値をshapeoldバッファに記憶することであって、第2のスペクトル形状は上記数の副帯域を含む、第2のスペクトル形状の値を記憶することと、
第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された第2のフレームエネルギーをE_woldバッファに記憶することと、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することと、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出すること(919)と、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正すること(921)と
を含む操作を実施させる命令を記憶するメモリ(1311)と
を備える。
16. 実施形態1のデコーダ装置であって、復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定するために、命令は、プロセッサによって実行されると、装置に、
MDCT係数の全体の大きさを決定すること(307)と、
第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を第1のスペクトル形状の値のうちの一値として記憶することと
を含む操作を実施させるさらなる命令を含む。
17. 実施形態16のデコーダ装置であって、MDCT係数の全体の大きさは、
に従って決定され、上式でshape_totはMDCT係数の全体の大きさであり、NMDCTはMDCT係数の数であってサンプリング周波数に応じて決まり、また、q_d(n)はMDCT係数である。
18. 実施形態16~17のうちのいずれかのデコーダ装置であって、個々の副帯域の正規化は、
に従って正規化され、上式でshapeold(k)は副帯域(k)のスペクトル形状であり、shape_totはMDCT係数の全体の大きさであり、q_d(n)はMDCT係数であり、grp_bin(k)は副帯域(k)におけるMDCT係数に対する開始指標であり、Ngrpは副帯域の数である。
19. 実施形態15~18のうちのいずれかのデコーダ装置であって、第1のフレームエネルギーおよび第2のフレームエネルギーのフレームエネルギーは、
に従って決定され、上式でE_woldはフレームエネルギーであり、wwhrは長いFFTスペクトル解析ウィンドウであり、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される時間領域プロトタイプ信号であり、Lprotはxprev信号におけるサンプルの数である。
20. 実施形態15~19のうちのいずれかのデコーダ装置であって、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換し、また、第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換するために、命令は、プロセッサによって実行されると、装置に、
第1のスペクトル形状の値および第1のフレームエネルギー、および第2のスペクトル形状の値および第2のフレームエネルギーに変換ファクターを適用すること
を含む操作を実施させるさらなる命令を含む。
21. 実施形態20のデコーダ装置であって、変換ファクターは復号のサンプリング周波数に応じて決まる。
22. 実施形態20~21のうちのいずれかのデコーダ装置であって、
Eoold(k)が第1の表現であり、μが変換ファクターであり、shapeoold(k)が第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldが第1のフレームエネルギーであり、Eold(k)が第2の表現であり、shapeold(k)が第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldが第2のフレームエネルギーであり、Ngrpが副帯域の数である、
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること
をさらに含む。
23. 実施形態22のデコーダ装置であって、命令は、プロセッサによって実行されると、装置に、
Eoold(k)およびEold(k)に基づいて副帯域過渡が閾値を超えているかどうかを決定すること(1105)と、
副帯域過渡が閾値を超えていることに応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整する(1107)ことによって隠蔽方法を修正することと
をさらに含む操作を実施させるさらなる命令を含む。
24. 実施形態22のデコーダ装置であって、置換フレームスペクトルは、
の表現式に従って計算され、
また、スペクトルの大きさを調整することは、β(m)を調整すること(1107)を含み、ここで、Z(m)が置換フレームスペクトルであり、α(m)が第1の大きさ減衰ファクターであり、β(m)が第2の大きさ減衰ファクターであり、Y(m)がプロトタイプフレームであり、θkが位相シフトであり、また、θ(m)が付加的位相成分である。
25. 実施形態1~10のうちのいずれかのデコーダ装置であって、命令は、プロセッサによって実行されると、装置に、
不良フレームインジケータを受け取ること(403、501)と、
不良フレームインジケータの受取りに応答して、shapeooldバッファおよびE_wooldエネルギーバッファをフラッシングすることと、
受け取った音響信号の新しい音響フレームを受け取ることと、
復号された新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された新しいスペクトル形状の値をshapeoldバッファおよびshapeooldバッファに記憶すること(405)であって、新しいスペクトル形状はある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された新しいフレームエネルギーをE_woldバッファおよびE_wooldバッファに記憶すること(407)と
をさらに含む操作を実施させるさらなる命令を含む。
以下、例示的実施形態が考察される。参照番号/文字は、例示的実施形態を参照番号/文字によって示されている特定の要素に限定することなく、一例/例証として括弧に入れて提供されている。
1. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するためのコンピュータプロセッサによる方法であって、本方法は、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(307~309、903)、および計算された第1のスペクトル形状の値をshapeoldバッファに記憶することであって、第1のスペクトル形状はある数の副帯域を含む、第1のスペクトル形状の値を記憶することと、
音響フレームの第1のフレームエネルギーを決定すること(905)、および計算された第1のフレームエネルギーをE_woldバッファに記憶することと、
受け取った音響信号の第2の音響フレームを復号すること(907)と、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すこと(305、911)と、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)、および計算された第2のスペクトル形状の値をshapeoldバッファに記憶することであって、第2のスペクトル形状は上記数の副帯域を含む、第2のスペクトル形状の値を記憶することと、
第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された第2のフレームエネルギーをE_woldバッファに記憶することと、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること(917)と、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出すること(919)と、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正すること(921)と
を含む。
2. 実施形態1の方法であって、復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定することは、
MDCT係数の全体の大きさを決定すること(307)と、
第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を第1のスペクトル形状の値のうちの一値として記憶することと
を含む。
3. 実施形態2の方法であって、MDCT係数の全体の大きさは、
に従って決定され、上式でshape_totはMDCT係数の全体の大きさであり、NMDCTはMDCT係数の数であってサンプリング周波数に応じて決まり、また、q_d(n)はMDCT係数である。
4. 実施形態2~3のうちのいずれかの方法であって、個々の副帯域の正規化は、
に従って正規化され、上式でshapeold(k)は副帯域(k)のスペクトル形状であり、shape_totはMDCT係数の全体の大きさであり、q_d(n)はMDCT係数であり、NgrpはMDCT係数の数であり、grp_bin(k)は副帯域(k)におけるMDCT係数に対する開始指標であり、Ngrpは副帯域の数である。
5. 実施形態1~4のうちのいずれかの方法であって、第1のフレームエネルギーおよび第2のフレームエネルギーのフレームエネルギーは、
に従って決定され、上式でE_woldはフレームエネルギーであり、wwhrは長いFFTスペクトル解析ウィンドウであり、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される時間領域プロトタイプ信号であり、Lprotはxprev信号におけるサンプルの数である。
6. 実施形態1~5のうちのいずれかの方法であって、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、ならびに第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することは、第1のスペクトル形状の値および第1のフレームエネルギー、ならびに第2のスペクトル形状の値および第2のフレームエネルギーに変換ファクターを適用することを含む。
7. 実施形態6の方法であって、変換ファクターは復号のサンプリング周波数に応じて決まる。
8. 実施形態4~7のうちのいずれかの方法であって、
Eoold(k)が第1の表現であり、μが変換ファクターであり、shapeoold(k)が第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldが第1のフレームエネルギーであり、Eold(k)が第2の表現であり、shapeold(k)が第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldが第2のフレームエネルギーであり、Ngrpが副帯域の数である、
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること
をさらに含む。
9. 実施形態8の方法であって、
Eoold(k)およびEold(k)に基づいて副帯域過渡が閾値を超えているかどうかを決定すること(1105)と、
副帯域過渡が閾値を超えていることに応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整する(1107)ことによって隠蔽方法を修正することと
をさらに含む。
10. 実施形態9の方法であって、置換フレームスペクトルは、
の表現式に従って計算され、
また、スペクトルの大きさを調整することは、β(m)を調整すること(1107)を含み、ここで、Z(m)が置換フレームスペクトルであり、α(m)が第1の大きさ減衰ファクターであり、β(m)が第2の大きさ減衰ファクターであり、Y(m)がプロトタイプフレームであり、θkが位相シフトであり、また、θ(m)が付加的位相成分である。
11. 実施形態1~10のうちのいずれかの方法であって、
不良フレームインジケータを受け取ること(403、501)と、
不良フレームインジケータの受取りに応答して、shapeooldバッファおよびE_wooldエネルギーバッファをフラッシングすることと、
受け取った音響信号の新しい音響フレームを受け取ることと、
復号された新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された新しいスペクトル形状の値をshapeoldバッファおよびshapeooldバッファに記憶すること(405)であって、新しいスペクトル形状はある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された新しいフレームエネルギーをE_woldバッファおよびE_wooldバッファに記憶すること(407)と
をさらに含む。
12. 実施形態1~11のうちの任意の実施形態による操作を実施するように適合されたデコーダ装置(1201、1301)。
13. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するように設定されたデコーダ装置(1201、1301)であって、本デコーダ装置は、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号し、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定し、また、計算された第1のスペクトル形状の値をshapeoldバッファに記憶し、第1のスペクトル形状はある数の副帯域を含み、
音響フレームの第1のフレームエネルギーを決定し、また、計算された第1のフレームエネルギーをE_woldバッファに記憶し、
受け取った音響信号の第2の音響フレームを復号し、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移し、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移し、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定し、また、計算された第2のスペクトル形状の値をshapeoldバッファに記憶し、第2のスペクトル形状は上記数の副帯域を含み、
第2の音響フレームの第2のフレームエネルギーを決定し、また、計算された第2のフレームエネルギーをE_woldバッファに記憶し、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換し、また、第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換し、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出し、また、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正する
ように設定される。
14. 実施形態13のデコーダ装置であって、本デコーダ装置は実施形態2~11の操作を実施するように設定される。
15. 受け取った音響信号の失われた音響フレームのための隠蔽方法を制御するように設定されたデコーダ装置(1201、1301)であって、本デコーダ装置は、
プロセッサ(1305)と、
メモリ(1311)であって、プロセッサによって実行されると、デコーダ装置(1201、1301)に、
修正離散コサイン変換(MDCT)に基づいて、受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(903)、および計算された第1のスペクトル形状の値をshapeoldバッファに記憶することであって、第1のスペクトル形状はある数の副帯域を含む、第1のスペクトル形状の値を記憶することと、
音響フレームの第1のフレームエネルギーを決定すること(905)、および計算された第1のフレームエネルギーをE_woldバッファに記憶することと、
受け取った音響信号の第2の音響フレームを復号すること(907)と、
計算された第1のスペクトル形状の値をshapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
計算された第1のフレームエネルギーをE_woldバッファからE_wooldバッファへ移すこと(305、911)と、
復号された第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)、および計算された第2のスペクトル形状の値をshapeoldバッファに記憶することであって、第2のスペクトル形状は上記数の副帯域を含む、第2のスペクトル形状の値を記憶することと、
第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された第2のフレームエネルギーをE_woldバッファに記憶することと、
第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することと、
第1の高速FFTの第1の表現および第2のFFTの第2の表現に基づいて、失われた音響フレームのための置換フレームを作り出すために隠蔽方法が使用される場合に、その失われた音響フレームのための置換フレームの最適以下の再構成品質をもたらし得る状態を検出すること(919)と、
上記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって隠蔽方法を修正すること(921)と
を含む操作を実施させる命令を記憶するメモリ(1311)と
を備える。
16. 実施形態1のデコーダ装置であって、復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定するために、命令は、プロセッサによって実行されると、装置に、
MDCT係数の全体の大きさを決定すること(307)と、
第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を第1のスペクトル形状の値のうちの一値として記憶することと
を含む操作を実施させるさらなる命令を含む。
17. 実施形態16のデコーダ装置であって、MDCT係数の全体の大きさは、
に従って決定され、上式でshape_totはMDCT係数の全体の大きさであり、NMDCTはMDCT係数の数であってサンプリング周波数に応じて決まり、また、q_d(n)はMDCT係数である。
18. 実施形態16~17のうちのいずれかのデコーダ装置であって、個々の副帯域の正規化は、
に従って正規化され、上式でshapeold(k)は副帯域(k)のスペクトル形状であり、shape_totはMDCT係数の全体の大きさであり、q_d(n)はMDCT係数であり、grp_bin(k)は副帯域(k)におけるMDCT係数に対する開始指標であり、Ngrpは副帯域の数である。
19. 実施形態15~18のうちのいずれかのデコーダ装置であって、第1のフレームエネルギーおよび第2のフレームエネルギーのフレームエネルギーは、
に従って決定され、上式でE_woldはフレームエネルギーであり、wwhrは長いFFTスペクトル解析ウィンドウであり、xprevは、潜在的に起ころうとしている失われたフレームのための置換を作り出すために使用される時間領域プロトタイプ信号であり、Lprotはxprev信号におけるサンプルの数である。
20. 実施形態15~19のうちのいずれかのデコーダ装置であって、第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換し、また、第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換するために、命令は、プロセッサによって実行されると、装置に、
第1のスペクトル形状の値および第1のフレームエネルギー、および第2のスペクトル形状の値および第2のフレームエネルギーに変換ファクターを適用すること
を含む操作を実施させるさらなる命令を含む。
21. 実施形態20のデコーダ装置であって、変換ファクターは復号のサンプリング周波数に応じて決まる。
22. 実施形態20~21のうちのいずれかのデコーダ装置であって、
Eoold(k)が第1の表現であり、μが変換ファクターであり、shapeoold(k)が第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldが第1のフレームエネルギーであり、Eold(k)が第2の表現であり、shapeold(k)が第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldが第2のフレームエネルギーであり、Ngrpが副帯域の数である、
Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速FFTに基づくスペクトル解析の第1の表現に変換すること、および第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること
をさらに含む。
23. 実施形態22のデコーダ装置であって、命令は、プロセッサによって実行されると、装置に、
Eoold(k)およびEold(k)に基づいて副帯域過渡が閾値を超えているかどうかを決定すること(1105)と、
副帯域過渡が閾値を超えていることに応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整する(1107)ことによって隠蔽方法を修正することと
をさらに含む操作を実施させるさらなる命令を含む。
24. 実施形態22のデコーダ装置であって、置換フレームスペクトルは、
の表現式に従って計算され、
また、スペクトルの大きさを調整することは、β(m)を調整すること(1107)を含み、ここで、Z(m)が置換フレームスペクトルであり、α(m)が第1の大きさ減衰ファクターであり、β(m)が第2の大きさ減衰ファクターであり、Y(m)がプロトタイプフレームであり、θkが位相シフトであり、また、θ(m)が付加的位相成分である。
25. 実施形態1~10のうちのいずれかのデコーダ装置であって、命令は、プロセッサによって実行されると、装置に、
不良フレームインジケータを受け取ること(403、501)と、
不良フレームインジケータの受取りに応答して、shapeooldバッファおよびE_wooldエネルギーバッファをフラッシングすることと、
受け取った音響信号の新しい音響フレームを受け取ることと、
復号された新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された新しいスペクトル形状の値をshapeoldバッファおよびshapeooldバッファに記憶すること(405)であって、新しいスペクトル形状はある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された新しいフレームエネルギーをE_woldバッファおよびE_wooldバッファに記憶すること(407)と
をさらに含む操作を実施させるさらなる命令を含む。
追加説明
一般に、本明細書において使用されているすべての用語は、異なる意味が明確に与えられていない限り、および/またはその用語が使用されている文脈から異なる意味がほのめかされていない限り、関係する技術分野におけるそれらの用語の元々の意味に従って解釈されたい。単数形の表現の要素、装置、構成要素、手段、ステップ、等々に対するすべての参照は、そうではないことが明確に言及されていない限り、要素、装置、構成要素、手段、ステップ、等々の少なくとも1つの実例を意味するものとして広義に解釈されたい。本明細書において開示されている何らかの方法のステップは、あるステップが別のステップに後続するものとして、もしくは別のステップに先行するものとして明確に説明されていない限り、および/またはあるステップを別のステップに後続させなければならない、もしくは別のステップに先行させなければならないことが暗に含まれていない限り、開示されている厳密な順序で実施する必要はない。本明細書において開示されている任意の実施形態の何らかの特徴は、適切である場合はいつでも、任意の他の実施形態に適用することができる。同様に、任意の実施形態の何らかの利点は任意の他の実施形態に適用することができ、その逆も真である。包含されている実施形態の他の目的、特徴および利点は、以下の説明から明らかになるであろう。
一般に、本明細書において使用されているすべての用語は、異なる意味が明確に与えられていない限り、および/またはその用語が使用されている文脈から異なる意味がほのめかされていない限り、関係する技術分野におけるそれらの用語の元々の意味に従って解釈されたい。単数形の表現の要素、装置、構成要素、手段、ステップ、等々に対するすべての参照は、そうではないことが明確に言及されていない限り、要素、装置、構成要素、手段、ステップ、等々の少なくとも1つの実例を意味するものとして広義に解釈されたい。本明細書において開示されている何らかの方法のステップは、あるステップが別のステップに後続するものとして、もしくは別のステップに先行するものとして明確に説明されていない限り、および/またはあるステップを別のステップに後続させなければならない、もしくは別のステップに先行させなければならないことが暗に含まれていない限り、開示されている厳密な順序で実施する必要はない。本明細書において開示されている任意の実施形態の何らかの特徴は、適切である場合はいつでも、任意の他の実施形態に適用することができる。同様に、任意の実施形態の何らかの利点は任意の他の実施形態に適用することができ、その逆も真である。包含されている実施形態の他の目的、特徴および利点は、以下の説明から明らかになるであろう。
以下、本明細書において企図されている実施形態のうちのいくつかについて、添付の図面を参照してより完全に説明する。しかしながら本明細書において開示されている主題の範囲内には他の実施形態が包含されており、開示されている主題は、本明細書において示されている実施形態のみに限定されるものとして解釈してはならず、そうではなくこれらの実施形態は、主題の範囲を当業者に伝えるための一例として提供されている。
本明細書において開示されている適切なステップ、方法、特徴、機能または利点は、すべて、1つもしくは複数の仮想装置の1つもしくは複数の機能ユニットまたはモジュールを介して実施することができる。個々の仮想装置は、多くのこれらの機能ユニットを備えることができる。これらの機能ユニットは、1つもしくは複数のマイクロプロセッサまたはマイクロコントローラ、ならびにデジタル信号プロセッサ(DSP)、および専用デジタル論理、等々を含むことができる他のデジタルハードウェアを含むことができる処理回路を介して実現することができる。処理回路は、メモリに記憶されているプログラムコードを実行するように設定することができ、メモリは、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、キャッシュメモリ、フラッシュメモリデバイス、光記憶デバイス、等々などの1つまたはいくつかのタイプのメモリを含むことができる。メモリに記憶されているプログラムコードは、1つもしくは複数の通信および/またはデータ通信プロトコル、ならびに本明細書において説明されている技法のうちの1つまたは複数を実施するための命令を実行するためのプログラム命令を含む。いくつかの実施態様では、処理回路を使用して、それぞれの機能ユニットに、本開示の1つまたは複数の実施形態による対応する機能を実施させることができる。
ユニットという用語は、電子工学、電気デバイスおよび/または電子デバイスの分野における従来の意味を有することができ、また、例えば、本明細書において説明されているようなそれぞれのタスク、手順、計算、出力および/または表示機能、等々を実施するための電気および/または電子回路機構、デバイス、モジュール、プロセッサ、メモリ、論理ソリッドステートおよび/または離散デバイス、コンピュータプログラムまたは命令を含むことができる。
本発明の概念の様々な実施形態についての上記説明では、本明細書において使用されている専門用語は、単に特定の実施形態を説明するためのものにすぎず、本発明の概念を制限することは意図されていないことを理解されたい。そうではないことが規定されていない限り、本明細書において使用されているすべての用語(技術的用語および科学的用語を含む)は、本発明の概念が属している当業者によって広く理解されている意味と同じ意味を有している。広く使用されている辞書に規定されているような用語は、本明細書および関係する技術の文脈におけるそれらの意味と無矛盾の意味を有しているものとして解釈されるべきであることはさらに理解され、また、本明細書においてそのように明確に規定されていない限り、理想化された、あるいはあまりにも型通りの意味で解釈されることはないものと思われる。
要素が別の要素に「接続されている」、「結合されている」、「に応答する」またはそれらの変形として参照されている場合、その要素は、他の要素に直接接続し、結合し、または応答することができ、あるいは介在する要素が存在していてもよい。それとは対照的に、要素が別の要素に「直接接続されている」、「直接結合されている」、「直接応答する」またはそれらの変形として参照されている場合、介在する要素は存在していない。同様の番号は、全体を通して同様の要素を表している。さらに、本明細書において使用されている「結合された」、「接続された」、「応答する」またはそれらの変形は、無線で結合された、接続された、または応答する、を含むことができる。本明細書において使用される場合、単数形の表現には、文脈が単数形の表現であることを明確に示していない限り、複数形の表現を同じく含むことが意図されている。よく知られている機能または構造は、簡潔にするために、および/または分かりやすくするために、場合によっては詳細に説明されていない。「および/または」という用語は、列挙されている関係する項目のうちの1つまたは複数の任意の組合せおよびすべての組合せを含む。
第1の、第2の、第3の、等々という用語は、本明細書においては様々な要素/操作を説明するために使用され得るが、これらの要素/操作は、これらの用語によって制限されてはならないことは理解されよう。これらの用語は、単に1つの要素/操作を別の要素/操作から区別するために使用されているにすぎない。したがっていくつかの実施形態における第1の要素/操作は、他の実施形態では、本発明の概念の教示から逸脱することなく第2の要素/操作と称することも可能である。同じ参照数表示または同じ参照指名子は、本明細書全体を通して同じまたは同様の要素を表している。
本明細書において使用される場合、「備える」、「備えている」、「含む」、「含んだ」、「有する」、「有している」またはそれらの変形はオープンエンドであり、また、1つもしくは複数の言及されている特徴、整数、要素、ステップ、構成要素または機能を含むが、1つもしくは複数の他の特徴、整数、要素、ステップ、構成要素、機能またはそれらのグループの存在または追加を前もって排除しない。さらに、本明細書において使用される場合、「例えば」を使用して、一般的な一例または既に言及されている項目の例を紹介し、あるいは明記することがあるが、これは、このような項目を制限することは意図されていない。「すなわち」を使用して、より一般的な記載から特定の項目を明記することがある。
例示的実施形態は、本明細書においては、コンピュータ実現方法、装置(システムおよび/もしくはデバイス)ならびに/またはコンピュータプログラム製品のブロック図および/またはフローチャート図解を参照して説明されている。ブロック図および/またはフローチャート図解のブロック、ならびにブロック図および/またはフローチャート図解におけるブロックの組合せは、1つまたは複数のコンピュータ回路によって実施されるコンピュータプログラム命令によって実現することができることを理解されたい。これらのコンピュータプログラム命令は、コンピュータおよび/または他のプログラマブルデータ処理装置のプロセッサを介して実行する命令が、トランジスタ、記憶場所に記憶されている値、およびこのような回路機構内の他のハードウェア構成要素を変換し、かつ、制御して、ブロック図および/または1つもしくは複数のフローチャートブロックに明記されている機能/行為を実現し、それによりブロック図および/もしくはフローチャートブロックに明記されている機能/行為を実現するための手段(機能性)ならびに/または構造を作り出すよう、汎用コンピュータ回路、専用コンピュータ回路および/または他のプログラマブルデータ処理回路のプロセッサ回路に提供して機械を製造することができる。
また、これらのコンピュータプログラム命令は、コンピュータ可読媒体に記憶されている命令が、ブロック図および/または1つもしくは複数のフローチャートブロックに明記されている機能/行為を実現する命令を含む製造物品をもたらすよう、コンピュータまたは他のプログラマブルデータ処理装置を導いて特定の方法で機能させることができる有形コンピュータ可読媒体に記憶することができる。したがって本発明の概念の実施形態は、ハードウェアの中および/または集合的に「回路機構」、「モジュール」もしくはその変形と呼ぶことができるデジタル信号プロセッサなどのプロセッサ上で走るソフトウェア(ファームウェア、常駐ソフトウェア、マイクロコード、等々を含む)の中で具体化することができる。
いくつかの代替実施態様では、ブロックの中に記されている機能/行為は、フローチャートの中に記されている順序から外れて生じ得ることに同じく留意されたい。例えば連続して示されている2つのブロックは、実際、実質的に同時に実行することができ、あるいはブロックは、含まれている機能性/行為に応じて時によっては逆の順序で実行することも可能である。さらに、フローチャートおよび/もしくはブロック図の所与のブロックの機能性は、複数のブロックに分割することも可能であり、ならびに/またはフローチャートおよび/もしくはブロック図の2つ以上のブロックの機能性は、少なくとも部分的に統合することができる。最後に、図解されているブロック同士の間に他のブロックを追加/挿入することも可能であり、および/またはブロック/操作は、本発明の概念の範囲から逸脱することなく省略することができる。さらに、線図のうちのいくつかは、通信の主方向を示すための矢印を通信経路上に含んでいるが、通信は、描かれている矢印とは逆の方向に生じ得ることを理解されたい。
本発明の概念の原理から実質的に逸脱することなく、多くの変更および修正を実施形態に加えることができる。すべてのこのような変更および修正は、本明細書においては、本発明の概念の範囲内に含まれることが意図されている。したがって上で開示した主題は、制限的なものではなく、説明的なものと見なすべきであり、実施形態の例には、本発明の概念の思想および範囲の範疇であるすべてのこのような修正、改良、および他の実施形態を網羅することが意図されている。したがって本発明の概念の範囲は、法律によって許容される最大の範囲まで、実施形態の例およびそれらの等価物を含む本開示の最も広義の許容可能解釈によって決定されるべきであり、以上の詳細な説明によって限定または制限されるべきではない。付録1は本開示の一部を形成している。
付録1
[発明の名称]オーディオフレーム損失のコンシールメントを制御する方法及び装置
[技術分野]
[0001]
本発明は、受信したオーディオ信号の損失オーディオフレームに対するコンシールメント(concealment)方法を制御する方法及び装置に関する。
[背景技術]
[0002]
従来のオーディオ通信システムは、音声信号及びオーディオ信号をフレームごとに送信する。送信側は、まず信号を例えば20~40msの短いセグメント又はフレームとして配列する。これらは順次、符号化され、例えば送信パケットにおける論理ユニットとして送信される。受信機は、それらの論理ユニットの各々を復号化し、対応する信号フレームを再構成する。再構成されたフレームは、最終的には再構成信号サンプルの連続シーケンスとして出力される。符号化に先立って、マイクロホンからのアナログ音声信号又はアナログオーディオ信号をオーディオサンプルのシーケンスに変換するアナログ/デジタル(A/D)変換ステップが通常実行される。逆に、受信端では、再構成デジタル信号サンプルをスピーカ再生のための連続時間アナログ信号に変換する最終D/A変換ステップが通常実行される。
[0003]
しかし、音声信号及びオーディオ信号のそのような送信システムにおいては、送信エラーが生じ、これにより送信フレームのうち1つ又はいくつかを受信機で再構成のために利用できないという状況が起きる可能性がある。その場合、デコーダは、消失したフレーム、すなわち利用不可能なフレームの各々に対して代替の信号を生成する必要がある。これは、受信側信号デコーダのいわゆるフレーム損失コンシールメント(frame loss concealment)ユニット又はエラーコンシールメント(error concealment)ユニットで実行される。フレーム損失コンシールメントの目的は、フレーム損失を可能な限り聴き取れないようにし、それにより、フレーム損失が再構成信号の品質に与える影響を可能な限り軽減することである。
[0004]
従来のフレーム損失コンシールメント方法は、コーデックの構造又はアーキテクチャに依存して、例えば過去に受信されたコーデックパラメータを反復して適用するというものである。そのようなパラメータ反復技術は、使用されるコーデックの特定のパラメータに明らかに依存しており、従って、異なる構造を有する他のコーデックには容易に適用することはできない。従来のフレーム損失コンシールメント方法は、損失フレームに対する代替フレームを生成するために、例えば過去に受信されたフレームのパラメータのフリーズと外挿を行うというものがある。
[0005]
従来技術によるこれらのフレーム損失コンシールメント方法は、何らかのバースト損失処理方法を含む。一般に、1つの列の中のいくつかのフレーム損失があると、合成信号は、長いエラーのバーストの後に完全に消音されるまで減衰される。更に、基本的に反復され外挿される符号化パラメータは、減衰が実現されスペクトルのピークが平坦化されるよう修正される。
[0006]
従来のフレーム損失コンシールメント技術は、通常、損失フレームに対する代替フレームを生成するために、通常、過去に受信されたフレームのパラメータをフリーズして外挿を行うという概念を適用する。AMR又はAMR-WBなどの線形予測コーデックのような多くのパラメトリック音声コーデックは、通常、過去に受信されたパラメータをフリーズするか又はその何らかの外挿を使用し、そのようなパラメータとともにデコーダを使用する。本質的には、この原理は、符号化/復号化のために所定のモデルを設定し、フリーズされたパラメータ又は外挿されたパラメータによって同一のモデルを適用するというものである。AMR及びAMR-WBのフレーム損失コンシールメント技術は代表的な技術であると考えることができる。それらの技術は、対応する規格仕様書の中で詳細に記述されている。
[0007]
各種あるオーディオコーデックのうちの多くのコーデックは、何らかの周波数領域変換の後にスペクトルパラメータに符号化モデルが適用される周波数領域符号化技術を適用する。デコーダは、受信したパラメータから信号スペクトルを再構成し、最終的にスペクトルを変換して時間信号に戻す。通常、時間信号はフレームごとに再構成される。そのようなフレームは、オーバラップ加算技術により最終再構成信号として合成される。そのオーディオコーデックの場合であっても、従来のエラーコンシールメントは、損失フレームに対して同一の又は少なくとも類似する復号化モデルを通常適用する。過去に受信されたフレームからの周波数領域パラメータがフリーズされるか又は適切に外挿され、その後、周波数/時間領域変換で使用される。そのような技術の例は、3GPP規格に準拠した3GPPオーディオコーデックによって提供される。
[発明の概要]
[0008]
従来技術によるフレーム損失コンシールメントの方法では、一般に、品質の不足が問題となる。例えば、パラメータのフリーズ、外挿技術や損失フレーム対しても同一のデコーダモデルを再適用することによって、必ずしも、過去に復号化された信号フレームから損失フレームへの円滑かつ忠実な信号発展(signal evolution)が保証されるものではないということが主な問題点である。そのため、可聴信号はしばしば不連続になり、品質にも影響が出る。
[0009]
音声及びオーディオ伝送システムの新規なフレーム損失コンシールメント方式を説明する。新規な方式により、従来のフレーム損失コンシールメント技術で実現可能であった品質と比較して、フレーム損失の場合の品質が改善される。
[0010]
本発明の実施形態の目的は、以下に説明される関連する新規な種類の方法であるのが好ましいフレーム損失コンシールメント方式を、可能な限り最良の再構成信号音質が実現されるように制御することである。実施形態は、信号の特性及びフレーム損失の時間的分布の双方に関して再構成品質を最適化することを目的とする。高い品質を提供することに関してフレーム損失コンシールメントで特に問題になるのは、オーディオ信号がエネルギーの立ち上がりや立ち下がりのような大きく変化する特性を有する場合、又はオーディオ信号のスペクトルが非常に大きく変動する場合である。その場合、説明したコンシールメント方法では、上記立ち上がり、立ち下がり、又はスペクトルの変動を繰り返してしまい、原信号から大きな変化して品質が劣化する。
[0011]
問題となる別のケースは、フレーム損失のバーストが連続的に起こる場合である。概念的には、説明した方法に係るフレーム損失コンシールメント方法では、そのような場合に対処しても、依然として音のアーチファクト(tonal artifacts)を生じてしまう。本発明の実施形態の別の目的は、そのような音のアーチファクトを可能な限り大きく軽減することである。
[0012]
第1の態様によれば、損失オーディオフレームのコンシールメントを行うデコーダの方法は、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の
統計的特性における、損失フレームの代替によって品質が相対的に低下するような条件を検出するステップを含む。そのような条件が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正する。
[0013]
第2の態様によれば、デコーダは損失オーディオフレームのコンシールメントを実現するように構成される。デコーダは、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替により品質が相対的に低下するような条件を検出するコントローラを備える。そのような条件が検出された場合、コントローラは、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することによりコンシールメント方法を修正する。
[0014]
デコーダは、例えば移動電話などの装置で実現可能である。
[0015]
第3の態様によれば、受信機は、上述の第2の態様に係るデコーダを備える。
[0016]
第4の態様によれば、損失オーディオフレームのコンシールメントを行うためのコンピュータプログラムが定義される。コンピュータプログラムは、プロセッサにより実行されると、プロセッサに上述の第1の態様に従って損失オーディオフレームのコンシールメントを行わせる命令を含む。
[0017]
第5の態様によれば、コンピュータプログラム製品は、上述の第4の態様に係るコンピュータプログラムを記憶するコンピュータ読み取り可能な媒体を備える。
[0018]
一実施形態の利点は、従来のコンシールメント方法のみの場合に実現される品質と比較して、符号化音声信号及び符号化オーディオ信号の伝送におけるフレーム損失による音質への影響を大きく軽減できるフレーム損失コンシールメント方法の適応制御が実現されることである。実施形態の一般的利点は、損失フレームに対しても円滑かつ忠実な再構成信号の発展(evolution)が提供されることである。フレーム損失の聴感上の影響は、従来技術と比べて大幅に低減される。
[図面の簡単な説明]
[0019]
[図1]方形窓関数を示す図。
[図2]ハミング窓と方形窓との組み合わせを示す図。
[図3]窓関数の振幅スペクトルの一例を示す図。
[図4]周波数fkの例示的な正弦波信号の線スペクトルを示す図。
[図5]周波数fkの窓掛け後の正弦波信号のスペクトルを示す図。
[図6]分析フレームに基づくDFTのグリッドポイントの大きさに対応するバーを示す図。
[図7]DFTグリッドポイントP1、P2及びP3を通るパラボラフィッティングを示す図。
[図8]窓スペクトルのメインローブのフィッティングを示す図。
[図9]DFTグリッドポイントP1及びP2を通るメインローブ近似関数Pのフィッティングを示す図。
[図10]受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る例示的な方法を示すフローチャート。
[図11]受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る別の例示的な方法を示すフローチャート。
[図12]本発明の別の例示的な実施形態を示す図。
[図13]本発明の一実施形態に係る装置の一例を示す図。
[図14]本発明の一実施形態に係る装置の別の例を示す図。
[図15]本発明の一実施形態に係る装置の別の例を示す図。
[発明を実施するための形態]
[0020]
説明する新規なフレーム損失コンシールメント技術に関する新規な制御方式は、図10に示されるような以下のステップを含む。なお、方法はデコーダのコントローラによって実行可能である。
[0021]
1.前述の方法では損失フレームの代替によって音質が劣化してしまうような、過去に受信され再構成されたオーディオ信号の特性または観測されたフレーム損失の統計的特性の状態を検出する(101)。
[0022]
2.ステップ1でそのような状態が検出された場合、位相又はスペクトル振幅を選択的に調整することにより、Z(m)=Y(m)・ejθ kによって代替フレームスペクトルを計算する方法の要素を修正する(102)。
[0023]
(正弦波分析)
新規な制御技術が適用されうるフレーム損失コンシールメント技術の第1のステップは、過去に受信された信号の一部の正弦波分析(sinusoidal analysis)を含む。この正弦波分析の目的は、その信号の主正弦波の周波数を特定することである。これは、限定された数の個別の正弦波から信号が構成されていること、すなわち信号が以下に示す種類のマルチ正弦波信号であることが、基本的な前提となっている。
[0024]
ただし、Kは、信号を構成すると想定される正弦波の数である。添字k=1…Kの各正弦波に対して、akは振幅、fkは周波数、φkは位相である。サンプリング周波数はfsで表され、時間離散信号サンプルs(n)の時間インデックスはnで表される。
[0025]
可能な限り正確な正弦波の周波数を特定することが第1に重要である。理想的な正弦波信号は線周波数fkの線スペクトルを有すると考えられるが、その真の値を特定するには、原理上、無限の測定時間が必要になるであろう。従って、実際には、本明細書において説明される正弦波分析に使用される信号セグメントに対応する短時間の測定に基づいて線周波数を推定することしかできないので、線周波数を発見するのは難しい。以下の説明中、この信号セグメントは分析フレームと呼ばれる。別の困難な問題は、信号が実際には時変信号であり、上記の式のパラメータが時間の経過に伴って変動するということである。そこで、測定をより正確にするためには長い分析フレームを使用することが望ましいが、起こりうる信号変動に更に適切に対応するためには、測定時間を短縮することが必要になる。その適切なトレードオフとしては、例えば20~40ms程度の長さの分析フレームを使用することである。
[0026]
正弦波の周波数fkを特定可能にする好適な方法は、分析フレームの周波数領域分析を実行することである。この目的のために、例えばDFT又はDCT、あるいは類似する周波数領域変換によって、分析フレームは周波数領域に変換される。分析フレームのDFTが使用される場合、スペクトルは次式により表される。
[0027]
ただし、w(n)は、長さLの分析フレームを抽出し重み付けする窓関数を表す。典型的な窓関数は、例えば、図1に示されるようなn∈ [0…L-1]に対して1であり、その他の場合は0である方形窓である。過去に受信されたオーディオ信号の時間指標は、分析フレームが時間指標n=0…L-1により参照されるように設定されると想定する。スペクトル分析に更に適すると思われる他の窓関数としては、例えばハミング窓、ハニング窓、カイザー窓又はブラックマン窓がある。特に有用であるとわかっている窓関数は、ハミング窓と方形窓との組み合わせである。図2に示されるように、この窓は、長さL1のハミング窓の左半分のような立ち上がり端形状及び長さL1のハミング窓の右半分のような立ち下がり端形状を有し、立ち上がり端と立ち下がり端との間で、窓は、長さL-L1の場合に1に等しい。
[0028]
窓分析フレーム|X(m)|の振幅スペクトルのピークは、必要とされる正弦波周波数fkの近似を構成する。しかし、この近似の正確度は、DFTの周波数間隔により限定される。ブロック長LのDFTの場合、正確度はfs/(2L)に限定される。
[0029]
実験によれば、このレベルの正確度は、本明細書において説明される方法の範囲内では低すぎるかもしれない。以下のことを考慮した結果に基づき、正確度の改善を得ることができる。
[0030]
窓分析フレームのスペクトルは、正弦波モデル信号S(Ω)の線スペクトルによる窓関数のスペクトルの畳み込みと、その後に続く次式のDFTのグリッドポイントにおけるサンプリングによって与えられる。
[0031]
[0032]
正弦波モデル信号のスペクトル表現を使用することにより、これを次のように書き換えることができる。
[0033]
[0034]
従って、サンプリングされたスペクトルは次式により表される。
[0035]
ただし、m=0…L-1
[0036]
この考えに基づき、分析フレームの振幅スペクトルの中で観測されるピークは、それらのピークの近傍で真の正弦波周波数が特定されるK個の正弦波を含む窓掛け後正弦波信号
に由来するものと想定される。観測されたk番目のピークのDFTインデックス(グリッドポイント)をmkとすると、対応する周波数は、
であり、これは、真の正弦波周波数fkの近似であるとみなすことができる。真の正弦波周波数fkは、区間
の中にあると想定できる。
[0037]
なお、明確にするため、正弦波モデル信号の線スペクトルのスペクトルによる窓関数のスペクトルの畳み込みは、窓関数スペクトルの周波数シフトバージョンの重畳であると理解することができ、このため、シフト周波数は正弦波の周波数である。次に、この重畳はDFTグリッドポイントでサンプリングされる。それらのステップは図3以降の図により示される。図3は窓関数の振幅スペクトルの一例を示す。図4は、周波数の1つの正弦波と共に正弦波信号の一例の振幅スペクトル(線スペクトル)を示す。図5は、正弦波の周波数における周波数シフト窓スペクトルを再現し、重畳する窓掛け後正弦波信号の振幅スペクトルを示す。図6の点線は、分析フレームのDFTを計算することにより取得された窓掛け後正弦波におけるDFTのグリッドポイントの振幅に対応する。なお、すべてのスペクトルは正規化周波数パラメータΩによって周期的である。ここで、Ωは、サンプリング周波数fsに対応する2πである。
[0038]
先の説明及び図6は、使用される周波数領域変換の周波数分解能と比較して探索の分解能を増加させることによってのみ、正弦波周波数をよりよく近似できることを示唆する。
[0039]
正弦波の周波数fkの更によい近似を発見する好適な方法の1つは、放物線補間(parabolic interpolation)を適用することである。そのような方式の1つは、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してパラボラフィッティングを行い、放物線最大値に属する各々の周波数を計算することである。放物線の次の適切な選択肢は2である。詳細には、以下の手順を適用することができる。
[0040]
1.窓掛け後分析フレームのDFTのピークを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。
[0041]
2.対応するDFTインデックスmkを有するピークk(k=1…K)ごとに、3つのポイント
を通してパラボラフィッティングを行う。その結果、次式により定義される放物線の放物線係数bk(0)、bk(1)、bk(2)が得られる。
[0042]
このパラボラフィッティングは、図7に示される。
[0043]
3.K個の放物線の各々に対して、その放物線が最大値を有するqの値に対応する補間周波数インデックス
を計算する。正弦波周波数fkの近似として
を使用する。
[0044]
説明した方式は良好な結果を提供するが、放物線は、窓関数の振幅スペクトル|W(Ω)|のメインローブの形状を近似しないので、いくつかの制限があるかもしれない。これを実行する代替方式は、以下に説明されるように、メインローブ近似を使用する改良型周波数推定である。この代替方式の主要な概念は、
のメインローブを近似する関数P(q)を、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してフィッティングし、関数最大値に属する各々の周波数を計算することである。関数P(q)は、窓関数の周波数シフト振幅スペクトル
と同一でありうる。しかし、数値的に単純にするために、これを関数最大値の容易な計算を可能にする多項式にすべきである。以下に詳細に説明される手順を適用できる。
[0045]
1.窓分析フレームのDFTのポイントを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。
[0046]
2.所定の区間(q1,q2)に対して窓関数の振幅スペクトル
または対数振幅スペクトル
を近似する関数P(q)を取り出す。窓スペクトルのメインローブを近似する近似関数の選択は、図8により示される。
[0047]
3.対応するDFTインデックスmkを伴うピークk(k=1…K)ごとに、窓正弦波信号の連続スペクトルの予想される真のピークを取り囲む2つのDFTグリッドポイント
を通して周波数シフト関数
のフィッティングを行う。従って、
|X(mk-1)|が|X(mk+1)|より大きい場合、ポイント
を通して
のフィッティングを行い、そうでない場合、ポイント
を通して
のフィッティングを行う。簡単にするため、P(q)を2次又は4次のいずれかの多項式として選択できる。これにより、ステップ2の近似は単純な線形回帰計算及び
の簡単な計算となる。区間(q1、q2)は、すべてのピークに対して一定かつ同一になるように選択でき、例えば(q1、q2)=(-1,1)であるか、又は適応的である。適応的方式の場合、関数
が関連するDFTグリッドポイント{P1;P2}の範囲内で窓関数スペクトルのメインローブのフィッティングを行うように、区間を選択できる。このフィッティング処理は図9に示される。
[0048]
4.窓正弦波信号の連続スペクトルがピークを有すると予測されるK個の周波数パラメータ
の各々に対して、
を正弦波周波数fkの近似として計算する。
[0049]
送信された信号が高調波である場合、何らかの基本周波数f0の整数倍数であるような周波数を有する正弦波から信号が構成される場合が多い。これは、信号が例えば有声音声又は何らかの楽器の持続音のように非常に周期的である場合である。実施形態の正弦波モデルの周波数は周波数依存ではなく、同一の基本周波数に対して高調波の関係にあり、同一の基本周波数に由来する。この高調波特性を考慮に入れることにより、結果的に正弦波成分周波数の分析を相当に改善できる。
[0050]
改善の可能性の1つの概要は次の通りである。
[0051]
1.信号が高調波であるか否かを検査する。これは、例えば、フレーム損失以前の信号の周期性を評価することにより実行可能である。簡単な方法の1つは信号の自動相関分析を実行することである。何らかの時間遅延τ>0に関する自動相関関数の最大値を指標として使用できる。この最大値の値が所定の閾値を超えた場合、信号は高調波であるとみなすことができる。その場合、対応する時間遅延τは、
によって基本周波数と関連する信号の周期に対応する。
[0052]
多くの線形予測音声符号化法は、適応コードブックを使用していわゆる開ループ又は閉ループピッチ予測符号化、すなわちCELP符号化を適用する。信号が高調波である場合、そのような符号化方法により取り出されるピッチゲイン及び関連するピッチラグパラメータも、時間遅延に関してそれぞれ有用な指標である。
[0053]
f0を取得する更なる方法を以下に説明する。
[0054]
2.整数範囲1…Jmaxの中の高調波インデックスjごとに、高調波周波数fj=j・f0の近傍に分析フレームの(対数)DFT振幅スペクトルのピークが存在するか否かを検査する。fjの近傍は、デルタがDFTの周波数分解能DFT(fs/L)に対応するfjの周囲のデルタ範囲、すなわち区間
として定義されうる。対応する推定正弦波周波数
を有するピークが存在する場合、f^kをf^k=j・f0と置換する。
[0055]
上記の2ステップ手順の場合、信号が高調波であるか否かの検査及び基本周波数の偏移を黙示的に、おそらくは反復方式で必ずしも何らかの別の方法からの指標を使用せずに取り出すことも可能である。そのような技術の一例を以下に示す。
[0056]
候補値{f0,1…f0,P}の集合の中からのf0,pごとに、
を置換することなく、高調波周波数の周囲の近傍に存在するDFTピークの数、すなわちf0,pの整数倍数をカウントしつつ、手順のステップ2を適用する。高調波周波数に又はその周囲に最大数のピークが取得される基本周波数f0,pmaxを特定する。このピークの最大数が所定の閾値を超えた場合、信号は高調波であると想定される。その場合、f0,pmaxは、ステップ2の実行に際して使用され、その結果、改善された正弦波周波数f^kをもたらす基本周波数であると想定できる。しかし、これに代わる更に好適な方法は、まず、高調波周波数と一致することがわかっているピーク周波数f^kに基づいて基本周波数f0を最
適化することである。M個の高調波より成る集合、すなわち、周波数f^k(m), m = 1…MでM個のスペクトルピークの何らかの集合と一致することがわかっている何らかの基本周波数の整数倍数{n1…nM}を想定すると、基礎を成す(最適化)基本周波数f0,optは、高調波周波数とスペクトルピーク周波数との誤差を最小限にするように計算できる。最小にすべき誤差が平均2乗誤差
である場合、最適基本周波数は、
として計算される。候補値の初期集合{f0,1…f0,P}は、DFTピークの周波数又は推定正弦波周波数
から取得できる。
推定正弦波周波数
の正確度を改善する更なる可能性は、その時間発展(temporal evolution)を考慮することである。その目的のために、複数の分析フレームからの正弦波周波数の推定値を例えば平均化又は予測によって組み合わせることができる。平均化又は予測に先立って、各推定スペクトルピークを同一の基調となる各正弦波に結び付けるピーク追跡を適用することができる。
[0057]
(正弦波モデルの適用)
以下、フレーム損失コンシールメント演算を実行するための正弦波モデルの適用について説明する。
[0058]
対応する符号化情報が利用不可能であるため符号化信号の所定のセグメントをデコーダにより再構成できない場合を想定する。更に、このセグメントより過去の信号の部分が利用可能であるとする。y(n)(ただし、n=0…N-1)を、代替フレームz(n)が生成されなければならない利用不可能セグメントであるとし、n<0の場合のy(n)を、過去に復号された利用可能信号であるとする。この場合、第1のステップにおいて、長さL及び開始インデックスn-1の利用可能信号のプロトタイプフレームが窓関数w(n)によって抽出され、例えば次式のDFTによって周波数領域に変換される。
[0059]
[0060]
窓関数は、先に正弦波分析に関して説明した窓関数のうち1つでありうる。数値の複雑さを軽減するために、周波数領域変換後のフレームは、正弦波分析において使用されるフレームと同一であるのが好ましい。
[0061]
次のステップにおいて、想定正弦波モデルが適用される。想定正弦波モデルによれば、プロトタイプフレームのDFTを次のように書き表すことができる。
[0062]
[0063]
次のステップは、使用される窓関数のスペクトルが0にごく近い周波数範囲において重大な寄与をすると理解することである。図3に示されるように、窓関数の振幅スペクトルは、0にごく近い周波数に対しては大きく、そうでない周波数に対しては小さい(サンプリング周波数の2分の1に対応する-π~πの正規化周波数範囲内)。従って、近似として、窓スペクトルW(m)は、区間M= [-mmin,mmax](mmin及びmmaxは小さな正の整数)に対してのみ0ではないと仮定する。特に、窓関数スペクトルの近似は、kごとに、上記の式中のシフトされた窓スペクトルの寄与が厳密に互いに重なり合わないように使用される。上記の式において、周波数インデックスごとに、1つの被加数からの、すなわち1つのシフトされた窓スペクトルからの寄与のみが常に最大である。これは、上記の式が下記の近似式に縮小されることを意味する。
[0064]
非負であるm∈Mkに対して、kごとに、
[0065]
ここで、Mkは、整数区間
を示し、mmin,k及びmmax,kは、区間が互いに重なり合わないようにするという先に説明した制約に適合する。mmin,k及びmmax,kの適切な選択は、それらの値を小さな整数値δ、例えばδ=3に設定することである。しかし、2つの隣接する正弦波周波数fk及びfk+1に関連するDFTインデックスが2δより小さい場合、区間が重なり合わないことが保証されるように、δは、
に設定される。関数floor(・)は、それ以下である関数引数に最も近い整数である。
[0066]
一実施形態による次のステップは、上記の式による正弦波モデルを適用し、そのK個の正弦波を時間的に発展(evolve)させることである。プロトタイプフレームの時間インデックスと比較して、消去セグメントの時間インデックスはn-1サンプルだけ異なるという仮定は、正弦波の位相が
だけ進んでいることを意味する。従って、発展させた正弦波モデルのDFTスペクトルは
次式により表される。
[0067]
[0068]
シフトされた窓関数スペクトルが互いに重なり合わないという近似を再び適用すると、非負であるm∈Mkに対して、kごとに以下の式が得られる。
[0069]
[0070]
近似を使用することにより、プロトタイプフレームY-1Y(m)のDFTを、発展させた正弦波モデルY0(m)のDFTと比較すると、m∈Mkごとに位相が
だけシフトされる間、振幅スペクトルは不変のままであることがわかる。従って、各正弦波の近傍のプロトタイプフレームの周波数スペクトル係数は、正弦波周波数fkと、損失オーディオフレームとプロトタイプフレームn-1との間の時間差とに比例してシフトされる。
[0071]
従って、本実施形態によれば、次式により代替フレームを計算できる。
非負のm∈Mkに対して、kごとに、
とし、
[0072]
特定の一実施形態は、どの区間Mkにも属さないDFTインデックスに関する位相ランダム化に対処する。先に説明したように、区間Mk,k=1…Kは、それらの区間が厳密に重なり合わないように設定されなければならず、これは、区間のサイズを制御する何らかのパラメータδを使用して実行される。2つの隣接する正弦の周波数距離に関連して、δが小さいということが起こりうる。従って、その場合、2つの区間の間に隙間ができることもありうる。そのため、対応するDFTインデックスmに対して、上記の式
に従った位相シフトは定義されない。本実施形態による適切な選択肢は、それらのインデックスに対して位相をランダム化することであり、その結果、Z(m)=Y(m)・ej2πrand(・)となる。ここで、関数rand(・)は何らかの乱数を返す。
[0073]
再構成信号の品質に関して、区間Mkのサイズを最適化することは有益であることがわかっている。特に信号が非常にトーン信号に近い場合、すなわち鮮明かつ明確なスペクトルピークを有する場合、区間を大きくすべきである。これは、例えば信号が明確な周期性
を有する高調波である場合である。信号が広いスペクトル最大値を有し、さほど明確ではないスペクトル構造を有する他の場合には、狭い区間を使用することにより品質がよくなることがわかっている。この発見により、信号の特性に従って区間サイズを適応化させるという更なる改善が得られる。実施形態の1つはトーン性検出器又は周期性検出器を使用する。この検出器が信号がトーン信号に近いと判定すると、区間サイズを制御するδパラメータは、相対的に大きな値に設定される。そうでない場合、δパラメータは相対的に小さな値に設定される。
[0074]
上記の説明に基づき、オーディオフレーム損失コンシールメント方法は次のステップを含む。
[0075]
1.利用可能な、過去に合成された信号のセグメントを分析して、例えば改善周波数推定値を使用して、正弦波モデルの組成する正弦波周波数fkを取得する。
[0076]
2.利用可能な、過去に合成された信号からプロトタイプフレームy-1を抽出し、そのフレームのDFTを計算する。
[0077]
3.正弦波周波数fkと、プロトタイプフレームと代替フレームとの間の時間の進みn-1とに応じて、正弦波kごとの位相シフトθkを計算する。このステップにおいて、例えば、区間Mのサイズがオーディオ信号のトーン性に応じて適応化されうる。
[0078]
4.正弦波kごとに、正弦波周波数fkの周囲の近傍に関連するDFTインデックスに対して、プロトタイプフレームDFTの位相を選択的にθk進ませる。
[0079]
5.ステップ4で取得されたスペクトルの逆DFTを計算する。
[0080]
(信号及びフレーム損失特性の分析及び検出)
上述した方法は、オーディオ信号の特性は、短時間の間では、過去に受信され再構成された信号フレーム及び損失フレームから大きく変化することはないという仮定に基づいている。この場合、過去に再構成されたフレームの振幅スペクトルを保持し、過去に再構成された信号において検出された正弦波主成分の位相を発展させる(evolve)ことは、非常に良い選択である。しかし、例えば急激なエネルギー変化や急激なスペクトル変化を伴う過渡状態が存在する場合には、この仮定は誤りとなりうる。
[0081]
そのため、本発明に係る過渡検出器の第1の実施形態は、過去に再構成された信号のエネルギー変動に基づくことができる。図11に示されるこの方法は、分析フレーム113の左側部分及び右側部分のエネルギーを計算する。分析フレームは、前述した正弦波分析に使用されるフレームと同一でよい。分析フレームの一部(左側又は右側)は、その分析フレームの最初の半分の部分または最後の半分の部分であってもよいし、例えば分析フレーム110の最初の4分の1の部分または最後の4分の1の部分であってもよい。それぞれの部分のエネルギー計算は、それらの部分フレームにおけるサンプルの2乗を加算することにより実行される。
[0082]
ただし、y(n)は分析フレームを示し、nleft及びnrightは共に、サイズNpartの部分フレームの開始インデックスを示す。
[0083]
左右の部分フレームのエネルギーは、信号不連続性の検出に使用される。これは、比
を計算することにより実行される。比Rl/rが閾値(例えば、10)を超えた場合、急激なエネルギー減少(立ち下がり)による不連続性を検出できる(115)。同様に、比Rl/rが他の閾値(例えば、0.1)を下回った場合、急激なエネルギー増加(立ち上がり)による不連続性を検出できる(117)。
[0084]
前述したコンシールメント方法に関連して、上記定義したエネルギー比は多くの場合で感度の低すぎる指標であるかもしれないということが判明した。特に、実信号、とりわけ音楽信号の場合、ある周波数のトーンが急激に現れるのに対し、他の周波数の他のトーンが急激に消滅することがある。上記定義したエネルギー比を使用して信号フレームを分析すると、この指標は異なる周波数に対しては低い感度しか示さないので、いずれの場合にも、上記トーンのうちの少なくとも1つについて誤った検出結果を導く可能性がある。
[0085]
この問題に対する解決方法を以下の実施形態で説明する。まず、過渡検出が時間-周波数平面で実行される。分析フレームは、同様に左側部分フレームと右側部分フレームとに分割される(110)。しかし、それら2つの部分フレームは、(例えば、ハミング窓による適切な窓掛け(111)の後に)例えばNpart点DFTによって周波数領域に変換される(112)。
[0086]
及び、m=0…Npart-1の場合、
[0087]
ここで、インデックスmのDFTビンごとに、過渡検出を周波数選択的に実行可能である。DFTインデックスmごとに、左右の部分フレームの振幅スペクトルのパワを用いてエネルギー比を次のように計算できる(113)。
[0088]
[0089]
経験上、DFTビン分解能による周波数選択的過渡検出は、統計的変動(推定誤差)のために相対的に不正確であることがわかっている。周波数帯域に基づいて周波数選択的過渡検出を実行した場合、演算の品質が向上することが判明している。lk= [mk-1+1,…,mk]がmk-1+1からmkまでのDFTビンを含むk番目の区間(k=1…K)を指定するとすれば、それらの区間は、K個の周波数帯域を定義する。そこで、左側部分フレームと右側部分フレームの各帯域エネルギーの帯域ごとの比に基づいて、周波数群選択的過渡検出を実行できる。
[0090]
[0091]
なお、区間lk= [mk-1+1,…,mk]は、周波数帯域
に対応し、fsはオーディオサンプリング周波数である。
[0092]
最も低い下限周波数帯域境界m0を0に設定することは可能であるが、周波数が低くなるほど増加する推定誤差を軽減するために、それより高い周波数に対応するDFTインデックスに境界が設定されてもよい。最も高い上限周波数帯域境界mkを
に設定することは可能であるが、これは、過渡状態が依然として聞こえの効果に重大な影響を及ぼす低い周波数に対応するように選択されるのが好ましい。
[0093]
それらの周波数帯域のサイズ又は幅の適切な選択の1つは、それらを等しい大きさ、例えば数百Hzの幅、にすることである。別の好適な方法は、周波数帯域の幅を人間の聴覚の臨界帯域のサイズに従うこと、すなわちそれらを聴覚系の周波数分解能に関連付けることである。これは、周波数帯域の幅を1kHzまでの周波数に対しては等しくし、約1kHzを超えた後は指数関数的に増加させることとほぼ同じである。指数関数的増加は、例えば帯域インデックスkの増分に伴って周波数帯域幅を2倍にすることを意味する。
[0094]
2つの部分フレームのエネルギー比に基づく過渡検出器の第1の実施形態で説明したように、2つの部分フレームの帯域エネルギー又はDFTビンエネルギーに関連する比が、閾値と比較される。(周波数選択的)立ち下がり検出115には上限閾値が用いられ、(周波数選択的)立ち上がり検出117には下限閾値が用いられる。
[0095]
フレーム損失コンシールメント方法の適応化に適する更に別のオーディオ信号依存指標は、デコーダへ送信されるコーデックパラメータに基づくことができる。例えば、コーデックは、ITU-TG.718のようなマルチモードコーデックであってもよい。そのようなコーデックは、信号の異なる種類に対して特定のコーデックモードを使用し、フレーム損失の直前のフレームにおけるコーデックモードの変更は、過渡の指標とみなされうる。
[0096]
フレーム損失コンシールメントの適応化に有用な別の指標は、有声音特性及び送信信号に関連するコーデックパラメータである。有声音は、人間の声道の周期的な声門励振により生成される極めて周期的な音声に関連する。
[0097]
更なる好適な指標は、信号コンテンツが音楽であるか音声であるかの推定の指標である。そのような指標は、通常はコーデックの一部でありうる信号分類器から取得できる。コーデックがそのような分類を実行し、デコーダに対する符号化パラメータとして利用可能な対応する分類がされた場合、このパラメータは、フレーム損失コンシールメント方法を適応化させるために使用される信号コンテンツ指標として使用されるのが好ましい。
[0098]
フレーム損失コンシールメント方法の適応化に使用されるのが好ましい別の指標は、フレーム損失のバースト性である。フレーム損失のバースト性は、数回のフレーム損失が連続的に起こり、そのため、フレーム損失コンシールメント方法がその演算に最近復号された有効信号部分を使用するのが難しくなっていることを意味する。従来の技術による指標は、連続して観測されたフレーム損失の数nburstである。このカウンタは、フレーム損失が起こるたびに1増分され、有効フレームが受信されると0にリセットされる。この指標は、本発明の例示的な実施形態に関連して使用される。
[0099]
(フレーム損失コンシールメント方法の適応化)
実行された上記のステップがフレーム損失コンシールメント演算の適応化を示唆する状態を示す場合、代替フレームのスペクトルの計算が修正される。
[0100]
代替フレームスペクトルの当初の計算は、式Z(m)=Y(m)・ejθ kに従って実行されるが、振幅及び位相の双方を修正する適応化が導入される。振幅は2つの係数α(m)及びβ(m)によるスケーリングによって修正され、位相は追加位相成分
によって修正される。これにより、代替フレームは次のように修正計算される。
[0101]
[0102]
なお、
である場合、当初の(非適応)フレーム損失コンシールメント方法が使用される。従って、それらの値はそれぞれデフォルト値である。
[0103]
振幅適応化を導入することの一般的目的は、フレーム損失コンシールメント方法の音のアーチファクトを回避することである。そのような音のアーチファクトは、過渡音の反復から生じる音楽音、トーン音、あるいは異常音となりうる。そのような音のアーチファクトは品質の劣化につながると考えられるので、音のアーチファクトを回避することが、ここで説明する適応化の目的である。そのような適応化に適する方法は、代替フレームの振幅スペクトルを適切な程度に修正することである。
[0104]
図12は、コンシールメント方法修正の一実施形態を示す。バースト損失カウンタnburstが閾値thrburst(例えばthrburst=3)を超えた場合(121)、振幅適応化が実行されるのが好ましい(123)。その場合、減衰率として、1より小さい値(例えばα(m)=0.1)が使用される。
[0105]
ただし、徐々に程度が増加する減衰を実行するのが有益であることがわかっている。これを実現する好適な一実施形態は、フレームごとの減衰量の対数増加att_per_frameを指定する対数パラメータを定義することである。そこで、バーストカウンタが閾値を超えた場合の、徐々に増加する減衰率は、次式により計算される。
[0106]
ただし、定数cは、例えばデシベル(dB)単位でパラメータatt_per_frameを指定することを可能にする単なるスケーリング定数である。
[0107]
追加的な好適な適応化は、信号が音楽であるか音声であるかの推定を示す指標に応じて実行されるものである。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させ、フレームごとの減衰を減少させることが好ましい。これは、程度を下げながらフレーム損失コンシールメント方法の適応化を実行することに等しい。この種の適応化の背景にあるのは、一般に、音声と比較して音楽のほうが長い損失バーストの影響を受けやすいことである。従ってこの場合、少なくとも複数のフレーム損失が含まれる場合には
、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好適である。
[0108]
指標Rl/r,band(k)、あるいはRl/r(m)又はRl/rが閾値を超えたことに基づいて過渡が検出された場合、振幅減衰率に関する更なるコンシールメント方法の適応化が実行されるのが好ましい(122)。その場合、適切な適応化動作(125)は、全減衰量が2つの係数の積α(m)・β(m)により制御されるように第2の振幅減衰率β(m)を修正することである。
[0109]
β(m)は、過渡が示されたことに応じて設定される。立ち下がりが検出された場合、係数β(m)は、その立ち下がりのエネルギー減少を反映するように選択されるのが好ましい。適切な選択肢は、β(m)を検出されたゲイン変化に設定することである。すなわち、
m∈Ik,k=1…Kとして、
[0110]
立ち上がりが検出された場合、代替フレームにおけるエネルギー増加を制限するのが有利であることがわかっている。その場合、係数は、減衰も増幅もしないことを意味する固定値(例えば1)に設定することができる。
[0111]
なお、上記の説明において、振幅減衰率は周波数選択的に、すなわち、周波数帯域ごとに、個別に計算された係数によって適用されるのが好ましい。帯域方式が使用されない場合、対応する振幅減衰率をアナログ的に取得することが可能である。DFTビンレベルで周波数選択的過渡検出が使用される場合、DFTビンごとに個別にβ(m)を設定できる。あるいは、周波数選択的過渡指示がまったく使用されない場合、すべてのmに対してβ(m)を包括的に同一にすることができる。
[0112]
振幅減衰率の更なる好適な適応化は、位相の修正と関連して追加位相成分
によって実行される(127)。所定のmに対して、そのような位相修正が使用される場合、減衰率β(m)は更に減少される。位相修正の程度まで考慮に入れられるのが好ましい。位相修正が適度に実行されるだけの場合、β(m)はわずかにスケールダウンされるのみであるが、位相修正が強力である場合、β(m)は更に大幅にスケールダウンされる。
[0113]
位相適応化を導入することの一般的な目的は、生成される代替フレームのトーン性又は信号周期性が強すぎることによる品質劣化を招くようなことを回避することである。そのような適応化に適した方法は、位相を適切な程度にランダム化(randomize)又はディザリング(dithering)することである。
[0114]
そのような位相ディザリングは、追加位相成分
が制御係数によってスケーリングされたランダム値
に設定されることにより実現される。
[0115]
関数rand(・)により得られるランダム値は、例えば疑似乱数発生器により生成される。ここで、疑似乱数発生器は、区間 [0,2π]の中で1つの乱数を出力すると想定する。
[0116]
上式のスケーリング係数α(m)は、当初の位相θkがディザリングされる程度を制御する。以下に示す実施形態は、このスケーリング係数を制御することによって位相適応化に対処する。スケーリング係数の制御は、先に説明した振幅修正係数の制御と同様に実行される。
[0117]
第1の実施形態によれば、スケーリング係数α(m)は、バースト損失カウンタに応じて適応化される。バースト損失カウンタnburstが閾値thrburst(例えばburst=3)を超えた場合、0より大きい数(例えば、α(m)=0.2)が使用される。
[0118]
しかし、徐々に程度を増加させながらディザリングを実行するのが有益であることが分かっている。これを実現する好適な一実施形態は、フレームごとのディザリングの増加を指定するパラメータdith_increase_per_frameを定義することである。そこで、バーストカウンタが閾値を超えた場合、徐々に増加するディザリング制御係数は次式により計算される。
[0119]
[0120]
ただし、上式において、α(m)は、全位相ディザリングが達成される最大値1に制限されなければならない。
[0121]
なお、位相ディザリングを開始するために使用されるバースト損失閾値thrburstは、振幅減衰に使用される閾値と同一の閾値であってもよい。しかし、それらの閾値を個別に最適値に設定することにより、より高い品質を得ることができ、これは、一般にそれらの閾値が異なっていてもよいことを意味する。
[0122]
信号が音楽であるか音声であるかの推定を示す指標に応じて、好適な追加的な適応化が実行される。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させるのが好ましい。これは、音声と比較して、音楽の場合の位相ディザリングは、連続する損失フレームの数が多い場合にのみ実行されることを意味する。これは、程度を下げながら音楽の場合のフレーム損失コンシールメント方法の適応化を実行することと同等である。この種の適応化の背景には、一般に音楽は、音声より長い損失バーストの影響を受けにくいということがある。従って、この場合、少なくとも多数の連続するフレーム損失に対しては、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好ましい。
[0123]
更なる好適な実施形態は、検出された過渡に応じて位相ディザリングを適応化することである。その場合、そのビン、対応する周波数帯域のDFTビン、又はフレーム全体のDFTビンに関して過渡が示されたDFTビンmに対して、より強力な程度の位相ディザリングを使用できる。
[0124]
説明される方式の一部は、高調波信号、特に有声音の高調波信号に対してフレーム損失コンシールメント方法を最適化することに対処する。
[0125]
前述したような改善型周波数推定を使用する方法が実現されない場合、有声音声信号に対して品質を最適化するフレーム損失コンシールメント方法の別の適応可能性は、音楽及び音声を含む一般的なオーディオ信号に関する方法ではなく、音声に特定して設計されかつ最適化された他のフレーム損失コンシールメント方法に切り替えることである。その場合、信号が有声音声信号を含むという指標が、前述した方式ではなく別の音声最適化フレーム損失コンシールメント方式を選択するために使用される。
[0126]
実施形態は、図13に示されるようなデコーダのコントローラに適用される。図13は実施形態に係るデコーダの概略ブロック図である。デコーダ130は、符号化オーディオ信号を受信するように構成された入力ユニット132を備える。図は、論理フレーム損失コンシールメントユニット134によるフレーム損失コンシールメントを示し、これは、先述した実施形態に従ってデコーダが損失オーディオフレームのコンシールメントを実現するように構成されていることを示す。デコーダは、先述した実施形態を実現するコントローラ136を更に備える。コントローラ136は、受信され、再構成されたオーディオ信号の特性の中で又は観測されたフレーム損失の統計的特性において、先述した方法に従った損失フレームの代替が相対的に品質を低下させるような状態を検出するように構成される。そのような状態が検出された場合、コントローラ136は、位相又はスペクトル振幅を選択的に調整することにより、
に従って代替フレームスペクトルを計算するコンシールメント方法の要素を修正するように構成される。検出は、検出器ユニット146により実行可能であり、修正は、図14に示されるような修正器ユニット148により実行可能である。
[0127]
デコーダは、そこに含まれるユニットと共に、ハードウェアで実現可能である。デコーダのユニットの機能を実現するために使用可能であり、組み合わせ可能である回路素子には数多くの変形がありうる。そのような変形例は実施形態に含まれる。デコーダのハードウェア実現形態の特定の実施例は、共に汎用電子回路及び特定用途向け回路を含むデジタルシグナルプロセッサ(DSP)ハードウェアと集積回路技術である。
[0128]
あるいは、図13に示されるような本明細書において説明される実施形態に係るオーディオフレーム損失コンシールメントの実行を含めて、オーディオ信号を再構成するために、本明細書において説明されるデコーダ150は、例えば図15に示されるように、すなわち、プロセッサ154及び適切な記憶装置又はメモリ156を伴う適切なソフトウェア155のうち1つ以上により実現可能である。入力される符号化オーディオ信号は入力端子(IN)152により受信され、この入力端子(IN)152には、プロセッサ154及びメモリ156が接続される。ソフトウェアから取得された復号化、再構成化オーディオ信号は、出力端子(OUT)158から出力される。
[0129]
上述の技術は、例えば、移動体装置(例えば、移動電話、ラップトップ)又はパーソナルコンピュータなどの固定デバイスで使用可能な受信機において使用されうる。
[0130]
相互に作用するユニット又はモジュールの選択、並びにそれらのユニットの名前は単なる例であり、開示される処理動作を実行可能にするために複数の代替方法で構成されうることは理解されよう。
[0131]
なお、本明細書において説明されるユニット又はモジュールは、必ずしも個別の物理エンティティではなく、論理エンティティとしてみなされるべきものである。本明細書において開示される技術の範囲は、当業者には自明であると思われる他の実施形態をすべて含
み、それに従って、本明細書の開示の範囲が限定されるべきではないことが理解されるだろう。
[0132]
単数形の要素を説明する場合、明示して指示のない限り、それは「ただ1つの」要素を意味するのではなく、「1つ以上の」要素を表す。先に説明された実施形態の要素と同等の、当業者には知られているすべての構造及び機能は、そこで参照することにより本発明に明白に取り入れられており、本発明に含まれることが意図される。更に、装置又は方法は、本発明に含まれるために、本明細書において開示された技術により解決されようとしているありとあらゆる問題に対処する必要はない。
[0133]
以上の説明の中で、開示される技術を完全に理解させるために、説明の便宜上、特定の構造、インタフェース、技術などの特定の詳細を述べたが、それは本発明を限定するものではない。しかし、それらの特定の詳細から逸脱した他の実施形態及び/又は実施形態の組み合わせにおいて、開示された技術が実施されてもよいことは当業者には明らかだろう。すなわち、本明細書には明示して説明又は図示されてはいないが、開示された技術の原理を具現化する種々の構成を当業者は考案できるだろう。場合によっては、不必要に詳細を述べることによって、開示される技術の説明をわかりにくくしないように、周知のデバイス、回路及び方法の詳細な説明を省略した。開示される技術の原理、態様及び実施形態、並びにその特定の実施例を説明した本明細書のすべての記述は、それらと同等な構造及び同等な機能を共に含むことを意図する。更に、そのような同等物は、現在知られている同等物に加えて、将来開発される同等物、例えば、構造に関わらず同一の機能を実行するように開発された何らかの要素をも含むことが意図される。
[0134]
従って、例えば、添付の図は、技術の原理を具現化する例示的な回路又は他の機能ユニット、及び/又はコンピュータ読み取り可能な媒体で実質的に表現されてもよく、図には明示して示されてはいないが、コンピュータ又はプロセッサにより実行されうる種々の処理の概念図を表すことができることが当業者には理解されるだろう。
[0135]
機能ブロックを含む種々の要素の機能は、回路ハードウェア及び/又はコンピュータ読み取り可能な媒体に記憶された符号化命令の形のソフトウェアを実行可能なハードウェアの使用によって提供されてもよい。従って、そのような機能及び図示される機能ブロックは、ハードウェアで実現されかつ/又はコンピュータで実現され、従って機械で実現されると理解されるべきである。
[0136]
以上説明した実施形態は、本発明のいくつかの例示として理解されるべきである。本発明の範囲から逸脱することなく、それらの実施形態に対して種々の修正、組み合わせ及び変更が行われてもよいことは当業者には理解されよう。特に、異なる実施形態の異なる部分の方法は、技術的に可能であるならば、他の構成で組み合わせ可能である。
[発明の名称]オーディオフレーム損失のコンシールメントを制御する方法及び装置
[技術分野]
[0001]
本発明は、受信したオーディオ信号の損失オーディオフレームに対するコンシールメント(concealment)方法を制御する方法及び装置に関する。
[背景技術]
[0002]
従来のオーディオ通信システムは、音声信号及びオーディオ信号をフレームごとに送信する。送信側は、まず信号を例えば20~40msの短いセグメント又はフレームとして配列する。これらは順次、符号化され、例えば送信パケットにおける論理ユニットとして送信される。受信機は、それらの論理ユニットの各々を復号化し、対応する信号フレームを再構成する。再構成されたフレームは、最終的には再構成信号サンプルの連続シーケンスとして出力される。符号化に先立って、マイクロホンからのアナログ音声信号又はアナログオーディオ信号をオーディオサンプルのシーケンスに変換するアナログ/デジタル(A/D)変換ステップが通常実行される。逆に、受信端では、再構成デジタル信号サンプルをスピーカ再生のための連続時間アナログ信号に変換する最終D/A変換ステップが通常実行される。
[0003]
しかし、音声信号及びオーディオ信号のそのような送信システムにおいては、送信エラーが生じ、これにより送信フレームのうち1つ又はいくつかを受信機で再構成のために利用できないという状況が起きる可能性がある。その場合、デコーダは、消失したフレーム、すなわち利用不可能なフレームの各々に対して代替の信号を生成する必要がある。これは、受信側信号デコーダのいわゆるフレーム損失コンシールメント(frame loss concealment)ユニット又はエラーコンシールメント(error concealment)ユニットで実行される。フレーム損失コンシールメントの目的は、フレーム損失を可能な限り聴き取れないようにし、それにより、フレーム損失が再構成信号の品質に与える影響を可能な限り軽減することである。
[0004]
従来のフレーム損失コンシールメント方法は、コーデックの構造又はアーキテクチャに依存して、例えば過去に受信されたコーデックパラメータを反復して適用するというものである。そのようなパラメータ反復技術は、使用されるコーデックの特定のパラメータに明らかに依存しており、従って、異なる構造を有する他のコーデックには容易に適用することはできない。従来のフレーム損失コンシールメント方法は、損失フレームに対する代替フレームを生成するために、例えば過去に受信されたフレームのパラメータのフリーズと外挿を行うというものがある。
[0005]
従来技術によるこれらのフレーム損失コンシールメント方法は、何らかのバースト損失処理方法を含む。一般に、1つの列の中のいくつかのフレーム損失があると、合成信号は、長いエラーのバーストの後に完全に消音されるまで減衰される。更に、基本的に反復され外挿される符号化パラメータは、減衰が実現されスペクトルのピークが平坦化されるよう修正される。
[0006]
従来のフレーム損失コンシールメント技術は、通常、損失フレームに対する代替フレームを生成するために、通常、過去に受信されたフレームのパラメータをフリーズして外挿を行うという概念を適用する。AMR又はAMR-WBなどの線形予測コーデックのような多くのパラメトリック音声コーデックは、通常、過去に受信されたパラメータをフリーズするか又はその何らかの外挿を使用し、そのようなパラメータとともにデコーダを使用する。本質的には、この原理は、符号化/復号化のために所定のモデルを設定し、フリーズされたパラメータ又は外挿されたパラメータによって同一のモデルを適用するというものである。AMR及びAMR-WBのフレーム損失コンシールメント技術は代表的な技術であると考えることができる。それらの技術は、対応する規格仕様書の中で詳細に記述されている。
[0007]
各種あるオーディオコーデックのうちの多くのコーデックは、何らかの周波数領域変換の後にスペクトルパラメータに符号化モデルが適用される周波数領域符号化技術を適用する。デコーダは、受信したパラメータから信号スペクトルを再構成し、最終的にスペクトルを変換して時間信号に戻す。通常、時間信号はフレームごとに再構成される。そのようなフレームは、オーバラップ加算技術により最終再構成信号として合成される。そのオーディオコーデックの場合であっても、従来のエラーコンシールメントは、損失フレームに対して同一の又は少なくとも類似する復号化モデルを通常適用する。過去に受信されたフレームからの周波数領域パラメータがフリーズされるか又は適切に外挿され、その後、周波数/時間領域変換で使用される。そのような技術の例は、3GPP規格に準拠した3GPPオーディオコーデックによって提供される。
[発明の概要]
[0008]
従来技術によるフレーム損失コンシールメントの方法では、一般に、品質の不足が問題となる。例えば、パラメータのフリーズ、外挿技術や損失フレーム対しても同一のデコーダモデルを再適用することによって、必ずしも、過去に復号化された信号フレームから損失フレームへの円滑かつ忠実な信号発展(signal evolution)が保証されるものではないということが主な問題点である。そのため、可聴信号はしばしば不連続になり、品質にも影響が出る。
[0009]
音声及びオーディオ伝送システムの新規なフレーム損失コンシールメント方式を説明する。新規な方式により、従来のフレーム損失コンシールメント技術で実現可能であった品質と比較して、フレーム損失の場合の品質が改善される。
[0010]
本発明の実施形態の目的は、以下に説明される関連する新規な種類の方法であるのが好ましいフレーム損失コンシールメント方式を、可能な限り最良の再構成信号音質が実現されるように制御することである。実施形態は、信号の特性及びフレーム損失の時間的分布の双方に関して再構成品質を最適化することを目的とする。高い品質を提供することに関してフレーム損失コンシールメントで特に問題になるのは、オーディオ信号がエネルギーの立ち上がりや立ち下がりのような大きく変化する特性を有する場合、又はオーディオ信号のスペクトルが非常に大きく変動する場合である。その場合、説明したコンシールメント方法では、上記立ち上がり、立ち下がり、又はスペクトルの変動を繰り返してしまい、原信号から大きな変化して品質が劣化する。
[0011]
問題となる別のケースは、フレーム損失のバーストが連続的に起こる場合である。概念的には、説明した方法に係るフレーム損失コンシールメント方法では、そのような場合に対処しても、依然として音のアーチファクト(tonal artifacts)を生じてしまう。本発明の実施形態の別の目的は、そのような音のアーチファクトを可能な限り大きく軽減することである。
[0012]
第1の態様によれば、損失オーディオフレームのコンシールメントを行うデコーダの方法は、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の
統計的特性における、損失フレームの代替によって品質が相対的に低下するような条件を検出するステップを含む。そのような条件が検出された場合、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することにより、コンシールメント方法を修正する。
[0013]
第2の態様によれば、デコーダは損失オーディオフレームのコンシールメントを実現するように構成される。デコーダは、過去に受信され再構成されたオーディオ信号の特性又は観測されたフレーム損失の統計的特性における、損失フレームの代替により品質が相対的に低下するような条件を検出するコントローラを備える。そのような条件が検出された場合、コントローラは、代替フレームスペクトルの位相又はスペクトル振幅を選択的に調整することによりコンシールメント方法を修正する。
[0014]
デコーダは、例えば移動電話などの装置で実現可能である。
[0015]
第3の態様によれば、受信機は、上述の第2の態様に係るデコーダを備える。
[0016]
第4の態様によれば、損失オーディオフレームのコンシールメントを行うためのコンピュータプログラムが定義される。コンピュータプログラムは、プロセッサにより実行されると、プロセッサに上述の第1の態様に従って損失オーディオフレームのコンシールメントを行わせる命令を含む。
[0017]
第5の態様によれば、コンピュータプログラム製品は、上述の第4の態様に係るコンピュータプログラムを記憶するコンピュータ読み取り可能な媒体を備える。
[0018]
一実施形態の利点は、従来のコンシールメント方法のみの場合に実現される品質と比較して、符号化音声信号及び符号化オーディオ信号の伝送におけるフレーム損失による音質への影響を大きく軽減できるフレーム損失コンシールメント方法の適応制御が実現されることである。実施形態の一般的利点は、損失フレームに対しても円滑かつ忠実な再構成信号の発展(evolution)が提供されることである。フレーム損失の聴感上の影響は、従来技術と比べて大幅に低減される。
[図面の簡単な説明]
[0019]
[図1]方形窓関数を示す図。
[図2]ハミング窓と方形窓との組み合わせを示す図。
[図3]窓関数の振幅スペクトルの一例を示す図。
[図4]周波数fkの例示的な正弦波信号の線スペクトルを示す図。
[図5]周波数fkの窓掛け後の正弦波信号のスペクトルを示す図。
[図6]分析フレームに基づくDFTのグリッドポイントの大きさに対応するバーを示す図。
[図7]DFTグリッドポイントP1、P2及びP3を通るパラボラフィッティングを示す図。
[図8]窓スペクトルのメインローブのフィッティングを示す図。
[図9]DFTグリッドポイントP1及びP2を通るメインローブ近似関数Pのフィッティングを示す図。
[図10]受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る例示的な方法を示すフローチャート。
[図11]受信オーディオ信号の損失オーディオフレームに対するコンシールメント方法を制御する本発明の実施形態に係る別の例示的な方法を示すフローチャート。
[図12]本発明の別の例示的な実施形態を示す図。
[図13]本発明の一実施形態に係る装置の一例を示す図。
[図14]本発明の一実施形態に係る装置の別の例を示す図。
[図15]本発明の一実施形態に係る装置の別の例を示す図。
[発明を実施するための形態]
[0020]
説明する新規なフレーム損失コンシールメント技術に関する新規な制御方式は、図10に示されるような以下のステップを含む。なお、方法はデコーダのコントローラによって実行可能である。
[0021]
1.前述の方法では損失フレームの代替によって音質が劣化してしまうような、過去に受信され再構成されたオーディオ信号の特性または観測されたフレーム損失の統計的特性の状態を検出する(101)。
[0022]
2.ステップ1でそのような状態が検出された場合、位相又はスペクトル振幅を選択的に調整することにより、Z(m)=Y(m)・ejθ kによって代替フレームスペクトルを計算する方法の要素を修正する(102)。
[0023]
(正弦波分析)
新規な制御技術が適用されうるフレーム損失コンシールメント技術の第1のステップは、過去に受信された信号の一部の正弦波分析(sinusoidal analysis)を含む。この正弦波分析の目的は、その信号の主正弦波の周波数を特定することである。これは、限定された数の個別の正弦波から信号が構成されていること、すなわち信号が以下に示す種類のマルチ正弦波信号であることが、基本的な前提となっている。
[0024]
ただし、Kは、信号を構成すると想定される正弦波の数である。添字k=1…Kの各正弦波に対して、akは振幅、fkは周波数、φkは位相である。サンプリング周波数はfsで表され、時間離散信号サンプルs(n)の時間インデックスはnで表される。
[0025]
可能な限り正確な正弦波の周波数を特定することが第1に重要である。理想的な正弦波信号は線周波数fkの線スペクトルを有すると考えられるが、その真の値を特定するには、原理上、無限の測定時間が必要になるであろう。従って、実際には、本明細書において説明される正弦波分析に使用される信号セグメントに対応する短時間の測定に基づいて線周波数を推定することしかできないので、線周波数を発見するのは難しい。以下の説明中、この信号セグメントは分析フレームと呼ばれる。別の困難な問題は、信号が実際には時変信号であり、上記の式のパラメータが時間の経過に伴って変動するということである。そこで、測定をより正確にするためには長い分析フレームを使用することが望ましいが、起こりうる信号変動に更に適切に対応するためには、測定時間を短縮することが必要になる。その適切なトレードオフとしては、例えば20~40ms程度の長さの分析フレームを使用することである。
[0026]
正弦波の周波数fkを特定可能にする好適な方法は、分析フレームの周波数領域分析を実行することである。この目的のために、例えばDFT又はDCT、あるいは類似する周波数領域変換によって、分析フレームは周波数領域に変換される。分析フレームのDFTが使用される場合、スペクトルは次式により表される。
[0027]
ただし、w(n)は、長さLの分析フレームを抽出し重み付けする窓関数を表す。典型的な窓関数は、例えば、図1に示されるようなn∈ [0…L-1]に対して1であり、その他の場合は0である方形窓である。過去に受信されたオーディオ信号の時間指標は、分析フレームが時間指標n=0…L-1により参照されるように設定されると想定する。スペクトル分析に更に適すると思われる他の窓関数としては、例えばハミング窓、ハニング窓、カイザー窓又はブラックマン窓がある。特に有用であるとわかっている窓関数は、ハミング窓と方形窓との組み合わせである。図2に示されるように、この窓は、長さL1のハミング窓の左半分のような立ち上がり端形状及び長さL1のハミング窓の右半分のような立ち下がり端形状を有し、立ち上がり端と立ち下がり端との間で、窓は、長さL-L1の場合に1に等しい。
[0028]
窓分析フレーム|X(m)|の振幅スペクトルのピークは、必要とされる正弦波周波数fkの近似を構成する。しかし、この近似の正確度は、DFTの周波数間隔により限定される。ブロック長LのDFTの場合、正確度はfs/(2L)に限定される。
[0029]
実験によれば、このレベルの正確度は、本明細書において説明される方法の範囲内では低すぎるかもしれない。以下のことを考慮した結果に基づき、正確度の改善を得ることができる。
[0030]
窓分析フレームのスペクトルは、正弦波モデル信号S(Ω)の線スペクトルによる窓関数のスペクトルの畳み込みと、その後に続く次式のDFTのグリッドポイントにおけるサンプリングによって与えられる。
[0031]
[0032]
正弦波モデル信号のスペクトル表現を使用することにより、これを次のように書き換えることができる。
[0033]
[0034]
従って、サンプリングされたスペクトルは次式により表される。
[0035]
ただし、m=0…L-1
[0036]
この考えに基づき、分析フレームの振幅スペクトルの中で観測されるピークは、それらのピークの近傍で真の正弦波周波数が特定されるK個の正弦波を含む窓掛け後正弦波信号
に由来するものと想定される。観測されたk番目のピークのDFTインデックス(グリッドポイント)をmkとすると、対応する周波数は、
であり、これは、真の正弦波周波数fkの近似であるとみなすことができる。真の正弦波周波数fkは、区間
の中にあると想定できる。
[0037]
なお、明確にするため、正弦波モデル信号の線スペクトルのスペクトルによる窓関数のスペクトルの畳み込みは、窓関数スペクトルの周波数シフトバージョンの重畳であると理解することができ、このため、シフト周波数は正弦波の周波数である。次に、この重畳はDFTグリッドポイントでサンプリングされる。それらのステップは図3以降の図により示される。図3は窓関数の振幅スペクトルの一例を示す。図4は、周波数の1つの正弦波と共に正弦波信号の一例の振幅スペクトル(線スペクトル)を示す。図5は、正弦波の周波数における周波数シフト窓スペクトルを再現し、重畳する窓掛け後正弦波信号の振幅スペクトルを示す。図6の点線は、分析フレームのDFTを計算することにより取得された窓掛け後正弦波におけるDFTのグリッドポイントの振幅に対応する。なお、すべてのスペクトルは正規化周波数パラメータΩによって周期的である。ここで、Ωは、サンプリング周波数fsに対応する2πである。
[0038]
先の説明及び図6は、使用される周波数領域変換の周波数分解能と比較して探索の分解能を増加させることによってのみ、正弦波周波数をよりよく近似できることを示唆する。
[0039]
正弦波の周波数fkの更によい近似を発見する好適な方法の1つは、放物線補間(parabolic interpolation)を適用することである。そのような方式の1つは、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してパラボラフィッティングを行い、放物線最大値に属する各々の周波数を計算することである。放物線の次の適切な選択肢は2である。詳細には、以下の手順を適用することができる。
[0040]
1.窓掛け後分析フレームのDFTのピークを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。
[0041]
2.対応するDFTインデックスmkを有するピークk(k=1…K)ごとに、3つのポイント
を通してパラボラフィッティングを行う。その結果、次式により定義される放物線の放物線係数bk(0)、bk(1)、bk(2)が得られる。
[0042]
このパラボラフィッティングは、図7に示される。
[0043]
3.K個の放物線の各々に対して、その放物線が最大値を有するqの値に対応する補間周波数インデックス
を計算する。正弦波周波数fkの近似として
を使用する。
[0044]
説明した方式は良好な結果を提供するが、放物線は、窓関数の振幅スペクトル|W(Ω)|のメインローブの形状を近似しないので、いくつかの制限があるかもしれない。これを実行する代替方式は、以下に説明されるように、メインローブ近似を使用する改良型周波数推定である。この代替方式の主要な概念は、
のメインローブを近似する関数P(q)を、ピークを取り囲むDFT振幅スペクトルのグリッドポイントを通してフィッティングし、関数最大値に属する各々の周波数を計算することである。関数P(q)は、窓関数の周波数シフト振幅スペクトル
と同一でありうる。しかし、数値的に単純にするために、これを関数最大値の容易な計算を可能にする多項式にすべきである。以下に詳細に説明される手順を適用できる。
[0045]
1.窓分析フレームのDFTのポイントを特定する。ピーク探索はピークの数K及びピークの対応するDFTインデックスを出力する。ピーク探索は、通常、DFT振幅スペクトル又は対数DFT振幅スペクトルに対して実行可能である。
[0046]
2.所定の区間(q1,q2)に対して窓関数の振幅スペクトル
または対数振幅スペクトル
を近似する関数P(q)を取り出す。窓スペクトルのメインローブを近似する近似関数の選択は、図8により示される。
[0047]
3.対応するDFTインデックスmkを伴うピークk(k=1…K)ごとに、窓正弦波信号の連続スペクトルの予想される真のピークを取り囲む2つのDFTグリッドポイント
を通して周波数シフト関数
のフィッティングを行う。従って、
|X(mk-1)|が|X(mk+1)|より大きい場合、ポイント
を通して
のフィッティングを行い、そうでない場合、ポイント
を通して
のフィッティングを行う。簡単にするため、P(q)を2次又は4次のいずれかの多項式として選択できる。これにより、ステップ2の近似は単純な線形回帰計算及び
の簡単な計算となる。区間(q1、q2)は、すべてのピークに対して一定かつ同一になるように選択でき、例えば(q1、q2)=(-1,1)であるか、又は適応的である。適応的方式の場合、関数
が関連するDFTグリッドポイント{P1;P2}の範囲内で窓関数スペクトルのメインローブのフィッティングを行うように、区間を選択できる。このフィッティング処理は図9に示される。
[0048]
4.窓正弦波信号の連続スペクトルがピークを有すると予測されるK個の周波数パラメータ
の各々に対して、
を正弦波周波数fkの近似として計算する。
[0049]
送信された信号が高調波である場合、何らかの基本周波数f0の整数倍数であるような周波数を有する正弦波から信号が構成される場合が多い。これは、信号が例えば有声音声又は何らかの楽器の持続音のように非常に周期的である場合である。実施形態の正弦波モデルの周波数は周波数依存ではなく、同一の基本周波数に対して高調波の関係にあり、同一の基本周波数に由来する。この高調波特性を考慮に入れることにより、結果的に正弦波成分周波数の分析を相当に改善できる。
[0050]
改善の可能性の1つの概要は次の通りである。
[0051]
1.信号が高調波であるか否かを検査する。これは、例えば、フレーム損失以前の信号の周期性を評価することにより実行可能である。簡単な方法の1つは信号の自動相関分析を実行することである。何らかの時間遅延τ>0に関する自動相関関数の最大値を指標として使用できる。この最大値の値が所定の閾値を超えた場合、信号は高調波であるとみなすことができる。その場合、対応する時間遅延τは、
によって基本周波数と関連する信号の周期に対応する。
[0052]
多くの線形予測音声符号化法は、適応コードブックを使用していわゆる開ループ又は閉ループピッチ予測符号化、すなわちCELP符号化を適用する。信号が高調波である場合、そのような符号化方法により取り出されるピッチゲイン及び関連するピッチラグパラメータも、時間遅延に関してそれぞれ有用な指標である。
[0053]
f0を取得する更なる方法を以下に説明する。
[0054]
2.整数範囲1…Jmaxの中の高調波インデックスjごとに、高調波周波数fj=j・f0の近傍に分析フレームの(対数)DFT振幅スペクトルのピークが存在するか否かを検査する。fjの近傍は、デルタがDFTの周波数分解能DFT(fs/L)に対応するfjの周囲のデルタ範囲、すなわち区間
として定義されうる。対応する推定正弦波周波数
を有するピークが存在する場合、f^kをf^k=j・f0と置換する。
[0055]
上記の2ステップ手順の場合、信号が高調波であるか否かの検査及び基本周波数の偏移を黙示的に、おそらくは反復方式で必ずしも何らかの別の方法からの指標を使用せずに取り出すことも可能である。そのような技術の一例を以下に示す。
[0056]
候補値{f0,1…f0,P}の集合の中からのf0,pごとに、
を置換することなく、高調波周波数の周囲の近傍に存在するDFTピークの数、すなわちf0,pの整数倍数をカウントしつつ、手順のステップ2を適用する。高調波周波数に又はその周囲に最大数のピークが取得される基本周波数f0,pmaxを特定する。このピークの最大数が所定の閾値を超えた場合、信号は高調波であると想定される。その場合、f0,pmaxは、ステップ2の実行に際して使用され、その結果、改善された正弦波周波数f^kをもたらす基本周波数であると想定できる。しかし、これに代わる更に好適な方法は、まず、高調波周波数と一致することがわかっているピーク周波数f^kに基づいて基本周波数f0を最
適化することである。M個の高調波より成る集合、すなわち、周波数f^k(m), m = 1…MでM個のスペクトルピークの何らかの集合と一致することがわかっている何らかの基本周波数の整数倍数{n1…nM}を想定すると、基礎を成す(最適化)基本周波数f0,optは、高調波周波数とスペクトルピーク周波数との誤差を最小限にするように計算できる。最小にすべき誤差が平均2乗誤差
である場合、最適基本周波数は、
として計算される。候補値の初期集合{f0,1…f0,P}は、DFTピークの周波数又は推定正弦波周波数
から取得できる。
推定正弦波周波数
の正確度を改善する更なる可能性は、その時間発展(temporal evolution)を考慮することである。その目的のために、複数の分析フレームからの正弦波周波数の推定値を例えば平均化又は予測によって組み合わせることができる。平均化又は予測に先立って、各推定スペクトルピークを同一の基調となる各正弦波に結び付けるピーク追跡を適用することができる。
[0057]
(正弦波モデルの適用)
以下、フレーム損失コンシールメント演算を実行するための正弦波モデルの適用について説明する。
[0058]
対応する符号化情報が利用不可能であるため符号化信号の所定のセグメントをデコーダにより再構成できない場合を想定する。更に、このセグメントより過去の信号の部分が利用可能であるとする。y(n)(ただし、n=0…N-1)を、代替フレームz(n)が生成されなければならない利用不可能セグメントであるとし、n<0の場合のy(n)を、過去に復号された利用可能信号であるとする。この場合、第1のステップにおいて、長さL及び開始インデックスn-1の利用可能信号のプロトタイプフレームが窓関数w(n)によって抽出され、例えば次式のDFTによって周波数領域に変換される。
[0059]
[0060]
窓関数は、先に正弦波分析に関して説明した窓関数のうち1つでありうる。数値の複雑さを軽減するために、周波数領域変換後のフレームは、正弦波分析において使用されるフレームと同一であるのが好ましい。
[0061]
次のステップにおいて、想定正弦波モデルが適用される。想定正弦波モデルによれば、プロトタイプフレームのDFTを次のように書き表すことができる。
[0062]
[0063]
次のステップは、使用される窓関数のスペクトルが0にごく近い周波数範囲において重大な寄与をすると理解することである。図3に示されるように、窓関数の振幅スペクトルは、0にごく近い周波数に対しては大きく、そうでない周波数に対しては小さい(サンプリング周波数の2分の1に対応する-π~πの正規化周波数範囲内)。従って、近似として、窓スペクトルW(m)は、区間M= [-mmin,mmax](mmin及びmmaxは小さな正の整数)に対してのみ0ではないと仮定する。特に、窓関数スペクトルの近似は、kごとに、上記の式中のシフトされた窓スペクトルの寄与が厳密に互いに重なり合わないように使用される。上記の式において、周波数インデックスごとに、1つの被加数からの、すなわち1つのシフトされた窓スペクトルからの寄与のみが常に最大である。これは、上記の式が下記の近似式に縮小されることを意味する。
[0064]
非負であるm∈Mkに対して、kごとに、
[0065]
ここで、Mkは、整数区間
を示し、mmin,k及びmmax,kは、区間が互いに重なり合わないようにするという先に説明した制約に適合する。mmin,k及びmmax,kの適切な選択は、それらの値を小さな整数値δ、例えばδ=3に設定することである。しかし、2つの隣接する正弦波周波数fk及びfk+1に関連するDFTインデックスが2δより小さい場合、区間が重なり合わないことが保証されるように、δは、
に設定される。関数floor(・)は、それ以下である関数引数に最も近い整数である。
[0066]
一実施形態による次のステップは、上記の式による正弦波モデルを適用し、そのK個の正弦波を時間的に発展(evolve)させることである。プロトタイプフレームの時間インデックスと比較して、消去セグメントの時間インデックスはn-1サンプルだけ異なるという仮定は、正弦波の位相が
だけ進んでいることを意味する。従って、発展させた正弦波モデルのDFTスペクトルは
次式により表される。
[0067]
[0068]
シフトされた窓関数スペクトルが互いに重なり合わないという近似を再び適用すると、非負であるm∈Mkに対して、kごとに以下の式が得られる。
[0069]
[0070]
近似を使用することにより、プロトタイプフレームY-1Y(m)のDFTを、発展させた正弦波モデルY0(m)のDFTと比較すると、m∈Mkごとに位相が
だけシフトされる間、振幅スペクトルは不変のままであることがわかる。従って、各正弦波の近傍のプロトタイプフレームの周波数スペクトル係数は、正弦波周波数fkと、損失オーディオフレームとプロトタイプフレームn-1との間の時間差とに比例してシフトされる。
[0071]
従って、本実施形態によれば、次式により代替フレームを計算できる。
非負のm∈Mkに対して、kごとに、
とし、
[0072]
特定の一実施形態は、どの区間Mkにも属さないDFTインデックスに関する位相ランダム化に対処する。先に説明したように、区間Mk,k=1…Kは、それらの区間が厳密に重なり合わないように設定されなければならず、これは、区間のサイズを制御する何らかのパラメータδを使用して実行される。2つの隣接する正弦の周波数距離に関連して、δが小さいということが起こりうる。従って、その場合、2つの区間の間に隙間ができることもありうる。そのため、対応するDFTインデックスmに対して、上記の式
に従った位相シフトは定義されない。本実施形態による適切な選択肢は、それらのインデックスに対して位相をランダム化することであり、その結果、Z(m)=Y(m)・ej2πrand(・)となる。ここで、関数rand(・)は何らかの乱数を返す。
[0073]
再構成信号の品質に関して、区間Mkのサイズを最適化することは有益であることがわかっている。特に信号が非常にトーン信号に近い場合、すなわち鮮明かつ明確なスペクトルピークを有する場合、区間を大きくすべきである。これは、例えば信号が明確な周期性
を有する高調波である場合である。信号が広いスペクトル最大値を有し、さほど明確ではないスペクトル構造を有する他の場合には、狭い区間を使用することにより品質がよくなることがわかっている。この発見により、信号の特性に従って区間サイズを適応化させるという更なる改善が得られる。実施形態の1つはトーン性検出器又は周期性検出器を使用する。この検出器が信号がトーン信号に近いと判定すると、区間サイズを制御するδパラメータは、相対的に大きな値に設定される。そうでない場合、δパラメータは相対的に小さな値に設定される。
[0074]
上記の説明に基づき、オーディオフレーム損失コンシールメント方法は次のステップを含む。
[0075]
1.利用可能な、過去に合成された信号のセグメントを分析して、例えば改善周波数推定値を使用して、正弦波モデルの組成する正弦波周波数fkを取得する。
[0076]
2.利用可能な、過去に合成された信号からプロトタイプフレームy-1を抽出し、そのフレームのDFTを計算する。
[0077]
3.正弦波周波数fkと、プロトタイプフレームと代替フレームとの間の時間の進みn-1とに応じて、正弦波kごとの位相シフトθkを計算する。このステップにおいて、例えば、区間Mのサイズがオーディオ信号のトーン性に応じて適応化されうる。
[0078]
4.正弦波kごとに、正弦波周波数fkの周囲の近傍に関連するDFTインデックスに対して、プロトタイプフレームDFTの位相を選択的にθk進ませる。
[0079]
5.ステップ4で取得されたスペクトルの逆DFTを計算する。
[0080]
(信号及びフレーム損失特性の分析及び検出)
上述した方法は、オーディオ信号の特性は、短時間の間では、過去に受信され再構成された信号フレーム及び損失フレームから大きく変化することはないという仮定に基づいている。この場合、過去に再構成されたフレームの振幅スペクトルを保持し、過去に再構成された信号において検出された正弦波主成分の位相を発展させる(evolve)ことは、非常に良い選択である。しかし、例えば急激なエネルギー変化や急激なスペクトル変化を伴う過渡状態が存在する場合には、この仮定は誤りとなりうる。
[0081]
そのため、本発明に係る過渡検出器の第1の実施形態は、過去に再構成された信号のエネルギー変動に基づくことができる。図11に示されるこの方法は、分析フレーム113の左側部分及び右側部分のエネルギーを計算する。分析フレームは、前述した正弦波分析に使用されるフレームと同一でよい。分析フレームの一部(左側又は右側)は、その分析フレームの最初の半分の部分または最後の半分の部分であってもよいし、例えば分析フレーム110の最初の4分の1の部分または最後の4分の1の部分であってもよい。それぞれの部分のエネルギー計算は、それらの部分フレームにおけるサンプルの2乗を加算することにより実行される。
[0082]
ただし、y(n)は分析フレームを示し、nleft及びnrightは共に、サイズNpartの部分フレームの開始インデックスを示す。
[0083]
左右の部分フレームのエネルギーは、信号不連続性の検出に使用される。これは、比
を計算することにより実行される。比Rl/rが閾値(例えば、10)を超えた場合、急激なエネルギー減少(立ち下がり)による不連続性を検出できる(115)。同様に、比Rl/rが他の閾値(例えば、0.1)を下回った場合、急激なエネルギー増加(立ち上がり)による不連続性を検出できる(117)。
[0084]
前述したコンシールメント方法に関連して、上記定義したエネルギー比は多くの場合で感度の低すぎる指標であるかもしれないということが判明した。特に、実信号、とりわけ音楽信号の場合、ある周波数のトーンが急激に現れるのに対し、他の周波数の他のトーンが急激に消滅することがある。上記定義したエネルギー比を使用して信号フレームを分析すると、この指標は異なる周波数に対しては低い感度しか示さないので、いずれの場合にも、上記トーンのうちの少なくとも1つについて誤った検出結果を導く可能性がある。
[0085]
この問題に対する解決方法を以下の実施形態で説明する。まず、過渡検出が時間-周波数平面で実行される。分析フレームは、同様に左側部分フレームと右側部分フレームとに分割される(110)。しかし、それら2つの部分フレームは、(例えば、ハミング窓による適切な窓掛け(111)の後に)例えばNpart点DFTによって周波数領域に変換される(112)。
[0086]
及び、m=0…Npart-1の場合、
[0087]
ここで、インデックスmのDFTビンごとに、過渡検出を周波数選択的に実行可能である。DFTインデックスmごとに、左右の部分フレームの振幅スペクトルのパワを用いてエネルギー比を次のように計算できる(113)。
[0088]
[0089]
経験上、DFTビン分解能による周波数選択的過渡検出は、統計的変動(推定誤差)のために相対的に不正確であることがわかっている。周波数帯域に基づいて周波数選択的過渡検出を実行した場合、演算の品質が向上することが判明している。lk= [mk-1+1,…,mk]がmk-1+1からmkまでのDFTビンを含むk番目の区間(k=1…K)を指定するとすれば、それらの区間は、K個の周波数帯域を定義する。そこで、左側部分フレームと右側部分フレームの各帯域エネルギーの帯域ごとの比に基づいて、周波数群選択的過渡検出を実行できる。
[0090]
[0091]
なお、区間lk= [mk-1+1,…,mk]は、周波数帯域
に対応し、fsはオーディオサンプリング周波数である。
[0092]
最も低い下限周波数帯域境界m0を0に設定することは可能であるが、周波数が低くなるほど増加する推定誤差を軽減するために、それより高い周波数に対応するDFTインデックスに境界が設定されてもよい。最も高い上限周波数帯域境界mkを
に設定することは可能であるが、これは、過渡状態が依然として聞こえの効果に重大な影響を及ぼす低い周波数に対応するように選択されるのが好ましい。
[0093]
それらの周波数帯域のサイズ又は幅の適切な選択の1つは、それらを等しい大きさ、例えば数百Hzの幅、にすることである。別の好適な方法は、周波数帯域の幅を人間の聴覚の臨界帯域のサイズに従うこと、すなわちそれらを聴覚系の周波数分解能に関連付けることである。これは、周波数帯域の幅を1kHzまでの周波数に対しては等しくし、約1kHzを超えた後は指数関数的に増加させることとほぼ同じである。指数関数的増加は、例えば帯域インデックスkの増分に伴って周波数帯域幅を2倍にすることを意味する。
[0094]
2つの部分フレームのエネルギー比に基づく過渡検出器の第1の実施形態で説明したように、2つの部分フレームの帯域エネルギー又はDFTビンエネルギーに関連する比が、閾値と比較される。(周波数選択的)立ち下がり検出115には上限閾値が用いられ、(周波数選択的)立ち上がり検出117には下限閾値が用いられる。
[0095]
フレーム損失コンシールメント方法の適応化に適する更に別のオーディオ信号依存指標は、デコーダへ送信されるコーデックパラメータに基づくことができる。例えば、コーデックは、ITU-TG.718のようなマルチモードコーデックであってもよい。そのようなコーデックは、信号の異なる種類に対して特定のコーデックモードを使用し、フレーム損失の直前のフレームにおけるコーデックモードの変更は、過渡の指標とみなされうる。
[0096]
フレーム損失コンシールメントの適応化に有用な別の指標は、有声音特性及び送信信号に関連するコーデックパラメータである。有声音は、人間の声道の周期的な声門励振により生成される極めて周期的な音声に関連する。
[0097]
更なる好適な指標は、信号コンテンツが音楽であるか音声であるかの推定の指標である。そのような指標は、通常はコーデックの一部でありうる信号分類器から取得できる。コーデックがそのような分類を実行し、デコーダに対する符号化パラメータとして利用可能な対応する分類がされた場合、このパラメータは、フレーム損失コンシールメント方法を適応化させるために使用される信号コンテンツ指標として使用されるのが好ましい。
[0098]
フレーム損失コンシールメント方法の適応化に使用されるのが好ましい別の指標は、フレーム損失のバースト性である。フレーム損失のバースト性は、数回のフレーム損失が連続的に起こり、そのため、フレーム損失コンシールメント方法がその演算に最近復号された有効信号部分を使用するのが難しくなっていることを意味する。従来の技術による指標は、連続して観測されたフレーム損失の数nburstである。このカウンタは、フレーム損失が起こるたびに1増分され、有効フレームが受信されると0にリセットされる。この指標は、本発明の例示的な実施形態に関連して使用される。
[0099]
(フレーム損失コンシールメント方法の適応化)
実行された上記のステップがフレーム損失コンシールメント演算の適応化を示唆する状態を示す場合、代替フレームのスペクトルの計算が修正される。
[0100]
代替フレームスペクトルの当初の計算は、式Z(m)=Y(m)・ejθ kに従って実行されるが、振幅及び位相の双方を修正する適応化が導入される。振幅は2つの係数α(m)及びβ(m)によるスケーリングによって修正され、位相は追加位相成分
によって修正される。これにより、代替フレームは次のように修正計算される。
[0101]
[0102]
なお、
である場合、当初の(非適応)フレーム損失コンシールメント方法が使用される。従って、それらの値はそれぞれデフォルト値である。
[0103]
振幅適応化を導入することの一般的目的は、フレーム損失コンシールメント方法の音のアーチファクトを回避することである。そのような音のアーチファクトは、過渡音の反復から生じる音楽音、トーン音、あるいは異常音となりうる。そのような音のアーチファクトは品質の劣化につながると考えられるので、音のアーチファクトを回避することが、ここで説明する適応化の目的である。そのような適応化に適する方法は、代替フレームの振幅スペクトルを適切な程度に修正することである。
[0104]
図12は、コンシールメント方法修正の一実施形態を示す。バースト損失カウンタnburstが閾値thrburst(例えばthrburst=3)を超えた場合(121)、振幅適応化が実行されるのが好ましい(123)。その場合、減衰率として、1より小さい値(例えばα(m)=0.1)が使用される。
[0105]
ただし、徐々に程度が増加する減衰を実行するのが有益であることがわかっている。これを実現する好適な一実施形態は、フレームごとの減衰量の対数増加att_per_frameを指定する対数パラメータを定義することである。そこで、バーストカウンタが閾値を超えた場合の、徐々に増加する減衰率は、次式により計算される。
[0106]
ただし、定数cは、例えばデシベル(dB)単位でパラメータatt_per_frameを指定することを可能にする単なるスケーリング定数である。
[0107]
追加的な好適な適応化は、信号が音楽であるか音声であるかの推定を示す指標に応じて実行されるものである。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させ、フレームごとの減衰を減少させることが好ましい。これは、程度を下げながらフレーム損失コンシールメント方法の適応化を実行することに等しい。この種の適応化の背景にあるのは、一般に、音声と比較して音楽のほうが長い損失バーストの影響を受けやすいことである。従ってこの場合、少なくとも複数のフレーム損失が含まれる場合には
、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好適である。
[0108]
指標Rl/r,band(k)、あるいはRl/r(m)又はRl/rが閾値を超えたことに基づいて過渡が検出された場合、振幅減衰率に関する更なるコンシールメント方法の適応化が実行されるのが好ましい(122)。その場合、適切な適応化動作(125)は、全減衰量が2つの係数の積α(m)・β(m)により制御されるように第2の振幅減衰率β(m)を修正することである。
[0109]
β(m)は、過渡が示されたことに応じて設定される。立ち下がりが検出された場合、係数β(m)は、その立ち下がりのエネルギー減少を反映するように選択されるのが好ましい。適切な選択肢は、β(m)を検出されたゲイン変化に設定することである。すなわち、
m∈Ik,k=1…Kとして、
[0110]
立ち上がりが検出された場合、代替フレームにおけるエネルギー増加を制限するのが有利であることがわかっている。その場合、係数は、減衰も増幅もしないことを意味する固定値(例えば1)に設定することができる。
[0111]
なお、上記の説明において、振幅減衰率は周波数選択的に、すなわち、周波数帯域ごとに、個別に計算された係数によって適用されるのが好ましい。帯域方式が使用されない場合、対応する振幅減衰率をアナログ的に取得することが可能である。DFTビンレベルで周波数選択的過渡検出が使用される場合、DFTビンごとに個別にβ(m)を設定できる。あるいは、周波数選択的過渡指示がまったく使用されない場合、すべてのmに対してβ(m)を包括的に同一にすることができる。
[0112]
振幅減衰率の更なる好適な適応化は、位相の修正と関連して追加位相成分
によって実行される(127)。所定のmに対して、そのような位相修正が使用される場合、減衰率β(m)は更に減少される。位相修正の程度まで考慮に入れられるのが好ましい。位相修正が適度に実行されるだけの場合、β(m)はわずかにスケールダウンされるのみであるが、位相修正が強力である場合、β(m)は更に大幅にスケールダウンされる。
[0113]
位相適応化を導入することの一般的な目的は、生成される代替フレームのトーン性又は信号周期性が強すぎることによる品質劣化を招くようなことを回避することである。そのような適応化に適した方法は、位相を適切な程度にランダム化(randomize)又はディザリング(dithering)することである。
[0114]
そのような位相ディザリングは、追加位相成分
が制御係数によってスケーリングされたランダム値
に設定されることにより実現される。
[0115]
関数rand(・)により得られるランダム値は、例えば疑似乱数発生器により生成される。ここで、疑似乱数発生器は、区間 [0,2π]の中で1つの乱数を出力すると想定する。
[0116]
上式のスケーリング係数α(m)は、当初の位相θkがディザリングされる程度を制御する。以下に示す実施形態は、このスケーリング係数を制御することによって位相適応化に対処する。スケーリング係数の制御は、先に説明した振幅修正係数の制御と同様に実行される。
[0117]
第1の実施形態によれば、スケーリング係数α(m)は、バースト損失カウンタに応じて適応化される。バースト損失カウンタnburstが閾値thrburst(例えばburst=3)を超えた場合、0より大きい数(例えば、α(m)=0.2)が使用される。
[0118]
しかし、徐々に程度を増加させながらディザリングを実行するのが有益であることが分かっている。これを実現する好適な一実施形態は、フレームごとのディザリングの増加を指定するパラメータdith_increase_per_frameを定義することである。そこで、バーストカウンタが閾値を超えた場合、徐々に増加するディザリング制御係数は次式により計算される。
[0119]
[0120]
ただし、上式において、α(m)は、全位相ディザリングが達成される最大値1に制限されなければならない。
[0121]
なお、位相ディザリングを開始するために使用されるバースト損失閾値thrburstは、振幅減衰に使用される閾値と同一の閾値であってもよい。しかし、それらの閾値を個別に最適値に設定することにより、より高い品質を得ることができ、これは、一般にそれらの閾値が異なっていてもよいことを意味する。
[0122]
信号が音楽であるか音声であるかの推定を示す指標に応じて、好適な追加的な適応化が実行される。音楽コンテンツの場合、音声コンテンツと比較して閾値thrburstを増加させるのが好ましい。これは、音声と比較して、音楽の場合の位相ディザリングは、連続する損失フレームの数が多い場合にのみ実行されることを意味する。これは、程度を下げながら音楽の場合のフレーム損失コンシールメント方法の適応化を実行することと同等である。この種の適応化の背景には、一般に音楽は、音声より長い損失バーストの影響を受けにくいということがある。従って、この場合、少なくとも多数の連続するフレーム損失に対しては、当初のフレーム損失コンシールメント方法、すなわち未修正のフレーム損失コンシールメント方法が依然として好ましい。
[0123]
更なる好適な実施形態は、検出された過渡に応じて位相ディザリングを適応化することである。その場合、そのビン、対応する周波数帯域のDFTビン、又はフレーム全体のDFTビンに関して過渡が示されたDFTビンmに対して、より強力な程度の位相ディザリングを使用できる。
[0124]
説明される方式の一部は、高調波信号、特に有声音の高調波信号に対してフレーム損失コンシールメント方法を最適化することに対処する。
[0125]
前述したような改善型周波数推定を使用する方法が実現されない場合、有声音声信号に対して品質を最適化するフレーム損失コンシールメント方法の別の適応可能性は、音楽及び音声を含む一般的なオーディオ信号に関する方法ではなく、音声に特定して設計されかつ最適化された他のフレーム損失コンシールメント方法に切り替えることである。その場合、信号が有声音声信号を含むという指標が、前述した方式ではなく別の音声最適化フレーム損失コンシールメント方式を選択するために使用される。
[0126]
実施形態は、図13に示されるようなデコーダのコントローラに適用される。図13は実施形態に係るデコーダの概略ブロック図である。デコーダ130は、符号化オーディオ信号を受信するように構成された入力ユニット132を備える。図は、論理フレーム損失コンシールメントユニット134によるフレーム損失コンシールメントを示し、これは、先述した実施形態に従ってデコーダが損失オーディオフレームのコンシールメントを実現するように構成されていることを示す。デコーダは、先述した実施形態を実現するコントローラ136を更に備える。コントローラ136は、受信され、再構成されたオーディオ信号の特性の中で又は観測されたフレーム損失の統計的特性において、先述した方法に従った損失フレームの代替が相対的に品質を低下させるような状態を検出するように構成される。そのような状態が検出された場合、コントローラ136は、位相又はスペクトル振幅を選択的に調整することにより、
に従って代替フレームスペクトルを計算するコンシールメント方法の要素を修正するように構成される。検出は、検出器ユニット146により実行可能であり、修正は、図14に示されるような修正器ユニット148により実行可能である。
[0127]
デコーダは、そこに含まれるユニットと共に、ハードウェアで実現可能である。デコーダのユニットの機能を実現するために使用可能であり、組み合わせ可能である回路素子には数多くの変形がありうる。そのような変形例は実施形態に含まれる。デコーダのハードウェア実現形態の特定の実施例は、共に汎用電子回路及び特定用途向け回路を含むデジタルシグナルプロセッサ(DSP)ハードウェアと集積回路技術である。
[0128]
あるいは、図13に示されるような本明細書において説明される実施形態に係るオーディオフレーム損失コンシールメントの実行を含めて、オーディオ信号を再構成するために、本明細書において説明されるデコーダ150は、例えば図15に示されるように、すなわち、プロセッサ154及び適切な記憶装置又はメモリ156を伴う適切なソフトウェア155のうち1つ以上により実現可能である。入力される符号化オーディオ信号は入力端子(IN)152により受信され、この入力端子(IN)152には、プロセッサ154及びメモリ156が接続される。ソフトウェアから取得された復号化、再構成化オーディオ信号は、出力端子(OUT)158から出力される。
[0129]
上述の技術は、例えば、移動体装置(例えば、移動電話、ラップトップ)又はパーソナルコンピュータなどの固定デバイスで使用可能な受信機において使用されうる。
[0130]
相互に作用するユニット又はモジュールの選択、並びにそれらのユニットの名前は単なる例であり、開示される処理動作を実行可能にするために複数の代替方法で構成されうることは理解されよう。
[0131]
なお、本明細書において説明されるユニット又はモジュールは、必ずしも個別の物理エンティティではなく、論理エンティティとしてみなされるべきものである。本明細書において開示される技術の範囲は、当業者には自明であると思われる他の実施形態をすべて含
み、それに従って、本明細書の開示の範囲が限定されるべきではないことが理解されるだろう。
[0132]
単数形の要素を説明する場合、明示して指示のない限り、それは「ただ1つの」要素を意味するのではなく、「1つ以上の」要素を表す。先に説明された実施形態の要素と同等の、当業者には知られているすべての構造及び機能は、そこで参照することにより本発明に明白に取り入れられており、本発明に含まれることが意図される。更に、装置又は方法は、本発明に含まれるために、本明細書において開示された技術により解決されようとしているありとあらゆる問題に対処する必要はない。
[0133]
以上の説明の中で、開示される技術を完全に理解させるために、説明の便宜上、特定の構造、インタフェース、技術などの特定の詳細を述べたが、それは本発明を限定するものではない。しかし、それらの特定の詳細から逸脱した他の実施形態及び/又は実施形態の組み合わせにおいて、開示された技術が実施されてもよいことは当業者には明らかだろう。すなわち、本明細書には明示して説明又は図示されてはいないが、開示された技術の原理を具現化する種々の構成を当業者は考案できるだろう。場合によっては、不必要に詳細を述べることによって、開示される技術の説明をわかりにくくしないように、周知のデバイス、回路及び方法の詳細な説明を省略した。開示される技術の原理、態様及び実施形態、並びにその特定の実施例を説明した本明細書のすべての記述は、それらと同等な構造及び同等な機能を共に含むことを意図する。更に、そのような同等物は、現在知られている同等物に加えて、将来開発される同等物、例えば、構造に関わらず同一の機能を実行するように開発された何らかの要素をも含むことが意図される。
[0134]
従って、例えば、添付の図は、技術の原理を具現化する例示的な回路又は他の機能ユニット、及び/又はコンピュータ読み取り可能な媒体で実質的に表現されてもよく、図には明示して示されてはいないが、コンピュータ又はプロセッサにより実行されうる種々の処理の概念図を表すことができることが当業者には理解されるだろう。
[0135]
機能ブロックを含む種々の要素の機能は、回路ハードウェア及び/又はコンピュータ読み取り可能な媒体に記憶された符号化命令の形のソフトウェアを実行可能なハードウェアの使用によって提供されてもよい。従って、そのような機能及び図示される機能ブロックは、ハードウェアで実現されかつ/又はコンピュータで実現され、従って機械で実現されると理解されるべきである。
[0136]
以上説明した実施形態は、本発明のいくつかの例示として理解されるべきである。本発明の範囲から逸脱することなく、それらの実施形態に対して種々の修正、組み合わせ及び変更が行われてもよいことは当業者には理解されよう。特に、異なる実施形態の異なる部分の方法は、技術的に可能であるならば、他の構成で組み合わせ可能である。
Claims (28)
- 受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するための方法であって、
修正離散コサイン変換(MDCT)係数を得るために、前記受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された前記第1の音響フレームから復号された前記MDCT係数に基づいて第1のスペクトル形状の値を決定すること(307~309、903)であって、前記第1のスペクトル形状がある数の副帯域を含む、第1のスペクトル形状の値を決定すること(307~309、903)と、
第2の音響フレームのためのMDCT係数を得るために、前記受け取った音響信号の前記第2の音響フレームを復号すること(907)と、
復号された前記第2の音響フレームから復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)であって、前記第2のスペクトル形状が前記数の副帯域を含む、第2のスペクトル形状の値を決定すること(307~309、913)と、
前記第1の音響フレームの前記第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および前記第2の音響フレームの前記第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換すること(917)と、
前記第1のFFTの前記第1の表現および第2のFFTの前記第2の表現に基づいて過渡状態を検出すること(919)と、
前記過渡状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって前記隠蔽方法を修正すること(921)と
を含む方法。 - 前記MDCT係数に基づいて前記第1のスペクトル形状の前記値を決定することが、
前記MDCT係数の全体の大きさを決定すること(307)と、
前記第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を前記第1のスペクトル形状の前記値のうちの一値として記憶することと
を含む、請求項1に記載の方法。 - 前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値を第1のFFTに基づくスペクトル解析の前記第1の表現に変換すること、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値を第2のFFTスペクトル解析の第2の表現に変換することが、前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値に変換ファクターを適用することを含む、請求項1から4のいずれか一項に記載の方法。
- 前記変換ファクターがサンプリング周波数に応じて決まる、請求項5に記載の方法。
- Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って、前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値を第1のFFTに基づくスペクトル解析の前記第1の表現に変換すること、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値を第2のFFTスペクトル解析の第2の表現に変換することをさらに含み、
ここで、Eoold(k)は前記第1の表現であり、μは変換ファクターであり、shapeoold(k)は前記第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldは前記第1のフレームエネルギーであり、Eold(k)は前記第2の表現であり、shapeold(k)は前記第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldは前記第2のフレームエネルギーであり、Ngrpは副帯域の数である、請求項4から6のいずれか一項に記載の方法。 - Eoold(k)およびEold(k)に関連するフレームのそれぞれの帯域エネルギー同士の間の比率が閾値よりも大きいかどうかを決定すること(1105)と、
前記比率が前記閾値よりも大きいことに応答して、前記置換フレームスペクトルの前記スペクトルの大きさを選択的に調整すること(1107)によって前記隠蔽方法を修正することと
をさらに含む、請求項7に記載の方法。 - 前記第1のスペクトル形状の決定された前記値をshapeoldバッファに記憶することと、
前記第1の音響フレームの前記第1のフレームエネルギーを決定すること(905)、および決定された前記第1のフレームエネルギーをE_woldバッファに記憶することと、
前記第2の音響フレームの復号に応答して、前記第1のスペクトル形状の決定された前記値を前記shapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
決定された前記第1のフレームエネルギーを前記E_woldバッファからE_wooldバッファへ移すこと(305、911)と、
前記第2のスペクトル形状の決定された前記値を前記shapeoldバッファに記憶することと、
前記第2の音響フレームの前記第2のフレームエネルギーを決定すること(915)、および決定された前記第2のフレームエネルギーを前記E_woldバッファに記憶することと
をさらに含む、請求項1から9のいずれか一項に記載の方法。 - 不良フレームインジケータを受け取ること(403、501)と、
前記不良フレームインジケータの受取りに応答して、前記shapeooldバッファおよび前記E_wooldエネルギーバッファをフラッシングすることと、
前記受け取った音響信号の新しい音響フレームを受け取ることと、
復号された前記新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された前記新しいスペクトル形状の値を前記shapeoldバッファおよび前記shapeooldバッファに記憶すること(405)であって、前記新しいスペクトル形状がある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
前記音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された前記新しいフレームエネルギーを前記E_woldバッファおよび前記E_wooldバッファに記憶すること(407)と
をさらに含む、請求項10または11に記載の方法。 - 請求項1から12の少なくともいずれか一項による操作を実施するように適合された、デコーダ装置(1201、1301)。
- 受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するように設定された装置(1201、1301)であって、
修正離散コサイン変換(MDCT)係数を得るために、前記受け取った音響信号の第1の音響フレームを復号し、
復号された前記音響フレームから復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定し、前記第1のスペクトル形状がある数の副帯域を含み、
前記受け取った音響信号の第2の音響フレームを復号し、
復号された前記第2の音響フレームから復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定し、前記第2のスペクトル形状が前記数の副帯域を含み、
前記第1の音響フレームの前記第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換し、また、前記第2の音響フレームの前記第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換し、
前記第1のFFTの前記第1の表現および第2のFFTの前記第2の表現に基づいて過渡状態を検出し、また、
前記過渡状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって前記隠蔽方法を修正する
ように設定された、装置。 - 前記装置が請求項2から12のいずれか一項に記載の操作を実施するように設定される、請求項14に記載の装置。
- 受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するように設定されたデコーダ(1201、1301)であって、
プロセッサ(1305)と、
メモリ(1311)であって、前記プロセッサによって実行されると、前記デコーダ装置(1201、1301)に、
修正離散コサイン変換(MDCT)係数を得るために、前記受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された前記第1の音響フレームから復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(903)であって、前記第1のスペクトル形状がある数の副帯域を含む、第1のスペクトル形状の値を決定すること(903)と、
前記受け取った音響信号の第2の音響フレームを復号すること(907)と、
復号された前記第2の音響フレームから復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)であって、前記第2のスペクトル形状が前記数の副帯域を含む、第2のスペクトル形状の値を決定すること(307~309、913)と、
前記第1の音響フレームの前記第1のスペクトル形状の値および第1のフレームエネルギーを第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および前記第2の音響フレームの前記第2のスペクトル形状の値および第2のフレームエネルギーを第2のFFTスペクトル解析の第2の表現に変換することと、
前記第1のFFTの前記第1の表現および第2のFFTの前記第2の表現に基づいて過渡状態を検出すること(919)と、
前記過渡状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって前記隠蔽方法を修正すること(921)と
を含む操作を実施させる命令を記憶するメモリ(1311)と
を備える、デコーダ装置。 - 復号されたMDCT係数に基づいて前記第1のスペクトル形状の前記値を決定するために、前記命令が、前記プロセッサによって実行されると、前記装置に
前記MDCT係数の全体の大きさを決定すること(307)と、
前記第1のスペクトル形状の個々の副帯域値を正規化することと、
個々の正規化された副帯域値を前記第1のスペクトル形状の前記値のうちの一値として記憶することと
を含む操作を実施させるさらなる命令を含む、請求項16に記載のデコーダ。 - 前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値を第1のFFTに基づくスペクトル解析の前記第1の表現に変換し、また、前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値を第2のFFTスペクトル解析の第2の表現に変換するために、前記命令が、前記プロセッサによって実行されると、前記装置に、
前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値に変換ファクターを適用すること
を含む操作を実施させるさらなる命令を含む、請求項16から19のいずれか一項に記載のデコーダ。 - 前記変換ファクターがサンプリング周波数に応じて決まる、請求項20に記載のデコーダ。
- Eoold(k)=μ・shapeoold(k)・E_woold、0≦k<Ngrp
および
に従って、前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値を第1のFFTに基づくスペクトル解析の前記第1の表現に変換すること、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値を第2のFFTスペクトル解析の第2の表現に変換することをさらに含み、
ここで、Eoold(k)が前記第1の表現であり、μが前記変換ファクターであり、shapeoold(k)が前記第1のスペクトル形状の副帯域(k)のスペクトル形状であり、E_wooldが前記第1のフレームエネルギーであり、Eold(k)が前記第2の表現であり、shapeold(k)が前記第2のスペクトル形状の副帯域(k)のスペクトル形状であり、E_woldが前記第2のフレームエネルギーであり、Ngrpが副帯域の数である、請求項20または21に記載のデコーダ。 - 前記命令が、前記プロセッサによって実行されると、前記装置に、
Eoold(k)およびEold(k)に基づいて、Eoold(k)およびEold(k)に関連するフレームのそれぞれの帯域エネルギー同士の間の比率が閾値よりも大きいかどうかを決定すること(1105)と、
前記比率が前記閾値よりも大きいことに応答して、前記置換フレームスペクトルの前記スペクトルの大きさを選択的に調整すること(1107)によって前記隠蔽方法を修正することと
をさらに含む操作を実施させるさらなる命令を含む、請求項22に記載のデコーダ。 - 前記第1のスペクトル形状の決定された前記値をshapeoldバッファに記憶することと、
前記第1の音響フレームの前記第1のフレームエネルギーを決定すること(905)、および決定された前記第1のフレームエネルギーをE_woldバッファに記憶することと、
前記第2の音響フレームの復号に応答して、前記第1のスペクトル形状の決定された前記値を前記shapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
決定された前記第1のフレームエネルギーを前記E_woldバッファからE_wooldバッファへ移すこと(305、911)と、
前記第2のスペクトル形状の決定された前記値を前記shapeoldバッファに記憶することと、
前記第2の音響フレームの前記第2のフレームエネルギーを決定すること(915)、および決定された前記第2のフレームエネルギーを前記E_woldバッファに記憶することと
をさらに含む、請求項16から24のいずれか一項に記載のデコーダ。 - 前記命令が、前記プロセッサによって実行されると、前記装置に、
不良フレームインジケータを受け取ること(403、501)と、
前記不良フレームインジケータの受取りに応答して、前記shapeooldバッファおよび前記E_wooldエネルギーバッファをフラッシングすることと、
前記受け取った音響信号の新しい音響フレームを受け取ることと、
復号された前記新しい音響フレームからの復号されたMDCT係数に基づいて新しいスペクトル形状の値を決定すること(503)、および計算された前記新しいスペクトル形状の値を前記shapeoldバッファおよび前記shapeooldバッファに記憶すること(405)であって、前記新しいスペクトル形状がある数の副帯域を含む、新しいスペクトル形状の値を記憶すること(405)と、
前記音響フレームの新しいフレームエネルギーを決定すること(505)、および計算された前記新しいフレームエネルギーを前記E_woldバッファおよび前記E_wooldバッファに記憶すること(407)と
をさらに含む操作を実施させるさらなる命令を含む、請求項25または26に記載のデコーダ。 - 受け取った音響信号に関連する失われた音響フレームのための隠蔽方法を制御するためのコンピュータプロセッサによる方法であって、
修正離散コサイン変換(MDCT)に基づいて、前記受け取った音響信号の第1の音響フレームを復号すること(901)と、
復号された前記音響フレームからの復号されたMDCT係数に基づいて第1のスペクトル形状の値を決定すること(307~309、903)、および計算された前記第1のスペクトル形状の値をshapeoldバッファに記憶することであって、前記第1のスペクトル形状がある数の副帯域を含む、第1のスペクトル形状の値を記憶することと、
前記音響フレームの第1のフレームエネルギーを決定すること(905)、および計算された前記第1のフレームエネルギーをE_woldバッファに記憶することと、
前記受け取った音響信号の第2の音響フレームを復号すること(907)と、
計算された前記第1のスペクトル形状の値を前記shapeoldバッファからshapeooldバッファへ移すこと(303、909)と、
計算された前記第1のフレームエネルギーを前記E_woldバッファからE_wooldバッファへ移すこと(305、911)と、
復号された前記第2の音響フレームからの復号されたMDCT係数に基づいて第2のスペクトル形状の値を決定すること(307~309、913)、および計算された前記第2のスペクトル形状の値を前記shapeoldバッファに記憶することであって、前記第2のスペクトル形状が前記数の副帯域を含む、第2のスペクトル形状の値を記憶することと、
前記第2の音響フレームの第2のフレームエネルギーを決定すること(915)、および計算された前記第2のフレームエネルギーを前記E_woldバッファに記憶することと、
前記第1のスペクトル形状および前記第1のフレームエネルギーの前記値を第1の高速フーリエ変換(FFT)に基づくスペクトル解析の第1の表現に変換すること(917)、および前記第2のスペクトル形状および前記第2のフレームエネルギーの前記値を第2のFFTスペクトル解析の第2の表現に変換すること(917)と、
前記第1の高速FFTの前記第1の表現および第2のFFTの前記第2の表現に基づいて、前記失われた音響フレームのための置換フレームを作り出すために前記隠蔽方法が使用される場合に、前記失われた音響フレームのための前記置換フレームの最適以下の再構成品質をもたらし得る状態を検出すること(919)と、
前記状態の検出に応答して、置換フレームスペクトルのスペクトルの大きさを選択的に調整することによって前記隠蔽方法を修正すること(921)と
を含む、方法。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962808610P | 2019-02-21 | 2019-02-21 | |
US201962808587P | 2019-02-21 | 2019-02-21 | |
US201962808600P | 2019-02-21 | 2019-02-21 | |
US62/808,587 | 2019-02-21 | ||
US62/808,600 | 2019-02-21 | ||
US62/808,610 | 2019-02-21 | ||
JP2021547686A JP7335968B2 (ja) | 2019-02-21 | 2020-02-20 | Mdct係数からのスペクトル形状予測 |
PCT/EP2020/054523 WO2020169757A1 (en) | 2019-02-21 | 2020-02-20 | Spectral shape estimation from mdct coefficients |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547686A Division JP7335968B2 (ja) | 2019-02-21 | 2020-02-20 | Mdct係数からのスペクトル形状予測 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023166423A true JP2023166423A (ja) | 2023-11-21 |
Family
ID=69701173
Family Applications (6)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547686A Active JP7335968B2 (ja) | 2019-02-21 | 2020-02-20 | Mdct係数からのスペクトル形状予測 |
JP2021547687A Active JP7178506B2 (ja) | 2019-02-21 | 2020-02-20 | 位相ecu f0補間スプリットのための方法および関係するコントローラ |
JP2021547688A Active JP7307805B2 (ja) | 2019-02-21 | 2020-02-20 | 周波数領域パケットロス補償のための方法、および関連デコーダ |
JP2022181549A Active JP7471375B2 (ja) | 2019-02-21 | 2022-11-14 | 位相ecu f0補間スプリットのための方法および関係するコントローラ |
JP2023107640A Pending JP2023138988A (ja) | 2019-02-21 | 2023-06-30 | 周波数領域パケットロス補償のための方法、および関連デコーダ |
JP2023133704A Pending JP2023166423A (ja) | 2019-02-21 | 2023-08-18 | Mdct係数からのスペクトル形状予測 |
Family Applications Before (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547686A Active JP7335968B2 (ja) | 2019-02-21 | 2020-02-20 | Mdct係数からのスペクトル形状予測 |
JP2021547687A Active JP7178506B2 (ja) | 2019-02-21 | 2020-02-20 | 位相ecu f0補間スプリットのための方法および関係するコントローラ |
JP2021547688A Active JP7307805B2 (ja) | 2019-02-21 | 2020-02-20 | 周波数領域パケットロス補償のための方法、および関連デコーダ |
JP2022181549A Active JP7471375B2 (ja) | 2019-02-21 | 2022-11-14 | 位相ecu f0補間スプリットのための方法および関係するコントローラ |
JP2023107640A Pending JP2023138988A (ja) | 2019-02-21 | 2023-06-30 | 周波数領域パケットロス補償のための方法、および関連デコーダ |
Country Status (9)
Country | Link |
---|---|
US (4) | US11705136B2 (ja) |
EP (3) | EP3928314A1 (ja) |
JP (6) | JP7335968B2 (ja) |
KR (1) | KR20210130743A (ja) |
CN (3) | CN113439302A (ja) |
BR (1) | BR112021014477A2 (ja) |
CO (2) | CO2021010587A2 (ja) |
MX (1) | MX2021009635A (ja) |
WO (3) | WO2020169756A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984920B (zh) * | 2020-08-31 | 2022-03-18 | 广东电网有限责任公司广州供电局 | 次/超同步谐波参数识别方法、装置、设备和介质 |
Family Cites Families (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
KR970011728B1 (ko) * | 1994-12-21 | 1997-07-14 | 김광호 | 음향신호의 에러은닉방법 및 그 장치 |
US5848391A (en) * | 1996-07-11 | 1998-12-08 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Method subband of coding and decoding audio signals using variable length windows |
US7117156B1 (en) * | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US6775649B1 (en) * | 1999-09-01 | 2004-08-10 | Texas Instruments Incorporated | Concealment of frame erasures for speech transmission and storage system and method |
WO2001033411A1 (en) * | 1999-10-30 | 2001-05-10 | Stmicroelectronics Asia Pacific Pte. Ltd. | Fast modified discrete cosine transform method |
KR100591350B1 (ko) | 2001-03-06 | 2006-06-19 | 가부시키가이샤 엔.티.티.도코모 | 오디오 데이터 보간장치 및 방법, 오디오 데이터관련 정보작성장치 및 방법, 오디오 데이터 보간 정보 송신장치 및방법, 및 그 프로그램 및 기록 매체 |
US7324444B1 (en) * | 2002-03-05 | 2008-01-29 | The Board Of Trustees Of The Leland Stanford Junior University | Adaptive playout scheduling for multimedia communication |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
KR100477701B1 (ko) * | 2002-11-07 | 2005-03-18 | 삼성전자주식회사 | Mpeg 오디오 인코딩 방법 및 mpeg 오디오 인코딩장치 |
US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7526351B2 (en) * | 2005-06-01 | 2009-04-28 | Microsoft Corporation | Variable speed playback of digital audio |
US8473298B2 (en) * | 2005-11-01 | 2013-06-25 | Apple Inc. | Pre-resampling to achieve continuously variable analysis time/frequency resolution |
US8798172B2 (en) * | 2006-05-16 | 2014-08-05 | Samsung Electronics Co., Ltd. | Method and apparatus to conceal error in decoded audio signal |
DK2102619T3 (en) * | 2006-10-24 | 2017-05-15 | Voiceage Corp | METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS |
JP5103880B2 (ja) | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
KR101292771B1 (ko) * | 2006-11-24 | 2013-08-16 | 삼성전자주식회사 | 오디오 신호의 오류은폐방법 및 장치 |
CN101207468B (zh) * | 2006-12-19 | 2010-07-21 | 华为技术有限公司 | 丢帧隐藏方法、系统和装置 |
US8165872B2 (en) * | 2007-02-01 | 2012-04-24 | Broadcom Corporation | Method and system for improving speech quality |
US8468024B2 (en) * | 2007-05-14 | 2013-06-18 | Freescale Semiconductor, Inc. | Generating a frame of audio data |
JP5618826B2 (ja) * | 2007-06-14 | 2014-11-05 | ヴォイスエイジ・コーポレーション | Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法 |
US8185388B2 (en) * | 2007-07-30 | 2012-05-22 | Huawei Technologies Co., Ltd. | Apparatus for improving packet loss, frame erasure, or jitter concealment |
TW200912892A (en) * | 2007-09-04 | 2009-03-16 | Univ Nat Central | Method and apparatus of low-complexity psychoacoustic model applicable for advanced audio coding encoders |
WO2009109050A1 (en) * | 2008-03-05 | 2009-09-11 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
US20100324911A1 (en) * | 2008-04-07 | 2010-12-23 | Broadcom Corporation | Cvsd decoder state update after packet loss |
CN101588341B (zh) * | 2008-05-22 | 2012-07-04 | 华为技术有限公司 | 一种丢帧隐藏的方法及装置 |
US9076439B2 (en) * | 2009-10-23 | 2015-07-07 | Broadcom Corporation | Bit error management and mitigation for sub-band coding |
US20110196673A1 (en) * | 2010-02-11 | 2011-08-11 | Qualcomm Incorporated | Concealing lost packets in a sub-band coding decoder |
EP2770503B1 (en) | 2011-10-21 | 2019-05-29 | Samsung Electronics Co., Ltd. | Method and apparatus for concealing frame errors and method and apparatus for audio decoding |
CN103714821A (zh) * | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
US9325544B2 (en) * | 2012-10-31 | 2016-04-26 | Csr Technology Inc. | Packet-loss concealment for a degraded frame using replacement data from a non-degraded frame |
FR3001593A1 (fr) * | 2013-01-31 | 2014-08-01 | France Telecom | Correction perfectionnee de perte de trame au decodage d'un signal. |
ES2603827T3 (es) | 2013-02-05 | 2017-03-01 | Telefonaktiebolaget L M Ericsson (Publ) | Método y aparato para controlar la ocultación de pérdida de trama de audio |
ES2597829T3 (es) * | 2013-02-05 | 2017-01-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Ocultación de pérdida de trama de audio |
US9478221B2 (en) | 2013-02-05 | 2016-10-25 | Telefonaktiebolaget Lm Ericsson (Publ) | Enhanced audio frame loss concealment |
FR3004876A1 (fr) * | 2013-04-18 | 2014-10-24 | France Telecom | Correction de perte de trame par injection de bruit pondere. |
BR112015032013B1 (pt) | 2013-06-21 | 2021-02-23 | Fraunhofer-Gesellschaft zur Förderung der Angewandten ForschungE.V. | Método e equipamento para a obtenção de coeficientes do espectropara um quadro de substituição de um sinal de áudio, descodificador de áudio,receptor de áudio e sistema para transmissão de sinais de áudio |
CN104282309A (zh) * | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
NO2780522T3 (ja) * | 2014-05-15 | 2018-06-09 | ||
CN112216289B (zh) | 2014-07-28 | 2023-10-27 | 三星电子株式会社 | 用于音频信号的时域数据包丢失隐藏的方法 |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
JP2016038435A (ja) | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
CN107004417B (zh) * | 2014-12-09 | 2021-05-07 | 杜比国际公司 | Mdct域错误掩盖 |
US9978400B2 (en) * | 2015-06-11 | 2018-05-22 | Zte Corporation | Method and apparatus for frame loss concealment in transform domain |
EP3182410A3 (en) * | 2015-12-18 | 2017-11-01 | Dolby International AB | Enhanced block switching and bit allocation for improved transform audio coding |
JP6883047B2 (ja) * | 2016-03-07 | 2021-06-02 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 適切に復号されたオーディオフレームの復号化表現の特性を使用する誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム |
BR112018067944B1 (pt) * | 2016-03-07 | 2024-03-05 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Unidade de ocultação de erro, método de ocultação de erro,decodificador de áudio, codificador de áudio, método para fornecer uma representação de áudio codificada e sistema |
JP6826126B2 (ja) * | 2016-03-07 | 2021-02-03 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 異なる周波数帯域の異なる減衰係数に従って隠蔽されたオーディオフレームをフェードアウトする誤り隠蔽ユニット、オーディオデコーダ、および関連する方法およびコンピュータプログラム |
JP6976277B2 (ja) * | 2016-06-22 | 2021-12-08 | ドルビー・インターナショナル・アーベー | 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法 |
EP3616196A4 (en) * | 2017-04-28 | 2021-01-20 | DTS, Inc. | AUDIO ENCODER WINDOW AND TRANSFORMATION IMPLEMENTATIONS |
-
2020
- 2020-02-20 CN CN202080015563.1A patent/CN113439302A/zh active Pending
- 2020-02-20 CN CN202080015254.4A patent/CN113454713A/zh active Pending
- 2020-02-20 WO PCT/EP2020/054522 patent/WO2020169756A1/en unknown
- 2020-02-20 BR BR112021014477-3A patent/BR112021014477A2/pt unknown
- 2020-02-20 WO PCT/EP2020/054520 patent/WO2020169754A1/en unknown
- 2020-02-20 US US17/430,001 patent/US11705136B2/en active Active
- 2020-02-20 US US17/432,681 patent/US20220172733A1/en active Pending
- 2020-02-20 MX MX2021009635A patent/MX2021009635A/es unknown
- 2020-02-20 EP EP20707216.6A patent/EP3928314A1/en active Pending
- 2020-02-20 KR KR1020217028735A patent/KR20210130743A/ko unknown
- 2020-02-20 US US17/432,260 patent/US11862180B2/en active Active
- 2020-02-20 WO PCT/EP2020/054523 patent/WO2020169757A1/en unknown
- 2020-02-20 EP EP20707215.8A patent/EP3928313A1/en active Pending
- 2020-02-20 EP EP20707214.1A patent/EP3928312A1/en active Pending
- 2020-02-20 CN CN202080015881.8A patent/CN113454714B/zh active Active
- 2020-02-20 JP JP2021547686A patent/JP7335968B2/ja active Active
- 2020-02-20 JP JP2021547687A patent/JP7178506B2/ja active Active
- 2020-02-20 JP JP2021547688A patent/JP7307805B2/ja active Active
-
2021
- 2021-08-11 CO CONC2021/0010587A patent/CO2021010587A2/es unknown
- 2021-09-17 CO CONC2021/0012223A patent/CO2021012223A2/es unknown
-
2022
- 2022-11-14 JP JP2022181549A patent/JP7471375B2/ja active Active
-
2023
- 2023-05-30 US US18/203,280 patent/US20230298597A1/en active Pending
- 2023-06-30 JP JP2023107640A patent/JP2023138988A/ja active Pending
- 2023-08-18 JP JP2023133704A patent/JP2023166423A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2020169754A1 (en) | 2020-08-27 |
US20220189490A1 (en) | 2022-06-16 |
EP3928314A1 (en) | 2021-12-29 |
JP7335968B2 (ja) | 2023-08-30 |
KR20210130743A (ko) | 2021-11-01 |
MX2021009635A (es) | 2021-09-08 |
EP3928313A1 (en) | 2021-12-29 |
US20220172733A1 (en) | 2022-06-02 |
CN113439302A (zh) | 2021-09-24 |
JP2023029834A (ja) | 2023-03-07 |
JP2023138988A (ja) | 2023-10-03 |
JP7307805B2 (ja) | 2023-07-12 |
WO2020169757A1 (en) | 2020-08-27 |
CO2021012223A2 (es) | 2021-09-30 |
JP2022521077A (ja) | 2022-04-05 |
US20220148602A1 (en) | 2022-05-12 |
JP7471375B2 (ja) | 2024-04-19 |
WO2020169756A1 (en) | 2020-08-27 |
US11862180B2 (en) | 2024-01-02 |
CN113454713A (zh) | 2021-09-28 |
CO2021010587A2 (es) | 2021-08-30 |
JP7178506B2 (ja) | 2022-11-25 |
US20230298597A1 (en) | 2023-09-21 |
BR112021014477A2 (pt) | 2021-09-28 |
JP2022521494A (ja) | 2022-04-08 |
CN113454714A (zh) | 2021-09-28 |
JP2022521188A (ja) | 2022-04-06 |
EP3928312A1 (en) | 2021-12-29 |
CN113454714B (zh) | 2024-05-14 |
US11705136B2 (en) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6698792B2 (ja) | オーディオフレーム損失のコンシールメントを制御する方法及び装置 | |
JP2023166423A (ja) | Mdct係数からのスペクトル形状予測 | |
US20240135936A1 (en) | Spectral shape estimation from mdct coefficients | |
OA17529A (en) | Method and apparatus for controlling audio frame loss concealment. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230919 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230919 |