JP6641302B2 - 低遅延符号化/復号のための補間による音声信号のリサンプリング - Google Patents

低遅延符号化/復号のための補間による音声信号のリサンプリング Download PDF

Info

Publication number
JP6641302B2
JP6641302B2 JP2016574394A JP2016574394A JP6641302B2 JP 6641302 B2 JP6641302 B2 JP 6641302B2 JP 2016574394 A JP2016574394 A JP 2016574394A JP 2016574394 A JP2016574394 A JP 2016574394A JP 6641302 B2 JP6641302 B2 JP 6641302B2
Authority
JP
Japan
Prior art keywords
interpolation
resampling
interpolated
sample
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016574394A
Other languages
English (en)
Other versions
JP2017526950A (ja
Inventor
バラーツ・コヴシー
ステファーヌ・ラゴ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of JP2017526950A publication Critical patent/JP2017526950A/ja
Application granted granted Critical
Publication of JP6641302B2 publication Critical patent/JP6641302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H17/00Networks using digital techniques
    • H03H17/02Frequency selective networks
    • H03H17/0248Filters characterised by a particular frequency response or filtering method
    • H03H17/028Polynomial filters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Operations Research (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Description

本発明は、その伝送または格納のための可聴周波数信号の処理に関する。より具体的には、本発明は、可聴周波数信号のコード化または復号時のサンプリング周波数の変更に関する。
語音または音楽などの可聴周波数信号を圧縮する(損失を伴う)ための多くの技法がある。コード化は、例えば、ITU−T推奨G.711またはG.729(入力信号が8kHzでサンプリングされ、コーダおよびデコーダがこの同じ周波数で動作する)にあるような入力信号のサンプリング周波数で直接実行することができる。
しかし、いくつかのコード化方法は、サンプリング周波数の変更を使用して、例えば、コード化の複雑性を低減するか、コード化される異なる周波数サブバンドに従ってコード化を適応させるか、またはそれがコーダの事前に定義された内部サンプリング周波数と一致するように入力信号を変換する。
ITU−T推奨G.722で定義されるサブバンドコード化では、16kHzでの入力信号は、ADPCM(適応差分パルス符号変調)タイプのコーダによって別々にコード化される2つのサブバンド(8kHzでサンプリングされる)に分割される。この2つのサブバンドへの分割は、23次の有限インパルス応答(FIR)の二次ミラーフィルタバンクによって行われ、それにより、理論上、16msで23個のサンプルの分析合成遅延(コーダ+デコーダ)が生じる。このフィルタバンクは、多相の実装で採用される。G.722における2つのサブバンドへの分割により、既定の方法で、それらの先験的な知覚的重要度に従って異なるビットレートを2つのサブバンドに割り当てることが可能になり、また、低周波数でADPCMタイプの2つのコーダを実行することによって全体的なコード化の複雑性を低減することも可能になる。しかし、それは、直接のADPCMコード化と比べてアルゴリズム遅延を引き起こす。
例えば、非包括的な方法で、FIR(有限インパルス応答)フィルタ、IIR(無限インパルス応答)フィルタまたは多項式補間(スプラインを含む)を使用することにより、デジタル信号のサンプリング周波数を変更する(リサンプリングとも呼ばれる)ための様々な方法が知られている。従来のリサンプリング方法のレビューは、例えば、R.W.Schafer,L.R.Rabinerによる論文、A Digital Signal Processing Approach to Interpolation,Proceedings of the IEEE,vol.61,No.6,June 1973,pp.692−702に見ることができる。
FIRフィルタ(対称)の利点は、その簡略化された実装形態(特定の条件付き)および線形位相を保証する可能性にある。線形位相フィルタリングは、入力信号の波形の保存を可能にするが、過渡信号上のプレエコータイプのアーチファクトを生成し得る時間的拡散(リンギング)を伴う可能性もある。この方法は、適切なフィルタリング特性(帯域内リップル、エイリアシングまたはスペクトル画像を取り除くのに十分な拒絶レベルなど)を保証するために、一般に、ほぼ1〜数ms程度の遅延(インパルス応答の長さの関数である)を生じさせる。
リサンプリングのための別の代替形態は、多項式補間技法を使用することである。多項式補間は、とりわけ、近い周波数(例えば、16kHz〜12.8kHz)でのアップサンプリングまたはダウンサンプリングに効果的である。
高い比率(例えば、32kHz〜12.8kHz)でのダウンサンプリングの事例の場合、多項式補間は、高周波数(32kHz〜12.8kHzのダウンサンプリングの例では、6.4kHz〜16kHzの周波数に関与する)が原因でエイリアシングを取り除かないため、最適な方法ではない。フィルタリング技法上の多項式補間の利点は、低遅延(ゼロ遅延でさえも)であり、一般に、より低い複雑性でもある。補間の使用は、とりわけ、例えば、本発明の実施形態において後に説明されるフィルタメモリなど、短い長さ(10程度のサンプル)のベクトルのリサンプリングに有利である。
最もよく知られ最も広く使用されている多項式補間技法は、補間の局所的または非局所的性質に応じた、かつk次導関数の連続性の可能な制約に従った、いくつかの変形形態における線形補間、放物線補間、キュービック補間である。
ここでは、事前に定義されたポイントから多項式曲線のパラメータが特定される、いわゆるラグランジュ補間の単純な事例がより詳細に考慮される。補間されるポイントの数が補間に厳密に必要な事前に定義されたポイントの数より大きい場合、この補間は局所的に繰り返されることが想定される。先行技術では、k次連続導関数の連続性の制約を有する区分的多項式に相当する補間「スプライン」またはBスプラインなどのより洗練された技法がよく知られているが、本発明はそれらとは区別されるため、ここでは再検討しない。
図1は、一次線形補間(o1、点線)、二次放物線補間(02、不連続線)、三次キュービック補間(03、実線)および四次補間(o4、一点鎖線)の間の比較を示す。
線形補間の場合、2つのポイントは、方程式がvl(x)=a1x+b1である直線を決定する。図1では、間隔[0,1]の範囲を定める瞬間ポイントx=0およびx=1が使用された。これらのポイントの値がv(0)およびv(1)のそれぞれである場合、係数a1およびb1は以下の通り得られる。
a1=v(1)−v(0)
b1=v(0)
直線の係数a1およびb1は、単一の加法演算を使用して得られ、補間サンプルvl(x)の演算は、加法演算および乗法演算または乗法加法演算(MAC)を要する。
放物線補間の場合、3つのポイントは、方程式がvp(x)=a2+b2x+c2である放物線を決定する。図1では、2つの間隔[−1,0]および[0,1]の範囲を定める瞬間ポイントx=−1、x=0およびx=1が使用された。これらのポイントの値がv(−1)、v(0)およびv(1)のそれぞれである場合、係数a2、b2およびc2は以下の通り得られる。
a2=(v(−1)+v(1))/2−v(0)
b2=v(1)−v(0)−a2
c2=v(0)
放物線の係数a2、b2およびc2を得るには、4つの加法演算および1つの乗法演算、または3つの加法演算および1つのMAC演算が必要とされる。補間サンプルvp(x)の演算は、2つの加法演算および3つの乗法演算、または1つの乗法演算および2つのMAC演算を要する。
キュービック補間の場合、4つのポイントは、方程式がvc(x)=a3+b3+c3x+d3である三次曲線を決定する。図1では、3つの間隔[−1,0]、[0,1]および[1,2]の範囲を定める瞬間ポイントx=−1、x=0、x=1およびx=2が使用された。これらのポイントの値がv(−1)、v(0)、v(1)およびv(2)のそれぞれである場合、係数a3、b3、c3およびd3は以下の通り得られる。
b3=(v(−1)+v(1))/2−v(0)
a3=(v(−1)+v(2)−v(0)−v(1)−4b3)/6
c3=v(1)−v(0)−b3−a3
d3=v(0)
三次曲線の係数a3、b3、c3およびd3を得るには、9つの加法演算および3つの乗法演算、または7つの加法演算、2つのMAC演算および1つの乗法演算が必要とされる。補間サンプルvc(x)の演算は、3つの加法演算および6つの乗法演算、または最適化による2つの乗法演算および3つのMAC演算を要する。
四次補間の場合、5つのポイントは、方程式がv4(x)=a4+b4+c4+d4x+e4である四次曲線を決定する。図1では、4つの間隔[−2,−1]、[−1,0]、[0,1]および[1,2]の範囲を定める瞬間ポイントx=−2、x=−1、x=0、x=1およびx=2が使用された。これらのポイントの値がv(−2)、v(−1)、v(0)、v(1)およびv(2)のそれぞれである場合、係数a4、b4、c4、d4およびe4は以下の通り得られる。
vt1=v(−2)+v(2)−2v(0)
vt2=v(−1)+v(1)−2v(0)
vt3=v(2)−v(−2)
vt4=v(1)−v(−1)
a4=(vt1−4vt2)/24
b4=(vt3−2vt4)/12
c4=(16vt2−vt1)/24
d4=(8vt4−vt3)/12
e4=v(0)
四次曲線の係数a4、b4、c4、d4およびe4を得るには、10の加法演算および10の乗法演算、または6つの加法演算、8つのMAC演算および2つの乗法演算が必要とされる。補間サンプルvc(x)の演算は、4つの加法演算および10の乗法演算、または最適化による3つの乗法演算および4つのMAC演算を要する。
曲線の係数、例えば、三次曲線の係数a3、b3、c3およびd3を演算するため、一般性を失うことなく、あたかも4つの連続入力サンプルが演算を簡略化するためのインデックスx=−1、x=0、x=1およびx=2のサンプルであるかのように、4つの連続入力サンプルを考慮することが推奨される。
信号のリサンプリングが実行される際には、リサンプリングされる信号の2つの既知のポイントによって範囲が定められた間隔内の、これらの2つのポイント間の信号の値を知っていることが望ましい。例えば、係数2のアップサンプリングの場合、x=0.5に対する信号の値を推定する必要がある。この推定を行うため、値vl(0.5)、vp(0.5)またはvc(0.5)のうちの1つが単に演算される。
線形補間を使用することにより、2つの既知の近隣のポイント(x=0.5を演算するにはx=0およびx=1、x=1.5を演算するにはx=1およびx=2)をリンクする直線が使用される。
二次補間の事例では、放物線を決定する3つのポイントは2つの間隔の範囲を定めるため、2つの可能な放物線間における選択がある。例えば、x=0.5の場合、ポイントx=−1、x=0およびx=1、またはポイントx=0、x=1およびx=2をリンクする曲線を取ることが可能である。実験的には、2つの解決策が同じ性質のものであることをチェックすることが可能である。有利には、複雑性を低減するため、2つの間隔に対して単一の放物線を使用することが可能である。この簡略化は、以下で放物線補間について論じる際に使用される。
三次補間の事例では、三次曲線は、3つの間隔(端の2つの間隔および中央の1つの間隔)の範囲を定める4つの入力サンプルを通過する。一般におよび図6に提示される結果として、中央の間隔[0,1]は、瞬間ポイントx=−1、0、1および2から補間を実行するために使用される。
四次補間の事例では、曲線は、4つの間隔(端の2つの間隔および中央の2つの間隔)の範囲を定める5つの入力サンプルを通過する。実験的には、中央の2つの間隔のうちの1つの使用はより良好な結果を与え、中央の2つの間隔は同じ品質を与えることを示し得る。放物線の事例のように、ここでは、2つの入力サンプルのグループごとに進めることも可能である。
先行技術のこれらの補間の性能レベルを比較するため、200Hz〜6400Hzの周波数および200Hzのピッチを有する一連の正弦曲線は、両方とも12,800Hzおよび32,000Hzのサンプリング周波数で生成された。次いで、12,800Hzの正弦曲線は、32kHzにアップサンプリングされ、各正弦曲線周波数に対しておよび各補間方法(FIRによるリサンプリングに対する遅延補償で)に対して信号対雑音比(SNR)が測定された。ここでは、入力周波数での現行のサンプリングと一致するようにするために、瞬間x0をシフトすることによって補間が実行されたことに留意することが重要である。従って、補間は、遅延なしで行われる。リサンプリングされる入力信号のエッジのサンプル(すなわち、最初のサンプルおよび最後のサンプル)は無視された。図2は、線形補間(「lin」)、放物線または二次補間(「o2」、2つの間隔に対する1つの放物線を使用することによる)、キュービックまたは三次補間(「o3」、中央の間隔を使用することによる)、四次補間(「o4」、2つの間隔に対する四次曲線の中央の2つの間隔を使用することによる)、キュービック「スプライン」補間(「スプライン」、Matlab「スプライン」コマンドを使用することによる)およびFIRフィルタリングによるリサンプリング(「FIR」、「s32=resample(s12,5,2,30)」というMatlabコマンドを使用することによる)で得られた結果を要約する。結果は、FIRフィルタリングが、より高い複雑性および結果として生じるアルゴリズム遅延(ここでは、あたかもそれがゼロ位相フィルタであるかのようにFIRフィルタのインパルス応答を使用することによって補償される)という代償を払って、5500Hzまでのすべての周波数に対してより良好な準一定のSNRを与えることを示す。異なる補間は、低周波数に対して良好な性能レベルを有するが、SNRは、周波数の増加と共に急激に降下する。補間次数が高いほど、結果はより良好なものとなるが、この改善は、スペクトルの後半において制限され、スペクトルの後半では、三次補間と四次補間との差はわずかであり、第4四半スペクトルでは存在しない。キュービック補間を用いると、SNRは、2500Hzより高い周波数に対しては30dB未満であり、この限度は、四次補間の場合には2800Hzである。より高い複雑性という代償を払って、3500Hzにおいて30dBでの最高の補間性能レベルを提供するのは、キュービック「スプライン」補間である。以下では、FIR補間が基準と見なされる。また、SNRは、語音信号(FIRによって得られた参照信号と比べて)に対しても測定された。得られた信号対雑音比は、線形補間では34.7dB、放物線補間では35.5dB、キュービック補間では38.2dB、四次補間では37.9dB、キュービック「スプライン」補間では41.4dBである。従って、3より高い次数の補間にはあまり関心はなく、この次数の増加は実信号に対しては測定できないと結論付けることができる。以下では、四次補間の事例は考慮されない。
図3は、実際の事例における12,800Hz〜32,000Hzの補間を示す。正方形の印は、12,800Hzでの信号のサンプルを表し、三角形の印は、FIR方法によって32,000Hzにアップサンプリングされた信号サンプルを表し、以下で基準として使用される参照信号を与える。垂直の点線は、32kHzでのサンプリング瞬間を与える。この例では、12.8kHzでの2つの入力サンプルに対して、32kHzでの5つの出力サンプルが得られ、その1つは、入力サンプルのものと同一である(依然としてコピー動作を必要とする)ことが観察されるであろう。2つのサンプルは、12.8kHzでの連続入力サンプルの間、1つの間隔ごとに補間される。従って、加算、乗算またはMAC演算はすべて同じ重みを有する(大部分の信号処理プロセッサまたはデジタル信号プロセッサDSPに対する事例である)と想定することにより、2つの入力サンプルに対して、異なる補間に対する演算複雑性を推定することが可能である。
− 線形補間:2つの直線、4つの補間サンプルおよび1つのコピー:7回の演算(すなわち、1秒あたり44,800回の演算)。
− 放物線補間:1つの放物線、4つの補間サンプルおよび1つのコピー:17回の演算(すなわち、1秒あたり108,800回の演算)。
− キュービック補間:2つの三次曲線、4つの補間サンプルおよび1つのコピー:41回の演算(すなわち、1秒あたり262,400回の演算)。
これらの複雑性は、値xおよびxを表にすることによって(すなわち、値xおよびxを事前に演算し、それらを表に格納することによって)さらに低減することができる。常に同じ時間インデックスが使用される(例えば、間隔[0,1]内で補間が行われる)ため、これは可能である。例えば、キュービック補間および12,800Hzから32,000Hzへのアップサンプリングの例では、これらの値は、x=0.2、0.4、0.6および0.8に対してのみ表にしなければならない。これにより、1つの補間サンプルあたり1回または2回の乗算を省くことができる。従って、放物線補間の場合、複雑性は、13回の演算(すなわち、1秒あたり83,200回の演算)まで低減され、キュービック補間の場合、33回の演算(すなわち、1秒あたり211,200回の演算)まで低減される。
図4では、線形補間を示すために図3は完了している。アップサンプリングされた信号(円形マーカー)は、2つの入力サンプル(正方形マーカー)間の直線(実線および点線によって示される)と出力サンプリング瞬間(垂直の点線)との交点によって与えられる。参照信号(三角形マーカー)と比べると、いくつかの大幅な偏差を観察することができる。使用される異なる直線は、実線または点線で交互に表されていることに留意されるであろう。
図4と同様な方法で、図5は、2つの間隔に対して放物線が演算された放物線補間を示す。最大誤差は、瞬間281.5μsにおけるものである。使用される異なる放物線は、実線または点線で交互に表されていることに留意されるであろう。
図6は、キュービック補間を示す。円形マーカーによって示される補間サンプルは、中央の間隔で得られた。この場合もやはり、参照信号に対するいくつかの偏差が観察される。ここでは、入力信号は、図で表されている時間領域外にあることが知られており、その結果、補間に対してエッジのサンプル(ここでは、2つの最初のおよび2つの最後の入力サンプル)を使用できることが想定される。使用される異なる三次曲線は、実線または点線で交互に表されていることに留意されるであろう。中央の間隔のみが使用されることが想起されるであろう。
これらの補間を完成させることが可能であることが分かる。3を超える補間の次数の増加は、有利な解決策ではないことが示されてきた。補間「スプライン」が一般的により良好な性能レベルを達成できるが、はるかに高い複雑性という代償を伴うことが先行技術から知られている。
欧州特許第2656343号明細書
R.W.Schafer,L.R.Rabiner,A Digital Signal Processing Approach to Interpolation,Proceedings of the IEEE,vol.61,No.6,June 1973,pp.692−702
従って、複雑性の増大を低減して、より効率的な補間解決策を開発する必要がある。
本発明は、先行技術からの状況を改善する。
この目的を達成するため、本発明は、可聴周波数復号において可聴周波数信号をリサンプリングするための方法であって、リサンプリングが、1より高い次数の補間方法によって実行される、方法を提案する。方法は、補間サンプルが、補間されるサンプルの時間的位置をカバーする複数の間隔にわたって演算された可能な補間値の加重平均の演算によって得られるようなものである。
従って、いくつかの間隔にわたって得られた可能な補間値の平均により、実際の信号値に近い補間サンプル値を得ることが可能になる。この加重平均演算動作は、複雑性の観点では犠牲の大きいものではなく、複雑性の増大を低減するためのより効率的な補間を得ることを可能にする。
以下で言及される異なる特定の実施形態は、互いに独立してまたは組み合わせて、上記で説明されるリサンプリング方法に追加することができる。
特定の実施形態では、補間は、二次放物線タイプである。
この事例では、補間サンプルは、補間されるサンプルの時間的位置をカバーする2つの間隔にわたって演算された可能な補間値の加重平均の演算によって得られる。
この解決策は、単純なキュービック補間にほぼ等しいが、それほど複雑ではないという結果を与える。
本発明の一実施形態では、補間は三次キュービックタイプであり、および補間されるサンプルの時間的位置をカバーする間隔の数は3つである。
この実施形態により、良好な品質の補間を有することが可能になり、補間サンプルは、中央の間隔でのみ得られる単純なキュービック補間によって補間されたサンプルより参照信号に近くなる。従って、同等の複雑性に対して品質が改善される。
特定の実施形態では、加重平均は、可能な補間値の各々に対して同一の重み値で適用される。
これらの重み値は、依然としてラグランジュ多項式補間より大きい性能レベルおよび特により良好な信号対雑音比を得ることを可能にする。
異なる実施形態では、異なる重み値は、3つの間隔のうちの中央の間隔に対して演算された補間値および加重平均の演算に適用される。
重みのうちの1つが0の値を有する場合、この変形形態は、複雑性を低減し、高周波数に対する信号対雑音比性能レベルを改善する。より一般的には、性能レベルは、選択される重み値に応じて、ある特定の周波数ゾーンに対して改善することができる。
別の異なる実施形態では、可能な補間値に適用された重み値は、補間されるサンプルの周波数基準の関数として決定される。
これにより、補間される信号の周波数にかかわらず、より良好な信号対雑音比性能レベルを有することが可能になる。
特に適切な実施形態では、リサンプリングは、FIRタイプのリサンプリングフィルタのメモリに含まれる信号に対して実行される。
事実上、このリサンプリング方法は、フィルタメモリのような短い長さの信号ベクトルに特に適している。
特に実施形態に関連して、補間サンプルは、予測復号と変換復号との間の遷移フレームにおいて制限された予測復号モードに従って復号された信号を、遷移フレームにおいて制限された予測復号に従って復号されたサンプルと、変換復号に従って復号されたサンプルとを組み合わせるステップの前に補完する。
本発明によるリサンプリングは、2つのコード化モード間のこの遷移に関連して、リサンプリングによる遅延により、サンプルの欠如が生じる際に適している。提案される補間は、このタイプの短い長さの信号に対して効果的であり、それほど複雑ではない。
また、本発明は、可聴周波数信号コーダまたはデコーダにおいて可聴周波数信号をリサンプリングするためのデバイスであって、リサンプリングが、1より高い次数の補間方法によって実行される、デバイスも対象とする。このデバイスは、
− 補間されるサンプルの時間的位置をカバーする複数の間隔に対する可能な補間値を演算するためのモジュールと、
− 演算モジュールから得られた可能な補間値の加重平均の演算により、補間されるサンプルを得るためのモジュールと
を備えるようなものである。
このデバイスは、デバイスが実施する上記の方法と同じ利点を提供する。
また、本発明は、説明されるような少なくとも1つのリサンプリングデバイスを備える可聴周波数信号コーダおよびデコーダも対象とする。
本発明は、プロセッサによって実行されるときに、説明されるようなリサンプリング方法のステップを実施するためのコード命令を含むコンピュータプログラムを対象とする。
最後に、本発明は、上記のリサンプリング方法を実施するコンピュータプログラムを格納する、リサンプリングデバイスに組み込まれるかまたは組み込まれない、場合により取り外し可能であるコンピュータ可読記憶媒体に関する。
本発明の他の特徴および利点は、単に非限定的な例として与えられる以下の説明を読み、添付の図面を参照することで、より明確に明らかになるであろう。
上記のように、x軸上に表されている瞬間に事前に定義されたポイントによって定義された多項式曲線の表現による、先行技術からの異なるタイプの補間の比較を示す。 上記のように、先行技術の異なるタイプの補間に対する周波数の関数としての信号対雑音比の結果を示す。 上記のように、FIRタイプのフィルタによって実行された12,800Hz〜32,000Hzのリサンプリングに対する補間を示す。 上記のように、FIRタイプの補間によって得られたサンプルと先行技術からの線形タイプの補間によって得られたサンプルとの間の比較を示す。 上記のように、FIRタイプの補間によって得られたサンプルと先行技術からの放物線タイプの補間によって得られたサンプルとの間の比較を示す。 上記のように、FIRタイプの補間によって得られたサンプルと先行技術からのキュービックタイプの補間によって得られたサンプルとの間の比較を示す。 本発明の実施形態によるリサンプリング方法のステップをフロー図の形態で示す。 本発明の実施形態によるリサンプリングデバイスを備える音声信号コーダの例を示す。 先行技術方法による、予測コード化でコード化された信号フレームと変換によってコード化されたフレームとの間の遷移を示す。 本発明の実施形態によるリサンプリング方法を使用する、予測コード化でコード化された信号フレームと変換によってコード化されたフレームとの間の遷移を示す。 本発明の実施形態によるリサンプリングデバイスを備える音声信号デコーダの例を示す。 補間される間隔のエッジにおけるサンプルの処理の例を示す。 FIRタイプの補間によって得られたサンプルと、先行技術からのキュービックタイプの補間によって得られたサンプルと、本発明の実施形態による補間によって得られたサンプルとの間の比較を示す。 先行技術からの異なるタイプの補間および本発明の第1の実施形態による補間に対する周波数の関数としての信号対雑音比の結果を示す。 先行技術からの異なるタイプの補間および本発明の第2の実施形態による補間に対する周波数の関数としての信号対雑音比の結果を示す。 本発明の実施形態によるリサンプリングデバイスのハードウェア表現を示す。
従って、図7は、本発明の実施形態によるリサンプリング方法の主なステップを示す。
この方法のステップは、入力(xIn)として、入力サンプリング周波数fInでの可聴周波数信号を用いて実施される。この入力信号は、例えば、図8および10を参照して後に説明されるようなリサンプリングフィルタメモリに含まれる短い長さの信号ベクトルであり得る。
ここで説明される実施形態では、三次キュービックタイプの補間方法が使用される。当然ながら異なる次数の補間を使用することができるが、次数は1より大きい。
ステップE701では、中央の間隔に対してだけでなく、3つの間隔にわたってもキュービック補間が使用される。
[0,1]の時間的瞬間xにおける値を補間するための
− 先行の三次曲線の右側の間隔(間隔[1,2])
− 中央の三次曲線の中央の間隔(間隔[0,1])
− 次の三次曲線の左側の間隔左(間隔[−1,0])
3つの可能な補間値が得られる。三次曲線の係数はいかなる事例でも1つの間隔ごとに演算されるため、これは、限られた方法で演算複雑性を増大する。簡略化された表記(三次には触れずに)が使用される場合、中央の間隔が使用される三次曲線の係数に対してはa、b、c、dが使用され、先行の間隔における三次曲線の係数に対してはan−1、bn−1、cn−1、dn−1が使用され、次の間隔における三次曲線の係数に対してはan+1、bn+1、cn+1、dn+1が使用され、3つの可能な補間値は、以下の数式によって得られる。
vcp(x)=an−1 (x+1)+bn−1 (x+1)+cn−1(x+1)+dn−1
vcc(x)=a +b +cx+dおよび
vcs(x)=an+1 (x−1)+bn+1 (x−1)+cn+1(x−1)+dn+1
この場合もやはり、複雑性を低減するため、値(x+1)、(x+1)、x、x、(x−1)および(x−1)を表にすることができる。
従って、ステップE701は、補間されるサンプルの時間的位置をカバーする複数の間隔にわたって可能な補間値を演算する(ここで与えられる例では、補間次数は3である)。
ステップE702では、補間されるサンプルを得るために、3つの可能な補間値の加重平均が演算される。次いで、ここで説明されるような補間によって、出力周波数fOutでリサンプリングされた出力信号(xOut)が得られる。
従って、これらの3つの値の加重和によって、瞬間x(中央の三次曲線と比べて、従って、[0,1]におけるx)において補間されたサンプルの値が得られる。
Vc3=ppvcp(x)+pcvcc(x)+psvcs(x)であり、式中、例示的な実施形態では、加重係数pp、pcおよびpsは、間隔]0,1[におけるものであり、pp+pc+ps=1および一般にはpp=ps=(1−pc)/2である。
例えば、pp=pc=ps=1/3を選択することができる。この事例では、3での除算は、三次曲線の係数に組み込むことができる。
図7に示される本発明は、入力バッファのエッジのサンプルを考慮に入れない(xIn(n)、n=0、...、L−1)ことに留意されるであろう。本発明において後に説明される通りである。
出力バッファの開始時のサンプル(2つの最初のサンプル間、xIn(n)、n=0、1)は、最初の係数a−1、b−1、c−1、d−1、a、b、cおよびdを決定するために必要とされる先行の瞬間n=−1、−2における過去の信号の値を知ることによって補間できることが想定される。これらの過去のサンプルは、入力バッファに組み込むことも、ブロックE701の実装形態で別々に使用することもできる。
出力バッファの終了時のサンプル(2つの最後のサンプル間および2つの最後のサンプル後、xIn(n)、n=L−2、L−1)は、最後の係数aL−1、bL−1、cL−1、dL−1、a、b、cおよびdを決定するために必要とされる瞬間n=L、L+1に相当する、一般に利用可能な今後の信号がないため、ブロックE701およびE702に従って直接補間することはできない。エッジでサンプルを処理するための異なる変形形態については後に説明する。
pp=pc=ps=1/3でこうして補間されたサンプルは、図12において、円形マーカーで示される。これらの補間サンプルは、図6に示される中央の間隔で得られた単純なキュービック補間によって補間されたサンプルより参照信号に近いと述べることができる(実線と垂直の点線との交点を参照)。
図13は、図2の要素を再利用し、本発明による図7の方法によって説明されるような補間に相当する曲線(「o3m」)で補完されている。提案される補間は、依然として単純なキュービック補間より高い性能レベルを有する(とりわけ、単純な補間のSNRが臨界に達する周波数ゾーン(2500Hzを上回る)において)ことが分かる。このSNRの増加は、3400Hz付近の周波数では14dBにまで達する。本発明による補間方法を用いると、30dBの限度は、3600Hzにおけるものであり、それは、キュービック「スプライン」による補間のものよりさらに良好である。12,800Hz〜32,000Hzのリサンプリングで使用された例の事例で提案された補間の複雑性は、2つの入力サンプルのグループあたり60回の演算(すなわち、1秒あたり384,000回の演算)である。
本発明による解決策を用いると、語音信号に対するSNRは40dBである。要点をまとめると、得られたSNRは、先行技術から知られているキュービック補間では38.2dBであり、キュービック「スプライン」による補間では41.4dBであった。提案される補間は、ラグランジュ多項式補間と比べてより良好なSNRを与えることが分かる。
本発明の変形形態では、重み(pp、pc、ps)は、他の既定の値において設定される。別の例示的な実施形態では、pp=ps=0.5およびpc=0が選択され、それは、2つの最も端にある間隔からの補間値の平均を使用すると判断される。これは、単純なキュービック(ラグランジュ)補間より著しく高い性能レベルを有する一方で、演算回数を47回(すなわち、1秒あたり300,800回の演算)に低減する。実際のテスト信号に対して得られたSNRは40.4dBである。この解決策は、低周波数に対してそれほど良好ではない性能レベルを有するが、図14(曲線「o3m2」)が示すように、高周波数に対しては、3つの同一の重みを有する解決策より良好な性能レベルを有する。
本発明の別の変形形態では、基準に従って変化する重み(pp、pc、ps)を使用することも可能である。例えば、補間される信号の大部分が低周波数を含む場合、提案される第1の解決策(pp=pc=ps=1/3)が使用され、そうでなければ、第2の解決策(pp=ps=0.5およびpc=0)が使用される。
本発明の原理は、3次以外の次数の補間に対して一般化することができる。例えば、放物線補間の事例では、2つの可能な放物線によって与えられた2つの値の平均を取ることが可能である。
この事例では、補間サンプルは、補間されるサンプルの時間的位置をカバーする値の2つの間隔にわたって演算された可能な補間値の加重平均の演算によって得られる。
この解決策は、中央の間隔のみが使用される単純なキュービック補間に実質的に等しい結果を与える。
図8は、本発明の実施形態によるリサンプリングデバイスをローカルデコーダにおいて備える音声コーダの例を示す。
この実施形態では、少なくとも2つのコード化モードを交互に行い、そのアルゴリズム遅延が対話型アプリケーション(通常、≦32ms)に適応しているマルチモード技法を通じた語音、音楽および混合コンテンツ信号の統合コード化に関心が集められる。これらの統合コード化技法の間では、AMR−WB+コーデックまたは最近ではMPEG USAC(「統合語音音声コード化」)コーデックのような先行技術コーダ/デコーダ(コーデック)を引用することが可能である。これらのコーデックが対象とするアプリケーションは、対話型ではないが、アルゴリズム遅延に対する厳しい制約のない放送および格納サービスに相当する。統合コード化の原理は、少なくとも2つのコード化モードを交互に行うことである。
・語音タイプの信号の場合:時間モード、ここでは、一般的にはCELP(符号励振線形予測)タイプのLPD(線形予測領域)として示される。
・音楽タイプの信号の場合:周波数モード、ここでは、一般的にはMDCT(修正離散コサイン変換)タイプの変換を有するFD(周波数領域)として示される。
CELPおよびMDCTコード化の原理は、以下で要約される。
第1に、CELPコード化(そのACELP変形形態を含む)は、ソースフィルタモデルに基づく予測コード化である。一般に、フィルタは、線形予測(LPC、線形予測コード化)によって得られる伝達関数1/A(z)の全極フィルタに相当する。実際には、合成は、フィルタ1/A(z)の量子化バージョン
Figure 0006641302
を使用する。ソース、すなわち、線形予測フィルタ
Figure 0006641302
の励振は、一般に、声帯の振動をモデル化する長期予測によって得られる励振と、雑音辞書などの代数コード(ACELP)の形態で説明される確率(またはイノベーション)励振との組合せである。「最適な」励振の検索は、W(z)=A(z/γ1)/A(z/γ2)またはA(z/γ1)/(1−αz)の形態の、予測線形フィルタA(z)から一般に導き出される伝達関数W(z)のフィルタによって重み付けされた信号の領域における二乗誤差評価規範の最小化によって行われる。
第2に、MDCT変換によるコード化は、一般に異なるステップを含む時間/周波数変換で入力信号を分析する。
1.「MDCT窓」とここでは呼ばれる窓関数による信号の重み付け、
2.低減されたブロック(長さを2で除した従来の公式における)を形成するための時間エイリアシング(または時間領域エイリアシング)、
3.低減されたブロックのDCT(離散コサイン変換)変換。
MDCT窓関数の掛け合わせを適応することができ、MDCT係数は、ビットの割り当てに応じて様々な方法によって量子化することができる(例えば、周波数サブバンドによって)。
少なくとも2つのコード化モードを使用するコーデックでは、LPDとFDモードとの間の遷移は、FDモードとLPDモードとが異なる性質のものであることを知ったうえで(一方は重畳を有する変換によるコード化に依存し、他方は各フレームで更新される長方形ブロックおよびフィルタメモリを有する線形予測コード化を使用する)、スイッチング欠陥のない十分な品質を保証するために重要である。
図8に示されるコーダの場合、図7を参照して説明されるリサンプリング方法は、LPDモードからFDモードへの遷移の事例においてスイッチングの品質を改善するため、本発明に従って多項式補間を実行するように、ローカルデコーダ(任意選択の)のリサンプリングデバイスにおいて実施される。関連デコーダおよびブロック800については、図10を参照して後に説明する。
図8に示されるこの実施形態では、20msフレームごとに機能する周波数fs=16、32または48kHzでサンプリングされた入力信号(ブロック810)のコード化の事例が考慮される。このコーダは、音声信号(モノラル)を処理し、いくつかのビットレート(例えば、7.2〜128kbit/sのビットレートを設定する)を提供する。コーダは、以下を含む、選択モジュール811によって選択された少なくとも2つのコード化モードを使用する。
・内部周波数12.8または16kHzでの入力周波数fsのサンプリングの使用を必要とする(ブロック815)、12.8および16kHz(ビットレートによる)で設定された2つの内部サンプリング周波数を有するLPDモード(コード化ユニット812)
・入力信号の周波数fsで動作するFDモード(コード化ユニット813)
各20ms入力フレームに対するビットストリームは、多重化モジュール814によって多重化される。
LPDコード化からFDコード化への遷移の事例は、例えば、参照により本明細書に組み込まれる欧州特許第2656343号明細書で説明されている。この事例では、fs=16kHzであり、信号が先行のフレームにおいてFDモードによってコード化されていない(CELPモードに従ってコード化されたフレーム)図9aに示されるように、MDCTコード化メモリは、復号される現行のフレームに利用可能ではない。デコーダ(ローカルまたはリモート)では、FDタイプの現行のフレームの開始時の網掛けゾーン「TR」に対する相補信号を生成する必要がある。この相補信号は、連続したLPDおよびFDモードによって復号された信号間の「結合」を行えるようにする必要がある。従って、この相補信号は、「隙間」を埋める。相補信号は、あるモードから別のモードへの遷移の欠陥を制限するために、クロスフェードが可能なほど十分に長くなければならないことに留意されるであろう。
ここでは、LPDフレームに続くFDタイプの遷移フレームにおけるこの欠落信号(TRとして示されるゾーン)を埋めるために、欧州特許第2656343号明細書で説明されるような簡略化された制限されたLPDコード化を実行することによる信号の伝播の同じ原理が再び適用される。ここで示されるMDCT窓は、本発明の原理を変更することなく、本発明の変形形態において変更できることに留意されるであろう。具体的には、遷移フレームにおけるMDCT窓は、現行のフレームがLPDからFDへの遷移フレームではない場合、FDコード化モードで「通常」使用されるMDCT窓とは異なるようにすることができる。
しかし、図8に示されるコーダでは、制限されたLPDコード化/復号(ブロック816)の入力および出力側の信号は、周波数12.8または16kHz(ビットレートによる)のものである。ローカル復号の事例では、12.8または16kHzで復号された信号は、一般に、それを遷移フレームにおけるFDタイプのコード化/復号(ブロック813)の出力側の信号と結合する(クロスフェードによって)前に、周波数fsでリサンプリングしなければならず、このクロスフェードの原理は、欧州特許第2656343号明細書で説明されている。図9bは、LPDコーダの周波数が12,800Hzであり、fs=32,000Hzであるそのような事例を示す。LPDコーダの周波数が16,000Hzである場合、同じ原理が適用される。
ここでは、リサンプリングブロック830のfsでの12.8または16kHzからのリサンプリングは、フィルタメモリ(memと呼ばれる)での多相FIRフィルタリングによって実行されることが想定される。このメモリは、周波数12.8または16kHzでLPDまたはTRモードによって復号された信号の先行のフレームの最後のサンプルを格納する。このメモリの長さは、FIRフィルタリング遅延と一致する。このリサンプリング遅延のため、周波数fs(ここでは32kHz(リサンプリングから得られる))での信号が遅れる。このリサンプリングは、遷移フレームにおけるLPDモードとFDモードとの間で埋めるべき隙間を「拡大する」ため、問題が多い。従って、周波数fsでリサンプリングされたLPD信号とFD復号信号との間のクロスフェードを正しく実施するためのサンプルを欠く。しかし、12,800または16,000Hzの最後の入力サンプルは、ブロック830のリサンプリングステップにおいて格納される。これらの格納されたサンプルは、FIRフィルタリング遅延とリンクされる32kHzでの欠落サンプル(図9bの「INT」とマーク付けされた濃い灰色ゾーン)と時間的に一致している。
本発明による補間は、この実施形態では、遷移フレームの開始時に簡略化されたLPDコード化(ブロック816)から得られた信号を延長するために、リサンプリングフィルタのメモリ(mem)に含まれる信号をリサンプリングするために使用され、従って、LPD合成とFD合成との間のクロスフェードを行えるように32kHzで欠落サンプルを得る。
図10に示されるデコーダは、16、32または48kHzの出力サンプリング周波数fsで動作する音声信号(モノラル)マルチビットレート(7.2〜128kbit/sで設定されたビットレート)デコーダである。
受信され分離されたフレーム(ブロック1001)に応じて、出力は、線形予測を使用するCELPタイプの時間デコーダ(LPD DEC)(1002)の出力と周波数デコーダ(FD DEC、1003)の出力との間で切り替えられる(1004)。LPDデコーダの出力は、例えばFIRタイプのリサンプリングモジュール1005によって内部周波数12.8または16kHzから出力周波数fsにリサンプリングされることに留意されるであろう。
ここでは、LPDフレームに続くFDタイプの遷移フレームにおけるこの欠落信号(TRとして示されるゾーン)を埋めるために、欧州特許第2656343号明細書で説明されるような簡略化された制限されたLPD復号(ブロック1006)を実行することによる信号の延長の同じ原理が再び適用される。
ここでは、図10に示されるデコーダでは、制限されたLPD復号(ブロック1006)の入力および出力側の信号は、周波数12.8または16kHz(ビットレートによる)のものであり、一般に、欧州特許第2656343号明細書で説明されている原理に従って、モジュール1008によってそれを遷移フレームにおけるFDタイプの復号(ブロック1003)の出力側の信号と結合する(クロスフェードによって)前に、周波数fsでリサンプリングしなければならない(リサンプリングブロック1007によって)。図9bは、一般性を失うことなくLPDコーダの周波数が12,800Hzであり、fs=32,000Hzであるそのような事例を示す。
ここでは、リサンプリングブロック1007の12.8または16kHzからfsへのリサンプリングは、フィルタメモリ(memと呼ばれる)での多相FIRフィルタリングによって実行されることが想定される。このメモリは、周波数12.8または16kHzでLPDまたはTRモードによって復号された信号の先行のフレームの最後のサンプルを格納する。このメモリの長さは、FIRフィルタリング遅延と一致する。このリサンプリング遅延のため、周波数fs(ここでは32kHz(リサンプリングから得られる))での信号が遅れる。このリサンプリングは、遷移フレームにおけるLPDモードとFDモードとの間で埋めるべき隙間を「拡大する」ため、問題が多い。従って、周波数fsでリサンプリングされたLPD信号とFD復号信号との間のクロスフェードを正しく実施するためのサンプルを欠く。しかし、12,800または16,000Hzの最後の入力サンプルは、ブロック1007のリサンプリングステップにおいて格納される。これらの格納されたサンプルは、FIRフィルタリング遅延とリンクされる32kHzでの欠落サンプル(図9bの「INT」とマーク付けされた濃い灰色ゾーン)と時間的に一致している。
本発明による補間は、この実施形態では、遷移フレームの開始時に簡略化された制限されたLPD復号(ブロック1006)から得られた信号を延長するために、リサンプリングフィルタのメモリ(mem)に含まれる信号をリサンプリングするために使用され、従って、LPD合成とFD合成との間のクロスフェードを行えるように32kHzで欠落サンプルを得る。
リサンプリングフィルタ1007のメモリに含まれる信号(mem)をリサンプリングするため、本発明によるリサンプリングデバイス800は、1より高い次数の補間を実行し、補間されるサンプルの時間的位置をカバーする複数の間隔に対する可能な補間値を演算するためのモジュール801を備える。これらの可能な補間値は、例えば、三次補間に対して図7を参照して説明されるように演算される。
また、リサンプリングデバイスは、演算モジュール801から得られる可能な補間値の加重平均の演算によって補間されるサンプルを得るためのモジュール802も備える。
正当にリサンプリングされた信号は、1008において、欧州特許第2656343号明細書で説明されるようにクロスフェードを介してモジュール1003のFDコード化から得られた信号と結合することができる。
また、本発明に従って提案される補間を用いると、図11に示されるように、フィルタメモリ(mem)の全時間領域をカバーすることは不可能であることにも留意しなければならない。この図では、図解を簡略化するため、正方形シンボルで象徴される12,800kHzでの8つのサンプルのフィルタメモリが想定される。そのようなメモリの典型的な長さは、12,800Hzでは12のサンプルまたは16,000Hzでは15のサンプルである。図11では、メモリの時間領域は、不連続線長方形900によって範囲が定められる。32,000Hzでの出力サンプルは、三角形で象徴され、所定の時間領域にわたって、85/2=20の三角形がある。また、2つの過去の入力サンプル(図の正方形901)も利用可能であることも想定され、これは、それらが遷移ゾーンTR(簡略化されたLPDコード化)で復号された信号に相当するため、ここで該当する。従って、可能な20のサンプルのうちの16の出力サンプル(図の塗りつぶされた三角形)を本発明の方法に従って補間することができる。次の2つの出力サンプル(三角形902)は、右端の間隔を使用することによって、最後の3つの入力サンプル上の放物線補間に従って、または最後の2つの入力サンプル上の線形補間によって補間することができる。時間領域の最後の2つの出力サンプル(三角形903)は、最後の三次曲線、放物線もしくは直線の延長を使用することによって、または32kHzで補間された最後のサンプルの値もしくは12.8kHzでの最後の入力サンプルの値を繰り返すことによって、補外しなければならない。
好ましい実施形態では、最後の三次曲線の右端の間隔は、最後の2つの入力サンプル(塗りつぶされていない黒の三角形)間の補間に対して使用され、最後の補間サンプルは、補外されたサンプルに対して繰り返される(三角形903)。
図15は、本発明によるリサンプリングデバイス1500の例示的なハードウェア実装形態を表す。後者は、可聴周波数信号コーダ、デコーダまたは可聴周波数信号を受信する機器アイテムの不可欠な部分とすることができる。
このタイプのデバイスは、ストレージおよび/または動作メモリMEMを備えるメモリブロックBMと協働するプロセッサPROCを備える。そのようなデバイスは、サンプリング周波数fInで音声信号フレームxInの受信が可能な入力モジュールEを備える。これらの音声信号フレームは、例えば、リサンプリングフィルタのメモリに含まれる信号である。
それは、fOutのサンプリング周波数でリサンプリングされた可聴周波数信号xoutの送信が可能な出力モジュールSを備える。
メモリブロックは、プロセッサPROCによって実行されるときに、本発明の意味内のリサンプリング方法のステップ、特に、補間されるサンプルの時間的位置をカバーする複数の間隔にわたって演算された可能な補間値の加重平均の演算によって補間サンプルを得るステップを実施するためのコード命令を含む、コンピュータプログラムを有利に含み得る。
通常、図7の説明は、そのようなコンピュータプログラムのアルゴリズムのステップを再び包含する。また、コンピュータプログラムは、デバイスのリーダによって読み取れるか、またはその記憶空間にダウンロードできる記憶媒体上に格納することもできる。
メモリMEMは、一般に、方法を実施するために必要なすべてのデータを格納する。
800,810,815 ブロック
811 選択モジュール
812,813 コード化ユニット
814 多重化モジュール
1001,1006 ブロック
1002 時間デコーダ
1003 周波数デコーダ
1005 リサンプリングモジュール
800 リサンプリングデバイス
801,802 モジュール
1500 リサンプリングデバイス

Claims (12)

  1. 可聴周波数信号復号において可聴周波数信号をリサンプリングするための方法であって、前記リサンプリングが、FIRタイプのリサンプリングフィルタのメモリに含まれる信号に対して実行され、かつ、1より高い次数の補間方法によって実行される、方法において、補間サンプルが、前記補間されるサンプルの時間的位置をカバーする複数の間隔にわたって演算された(E701)可能な補間値の加重平均の演算によって得られ(E702)、前記補間サンプルは、遷移フレームにおいて制限された予測復号に従って復号されたサンプルと変換復号に従って復号されたサンプルとを組み合わせるステップの前に、予測復号と変換復号との間の遷移フレームにおいて制限された予測復号モードに従って復号された信号を補完する、ことを特徴とする、方法。
  2. 前記補間は二次放物線タイプであることを特徴とする、請求項1に記載の方法。
  3. 前記補間は三次キュービックタイプであり、かつ前記補間されるサンプルの前記時間的位置をカバーする間隔の数は3つであることを特徴とする、請求項1に記載の方法。
  4. 前記加重平均は、前記可能な補間値の各々に対して同一の重み値で得られることを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  5. 異なる重み値が、前記3つの間隔のうちの中央の間隔に対して演算された前記補間値および前記加重平均の前記演算に適用されることを特徴とする、請求項3に記載の方法。
  6. 前記可能な補間値に適用される重み値は、前記補間されるサンプルの周波数基準の関数として決定されることを特徴とする、請求項1〜3のいずれか一項に記載の方法。
  7. 補間されるフィルタメモリのサンプルの最後の間隔に対して、最後の三次曲線が使用され、最後の補完されたサンプルが、補外されたサンプルに対して繰り返される、ことを特徴とする、請求項3に記載の方法。
  8. 可聴周波数信号コーダまたはデコーダにおいて可聴周波数信号をリサンプリングするためのデバイスであって、前記リサンプリングが、FIRタイプのリサンプリングフィルタのメモリに含まれる信号に対して実行され、かつ、1より高い次数の補間方法によって実行される、デバイスにおいて、
    − 補間されるサンプルの時間的位置をカバーする複数の間隔に対する可能な補間値を演算するためのモジュール(801)と、
    − 前記演算モジュールから得られた前記可能な補間値の加重平均の演算により、前記補間されるサンプルを得るためのモジュール(802)と
    を備え、前記補間サンプルは、遷移フレームにおいて制限された予測復号に従って復号されたサンプルと変換復号に従って復号されたサンプルとを組み合わせるステップの前に、予測復号と変換復号との間の遷移フレームにおいて制限された予測復号モードに従って復号された信号を補完する、ことを特徴とする、デバイス。
  9. 請求項8に記載のリサンプリングデバイスを備えることを特徴とする、可聴周波数信号コーダ。
  10. 請求項8に記載のリサンプリングデバイスを備えることを特徴とする、可聴周波数信号デコーダ。
  11. プロセッサによって実行されるときに、請求項1〜7のいずれか一項に記載のリサンプリング方法のステップを実施するためのコード命令を含むコンピュータプログラム。
  12. 請求項1〜7のいずれか一項に記載のリサンプリング方法のステップを実行するためのコード命令を含むコンピュータプログラムが格納される、プロセッサ可読記憶媒体。
JP2016574394A 2014-06-27 2015-06-25 低遅延符号化/復号のための補間による音声信号のリサンプリング Active JP6641302B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1456077 2014-06-27
FR1456077A FR3023036A1 (fr) 2014-06-27 2014-06-27 Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard
PCT/FR2015/051725 WO2015197989A1 (fr) 2014-06-27 2015-06-25 Ré-échantillonnage par interpolation d'un signal audio pour un codage /décodage à bas retard

Publications (2)

Publication Number Publication Date
JP2017526950A JP2017526950A (ja) 2017-09-14
JP6641302B2 true JP6641302B2 (ja) 2020-02-05

Family

ID=52450224

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016574394A Active JP6641302B2 (ja) 2014-06-27 2015-06-25 低遅延符号化/復号のための補間による音声信号のリサンプリング

Country Status (10)

Country Link
US (1) US10510357B2 (ja)
EP (2) EP3161659B1 (ja)
JP (1) JP6641302B2 (ja)
KR (1) KR102304285B1 (ja)
CN (1) CN106462557B (ja)
ES (1) ES2928307T3 (ja)
FR (1) FR3023036A1 (ja)
PL (1) PL3161659T3 (ja)
PT (1) PT3161659T (ja)
WO (1) WO2015197989A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2513884B (en) 2013-05-08 2015-06-17 Univ Bristol Method and apparatus for producing an acoustic field
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
GB2530036A (en) 2014-09-09 2016-03-16 Ultrahaptics Ltd Method and apparatus for modulating haptic feedback
FR3025923A1 (fr) * 2014-09-12 2016-03-18 Orange Discrimination et attenuation de pre-echos dans un signal audionumerique
ES2908299T3 (es) 2015-02-20 2022-04-28 Ultrahaptics Ip Ltd Mejoras del algoritmo en un sistema háptico
EP3916525A1 (en) 2015-02-20 2021-12-01 Ultrahaptics IP Limited Perceptions in a haptic system
US10818162B2 (en) 2015-07-16 2020-10-27 Ultrahaptics Ip Ltd Calibration techniques in haptic systems
US10268275B2 (en) 2016-08-03 2019-04-23 Ultrahaptics Ip Ltd Three-dimensional perceptions in haptic systems
US10943578B2 (en) 2016-12-13 2021-03-09 Ultrahaptics Ip Ltd Driving techniques for phased-array systems
US11531395B2 (en) 2017-11-26 2022-12-20 Ultrahaptics Ip Ltd Haptic effects from focused acoustic fields
EP3729418A1 (en) 2017-12-22 2020-10-28 Ultrahaptics Ip Ltd Minimizing unwanted responses in haptic systems
US11360546B2 (en) 2017-12-22 2022-06-14 Ultrahaptics Ip Ltd Tracking in haptic systems
SG11202010752VA (en) 2018-05-02 2020-11-27 Ultrahaptics Ip Ltd Blocking plate structure for improved acoustic transmission efficiency
US11098951B2 (en) 2018-09-09 2021-08-24 Ultrahaptics Ip Ltd Ultrasonic-assisted liquid manipulation
US11378997B2 (en) * 2018-10-12 2022-07-05 Ultrahaptics Ip Ltd Variable phase and frequency pulse-width modulation technique
WO2020141330A2 (en) 2019-01-04 2020-07-09 Ultrahaptics Ip Ltd Mid-air haptic textures
US11842517B2 (en) 2019-04-12 2023-12-12 Ultrahaptics Ip Ltd Using iterative 3D-model fitting for domain adaptation of a hand-pose-estimation neural network
CN110557226A (zh) * 2019-09-05 2019-12-10 北京云中融信网络科技有限公司 一种音频传输方法和装置
US11374586B2 (en) 2019-10-13 2022-06-28 Ultraleap Limited Reducing harmonic distortion by dithering
CA3154040A1 (en) 2019-10-13 2021-04-22 Benjamin John Oliver LONG Dynamic capping with virtual microphones
US11715453B2 (en) 2019-12-25 2023-08-01 Ultraleap Limited Acoustic transducer structures
CN111478952B (zh) * 2020-03-26 2023-05-12 宁波泰芯微电子有限公司 用于处理采样点的通信设备及方法
US11816267B2 (en) 2020-06-23 2023-11-14 Ultraleap Limited Features of airborne ultrasonic fields
WO2022058738A1 (en) 2020-09-17 2022-03-24 Ultraleap Limited Ultrahapticons
CN112562701B (zh) * 2020-11-16 2023-03-28 华南理工大学 心音信号双通道自适应降噪算法、装置、介质及设备
CN114844553B (zh) * 2022-03-29 2023-03-10 北京航空航天大学 应用于高速传输的基于先验滤波的单倍码元速率采样方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3223280B2 (ja) * 1993-03-31 2001-10-29 カシオ計算機株式会社 波形データ補間装置
DE69424754T2 (de) * 1993-12-08 2001-01-25 Nokia Mobile Phones Ltd Verfahren zur Umsetzung der Abtastfrequenz
JP3572769B2 (ja) * 1995-11-30 2004-10-06 ソニー株式会社 ディジタルオーディオ信号処理装置および方法
US5949695A (en) * 1997-01-10 1999-09-07 Harris Corporation Interpolator using a plurality of polynomial equations and associated methods
KR100664929B1 (ko) * 2004-10-21 2007-01-04 삼성전자주식회사 다 계층 기반의 비디오 코더에서 모션 벡터를 효율적으로압축하는 방법 및 장치
CN101395837B (zh) * 2006-01-05 2012-05-30 塔特公司 Nicam音频信号重采样器
US8126578B2 (en) * 2007-09-26 2012-02-28 University Of Washington Clipped-waveform repair in acoustic signals using generalized linear prediction
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
US8382357B2 (en) * 2009-01-20 2013-02-26 Touchsensor Technologies, Llc User interface with means for light bleed mitigation
KR101747917B1 (ko) * 2010-10-18 2017-06-15 삼성전자주식회사 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
CN102394714B (zh) * 2011-08-06 2014-03-12 桂林市思奇通信设备有限公司 调频广播频段数字广播信号接收方法和接收系统
CN202309690U (zh) * 2011-08-06 2012-07-04 桂林市思奇通信设备有限公司 调频广播频段数字广播信号接收系统
JP5711645B2 (ja) * 2011-10-12 2015-05-07 旭化成株式会社 オーディオ信号出力装置およびオーディオ信号出力方法
WO2013154027A1 (ja) * 2012-04-13 2013-10-17 ソニー株式会社 復号装置および方法、オーディオ信号処理装置および方法、並びにプログラム

Also Published As

Publication number Publication date
EP3161659A1 (fr) 2017-05-03
PT3161659T (pt) 2022-10-17
KR102304285B1 (ko) 2021-09-17
US20170133027A1 (en) 2017-05-11
ES2928307T3 (es) 2022-11-16
FR3023036A1 (fr) 2016-01-01
JP2017526950A (ja) 2017-09-14
CN106462557A (zh) 2017-02-22
KR20170024059A (ko) 2017-03-06
CN106462557B (zh) 2019-03-01
EP3161659B1 (fr) 2022-07-27
EP4047492A1 (fr) 2022-08-24
US10510357B2 (en) 2019-12-17
WO2015197989A1 (fr) 2015-12-30
PL3161659T3 (pl) 2022-11-21

Similar Documents

Publication Publication Date Title
JP6641302B2 (ja) 低遅延符号化/復号のための補間による音声信号のリサンプリング
JP5083779B2 (ja) オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法
EP1105871B1 (en) Speech encoder and method for a speech encoder
KR101046982B1 (ko) 전대역 오디오 파형의 외삽법에 기초한 부분대역 예측코딩에 대한 패킷 손실 은닉 기법
US7363218B2 (en) Method and apparatus for fast CELP parameter mapping
US10566004B2 (en) Resampling an audio signal for low-delay encoding/decoding
US8538747B2 (en) Method and apparatus for speech coding
JP2010181892A (ja) 音声符号化用ゲイン平滑化
JP2016541004A5 (ja)
US20160343384A1 (en) Resampling of an audio signal interrupted with a variable sampling frequency according to the frame
JP7079325B2 (ja) ピッチラグの選択
Eng Pitch Modelling for Speech Coding at 4.8 kbitsls

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180521

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190401

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191209

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191227

R150 Certificate of patent or registration of utility model

Ref document number: 6641302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250