JP6084595B2 - 音声信号のタイムワープ処理改良変換符号化 - Google Patents

音声信号のタイムワープ処理改良変換符号化 Download PDF

Info

Publication number
JP6084595B2
JP6084595B2 JP2014182138A JP2014182138A JP6084595B2 JP 6084595 B2 JP6084595 B2 JP 6084595B2 JP 2014182138 A JP2014182138 A JP 2014182138A JP 2014182138 A JP2014182138 A JP 2014182138A JP 6084595 B2 JP6084595 B2 JP 6084595B2
Authority
JP
Japan
Prior art keywords
warp
signal
time
time warped
parameter sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014182138A
Other languages
English (en)
Other versions
JP2015018274A (ja
Inventor
ラルス ヴィレモエス
ラルス ヴィレモエス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2015018274A publication Critical patent/JP2015018274A/ja
Application granted granted Critical
Publication of JP6084595B2 publication Critical patent/JP6084595B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

本発明は、音声ソース符号化システムに関し、特に、ブロック・ベースの変換を用いた音声符号化スキームに関する。
当該分野では音声および映像コンテントを符号化するいくつかのやり方が知られている。一般に、確かに、ほとんどは信号の再生品質を低下させることなく、ビット節約的方法でコンテントを符号化することが狙いである。
近年、音声および映像コンテントを符号化する新しいアプローチが開発されてきているが、その中で、変換ベースの知覚音声符号化(transform−based perceptual audio coding)は、定常信号に対して最大の符号化利得を実現しており、大きな変換サイズの場合にこれを適用することができる。(例えば、T.ペインタ(Painter)およびA.スパニアス(Spanias)の「デジタル音声の知覚符号化(Perceptual coding of digital audio)」、IEEEのプロシーディング、第88巻、第4号、2000年4月、第451〜513頁を参照)。多くの場合、音声の定常部分は、固定有限数の定常正弦波でうまくモデルされる。変換サイズがその成分を分解するために十分大きい場合には、所与のひずみ目標に応じて一定数のビットが必要となる。さらに、変換サイズを大きくすることによって、ビットを増やす必要なく、ますます音声信号の大きなセグメントが表される。しかしながら、非定常信号に対しては、変換サイズを縮小することが必要となり、したがって符号化利得が急速に低減することになる。この問題を克服するために、急激な変化および過渡的事象に対しては、符号化の平均コストを大きく増加させることなく変換サイズ切替えを適用することができる。すなわち、過渡的事象が検知された場合、一緒に符号化されるサンプルのブロック・サイズ(フレーム・サイズ)が低減される。もっと持続性のある過渡的信号に対しては、当然ながらビットレートは飛躍的に増大する。
持続性のある過渡的挙動の特に興味深い例は、局所的高調波信号のピッチ変動であり、これは、主にスピーチおよび歌唱の有声部分に生ずるが、一部の楽器の振動およびグリッサンドから発生することもある。高調波信号とは、すなわち時間軸に沿って等しい間隔で分布する信号ピークを有する信号であるので、ピッチという用語はその信号の隣接するピークの間の時間の逆数を表す。したがって、そのような信号は、完全な高調波スペクトルを有し、ピッチに等しい基本周波数およびより高次の高調波からなる。もっと一般的な言い方をすれば、ピッチは、局所的な高調波信号内の隣り合って対応する2つの信号部分の間の時間の逆数として定義することができる。しかしながら、有声音の場合のように、ピッチひいては基本周波数が時間とともに変化する場合は、そのスペクトルはますます複雑となり、これにより符号化の効率が悪くなる。
信号のピッチと密接に関係しているパラメータは、信号のワープである。時間tにおける信号がp(t)に等しいピッチを有し、このピッチ値が時間とともになだらかに変化すると仮定すれば、その信号の時間tにおけるワープは次の対数微分係数
によって定義される。
高調波信号に対して、このワープの定義は、高調波成分の特定の選択およびピッチの倍数または分数に関連する系統誤差に影響されない。このワープは、対数領域で周波数の変化を測定する。ワープに対する自然単位はヘルツ[Hz]であるが、音楽用語では、定常ワープa(t)=a0を有する信号は、a0/log2(オクターブ/秒)[oct/s]のスイープ速度を有するスイープである。スピーチ信号は、最高10oct/sのワープおよび2oct/s程度の平均ワープを示す。
変換コーダの典型的フレーム長(ブロック長)は非常に長く、フレーム内の相対的ピッチ変化はかなりのもので、このサイズでのワープまたはピッチ変動は、これらコーダの周波数分析の混乱につながる。一定のビットレートにおさえることが要求される場合、これは量子化の粗さを大きくすることによってのみ克服することができるので、この影響は量子化ノイズの発生を招き、これは多くの場合に残響として知覚される。
この問題を克服する1つの可能な技術は、タイムワープ処理(time warping)である。タイムワープ処理符号化(time−warped coding)の概念は、速度変化が可能なテープレコーダを想像することによって、一番うまく説明できる。音声信号を録音する場合に、有声のセグメント全てに対して一定のピッチを得るように、その速度が動的に調整される。得られた局所的に定常な音声信号は、適用されるテープ速度の変化を用いて一緒に符号化される。デコーダにおいては、逆向きの速度変化で再生が行われる。しかしながら、上述のような単純なタイムワープを適用することには、いくつかの重要な欠点がある。まず第1に、絶対的なテープ速度は、結局は制御不可能で、全体的な符号化された信号の継続時間および帯域幅制限の不適合につながることになる。再生のためには、テープ速度に関する(または信号ピッチと同等に関する)追加サイド情報を送信しなければならなく、特に低ビットレートにおいて、相当なビットレート・オーバーヘッドがもたらされることになる。
タイムワープ処理信号の制御不可能な継続時間の問題を克服するための従来技術の方法に共通のアプローチは、タイムワープと関係ない信号の、連続するオーバーラップしないセグメント、すなわち個別のフレームを、各セグメントの継続時間が保持されるように処理することである。このアプローチは、例えば、ヤン(Yang)らの「スピーチの線形予測残差のピッチ同期変調重複変換(Pitch synchronous modulated lapped transform of the linear prediction residual of speech)」、ICSP’98のプロシーディング、第591〜594頁に記載されている。このような進め方の大きな不利な点は、処理された信号はセグメント内では定常的であるが、各々のセグメント境界ではジャンプを示すことになる。このようなジャンプは、結局、後の音声コーダの符号化効率のロスにつながり、復号化された信号に可聴な不連続性をもたらすことになる。
タイムワープ処理は、また他のいくつかの符号化スキームにおいても実施されている。例えば、米国特許公開出願第2002/0120445号は、ブロック・ベースの変換符号化の前に、信号セグメントの継続時間にわずかな修正を行うスキームを記載している。これは、信号セグメントの継続時間のわずかな変更を認めて、ブロックの境界の大きな信号成分を回避するものである。
タイムワープを用いている別の技術が、米国特許第6,169,970号に記載され、そこでは、スピーチ・エンコーダの長期予測のパフォーマンスを高めるためにタイムワープ処理が用いられている。同様な考え方で、米国特許公開出願第2005/0131681号には、スピーチ信号のCELP符号化に対する前処理ユニットが記載され、これは、各間隔が1つの白色ピッチ・パルスを含むオーバーラップのない間隔の間に、区分線形ワープを適用する。最後に、(R.J.スライター(Sluijter)およびA.J.E.M.ヤンセン(Janssen)の「スピーチ信号に対するタイムワーパー(A time warper for speach signals)」、スピーチ符号化’99のIEEEワークショップ、1999年6月、第150〜152頁)には、スピーチ・フレームに二次タイムワープ処理関数を適用してスピーチ・ピッチ推定をいかに改良するかが記載されている。
要約すれば、従来技術のワープ処理技術は、フレーム境界に不連続性がもたらされ、信号のピッチ変動を表すパラメータの送信のためにかなりの量の追加ビットレートを必要とするという問題を共有している。
米国特許出願公開第2002/0120445号 米国特許第6,169,970号 米国特許出願公開第2005/0131681号
T.ペインタ(Painter)およびA.スパニアス(Spanias)の「デジタル音声の知覚符号化(Perceptual coding of digital audio)」、IEEEのプロシーディング、第88巻、第4号、2000年4月、第451〜513頁 ヤン(Yang)らの「スピーチの線形予測残差のピッチ同期変調重複変換(Pitch synchronous modulated lapped transform of the linear prediction residual of speech)」、ICSP’98のプロシーディング、第591〜594頁 R.J.スライター(Sluijter)およびA.J.E.M.ヤンセン(Janssen)の「スピーチ信号に対するタイムワーパー(A time warper for speach signals)」、スピーチ符号化’99のIEEEワークショップ、1999年6月、第150〜152頁
本発明の目的は、タイムワープ処理を用いて音声信号のさらに効率的な符号化についての概念を提供することである。
本発明の第1の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現を導き出すためのエンコーダによって達成され、そのエンコーダは、第1および第2フレームに対する第1ワープ情報を推定し、さらに第2フレームおよび第3フレームに対する第2ワープ情報を推定するためのワープ推定器であって、ワープ情報は音声信号のピッチを表している、ワープ推定器と、第1ワープ情報を用いて第1および第2フレームに対する第1スペクトル係数を導き出し、さらに第2ワープ情報を用いて第2および第3フレームに対する第2スペクトル係数を導き出すためのスペクトル・アナライザと、第1および第2スペクトル係数を含む音声信号の表現を出力するための出力インタフェースとを含む。
本発明の第2の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号を、第1ワープ情報と、第2ワープ情報と、第1および第2フレームに対する第1スペクトル係数と、第2および第3フレームに対する第2スペクトル係数とを用いて再生するためのデコーダによって達成され、第1ワープ情報は第1および第2フレームに対する音声信号のピッチを表し、第2ワープ情報は第2および第3フレームに対する音声信号のピッチを表し、そのデコーダは、第1スペクトル係数および第1ワープ情報を用いて第1結合フレームを導き出し、さらに第2スペクトル係数および第2ワープ情報を用いて第2結合フレームを導き出すためのスペクトル値プロセッサであって、第1結合フレームは第1および第2フレームに関する情報を有し、第2結合フレームは第2および第3フレームに関する情報を有する、スペクトル値プロセッサと、第1結合フレームおよび第2結合フレームを用いて第2フレームを再生するためのシンセサイザとを含む。
本発明の第3の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現を導き出す方法によって達成され、その方法は、第1および第2フレームに対する第1ワープ情報を推定し、さらに第2フレームおよび第3フレームに対する第2ワープ情報を推定する工程であって、ワープ情報は音声信号のピッチを表す、工程と、第1ワープ情報を用いて第1および第2フレームに対する第1スペクトル係数を導き出し、さらに第2ワープ情報を用いて第2および第3フレームに対する第2スペクトル係数を導き出す工程と、第1および第2スペクトル係数を含む音声信号の表現を出力する工程とを含む。
本発明の第4の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号を、第1ワープ情報と、第2ワープ情報と、第1および第2フレームに対する第1スペクトル係数と、第2および第3フレームに対する第2スペクトル係数とを用いて再生する方法によって達成され、第1ワープ情報は第1および第2フレームに対する音声信号のピッチを表し、第2ワープ情報は第2および第3フレームに対する音声信号のピッチを表し、その方法は、第1スペクトル係数および第1ワープ情報を用いて第1結合フレームを導き出す工程であって、第1結合フレームは第1および第2フレームに関する情報を有する、工程と、第2スペクトル係数および第2ワープ情報を用いて第2結合フレームを導き出す工程であって、第2結合フレームは第2および第3フレームに関する情報を有する、工程と、第1結合フレームおよび第2結合フレームを用いて第2フレームを再生する工程とを含む。
本発明の第5の態様によれば、この目的は、第1フレームと、第1フレームに続く第2フレームと、第2フレームに続く第3フレームとを有する音声信号の表現によって達成され、その表現は、第1および第2フレームに対する第1スペクトル係数であって、第1および第2フレームのワープ処理表現のスペクトル組成を表す第1スペクトル係数と、第2および第3フレームのワープ処理表現のスペクトル組成を表す第2スペクトル係数とを含む。
本発明の第6の態様によれば、この目的は、コンピュータ上で実行されるときに、上述の方法のいずれかを実行するためのプログラム・コードを有するコンピュータ・プログラムによって達成される。
本発明は、後のブロック変換がワープ情報を追加して用いることができるように、任意の2つの隣り合うフレームに共通のタイムワープを推定すれば、連続する音声フレームを有する音声信号のスペクトル表現をもっと効率的に導き出すことができるという知見に基づいている。
このように、再生過程においてオーバーラップして加える手順をうまく適用するために必要な窓関数を導き出して適用することができ、窓関数は、タイムワープ処理による信号の再サンプリングを既に予測している。したがって、タイムワープ処理信号の高効率のブロック・ベースの変換符号化を、可聴な切れ目がはいることなく用いることができる。
このように、本発明は、従来技術の問題に対する魅力的な解決策を提供する。一方、音声信号の区分化に関係する問題は、オーバーラップして加えるという独特の技術によって克服され、その技術は、タイムワープ操作と窓操作とを統合し、ブロック変換の時間オフセットを取り入れる。これにより得られる連続時間変換は完全な再生能力を有し、その離散時間対応信号は、再生過程で適用されるデコーダの再サンプリング技術の品質によってのみ制限される。この特質は、得られる音声符号化スキームの高いビットレート収束をもたらす。量子化の粗さを低減することによって、すなわち送信ビットレートを増加することによって、信号の無損失送信を実現することは基本的には可能である。これは、例えば、単にパラメトリック符号化方法だけでは実現できない。
本発明のさらなる利点は、タイムワープ処理を逆処理するために送信する必要のある追加情報のビットレート必要量を大幅に低減していることである。これは、ピッチのサイド情報ではなく、ワープ・パラメータのサイド情報を送信することによって達成される。これは、多くのピッチ・パラメータ・ベースの音声符号化方法が、ピッチ検出の正確さに大きく依存しているのに対して、本発明は適度のパラメータ依存性だけを示すというさらなる利点を有する。これは、ピッチ・パラメータの送信には局所的な高調波信号の基本周波数の検知が必要となり、このことが必ずしも容易でないことによる。したがって、本発明のスキームは非常に頑強で、上述のワープ・パラメータの定義を考えると明白なように、高次高調波が検出されても送信されるワープ・パラメータが変形されることはない。
本発明の1つの実施形態において、連続するフレームの中、具体的には相互に追従する第1、第2、および第3フレームの中に配置された音声信号を符号化するための符号化スキームが適用される。第2フレームの信号に関する全情報は、第1および第2フレームの結合のスペクトル表現と、第1および第2フレームに対するワープ・パラメータ・シーケンスと、第2および第3フレームの結合のスペクトル表現と、第2および第3フレームに対するワープ・パラメータ・シーケンスとによって提供される。タイムワープ処理の逆の概念を用いれば、フレーム境界での急激なピッチ変動と、その結果生じる付加的な可聴な不連続性とをもたらすことなく、信号をオーバーラップして加える再生を行うことができる。
本発明のさらなる実施形態において、ワープ・パラメータ・シーケンスは、周知のピッチ・トラッキング・アルゴリズムを用いて導き出され、これら周知のアルゴリズムの使用が可能で、そのため、既存の符号化スキームに本発明を容易に実装することができる。
本発明のさらなる実施形態において、ワープ処理は、音声信号がワープ・パラメータによって指示されるようにタイムワープ処理されると、フレーム内の音声信号のピッチができるだけ定常的になるように実施される。
本発明のさらなる実施形態において、ビットレートについては、スペクトル係数の符号化された表現のサイズが最小化されるようにワープ・パラメータ・シーケンスが選択されれば、符号化の間に高度に複雑な計算をすることなく、さらにもっと低減される。
本発明のさらなる実施形態において、本発明の符号化および復号化は、窓関数(窓処理)、再サンプリングおよびブロック変換の適用に分解される。この分解には、特に変換に対して、既存のソフトウエアおよびハードウエア実装を用いて本発明の符号化概念を効率的に実施できるという大きな利点がある。デコーダ側では、信号を再生するために、オーバーラップして加えるさらなる独立したステップが取り入れられる。
本発明のデコーダの別の実施形態において、時間領域に変換する前に、信号のスペクトル係数に追加のスペクトル重み付けが適用される。これにより信号の再サンプリングの計算複雑性を軽減することができるので、これを行うことでデコーダ側での計算複雑性をさらに低減できる利点がある。
「ピッチ」という用語は、一般的意味で解釈するものとする。また、この用語は、ワープ情報が関わる箇所に関しては、ピッチ変動を含む。ワープ情報が、絶対値ピッチへのアクセスを示さず、相対的または正規化されたピッチ情報へのアクセスを示すような状況があり得る。したがって、ワープ情報として、y軸の値がない正確なピッチ・カーブ形状を得ることができる場合には、そういった信号のピッチの表現がされることがある。
本発明の好適な実施形態が添付図面を参照して以下に説明され、これらの図面としては:
図1は、本発明のワープ・マップの例を示す。 図2〜図2bは、本発明のワープ依存性の窓のアプリケーションを示す。 図3a、図3bは、本発明の再サンプリングの例を示す。 図4a、図4bは、デコーダ側での本発明の信号合成の例を示す。 図5a、図5bは、デコーダ側での本発明の窓処理の例を示す。 図6a、図6bは、デコーダ側での本発明のタイムワープ処理の例を示す。 図7は、デコーダ側での本発明のオーバーラップして加える手順の例を示す。 図8は、本発明の音声エンコーダの例を示す。 図9は、本発明の音声デコーダの例を示す。 図10は、本発明のデコーダのさらなる例を示す。 図11は、本発明の概念の下位互換性のある実施の例を示す。 図12は、本発明の符号化の実施のブロック図を示す。 図13は、本発明の復号化の例のブロック図を示す。 図14は、本発明の復号化のさらなる実施形態のブロック図を示す。 図15a、図15bは、本発明の概念の実施において達成可能な符号化効率の実例を示す。
以下に説明する実施形態は、音声信号のタイムワープ処理変換符号化に関する本発明の原理の単なる例示である。当業者は、本明細書に記載された構成および細部の変更および変形を容易に理解できると思われる。したがって、本発明は、添付の特許請求の範囲によってだけ限定され、記述および説明の目的で本明細書中に提示された特定の詳細な内容によって限定されないと意図される。
以下に、本発明の概念の理解促進のために、ワープ処理およびブロック変換の基本的な考え方および概念について簡単に概説し、本発明の概念については、その後、添付の図を参照しながらさらに詳細に説明する。
一般に、タイムワープ処理変換の詳細は、連続時間信号の領域において導き出すのが最も分かりやすい。以下のパラグラフでは、一般的な理論を説明し、その後引き続いてこれを特殊化し、本発明による離散時間信号への適用に変換する説明をする。この変換の主要なステップは、平均サンプル密度が維持されるような、すなわち音声信号の継続時間が変わらないようなやり方で、連続時間信号に対して行われる座標の変更を、離散時間信号の不均一再サンプリングで置換えることである。
s=Ψ(t)によって連続微分可能な単調増加関数Ψで表された時間座標の変更を表すものとし、t軸間隔Iをs軸間隔Jにマップする。
したがって、Ψ(t)は、時間依存性の量の時間軸を変換するために使用可能な関数であり、時間離散の場合の再サンプリングと同等である。なお、以下の説明において、t軸間隔Iは、通常の時間領域における間隔であり、s軸間隔Jは、ワープ処理された時間領域における間隔である。
間隔Jにおける有限エネルギーの信号に対する正規直交基底{να}を考えると、以下のルール
により間隔Iにおける有限エネルギーの信号に対する正規直交基底{uα}を得る。
無限時間間隔Iを考えると、タイムワープの局所仕様は、Iを分割し、その後、正規化ワープ・マップの再スケールされた断片を一緒に併合してΨを構築することによって得ることができる。
正規化ワープ・マップは、それ自体の上に単位間隔[0,1]をマップしている連続微分可能な単調増加関数である。tk+1>tkの区分化点t=tkのシーケンス、および正規化ワープ・マップΨkの対応するシーケンスから
が構築され、ここで、dk=sk+1−skであり、シーケンスdkは、Ψ(t)が連続微分可能となるように調整される。これにより、正規化ワープ・マップΨkのシーケンスから、タイプAΨ(t)+Bのスケールのアフィン変換に至るまでのΨ(t)が定義される。
s<skまたはs>sk+Kの場合にνk,n(s)=0となるオーバーラップ係数の整数Kが存在するということを条件として、{νk,n}を、区分化sk=Ψ(tk)に適応させた間隔Jにおける有限エネルギーの信号に対する正規直交基底とする。
K=1の場合は、オーバーラップのない従来技術の方法に相当するので、本発明は、K=2の場合に焦点を絞る。なお、現在、K=3に対する知られた構成は少ない。修正離散コサイン変換(MDCT)および他の離散時間重複変換(discrete time lapped transforms)にも用いられている局所三角関数基底を含め、K=2の場合に対する本発明の概念の具体的な例を以下に展開する。
l<k−pまたはl>k+K+pに対してνk,n(s)がslに依存しないような整数pが存在するということを条件として、区分化からの{νk,n}の構成が局所的なものであるとする。最後に、その構成は、区分化をAsk+Bにアフィン変換することにより、A-1/2νk,n((s−B)/A)への基底の変換が得られるようなものであるとする。これにより、
は、間隔Iにおける有限エネルギーの信号に対するタイムワープ処理正規直交基底であり、この式は、式(2)のパラメータ・シーケンスskおよびdkの初期設定とは関係なく、区分化点tkおよび正規化ワープ・マップΨkのシーケンスから明確に定義される。これは、t<tkまたはt>tk+Kにおいてuk,n(t)=0であるということを条件として、任意の区分化に適合し、さらに、これは、uk,n(t)が、l<k−pまたはl>k+K+pにおいてtlに依存せず、l<k−pまたはl≧k+K+pにおいて正規化ワープ・マップΨlにも依存しないということを条件として、局所的に定義される。
合成波形(3)は、連続的であるが、ヤコビアン因子(Ψ’(t))1/2のせいで必ずしも微分可能ではない。このため、さらに離散時間の場合における計算負荷を軽減するために、導双直交系(derived biorthogonal system)を同様にうまく構築することができる。シーケンスηk>0に対して、
のような定数0<C1<C2があると想定する。その結果、
は、間隔Iにおける有限エネルギーの信号の空間に対するリース基底の双直交のペアを定義する。
このように、fk,n(t)およびgk,n(t)を分析に用いることができ、特に、fk,n(t)を合成波形として、gk,n(t)を分析波形として用いることが好都合である。
上述の全般的考察に基づいて、本発明の概念の例が、均一な区分化tk=kおよびオーバーラップ係数K=2の場合について、s軸上に得られた区分化に適合された局所コサイン基底を用いて、後述のパラグラフにおいて導き出される。
なお、本発明の概念を不均一な区分化にも同様に適用可能とするためのこういった不均一区分化を取り扱うために必要な補正は明らかにされている。例えば、M.W.ウイッカーハウザー(Wickerhauser)の「理論からソフトウエアへの適合ウェーブレット分析(Adapted wavelet analysis from theory to software)」A.K.ピーター(Peters)社、1994年、第4章に提案されているように、局所コサイン基底を構築する出発点は、r<−1に対してはρ(r)=0、r>1に対してはρ(r)=1、アクティブ領域である−1≦r≦1においてはρ(r)2+ρ(−r)2=1となる上昇カットオフ関数(rising cutoff function)ρである。
区分化skと考えると、各々の間隔sk≦s≦sk+2における窓は、カットオフ中点をck=(sk+sk+1)/2とし、カットオフ半径をεk=(sk+1−sk)/2とすれば、
により構成することができる。これは、ヴィッカーハウザー(Wickerhauser)の中間点構造に相当する。
k=ck+1−ck=εk+εk+1とおけば、正規直交基底は、
から得られ、ここで周波数指数はn=0,1,2,…。この構成がρ=0の局所性条件と上述したアフィン不変とに従うことの検証は容易である。t軸上に得られるワープ処理基底(3)は、この場合、k≦t≦k+2に対して、
の形に書き換えることができ、ここで、φkは、間隔[0,2]の連続微分可能なマップをそれ自体の上に形成するために、ΨkおよびΨk+1を一緒に併せることにより定義される。
これは、
とおくことによって得られる。
Ψkの構成は、図1に描かれ、x軸上には正規化時間が示され、y軸上にはワープ時間が示されている。図1は、特にk=0の場合について論じる必要があり、これはφ0(t)を求めるため、すなわち、正規化時間0から正規化時間1まで続く第1フレーム10および正規化時間1から正規化時間2まで続く第2フレーム12に対するワープ関数を導き出すためである。第1フレーム10はワープ関数14を有し、第2フレーム12はワープ関数16を有し、これら関数は、時間軸が図示のようにワープ関数14および16によって変換されたときに、個別のフレーム内で等しいピッチを実現する狙いで導き出されているとさらに仮定する。なお、ワープ関数14はΨ0に対応し、ワープ関数16はΨ1に対応している。式9によれば、結合ワープ関数φ0(t)18は、間隔[0,2]の連続微分可能なマップをそれ自体の上に形成するために、ワープ・マップ14および16を一緒に併せることによって構築される。結果として、点(1,1)は(1,a)に変換され、aは、式9中の2mkに対応する。
本発明の概念は、オーバーラップして加えるシナリオによるタイムワープ処理の利用を対象としているので、フレーム12および後続のフレーム20に対する次の結合ワープ処理関数の構築の例も図1に示されている。なお、このオーバーラップして加える原理によれば、フレーム12を完全に再生するためには、ワープ関数18および22の双方についての知識が必要となる。
さらに、2つの別々に導き出されたワープ関数を一緒に併せることは、必ずしも適切な結合ワープ関数φ.(18,22)を導き出す唯一の方法ではないことに留意すべきであり、それは、φが2つの連続するフレームに対して適切なワープ関数を直接フィットすることによっても十分うまく導き出せるからである。2つのワープ関数の定義域のオーバーラップにおいてそれらの2つの関数のアフィン整合性(affine consistence)を保持することが望ましい。
式6によれば、式8中の窓関数は、
により定義され、上式は、間隔[0,2mk]で0から1まで増加し、間隔[2mk,2]で1から0まで減少する。
また、全てのkに対して、
のような定数0<C1<C2が存在すれば、(8)式の双直交バージョンを導き出すことができる。(4)式中でηk=lkを選択することにより、(5)式の
への特殊化が得られる。
このようにして、連続時間の場合に対しては、合成および分析関数(式12)が導き出され、これらは結合ワープ処理関数に依存する。この依存性により、オーバーラップして加えるシナリオの内で、元となる信号に関する情報のロスのないタイムワープ処理、すなわち、信号の完全な再生が可能となる。
なお、実施上の点からは、式12内で行われるオペレーションは、連続する個別のプロセス・ステップのシーケンスに分解することができる。これを行う特に魅力的なやり方は、まず、信号の窓処理を行い、次に窓処理された信号の再サンプリングをし、最後に変換を行うやり方である。
通常と同様に、音声信号は、所定のサンプリング周波数でサンプルされた離散サンプル値としてデジタル的に格納され、送信されるが、後述において、離散型のアプリケーションに対する本発明の概念の実施の特定例がさらに展開される。
タイムワープ処理修正離散コサイン変換(TWMDCT)は、解析積分および合成波形を離散化することによって、タイムワープ処理局所コサイン基底から得ることができる。以下の説明は、双直交基底(式12参照)に基く。直交問題(8)を取り扱うために必要な変更は、ヤコビアン因子√(φ’k(t−k))によるさらなる時間領域の重み付けからなる。ワープ非適用の特殊な場合においては、双方の構成とも通常のMDCTに帰着する。Lを変換サイズとし、ある値q<1に対して、qπL(rad/s)により帯域制限された分析対象の信号x(t)を仮定する。これにより、その信号を、サンプリング周期1/Lにおけるその信号のサンプルにより表すことが可能になる。
分析係数は、
により与えられる。
窓処理された信号部分xk(τ)=x(τ+k)bk(φk(τ))を定義し、積分式(13)にτ=t−kおよびr=φk(τ)の代入を行うことによって
を得る。
本発明により教示されるこの積分式を離散化するための特に魅力的なやり方は、νが整数値であるサンプル点r=rν=mk+(ν+1/2)/Lを選択することである。軽度のワープおよび上述の帯域制限を仮定すれば、近似式
が得られ、ここで、
である。
式(15)中の総和間隔(summation interval)は、0≦rν<2により定義される。これは、ν=0,1,…,L−1を含み、ポイントの合計数が2Lになるように、各終端においてこの間隔を超えてのびる。なお、この結果は、一部の整数ν0に対して、mk=(ν0+1/2)/Lの場合に生ずる可能性のあるエッジ問題の処理には、窓処理が理由で影響されない。
和(式15)が、基本的な畳み込み演算およびそれに続くIV型のDCTによって計算可能なことは周知であり、既存の効率的なハードウエアおよびソフトウエア実装、特にDCT(離散コサイン変換)を活用するために、式15の演算を一連の引き続く演算および変換に分解することが適切である。離散化された積分式により、所定の離散時間信号を、サンプリング周期x(t)の1/Lの等間隔サンプルとして読み取ることができる。このようにして、窓処理の第1ステップにより、p=0,1,2,…,2L−1に対して、
が得られることになる。(mkに応じて追加のオフセットを導入する)式15によって表されているようなブロック変換の前に、
をマップする再サンプリングが必要となる。
任意の適切な非等間隔の再サンプリングの方法によって再サンプリング操作を行うことができる。
要約すれば、本発明のタイムワープ処理MDCDは、窓処理操作、再サンプリングおよびブロック変換に分解することができる。
以下に、図2〜図3bまでを参照しながら、個別のステップについて簡単に説明する。図2〜図3bは、合成的に生成されたピッチ信号の2つだけの窓で処理された信号ブロックを考慮するタイムワープ処理MDCT符号化のステップを示す。各個別のフレームは1024のサンプルを含み、2つの考慮された結合フレーム24および26(元のフレーム30および32と、元のフレーム32および34)の各々は、2048のサンプルからなり、2つの窓処理された結合フレームは、1024のサンプルのオーバーラップを有する。図2〜図2bは、x軸に処理対象の3つのフレームの正規化時間を示している。第1フレーム30は時間軸上の0から1に分布し、第2フレーム32は1から2に分布し、第3フレームは2から3に分布している。このようにして、正規化時間領域において、各時間単位は1024の信号サンプルを有する1つの完全なフレームに対応している。正規化分析窓は、正規化時間間隔[0,2]および[1,3]の範囲にわたっている。以下の考察の狙いは、信号の中間フレーム32を再生することである。外側の信号フレーム(30,34)の再生には、それらに隣接した窓処理された信号セグメントが必要であるが、この再生についてはここで考慮の対象としない。なお、図1に示された結合ワープ・マップは、図2の信号から導き出されたワープ・マップであり、3つの連続する正規化ワープ・マップ(点線カーブ)を2つのオーバーラップするワープ・マップ(実線カーブ)への本発明の結合を図示している。上述のように、本発明の結合ワープ・マップ18および22は、信号分析のため導き出される。さらに、ワープ処理のアフィン不変性に起因して、このカーブは、元の2つのセグメント中のワープと同じようにワープしたマップを表す。
図2は、元の信号を実線グラフで示している。その定形パルス列は、時間とともにリニアに増加するピッチを有し、これから、ワープがピッチの対数微分係数で定義されていることを考慮すれば、そのパルス列は正の低減するワープを有する。図2において、式17を用いて導き出された本発明の分析窓は、点線カーブと重なっている。なお、標準的な対称窓(例えば、MDCT)からの偏差は、ワープが最大の箇所、すなわち第1セグメント[0,1]で最大になる。窓だけの数学的定義は、式11の窓を再サンプリングすることによって求められ、再サンプリングは、式17の右側項の第2因数によって表されるように実施される。
図2aおよび図2bは、図2の窓を個別の信号セグメントに適用する本発明の窓処理をした結果を示す。
図3aおよび図3bは、図2aおよび図2bの窓処理された信号ブロックの再サンプリングによるワープ・パラメータの結果を示し、その再サンプリングは、図1の実線カーブのワープ・マップによって示されるように実施される。正規化時間間隔[0,1]にワープ時間間隔[0,a]がマップされ、これは窓処理された信号ブロックの左半分を圧縮したもの等しい。このため、窓処理された信号ブロックの右半分の拡張が行われ、内部[1,2]は[a,2]としてマップされる。ワープ・マップは、一定のピッチのワープ処理信号を得ることを目的として信号から導き出されるので、ワープ処理(式18による再サンプリング)の結果は、一定のピッチを有する窓処理された信号ブロックとなる。なお、ワープ処理マップと信号との間の不一致により、この時点ではまだ変化のあるピッチを有する信号ブロックがもたらされようが、最終的な再生の障害とはならない。
引き続くブロック変換のオフセットは、丸でマークされており、この間隔[m,m+1]は、式15中においてL=1024で離散サンプルν=1,0,…,L−1に対応している。このことは、ブロック変換の変調波形が、mにおいて偶数対称性の点を、m+1において奇数対称性の点を共有する、ということに等しい。さらに、aは2mに等しく、mは0とaとの間の中点であり、m+1はaと2との間の中点であることに留意するのが重要である。要約すれば、図3aおよび図3bは、式18によって表された本発明の再サンプリング後の状況を表し、当然ながら、これはワープ・パラメータにより決まる。
図3aおよび図3bの信号のタイムワープ処理変換領域サンプルは、次に量子化および符号化され、正規化ワープ・マップΨkを表すワープ・サイド情報と一緒にデコーダに送信することができる。量子化は広く知られた技術なので、特定の量子化ルールを用いた量子化は、以下の図では例示せず、デコーダ側での信号の再生に焦点を絞ることにする。
本発明の1つの実施形態において、デコーダは、復号化されたタイムワープ処理変換領域サンプルdk,nと併せてワープ・マップ・シーケンスを受信し、信号の帯域制限を想定しているので、n=Lではdk,n=0を前提とすることができる。エンコーダ側では、離散時間合成を実現するための開始点に関しては、式12の合成波形を用いる連続時間再生を考慮しなければならない。
ここで
であり、さらに、
である。
式(19)は、窓処理された変換合成の通常のオーバーラップして加える手順である。分析段階において、点r=rν=mk+(ν+1/2)/Lにおいて式(21)のサンプルをするのが有利であり、
が導き出され、上式は、次のステップで容易に計算される:まず、IV型のDCTを行い、次に、0≦rν<2の条件の下で、オフセット・パラメータmkによって決まるサンプルを2Lに拡大する。次に、窓bk(rν)による窓処理を行う。zk(rν)が求まれば、再サンプリング
により、式(19)に表されたオーバーラップして加える操作に対する等距離サンプル点(p+1/2)/Lにおける信号セグメントykが得られる。
再サンプリング法も同様に全く自由に選択することができ、エンコーダと同じである必要はない。本発明の1つの実施形態において、スプライン補間ベースの方法が用いられ、スプライン関数の次数を、計算の複雑性と再生の品質との間での折衷が達成されるように、帯域制限パラメータqの関数として調整することができる。パラメータqの一般値はq=1/3であり、この場合、多くは二次スプラインで十分である。
図3aおよび図3bに示された信号に対する復号化を以下の図4a〜7に示す。ブロック変換および変換パラメータの送信は一般に知られた技術なので、ここでは説明しないことをかさねて強調しておく。復号化プロセスのスタートとして、図4aおよび図4bに、逆ブロック変換が既に行われ得られた信号の構成を示す。この逆ブロック変換の1つの重要な特徴は、図3aおよび図3bの元の信号中に存在しない信号成分を加えることであり、これは、上記で説明した合成関数の対称性によるものである。具体的には、その合成関数は、mに対して偶数対称性を、m+1に対しては奇数対称性を有する。したがって、区間[0,a]においては正信号成分が逆ブロック変換に加えられ、区間[a,2]においては負信号成分が逆ブロック変換に加えられる。さらに、合成窓処理操作に用いられる本発明の窓関数は、図4aおよび図4bの点線カーブと重なり合っている。
ワープ時間領域におけるこの合成窓の数学的定義は、式11で与えられる。図5aおよび図5bは、本発明の窓処理を適用後、まだワープ処理領域にある信号を示す。
図6aおよび図6bは、図5aおよび図5bの信号のワープ・パラメータ依存性の再サンプリングの結果を最終的に示す。
最後に、図7は、オーバーラップして加える操作の結果を示し、これは信号の合成における最終ステップである。(式19を参照)。このオーバーラップして加える操作は、図6aの波形と図6bの波形との重ねあわせである。既に上述したように、全面的に再生の対象となるフレームは中間フレーム32だけであり、これを図2の元の状態と比較すると中間フレーム32が高い正確度で再生されていることが分かる。逆ブロック変換の過程で導入された障害になる追加信号成分の正確な排除は、図1の2つの結合ワープ処理マップ14および22が、オーバーラップした正規化時間間隔[1,2]内のアフィン・マップにおいてだけ違っているという本発明の重要な特質があることによってのみ可能となる。この結果として、信号部分と、ワープ時間セグメント[a,2]および[1,b]との間には対応性がある。図4aおよび図4bを考慮すると、セグメント[1,b]の[a,2]へのリニアな引き伸ばしによって信号グラフが生成されることになり、窓の半分ずつは、標準的MDCTの時間領域エイアリシング除去の周知の原理を表す。エイリアス除去された後の信号は、一般的な逆ワープ・マップによって正規時間間隔[1,2]の上にそのままマップすることができる。
なお、本発明のさらなる実施形態によれば、周波数領域においてプレフィルタリング・ステップを適用することによって計算複雑性のさらなる軽減を達成することができる。これは、送信されたサンプル値dknの簡単な事前重み付けを行うことにより可能である。このようなプレフィルタリングについては、例えば、M.アンサー(Unser)、A.アルドロウビ(Aldroubi)、およびM.エデン(Eden)の「B−スプライン信号処理パートII−効率的な設計およびアプリケーション(B−spline singnal processing part II−efficient design and applications)」に記載されている。この実施のためには、窓処理操作の前に、逆ブロック変換の出力にB−スプライン再サンプリングを適用することが必要である。この実施形態においては、修正されたdk,nを有する式22から導き出された信号に対して再サンプリングが行われる。ここでは窓関数bk(rν)の適用は行われない。したがって、再サンプリングに際しては、ブロック変換の選択によってもたらされる周期性および対称性の点から、信号セグメントの各終端において端部状態に注意しなければならない。次に、窓bk(φk((p+1/2)/L))を用いた再サンプリングの後、必要な窓処理が行われる。
要約すれば、本発明のデコーダの第1の実施形態によれば、逆タイムワープ処理MDCTは、個別のステップに分解すると以下を含む。
・逆変換
・窓処理
・再サンプリング
・オーバーラップおよび加算
本発明の第2の実施形態によれば、逆タイムワープ処理MDCTは、以下を含む。
・スペクトル重み付け
・逆変換
・再サンプリング
・窓処理
・オーバーラップおよび加算
なお、ワープを適用しない場合、すなわち正規化ワープ・マップ全てがトリビアルな(Ψk(t)=t)である場合、前に詳述したように、本発明の実施形態は通常のMDCTと一致する。
前述の特徴を組み込んだ本発明のさらなる実施形態を、図8〜図15を参照しながら説明する。
図8は、入力としてデジタル音声信号100を受信し、本発明のタイムワープ処理変換符号化の概念を組み込んだデコーダに送信するビットストリームを生成する本発明の音声エンコーダの例を示す。デジタル音声入力信号100は、未処理の音声信号とすることも前処理済された音声信号とすることもでき、この前処理を、例えば、入力信号のスペクトルを白色化するための白色化操作とすることができる。本発明のエンコーダは、ワープ・パラメータ・エクストラクタ101、ワープ・トランスフォーマ102、知覚モデル・カルキュレータ103、ワープ・コーダ104、エンコーダ105、およびマルチプレクサ106を内蔵する。ワープ・パラメータ・エクストラクタ101は、ワープ・パラメータ・シーケンスを推定し、それがワープ・トランスフォーマ102とワープ・コーダ104とに入力される。ワープ・トランスフォーマ102は、デジタル音声入力信号100のタイムワープ処理スペクトル表現を導き出す。そのタイムワープ処理スペクトル表現は、量子化と例えば差分符号化など可能な他の符号化とのためのエンコーダ105に入力される。エンコーダ105は、知覚モデル・カルキュレータ103によって付加的に制御される。これにより、例えば、多くが他の信号成分にマスクされている信号成分を符号化する場合には、量子化の粗さを大きくすることができる。ワープ・コーダ104は、送信時のビットストリーム内におけるサイズを小さくするために、ワープ・パラメータ・シーケンスを符号化する。これには、例えば、パラメータの量子化、または、例えば、差分符号化またはエントロピ符号化技術、さらには算術符号化スキームを含めることができる。
マルチプレクサ106は、エンコーダから出力されるビットストリームの中に双方のデータを多重化するために、ワープ・コーダ104から符号化されたワープ・パラメータ・シーケンスと、デジタル音声入力信号100の符号化されたタイムワープ処理スペクトル表現とを受信する。
図9は、出力として再生された音声信号を導き出すための互換性のあるビットストリーム200を受信するタイムワープ処理変換デコーダの例を示す。そのデコーダは、逆マルチプレクサ201、ワープ・デコーダ202、デコーダ203、および逆ワープ・トランスフォーマ204を含む。逆マルチプレクサは、ビットストリームを符号化されたワープ・パラメータ・シーケンスに逆多重化し、それがワープ・デコーダ202に入力される。逆マルチプレクサは、音声信号のタイムワープ処理スペクトル表現の符号化された表現をさらに逆多重化し、それが図8の音声エンコーダの対応するエンコーダ105と逆機能になっているデコーダ203に入力される。ワープ・デコーダ202は、ワープ・パラメータ・シーケンスの再生を導き出し、デコーダ203は、元の音声信号のタイムワープ処理スペクトル表現を導き出す。ワープ・パラメータ・シーケンスの表現とタイムワープ処理スペクトル表現とは、音声信号のタイムワープ処理オーバーラップ変換符号化の本発明の概念を実施してデジタル音声出力信号を導き出す逆ワープ・トランスフォーマ204に入力される。
図10は、デコーダ自体の中でワープ・パラメータ・シーケンスが導き出されるタイムワープ処理変換デコーダのさらなる実施形態を示す。図10に示された別の実施形態は、デコーダ203、ワープ推定器301、および逆ワープ・トランスフォーマ204を含む。デコーダ203および逆ワープ・トランスフォーマ204は、前の実施形態の対応する装置と同じ機能を有し、したがって、これらの装置の内容はどちらの実施形態内においても全く変わらない。ワープ推定器301は、先行の周波数領域ピッチ推定と現在の周波数領域ピッチ推定とを結合して、デコーダ203から出力されたタイムワープ処理スペクトル表現の実際のワープを導き出す。このようにして、ワープ・パラメータ・シーケンスは、暗黙的に信号伝達され、これにより、デコーダに入力されるビットストリームにおいて追加のワープ・パラメータ情報を送信する必要がなくなり、さらにビットレートが節約できるという大きな利点が得られる。ただし、ワープ処理データの暗黙の信号伝達は、変換の時間分解能によって制限される。
図11は、タイムワープ処理復号化の本発明の概念を処理する能力のない従来技術のデコーダが用いられた場合における本発明の概念の下位互換性を示す。そのようなデコーダは、追加のワープ・パラメータ情報を無視し、したがって、ビットストリームを周波数領域信号に復号化し、ワープ処理を一切行わない逆トランスフォーマ401に送り込むことになる。本発明のエンコーダのタイムワープ処理変換によって実施される周波数分析は、タイムワープ処理を一切含まない変換とうまく協働するので、ワープ・データを感知しないデコーダであっても意味のある音声出力を生成することはできる。これは、従来技術のデコーダ内ではタイムワープ処理は逆変換されないので、これに起因する音声品質の劣化という犠牲を払って行われる。
図12は、タイムワープ処理変換の本発明の方法のブロック図を示す。本発明のタイムワープ処理変換は、窓処理501、再サンプリング502、およびブロック変換503を含む。まず、入力信号は、個別の符号化ステップ501〜503の各々への追加入力として供給されるワープ・パラメータ・シーケンスによって決まるオーバーラップする窓シーケンスによって窓処理が行われる。各々の窓処理された入力信号セグメントは、引き続いて、再サンプリングステップ502において再サンプリングされ、その再サンプリングはワープ・パラメータ・シーケンスによって指示されるように実行される。
ブロック変換ステップ503の中で、ブロック変換は、通常、周知の離散三角変換を用いて導き出される。このようにして、変換は、窓処理され再サンプリングされた信号セグメントにおいて実行される。なお、ブロック変換は、オフセット値によっても左右され、この値はワープ・パラメータ・シーケンスから導き出される。このようにして、出力は、変換領域フレームのシーケンスで構成される。
図13は、逆タイムワープ処理変換方法のフローチャートを示す。その方法は、逆ブロック変換601、窓処理602、再サンプリング603、およびオーバーラップおよび加算604のステップを含む。変換領域信号の各フレームは、逆ブロック変換601によって時間領域信号に変換される。符号化ステップに対応して、ブロック変換は、逆ブロック変換601、窓処理602、および再サンプリング603への追加入力として供給される受信パラメータ・シーケンスから導き出されたオフセット値に依存する。ブロック変換601によって導き出された信号セグメントは、続いて、窓処理ステップ602において窓処理され、再サンプリング603においてワープ処理パラメータ・シーケンスを用いて再サンプリングされる。最後に、オーバーラップおよび加算604において、窓処理され再サンプリングされたセグメントは、通常のオーバーラップして加える操作で、その前に逆変換されたセグメントに加えられ、時間領域の出力信号の再生が得られる。
図14は、本発明の逆タイムワープ・トランスフォーマの別の実施形態を示し、これは、計算複雑性をさらに軽減するように実装されている。このデコーダは、部分的に、図13のデコーダと同一の機能を有する。したがって、両方の実施形態における同一機能の内容は、どちらも全く変わりがない。この別の実施形態は、これが逆ブロック変換601の前に、スペクトル事前重み付け701を実装している点において、図13の実施形態とは異なっている。この定まったスペクトル事前重み付けは、ブロック変換の選択によってもたらされる周期性および対称性による時間領域フィルタリングに相当する。そのようなフィルタリング操作は、ある種のスプライン基底の再サンプリング方法の一部分であり、後での修正再サンプリング702の計算複雑性の軽減を可能にする。これにより、このような再サンプリングは、ブロック変換の選択によってもたらされた周期性および対称性を有する信号領域において行われる。したがって、修正窓処理ステップ703は、再サンプリング702の後で実行される。最後に、オーバーラップおよび加算604において、窓処理され再サンプリングされたセグメントが、通常のオーバーラップして加える手順で、先行して逆変換されたセグメントに加えられ、再生された時間領域の出力信号が得られる。
図15aおよび図15bは、タイムワープ処理符号化の本発明の概念の強度を示し、同一信号においてタイムワープ処理を適用されたものとされていないものとのスペクトル表現を示している。図15aは、16kHzでサンプルされた男性のスピーチ信号セグメントの変換サイズ1024の修正離散コサイン変換から生じるスペクトル線のフレームを図示する。得られた周波数分解能は7.8Hzであり、この図示では初めの600本だけがプロットされ、これは4.7kHzの帯域幅に相当する。基本周波数およびプロットから分かるように、セグメントは、約155Hzの平均ピッチを有する有声音である。図15aからさらに分かるように、わずかのピッチ周波数の基本成分が明確に識別されるが、高周波に向かうほど、分析の密度とスクランブルが増加している。これは、分析対象の信号セグメントの長さ内にあるピッチの変化によるものである。したがって、中間から高周波の範囲の符号化には、復号化で可聴なアーチファクトが持ち込まれないようにするために相当量のビットが必要となる。逆に、ビットレートを固定すると、量子化の粗さを大きくする必要性から、必然的にかなりの量の歪みが生ずることになる。
図15bは、本発明によるタイムワープ処理修正離散コサイン変換から生じるスペクトル線のフレームを図示する。当然ながら、図15aにおけるのと同じ元の男性音声信号が用いられている。変換パラメータは、図15aのものと同じであるが、その信号に適合されたタイムワープ処理変換によって、スペクトル表現に明らかに飛躍的な効果がもたらされている。タイムワープ処理された変換領域における信号の疎で整った特徴によって、追加のワープ・データの符号化のコストを考慮に入れても、ずっと良好なレート・歪パフォーマンスによる符号化が達成される。
既に述べたように、ピッチまたは速度情報の送信の代わりに、ワープ・パラメータを送信することにより、必要な追加ビットレートを飛躍的に低減する利点が得られる。したがって、以下のパラグラフでは、必要なワープ・パラメータ情報を送信する本発明のスキームのいくつかを詳述する。
時間tにおけるワープa(t)を有する信号に対して、局所コサイン基底((8)、(12)参照)の正規化ワープ・マップ・シーケンスΨkの最適な選択は、
を解くことによって得られる。
しかしながら、このワープ・マップ・シーケンスを表すために必要な情報の量は大きすぎ、a(t)の点別の値の定義および測定は困難である。実際上は、ワープ更新間隔Δtが決定され、各ワープ・マップΨkはN=1/Δtのパラメータによって表される。スピーチ信号に対しては、通常10〜20ms位のワープ更新間隔で十分である。(9)式のΨkおよびΨk+1からφkを構成するのと同様に、連続微分可能な正規化ワープ・マップを、適切のアフィン再スケール操作を介して、Nの正規化ワープ・マップにより一緒に接合することができる。正規化ワープ・マップのプロトタイプの例には、
が含まれ、ここで、aはワープ・パラメータである。h”/h’によってマップh(t)のワープを定義すれば、3つのマップ全てがt=1/2においてaに等しくなる。指数関数マップは、0≦t≦1の全区間において一定のワープを有し、aの小さな値に対しては、他の2つのマップは、この一定の値から非常に小さな偏差を示す。再サンプリング(23)のためのデコーダの中で適用される所定のワープ・マップに対して、エンコーダでは、再サンプリング(式18)に対してその逆が必要となる。反転作業の主要部分は、正規化ワープ・マップの反転から生じる。二次マップの反転には、平方根操作が必要であり、指数関数マップの反転には、対数が必要であり、有理メビウス・マップの反転は、否定ワープ・パラメータを用いたメビウス・マップである。指数関数および分割は同等に高価なので、デコーダにおける計算を最大に軽減することを重視すれば、区分的な二次ワープ・マップ・シーケンスΨkが好ましい選択となる。
正規化ワープ・マップΨkは、次にNのワープ・パラメータak(0),ak(1),…,ak(N−1)によって、以下を要件として全面的に定義される。
・正規化ワープ・マップである。
・円滑なプロトタイプ・ワープ・マップ(25)の1つの再スケールされたコピーによって一緒に結合されている。
・連続微分可能である。
・次式を満たす。
本発明は、ワープ・パラメータを、典型的には、約0.5Hzのステップ・サイズでリニアに量子化することが可能であると教示する。次に得られた整数値が符号化される。この代わりに、微分係数Ψk’を正規化ピッチ・カーブとして解釈することができ、値
が、一定のステップ・サイズ、通常0.005で量子化される。この場合、得られた整数値は、逐次的にまたは階層的な仕方で、さらに差分符号化される。双方の場合において、得られたサイド情報のビットレートは、通常、1秒あたり数百ビットであり、これは、スピーチ・コーデックにおけるピッチ・データを表すために必要なレートのわずかな部分でしかない。
大きな計算資源を有するエンコーダは、符号化コストを最適に削減しまたはスペクトル線の希薄さの尺度を最大化するワープ・データ・シーケンスを、決定することができる。もっと低コストの手順は、ピッチをトラッキングし測定されたピッチ関数p(t)を得、さらに、ピッチ・トラックが存在し、ピッチ値の大きなジャンプがないような間隔内で、区分線形関数p0(t)によるピッチ・カーブを近似するという周知の方法を用いることである。このとき、推定されたワープ・シーケンスは、ピッチ・トラッキング間隔内部で
によって与えられる。これら間隔の外側において、ワープはゼロに設定される。なお、ピッチ周期重複のようなピッチ推定中の系統誤差は、ワープ推定にほとんど影響を与えない。
図10に示すように、本発明の別の実施形態では、ワープ処理パラメータ・シーケンスは、ワープ推定器によって、復号化された変換領域データから導き出すことができる。原理は、変換データの各フレームに対する、または、その後の復号化された信号ブロックのピッチから、周波数領域のピッチ推定を計算することである。次に、式(28)と同様な式からワープ情報が導き出される。
本発明の概念の適用を、主として、単一の音声チャネル・シナリオにおける本発明のタイムワープ処理を適用することによって説明してきた。当然ながら、本発明の概念は、そのようなモノラルのシナリオに決して限定されるものではない。本発明の概念によって実現可能な高い符号化利得をマルチチャネル符号化アプリケーションの中で用いるとさらに大きな効果を得ることができ、本発明の概念を用いて送信する必要のある単一のまたは複数のチャネルを符号化することができる。
さらに、ワープ処理を、xに依存する任意の関数のx軸の変換として一般的に定義することができる。したがって、本発明の概念を、明示的に時間に依存しない関数または信号表現をワープ処理するシナリオに適用することもできる。例えば、信号の周波数表現のワープ処理も実施することもできる。
さらに、上述のパラグラフで説明したように、本発明の概念を、任意のセグメント長で区分化されるが等しい長さには区分化されていない信号にも有利に適用することができる。
さらに、上述のパラグラフで提示した基底関数および離散化の使用については、本発明の概念を適用する上での1つの有利な例として理解される。他のアプリケーションに対して、違った基底関数および違った離散化を用いることもできる。本発明の方法の特定の実現要求によっては、本発明の方法は、ハードウエアまたはソフトウエアで実施することができる。この実施は、本発明の方法が実行されるように、プログラム可能なコンピュータ・システムと協働する、それに記憶された電子的に読み取り可能な制御信号を有する、デジタル記憶媒体、特に、ディスク、DVDまたはCDを用いて実行することができる。そのため、本発明は、一般に、コンピュータ・プログラム製品がコンピュータ上で実行される場合に、機械で読み取り可能なキャリアに記憶された本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラム製品である。言い換えると、本発明は、コンピュータ・プログラムがコンピュータ上で実行される場合に、少なくとも1つの本発明の方法を実行するためのプログラム・コードを有するコンピュータ・プログラムである。
上述には本発明の特定の実施の形態に関して特に示され説明されたが、形式や詳細のさまざまな他の変更が本発明の精神および範囲から逸脱することなくできるということは、当業者にとって理解されよう。さまざまな変更が本願明細書において開示されさらに特許請求の範囲によって理解される上位概念から逸脱することなく異なる実施の形態に適応する際にできることを理解すべきである。

Claims (5)

  1. 音声入力信号(100)を受信し、さらにデコーダに送信されるビットストリームを生成するための音声エンコーダであって、
    ワープ・パラメータ・シーケンスを推定するためのワープ・パラメータ・エクストラクタ(101)と、
    前記ワープ・パラメータ・シーケンスを受信し、さらに前記音声入力信号(100)のタイムワープ処理スペクトル表現を導き出すためのワープ・トランスフォーマ(102)と、
    前記音声入力信号(100)を受信するための知覚モデル・カルキュレータ(103)と、
    送信時の前記ビットストリーム内におけるサイズを小さくするために、前記ワープ・パラメータ・シーケンスを符号化するためのワープ・コーダ(104)と、
    前記音声入力信号の符号化されたタイムワープ処理スペクトル表現を得るために、量子化のための前記タイムワープ処理スペクトル表現を受信するためのエンコーダ(105)であって、前記エンコーダ(105)は前記知覚モデル・カルキュレータ(103)によって制御される、エンコーダと、
    前記符号化されたワープ・パラメータ・シーケンスおよび前記音声入力信号の前記符号化されたタイムワープ処理スペクトル表現を受信しさらに多重化するためのマルチプレクサ(106)とを含む、音声エンコーダ。
  2. 再生された音声信号を導き出すためのタイムワープ処理変換デコーダであって、
    ビットストリームを符号化されたワープ・パラメータ・シーケンスおよびタイムワープ処理スペクトル表現の符号化された表現に逆多重化するための逆マルチプレクサ(201)と、
    前記ワープ・パラメータ・シーケンスの再生を導き出すために、前記符号化されたワープ・パラメータ・シーケンスを復号化するためのワープ・デコーダ(202)と、
    音声信号のタイムワープ処理スペクトル表現を導き出すために、前記タイムワープ処理スペクトル表現の前記符号化された表現を復号化するためのデコーダ(203)と、
    前記ワープ・パラメータ・シーケンスの前記再生および前記音声信号の前記タイムワープ処理スペクトル表現を受信し、さらにタイムワープ処理オーバーラップ変換符号化を用いて前記再生された音声出力信号を導き出すための逆ワープ・トランスフォーマ(204)とを含む、デコーダ。
  3. ビットストリームを生成するための音声符号化の方法であって、
    音声入力信号(100)を受信するステップと、
    ワープ・パラメータ・シーケンスを推定するステップ(101)と、
    前記ワープ・パラメータ・シーケンスを用いて前記音声入力信号(100)のタイムワープ処理スペクトル表現を導き出すステップ(102)と、
    送信時に前記ビットストリーム内におけるサイズを小さくするために、前記ワープ・パラメータ・シーケンスを符号化するステップ(104)と、
    前記音声入力信号の符号化されたタイムワープ処理スペクトル表現を得るために、前記タイムワープ処理スペクトル表現を量子化するステップ(105)であって、量子化するステップ(105)は知覚モデル・カルキュレータ(103)によって制御される、ステップと、
    前記符号化されたワープ・パラメータ・シーケンスおよび前記音声入力信号の前記符号化されたタイムワープ処理スペクトル表現を多重化するステップ(106)とを含む、方法。
  4. 再生された音声信号を導き出すためのタイムワープ処理変換復号化の方法であって、
    ビットストリームを符号化されたワープ・パラメータ・シーケンスおよびタイムワープ処理スペクトル表現の符号化された表現に逆多重化するステップ(201)と、
    前記ワープ・パラメータ・シーケンスの再生を導き出すために、前記符号化されたワープ・パラメータ・シーケンスを復号化するステップ(202)と、
    音声信号のタイムワープ処理スペクトル表現を導き出すために、前記タイムワープ処理スペクトル表現の前記符号化された表現を復号化するステップ(203)と、
    前記ワープ・パラメータ・シーケンスの前記再生および前記音声信号の前記タイムワープ処理スペクトル表現を用いて、タイムワープ処理オーバーラップ変換符号化を用いて前記再生された音声出力信号を導き出すステップ(204)とを含む、方法。
  5. コンピュータ上で実行されるときに、請求項3または請求項4に記載の方法のいずれかを実行するように構成されるプログラム・コードを有するコンピュータ・プログラム。
JP2014182138A 2005-11-03 2014-09-08 音声信号のタイムワープ処理改良変換符号化 Active JP6084595B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US73351205P 2005-11-03 2005-11-03
US60/733,512 2005-11-03
US11/464,176 2006-08-11
US11/464,176 US7720677B2 (en) 2005-11-03 2006-08-11 Time warped modified transform coding of audio signals

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013106030A Division JP6125324B2 (ja) 2005-11-03 2013-05-20 音声信号のタイムワープ処理改良変換符号化

Publications (2)

Publication Number Publication Date
JP2015018274A JP2015018274A (ja) 2015-01-29
JP6084595B2 true JP6084595B2 (ja) 2017-02-22

Family

ID=37507461

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2008538284A Active JP4927088B2 (ja) 2005-11-03 2006-10-24 音声信号のタイムワープ処理改良変換符号化
JP2011240716A Active JP5323164B2 (ja) 2005-11-03 2011-11-02 音声信号のタイムワープ処理改良変換符号化
JP2013106030A Active JP6125324B2 (ja) 2005-11-03 2013-05-20 音声信号のタイムワープ処理改良変換符号化
JP2014182138A Active JP6084595B2 (ja) 2005-11-03 2014-09-08 音声信号のタイムワープ処理改良変換符号化

Family Applications Before (3)

Application Number Title Priority Date Filing Date
JP2008538284A Active JP4927088B2 (ja) 2005-11-03 2006-10-24 音声信号のタイムワープ処理改良変換符号化
JP2011240716A Active JP5323164B2 (ja) 2005-11-03 2011-11-02 音声信号のタイムワープ処理改良変換符号化
JP2013106030A Active JP6125324B2 (ja) 2005-11-03 2013-05-20 音声信号のタイムワープ処理改良変換符号化

Country Status (14)

Country Link
US (3) US7720677B2 (ja)
EP (7) EP2306455B1 (ja)
JP (4) JP4927088B2 (ja)
KR (1) KR100959701B1 (ja)
CN (2) CN101351840B (ja)
AT (1) ATE395687T1 (ja)
DE (1) DE602006001194D1 (ja)
DK (1) DK1807825T3 (ja)
ES (5) ES2967257T3 (ja)
HK (2) HK1105159A1 (ja)
MY (1) MY141264A (ja)
PL (1) PL1807825T3 (ja)
TW (1) TWI320172B (ja)
WO (1) WO2007051548A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
TWI455064B (zh) * 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
EP2077551B1 (en) 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
EP2107556A1 (en) 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
AU2013206267B2 (en) * 2008-07-11 2015-10-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Providing a time warp activation signal and encoding an audio signal therewith
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
CN103000178B (zh) 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
EP2211335A1 (en) 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
PL3246919T3 (pl) 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
PL3985666T3 (pl) 2009-01-28 2023-05-08 Dolby International Ab Ulepszona transpozycja harmonicznych
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
EP2492911B1 (en) * 2009-10-21 2017-08-16 Panasonic Intellectual Property Management Co., Ltd. Audio encoding apparatus, decoding apparatus, method, circuit and program
US9338523B2 (en) * 2009-12-21 2016-05-10 Echostar Technologies L.L.C. Audio splitting with codec-enforced frame sizes
KR101445296B1 (ko) * 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
EP2372704A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
JPWO2012046447A1 (ja) 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
CN102959620B (zh) * 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
AU2012217153B2 (en) * 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
KR101953613B1 (ko) * 2013-06-21 2019-03-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 지터 버퍼 제어부, 오디오 디코더, 방법 및 컴퓨터 프로그램
CN105474313B (zh) * 2013-06-21 2019-09-06 弗劳恩霍夫应用研究促进协会 时间缩放器、音频解码器、方法和计算机可读存储介质
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3000110B1 (en) 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
CN107710323B (zh) 2016-01-22 2022-07-19 弗劳恩霍夫应用研究促进协会 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法
JP7257975B2 (ja) * 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519830A1 (de) * 1985-06-03 1986-12-18 Ruhrkohle Ag, 4300 Essen Verfahren zur kohlehydrierung mit integrierten raffinationsstufen
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
JPH0546199A (ja) * 1991-08-21 1993-02-26 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
WO1998006090A1 (en) 1996-08-02 1998-02-12 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
EP0906664B1 (en) * 1997-04-07 2006-06-21 Koninklijke Philips Electronics N.V. Speech transmission system
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
DE60018246T2 (de) * 1999-05-26 2006-05-04 Koninklijke Philips Electronics N.V. System zur übertragung eines audiosignals
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
WO2002007372A2 (en) 2000-07-13 2002-01-24 Qualcomm Incorporated Maximum distance block coding scheme
EP1340317A1 (en) 2000-11-03 2003-09-03 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
ATE336774T1 (de) * 2001-05-28 2006-09-15 Texas Instruments Inc Programmierbarer melodienerzeuger
US6879955B2 (en) 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
WO2003019527A1 (fr) 2001-08-31 2003-03-06 Kabushiki Kaisha Kenwood Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant
JP3994332B2 (ja) * 2001-09-27 2007-10-17 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
US7555434B2 (en) 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
CN1290036C (zh) 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
US7024358B2 (en) * 2003-03-15 2006-04-04 Mindspeed Technologies, Inc. Recovering an erased voice frame with time warping
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
KR101040160B1 (ko) * 2006-08-15 2011-06-09 브로드콤 코포레이션 패킷 손실 후의 제한되고 제어된 디코딩
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
MX2009013519A (es) * 2007-06-11 2010-01-18 Fraunhofer Ges Forschung Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada.
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
CN103000178B (zh) * 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2492911B1 (en) * 2009-10-21 2017-08-16 Panasonic Intellectual Property Management Co., Ltd. Audio encoding apparatus, decoding apparatus, method, circuit and program

Also Published As

Publication number Publication date
CN102592602A (zh) 2012-07-18
PL1807825T3 (pl) 2009-01-30
WO2007051548A1 (en) 2007-05-10
JP2013210654A (ja) 2013-10-10
CN101351840A (zh) 2009-01-21
EP3319086B1 (en) 2021-02-17
HK1105159A1 (en) 2008-02-01
DK1807825T3 (da) 2008-09-08
TWI320172B (en) 2010-02-01
HK1254427A1 (zh) 2019-07-19
EP2306455A1 (en) 2011-04-06
EP3319086A1 (en) 2018-05-09
JP6125324B2 (ja) 2017-05-10
EP3852103A1 (en) 2021-07-21
US20100204998A1 (en) 2010-08-12
ES2967257T3 (es) 2024-04-29
KR100959701B1 (ko) 2010-05-24
TW200719319A (en) 2007-05-16
KR20080066760A (ko) 2008-07-16
JP2009515207A (ja) 2009-04-09
EP4290513A2 (en) 2023-12-13
JP2012068660A (ja) 2012-04-05
US8412518B2 (en) 2013-04-02
EP3852103B1 (en) 2023-11-29
DE602006001194D1 (de) 2008-06-26
CN101351840B (zh) 2012-04-04
EP1953738B1 (en) 2016-10-12
JP2015018274A (ja) 2015-01-29
JP5323164B2 (ja) 2013-10-23
EP1807825B1 (en) 2008-05-14
US7720677B2 (en) 2010-05-18
EP4290512A2 (en) 2023-12-13
MY141264A (en) 2010-04-16
ES2646814T3 (es) 2017-12-18
EP1953738A1 (en) 2008-08-06
EP4290513A3 (en) 2024-02-14
US20070100607A1 (en) 2007-05-03
ES2863667T3 (es) 2021-10-11
JP4927088B2 (ja) 2012-05-09
ES2604758T3 (es) 2017-03-09
ES2307287T3 (es) 2008-11-16
EP4290512A3 (en) 2024-02-14
US20130218579A1 (en) 2013-08-22
EP2306455B1 (en) 2017-09-27
CN102592602B (zh) 2015-11-25
ATE395687T1 (de) 2008-05-15
US8838441B2 (en) 2014-09-16
EP1807825A1 (en) 2007-07-18

Similar Documents

Publication Publication Date Title
JP6084595B2 (ja) 音声信号のタイムワープ処理改良変換符号化
EP1440300B1 (en) Encoding device, decoding device and audio data distribution system
US7020615B2 (en) Method and apparatus for audio coding using transient relocation
RU2449387C2 (ru) Способ и устройство для обработки сигнала
KR20090083070A (ko) 적응적 lpc 계수 보간을 이용한 오디오 신호의 부호화,복호화 방법 및 장치
JP2005533272A (ja) オーディオコーディング
US20110087494A1 (en) Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150623

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20150914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170125

R150 Certificate of patent or registration of utility model

Ref document number: 6084595

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250