JP6553657B2 - オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法 - Google Patents

オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法 Download PDF

Info

Publication number
JP6553657B2
JP6553657B2 JP2016575802A JP2016575802A JP6553657B2 JP 6553657 B2 JP6553657 B2 JP 6553657B2 JP 2016575802 A JP2016575802 A JP 2016575802A JP 2016575802 A JP2016575802 A JP 2016575802A JP 6553657 B2 JP6553657 B2 JP 6553657B2
Authority
JP
Japan
Prior art keywords
phase
signal
frequency
audio signal
patch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016575802A
Other languages
English (en)
Other versions
JP2017525995A5 (ja
JP2017525995A (ja
Inventor
サッシャ ディスヒ
サッシャ ディスヒ
ミッコーヴィレ ライティネン
ミッコーヴィレ ライティネン
ビーレ プルッキ
ビーレ プルッキ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ, フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2017525995A publication Critical patent/JP2017525995A/ja
Publication of JP2017525995A5 publication Critical patent/JP2017525995A5/ja
Application granted granted Critical
Publication of JP6553657B2 publication Critical patent/JP6553657B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Amplifiers (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Television Receiver Circuits (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、オーディオ信号を処理するためのオーディオプロセッサおよび方法、オーディオ信号を復号するためのデコーダおよび方法、並びにオーディオ信号を符号化するためのエンコーダおよび方法に関連する。さらに、位相訂正データを決定するための計算器および方法、オーディオ信号、並びに前述の方法のうちの1つを実行するためのコンピュータプログラムが説明される。すなわち、本発明は、知覚オーディオ符号器のための位相デリバティブ(派生)訂正およびバンド幅拡張(BWE)を示す、または、知覚の重要性に基づくQMF領域のバンド幅拡張信号の位相スペクトルを訂正することを示す。
知覚オーディオ符号化
年代に見られる知覚オーディオ符号化は、知覚の効果の公言された利用を通して、時間/周波数領域処理と冗長性縮小(エントロピー符号化)と不適切除去との使用を含む、いくつかの共通のテーマに続いている[非特許文献1]。一般に、入力信号は、時間領域信号をスペクトル(時間/周波数)表現に変換する分析フィルタバンクによって分析される。スペクトル係数への変換は、それらの周波数内容に依存している信号コンポーネント(例えば、それらの個々の倍音構造を有する種々の器具)を選択的に処理することを許す。
並行して、入力信号はその知覚の特性について分析される。すなわち、特に、時間および周波数依存のマスキング閾値が計算される。時間/周波数依存マスキング閾値は、個々の周波数バンドおよび符号化時間フレームのための絶対エネルギー値またはマスク対信号比(MSR)の形式で、目標符号化閾値を通して量子化ユニットに伝えられる。
分析フィルタバンクによって伝えられたスペクトル係数は、信号を表現するために必要なデータ転送速度を減らすために量子化される。このステップは情報の損失を暗示し、符号化歪み(エラー、雑音)を信号の中に導入する。この符号化雑音の可聴衝撃を最小化するために、量子化ステップサイズは、個々の周波数バンドとフレームのための目標符号化閾値に従って制御される。理想的に、個々の周波数バンドに注入された符号化雑音は、符号化(マスキング)閾値より低く、従って、主体のオーディオの悪化は知覚できない(不適切の除去)。音響心理学的な要求に応じた周波数上および時間上の量子化雑音のこの制御は、洗練された雑音形成効果をもたらし、符号器を知覚オーディオ符号器にするものである。
その後、現代オーディオ符号器は、量子化されたスペクトルデータに関するエントロピー符号化(例えば、ハフマン符号化、算術的符号化)を実行する。エントロピー符号化は無損失符号化ステップである。それはビット転送速度をさらに節約する。
最後に、全ての符号化されたスペクトルデータおよび関連する追加パラメータ(例えば個々の周波数バンドのための量子化器の設定のようなサイド情報)は、ファイルの格納または転送のために意図された、最終的に符号化された表現であるビットストリームの中に、一緒に詰め込まれる。
バンド幅拡張
フィルタバンクに基づく知覚オーディオ符号化において、消費されたビット転送速度の大部分は、通常、量子化されたスペクトル係数に費やされる。従って、非常に低いビット転送速度では、十分なビットが、知覚的に損なわれていない再生を達成するために必要な
精度において、全ての係数を表現するように入手できない。従って、低いビット転送速度要件は、知覚オーディオ符号化によって得られるオーディオバンド幅に対して、有効に制限する。バンド幅拡張[非特許文献2]は、この長年の根本的制限を取り除く。バンド幅拡張の中心的アイデアは、コンパクトなパラメータ形式において、失った高周波数の内容を伝送して修復させる追加の高周波プロセッサによって、バンドを制限された知覚符号器を補足することである。高周波数の内容は、ベースバンド信号の1つのサイドバンド変調に基づいて、または、スペクトルバンド複製(SBR)[非特許文献3]において使われたようなコピーアップ技術に基づいて、または、例えばボコーダー[非特許文献4]のようなピッチシフト技術の応用に基づいて生成される。
デジタルオーディオの効果
時間伸長化またはピッチシフト化効果は、通常、同期したオーバーラップ加算(SOLA)のような時間領域技術または周波数領域技術(ボコーダー)を適用することによって得られる。また、ハイブリッドシステムは、サブバンドにおいて処理しているSOLAを適用することを提案している。ボコーダーおよびハイブリッドシステムは、通常、垂直位相コヒーレンスの損失に帰される位相性(フェージネス、[非特許文献8])と呼ばれる人工物から損害を被る。いくつかの出版物は、重要な垂直位相コヒーレンスを守ることによる時間伸長化アルゴリズムの音質についての改良に関係する([非特許文献7]、[非特許文献6])。
最先端オーディオコーダ[非特許文献1]は、通常、符号化される信号の重要な位相特性を無視することによって、オーディオ信号の知覚の品質を解決する。知覚オーディオコーダにおいて位相コヒーレンスを訂正する一般的な提案は、[非特許文献9]に記載される。
しかし、全ての種類の位相コヒーレンスエラーは同時に訂正できず、全ての位相コヒーレンスエラーが知覚的に重要であるわけではない。例えば、オーディオバンド幅拡張において、どの位相コヒーレンス関連エラーが最も高い優先性によって訂正されるべきで、どのエラーが部分的に訂正されるだけで残れるか、または、それらのエラーの取るに足りない知覚衝撃について全く無視されるか、が最新技術から明確ではない。
特に、オーディオバンド幅拡張([非特許文献2]、[非特許文献3]、[非特許文献4])の応用のため、周波数上および時間上の位相コヒーレンスがしばしば害される。結果は、聴覚の粗さを示す鈍い音であり、オリジナル信号の中の聴覚の目的物から崩壊する追加的に知覚されるトーンを含み、それゆえ、それ自身の聴覚の目的物として、オリジナル信号に追加的に知覚される。さらに、音は、遠くから来るようにも見え、少しざわつき、それから、小さい聴衆契約[非特許文献5]を呼び起す。
Painter, T.: Spanias, A. Perceptual coding of digital audio, Proceedings of the IEEE, 88(4), 2000; pp. 451-513. Larsen, E.; Aarts, R. Audio Bandwidth Extension: Application of psychoacoustics, signal processing and loudspeaker design, John Wiley and Sons Ltd, 2004, Chapters 5, 6. Dietz, M.; Liljeryd, L.; Kjorling, K.; Kunz, 0. Spectral Band Replication, a Novel Approach in Audio Coding, 112th AES Convention, April 2002, Preprint 5553. Nagel, F.; Disch, S.; Rettelbach, N. A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs, 126th AES Convention, 2009. D. Griesinger 'The Relationship between Audience Engagement and the ability to Perceive Pitch, Timbre, Azimuth and Envelopment of Multiple Sources' Tonmeister Tagung 2010. D. Dorran and R. Lawlor, "Time-scale modification of music using a synchronized subband/time domain approach," IEEE International Conference on Acoustics, Speech and Signal Processing, pp. IV 225 - IV 228, Montreal, May 2004. J. Laroche, "Frequency-domain techniques for high quality voice modification," Proceedings of the International Conference on Digital Audio Effects, pp. 328-322, 2003. Laroche, J.; Dolson, M.; , "Phase-vocoder: about this phasiness business," Applications of Signal Processing to Audio and Acoustics, 1997. 1997 IEEE ASSP Workshop on, vol., no., pp.4 pp., 19-22, Oct 1997 M. Dietz, L. Liljeryd, K. Kjoerling, and O. Kunz, "Spectral band replication, a novel approach in audio coding," in AES 112th Convention, (Munich, Germany), May 2002. P. Ekstrand, "Bandwidth extension of audio signals by spectral band replication," in IEEE Benelux Workshop on Model based Processing and Coding of Audio, (Leuven, Belgium), November 2002. B. C. J. Moore and B. R. Glasberg, "Suggested formulae for calculating auditory-filter bandwidths and excitation patterns," J. Acoust. Soc. Am., vol. 74, pp. 750-753, September 1983. T. M. Shackleton and R. P. Carlyon, "The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination," J. Acoust. Soc. Am., vol. 95, pp. 3529-3540, June 1994. M.-V. Laitinen, S. Disch, and V. Pulkki, "Sensitivity of human hearing to changes in phase spectrum," J. Audio Eng. Soc., vol. 61, pp. 860[877, November 2013. A. Klapuri, "Multiple fundamental frequency estimation based on harmonicity and spectral smoothness," IEEE Transactions on Speech and Audio Processing, vol. 11, November 2003.
従って、改善されたアプローチの要求がある。
オーディオ信号を処理するための改善された概念を提供することが、本発明の目的である。この目的は独立した請求項の主題によって解決される。
本発明は、オーディオ信号の位相が、オーディオプロセッサまたはデコーダによって計算された目標位相に従って訂正できる、という発見に基づいている。目標位相は、未処理のオーディオ信号の位相の表現と考えられる。従って、処理されたオーディオ信号の位相は、未処理のオーディオ信号の位相により良く合致して調整される。例えばオーディオ信号の時間周波数表現を有することによって、オーディオ信号の位相は、サブバンドの中のその後の時間フレームのために調整されるか、または、位相は、その後の周波数サブバンドのための時間フレームの中で調整される。従って、計算器は、最も適した訂正方法を自動的に検出して選択することを見付けられた。説明された発見は、種々の実施の形態において実施されるか、または、デコーダおよび/またはエンコーダにおいて一緒に実施され
る。
実施の形態は、時間フレームのためのオーディオ信号の位相尺度(phase measure)を計算するように構成されたオーディオ信号位相尺度計算器を含む、オーディオ信号を処理するためのオーディオプロセッサを示す。さらに、オーディオ信号は、前記時間フレームのための目標位相尺度を決定するための目標位相尺度決定器と、処理されたオーディオ信号を得るために、計算された位相尺度および目標位相尺度を使用して、時間フレームのためのオーディオ信号の位相を訂正するように構成された位相訂正器と、を含む。
別の実施の形態によると、オーディオ信号は、時間フレームのための複数のサブバンド信号を含む。目標位相尺度決定器は、第1サブバンド信号のための第1目標位相尺度と、第2サブバンド信号のための第2目標位相尺度と、を決定するように構成される。さらに、オーディオ信号位相尺度計算器は、第1サブバンド信号のための第1位相尺度と、第2サブバンド信号のための第2位相尺度と、を決定する。位相訂正器は、オーディオ信号の第1位相尺度および第1目標位相尺度を使って、第1サブバンド信号の第1位相を訂正すると共に、オーディオ信号の第2位相尺度および第2目標位相尺度を使って、第2サブバンド信号の第2位相を訂正するように構成される。従って、オーディオプロセッサは、訂正第1サブバンド信号および訂正第2サブバンド信号を使って、訂正オーディオ信号を合成するためのオーディオ信号シンセサイザーを含む。
本発明に従って、オーディオプロセッサは、水平方向におけるオーディオ信号の位相を訂正するように、すなわち時間上の訂正をするように構成される。従って、オーディオ信号は、時間フレームのセットの中に再分割される。個々の時間フレームの位相は、目標位相に従って調整できる。目標位相は、オリジナルのオーディオ信号の表現である。オーディオプロセッサは、オリジナルのオーディオ信号の符号化された表現であるオーディオ信号を復号するためのデコーダの一部である。任意に、仮にオーディオ信号が時間周波数表現で入手可能ならば、水平位相訂正は、オーディオ信号のサブバンドの数に対して別々に適用される。オーディオ信号の位相の訂正は、オーディオ信号の目標位相および位相の時間上の位相デリバティブの偏差を、オーディオ信号の位相から取り去ることによって実行される。
従って、時間上の位相デリバティブが、周波数(位相であるφによってdφ/dt=f)であるので、説明された位相訂正は、オーディオ信号の個々のサブバンドごとに周波数調整を実行する。すなわち、目標周波数に対するオーディオ信号の個々のサブバンドの差が、オーディオ信号のためのより良好な品質を得るために減少できる。
目標位相を決定するために、目標位相決定器は、現在の時間フレームのための基本的周波数推定を得ると共に、時間フレームのための基本的周波数推定を使って、時間フレームの複数のサブバンドのサブバンドごとに周波数推定を計算するように構成される。周波数推定は、サブバンドの全体の数およびオーディオ信号のサンプリング周波数を使って、時間上の位相デリバティブの中に変換できる。別の実施の形態において、オーディオプロセッサは、時間フレームの中のオーディオ信号のための目標位相尺度を決定するための目標位相尺度決定器と、オーディオ信号の位相および目標位相尺度の時間フレームを使って、位相エラーを計算するための位相エラー計算器と、位相エラーを使ってオーディオ信号の位相および時間フレームを訂正するように構成された位相訂正器と、から成る。
別の実施の形態によると、オーディオ信号は時間周波数表現で入手可能である。オーディオ信号は、時間フレームのための複数のサブバンドから成る。目標位相尺度決定器は、第1サブバンド信号のための第1目標位相尺度と、第2サブバンド信号のための第2目標
位相尺度とを決定する。さらに、位相エラー計算器は、位相エラーのベクトルを形成する。ベクトルの第1要素は、第1サブバンド信号の位相および第1目標位相尺度の第1偏差と呼ぶ。ベクトルの第2要素は、第2サブバンド信号の位相および第2目標位相尺度の第2偏差と呼ぶ。さらに、この実施の形態のオーディオプロセッサは、訂正第1サブバンド信号および訂正第2サブバンド信号を使って、訂正オーディオ信号を合成するためのオーディオ信号シンセサイザーを含む。この位相訂正は、平均の訂正位相値を作成する。
追加的にまたは2者択一的に、複数のサブバンドは、ベースバンドおよび周波数パッチ(部分修正)のセットにグループ分けされる。ベースバンドは、オーディオ信号の1つのサブバンドを含む。周波数パッチのセットは、ベースバンドのうちの少なくとも1つのサブバンドの周波数より高い周波数で、ベースバンドの少なくとも1つのサブバンドを含む。
別の実施の形態は、平均位相エラーを得るために、周波数パッチの第2番目の最初のパッチと呼ぶ位相エラーのベクトルの要素の平均を計算するように構成された位相エラー計算器を示す。位相訂正器は、重み付けされた平均位相エラーを使って、パッチ信号の周波数パッチのセットの最初とその後の周波数パッチの中のサブバンド信号の位相を訂正するように構成される。平均位相エラーは、修正されたパッチ信号を得るために、周波数パッチのインデックスに従って分割される。この位相訂正は、2つの連続する周波数パッチの間の境界周波数であるクロスオーバー周波数で、良好な品質を提供する。
別の実施の形態によると、2つ前述の実施の形態は、平均しておよびクロスオーバー周波数で良好である値に訂正位相を含む、訂正オーディオ信号を得るために結合される。従って、オーディオ信号位相デリバティブ計算器は、ベースバンドのための周波数上の位相デリバティブの平均を計算するように構成される。位相訂正器は、現在のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均を、オーディオ信号のベースバンドの中の最も高いサブバンドインデックスによってサブバンド信号の位相に付加することによって、最適化された第1周波数パッチによって別の修正されたパッチ信号を計算する。さらに、位相訂正器は、結合され修正されたパッチ信号を得るために、修正されたパッチ信号および別の修正されたパッチ信号の重み付けされた平均を計算すると共に、現在のサブバンドのサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均を、結合され修正されたパッチ信号の前の周波数パッチの中の最も高いサブバンドインデックスによって、サブバンド信号の位相に付加することによって、周波数パッチに基づいて結合され修正されたパッチ信号を再帰的に更新するように構成される。
目標位相を決定するために、目標位相尺度決定器は、オーディオ信号の現在の時間フレームの中のピーク位置およびピーク位置の基本周波数を、データストリームから取り出すように構成されたデータストリーム抽出器を含む。あるいは、目標位相尺度決定器は、現在の時間フレームの中のピーク位置およびピーク位置の基本周波数を計算するために、現在の時間フレームを分析するように構成されたオーディオ信号分析器を含む。さらに、目標位相尺度決定器は、ピーク位置およびピーク位置の基本周波数を使って、現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器を含む。詳しくは、目標スペクトル生成器は、時間のパルス列を生成するためのピーク検出器と、ピーク位置の基本周波数に従ってパルス列の周波数を調整する信号形成器と、位置に従ってパルス列の位相を調整するパルス位置器と、調整されたパルス列の位相スペクトルを生成するスペクトル分析器とを含む。時間領域信号の位相スペクトルは、目標位相尺度である。説明された目標位相尺度決定器の実施の形態は、ピークを有する波形を有するオーディオ信号のための目標スペクトルを生成するために有利である。
第2オーディオプロセッサの実施の形態は、垂直位相訂正を説明する。垂直位相訂正は、全てのサブバンドに亘って、1つの時間フレームの中のオーディオ信号の位相を調整する。サブバンドごとに独立して適用されるオーディオ信号の位相の調整は、オーディオ信号のサブバンドを合成した後に、訂正されていないオーディオ信号とは異なるオーディオ信号の波形を結果としてもたらす。従って、それは、例えば、不鮮明なピークまたはトランジェント(transient)を作り直すことが可能である。
別の実施の形態によると、計算器は、オーディオ信号のための位相訂正データを決定するために、第1および第2バリエーションモードの中のオーディオ信号の位相のバリエーションを決定するためのバリエーション決定器と、位相バリエーションモードを使って決定された第1バリエーションと第2バリエーションモードを使って決定された第2バリエーションとを比較するためのバリエーション比較器と、比較の結果に基づいて第1バリエーションモードまたは第2バリエーションモードに従って位相訂正を計算するための訂正データ計算器とを示す。
別の実施の形態は、第1バリエーションモードの中の位相のバリエーションとして、オーディオ信号の複数の時間フレームのための時間上の位相デリバティブ(PDT)の標準偏差尺度、または、第2バリエーションモードの中の位相のバリエーションとして、複数のサブバンドのための周波数上の位相デリバティブ(PDF)の標準偏差尺度を決定するためのバリエーション決定器を示す。バリエーション比較器は、オーディオ信号の時間フレームのために、第1バリエーションモードとして時間上の位相デリバティブの尺度と、第2バリエーションモードとして周波数上の位相デリバティブの尺度とを比較する。別の実施の形態によると、バリエーション決定器は、第3バリエーションモードの中のオーディオ信号の位相のバリエーションを決定するように構成される。第3バリエーションモードは、トランジェント検出モードである。それゆえ、バリエーション比較器は、3つのバリエーションモードを比較し、訂正データ計算器は、比較の結果に基づいて、第1バリエーションモードまたは第2バリエーションまたは第3バリエーションモードに従って、位相訂正を計算する。
訂正データ計算器の決定規則は、以下の通り説明できる。仮にトランジェントが検出されるならば、位相は、トランジェントの形を復元するように、トランジェントのために位相訂正に従って訂正される。さもなければ、仮に第1バリエーションが第2バリエーションより小さいか、または等しいならば、第1バリエーションモードの位相訂正が適用される。または、仮に第2バリエーションが第1バリエーションより大きいならば、第2バリエーションモードに従って位相訂正が適用される。仮にトランジェントの不存在が検出され、かつ、第1および第2バリエーションの両方が閾値値を越えるならば、位相訂正モードのどれも適用されない。
計算器は、例えばオーディオ符号化段階において、最良の位相訂正モードを決定し、決定された位相訂正モードのための関連したパラメータを計算するように、オーディオ信号を分析するように構成される。復号段階において、パラメータは、最先端符号器を使って復号されたオーディオ信号に比べて良好な品質を有する復号されたオーディオ信号を得るために用いられる。計算器が、オーディオ信号の個々の時間フレームのための正しい訂正モードを自律的に検出することは、注目する必要がある。
実施の形態は、第1訂正データを使って、オーディオ信号の第2信号の第1時間フレームのための目標スペクトルを生成するための第1目標スペクトル生成器と、位相訂正アルゴリズムによって決定されたオーディオ信号の第1時間フレームの中のサブバンド信号の位相を訂正するための第1位相訂正器とによって、オーディオ信号を復号するためのデコーダを示す。訂正は、オーディオ信号の第1時間フレームの中のサブバンド信号の尺度と
目標スペクトルとの間の差を減らして実行される。付加的に、デコーダは、時間フレームのための訂正位相を使って、第1時間フレームのためのオーディオサブバンド信号を計算すると共に、第2時間フレームの中のサブバンド信号の尺度を使うか、または前記位相訂正アルゴリズムと異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第1時間フレームと異なる第2時間フレームのためのオーディオサブバンド信号を計算するためのオーディオサブバンド信号計算器を含む。
別の実施の形態によると、デコーダは、第1目標スペクトル生成器と等価の第2および第3目標スペクトル生成器と、第1位相訂正器と等価の第2および第3位相訂正器とを含む。従って、第1位相訂正器は水平位相訂正を実行でき、第2位相訂正器は垂直位相訂正を実行でき、第3位相訂正器はトランジェント位相訂正を実行できる。別の実施の形態によると、デコーダは、オーディオ信号に関して、数が減らされたサブバンドによって時間フレームの中のオーディオ信号を復号するように構成されたコアデコーダを含む。さらに、デコーダは、数が減らされたサブバンドによって、コア復号されたオーディオ信号のサブバンドのセットをパッチするためのパッチ器(部分修正器)を含む。サブバンドのセットは、正規の数のサブバンドによってオーディオ信号を得るために、数が減らされたサブバンドに隣接する、時間フレームの中の別のサブバンドに第1パッチを形成する。さらに、デコーダは、時間フレームの中のオーディオサブバンド信号のマグニチュード値を処理するためのマグニチュードプロセッサと、合成され復号されたオーディオ信号を得るために、オーディオサブバンド信号または処理されたオーディオサブバンド信号のマグニチュードを合成するためのオーディオ信号シンセサイザーとを含む。この実施の形態は、復号されたオーディオ信号の位相訂正を含むバンド幅拡張のためのデコーダを確立できる。
従って、オーディオ信号の位相を決定するための位相決定器を含むオーディオ信号を符号化するためのエンコーダと、オーディオ信号の決定された位相に基づいてオーディオ信号のための位相訂正データを決定するための計算器と、オーディオ信号について、数が減らされたサブバンドによってコア符号化されたオーディオ信号を得るためにオーディオ信号をコア符号化するように構成されたコアエンコーダと、コア符号化されたオーディオ信号に含まれないサブバンドの第2セットのための低解像度パラメータ表現を得るためのオーディオ信号のパラメータを取り出すように構成されたパラメータ抽出器と、パラメータとコア符号化されたオーディオ信号と位相訂正データとを含む出力信号を形成するためのオーディオ信号形成器とは、バンド幅拡張のためのエンコーダを形成できる。
前述の実施の形態のうちの全ては、例えば、復号されたオーディオ信号の位相訂正によって、バンド幅拡張のためのエンコーダおよび/またはデコーダにおいて、全部の中にまたは組み合わせの中に見られる。あるいは、お互いに無視して、説明された実施の形態のうちの全てを独立して見ることも可能である。
本発明の実施の形態は、後に続く図面を参照して議論される。
図1Aは、時間周波数表現においてバイオリン信号のマグニチュードスペクトルを示す。 図1Bは、図1Aのマグニチュードスペクトルに対応する位相スペクトルを示す。 図1Cは、時間周波数表現においてQMF領域のトロンボーン信号のマグニチュードスペクトルを示す。 図1Dは、図1Cのマグニチュードスペクトルに対応する位相スペクトルを示す。 図2は、時間フレームとサブバンドとにより定義された時間周波数タイル(例えば、QMFビン(貯蔵箱)、求積法鏡フィルタバンクビン)を含む時間周波数図を示す。 図3Aは、オーディオ信号の例示的な周波数図を示す。周波数のマグニチュードは、10個を超える異なるサブバンドを記載する。 図3Bは、中間的なステップでの受信の後、例えば復号プロセス中のオーディオ信号の例示的な周波数表現を示す。 図3Cは、再構築されたオーディオ信号Z(k,n)の例示的な周波数表現を示す。 図4Aは、時間周波数表現において、直接コピーアップSBRを使って、QMF領域のバイオリン信号のマグニチュードスペクトルを示す。 図4Bは、図4Aのマグニチュードスペクトルに対応する位相スペクトルを示す。 図4Cは、時間周波数表現において、直接コピーアップSBRを使って、QMF領域のトロンボーン信号のマグニチュードスペクトルを示す。 図4Dは、図4Cのマグニチュードスペクトルに対応する位相スペクトルを示す。 図5は、異なる位相値によって単一のQMFビンの時間領域表現を示す。 図6は、1つの非ゼロ周波数バンドを有し、位相が固定値π/4(上)および3π/4(下)によって変化する信号の時間領域および周波数領域の提供を示す。 図7は、1つの非ゼロ周波数バンドを有し、位相がランダムに変化する信号の時間領域および周波数領域の提供を示す。 図8は、4つの時間フレームおよび4つの周波数サブバンドの時間周波数表現の図6について説明した効果を示す。第3サブバンドだけが、ゼロと異なる周波数から成る。 図9は、1つの非ゼロ時間的フレームを有し、位相が固定値π/4(上)および3π/4(下)によって変化する信号の時間領域および周波数領域の提供を示す。 図10は、1つの非ゼロ時間的フレームを有し、位相がランダムに変化する信号の時間領域及び周波数領域の提供を示す。 図11は、図8において示された時間周波数図と同様な時間周波数図を示す。第3時間フレームだけが、ゼロと異なる周波数から成る。 図12Aは、時間周波数表現においてQMF領域のバイオリン信号の時間上の位相デリバティブを示す。 図12Bは、図12Aにおいて示された時間上の位相デリバティブに対応する位相デリバティブ周波数を示す。 図12Cは、時間周波数表現においてQMF領域のトロンボーン信号の時間上の位相デリバティブを示す。 図12Dは、図12Cの時間上の対応する位相デリバティブの周波数上の位相デリバティブを示す。 図13Aは、時間周波数表現において、直接コピーアップSBRを使って、QMF領域のバイオリン信号の時間上の位相デリバティブを示す。 図13Bは、図13Aにおいて示された時間上の位相デリバティブに対応する周波数上の位相デリバティブを示す。 図13Cは、時間周波数表現において、直接コピーアップSBRを使って、QMF領域のトロンボーン信号の時間上の位相デリバティブを示す。 図13Dは、図13Cにおいて示された時間上の位相デリバティブに対応する周波数上の位相デリバティブを示す。 図14Aは、ユニット円において、例えばその後の時間フレームまたは周波数サブバンドの4つの位相を模式的に示す。 図14Bは、SBR処理後の図14Aにおいて説明された位相と、点線の訂正位相とを示す。 図15は、オーディオプロセッサ50の模式的ブロック図を示す。 図16は、別の実施の形態に従う模式的ブロック図のオーディオプロセッサを示す。 図17は、時間周波数表現において、直接コピーアップSBRを使って、QMF領域のバイオリン信号のPDTの中の平滑化されたエラーを示す。 図18Aは、時間周波数表現において、訂正SBRのためのQMF領域のバイオリン信号のPDTの中のエラーを示す。 図18Bは、図18Aにおいて示されたエラーに対応する時間上の位相デリバティブを示す。 図19は、デコーダの模式的ブロック図を示す。 図20は、エンコーダの模式的ブロック図を示す。 図21は、オーディオ信号であるデータストリームの模式的ブロック図を示す。 図22は、別の実施の形態に従う図21のデータストリームを示す。 図23は、オーディオ信号を処理する方法の模式的ブロック図を示す。 図24は、オーディオ信号を復号する方法の模式的ブロック図を示す。 図25は、オーディオ信号を符号化する方法の模式的ブロック図を示す。 図26は、別の実施の形態に従うオーディオプロセッサの模式的ブロック図を示す。 図27は、好ましい実施の形態に従うオーディオプロセッサの模式的ブロック図を示す。 図28Aは、より詳細に信号の流れを説明するオーディオプロセッサの中の位相訂正器の模式的ブロック図を示す。 図28Bは、図26〜図28Aに比べて別の観点から位相訂正のステップを示す。 図29は、目標位相尺度決定器をより詳細に説明するオーディオプロセッサの中の目標位相尺度決定器の模式的ブロック図を示す。 図30は、目標スペクトル生成器をより詳細に説明するオーディオプロセッサの中の目標スペクトル生成器の模式的ブロック図を示す。 図31は、デコーダの模式的ブロック図を示す。 図32は、エンコーダの模式的ブロック図を示す。 図33は、オーディオ信号であるデータストリームの模式的ブロック図を示す。 図34は、オーディオ信号を処理する方法の模式的ブロック図を示す。 図35は、オーディオ信号を復号する方法の模式的ブロック図を示す。 図36は、オーディオ信号を復号する方法の模式的ブロック図を示す。 図37は、時間周波数表現において,直接コピーアップSBRを使って、QMF領域のトロンボーン信号の位相スペクトルの中のエラーを示す。 図38Aは、時間周波数表現において、訂正SBRを使って、QMF領域のトロンボーン信号の位相スペクトルの中のエラーを示す。 図38Bは、図38Aにおいて示されたエラーに対応する周波数上の位相デリバティブを示す。 図39は、計算器の模式的ブロック図を示す。 図40は、バリエーション決定器の中の信号の流れをより詳細に説明する計算器の模式的ブロック図を示す。 図41は、別の実施の形態に従う計算器の模式的ブロック図を示す。 図42は、オーディオ信号のための位相訂正データを決定する方法の模式的ブロック図を示す。 図43Aは、時間周波数表現において、QMF領域のバイオリン信号の時間上の位相デリバティブの標準偏差を示す。 図43Bは、図43Aについて示された時間上の位相デリバティブの標準偏差に対応する、周波数上の位相デリバティブの標準偏差を示す。 図43Cは、時間周波数表現において、QMF領域のトロンボーン信号の時間上の位相デリバティブの標準偏差を示す。 図43Dは、図43Cにおいて示された時間上の位相デリバティブの標準偏差に対応する、周波数上の位相デリバティブの標準偏差を示す。 図44Aは、時間周波数表現において、QMF領域のバイオリン+拍手信号のマグニチュードを示す。 図44Bは、図44Aにおいて示されたマグニチュードスペクトルに対応する位相スペクトルを示す。 図45Aは、時間周波数表現において、QMF領域のバイオリン+拍手信号の時間上の位相デリバティブを示す。 図45Bは、図45Aにおいて示された時間上の位相デリバティブに対応する、周波数上の位相デリバティブを示す。 図46Aは、時間周波数表現において、訂正SBRを使って、QMF領域のバイオリン+拍手信号の時間上の位相デリバティブを示す。 図46Bは、図46Aにおいて示された時間上の位相デリバティブに対応する、周波数上の位相デリバティブを示す。 図47は、時間周波数表現において、QMFバンドの周波数を示す。 図48Aは、時間周波数表現において示されたオリジナル周波数に比べられた、QMFバンドの直接コピーアップSBRの周波数を示す。 図48Bは、時間周波数表現において、オリジナル周波数に比べられた訂正SBRを使って、QMFバンドの周波数を示す。 図49は、時間周波数表現において、オリジナル信号のQMFバンドの周波数に比べられた、高調波の推定周波数を示す。 図50Aは、時間周波数表現において、圧縮された訂正データによって、訂正SBRを使って、QMF領域のバイオリン信号の時間上の位相デリバティブの中のエラーを示す。 図50Bは、図50Aにおいて示された時間上の位相デリバティブのエラーに対応する、時間上の位相デリバティブを示す。 図51Aは、時間図においてトロンボーン信号の波形を示す。 図51Bは、推定ピークのみ含む図51Aのトロンボーン信号に対応する時間領域信号を示す。ピークの位置は、送信されたメタデータを使って得られている。 図52Aは、時間周波数表現において、圧縮された訂正データによって、訂正SBRを使って、QMF領域のトロンボーン信号の位相スペクトルの中のエラーを示す。 図52Bは、図52Aにおいて示された位相スペクトルの中のエラーに対応する周波数上の位相デリバティブを示す。 図53は、デコーダの模式的ブロック図を示す。 図54は、好ましい実施の形態に従う模式的ブロック図を示す。 図55は、別の実施の形態に従うデコーダの模式的ブロック図を示す。 図56は、エンコーダの模式的ブロック図を示す。 図57は、図56において示されたエンコーダの中で使われる計算器のブロック図を示す。 図58は、オーディオ信号を復号するための方法の模式的ブロック図を示す。 図59は、オーディオ信号を符号化するための方法の模式的ブロック図を示す。
以下において、本発明の実施の形態は、より詳細に説明される。同じまたは同様な機能を有する個々の図面において示された要素は、それらと関連した同一の符号を有する。
本発明の実施の形態は、特定の信号処理について説明される。従って、図1〜図14は、オーディオ信号に適用される信号処理を説明する。たとえ実施の形態がこの特定の信号処理について説明されていても、本発明はこの処理に制限されず、さらに、多くの別の処理計画に同様に適用できる。さらに、図15〜図25は、オーディオ信号の水平位相訂正のために使われるオーディオプロセッサの実施の形態を示す。図26〜図38は、オーディオ信号の垂直位相訂正のために使われるオーディオプロセッサの実施の形態を示す。さらに、図39〜図52は、オーディオ信号のための位相訂正データを決定するための計算器の実施の形態を示す。計算器はオーディオ信号を分析し、前述のオーディオプロセッサのうちのどれが適用されるかを決定する。または、仮にオーディオプロセッサのどれもオーディオ信号に適さないならば、オーディオプロセッサのどれもオーディオ信号に適用されないように決定する。図53〜図59は、第2プロセッサと計算器を含むデコーダとエンコーダの実施の形態を示す。
1.導入
知覚オーディオ符号化は、制限された容量で、送信または格納チャンネルを使って、顧客にオーディオおよびマルチメディアを提供する応用の全てのタイプのためにデジタル技術をもたらす主流として急増した。現代知覚オーディオ符号器は、ますます低いビット転送速度で、満足するオーディオの品質を派生することが必要とされる。それは、次々と、多数の聴衆によって殆んど耐えられる特定の符号化人工物を我慢する必要がある。オーディオバンド幅拡張(BWE)は、特定の人工物を導入する価格で、送信された低バンド信号部分のスペクトル変換または交換によって、オーディオ符号器の周波数範囲を高バンドに人工的に拡張する技術である。
発見は、これらの人工物のうちのいくつかが、人工的に拡張された高バンド内の位相デリバティブの変化に関連することである。これらの人工物のうちの1つは、周波数上の位相デリバティブの変更である(「垂直」位相コヒーレンスも参照のこと)[非特許文献8]。前記位相デリバティブの保存は、時間領域の波形のようなパルス列とかなり低い基本周波数とを有するトーン信号に対して、知覚的に重要である。垂直位相デリバティブの変化に関連した人工物は、時間内の局部的なエネルギー拡散に対応し、BWE技術により処理されたオーディオ信号の中にしばしば見つけられる。別の人工物は、どの基本周波数のオーバートーン豊かなトーン信号に対しても知覚的に重要である、時間上の位相デリバティブの変更である(「水平」位相コヒーレンスも参照のこと)。水平位相デリバティブの変更に関連した人工物は、ピッチ内の局部的な周波数オフセットに対応し、BWE技術により処理されたオーディオ信号の中にしばしば見つけられる。
この特性がいわゆるオーディオバンド幅拡張(BWE)の応用により解決されたとき、本発明は、そのような信号の垂直または水平位相デリバティブのいずれか一方を再調整するための手段を提供する。別の手段は、仮に位相デリバティブの復元が知覚的に有益であるならば、垂直または水平位相デリバティブのいずれを調整することが、知覚的に好ましいかを決定するために提供される。
スペクトルのバンド複製(SBR)[非特許文献9]などのバンド幅拡張方法は、低ビット転送速度符号器においてしばしば使われる。それらは、より高いバンドについてのパラメータ情報によって、相対的に狭い低周波数領域だけをそばに送信することを許す。パラメータ情報のビット転送速度が小さいので、符号化効率の重要な改良が得られる。
一般に、より高いバンドのための信号は、送信された低周波数領域からそれを簡単にコ
ピーすることによって得られる。処理は、複雑に組み立てられた求積法鏡フィルタバンク(QMF)[非特許文献10]領域で通常実行される。それは、以下においても推定される。コピーアップされた信号は、送信されたパラメータに基づいて、最適ゲインでそれのマグニチュードスペクトルを乗算することによって処理される。目的は、オリジナル信号のそれとして、同様のマグニチュードスペクトルを得ることである。それどころか、コピーアップされた信号の位相スペクトルは一般に全然処理されないけれども、代わりに、コピーアップされた位相スペクトルは直接に使われる。
コピーアップされた位相スペクトルを直接に使うことの知覚的結果は、以下において調査される。観察された効果に基づいて、知覚的に最も重要な効果を検出するための2つの利点が提案される。さらに、それらに基づいて位相スペクトルを訂正する方法が提案される。最後に、訂正を実行するために送信されたパラメータ値の量を最小化するための戦略が提案される。
本発明は、位相デリバティブの保存または復元が、オーディオバンド幅拡張(BWE)技術により引き起こされた突出した人工物を治すことができる、という発見に関連する。例えば、位相デリバティブの保存が重要である典型的な信号は、ボイススピーチまたは金管楽器またはバイオリンなどの弓のような、豊かな調和的なオーバートーンの内容を有するトーンである。
本発明は、さらに、仮に、与えられた信号のフレームに対して、位相デリバティブの復元が知覚的に有益であるならば、垂直または水平位相デリバティブ雑音を調整することが、知覚的に好ましいかを決定する手段を提供する。
本発明は、以下の面により、BWE技術を使って、オーディオ符号器の中の位相デリバティブ訂正のための装置と方法とを教える。
1.位相デリバティブ訂正の「重要性」の定量化
2.垂直(「周波数」)位相デリバティブ訂正または水平(「時間」)位相デリバティブ訂正の信号依存優先度付け
3.訂正方向(「周波数」または「時間」)の信号依存切り替え
4.トランジェントのための専念された垂直位相デリバティブ訂正モード
5.平滑な訂正のための安定したパラメータの取得
6.訂正パラメータのコンパクトなサイド情報送信形式
2.QMF領域の信号の提示
mが離散的な時間である時間領域信号x(m)は、例えば複雑に組み立てられた求積法鏡フィルタバンク(QMF)を使って、時間周波数領域の中で提示される。結果として生じる信号は、X(k,n)である。kは周波数バンドインデックスであり、nは時間的(temporal)フレームインデックスである。64個のバンドのQMFおよび48kHzのサンプリング周波数fsは、視覚化および実施の形態のために推定される。従って
、個々の周波数バンドのバンド幅fBWは375Hzであり、時間的ホップサイズthop
図2の中の17)は1.33ミリ秒である。しかし、処理はそのような変換に制限されない。代わりに、MDCT(修正された離散コサイン変換)またはDFT(離散フーリエ変換)が使われてもよい。
結果として生じる信号は、X(k,n)である。kは周波数バンドインデックスであり、nは時間的フレームインデックスである。X(k,n)は複雑な信号である。従って、それは、マグニチュードXmag(k,n)と、複素数であるjを有する位相コンポーネン
トXpha(k,n)と、を使って提示もできる。
オーディオ信号は、たいていXmag(k,n)とXpha(k,n)とを使って提示される(2つの例のために図1を参照のこと)。
図1Aは、バイオリン信号のマグニチュードスペクトルXmag(k,n)を示す。図1
Bは、対応する位相スペクトルXpha(k,n)を示す。両者は、QMF領域内である。
さらに、図1Cは、トロンボーン信号のマグニチュードスペクトルXmag(k,n)を示
す。図1Dは、また、対応するQMF領域内の、対応する位相スペクトルを示す。図1Aおよび図1Cのマグニチュードスペクトルについて、色勾配は、赤色=0dBから青色=−80dBまでのマグニチュードを示す。さらに、図1Bおよび図1Dの位相スペクトルに対して、色勾配は、赤色=πから青色=−πまでの位相を示す。
3.オーディオデータ
説明されるオーディオ処理の効果を示すために用いられるオーディオデータは、トロンボーンのオーディオ信号に対して「トロンボーン」と名付けられ、バイオリンのオーディオ信号に対して「バイオリン」と名付けられ、そして、途中で追加された拍手を伴うバイオリン信号に対して「バイオリン+拍手」と名付けられる。
4.SBRの基本的な操作
図2は、時間フレーム15とサブバンド20とにより定義された時間周波数タイル10(例えば、QMFビン、求積法鏡フィルタバンクビン)を含む時間周波数グラフ5を示す。オーディオ信号は、QMF(求積法鏡フィルタバンク)変換、または、MDCT(修正された離散コサイン変換)、または、DFT(離散フーリエ変換)を使って、時間周波数表現に変換される。時間フレームの中のオーディオ信号の分割は、オーディオ信号のオーバーラップしている部分から成る。図の下の部分において、時間フレーム15の1つのオーバーラップが示される。最大2つの時間フレームが同時にオーバーラップする。さらに、仮により多くの冗長性が必要であるならば、オーディオ信号は、さらに複数のオーバーラップを使って分割される。複数のオーバーラップアルゴリズムにおいて、3つ以上の時間フレームは、特定の時間ポイントにてオーディオ信号の同じ部分を含む。オーバーラップの期間はホップサイズthop17である。
信号X(k,n)を推定すると、バンド幅拡張された(BWE)信号Z(k,n)が、送信された低周波数バンドの特定の部分をコピーアップすることによって、入力信号X(k,n)から得られる。SBRアルゴリズムは、送信されるべき周波数領域を選択することによって開始する。この例において、1から7までのバンドが選択される。
送信されるべき周波数バンドの量は、要求されたビット転送速度に依存する。図および式は、7個のバンドを使って作成され、5から11までのバンドは、対応するオーディオデータのために使われる。従って、送信された周波数領域とより高いバンドとの間のクロスオーバー周波数は、それぞれ1875Hzから4125Hzまでである。この領域より上の周波数バンドは全く送信されないけれども、代わりに、パラメータのメタデータがそれらを説明するために作成される。Xtrans(k,n)は符号化されて送信される。簡単
のために、たとえ別の処理が、推定された場合に制限されないと見える必要があっても、符号化は、どのような点においても信号を修正しないと推定される。
受信の終わりに、送信された周波数領域は、対応する周波数のために直接に使われる。
より高いバンドのために、信号は、何とかして、送信された信号を使って作成される。1つのアプローチが、送信された信号を、より高い周波数に単にコピーすることである。わずかに修正されたバージョンは、ここで使われる。先ず、ベースバンド信号が選択される。それは、送信された信号全体であるけれども、この実施の形態において、第1周波数バンドは省略される。この理由は、位相スペクトルが、多くの場合において、第1バンドに対して不規則であると気付いたことである。従って、コピーアップされるべきベースバンドは、式(3)と定義される。
別のバンド幅も、送信されたベースバンド信号のために使われる。ベースバンド信号を使うことによって、より高い周波数のための生の信号が作成される。
ここで、Yraw(k,n,i)は、周波数パッチiのための複雑なQMF信号である。
生の周波数パッチ信号は、送信されたメタデータに従って、ゲインg(k,n,i)とそれらを乗算させることによって処理される。
ゲインが実数値であることに注目するべきであり、その結果、マグニチュードスペクトルのみが影響されて、要求された目標値に適応される。周知のアプローチは、ゲインが得られる方法を示す。目標位相は、前記周知のアプローチにおいて、訂正されないで残る。
再生されるべき最終信号は、要求されたバンド幅のBWE信号を得るために、バンド幅を継ぎ目なく拡張するために送信されたパッチ信号を連結することによって得られる。この実施の形態において、i=7が推定される。
図3は、グラフ表現において、説明された信号を示す。図3Aはオーディオ信号の例示的な周波数図面を示す。周波数のマグニチュードは、10個以上の異なるサブバンド上に記載されている。最初の7つのサブバンドは、送信された周波数バンドXtrans(k,n
)25を反映する。ベースバンドXbase(k,n)30は、そこから、2番目から7番目までのサブバンドを選択することによって引き出される。図3Aは、オリジナルのオーディオ信号、すなわち送信または符号化の前のオーディオ信号を示す。図3Bは、受信後、例えば中間的なステップで復号プロセス中のオーディオ信号の例示的な周波数表現を示す。オーディオ信号の周波数スペクトルは、送信された周波数バンド25と、ベースバンドの周波数より高い周波数を構成するオーディオ信号32を形成している周波数スペクトルのより高いサブバンドにコピーされた7個のベースバンド信号30と、を含む。完全なベースバンド信号は、周波数パッチとも呼ばれる。図3Cは、再構成されたオーディオ信号Z(k,n)35を示す。図3Bに比べて、ベースバンド信号のパッチは、ゲインファクターによって個々に増加される。従って、オーディオ信号の周波数スペクトルは、主要な周波数スペクトル25と、複数のマグニチュード訂正パッチY(k,n,1)40と、を含む。このパッチ化方法は、直接コピーアップパッチ化と呼ばれる。たとえ本発明がそのようなパッチ化アルゴリズムに制限されなくても、直接コピーアップパッチは、本発明を説明するために例示的に用いられる。使われる別のパッチ化アルゴリズムは、例えば高調波パッチ化アルゴリズムである。
より高いバンドのパラメータ表現が完全であること、すなわち、再構成された信号のマグニチュードスペクトルが、オリジナル信号のそれと同一であることが推定される。
しかし、位相スペクトルが、アルゴリズムによって、どのような点でも訂正されない、ことに注目するべきである。従って、たとえアルゴリズムが完全に働いても、それは訂正されない。従って、実施の形態は、知覚品質の改良が得られるように、Z(k,n)の位相スペクトルを、目標値に付加的に適応させて訂正する方法を示す。実施の形態において、訂正は、3つの異なる処理モード、「水平」と「垂直」と「トランジェント」とを使って実行できる。これらのモードは、以下において別々に議論される。
mag(k,n)およびZpha(k,n)は、バイオリン信号とトロンボーン信号とのために、図4において記載される。図4は、直接コピーアップパッチ化によって、スペクトルバンド幅複製(SBR)を使って、再構成されたオーディオ信号35の例示的スペクトルを示す。バイオリン信号のマグニチュードスペクトルZmag(k,n)は、図4Aにお
いて示される。図4Bは、対応する位相スペクトルZpha(k,n)を示す。図4Cおよ
び図4Dは、トロンボーン信号のための対応するスペクトルを示す。全ての信号はQMF領域の中で提供される。図1において既に示されているように、色勾配は、赤色=0dBから青色=−80dBまでのマグニチュードと、赤色=πから青色=−πまでの位相を示す。それらの位相スペクトルが、オリジナル信号のスペクトルと異なる、ことが認められる(図1を参照のこと)。SBRのため、バイオリンは不調和性を含むことに気づかれ、トロンボーンはクロスオーバー周波数で組み立てられる雑音を含むことに気づかれる。しかし、位相プロットは全くランダムに見え、それらがどれほど違うか、および、違いの知覚的効果が何であるか、を言うことは本当に難しい。さらに、この種類のランダムなデータのために送られる訂正データは、低いビット転送速度を必要とする符号化応用において、適さない。従って、位相スペクトルの知覚的効果を理解すること、および、それらを説明することに対する利点を見付けることが必要である。これらの話題は、以下の節で議論される。
5.QMF領域の位相スペクトルの意義
しばしば、周波数バンドのインデックスが単一のト−ンコンポーネントの周波数を定義し、マグニチュードがそれのレベルを定義し、位相がそれの「タイミング」を定義することが考えられる。しかし、QMFバンドのバンド幅は相対的に大きく、データは過剰にサンプリングされる。従って、時間周波数タイル(すなわち、QMFビン)間の相互作用は、実際、これらの特性の全てを定義する。
3つの異なる位相値によって、単一のQMFビンの時間領域の提示、すなわち、Xmag
(3,1)=1およびXpha(3,1)=0またはπ/2またはπは、図5において記載
される。結果は、13.3ミリ秒の長さを有する正弦状関数である。関数の正確な形は、位相パラメータによって定義される。
唯一の周波数バンドが、全ての時間的(temporal)フレームに対して非ゼロである場合を考慮する。すなわち、
固定値αによって時間的フレーム間の位相を変更すること、すなわち、
によって、正弦曲線が作成される。結果として生じる信号(すなわち、逆QMF変換の後の時間領域信号)は、α=π/4(上方)と3π/4(下方)の値によって、図6において示される。正弦曲線の周波数は、位相変化により影響されることが認められる。信号の周波数領域は図6の右側に示される。信号の時間領域は図6の左側に示される。
対応して、仮に位相が無作為に選択されるならば、結果は狭バンド雑音である(図7を参照のこと)。従って、QMFビンの位相は、対応する周波数バンドの内側の周波数内容を制御している、と言うことができる。
図8は、4つの時間フレームおよび4つの周波数サブバンドの時間周波数表現において、図6について説明した効果を示す。第3サブバンドだけが、ゼロと異なる周波数から成る。これは、図8の右側に図式的に提示された図6から周波数領域信号を結果として生じ、および図8の下方に図式的に提示された図6の時間領域表現を結果として生じる。
唯一の時間的フレームが、全ての周波数バンドに対して非ゼロである場合を考慮する。すなわち、
固定値αによって周波数バンド間の位相を変更すること、すなわち、
によって、トランジェントが作成される。結果として生じる信号(すなわち、逆QMF変換の後の時間領域信号)は、α=π/4(上方)と3π/4(下方)の値によって図9において示される。トランジェントの時間的位置は、位相変化により影響されることが認められる。周波数領域は図9の右側に示される。信号の時間領域は図9の左側に示される。
対応して、仮に位相が無作為に選択されるならば、結果は短い雑音爆発である(図10を参照のこと)。従って、QMFビンの位相も、対応する時間的フレームの内側の高調波の時間的位置を制御している、と言うことができる。
図11は、図8において示された時間周波数図と同様な時間周波数図を示す。図11において、第3時間フレームだけが、あるサブバンドから別のサブバンドへπ/4の時間シフトを有する、ゼロと異なる値から成る。周波数領域に変換されると、図9の右側から周波数領域信号が得られ、図11の右側に図式的に提示される。図9の左側部分の時間領域表現の図が、図11の下方に提示される。この信号は、時間周波数領域を時間領域信号に変換することによって、結果として生じる。
6.位相スペクトルの知覚的に関連する特性を記載するための尺度
4節で議論されたように、位相スペクトルそれ自体は、全く乱雑に見え、その知覚への効果が何であるかを直接見ることは難しい。5節は、QMF領域の位相スペクトルを処理することによって引き起こされる2つの効果を提示した:(a)時間上の一定の位相変化は正弦曲線を作り出し、位相変化の量は正弦曲線の周波数を制御する、そして、(b)周波数上の一定の位相変化はトランジェントを生み出し、位相変化の量はトランジェントの時間的位置を制御する。
部分的な周波数および時間的位置は、明らかに、人間の知覚に重要である。従って、これらの特性を検出することは潜在的に有益である。それらは、時間上の位相デリバティブ(PDT)を計算すること、
そして、周波数上の位相デリバティブ(PDF)を計算すること、
によって推定される。
pdt(k,n)は部分的な周波数に関連し、Xpdf(k,n)は部分的な時間的位置に関連する。QMF分析(隣接する時間的フレームのモジュレータ(変調器)の位相が、どのようにトランジェントの位置で合致するか)の特性のため、πが、平滑な曲線を作成するために、視覚化目的の図面において、Xpdf(k,n)の等しい時間的フレームに追加
される。
次に、これらの尺度が、私達の例示信号に対して、どのように見えるかが検査される。図12は、バイオリン信号およびトロンボーン信号のデリバティブを示す。より明確には、図12Aは、QMF領域において、オリジナルの、すなわち無処理のバイオリンオーディオ信号の時間上の位相デリバティブXpdt(k,n)を示す。図12Bは、対応する周
波数上の位相デリバティブXpdf(k,n)を示す。図12Cおよび図12Dは、それぞ
れ、トロンボーン信号のための時間上の位相デリバティブおよび周波数上の位相デリバティブを示す。色勾配は、赤色=πから青色=−πまでの位相値を示す。バイオリンに対して、マグニチュードスペクトルは、基本的に約0.13秒までの雑音(図1を参照のこと)であり、それゆえ、デリバティブも雑音的である。約0.13秒のXpdtからの開始は
、時間上の相対的に安定した値を有するように見える。これは、信号が、強く、相対的に安定した正弦曲線を含むことを意味する。これらの正弦曲線の周波数は、Xpdt値によっ
て決定される。それどころか、Xpdfプロットは相対的に騒々しく見える。従って、関連
したデータは、バイオリンに対して、それを使って全然見つけられない。
トロンボーンに対して、Xpdtは相対的に雑音的である。それどころか、Xpdfは、全ての周波数で、およそ同じ値を有するように見える。実際に、これは、全ての高調波コンポーネントが、トランジェント状信号を作成する時間内に、位置合わせされることを意味する。トランジェントの時間的位置は、Xpdf値によって決定される。
同じデリバティブも、SBR処理された信号Z(k,n)のために計算できる(図13を参照のこと)。図13Aから図13Dまでは、前述の直接コピーアップSBRアルゴリズムを使って引き出された図12Aから図12Dまでに直接に関連する。位相スペクトルが、ベースバンドからより高い周波数のパッチに簡単にコピーされるので、周波数パッチのPDTは、ベースバンドのそれと同一である。従って、バイオリンに対して、PDTは、オリジナル信号の場合のように、安定した正弦曲線を作成している時間に亘って、相対的に平滑である。しかし、Zpdtの値は、オリジナル信号Xpdtを有するそれらより種々であり、作成された正弦曲線は、オリジナル信号より種々の周波数を有することを引き起こす。これの知覚効果は7節で議論される。
対応して、周波数パッチのPDFは、ベースバンドのそれと違った形で同一であるけれども、クロスオーバー周波数では、PDFは、実際、ランダムである。クロスオーバーで、PDFは、実際、周波数パッチの最後と最初の位相値の間で計算される、すなわち、
これらの値は実際のPDFとクロスオーバー周波数とに依存し、それらはオリジナル信号の値に合致しない。
トロンボーンに対して、コピーアップされた信号のPDF値は、クロスオーバー周波数から離れて訂正される。従って、殆どの高調波の時間的位置は、訂正場所にあるけれども、クロスオーバー周波数の高調波は、実際、ランダムな位置にある。これの知覚的効果は7節で議論される。
7.位相エラーの人間の知覚
音は、2つのカテゴリー:高調波信号と雑音状信号とに、粗く分けられる。雑音状信号は、既に定義によって雑音的な位相特性を有する。従って、SBRにより引き起こされた位相エラーは、それらによって知覚的に重要でないと推定される。代わりに、それは高調波信号に集中される。殆どの楽器とスピーチが、信号に対して高調波構造を作成する。すなわち、トーンは、基本周波数によって、周波数の中で間隔をおいて配置された強い正弦曲線コンポーネントを含む。
人間のヒアリングは、しばしば、あたかも、それが、オーバーラップするバンド通過フィルタ(聴覚のフィルタと呼ばれる)のバンクを含む、かのように振る舞うと推定される。従って、ヒアリングは、聴覚のフィルタの内側の部分的な音が、1つの実在として分析されるように、複雑な音を処理すると推定される。これらのフィルタの幅は、等価矩形バンド幅(ERB)[非特許文献11]に続くように近づくことができる。ERBは、式(15)に従って決定される。
ここで、fcは、バンド(kHzにおいて)の中心周波数である。4節で議論されたよ
うに、ベースバンドとSBRパッチとの間のクロスオーバー周波数は、約3kHzである。これらの周波数で、ERBは約350Hzである。QMF周波数バンドのバンド幅は、実際、これに相対的に近く、375Hzである。ここに、QMF周波数バンドのバンド幅は、興味ある周波数でERBに続くように推定される。
6節で、誤った位相スペクトルのため悪くなる音の2つの特性:部分的コンポーネントの周波数およびタイミングが、観察された。周波数に集中すると、問題は、人間のヒアリングは個々の高調波の周波数を知覚することができるか?である。仮にそれができるならば、SBRにより引き起こされた周波数オフセットが訂正されるべきであり、仮にそれができなければ、訂正は必要ない。
解決された高調波および未だ解決されていない高調波の概念[非特許文献12]が、この話題を明確にするために用いられる。仮にERBの内側に唯一の高調波が存在するならば、高調波は解決されたと見做される。人間のヒアリングが、解決された高調波を個々に処理し、従って、それらの周波数に敏感であることは、一般的に推定される。実際、解決された高調波の周波数を変更することは、不調和性を引き起こすことに気付かされる。
対応して、仮にERBの内側に複数の高調波が存在するならば、高調波は未だ解決されていないと見做される。人間のヒアリングは、これらの高調波を個々に処理しないと推定されるけれども、代わりに、それらの結合効果は聴覚のシステムによって見られる。結果は周期的信号であり、周期の長さは高調波の間隔によって決定される。ピッチ知覚は、周期の長さに関連する。従って、人間のヒアリングはそれに敏感であると推定される。それにもかかわらず、仮にSBRの中の周波数パッチの内側の全ての高調波が、同じ量だけシフトされるならば、高調波間の間隔(知覚されるピッチ)は、同じであり続ける。ここに、未だ解決されていない高調波の場合において、人間のヒアリングは、不調和性として、周波数オフセットを知覚しない。
SBRにより引き起こされるタイミング関連のエラーが、次に考慮される。タイミングによって、高調波コンポーネントの時間的位置または位相は意味がある。これはQMFビンの位相と混同されるべきでない。タイミング関連のエラーの知覚は、非特許文献13において詳細に研究された。殆どの信号に対して、人間のヒアリングは、高調波コンポーネントのタイミングまたは位相に敏感でない、ことが観察された。しかし、人間のヒアリングが一部のタイミングに非常に敏感である特定の信号が存在する。この信号は、例えばトロンボーン音とトランペット音とスピーチを含む。これらの信号によって、特定の位相角が、同時に即時に全ての高調波に起こる。異なる聴覚バンドの神経の興奮速度は、非特許文献13においてシミュレーションされた。これらの位相敏感信号によって、生み出された神経の興奮速度は、全ての聴覚のバンドでピークであり、ピークは時間内に位置合わせされることが発見された。等しく単一の高調波の位相を変更することは、これらの信号によって神経の興奮速度のピーク度を変更できる。公式の聞き取りテストの結果によると、人間のヒアリングはこれに敏感である[非特許文献13]。生み出された効果は、位相が修正された周波数における、付加された正弦曲線のコンポーネントまたは狭周波数バンド雑音の知覚である。
さらに、タイミング関連の効果への敏感性は、高調波トーンの基本周波数に依存することが発見された[非特許文献13]。基本周波数が低ければ低いほど、知覚効果はより大きい。仮に基本周波数が約800Hzより上であるならば、聴覚のシステムはタイミング関連効果に全く敏感でない。
従って、仮に基本周波数が低く、高調波の位相が周波数上で位置合わせされる(それは、高調波の時間的位置が位置合わせされることを意味する)ならば、高調波のタイミングまたは位相の変化は、人間のヒアリングによって知覚される。仮に基本周波数が高く、および/または、高調波の位相が周波数上で位置合わせされないならば、人間のヒアリングは、高調波のタイミングの変化に敏感でない。
8.訂正方法
7節において、人間は解決された高調波の周波数の中のエラーに敏感である、ことに注目された。さらに、仮に基本周波数が低く、高調波が周波数上で位置合わせされるならば、人間は高調波の時間的位置の中のエラーに敏感である。SBRは、6節で議論されたように、これらのエラーの両方を引き起こす。従って、知覚の品質は、それらを訂正することによって改良される。そうする方法が、この節において提案される。
図14は、訂正方法の基本的なアイデアを図式的に説明する。図14Aは、ユニット円において、例えば、連続する時間フレームまたは周波数サブバンドの4つの位相45a−dを図式的に示す。位相45a−dは、90°で等しく間隔をおいて配置される。図14Bは、SBR処理後の位相を示し、点線で訂正位相を示す。処理前の位相45aは、位相角45a´にシフトされる。同じことが位相45bから位相45dまでに適用される。処理後の位相間、すなわち位相デリバティブ間の差は、SBR処理後に壊れる、ことが示される。例えば、位相45a´と位相45b´との間の差は、SBR処理後に110°である。それは処理前に90°であった。訂正方法は、90°の古い位相デリバティブを取り戻すために、位相値45b´を新しい位相値45b´´に変更する。同じ訂正は、位相45d´と位相45d´´とに適用される。
8.1 周波数エラーを訂正すること−水平位相デリバティブ訂正
7節で議論されたように、1つのERBの内側に唯一の高調波が存在するとき、人間は、たいてい高調波の周波数の中のエラーを知覚できる。さらに、QMF周波数バンドのバンド幅は、最初のクロスオーバーでERBを推定するために用いられる。ここに、1つの周波数バンドの内側に1つの高調波が存在するときだけ、周波数は訂正される必要がある
。5節が、仮に1つのバンド当たり1つの高調波が存在するならば、生み出されたPDT値は安定しているか、または、時間上ゆっくり変化し、低いビット転送速度を使って潜在的に訂正されることを示したので、これは非常に便利である。
図15は、オーディオ信号55を処理するためのオーディオプロセッサ50を示す。オーディオプロセッサ50は、オーディオ信号位相尺度計算器60と目標位相尺度決定器65と位相訂正器70とから成る。オーディオ信号位相尺度計算器60は、時間フレーム75のためのオーディオ信号55の位相尺度80を計算するように構成される。目標位相尺度決定器65は、前記時間フレーム75のための目標位相尺度85を決定するように構成される。さらに、位相訂正器70は、処理されたオーディオ信号90を得るために、計算された位相尺度80と目標位相尺度85とを使用して、時間フレーム75のためのオーディオ信号55の位相45を訂正するように構成される。任意で、オーディオ信号55は、時間フレーム75のための複数のサブバンド信号95を含む。オーディオプロセッサ50の別の実施の形態は、図16について説明される。実施の形態によると、目標位相尺度決定器65は、第1目標位相尺度85aと、第2サブバンド信号95bのための第2目標位相尺度85bとを決定するように構成される。従って、オーディオ信号位相尺度計算器60は、第1サブバンド信号95aのための第1位相尺度80aと、第2サブバンド信号95bのための第2位相尺度80bとを決定するように構成される。位相訂正器70は、オーディオ信号55の第1位相尺度80aおよび第1目標位相尺度85aを使って、第1サブバンド信号95aの位相45aを訂正するように、そして、オーディオ信号55の第2位相尺度80bおよび第2目標位相尺度85bを使って、第2サブバンド信号95bの第2位相45bを訂正するように構成される。さらに、オーディオプロセッサ50は、処理された第1サブバンド信号95aおよび処理された第2サブバンド信号95bを使って、処理されたオーディオ信号90を合成するためのオーディオ信号シンセサイザー100を含む。別の実施の形態によれば、位相尺度80は、時間上の位相デリバティブである。従って、オーディオ信号位相尺度計算器60は、複数のサブバンドの個々のサブバンド95に対して、現在の時間フレーム75bの位相値45と未来の時間フレーム75cの位相値との位相デリバティブを計算する。それに応じて、位相訂正器70は、現在の時間フレーム75bの複数のサブバンドの個々のサブバンド95に対して、目標位相デリバティブ85と時間上位相デリバティブ80との間の偏差を計算できる。位相訂正器70により実行される訂正は、偏差を使って実行される。
実施の形態は、訂正サブバンド信号95の周波数が、オーディオ信号55の基本周波数に高調波的に割り当てられている周波数値を有するように、時間フレーム75内のオーディオ信号55の種々のサブバンドのサブバンド信号95を訂正するように構成されている位相訂正器70を示す。基本周波数は、オーディオ信号55、または、別の言葉で、オーディオ信号55の第1高調波の中に存在する最も低い周波数である。
さらに、位相訂正器70は、前の時間フレーム75aおよび現在の時間フレーム75bおよび未来の時間フレーム75c上の複数のサブバンドの個々のサブバンド95のための偏差105を平滑化するように構成され、サブバンド95内の偏差105の急速な変化を減らすように構成される。別の実施の形態によると、平滑化は、重み付けされた平均である。位相訂正器70は、前の時間フレーム75aおよび現在の時間フレーム75bおよび未来の時間フレーム75cの中のオーディオ信号55のマグニチュードによって重み付けされた、前の時間フレーム75aおよび現在の時間フレーム75bおよび未来の時間フレーム75cに亘って重み付けされた平均を計算するように構成される。
実施の形態は、ベクトルに基づく前述した処理ステップを示す。従って、位相訂正器70は、偏差105のベクトルを形成するように構成される。ベクトルの第1要素は、前の時間フレーム75aから現在の時間フレーム75bまでの、複数のサブバンドの第1サブ
バンド95aのための第1偏差105aと呼ばれる。ベクトルの第2要素は、前の時間フレーム75aから現在の時間フレーム75bまでの、複数のサブバンドの第2サブバンド95bのための第2偏差105bと呼ばれる。さらに、位相訂正器70は、偏差105のベクトルを、オーディオ信号55の位相45に適用できる。ベクトルの第1要素は、オーディオ信号55の複数のサブバンドの第1サブバンド95aの中のオーディオ信号55の位相45aに適用される。ベクトルの第2要素は、オーディオ信号55の複数のサブバンドの第2サブバンド95bの中のオーディオ信号55の位相45bに適用される。
別の観点から、オーディオプロセッサ50の中の全体の処理が、ベクトルに基づいていると言える。個々のベクトルは時間フレーム75を表す。複数のサブバンドの個々のサブバンド95は、ベクトルの要素を含む。別の実施の形態は、現在の時間フレーム75bのための基本周波数推定85bを得るように構成される目標位相尺度決定器65に焦点を当てる。目標位相尺度決定器65は、時間フレーム75のための基本周波数推定85を使って、時間フレーム75のための複数のサブバンドの個々のサブバンドごとに周波数推定85を計算するように構成される。さらに、目標位相尺度決定器65は、サブバンド95の全体の数およびオーディオ信号55のサンプリング周波数を使って、複数のサブバンドの個々のサブバンド95に対して、周波数推定85を、時間上の位相デリバティブの中に転換する。明確化のために、目標位相尺度決定器65の出力85は、時間上の周波数推定または位相デリバティブのいずれか一方であることが、実施の形態に依存して注目する必要がある。従って、一方の実施の形態において、周波数推定は、位相訂正器70の中の別の処理のために正しい形式を既に含み、他方の実施の形態において、周波数推定は、時間上の位相デリバティブである適した形式に転換される必要がある。
従って、目標位相尺度決定器65は、同様に、ベクトルに基づくように見える。ゆえに、目標位相尺度決定器65は、複数のサブバンドの個々のサブバンド95のための周波数推定85のベクトルを形成できる。ベクトルの第1要素は、第1サブバンド95aのための周波数推定85aと呼ぶ。ベクトルの第2要素は、第2サブバンド95bのための周波数推定85bと呼ぶ。さらに、目標位相尺度決定器65は、基本周波数の倍数を使って、周波数推定85を計算できる。現在のサブバンド95の周波数推定85は、サブバンド95の中心に最も近い基本周波数の倍数か、または、仮に基本周波数の倍数が現在のサブバンド95内にないならば、現在のサブバンドの周波数推定85は、現在のサブバンド95の境界周波数である。
言い換えると、オーディオプロセッサ50を使って高調波の周波数の中のエラーを訂正するための提案されたアルゴリズムは、以下の通り機能する。先ず、PDTが計算され、SBRが信号Zpdtを処理した。Zpdt(k,n)=Zpha(k,n+1)−Zpha(k,n)。水平訂正のために、それと目標PDTとの間の差が、次に計算される。
この時、目標PDTは、入力信号の入力のPDTに等しいと推定される。
後で、目標PDTが、低いビット転送速度によって得られる方法が提示される。
この値(すなわち、エラー値105)は、ハン窓(Hann window)W(l)を使って、時間上、平滑化される。例えば、適した長さは、QMF領域の中の41個のサンプルである(55ミリ秒の間隔に相当している)。平滑化は、対応する時間周波数タイルのマグニチュードによって重み付けされる。
次に、変調器マトリクスが、要求されたPDTを得るために、位相スペクトルを修正するために作成される。
位相スペクトルは、このマトリクスを使って処理される。
別の実施の形態において、オーディオプロセッサ50は、デコーダ110の一部である。従って、オーディオ信号55を復号するためのデコーダ110は、オーディオプロセッサ50とコアデコーダ115とパッチ器120とを含む。コアデコーダ115は、オーディオ信号55について、数が減らされたサブバンドを有する時間フレーム75の中のオーディオ信号25をコア復号するように構成される。パッチ器120は、数が減らされたサブバンドによってコア復号されたオーディオ信号25のサブバンド95のセットをパッチする。サブバンドのセットは、正規の数のサブバンドによってオーディオ信号55を得るために、第1パッチ30aを、数が減らされたサブバンドに隣接する時間フレーム75の中の別のサブバンドに形成する。さらに、オーディオプロセッサ50は、目標関数85に従って第1パッチ30aのサブバンド内の位相45を訂正するように構成される。オーディオプロセッサ50およびオーディオ信号55は、図15および図16に関して説明されている。ここにおいて記載されていない符号が、図19の中で説明される。実施の形態に従うオーディオプロセッサは、位相訂正を実行する。実施の形態に依存すると、オーディオプロセッサは、BWEまたはSBRパラメータをパッチに適用するバンド幅拡張パラメ
ータ応用器125によって、オーディオ信号のマグニチュード訂正をさらに含む。さらに、オーディオプロセッサは、正規のオーディオファイルを得るために、オーディオ信号のサブバンドを組み合わせるための、すなわち合成するためのシンセサイザー100(例えば、合成フィルタバンク)を含む。
別の実施の形態によると、パッチ器120は、オーディオ信号25のサブバンド95のセットを、第1パッチに隣接する時間フレームの別のサブバンドにパッチするように構成される。サブバンドのセットは、第2パッチを形成する。オーディオプロセッサ50は、第2パッチのサブバンド内の位相45を訂正するように構成される。代わりに、パッチ器120は、訂正第1パッチを、第1パッチに隣接する時間フレームの別のサブバンドにパッチするように構成される。
言い換えると、第1オプションにおいて、パッチ器が、オーディオ信号の送信された部分から、正規の数のサブバンドによってオーディオ信号を組み立て、その後、オーディオ信号の個々のパッチの位相が訂正される。第2オプションは、オーディオ信号の送信された部分に関して第1パッチの位相を最初に訂正し、その後、既に訂正第1パッチによって正規の数のサブバンドによってオーディオ信号を組み立てる。
別の実施の形態は、オーディオ信号55の現在の時間フレーム75の基本周波数114を、データストリーム135から取り出すように構成されたデータストリーム抽出器130を含むデコーダ110を示す。データストリームは、数が減らされたサブバンドによって符号化されたオーディオ信号145をさらに含む。代わりに、デコーダは、基本周波数140を計算するために、コア復号されたオーディオ信号25を分析するように構成された基本周波数分析器150を含む。言い換えると、基本周波数140を引き出すためのオプションは、例えば、デコーダまたはエンコーダの中のオーディオ信号の分析である。値がエンコーダからデコーダに送信される必要があるので、後者の場合、基本周波数は、より高いデータ転送速度にて、より正確である。
図20は、オーディオ信号55を符号化するためのエンコーダ155を示す。エンコーダは、オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号145を得るために、オーディオ信号55をコア符号化するためのコアエンコーダ160を含む。そして、エンコーダは、オーディオ信号55、または、オーディオ信号の基本周波数推定を得るためのオーディオ信号55のローパスフィルタされたバージョンを分析するための基本周波数分析器175を含む。さらに、エンコーダは、コア符号化されたオーディオ信号145に含まれないオーディオ信号55のサブバンドのパラメータを取り出すためのパラメータ抽出器165を含むと共に、エンコーダは、コア符号化されたオーディオ信号145とパラメータと基本周波数推定とから成る出力信号135を形成するための出力信号形成器170を含む。この実施の形態において、エンコーダ155は、コアデコーダ160の前のローパスフィルタ180と、パラメータ抽出器165の前のハイパスフィルタ185とを含む。別の実施の形態によると、出力信号形成器170は、一連のフレームの中に出力信号135を形成するように構成される。個々のフレームは、コア符号化された信号145と、パラメータ190とを含む。そして、個々のn(n≧2)番目のフレームだけが、基本周波数推定140を含む。実施の形態において、コアエンコーダ160は、例えばAAC(高度なオーディオ符号化)エンコーダである。
代わりの実施の形態において、インテリジェントなギャップを満たすエンコーダが、オーディオ信号55を符号化するために使われる。従って、コアエンコーダは、オーディオ信号の少なくとも1つのサブバンドが除外される、満たされたバンド幅オーディオ信号を符号化する。従って、パラメータ抽出器165は、コアエンコーダ160の符号化プロセスから除外されるサブバンドを再構成するためのパラメータを取り出す。
図21は、出力信号135の模式的説明を示す。出力信号は、オリジナルオーディオ信号55に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号145と、コア符号化されたオーディオ信号145に含まれないオーディオ信号のサブバンドを表現するパラメータ190と、オーディオ信号135またはオリジナルオーディオ信号55の基本周波数推定140と、から成るオーディオ信号である。
図22は、一連のフレーム195の中に形成されるオーディオ信号135の実施の形態を示す。個々のフレーム195は、コア符号化されたオーディオ信号145と、パラメータ190とを含む。そして、個々のn(n≧2)番目のフレーム195だけが、基本周波数推定140を含む。これは、例えば全ての20番目のフレームに対して、等しく間隔をおいて配置された基本周波数推定送信を説明する。または、基本周波数推定は、例えば要求または目的のために、不規則に送信される。
図23は、「オーディオ信号位相デリバティブ計算器で、時間フレームのためにオーディオ信号の位相尺度を計算する」というステップ2305と、「目標位相デリバティブ決定器で、前記時間フレームのために目標位相尺度を決定する」というステップ2310と、「処理されたオーディオ信号を得るために、計算する位相尺度および目標位相尺度を使って、位相訂正器で、時間フレームのためにオーディオ信号の位相を訂正する」というステップ2315と、によってオーディオ信号を処理するための方法2300を示す。
図24は、「オーディオ信号に関して、数が減らされたサブバンドによって時間フレームの中のオーディオ信号を復号する」というステップ2405と、「数が減らされたサブバンドによって復号されたオーディオ信号のサブバンドのセットをパッチする、ここで、サブバンドのセットは、正規の数のサブバンドによってオーディオ信号を得るために、第1パッチを、数が減らされたサブバンドに隣接する時間フレームの中の別のサブバンドに形成する」というステップ2410と、「オーディオプロセスによって、目標関数に従って、第1パッチのサブバンド内の位相を訂正する」というステップ2415と、によってオーディオ信号を復号するための方法2400を示す。
図25は、「オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、コアエンコーダによってオーディオ信号をコア符号化する」というステップ2505と、「オーディオ信号のための基本周波数推定を得るために、基本周波数分析器によって、オーディオ信号またはオーディオ信号のローパスフィルタされたバージョンを分析する」というステップ2510と、「パラメータ抽出器によって、コア符号化されたオーディオ信号の中に含まれないオーディオ信号のサブバンドのパラメータを引き出す」というステップ2515と、「出力信号形成器によって、コア符号化されたオーディオ信号とパラメータと基本周波数推定とから成る出力信号を形成する」というステップ2520と、によってオーディオ信号を符号化するための方法2500を示す。
説明された方法2300および方法2400および方法2500は、コンピュータプログラムがコンピュータ上を稼働するとき、その方法を実行するためのコンピュータプログラムのプログラムコードの中に実装される。
8.2 時間的エラーを訂正すること−垂直位相デリバティブ訂正
前述したように、仮に高調波が周波数上で同期し、かつ、基本周波数が低いならば、人間は、高調波の時間的位置の中のエラーを知覚することができる。5節では、仮に周波数上の位相デリバティブが、QMF領域において一定であるならば、高調波が同期することが示された。従って、個々の周波数バンドの中に、少なくともに1つの高調波を有するこ
とは、有利である。さもなければ、「空の」周波数バンドは、ランダムな位相を有し、この尺度を妨害する。幸運にも、人間は、基本周波数が低い時にだけ、高調波の時間的な位置に敏感である(7節を参照のこと)。従って、周波数上の位相デリバティブは、高調波の時間的な動きのため、知覚的に重要な効果を決定するための尺度として使われる。
図26は、オーディオ信号55を処理するためのオーディオプロセッサ50´の模式的ブロック図を示す。オーディオプロセッサ50´は、目標位相尺度決定器65と位相エラー計算器200と位相訂正器70とを含む。目標位相尺度決定器65´は、時間フレーム75の中のオーディオ信号55のための目標位相尺度85´を決定する。位相エラー計算器200は、時間フレーム75の中のオーディオ信号55の位相と目標位相尺度85´とを使って、位相エラー105´を計算する。位相訂正器70´は、処理されたオーディオ信号90´を形成する位相エラー105´を使って、時間フレームの中のオーディオ信号55の位相を訂正する。
図27は、別の実施の形態に従うオーディオプロセッサ50´の模式的ブロック図を示す。従って、オーディオ信号55は、時間フレーム75のための複数のサブバンド95を含む。従って、目標位相尺度決定器65´は、第1サブバンド信号95aのための第1目標位相尺度85a´と、第2サブバンド信号95bのための第2目標位相尺度85b´とを決定するように構成される。位相エラー計算器200は、位相エラー105´のベクトルを形成する。ベクトルの第1要素は、第1サブバンド信号95aの位相と第1目標位相尺度85a´との第1偏差105a´を参照する。ベクトルの第2要素は、第2サブバンド信号95bの位相と第2目標位相尺度との第2偏差105b´を参照する。さらに、オーディオプロセッサ50´は、訂正第1サブバンド信号90a´および訂正第2サブバンド信号90b´を使って、訂正オーディオ信号90´を合成するためのオーディオ信号シンセサイザー100を含む。
別の実施の形態について、複数のサブバンド95は、ベースバンド30と周波数パッチ40のセットとにグループ化される。ベースバンド30は、オーディオ信号55の1つのサブバンド95を含む。周波数パッチ40のセットは、ベースバンドの中の少なくとも1つの別バンドの周波数より高い周波数で、ベースバンド30の少なくとも1つのサブバンド95を含む。オーディオ信号のパッチ化は、既に図3に関して説明されていることに注目する必要があり、従って、この部分の説明は詳細にしない。周波数パッチ40が、位相訂正が適用できるゲインファクターによって乗算された、より高い周波数にコピーされた生のベースバンド信号であることは、ちょうど言及される必要がある。さらに、好ましい実施の形態によると、ゲインと位相訂正との乗算は、生のベースバンド信号の位相が、ゲインファクターによって乗算される前に、より高い周波数にコピーされるように、切り替えることができる。実施の形態は、平均位相エラー105´´を得るために、周波数パッチ40のセットの第1パッチ40aを参照する位相エラー105´のベクトルの要素の平均を計算する位相エラー計算器200をさらに示す。さらに、オーディオ信号位相デリバティブ計算器210が、ベースバンド30のための周波数上の位相デリバティブ215の平均215を計算するために示される。
図28Aは、ブロック図の位相訂正器70´のより詳細な説明を示す。図28Aの上方の位相訂正器70´は、周波数パッチのセットの最初および次の周波数パッチ40の中のサブバンド信号95の位相を訂正するように構成される。図28Aの実施の形態において、サブバンド95cおよびサブバンド95dはパッチ40aに属し、サブバンド95eおよびサブバンド95fはパッチ40bに属することが示される。位相は、重み付けされた平均位相エラーを使って訂正される。平均位相エラー105は、修正されたパッチ信号40´を得るために、周波数パッチ40のインデックスに従って重み付けされる。
別の実施の形態は、図28Aの下方に記載されている。位相訂正器70´の左上隅において、既に説明された実施の形態が、パッチ40および平均位相エラー105´´から、修正されたパッチ信号40´を得るために示される。さらに、位相訂正器70´は、初期設定ステップにおいて、オーディオ信号55のベースバンド30の中の最も高いサブバンドインデックスによって、現在のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均215を、サブバンド信号の位相に追加することによって、最適化された第1周波数パッチによって別の修正されたパッチ信号40´´を計算する。この初期設定ステップに対しては、スイッチ220aはその左の位置にある。別の処理ステップに対しては、スイッチは、垂直に向いた接続を形成している別の位置にある。
別の実施の形態において、オーディオ信号位相デリバティブ計算器210は、サブバンド信号95の中のトランジェントを検出するために、ベースバンド信号30より高い周波数を含む複数のサブバンド信号のための周波数上の位相デリバティブの平均215を計算するように構成される。トランジェント訂正が、ベースバンド30の中の周波数がトランジェントのより高い周波数を反映しないという差によって、オーディオプロセッサ50´の垂直位相訂正と同様であることは、注目する必要がある。従って、これらの周波数は、トランジェントの位相訂正のために考慮される必要がある。
初期設定ステップの後で、位相訂正器70´は、周波数パッチ40に基づいて、前の周波数パッチの中の最も高いサブバンドインデックスによって、現在のサブバンド95のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均215を、サブバンド信号の位相に追加することによって別の修正されたパッチ信号40´´を再帰的に更新するように構成される。好ましい実施の形態は、前述の実施の形態の組み合わせである。位相訂正器70´は、結合され修正されたパッチ信号40´´´を得るために、修正されたパッチ信号40´と別の修正されたパッチ信号40´´との重み付けされた平均を計算する。従って、位相訂正器70´は、周波数パッチ40に基づいて、結合され修正されたパッチ信号40´´´の前の周波数パッチの最も高いサブバンドインデックスによって、現在のサブバンド95のサブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均215を、サブバンド信号の位相に追加することによって、結合され修正されたパッチ信号40´´´を再帰的に更新する。結合され修正されたパッチ40a´´´およびパッチ40b´´´などを得るために、スイッチ220bは、個々の再帰の後の次の位置、初期設定ステップのための結合され修正されたパッチ48´´´での開始、最初の再帰の後の結合され修正されたパッチ40b´´´への切り換えなどに移行する。
さらに、位相訂正器70´は、第1特定重み付け関数によって重み付けされた現在の周波数パッチの中のパッチ信号40´と第2特定重み付け関数によって重み付けされた現在の周波数パッチの中の修正されたパッチ信号40´´との円平均を使って、パッチ信号40´と修正されたパッチ信号40´´との重み付けされた平均を計算する。
オーディオプロセッサ50とオーディオプロセッサ50´との間の相互運用性を提供するために、位相訂正器70´は、位相偏差のベクトルを形成する。位相偏差は、結合され修正されたパッチ信号40´´´とオーディオ信号55とを使って計算される。
図28Bは、別の観点から位相訂正のステップを説明する。第1時間フレーム75aに対して、パッチ信号40´が、第1位相訂正モードをオーディオ信号55のパッチに適用することによって引き出される。パッチ信号40´は、修正されたパッチ信号40´´を得るために、第2訂正モードの初期設定ステップにおいて用いられる。パッチ信号40´と修正されたパッチ信号40´´との結合は、結合され修正されたパッチ信号40´´´を結果として生じる。
従って、第2訂正モードは、第2時間フレーム75bに対して、修正されたパッチ信号40´´を得るために、結合され修正されたパッチ信号40´´´に適用される。さらに、第1訂正モードが、パッチ信号40´を得るために、第2時間フレーム75bの中のオーディオ信号55のパッチに適用される。また、パッチ信号40´と修正されたパッチ信号40´´との結合は、結合され修正されたパッチ信号40´´´を結果として生じる。第2時間フレームのために記述された処理計画は、第3時間フレーム75cに、従ってオーディオ信号55の別の時間フレームにも適用される。
図29は、目標位相尺度決定器65´の詳細なブロック図を示す。実施の形態によると、目標位相尺度決定器65´は、オーディオ信号55の現在の時間フレームの中のピーク位置230およびピーク位置の基本周波数235を、データストリーム135から取り出すためのデータストリーム抽出器130´を含む。代わりに、目標位相尺度決定器65´は、現在の時間フレームの中のピーク位置230およびピーク位置の基本周波数235を計算するために、現在の時間フレームの中のオーディオ信号55を分析するためのオーディオ信号分析器225を含む。さらに、目標位相尺度決定器は、ピーク位置230およびピーク位置の基本周波数235を使って、現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器240を含む。
図30は、図29において記載された目標スペクトル生成器240の詳細なブロック図を示す。目標スペクトル生成器240は、時間上のパルス列265を生成するためのピーク生成器245を含む。信号形成器250は、ピーク位置の基本周波数235に従って、パルス列の周波数を調整する。さらに、パルス位置器255は、ピーク位置230に従ってパルス列265の位相を調整する。すなわち、信号形成器250は、パルス列の周波数がオーディオ信号55のピーク位置の基本周波数に等しいように、パルス列265のランダムな周波数の形を変える。さらに、パルス位置器255は、パルス列のピークのうちの1つがピーク位置230に等しいように、パルス列の位相をシフトする。その後、スペクトル分析器260は、調整されたパルス列の位相スペクトルを生成する。時間領域信号の位相スペクトルは目標位相尺度85´である。
図31は、オーディオ信号55を復号するためのデコーダ110´の図式的ブロック図を示す。デコーダ110は、ベースバンドの時間フレームの中のオーディオ信号25を復号するように構成されたコアデコーダ115と、復号されたベースバンドのサブバンド95のセットをパッチするためのパッチ器120とを含む。サブバンドのセットは、ベースバンドの周波数より高い周波数を含むオーディオ信号32を得るために、ベースバンドに隣接する時間フレームの中の別のサブバンドに、パッチを形成する。さらに、デコーダ110´は、目標位相尺度に従ってパッチのサブバンドの位相を訂正するためのオーディオプロセッサ50´を含む。
別の実施の形態によると、パッチ器120は、オーディオ信号25のサブバンド95のセットをパッチするように構成される。サブバンドのセットは、パッチに隣接する時間フレームの別のサブバンドに、別のパッチを形成する。オーディオプロセッサ50´は、別のパッチのサブバンド内の位相を訂正するように構成される。代わりに、パッチ器120は、パッチに隣接する時間フレームの別のサブバンドに、訂正パッチをパッチするように構成される。
別の実施の形態は、トランジェントを含むオーディオ信号を復号するためのデコーダに関連する。オーディオプロセッサ50´は、トランジェントの位相を訂正するように構成される。トランジェント処理は、8.4節の中で言い換えて説明される。従って、デコーダ110は、周波数の別の位相デリバティブを受信するための別のオーディオプロセッサ
50´を含み、受信された位相デリバティブまたは周波数を使って、オーディオ信号32の中のトランジェントを訂正する。さらに、図31のデコーダ110´は、図19のデコーダ110と同様であることに注目する必要がある。その結果、主要な要素についての説明が、オーディオプロセッサ50とオーディオプロセッサ50´との違いに関連しないこれらの場合において、相互に交換可能である。
図32は、オーディオ信号55を符号化するためのエンコーダ155´を示す。エンコーダ155´は、コアエンコーダ160と基本周波数分析器175´とパラメータ抽出器165と出力信号形成器170とを含む。コアエンコーダ160は、オーディオ信号55について、数が減らされたサブバンドを有するコア符号化されたオーディオ信号145を得るために、オーディオ信号55をコア符号化するように構成される。基本周波数分析器175´は、オーディオ信号の中のピーク位置の基本周波数推定235を得るために、オーディオ信号55またはオーディオ信号のローパスフィルタされたバージョンの中のピーク位置230を分析する。さらに、パラメータ抽出器165は、コア符号化されたオーディオ信号145に含まれないオーディオ信号55のサブバンドのパラメータ190を引き出す。出力信号形成器170は、コア符号化されたオーディオ信号145と、パラメータ190と、ピーク位置の基本周波数235と、ピーク位置230のうちの1つと、を含む出力信号135を形成する。実施の形態によると、出力信号形成器170は、出力信号135を、一連のフレームの中に形成するように構成される。個々のフレームは、コア符号化されたオーディオ信号145とパラメータ190とを含む。そして、個々のn(n≧2)番目のフレームだけが、ピーク位置の基本周波数推定235とピーク位置230とを含む。
図33は、オリジナルオーディオ信号55について数が減らされたサブバンドを含むコア符号化されたオーディオ信号145と、コア符号化されたオーディオ信号の中に含まれないオーディオ信号のサブバンドを表現するパラメータ190と、ピーク位置の基本周波数推定235と、オーディオ信号55のピーク位置推定230と、を含むオーディオ信号135の実施の形態を示す。代わりに、オーディオ信号135は、一連のフレームの中に形成される。個々のフレームは、コア符号化されたオーディオ信号145とパラメータ190とを含む。そして、個々のn(n≧2)番目のフレームだけが、ピーク位置の基本周波数推定235とピーク位置230とを含む。このアイデアは既に図22に関して説明されている。
図34は、オーディオプロセッサによってオーディオ信号を処理するための方法3400を示す。方法3400は、「目標位相尺度によって、時間フレームの中のオーディオ信号のために目標位相尺度を決定する」というステップ3405と、「位相エラー計算器によって、時間フレームの中のオーディオ信号の位相と目標位相尺度とを使って、位相エラーを計算する」というステップ3410と、「訂正位相によって、位相エラーを使って、時間フレームの中のオーディオ信号の位相を訂正する」というステップ3415とを含む。
図35は、デコーダによってオーディオ信号を復号するための方法3500を示す。方法3500は、「コアデコーダによって、ベースバンドの時間フレームの中のオーディオ信号を復号する」というステップ3505と、「パッチ器によって、復号されたベースバンドのサブバンドのセットをパッチする、ここに、サブバンドのセットは、ベースバンドの中の周波数より高い周波数を含むオーディオ信号を得るために、ベースバンドに隣接する時間フレームの中の別のサブバンドに、パッチを形成する」というステップ3510と、「目標位相尺度に従って、オーディオプロセッサによって、第1パッチのサブバンドによって位相を訂正する」というステップ3515とを含む。
図36は、エンコーダによってオーディオ信号を符号化するための方法3600を示す。方法3600は、「オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、コアエンコーダによって、オーディオ信号をコア符号化する」というステップ3605と、「オーディオ信号の中のピーク位置の基本周波数推定を得るために、基本周波数分析器によって、オーディオ信号またはオーディオ信号のローパスフィルタされたバージョンを分析する」というステップ3610と、「パラメータ抽出器によって、コア符号化されたオーディオ信号に含まれないオーディオ信号のサブバンドのパラメータを引き出す」というステップ3615と、「コア符号化されたオーディオ信号とパラメータとピーク位置の基本周波数とピーク位置とを含む出力信号形成器によって、出力信号を形成する」というステップ3620とを含む。
これは、図37において記載される。図37は、直接コピーアップSBRを使って、QMF領域のトロンボーン信号の位相スペクトルDpha(k,n)の中のエラーを示す。こ
の点で、目標位相スペクトルは、入力信号のそれに等しいと推定される。
後で、目標位相スペクトルが低いビット転送速度によって得られる方法が提供される。
垂直位相デリバティブ訂正は、2つの方法を使って実行される。最終的な訂正位相スペクトルは、それらの混合として得られる。
先ず、エラーは、周波数パッチの内側で相対的に一定であると見られる。エラーは、新しい周波数パッチに入るとき、新しい値に跳ぶ。位相は、オリジナル信号の中の全ての周波数で、周波数上の一定値と交換されるので、これは意味をなす。エラーはクロスオーバーで形成され、エラーはパッチの内側で一定であり続ける。従って、単一の値は、全体の周波数パッチに対して、位相エラーを訂正するために十分である。さらに、より高い周波数パッチの位相エラーが、周波数パッチのインデックス数による乗算の後に、この同じエラー値を使って訂正できる。
従って、位相エラーの円平均が、第1周波数パッチのために計算される。
位相スペクトルは、それを使って訂正できる。
別の訂正方法は、ベースバンドの中のPDFの平均を計算して始まる。
8.3 異なる位相訂正方法間での切り替え
8.1節および8.2節は、SBR−引き起こされた位相エラーが、PDT訂正をバイオリンに適用すると共にPDF訂正をトロンボーンに適用することによって訂正できることを示した。しかし、それは、どのように、訂正のうちの1つが未知の信号に適用されるべきであるか、または、それらのうちのどれが適用されるべきであるかを知る方法は、考慮されなかった。この節は、訂正方向を自動的に選択するための方法を提案する。訂正方向(水平/垂直)は、入力信号の位相デリバティブのバリエーションに基づいて決められる。
従って、図39において、オーディオ信号55のための位相訂正データを決定するための計算器が示される。バリエーション決定器275は、第1および第2バリエーションモードの中のオーディオ信号55の位相45のバリエーションを決定する。バリエーション比較器280は、第1バリエーションモードを使って決定された第1バリエーション290aと、第2バリエーションモードを使って決定された第2バリエーション290bとを比較する。訂正データ計算器285は、比較器の結果に基づいて、第1バリエーションモードまたは第2バリエーションモードに従って、位相訂正データ295を計算する。
さらに、バリエーション決定器275は、第1バリエーションモードの中の位相のバリエーション290aとして、オーディオ信号55の複数の時間フレームのための時間上の位相デリバティブ(PDT)の標準偏差尺度を決定するように、そして、第2バリエーションモードの中の位相のバリエーション290bとして、オーディオ信号55の複数のサブバンドのための周波数上の位相デリバティブ(PDF)の標準偏差尺度を決定するように構成される。従って、バリエーション比較器280は、第1バリエーション290aとして、時間上の位相デリバティブの尺度と、オーディオ信号の時間フレームのための第2バリエーション290bとして、周波数上の位相デリバティブの尺度とを比較する。
実施の形態は、標準偏差尺度としてオーディオ信号55の現在と複数の前のフレームとの時間上の位相デリバティブの円標準偏差を決定すると共に、標準偏差尺度として現在の時間フレームのためのオーディオ信号55の現在と複数の未来のフレームとの時間上の位相デリバティブの円標準偏差を決定するための、バリエーション決定器275を示す。さらに、バリエーション決定器275は、第1バリエーション290aを決定するとき、両方の円標準偏差の最小を計算する。別の実施の形態において、バリエーション決定器275は、周波数の平均された標準偏差尺度を形成するために、時間フレーム75の中の複数のサブバンド95のための標準偏差尺度の組み合わせとして、第1バリエーションモードの中のバリエーション290aを計算する。バリエーション比較器280は、エネルギー尺度として、現在の時間フレーム75の中のサブバンド信号95のマグニチュード値を使って、複数のサブバンドの標準偏差尺度のエネルギーで重み付けされた平均を計算することによって、標準偏差尺度の組み合わせを実行するように構成される。
好ましい実施の形態において、バリエーション決定器275は、第1バリエーション290aを決定するとき、平均された標準偏差尺度を、現在の、複数の前のおよび複数の未来の時間フレームに亘って平滑化する。エネルギーに従って重み付けされるような平滑化
は、対応する時間フレームと窓化関数とを使って計算される。さらに、バリエーション決定器275は、第2バリエーション290bを決定するとき、現在の、複数の前のおよび複数の未来の時間フレーム75に亘って標準偏差尺度を平滑化するように構成される。平滑化は、対応する時間フレーム75と窓化関数とを使って計算されたエネルギーに従って、重み付けされる。従って、バリエーション比較器280は、平滑化された平均標準偏差尺度を、第1バリエーションモードを使って決定された第1バリエーション290aと比較すると共に、平滑化された標準偏差尺度を、第2バリエーションモードを使って決定された第2バリエーション290bと比較する。
好ましい実施の形態が、図40に記載される。この実施の形態によると、バリエーション決定器275は、第1および第2バリエーションを計算するための2つの処理パスから成る。第1処理パッチは、オーディオ信号55またはオーディオ信号の位相から、時間上の位相デリバティブ305aの標準偏差尺度を計算するためのPDT計算器300aを含む。円標準偏差計算器310aは、時間上の位相デリバティブ305aの標準偏差尺度から、第1円標準偏差315aと第2円標準偏差315bとを決定する。第1円標準偏差315aと第2円標準偏差315bとは、比較器320によって比較される。比較器320は、2つの円標準偏差尺度315aと315bとの最小325を計算する。組み合わせ器330は、平均標準偏差尺度335aを形成するために、周波数上の最小325を組み合わせる。平滑化器340aは、平滑な平均標準偏差尺度345aを形成するために、平均標準偏差尺度335aを平滑化する。
第2処理パスは、オーディオ信号55またはオーディオ信号の位相から、周波数上の位相デリバティブ305bを計算するためのPDF計算器300bを含む。円標準偏差計算器310bは、周波数上の位相デリバティブ305bの標準偏差尺度335bを形成する。標準偏差尺度305は、平滑な標準偏差尺度345bを形成するために、平滑化器340bによって平滑化される。平滑化された平均標準偏差尺度345aと平滑化された標準偏差尺度345bとは、それぞれ、第1および第2バリエーションである。バリエーション比較器280は第1および第2バリエーションを比較する。訂正データ計算器285は、第1および第2バリエーションの比較に基づいて位相訂正データ295を計算する。
別の実施の形態は、3つの異なる位相訂正モードを処理する計算器270を示す。図的ブロック図は、図41において示される。図41は、第3バリエーションモードの中のオーディオ信号55の位相の第3バリエーション290cを更に決定するバリエーション決定器275を示す。第3バリエーションモードは、トランジェント検出モードである。バリエーション比較器280は、第1バリエーションモードを使って決定された第1バリエーション290aと、第2バリエーションモードを使って決定された第2バリエーション290bと、第3バリエーションモードを使って決定された第3バリエーション290cとを比較する。従って、訂正データ計算器285は、比較の結果に基づいて、第1訂正モード、第2訂正モードまたは第3訂正モードに従って、位相訂正データ295を計算する。第3バリエーションモードの中の第3バリエーション290cを計算するために、バリエーション比較器280は、現在の時間フレームの瞬時のエネルギー推定と、複数の時間フレーム75の時間平均されたエネルギー推定とを計算するように構成される。従って、バリエーション比較器280は、瞬時のエネルギー推定と時間平均されたエネルギー推定との比率を計算するように構成されると共に、時間フレーム75の中のトランジェントを検出するために、前記比率を、定義された閾値と比較するように構成される。
バリエーション比較器280は、3つのバリエーションに基づいて、適した訂正モードを決定する必要がある。この決定に基づき、訂正データ計算器285は、仮にトランジェントが検出されるならば、第3バリエーションモードに従って位相訂正データ295を計算する。さらに、訂正データ計算器85は、仮にトランジェントの不在が検出され、かつ
、第1バリエーションモードにおいて決定された第1バリエーション290aが、第2バリエーションモードにおいて決定された第2バリエーション290bより小さいかまたは等しいならば、第1バリエーションモードに従って位相訂正データ295を計算する。従って、位相訂正データ295は、仮にトランジェントの不在が検出され、かつ、第2バリエーションモードにおいて決定された第2バリエーション290bが、第1バリエーションモードにおいて決定された第1バリエーション290aより小さいならば、第2バリエーションモードに従って計算される。
訂正データ計算器285は、さらに、現在の、および、1つ以上前の、および、1つ以上未来の時間フレームのための第3バリエーション290cのための位相訂正データ295を計算するように構成される。従って、訂正データ計算器285は、現在の、および、1つ以上前の、および、1つ以上未来の時間フレームのための第2バリエーション290bのための位相訂正データ295を計算するように構成される。さらに、訂正データ計算器285は、第1バリエーションモードの中の水平位相訂正のための訂正データ295と、第2バリエーションモードの中の垂直位相訂正のための訂正データ295と、第3バリエーションモードのトランジェント訂正のための訂正データ295とを計算するように構成される。
図42は、オーディオ信号から位相訂正データを決定するための方法4200を示す。方法4200は、「第1および第2バリエーションモードにおいて、バリエーション決定器によって、オーディオ信号の位相のバリエーションを決定する」というステップ4205と、「バリエーション比較器によって、第1および第2バリエーションモードを使って決定されたバリエーションを比較する」というステップ4210と、「比較の結果に基づいて、第1バリエーションモードまたは第2バリエーションモードに従って、訂正データ計算器によって、位相訂正を計算する」というステップ4215とを含む。
言い換えると、トロンボーンのPDFが、周波数上、平滑なのに対して、バイオリンのPDTは、時間上、平滑である。ここで、バリエーションの尺度として、これらの尺度の標準偏差(STD)が、適切な訂正方法を選択するために用いられる。時間上の位相デリバティブのSTDは、式(27)として計算できる。
そして、周波数上の位相デリバティブのSTDは、式(28)として計算できる。
ここで、circstd{}は、円STDを計算すること示す(角度値は、雑音の低エネルギービンのため、高いSTDを避けるために、エネルギーによって潜在的に重み付けされる。または、STD計算は、十分なエネルギーによってビンに限定される)。バイオリンのSTDは図43Aと図43Bとにおいて示され、トロンボーンのSTDは図43Cと図43Dとにおいて示される。図43Aと図43Cとは、QMF領域の中の時間上の位相デリバティブの標準偏差Xstdt(k,n)を示す。図43Bと図43Dとは、位相訂正無しで、対応する周波数上の標準偏差Xstdf(n)を示す。色勾配は、赤色=1から青色=0までの値を示す。PDFのSTDが、トロンボーンに対して、より低いのに対して、PDTのSTDが、バイオリンに対して、より低いこと、が認められる(特に、高いエネルギーを有する時間周波数タイルに対して)。
個々の時間的フレームのために使われる訂正方法は、STDのうちのどちらが、より低いかに基づいて選択される。そのために、Xstdt(k,n)値は、周波数上、組み合わされる必要がある。組み合わせは、予め定義された周波数範囲のために、エネルギーで重み付けされた平均を計算することによって実行される。
8.4 トランジェント処理−トランジェントのための位相デリバティブ訂正
途中で加えられた拍手を有するバイオリン信号は、図44において提供される。QMF領域のバイオリン+拍手信号のマグニチュードXmag(k,n)は、図44Aにおいて示
される。対応する位相スペクトルXpha(k,n)は、図44Bにおいて示される。図4
4Aに関して、色勾配は、赤色=0dBから青色=−80dBまでのマグニチュード値を示す。従って、図44Bに対して、位相勾配は、赤色=πから青色=−πまでの位相値を示す。時間上および周波数上の位相デリバティブは、図45において提供される。QMF領域のバイオリン+拍手信号の時間上の位相デリバティブXpdt(k,n)は、図45A
において示される。対応する周波数上の位相デリバティブXpdf(k,n)は、図45B
において示される。色勾配は、赤色=πから青色=−πまでの位相値を示す。PDTは拍手のために雑音的であるけれども、PDFは少なくとも高周波数で多少平滑である、と認められる。従って、PDF訂正は、その鋭さを維持するために、拍手に対して適用されるべきである。しかし、バイオリン音が、低周波数にてデリバティブを妨害しているので、8.2節の中で提案された訂正方法は、この信号によって適切に働かない。結果として、ベースバンドの位相スペクトルは高周波数を反映せず、従って、単一の値を使う周波数パッチの位相訂正は働かない。さらに、PDF値(8.3節を参照のこと)のバリエーションに基づいてトランジェントを検出することは、低周波数にて雑音的なPDF値のため困難である。
問題の解決策は、直接的である。先ず、トランジェントが、簡単なエネルギーベースの方法を使って検出される。中間周波数/高周波数の瞬時エネルギーが、平滑化されたエネルギー推定と比較される。中間周波数/高周波数の瞬時エネルギーは、式(31)として
計算される。
平滑化は、一次IIRフィルタを使って実行される。
理論において、垂直訂正モードも、トランジェントに対して適用される。しかし、トランジェントの場合において、ベースバンドの位相スペクトルは、しばしば高周波数を反映しない。これは、処理された信号の中の前のエコーおよび次のエコーに導くことができる。従って、わずかに修正された処理が、トランジェントのために提案される。
高周波数でのトランジェントの平均PDFが、式(33)によって計算される。
トランジェント訂正の結果は、図46において提示される。位相訂正SBRを使って、QMF領域のバイオリン+拍手信号の時間上の位相デリバティブXpdt(k,n)が示さ
れる。図47Bは、対応する周波数上の位相デリバティブXpdf(k,n)を示す。また
、色勾配は、赤色=πから青色=−πまでの位相値を示す。直接コピーアップに比較された差は、大きくないけれども、位相訂正拍手は、オリジナル信号と同じ鋭さ有することが知覚される。ゆえに、トランジェント訂正は、直接コピーアップだけが可能である全ての場合に、必ずしも必要であるわけではない。それどころか、仮にPDT訂正が可能ならば、PDT訂正が、トランジェントを違った形で厳しく不鮮明にするので、トランジェント処理を有することは重要である。
9 訂正データの圧縮
8節は、位相エラーが訂正できることを示したけれども、訂正のために適正なビット転送速度は全然考慮されなかった。この節は、低いビット転送速度によって訂正データを表現する方法を提案する。
先ず、パラメータに適正な更新転送速度が議論される。値が、全てのNフレームのみに対して更新され、間に線形的に内挿される。良好な品質のための更新間隔は、約40ミリ秒である。特定の信号に対して、より少ないビットが有利であり、別の信号に対して、より多いビットが有利である。公式の聞き取りテストは、最適な更新転送速度を推定することに対して有益である。それにもかかわらず、相対的に長い更新間隔が容認できるように見える。
考慮する最後のものは、適正なスペクトル精度である。図17において見られるように、多くの周波数バンドが、およそ同じ値を共有するように見える。従って、1つの値が、たぶん、いくつかの周波数バンドを表現するために用いられる。さらに、高周波数にて、1つの周波数バンドの内側に複数の高調波が存在する。従って、たぶん、少ない正確さが必要である。それにもかかわらず、別の、潜在的により良いアプローチが見つけられた。従って、これらのオプションは完全に調査されなかった。提案された、より効果的なアプローチが以下において議論される。
9.1.1 PDT訂正データを圧縮するために周波数推定を使うこと
5節で議論されたように、時間上の位相デリバティブは、基本的に、作成された正弦曲線の周波数を意味する。適用された64バンド複合QMFのPDTは、以下の式(34)を使って周波数に変えられる。
作成された周波数は、間隔finter(k)=[fc(k)−fBW,fc(k)+fBW]の
内側にある。fc(k)は周波数バンドkの中心周波数であり、fBWは375Hzである
。結果は、バイオリン信号のためのQMFバンドの周波数Xfreq(k,n)の時間周波数表現において、図47に示される。周波数は、ト−ンの基本周波数の倍数に続いているように見え、従って、高調波は、基本周波数によって、周波数の中に間隔をおいて配置されていることが認められる。さらに、ビブラートは周波数変調を引き起こすように見える。
freq(k,n)の周波数は、同じ量で間隔をおいて配置されるので、仮に周波数の間の間隔が推定されて送信されるならば、全ての周波数バンドの周波数は近づくことができる。高調波信号において、間隔はト−ンの基本周波数に等しいはずである。従って、単一の値だけが、全ての周波数バンドを表現するために送信される必要がある。より不規則な信号の場合、より多くの値が、高調波の振舞いを説明するために必要である。例えば、高調波の間隔は、ピアノト−ン[非特許文献14]の場合において僅かに増加する。簡単のために、高調波が同じ量で間隔をおいて配置されることが、以下において推定される。それにもかかわらず、これは、説明されるオーディオ処理の一般性を制限しない。
あるいは、基本周波数は復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が符号化段階のオリジナルの信号によって実行されるならば、より良好な推定が期待される。
高調波の周波数は、それをインデックスベクトルで乗算することによって得られる。
結果は図49に記載される。図49は、オリジナル信号Xfreq(k,n)のQMFバンドの周波数に比較された高調波Xharm(κ,n)の推定周波数の時間周波数表現を示す。また、青色はオリジナル信号を示し、赤色は推定された信号を示す。推定された高調波の周波数は、オリジナル信号に全く良く合致する。これらの周波数は、「許された」周波数として考えられる。仮にアルゴリズムがこれらの周波数を生み出すならば、人工物に関連した不調和性は避けられるはずである。
訂正データ圧縮アルゴリズムの最終ステップは、周波数データをPDTデータに戻す変換をすることである。
実施の形態は、個々の値ごとに合計12ビットを使って、低周波数に対しては、より多くの精度を使い、高周波数に対しては、より少ない精度を使う。結果として生じるビット転送速度は、約0.5kbpsである(エントロピー符号化のように、どんな圧縮も無しで)。この精度は、非量子化と等しい知覚された品質を生み出す。しかし、重要なことに、より低いビット転送速度が、たぶん、十分に良好な知覚された品質を生む多くの場合に使われる。
低ビット転送速度計画のための1つのオプションは、送信された信号を使って、復号位相の基本周波数を推定することである。この場合において、どの値も送信される必要がない。別のオプションは、送信された信号を使って、基本周波数を推定し、それを、ブロードバンド信号を使って得られた推定と比較し、差だけを送信することである。この差は、非常に低いビット転送速度を使って表現されることが、推定される。
トロンボーンのための図12を検査すると、PDFが周波数上の相対的に一定の値を有し、同じ値が少しの時間的フレームのために存在すること、が見られる。同じトランジェントが、QMF分析窓のエネルギーを支配している限り、値は、時間上、一定である。新しいトランジェントが支配的であることを開始するとき、新しい値が存在する。これらのPDF値の間の角度変化は、1つのトランジェントから別のトランジェントまで同じであるように見える。PDFがトランジェントの時間的位置を制御するので、これは感覚を作る。仮に信号が一定の基本周波数を有するならば、トランジェント間の間隔は一定である。
従って、PDF(または、トランジェントの位置)は、時間内に、まばらにのみ送信される。これらの時間瞬間の間のPDFの振舞いは、基本周波数の知識を使って推定される。PDF訂正は、この情報を使って実行できる。このアイデアは、PDT訂正に対して、実際に、2つの部分から成る。高調波の周波数は、等しく間隔をおいて配置されると推定される。ここで、同じアイデアが使われるけれども、代わりに、トランジェントの時間的位置が、等しく間隔をおいて配置されると推定される。波形の中のピークの位置を検出することに基づいた方法が、以下に提案され、この情報を使うことによって、参照スペクトルが位相訂正のために作成される。
9.2.1 PDF訂正データを圧縮するためにピーク検出を使うこと−垂直訂正のための目標スペクトルを作成すること
ピークの位置は、成功したPDF訂正を実行するために推定される必要がある。1つの解決策は、式(34)と同様に、PDF値を使ってピークの位置を計算し、推定された基本周波数を使って、間のピークの位置を推定することである。しかし、このアプローチは、相対的に安定した基本的周波数推定を必要とする。実施の形態は、提案された圧縮アプローチが可能であることを示す、簡単に速く実施する、代わりの方法を示す。
トロンボーン信号の時間領域表現は、図51に示される。図51Aは、時間領域表現においてトロンボーン信号の波形を示す。図51Bは、推定されたピークだけを含む、対応する時間領域信号を示す。ピークの位置は、送信されたメタデータを使って得られる。図
51Bの信号は、例えば図30に関して説明されたパルス列265である。アルゴリズムは、波形の中のピークの位置を分析することによって開始する。これは、局部的な最大を検索することによって実行される。個々の27ミリ秒に対して(すなわち、個々の20個のQMFフレームに対して)、フレームの中心点に最も近いピークの位置が送信される。送信されたピーク位置の間において、ピークは時間内に均等に間隔をおいて配置されると推定される。従って、基本周波数を知ることによって、ピークの位置が推定される。この実施の形態において、検出されたピークの数が送信される。(これが、全てのピークの成功した検出を必要とすることは注目するべきである。基本的周波数に基づく推定は、たぶん、より頑強な結果を産む。)結果として生じるビット転送速度は、約0.5kbpsである(エントロピー符号化のように、どんな圧縮も無しで)。それは、9ビットを使って、全ての27ミリ秒に対して、ピークの位置を送信すること、および、4ビットを使って、間のトランジェントの数を送信すること、を含む。この精度は、非量子化と等しい知覚された品質を生むために見付けられた。しかし、重要なことに、より低いビット転送速度が、たぶん、十分に良好な知覚された品質を生む多くの場合に使われる。
垂直位相コヒーレンスを有する信号の波形は、一般に急峻で、パルス列を思い出させる。従って、垂直訂正のための目標位相スペクトルは、対応する位置および対応する基本周波数にてピークを有するパルス列の位相スペクトルとして、それをモデル化することによって推定できる、ことが提案される。
時間的フレームの中心に最も近い位置が、例えば全ての20番目の時間的フレーム(27ミリ秒の間隔に対応する)に対して送信される。等しい転送速度で送信される、推定された基本周波数は、ピーク位置を、送信された位置の間に内挿するために用いられる。
あるいは、基本周波数およびピーク位置は、復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が、符号化段階においてオリジナル信号によって実行されるならば、より良好な推定が期待できる。
提案された方法は、例えば27ミリ秒の更新転送速度によって、推定されたピーク位置および基本周波数だけを送信するために、符号化段階を用いる。さらに、基本周波数が相対的に低い時にだけ、垂直位相デリバチィブの中のエラーが知覚可能である、ことに注目
するべきである。従って、基本周波数は相対的に低いビット転送速度によって送信される。
仮にビット転送速度が、トランジェントのために圧縮される必要があるならば、同様なアプローチが、PDF訂正のために使われる(9.2節を参照のこと)。簡単にトランジェントの位置(すなわち、1つの値)が送信される。目標位相スペクトルおよび目標PDFは、9.2節の中のように、この位置の値を使って得ることができる。
あるいは、トランジェント位置は、復号段階において推定され、情報は送信される必要がない。しかし、仮に推定が符号化段階においてオリジナル信号によって実行されるならば、より良好な推定が期待できる。
前述の実施の形態の全ては、別の実施の形態から分離して、または、実施の形態の組み合わせにおいて、見られる。従って、図53から図57までは、初めに説明された実施の形態のうちのいくつかを組み合わせるエンコーダおよびデコーダを提供する。
図53は、オーディオ信号を復号するためのデコーダ110´´を示す。デコーダ110´´は、第1目標スペクトル生成器65aと、第1位相訂正器70aと、オーディオサブバンド信号計算器350とを含む。第1目標スペクトル生成器65a(目標位相尺度決定器とも呼ぶ)が、第1訂正データ295aを使って、オーディオ信号32のサブバンド信号の第1時間フレームのための目標スペクトル85a´´を生成する.
第1位相訂正器
70aは、位相訂正アルゴリズムによって決定されたオーディオ信号32の第1時間フレームの中のサブバンド信号の位相45を訂正する。訂正は、オーディオ信号32の第1時間フレームのサブバンド信号の尺度と、目標スペクトル85´´との間の差を、減らすことによって実行される。オーディオサブバンド信号計算器350は、時間フレームのための訂正位相91aを使って、第1時間フレームのためのオーディオサブバンド信号355を計算する。あるいは、オーディオサブバンド信号計算器350は、第2時間フレームの中のサブバンド信号の尺度85a´´を使うか、または、前記位相訂正アルゴリズムとは異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第1時間フレームとは異なる第2時間フレームのためのオーディオサブバンド信号355を計算する。図53は
、さらに、マグニチュード47および位相45に関して、オーディオ信号32を任意に分析する分析器360を示す。別の位相訂正アルゴリズムは、第2位相訂正器70bまたは第3位相訂正器70cにおいて実行される。これらの別の位相訂正器は、図54に関して説明されるだろう。オーディオサブバンド信号計算器250は、第1時間フレームのための訂正位相91と第1時間フレームのオーディオサブバンド信号のマグニチュード値47とを使って、第1時間フレームのためのオーディオサブバンド信号を計算する。マグニチュード値47は、第1時間フレームの中のオーディオ信号32のマグニチュード、または、第1時間フレームの中のオーディオ信号35の処理されたマグニチュードである。
図54は、デコーダ110´´の別の実施の形態を示す。従って、デコーダ110´´は、第2目標スペクトル生成器65bを含む。第2目標スペクトル生成器65bは、第2訂正データ295bを使って、オーディオ信号32のサブバンドの第2時間フレームのための目標スペクトル85b´´を生成する。検出器110´´は、さらに、第2位相訂正アルゴリズムによって決定されたオーディオ信号32の時間フレームの中のサブバンドの位相45を訂正するための第2位相訂正器70bを含む。訂正は、オーディオ信号のサブバンドの時間フレームの尺度と、目標スペクトル85b´´との間の差を減らすことによって実行される。
従って、デコーダ110´´は、第3目標スペクトル生成器65cを含む。第3目標スペクトル生成器65cは、第3訂正データ295cを使って、オーディオ信号32のサブバンドの第3時間フレームのための目標スペクトルを生成する。さらに、デコーダ110´´は、第3位相訂正アルゴリズムによって決定された、サブバンドの位相45とオーディオ信号32の時間フレームとを訂正するための第3位相訂正器70cを含む。訂正は、オーディオ信号のサブバンドの時間フレームの尺度と、目標スペクトル85cとの間の差を減らすことによって実行される。オーディオサブバンド信号計算器350は、第3位相訂正器の位相訂正を使って、第1および第2時間フレームとは異なる第3時間フレームのためのオーディオサブバンド信号を計算できる。
実施の形態によると、第1位相訂正器70aは、オーディオ信号の前の時間フレームの位相訂正サブバンド信号91aを格納するように、または第2位相訂正器70bまたは第3位相訂正器70cからオーディオ信号の前の時間フレームの位相訂正サブバンド信号375を受信するように構成される。さらに、第1位相訂正器70aは、前の時間フレームの格納された、または、受信された位相訂正サブバンド信号91a,375に基づいて、オーディオサブバンド信号の現在の時間フレームの中のオーディオ信号32の位相45を訂正する。
別の実施の形態は、水平位相訂正を実行する第1位相訂正器70aと、垂直位相訂正を実行する第2位相訂正器70bと、トランジェントのための位相訂正を実行する第3位相訂正器70cとを示す。
別の観点から、図54は、位相訂正アルゴリズムの中の復号段階のブロック図を示す。処理への入力は、時間周波数領域の中のBWE信号とメタデータとである。また、実際の応用において、発明の位相デリバティブ訂正は、既存のBWE計画のフィルタバンクまたは変換を共同使用することが好ましい。現在の例において、これは、SBRにおいて使われるQMF領域である。第1デマルチプレクサー(多重分離器、図示せず)は、位相デリバティブ訂正データを、発明の訂正によって拡張されている知覚符号器を備えたBWEのビットストリームから引き出す。
第2デマルチプレクサー130(DEMUX)は、先ず、受信したメタデータ135を、種々の訂正モードのために、活性化データ365と訂正データ295a−cとに分割す
る。活性化データに基づいて、目標スペクトルの計算は、正しい訂正モードに対して活性化される(他の訂正モードは待機する)。目標スペクトルを使って、位相訂正は、要求された訂正モードを使って、受信されたBWE信号に対して実行される。水平訂正70aが、再帰的に(すなわち、前の信号フレームに依存して)実行されると、それは、別の訂正モード70bおよび70cから、前の訂正マトリクスも受信する、ことは注目するべきである。最後に、訂正信号、または、無処理の信号が、活性化データに基づいて出力に設定される。
図55は、デコーダ110´´の別の実施の形態を示す。この実施の形態によると、デコーダ110´´は、コアデコーダ115と、パッチ器120と、シンセサイザー100と、ブロックAとを含む。ブロックAは、図54において示された前の実施の形態に従うデコーダ110´´である。コアデコーダ115は、オーディオ信号55に関して、数が減らされたサブバンドによって、時間フレームの中のオーディオ信号25を復号するように構成される。パッチ器120は、数が減らされたサブバンドによってコア復号されたオーディオ信号25のサブバンドのセットをパッチする。サブバンドのセットは、正規の数のサブバンドを有するオーディオ信号32を得るために、第1パッチを、数が減らされたサブバンドに隣接する時間フレームの中の別のサブバンドに形成する。マグニチュードプロセッサ125´は、時間フレームの中のオーディオサブバンド信号355のマグニチュード値を処理する。前のデコーダ110および110´によると、マグニチュードプロセッサは、バンド幅拡張パラメータ応用器125である。
多くの別の実施の形態は、信号プロセッサブロックが切り替わる、と考えられる。例えば、マグニチュードプロセッサ125´とブロックAとは交換できる。従って、ブロックAは、再構成されたオーディオ信号35に働く。ここで、パッチのマグニチュード値は既に訂正されている。あるいは、オーディオサブバンド信号計算器350が、オーディオ信号の位相が訂正されかつマグニチュードが訂正部分から、訂正オーディオ信号355を形成するために、マグニチュードプロセッサ125´の後に置かれる。
さらに、デコーダ110´´は、周波数結合処理されたオーディオ信号90を得るために、位相およびマグニチュードが訂正オーディオ信号を合成するためのシンセサイザー100を含む。任意に、マグニチュード訂正も位相訂正もどちらも、コア復号されたオーディオ信号25に適用されないので、前記オーディオ信号は、シンセサイザー100に直接に送信される。前述のデコーダ110または110´のうちの1つの中に適用された、どのような任意の処理ブロックでも、同様に、デコーダ110´´の中に適用される。
図56は、オーディオ信号55を符号化するためのエンコーダ155´´を示す。エンコーダ155´´は、計算器270に接続された位相決定器380と、コアエンコーダ160と、パラメータ抽出器165と、出力信号形成器170とを含む。位相決定器380は、オーディオ信号55の位相45を決定する。計算器270は、オーディオ信号55の決定された位相45に基づいて、オーディオ信号55のための位相訂正データ295を決定する。コアエンコーダ160は、オーディオ信号55に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号145を得るために、オーディオ信号55
をコア符号化する。パラメータ抽出器165は、コア符号化されたオーディオ信号に含まれないサブバンドの第2セットのための低解像度パラメータ表現を得るために、パラメータ190を、オーディオ信号55から取り出す。出力信号形成器170は、パラメータ190と、コア符号化されたオーディオ信号145と、位相訂正データ295´と、を含む出力信号135を形成する。任意に、エンコーダ155´´は、オーディオ信号55をコア符号化する前のローパスフィルタ180と、パラメータ190をオーディオ信号55から取り出す前のハイパスフィルタ185とを含む。あるいは、オーディオ信号55をローパスフィルタまたはハイパスフィルタする代わりに、ギャップを満たすアルゴリズムが使われる。コアエンコーダ160は、数が減らされたサブバンドをコア符号化する。サブバンドのセット内の少なくとも1つのサブバンドが、コア符号化されない。さらに、パラメータ抽出器165は、パラメータ190を、コアエンコーダ160によって符号化されなかった少なくとも1つのサブバンドから取り出す。
実施の形態によると、計算器270は、第1バリエーションモードまたは第2バリエーションモードまたは第3バリエーションモードに従って、位相訂正を訂正するための訂正データ計算器285a−cのセットを含む。さらに、計算器270は、訂正データ計算器285a−cのセットのうちの1つの訂正データ計算器を活性化するための活性化データ365を決定する。出力信号形成器170は、活性化データとパラメータとコア符号化されたオーディオ信号と位相訂正データとを含む出力信号を形成する。
図57は、図56に示されたエンコーダ155´´の中で使われる計算器270の代わりの実施を示す。訂正モード計算器385は、バリエーション決定器275とバリエーション比較器280とを含む。活性化データ365は、種々のバリエーションを比較することの結果である。さらに、活性化データ365は、決定されたバリエーションに従って、訂正データ計算器185a−cのうちの1つを作動させる。計算された訂正データ295aまたは295bまたは295cは、エンコーダ155´´の出力信号形成器170の入力であり、それ故、出力信号135の一部である。
実施の形態は、メタデータ形成器390を含む計算器270を示す。メタデータ形成器390は、計算された訂正データ295aまたは295bまたは295cと活性化データ365とから成るメタデータストリーム295´を形成する。仮に訂正データ自身が、現在の訂正モードの十分な情報を含まないならば、活性化データ365はデコーダに送信される。十分な情報は、例えば、訂正データ295aおよび訂正データ295bおよび訂正データ295cに対して異なる訂正データを説明するために用いられた多数のビットである。さらに、出力信号形成器170は、メタデータ形成器390が省略できるように、活性化データ365を追加して使う。
別の観点から、図57のブロック図は、位相訂正アルゴリズムの中の符号化段階を示す。処理への入力は、オリジナルのオーディオ信号55と時間周波数領域である。実際的な応用において、発明の位相デリバティブ訂正は、既存のBWE計画のフィルタバンクまたは変換を共同使用することが好ましい。現在の例において、これは、SBRにおいて使われるQMF領域である。
訂正モード計算ブロックは、先ず、個々の時間的フレームに適用される訂正モードを計算する。活性化データ365に基づき、訂正データ295a−cの計算は、正しい訂正モードにおいて活性化される(他の訂正モードは待機する)。最後に、マルチプレクサー(MUX)は、種々の訂正モードから、活性化データと訂正データとを組み合わせる。
別のマルチプレクサー(図示せず)は、位相デリバティブ訂正データを、BWEのビットストリームの中に組み合わせる。知覚的エンコーダは、発明の訂正によって拡張される
図58は、オーディオ信号を復号するための方法5800を示す。方法5800は、「第1目標スペクトル生成器によって、第1訂正データを使って、オーディオ信号のサブバンド信号の第1時間フレームのための目標スペクトルを生成する」というステップ5805と、「位相訂正アルゴリズムによって決定された第1位相訂正器によって、オーディオ信号の第1時間フレームの中のサブバンド信号の位相を訂正する。訂正は、オーディオ信号の第1時間フレームの中のサブバンド信号の尺度と目標スペクトルとの間の差を減らすことによって実行される」というステップ5810と、「オーディオサブバンド信号計算器によって、時間フレームの訂正位相を使って、第1時間フレームのためのオーディオサブバンド信号を計算すると共に、第2時間フレームの中のサブバンド信号の尺度を使って、または、前記位相訂正アルゴリズムとは異なる別の位相訂正アルゴリズムに従って訂正位相計算を使って、第1時間フレームとは異なる第2時間フレームのためのオーディオサブバンド信号を計算する」というステップ5815とを含む。
図59は、オーディオ信号を符号化するための方法5900を示す。方法5900は、「位相決定器によってオーディオ信号の位相を決定する」というステップ5905と、「オーディオ信号の決定された位相に基づいて、計算器によって、オーディオ信号のための位相訂正データを決定する」というステップ5910と、「コアエンコーダによって、オーディオ信号に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号を得るために、オーディオ信号をコア符号化する」というステップ5915と、「パラメータ抽出器によって、コア符号化されたオーディオ信号の中に含まれないサブバンドの第2セットのための低解像度パラメータ表現を得るために、オーディオ信号からパラメータを取り出す」というステップ5920と、「出力信号形成器によって、パラメータおよびコア符号化されたオーディオ信号および位相訂正データを含む出力信号を形成する」というステップ5925とを含む。
前述された方法2300および方法2400および方法2500および方法3400および方法3500および方法3600および方法4200と同様に、方法5800と方法5900とは、コンピュータにおいて実行されるコンピュータプログラムの中で実施される。
オーディオ信号55が、オーディオ信号、特にオリジナル(すなわち、処理されていない)オーディオ信号、または、オーディオ信号Xtrans(k,n)の送信された部分25
、または、ベースバンド信号Xbase(k,n)30、または、オリジナルのオーディオ信号と比較されるときに、より高い周波数32を含む処理されたオーディオ信号、または、再構成されたオーディオ信号35、または、マグニチュード訂正周波数パッチY(k,n,i)40、または、オーディオ信号の位相45、または、オーディオ信号のマグニチュード47に対して、一般用語として使われる、ことに注目する必要がある。従って、異なるオーディオ信号は、実施の形態の文脈のために、相互に交換される。
代わりの実施の形態は、発明の時間周波数処理、例えば短時間フーリエ変換(STFT)または複合修正離散コサイン変換(CMDCT)または離散フーリエ変換(DFT)領域のために使われる種々のフィルタバンクまたは変換領域に関連する。従って、変換に関連した特定の位相特性が考慮される。詳細すると、仮に、例えばコピーアップ係数が、偶数から奇数にコピーされる(または、逆もまた同様)ならば、すなわち、オリジナルのオーディオ信号の2番目のサブバンドが、実施の形態において説明されるように、8番目のサブバンドの代わりに9番目のサブバンドにコピーされるならば、パッチの共役の複合が、処理のために使われる。同じことは、パッチ内の位相角の逆順を克服するために、例えばコピーアップアルゴリズムを使う代わりに、パッチのミラー化に適用される。
別の実施の形態は、エンコーダからのサイド情報を放棄し、デコーダ側でいくつかのまたは全ての必要な訂正パラメータを推定し得る。別の実施の形態は、例えば異なるベースバンド部分、または、パッチの異なる数またはサイズ、または、異なる入れ換え技術(例えばスペクトルのミラー化、または、単一のサイドバンド変調(SSB))を使う別の潜在的なBWEパッチ化計画を有する。位相訂正がBWE合成信号流れの中に正確に協調するバリエーションも存在する。さらに、平滑化は、例えば1次のIIRによって、より良いコンピュータ処理効率のために置き替えられる、スライディングハン窓を使って実行される。
最先端知覚オーディオ符号器の状態の使用は、しばしば、特に低いビット転送速度で、オーディオ信号のスペクトルコンポーネントの位相コヒーレンスを害する。ここでは、バンド幅拡張のようなパラメータの符号化技術が適用される。これは、オーディオ信号の位相デリバティブの変更を引き起こす。しかし、特定の信号のタイプにおいて、位相デリバティブの保存は重要である。結果として、そのような音の知覚の品質が害される。仮に位相デリバティブの復元が、知覚的に有益ならば、本発明は、そのような信号の周波数上(「垂直」)または時間上(「水平」)の何れか一方の位相デリバティブを再調整する。さらに、垂直または水平位相デリバティブを調整するかどうかを決定することは、知覚的に好ましい。非常にコンパクトなサイド情報だけの送信は、位相デリバティブ訂正処理を制御するために必要である。従って、本発明は、適切なサイド情報コストで、知覚的オーディオコーダの音の品質を改良する。
言い換えると、スペクトルのバンド複製(SBR)は、位相スペクトルの中のエラーを引き起こすことができる。これらのエラーの人間の知覚は、2つの知覚的に重要な効果(高調波の周波数および時間的な位置における差)を明らかにすることを学んだ。周波数エラーは、基本周波数が十分に高い時にだけ、ERBバンドの内側に唯一の高調波が存在することを知覚できるように見える。対応して、仮に基本周波数が低く、かつ、高調波の位相が周波数上で位置合わせされるならば、そのときのみ、時間的位置エラーは知覚できるように見える。
周波数エラーは、時間上の位相デリバティブ(PDT)を計算することによって検出できる。仮にPDTの値が、時間上、安定しているならば、SBR処理された信号とオリジナル信号との間のそれらの差は、訂正されるべきである。これは高調波の周波数を効果的に訂正し、それにより、不調和性の知覚が避けられる。
時間的位置エラーは、周波数上の位相デリバティブ(PDF)を計算することによって検出できる。仮にPDF値が、周波数上、安定しているならば、SBR処理された信号とオリジナル信号との間のそれらの差は、訂正されるべきである。これは高調波の時間的位置を効果的に訂正し、それにより、クロスオーバー周波数での変調する雑音の知覚が避けられる。
本発明は、ブロックが現実のまたは論理的なハードウェア組成物を表すブロック図の文脈において説明されたけれども、本発明は、また、コンピュータで実施される方法によっても実施できる。後者の場合において、ブロックは、対応する方法ステップを表す。これらのステップは、対応する論理的なまたは物質的なハードウェアブロックによって実行される機能を表す。
いくつかの面が、装置の文脈において説明されているけれども、これらの面も、対応する方法の説明を表していることは明確である。ブロックまたはデバイスが、方法ステップまたは方法ステップの特徴に対応する。相似的に、方法ステップの文脈において説明され
た面も、対応するブロックの説明または対応する装置のアイテムまたは特徴を表している。方法ステップのうちのいくつかまたは全てが、例えばマイクロプロセッサまたはプログラム可能なコンピュータまたは電子回路のような、ハードウェア装置によって(を使って)実行される。いくつかの実施の形態において、最も重要な方法ステップのうちの1つ以上は、そのような装置によって実行される。
発明の送信されたまたは符号化された信号は、デジタルの記憶媒体に格納されるか、またはインターネットのような無線送信媒体または有線送信媒体などの送信媒体に送信される。
特定の実施要件に依存することによって、発明の実施の形態は、ハードウェアまたはソフトウェアにおいて実施される。実施は、その上に格納された電子的に読み取り可能な制御信号を有するデジタル記憶媒体(例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、およびEPROM、EEPROM、またはフラッシュメモリ)を使って実行できる。それは、個々の方法が実行されるように、プログラム可能なコンピュータシステムと協働する(または、協働する可能性がある)。従って、デジタル記憶媒体は読み取り可能なコンピュータでもよい。
発明に応じたいくつかの実施の形態は、ここで説明された方法のうちの1つが実行されるように、プログラム可能なコンピュータシステムと協働する可能性がある、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の実施の形態は、プログラム符号を有するコンピュータプログラム製品として実施される。コンピュータプログラム製品が、コンピュータにおいて稼動するとき、プログラム符号は、方法のうちの1つを実行するために作動する。プログラム符号は、例えば、機械読み取り可能なキャリアに格納される。
別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを含み、機械読み取り可能なキャリアに格納される。
言い換えると、発明の方法の実施の形態は、コンピュータプログラムがコンピュータ上で稼働するとき、ここに説明された方法のうちの1つを実行するためのプログラム符号を有するコンピュータプログラムである。
従って、発明の方法の別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムをその上に記録されたデータキャリア(または、デジタルの記憶媒体などの非一時的な記憶媒体、または、コンピュータ読み取り可能な媒体)を含む。データキャリアまたはデジタルの記憶媒体または記録された媒体は、一般に、実体的および/または非一時的である。
従って、発明の方法の別の実施の形態は、ここに説明された方法のうちの1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号の連続は、例えば、データ通信接続を介して、例えばインターネットを介して、転送されるように構成される。
別の実施の形態は、ここに説明された方法のうちの1つを実行するように構成されるか、またはそれに適応した処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。
別の実施の形態は、その上に、ここに説明された方法のうちの1つを実行するためのコ
ンピュータプログラムをインストールしているコンピュータを含む。
発明に従う別の実施の形態は、ここに記述された方法のうちの1つを実行するためのコンピュータプログラムを、受信器に転送(例えば、電子的にまたは光学的に)するように構成された装置またはシステムを含む。受信器は、例えば、コンピュータまたは携帯機器または記憶デバイスなどである。装置またはシステムは、例えば、コンピュータプログラムを受信器に転送するためのファイルサーバーを含む。
いくつかの実施の形態において、プログラム可能な論理デバイス(例えば、フィールドプログラム可能ゲートアレイ)は、ここに説明された方法の機能のいくつかまたは全てを実行するために使用される。いくつかの実施の形態において、フィールドプログラム可能ゲートアレイは、ここに説明された方法のうちの1つを実行するために、マイクロプロセッサと協働する。一般に、方法は、好ましくは、どのようなハードウェア装置によっても実行される。
前述の実施の形態は、単に、本発明の原則のための例示である。ここに説明された配列と詳細の修正とバリエーションとが当業者に明白であることは理解される。従って、それは、差し迫った特許請求の範囲によってのみ制限されるという意図であって、実施の形態の記述と説明によって提供された特定の詳細によって制限されるという意図ではない。

Claims (20)

  1. オーディオ信号(55)を処理するためのオーディオプロセッサ(50´)であって、
    時間フレーム(75)の中の前記オーディオ信号(55)のための目標位相尺度(85´)を決定するための目標位相尺度決定器(65´)と、
    前記時間フレーム(75)の中の前記オーディオ信号(55)の位相と前記目標位相尺度(85´)とを使って、位相エラー(105´)を計算するための位相エラー計算器(200)と、
    前記位相エラー(105´)を使って、前記時間フレームの中の前記オーディオ信号(55)の前記位相を訂正するように構成される、位相訂正器(70´)と、
    を含む、オーディオプロセッサ。
  2. 前記オーディオ信号(55)は、前記時間フレーム(75)のための複数のサブバンド(95)を含み、
    前記目標位相尺度決定器(65´)は、第1サブバンド信号(95a)のための第1目標位相尺度(85a´)と、第2サブバンド信号(95b)のための第2目標位相尺度(85b´)とを決定するように構成され、
    前記位相エラー計算器(200)は、位相エラー(105´)のベクトルを形成するように構成され、前記ベクトルの第1要素は、前記第1サブバンド信号(95a)の前記位相と前記第1目標位相尺度(85a´)との第1偏差(105a´)を参照し、前記ベクトルの第2要素は、前記第2サブバンド信号(95b)の前記位相と前記第2目標位相尺度(85b´)との第2偏差(105b´)を参照し、
    訂正第1サブバンド信号(90a´)および訂正第2サブバンド信号(90b´)を使って、訂正オーディオ信号(90´)を合成するためのオーディオ信号シンセサイザー(100)を含む、請求項1に記載のオーディオプロセッサ。
  3. 複数のサブバンド(95)は、ベースバンド(30)と周波数パッチ(40)のセットにグループ化され、前記ベースバンド(30)は、前記オーディオ信号(55)の1つのサブバンド(95)を含み、そして、周波数パッチ(40)の前記セットは、前記ベースバンドの前記サブバンド(95)の周波数より高い周波数で、前記ベースバンド(30)の少なくとも1つのサブバンドを含み、
    前記位相エラー計算器(200)は、平均位相エラー(105´´)を得るために、周波数パッチ(40)の前記セットの第1パッチ(40a)を参照する位相エラー(105´)のベクトルの要素の平均を計算するように構成され、
    前記位相訂正器(70´)は、重み付けされた平均位相エラーを使って、周波数パッチの前記セットの最初および次の周波数パッチ(40)の中のサブバンド信号の位相を訂正するように構成され、前記平均位相エラー(105´´)は、修正されたパッチ信号(40´)を得るために、前記周波数パッチ(40)のインデックスに従って重み付けされる、請求項1に記載のオーディオプロセッサ。
  4. 前記オーディオプロセッサ(50´)は、さらに、ベースバンド(30)のための周波数上の位相デリバティブ(PDF)の平均(215)を計算するように構成されるオーディオ信号位相デリバティブ計算器(210)を含み、
    前記位相訂正器(70´)は、現在のサブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの平均(215)を、前記オーディオ信号(55)の前記ベースバンド(30)の中で最も高いサブバンドインデックスを有する前記サブバンド信号の位相に追加することによって、最適化された第1周波数パッチによって別の修正されたパッチ信号(40´´)を計算するように構成される、請求項3に記載のオーディオプロセッサ。
  5. オーディオ信号位相デリバティブ計算器(210)は、サブバンド信号(95)の中のトランジェントを検出するために、ベースバンド信号(30)より高い周波数を含む複数のサブバンド信号のための周波数上の位相デリバティブ(PDF)の平均(215)を計算するように構成され、
    前記位相訂正器(70´)は、現在のサブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの平均(215)を、前記オーディオ信号(55)の前記ベースバンド(30)の中で最も高いサブバンドインデックスを有する前記サブバンド信号の位相に追加することによって、最適化された第1周波数パッチによって別の修正されたパッチ信号(40´´)を計算するように構成される、請求項1ないし請求項3のいずれかに記載のオーディオプロセッサ。
  6. 前記位相訂正器(70´)は、前記周波数パッチ(40)に基づいて、現在のサブバンドの前記サブバンドインデックスによって重み付けされた周波数上の位相デリバティブの平均(215)を、前の周波数パッチの中で最も高いサブバンドインデックスを有するサブバンド信号の位相に追加されることによって別の修正されたパッチ信号(40´´)を再帰的に更新するように構成される、請求項4または請求項5に記載のオーディオプロセッサ。
  7. 前記位相訂正器(70´)は、結合され修正されたパッチ信号(40´´´)を得るために、前記修正されたパッチ信号(40´)と前記別の修正されたパッチ信号(40´´)との重み付けされた平均を計算するように構成され、
    前記位相訂正器(70´)は、前記周波数パッチ(40)に基づいて、前記現在のサブバンド(95)の前記サブバンドインデックスによって重み付けされた周波数上の前記位相デリバティブの前記平均(215)を、前記結合され修正されたパッチ信号(40´´´)の前記前の周波数パッチの中で前記最も高いサブバンドインデックスを有する前記サブバンド信号の前記位相に追加することによって、前記結合され修正されたパッチ信号(40´´´)を再帰的に更新するように構成される、請求項6に記載のオーディオプロセッサ。
  8. 前記位相訂正器(70´)は、第1特定重み付け関数によって重み付けされた現在の周波数パッチの中のパッチ信号(40´)と第2特定重み付け関数によって重み付けされた前記現在の周波数パッチの中の修正されたパッチ信号(40´´)との円平均を使って、前記パッチ信号(40´)と前記修正されたパッチ信号(40´´)との重み付けされた平均を計算するように構成される、請求項1ないし請求項7のいずれかに記載のオーディオプロセッサ。
  9. 前記位相訂正器(70´)は、位相偏差のベクトルを形成するように構成され、前記位相訂正器(70´)は、結合され修正されたパッチ信号(40´´´)と前記オーディオ信号(55)とを使って、前記位相偏差を計算するように構成される、請求項1ないし請求項8のいずれかに記載のオーディオプロセッサ。
  10. 前記目標位相尺度決定器(65´)は、
    前記オーディオ信号(55)の現在の時間フレームの中のピーク位置(230)およびピーク位置の基本周波数(235)を、データストリーム(135)から取り出すように構成される、データストリーム抽出器(130´)、または、
    前記現在の時間フレームの中のピーク位置(230)およびピーク位置の基本周波数(235)を計算するために、前記現在の時間フレームの中の前記オーディオ信号(55)を分析するように構成されるオーディオ信号分析器(225)と、
    前記ピーク位置(230)およびピーク位置の前記基本周波数(235)を使って、前記現在の時間フレームの中の別のピーク位置を推定するための目標スペクトル生成器(240)と、
    を含む、請求項1ないし請求項9のいずれかに記載のオーディオプロセッサ。
  11. 前記目標スペクトル生成器(240)は、
    時間上のパルス列(265)を生成するためのピーク生成器(245)と、
    ピーク位置の前記基本周波数(235)に従って、前記パルス列(265)の周波数を調整するための信号形成器(250)と、
    前記ピーク位置(230)に従って、前記パルス列(265)の位相を調整するためのパルス位置器(255)と、
    前記調整されたパルス列の位相スペクトルを生成するためのスペクトル分析器(260)であって、時間領域信号の前記位相スペクトルは、前記目標位相尺度(85´)である、前記スペクトル分析器(260)と、
    を含む、請求項10に記載のオーディオプロセッサ。
  12. オーディオ信号(25)を復号するためのデコーダ(110´)であって、前記デコーダは、
    ベースバンドのサブバンド(95)のセットを得るために、時間フレームの中のオーディオ信号(25)を復号するように構成されるコアデコーダ(115)と、
    前記ベースバンドのサブバンド(95)の前記セットをパッチするように構成されるパッチ器(120)であって、サブバンドの前記セットは、前記ベースバンドの前記周波数より高い周波数を含むオーディオ信号(32)を得るために、前記ベースバンドに隣接する前記時間フレームの中の別のサブバンドに、パッチを形成する、パッチ器(120)と、
    請求項1ないし請求項11のいずれかに記載のオーディオプロセッサ(50´)であって、前記オーディオプロセッサ(50´)は、目標位相尺度に従って前記パッチの前記サブバンドの位相を訂正するように構成される、オーディオプロセッサ(50´)と、
    を含む、デコーダ。
  13. 前記パッチ器(120)は、前記オーディオ信号(25)のサブバンド(95)の前記セットをパッチするように構成され、サブバンドの前記セットは、前記パッチに隣接する前記時間フレームの別のサブバンドに、別のパッチを形成し、
    前記オーディオプロセッサ(50´)は、前記別のパッチの前記サブバンド内の前記位相を訂正するように構成されるか、または
    前記パッチ器(120)は、前記パッチに隣接する前記時間フレームの別のサブバンドに、前記訂正パッチをパッチするように構成される、請求項12に記載のデコーダ。
  14. 前記デコーダ(110´)は、請求項1ないし請求項11のいずれかに記載の別のオーディオプロセッサ(50)を含み、前記別のオーディオプロセッサ(50)は、周波数上の別の位相デリバティブを受信するように構成され、そして、周波数上の前記受信された位相デリバティブを使って、前記オーディオ信号(32)の中のトランジェントを訂正するように構成される、請求項12または請求項13に記載のデコーダ。
  15. オーディオ信号(55)を符号化するためのエンコーダ(155´)であって、
    前記オーティオ信号(55)について、数が減らされたサブバンドを有するコア符号化されたオーディオ信号(145)を得るために、前記オーディオ信号(55)をコア符号化するように構成されるコアエンコーダ(160)と、
    前記オーディオ信号の中のピーク位置の基本周波数推定(235)を得るために、前記オーディオ信号(55)または前記オーディオ信号のローパスフィルタされたバージョンの中のピーク位置(230)を分析するための基本周波数分析器(175)と、
    前記コア符号化されたオーディオ信号(145)に含まれない前記オーディオ信号(55)のサブバンドのパラメータ(190)を引き出すように構成されるパラメータ抽出器(165)と、
    出力信号(135)を形成するように構成される出力信号形成器(170)であって、前記出力信号は前記コア符号化されたオーディオ信号(145)を含み前記出力信号は前記パラメータ(190)をさらに含み前記出力信号はピーク位置の前記基本周波数推定(235)をさらに含みかつ、前記出力信号は前記ピーク位置(230)のうちの少なくともつを含む、出力信号形成器(170)と、
    を含む、エンコーダ。
  16. 前記出力信号形成器(170)は、前記出力信号(135)を、一連のフレームの中に形成するように構成され、個々のフレームは、前記コア符号化されたオーディオ信号(145)とパラメータ(190)とを含み、N−1個おきのフレームがすべて、ピーク位置の前記基本周波数推定(235)と前記ピーク位置(230)とを含み、Nは、2以上の整数である、請求項15に記載のエンコーダ。
  17. ーディオ信号(55)を処理するための方法(3400)であって、
    間フレーム(75)の中の前記オーディオ信号のための目標位相尺度(85´)を決定するステップと、
    前記時間フレーム(75)の中の前記オーディオ信号(55)の位相と前記目標位相尺度(85´)とを使って、位相エラー(105´)を計算するステップと、
    前記位相エラー(105´)を使って、前記時間フレーム(75)の中の前記オーディオ信号(55)の前記位相を訂正するステップと、
    を含む、方法。
  18. ーディオ信号(25)を復号するための方法(3500)であって、前記方法は、
    ベースバンドの中のサブバンドのセットを得るために、前記ベースバンドの時間フレームの中のオーディオ信号(25)を復号するステップと、
    記ベースバンドの中のサブバンドの前記セットをパッチするステップであって、サブバンド(95)の前記セットは、前記ベースバンドの前記周波数より高い周波数を含むオーディオ信号(32)を得るために、前記ベースバンドに隣接する前記時間フレームの中の別のサブバンドに、パッチを形成する、パッチするステップと、
    目標位相尺度に従って、請求項17に記載の処理するための方法(3400)によって、前記パッチの前記サブバンドの位相を訂正するステップと、
    を含む、方法。
  19. ーディオ信号(55)を符号化するための方法(3600)であって、前記方法は、
    前記オーディオ信号(55)に関して、数が減らされたサブバンドを有するコア符号化されたオーディオ信号(145)を得るために、前記オーディオ信号をコア符号化するステップと、
    前記オーディオ信号(55)の中のピーク位置の基本周波数推定を得るために、前記オーディオ信号(55)または前記オーディオ信号(55)のローパスフィルタされたバージョンを分析するステップと、
    記オーディオ信号(55)の特定のサブバンドのパラメータ(150)を引き出すステップであって、前記特定のサブバンドは、前記コア符号化されたオーディオ信号に含まれない、引き出すステップと、
    力信号(135)を形成するステップであって、前記出力信号は前記コア符号化されたオーディオ信号(145)を含み前記出力信号は前記パラメータ(190)をさらに含み前記出力信号はピーク位置の前記基本周波数推定(235)をさらに含み前記出力信号は前記ピーク位置(230)のうちの少なくともつをさらに含む、形成するステップと、
    を含む、方法。
  20. コンピュータプログラムがコンピュータ上で実行されるとき、請求項17ないし請求項19のいずれかに記載の方法を実行するプログラムコードを有する、コンピュータプログラム。
JP2016575802A 2014-07-01 2015-06-25 オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法 Active JP6553657B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP14175202.2 2014-07-01
EP14175202 2014-07-01
EP15151476.7 2015-01-16
EP15151476.7A EP2963648A1 (en) 2014-07-01 2015-01-16 Audio processor and method for processing an audio signal using vertical phase correction
PCT/EP2015/064439 WO2016001068A1 (en) 2014-07-01 2015-06-25 Audio processor and method for processing an audio signal using vertical phase correction

Publications (3)

Publication Number Publication Date
JP2017525995A JP2017525995A (ja) 2017-09-07
JP2017525995A5 JP2017525995A5 (ja) 2018-09-20
JP6553657B2 true JP6553657B2 (ja) 2019-07-31

Family

ID=52449941

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2016575797A Active JP6535037B2 (ja) 2014-07-01 2015-06-25 オーディオ信号を復号するためのデコーダおよび方法、並びにオーディオ信号を符号化するためのエンコーダおよび方法
JP2016575800A Active JP6527536B2 (ja) 2014-07-01 2015-06-25 オーディオプロセッサおよび水平位相訂正を用いたオーディオ信号処理方法
JP2016575802A Active JP6553657B2 (ja) 2014-07-01 2015-06-25 オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法
JP2016575785A Active JP6458060B2 (ja) 2014-07-01 2015-06-25 オーディオ信号のための位相訂正データを決定するための計算器および方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2016575797A Active JP6535037B2 (ja) 2014-07-01 2015-06-25 オーディオ信号を復号するためのデコーダおよび方法、並びにオーディオ信号を符号化するためのエンコーダおよび方法
JP2016575800A Active JP6527536B2 (ja) 2014-07-01 2015-06-25 オーディオプロセッサおよび水平位相訂正を用いたオーディオ信号処理方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2016575785A Active JP6458060B2 (ja) 2014-07-01 2015-06-25 オーディオ信号のための位相訂正データを決定するための計算器および方法

Country Status (19)

Country Link
US (6) US10140997B2 (ja)
EP (8) EP2963649A1 (ja)
JP (4) JP6535037B2 (ja)
KR (4) KR101958361B1 (ja)
CN (4) CN106663439B (ja)
AR (4) AR101044A1 (ja)
AU (7) AU2015282747B2 (ja)
BR (3) BR112016029895A2 (ja)
CA (6) CA2953427C (ja)
ES (4) ES2677524T3 (ja)
MX (4) MX364198B (ja)
MY (3) MY192221A (ja)
PL (3) PL3164870T3 (ja)
PT (3) PT3164869T (ja)
RU (4) RU2676416C2 (ja)
SG (4) SG11201610732WA (ja)
TR (2) TR201809988T4 (ja)
TW (4) TWI587289B (ja)
WO (4) WO2016001066A1 (ja)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2963649A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP4134953A1 (en) * 2016-04-12 2023-02-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band
US10277440B1 (en) * 2016-10-24 2019-04-30 Marvell International Ltd. Determining common phase error
US20200018752A1 (en) * 2017-03-03 2020-01-16 Baxalta Incorporated Methods for determining potency of adeno-associated virus preparations
KR20180104872A (ko) 2017-03-14 2018-09-27 현대자동차주식회사 주행 상황을 반영하는 주행 제어 시스템에서의 변속 장치 및 방법
CN107071689B (zh) * 2017-04-19 2018-12-14 音曼(北京)科技有限公司 一种方向自适应的空间音频处理方法及系统
CN115175299B (zh) * 2017-06-16 2023-10-10 创新技术实验室株式会社 指示同步信号块的方法和装置
WO2019014074A1 (en) * 2017-07-09 2019-01-17 Selene Photonics, Inc. ANTIVAL DISTRIBUTION SYSTEMS AND METHODS
CN107798048A (zh) * 2017-07-28 2018-03-13 昆明理工大学 一种用于射电日像仪海量数据管理的负数据库管理方法
CN107424616B (zh) * 2017-08-21 2020-09-11 广东工业大学 一种相位谱去除掩模的方法与装置
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
TWI834582B (zh) * 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
TWI692939B (zh) * 2018-08-14 2020-05-01 鈺創科技股份有限公司 過濾訊號的數位濾波器
CN111077371B (zh) * 2018-10-19 2021-02-05 大唐移动通信设备有限公司 一种提高相位测量精度的方法和装置
WO2020118123A1 (en) * 2018-12-05 2020-06-11 Black Lattice Technologies, Inc. Stochastic linear detection
US10993061B2 (en) 2019-01-11 2021-04-27 Boomcloud 360, Inc. Soundstage-conserving audio channel summation
CN112532208B (zh) * 2019-09-18 2024-04-05 惠州迪芬尼声学科技股份有限公司 谐波发生器及用于生成谐波的方法
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system
JP7425421B2 (ja) 2020-02-20 2024-01-31 日産自動車株式会社 画像処理装置及び画像処理方法
CN111405419B (zh) * 2020-03-26 2022-02-15 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN113259083B (zh) * 2021-07-13 2021-09-28 成都德芯数字科技股份有限公司 一种调频同步网相位同步方法

Family Cites Families (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2631906A (en) * 1945-01-12 1953-03-17 Automotive Prod Co Ltd Sealing device for fluid pressure apparatus
US4802225A (en) 1985-01-02 1989-01-31 Medical Research Council Analysis of non-sinusoidal waveforms
EP0243562B1 (en) * 1986-04-30 1992-01-29 International Business Machines Corporation Improved voice coding process and device for implementing said process
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
US5602959A (en) 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
US5894473A (en) * 1996-02-29 1999-04-13 Ericsson Inc. Multiple access communications system and method using code and time division
US5809459A (en) * 1996-05-21 1998-09-15 Motorola, Inc. Method and apparatus for speech excitation waveform coding using multiple error waveforms
GB2319379A (en) 1996-11-18 1998-05-20 Secr Defence Speech processing system
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6226661B1 (en) * 1998-11-13 2001-05-01 Creative Technology Ltd. Generation and application of sample rate conversion ratios using distributed jitter
JP4639441B2 (ja) * 1999-09-01 2011-02-23 ソニー株式会社 ディジタル信号処理装置および処理方法、並びにディジタル信号記録装置および記録方法
NL1013500C2 (nl) 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
GB0001585D0 (en) * 2000-01-24 2000-03-15 Radioscape Ltd Method of designing,modelling or fabricating a communications baseband stack
JP4567289B2 (ja) * 2000-02-29 2010-10-20 クゥアルコム・インコーポレイテッド 準周期信号の位相を追跡するための方法および装置
US6701297B2 (en) * 2001-03-02 2004-03-02 Geoffrey Layton Main Direct intermediate frequency sampling wavelet-based analog-to-digital and digital-to-analog converter
US7146503B1 (en) * 2001-06-04 2006-12-05 At&T Corp. System and method of watermarking signal
CN100395817C (zh) 2001-11-14 2008-06-18 松下电器产业株式会社 编码设备、解码设备和解码方法
ES2323294T3 (es) 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
WO2004008806A1 (en) 2002-07-16 2004-01-22 Koninklijke Philips Electronics N.V. Audio coding
US7555434B2 (en) * 2002-07-19 2009-06-30 Nec Corporation Audio decoding device, decoding method, and program
JP4227772B2 (ja) * 2002-07-19 2009-02-18 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
JP4380174B2 (ja) * 2003-02-27 2009-12-09 沖電気工業株式会社 帯域補正装置
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
KR20060083202A (ko) * 2003-09-05 2006-07-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 낮은 비트율 오디오 인코딩
KR101106026B1 (ko) * 2003-10-30 2012-01-17 돌비 인터네셔널 에이비 오디오 신호 인코딩 또는 디코딩
FR2865310A1 (fr) * 2004-01-20 2005-07-22 France Telecom Procede de restauration de partiels d'un signal sonore
US6980933B2 (en) * 2004-01-27 2005-12-27 Dolby Laboratories Licensing Corporation Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US20060014299A1 (en) 2004-04-12 2006-01-19 Troup Jan M Method for analyzing blood for cholesterol components
DE102004021403A1 (de) 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
DE102004021404B4 (de) 2004-04-30 2007-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wasserzeicheneinbettung
US7672835B2 (en) * 2004-12-24 2010-03-02 Casio Computer Co., Ltd. Voice analysis/synthesis apparatus and program
TW200627999A (en) * 2005-01-05 2006-08-01 Srs Labs Inc Phase compensation techniques to adjust for speaker deficiencies
PL1839297T3 (pl) 2005-01-11 2019-05-31 Koninklijke Philips Nv Skalowalne kodowanie/dekodowanie sygnałów audio
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
US7693225B2 (en) * 2005-07-21 2010-04-06 Realtek Semiconductor Corp. Inter-symbol and inter-carrier interference canceller for multi-carrier modulation receivers
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US8259840B2 (en) 2005-10-24 2012-09-04 General Motors Llc Data communication via a voice channel of a wireless communication network using discontinuities
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
WO2007068861A2 (fr) * 2005-12-15 2007-06-21 France Telecom Procede d'estimation de phase pour la modelisation sinusoidale d'un signal numerique
EP1979899B1 (de) 2006-01-31 2015-03-11 Unify GmbH & Co. KG Verfahren und anordnungen zur audiosignalkodierung
US7676374B2 (en) 2006-03-28 2010-03-09 Nokia Corporation Low complexity subband-domain filtering in the case of cascaded filter banks
ATE448638T1 (de) 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7761078B2 (en) * 2006-07-28 2010-07-20 Qualcomm Incorporated Dual inductor circuit for multi-band wireless communication device
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
RU2407072C1 (ru) * 2006-09-29 2010-12-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
US7831001B2 (en) * 2006-12-19 2010-11-09 Sigmatel, Inc. Digital audio processing system and method
CN101051456B (zh) * 2007-01-31 2010-12-01 张建平 音频相位检测和自动校正设备
KR101131880B1 (ko) 2007-03-23 2012-04-03 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치, 그리고 오디오 신호의디코딩 방법 및 장치
CN101046964B (zh) * 2007-04-13 2011-09-14 清华大学 基于重叠变换压缩编码的错误隐藏帧重建方法
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
JPWO2009008068A1 (ja) 2007-07-11 2010-09-02 パイオニア株式会社 自動音場補正装置
CN101373594A (zh) * 2007-08-21 2009-02-25 华为技术有限公司 修正音频信号的方法及装置
US20110280421A1 (en) 2007-08-28 2011-11-17 Nxp B.V. Device for and a method of processing audio signals
EP2099027A1 (en) 2008-03-05 2009-09-09 Deutsche Thomson OHG Method and apparatus for transforming between different filter bank domains
EP2296145B1 (en) * 2008-03-10 2019-05-22 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Device and method for manipulating an audio signal having a transient event
US8036891B2 (en) 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
RU2491658C2 (ru) 2008-07-11 2013-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
US8380498B2 (en) * 2008-09-06 2013-02-19 GH Innovation, Inc. Temporal envelope coding of energy attack signal by using attack point location
EP2345026A1 (en) 2008-10-03 2011-07-20 Nokia Corporation Apparatus for binaural audio coding
EP2353160A1 (en) * 2008-10-03 2011-08-10 Nokia Corporation An apparatus
PL4231291T3 (pl) 2008-12-15 2024-04-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
EP2380172B1 (en) 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
JP4945586B2 (ja) * 2009-02-02 2012-06-06 株式会社東芝 信号帯域拡張装置
EP2234103B1 (en) * 2009-03-26 2011-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Device and method for manipulating an audio signal
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
KR101613975B1 (ko) 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
US8856011B2 (en) 2009-11-19 2014-10-07 Telefonaktiebolaget L M Ericsson (Publ) Excitation signal bandwidth extension
JP5651945B2 (ja) * 2009-12-04 2015-01-14 ヤマハ株式会社 音響処理装置
PL3564954T3 (pl) 2010-01-19 2021-04-06 Dolby International Ab Ulepszona transpozycja harmonicznych oparta na bloku podpasma
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
PL2545551T3 (pl) * 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
RU2591012C2 (ru) * 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
CA2792452C (en) 2010-03-09 2018-01-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an input audio signal using cascaded filterbanks
CN102214464B (zh) 2010-04-02 2015-02-18 飞思卡尔半导体公司 音频信号的瞬态检测方法以及基于该方法的时长调整方法
CN102314882B (zh) 2010-06-30 2012-10-17 华为技术有限公司 声音信号通道间延时估计的方法及装置
RU2573774C2 (ru) 2010-08-25 2016-01-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство для декодирования сигнала, содержащего переходные процессы, используя блок объединения и микшер
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
US20140019125A1 (en) * 2011-03-31 2014-01-16 Nokia Corporation Low band bandwidth extended
US9031268B2 (en) * 2011-05-09 2015-05-12 Dts, Inc. Room characterization and correction for multi-channel audio
CN103548077B (zh) * 2011-05-19 2016-02-10 杜比实验室特许公司 参数化音频编译码方案的取证检测
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN102800317B (zh) 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US10453479B2 (en) 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
JP6051505B2 (ja) 2011-10-07 2016-12-27 ソニー株式会社 音声処理装置および音声処理方法、記録媒体、並びにプログラム
JP5810903B2 (ja) 2011-12-27 2015-11-11 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN103258539B (zh) * 2012-02-15 2015-09-23 展讯通信(上海)有限公司 一种语音信号特性的变换方法和装置
KR101816506B1 (ko) * 2012-02-23 2018-01-09 돌비 인터네셔널 에이비 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
WO2014106034A1 (en) 2012-12-27 2014-07-03 The Regents Of The University Of California Method for data compression and time-bandwidth product engineering
EP2950308B1 (en) 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
US9728200B2 (en) * 2013-01-29 2017-08-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for adaptive formant sharpening in linear prediction coding
US9881624B2 (en) 2013-05-15 2018-01-30 Samsung Electronics Co., Ltd. Method and device for encoding and decoding audio signal
JP6216553B2 (ja) 2013-06-27 2017-10-18 クラリオン株式会社 伝搬遅延補正装置及び伝搬遅延補正方法
WO2015041549A1 (en) 2013-09-17 2015-03-26 Intel Corporation Adaptive phase difference based noise reduction for automatic speech recognition (asr)
CN103490678B (zh) * 2013-10-17 2016-06-22 双峰格雷斯海姆医药玻璃(丹阳)有限公司 主从机同步控制方法及系统
KR20160087827A (ko) 2013-11-22 2016-07-22 퀄컴 인코포레이티드 고대역 코딩에서의 선택적 위상 보상
US9990928B2 (en) 2014-05-01 2018-06-05 Digital Voice Systems, Inc. Audio watermarking via phase modification
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9933458B2 (en) 2015-03-31 2018-04-03 Tektronix, Inc. Band overlay separator

Also Published As

Publication number Publication date
CN106663438A (zh) 2017-05-10
EP3164869A1 (en) 2017-05-10
CA2953413A1 (en) 2016-01-07
AU2015282747A1 (en) 2017-01-19
CA2953427C (en) 2019-04-09
US10283130B2 (en) 2019-05-07
WO2016001068A1 (en) 2016-01-07
JP2017521705A (ja) 2017-08-03
MY192221A (en) 2022-08-09
MY182904A (en) 2021-02-05
PL3164869T3 (pl) 2018-10-31
CA2953421A1 (en) 2016-01-07
EP3164869B1 (en) 2018-04-25
KR102025164B1 (ko) 2019-11-04
BR112016030149B1 (pt) 2023-03-28
AR101082A1 (es) 2016-11-23
KR20170033328A (ko) 2017-03-24
TWI587288B (zh) 2017-06-11
WO2016001067A1 (en) 2016-01-07
MX356672B (es) 2018-06-08
CN106663439B (zh) 2021-03-02
MX2016017286A (es) 2017-05-01
RU2017103101A3 (ja) 2018-08-01
US10770083B2 (en) 2020-09-08
RU2017103107A3 (ja) 2018-08-03
TW201618079A (zh) 2016-05-16
JP2017525995A (ja) 2017-09-07
AR101084A1 (es) 2016-11-23
CN106537498A (zh) 2017-03-22
AU2015282748A1 (en) 2017-01-19
US20190156842A1 (en) 2019-05-23
US10930292B2 (en) 2021-02-23
AU2018204782A1 (en) 2018-07-19
US20170110133A1 (en) 2017-04-20
CA2999327A1 (en) 2016-01-07
BR112016029895A2 (pt) 2017-08-22
AR101083A1 (es) 2016-11-23
AU2015282746B2 (en) 2018-05-31
AU2018203475B2 (en) 2019-08-29
AU2015282748B2 (en) 2018-07-26
AU2015282747B2 (en) 2017-11-23
TR201809988T4 (tr) 2018-08-27
RU2017103100A3 (ja) 2018-08-01
AU2015282746A1 (en) 2017-01-12
EP3164872A1 (en) 2017-05-10
CN106663439A (zh) 2017-05-10
AU2017261514B2 (en) 2019-08-15
AU2018203475A1 (en) 2018-06-07
TW201614639A (en) 2016-04-16
TW201618080A (zh) 2016-05-16
CA2998044C (en) 2021-04-20
RU2017103107A (ru) 2018-08-03
JP6527536B2 (ja) 2019-06-05
KR101944386B1 (ko) 2019-02-01
BR112016030343B1 (pt) 2023-04-11
EP3164873B1 (en) 2018-06-06
US20170110134A1 (en) 2017-04-20
RU2017103102A (ru) 2018-08-03
US20170110135A1 (en) 2017-04-20
US10192561B2 (en) 2019-01-29
RU2017103100A (ru) 2018-08-01
CA2953426C (en) 2021-08-31
CN106575510B (zh) 2021-04-20
EP3164870A1 (en) 2017-05-10
CA2953426A1 (en) 2016-01-07
SG11201610837XA (en) 2017-01-27
MY182840A (en) 2021-02-05
WO2016001069A1 (en) 2016-01-07
MX2016016897A (es) 2017-03-27
SG11201610836TA (en) 2017-01-27
AU2018204782B2 (en) 2019-09-26
KR20170028960A (ko) 2017-03-14
CN106537498B (zh) 2020-03-31
BR112016030149A2 (ja) 2017-08-22
ES2677250T3 (es) 2018-07-31
JP2017525994A (ja) 2017-09-07
AR101044A1 (es) 2016-11-16
KR101958361B1 (ko) 2019-03-15
PT3164873T (pt) 2018-10-09
AU2015282749B2 (en) 2017-11-30
SG11201610732WA (en) 2017-01-27
PL3164873T3 (pl) 2018-11-30
TWI591619B (zh) 2017-07-11
EP2963645A1 (en) 2016-01-06
AU2015282749A1 (en) 2017-01-19
RU2676414C2 (ru) 2018-12-28
MX359035B (es) 2018-09-12
SG11201610704VA (en) 2017-01-27
MX2016016770A (es) 2017-04-27
RU2676416C2 (ru) 2018-12-28
AU2017261514A1 (en) 2017-12-07
KR101978671B1 (ko) 2019-08-28
US20190108849A1 (en) 2019-04-11
ES2678894T3 (es) 2018-08-20
ES2677524T3 (es) 2018-08-03
TWI587292B (zh) 2017-06-11
EP3164872B1 (en) 2018-05-02
EP3164873A1 (en) 2017-05-10
MX2016016758A (es) 2017-04-25
TWI587289B (zh) 2017-06-11
RU2675151C2 (ru) 2018-12-17
CN106575510A (zh) 2017-04-19
CN106663438B (zh) 2021-03-26
RU2676899C2 (ru) 2019-01-11
RU2017103102A3 (ja) 2018-08-03
US10140997B2 (en) 2018-11-27
TW201618078A (zh) 2016-05-16
MX354659B (es) 2018-03-14
EP2963649A1 (en) 2016-01-06
JP2017524151A (ja) 2017-08-24
PT3164870T (pt) 2018-07-30
CA2999327C (en) 2020-07-07
CA2953413C (en) 2021-09-07
JP6458060B2 (ja) 2019-01-23
JP6535037B2 (ja) 2019-06-26
EP2963646A1 (en) 2016-01-06
KR20170030549A (ko) 2017-03-17
PT3164869T (pt) 2018-07-30
US10529346B2 (en) 2020-01-07
TR201810148T4 (tr) 2018-08-27
US20170110132A1 (en) 2017-04-20
CA2953421C (en) 2020-12-15
CA2998044A1 (en) 2016-01-07
PL3164870T3 (pl) 2018-10-31
KR20170031704A (ko) 2017-03-21
EP3164870B1 (en) 2018-05-02
MX364198B (es) 2019-04-16
WO2016001066A1 (en) 2016-01-07
RU2017103101A (ru) 2018-08-01
EP2963648A1 (en) 2016-01-06
BR112016030343A2 (ja) 2017-08-22
ES2683870T3 (es) 2018-09-28
CA2953427A1 (en) 2016-01-07

Similar Documents

Publication Publication Date Title
JP6553657B2 (ja) オーディオプロセッサおよび垂直位相訂正を用いたオーディオ信号を処理する方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180502

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180704

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20180806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190301

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190611

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190704

R150 Certificate of patent or registration of utility model

Ref document number: 6553657

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250