JP5328977B2 - オーディオ信号を操作するための装置および方法 - Google Patents

オーディオ信号を操作するための装置および方法 Download PDF

Info

Publication number
JP5328977B2
JP5328977B2 JP2012501273A JP2012501273A JP5328977B2 JP 5328977 B2 JP5328977 B2 JP 5328977B2 JP 2012501273 A JP2012501273 A JP 2012501273A JP 2012501273 A JP2012501273 A JP 2012501273A JP 5328977 B2 JP5328977 B2 JP 5328977B2
Authority
JP
Japan
Prior art keywords
block
padded
audio signal
audio
blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012501273A
Other languages
English (en)
Other versions
JP2012521574A5 (ja
JP2012521574A (ja
Inventor
ディッシュ ザシャ
ナーゲル フレデリク
ノイエンドルフ マックス
ヘルムリヒ クリスティアン
ツォルン ドーミニク
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2012521574A publication Critical patent/JP2012521574A/ja
Publication of JP2012521574A5 publication Critical patent/JP2012521574A5/ja
Application granted granted Critical
Publication of JP5328977B2 publication Critical patent/JP5328977B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Description

本発明は、帯域幅拡張(BWE)スキーム等においてオーディオ信号のスペクトル値の位相を調整することによりオーディオ信号を操作するためのスキームに関する。
オーディオ信号の保存または送信は、厳しいビットレート制約を受けることが多い。過去には、非常に低いビットレートしか使用できない場合、符号器は、送信されたオーディオ帯域幅を劇的に縮小することを余儀なくされていた。現代のオーディオコーディックは、特許文献1〜特許文献3および非特許文献1〜非特許文献10に記載の通り、最近では帯域幅拡張技術により広帯域の信号を符号化できる。これらのアルゴリズムは、高周波数コンテント(HF)のパラメトリック表現に依存するが、これは、復号化信号の波形符号化された低周波数部(LF)から、HFスペクトル領域への互換(「パッチング」)およびパラメータ方式の後処理の適用により生成される。
最近、特許文献4および非特許文献11〜非特許文献13に記載されるような位相ボコーダを採用する新しいアルゴリズムが、非特許文献14に提示されている。しかしながら、この「高調波帯域幅拡張(HBE)」と呼ばれる方法では、非特許文献15に記載されるように、オーディオ信号に含まれる過渡の質が劣化しやすい。これは、サブバンドにわたる垂直コヒーレンスが、標準位相ボコーダーアルゴリズムにおいて維持される保証がない上、離散フーリエ変換(DFT)位相の再計算を、円形の周期性を仮定する変換の分離された時間ブロックで行う必要があるためである。
詳細には、ブロックベースの位相ボコーダ処理による、2種類のアーチファクトを観察できることが知られている。これらのアーチファクトは、特に、新たに計算した位相を適用することによる信号の時間的循環畳込効果により生じる波形の分散と時間的エイリアシングである。
言い換えれば、BWEアルゴリズムにおいてオーディオ信号のスペクトル値に対して位相調整を適用するため、そのオーディオ信号のブロックに含まれる過渡が、そのブロックを中心に包み込み、すなわち循環畳込によりそのブロックへ戻り得る。これにより、時間的エイリアシングが起こり、その結果、オーディオ信号が劣化するのである。
したがって、過渡を含む信号部分のための特別な処理の方法を採用する必要がある。しかしながら、BWEアルゴリズムが、特に、コーディックチェーンのデコーダ側に対して行われるために、計算の複雑性が深刻な問題となる。よって、好ましくは、上に述べたオーディオ信号の劣化に対する対策は、あまり計算の複雑性を増大させないで行える必要がある。
ヴァス・アイアンガー他、「音声帯域幅拡張法および装置」(Speech bandwidth extension method and apparatus, Vasu Iyengar et al.) 米国特許出願第08/951029号、Ohmori他、オーディオ帯域幅拡張システムと方法(United States Patent Application 08/951,029, Ohmori, et al. Audio band width extending system and method) 米国特許第6895375号、マラー、ディーおよびコックス、R・V、狭帯域音声の帯域幅拡張のためのシステム(United States Patent 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrow-band speech) 米国特許6549884号、ラロッシュ・Jおよびドルソン・M、パッチ生成のための位相ボコーダピッチシフティング(United States Patent 6549884 Laroche, J. & Dolson, M.: Phase-vocoder pitch-shifting for the patch generation)
M・ディーツ、L・リルエライド、K・キヨルンおよびO・クンツ、「スペクトル帯域複製−オーディオコーディングにおける新しいアプローチ」、第112回AES会議、ミュンヘン、2002年5月(M. Dietz, L. Liljeryd, K. Kjorling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, May 2002) S・メルツァー、R・ボエムおよびF・ヘン、「「デジタルラジオモンディエール(DRM)」等のデジタル放送のためのSBR強化オーディオコーディック」、第112回AES会議、ミュンヘン、2002年5月(S. Meltzer, R. Bohm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale" (DRM)," in 112th AES Convention, Munich, May 2002) T・ジーグラー、A・アーレット、P・エクストランドおよびM・ルツキー、「SBRを用いたmp3の強化−新しいmp3PROアルゴリズムの特性と能力」、第112回AES会議、ミュンヘン、2002年5月(T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, May 2002)。 国際標準ISO/IEC14496−3:2001/FPDAM1、「帯域幅拡張」ISO/IEC、2002、(International Standard ISO/IEC 14496-3:2001/FPDAM 1, "Bandwidth Extension," ISO/IEC, 2002) E・ラーセン、R.M.アーツおよびM.ダネシス、音楽および音声の効率的な高周波数帯域幅拡張、AES第112回会議、ドイツ、ミュンヘン、2002年5月(E. Larsen, R. M. Aarts, and M. Danessis. Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002) R・M・アーツ、E・ラーセンおよびO・アウルチエス、低周波数および高周波数帯域幅拡張への統一アプローチ。AES、第115回会議、ニューヨーク、米国、2003年10月(R. M. Aarts, E. Larsen, and O. Ouweltjes. A unified approach to low- and high frequency bandwidth extension. In AES 115th Convention, New York, USA, October 2003) K・ケユヒケ。狭帯域音声信号のためのロバストな広帯域強化。リサーチレポート、ヘルシンキ工科大学、音響・音声信号処理研究室、2001年(K. Kayhko. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001) E・ラーセンおよびR・M・アーツ、オーディオ帯域幅拡張−心理音響学、信号処理およびラウドスピーカー設計への応用、ジョン・ウィリー・アンド・ソンズ社、2004年(E. Larsen and R. M. Aarts、 Audio Bandwidth Extension - Application to psychoacoustics、 Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004) E・ラーセン、R・M・アーツおよびM・ダネシス、音楽および音声の効率的な高周波帯域幅拡張。AES、第112回会議、ドイツ、ミュンヘン、2002年5月(E. Larsen, R. M. Aarts, and M. Danessis、 Efficient high-frequency bandwidth extension of music and speech. In AES 112th Convention, Munich, Germany, May 2002) J・マッコール、線形予測による音声のスペクトル分析、オーディオおよび電気音響学に関するIEEE論文集、AU−21(3)、1973年6月(J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21(3), June 1973) M・パケット、位相固定ボコーダ、オーディオおよび音響に対する信号処理の応用に関するIEEE ASSP会議、モホンク、1995年(M. Puckette. Phase-locked Vocoder. IEEE ASSP Conference on Applications of Signal Processing to Audio and Acoustics, Mohonk 1995.") レーベル・A、位相ボコーダにおける過渡検出および保存 citeseer.ist.psu.edu/679246.html (Robel, A.; Transient detection and preservation in the phase vocoder, citeseer.ist.psu.edu/679246.html) ラロッシュ・L,ドルソン・M,「オーディオの改善された位相ボコーダ時間スケール調整、IEEE論文集、音声およびオーディオ処理、第7巻、第3号、第323頁から332頁(Laroche L., Dolson M.: "Improved phase vocoder timescale modification of audio", IEEE Trans. Speech and Audio Processing, vol. 7, no. 3, pp. 323-332)。 フレデリック・ナーゲル、サシャ・ディッシュ、「オーディオコーディックのための高調波帯域幅拡張法」、ICASSP,音響学、音声および信号処理に関する国際会議、IEEE CNF、台北、台湾、2009年4月(Frederick Nagel, Sascha Disch, "A harmonic bandwidth extension method for audio codecs," ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwan, April 2009)。 フレデリック・ナーゲル、サシャ・ディッシュ、ニコラス・レッテルバッハ、「オーディオコーディックのための新規な過渡ハンドリングの位相ボコーダ駆動帯域幅拡張方法」、第126回、AES会議、ミュンヘン、ドイツ、2009年5月(Frederik Nagel, Sascha Disch, Nikolaus Rettelbach, "A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs," 126th AES Convention, Munich, Germany, May 2009)。
本発明の目的は、上記の劣化の抑制と計算の複雑性とのよりよいトレードオフを実現できる、たとえば、BWEスキームに関連して、オーディオ信号のスペクトル値の位相を調整することによりオーディオ信号を操作するためのスキームを提供することである。
この目的は、請求項1に記載の装置、請求項19に記載の方法または請求項20に記載のコンピュータプログラムにより達成される。
本発明の基礎となる思想は、パディングされた値およびオーディオ信号値を有するオーディオサンプルの1以上のパディングされたブロックが、パディングされたブロックのスペクトル値の位相を調整する前に、生成される場合に、上記のより良いトレードオフが達成できるというものである。この手段によれば、位相調整による信号コンテントのブロック境界へのドリフトおよびそれに対応する時間エイリアシングの発生を阻止できるかまたは少なくともその可能性を減じることができるので、オーディオ品質は、少ない労力で維持される。
オーディオ信号を操作するための発明の思想は、複数の連続するオーディオサンプルのブロックを生成することに基づき、この複数の連続するブロックが、オーディオサンプルの1以上のパディングされたブロックを含み、パディングされたブロックがパディングされた値およびオーディオ信号値を有する。パディングされたブロックはその後スペクトル値を有するスペクトル表現へ変換される。スペクトル値は、その後、調整されて、調整されたスペクトル表現が得られる。最後に、調整されたスペクトル表現が調整された時間領域オーディオ信号に変換される。パディングに使用された値の範囲は、その後取り除かれてもよい。
本発明の実施例によれば、パディングされたブロックは、好ましくは、時間ブロックの前または後ろにゼロ値からなるパディングされた値を挿入することにより生成される。
本発明の実施例によれば、パディングされたブロックを、過渡事象を含むものに限定し、それによりこれらの事象には余分な計算の複雑性を制限する。より詳細には、過渡事象が、パディングされたブロックの形のオーディオ信号のあるブロックにおいて検出された場合、BWEアルゴリズムによる高度な方法でブロックを処理し、過渡事象がもう1つのブロックで検出されない場合、オーディオ信号の別のブロックが、BWEアルゴリズムの標準的な方法で、オーディオ信号値のみを有するパディングされていないブロックとして処理される。標準の処理と高度な処理とを適応的に切り替えることにより、平均的な計算の労力がかなり低減でき、それによりたとえばプロセッサの速度の低減やメモリの低減が図られる。
本発明の実施例によれば、パディングされた値は、過渡事象が検出された時間ブロックの前および/または後に配列され、それによりパディングされたブロックがたとえばそれぞれDFTおよびIDFTプロセッサを介して実現される、第1および第2の変換器による時間領域と周波数領域との間の変換に適合される。好ましい解決法は、時間ブロックの周りの対称的なパディング配置と考えられる。
実施例によれば、1以上のパディングされたブロックが、オーディ信号のオーディオサンプルのブロックに、ゼロ値等のパディングされた値を付加することにより生成される。他の例では、1以上のガードゾーンが窓関数の開始位置または窓関数の終了位置に付加される分析窓関数を使用して、この分析窓関数をオーディオ信号のオーディオサンプルのブロックに適用することによってパディングされたブロックを形成する。窓関数は、たとえばガードゾーンを備えるハン窓(Hann window)を含んでも良い。
以下に、本発明の実施例について、添付の図面を参照しながら説明する。
オーディオ信号を操作するための実施例のブロック図である。 オーディオ信号を使用して帯域幅拡張を行うための実施例のブロック図である。 異なるBWE係数を用いる帯域幅拡張アルゴリズムを実行するための実施例のブロック図である。 過渡検出器を用いてパディングされたブロックまたはパディングされていないブロックを変換するための他の実施例のブロック図である。 図4の実施例の実現例のブロック図である。 図4の実施例の他の実現例のブロック図である。 時間ブロックの中心に過渡を有する信号波形に対する位相調整の効果を示す位相調整の前後の信号ブロックの例のグラフである。 時間ブロックの第1のサンプルの周囲に過渡を有する信号波形に対する位相調整の効果を示す位相調整の前後の信号ブロックの例のグラフである。 本発明の第1の実施例の概略を示すブロック図である。 コンスタントなゼロを特徴とするガードゾーンを有するハン窓の形をとる例示的分析窓関数のグラフであって、本発明の他の実施例において使用される窓を示す図である。 ディザを特徴とするガードゾーンを有するハン窓の形をとる例示的分析窓関数のグラフであって、本発明の他の実施例において使用される窓を示す図である。 帯域幅拡張スキームにおけるオーディオ信号のスペクトル帯域の操作を示す模式図である。 帯域幅拡張スキームに関連する重複加算演算のための模式図である。 図4に基づく他の実施例の実現例を示すブロック図および模式図である。 典型的な高調波帯域幅拡張(HBE)の実現例のブロック図である。
図1は、本発明の実施例によるオーディオ信号を操作するための装置を示す図である。この装置は、オーディオ信号用入力100を有するウィンドワ102を備える。ウィンドワ102は、1以上のパディングされたブロックを含むオーディオサンプルの複数の連続するブロックを生成するよう構成される。パディングされたブロックは、特に、パディングされた値とオーディオ信号値とを有する。ウィンドワ102の出力103に存在するパディングされたブロックは、第1の変換器104に供給され、この変換器がパディングされたブロック103をスペクトル値を有するスペクトル表現に変換するよう構成される。第1の変換器104の出力105のスペクトル値をそこで調相装置106へ供給する。調相装置106は、スペクトル値105の位相を調整し、107の調整されたスペクトル表現を得るように構成される。出力107は、最終的に第2の変換器108へ付与され、この変換器が調整されたスペクトル表現107を調整された時間領域オーディオ信号109に変換するよう構成される。第2の変換器108の出力109は、図2、図3および図8に関連して説明するように、帯域幅拡張スキームに必要な後続のデシメータに接続されてもよい。
図2は、帯域幅拡張係数(σ)を用いる帯域幅拡張アルゴリズムを実行するための実施例の模式図である。ここで、オーディオ信号100を、分析窓プロセッサ110と後続パダー112とを備えるウィンドワ102へ供給する。実施例においては、分析窓プロセッサ110は、同じ大きさの複数の連続するブロックを生成するよう構成される。分析窓プロセッサ110の出力111は、さらに、バダー112に接続される。詳細には、パダー112は、分析窓プロセッサ110の出力111で複数の連続するブロックのうちのブロックをパディングし、バダー112の出力103にバディングされたブロックが得られるよう構成される。ここで、バディングされたブロックは、オーディオサンプルの連続するブロックの第1のサンプルの前またはオーディオサンプルの連続するブロックの最後のサンプルの後の特定の時間位置にパディングされた値を挿入することによって得られる。パディングされたブロック103をさらに第1の変換器104で変換して、出力105のスペクトル表現を得る。さらに、帯域通過フィルタ114を使用して、スペクトル表現105またはオーディオ信号100からの帯域通過信号113を抽出するようになっている。帯域通過フィルタ114の帯域通過特性は、帯域通過信号113を適切な目標周波数域に制限するように、選択される。ここで、帯域通過フィルタ114は、下流の調相装置106の出力115にも存在する、帯域幅拡張係数(σ)を受ける。本発明の一実施例においては、帯域幅拡張アルゴリズムを実行するために2.0の帯域幅拡張係数(σ)を使用する。オーディオ信号100がたとえば0kHz〜4kHzの周波数領域を有する場合、帯域通過フィルタ114は、2kHz〜4kHzの周波数領域を抽出するので、たとえば、2.0の帯域幅拡張係数(σ)が付与されて、適切な帯域通過フィルタ114が選択されるという前提では、帯域通過信号113は、後続のBWEアルゴリズムによって4kHz〜8kHzの標的周波数領域へ変換されることになる(図10参照)。帯域通過フィルタ114の出力113における帯域通過信号のスペクトル表現は、それぞれ、スケーラ116および調相装置106でさらに処理される振幅情報および位相情報を含む。スケーラ116は、係数により振幅情報のスペクトル値113をスケールするようになっており、この係数はウィンドワ102が付与する重複加算の第1の時間距離(a)と下流重複加算器124が付与する異なる時間距離(b)との関係が根拠であると言う点で、重複加算特性に依存する。
たとえば、第1の時間距離(a)を有するオーディオサンプルの連続ブロックの6倍の重複加算と、第2の時間距離(b)の第1の時間距離(a)に対する比率、b/a=2とを有する重複加算特性が存在する場合、b/a×1/6の係数がスケーラ116によって付与され、矩形の分析窓を仮定する出力113(図11)におけるスペクトル値がスケーリングされることになる。
しかしながら、この特定の振幅スケーリングは、重複加算に続いて下流デシメーションが行われた場合にのみ適用できる。デシメーションが、重複加算の前に行われる場合、一般にはスケーラ116が根拠となるべきスペクトル値の振幅に対して、デシメーションが影響を持ってしまう可能性がある。
調相装置106は、オーディオ信号の帯域のスペクトル値113の位相を、帯域幅拡張係数(σ)で、スケーリングまたは乗算するよう構成されており、それによりオーディオサンプルの連続するブロックの1以上のサンプルがブロックへ循環畳込みされる。
円形周期性に基づく循環畳込の影響は、第1の変換器104および第2の変換器108による変換の望ましくない副作用であり、これについては、分析窓704(図7a)の中心にある過渡700と、分析窓704(図7b)の境界付近にある過渡702との例によって図7に示される。
図7aは、分析窓704内の中心、すなわち連続するブロックの第1のサンプル708および最後のサンプル710を備える1001のサンプル等を含む、サンプル長さ706のオーディオサンプルの連続ブロックの内部に存在する過渡700を示す。元の信号700は、細い破線で示される。第1の変換器104による変換および元の信号のスペクトルに対する位相ボコーダの使用等によるその後の位相調整の適用の後、過渡700は、第2の変換器108による変換すなわち循環的に畳み込まれた過渡701が分析窓704の内部に依然として存在するように、シフトされ、かつ分析窓704へ循環的に畳み込まれて戻る。循環的に畳み込まれる過渡701は、「ノーガード」と示す太い線により表される。
図7bは、分析窓704の第1のサンプル708に近い過渡702を含む元の信号を示す。過渡702を有する元の信号は、ここでも細い破線で示される。この場合、第1の変換器104により変換しかつその後、位相調整を適用したのち、過渡702は、第2の変換器108による変換の後シフトされかつ循環的に畳み込まれて分析窓704に戻るため、循環畳込過渡703が得られ、これについては「ノーガード」と示す太い線で表す。ここで、位相調整により分析窓704の第1のサンプル708の前に過渡702のすくなくとも一部がシフトするため、循環的に畳み込まれた過渡703が発生し、これにより循環畳込過渡703の円形ラッピングが生じる。特に、図7bに見られるように、過渡702の分析窓704からシフトした部分は、円形周期性によって、分析窓704の最後のサンプル710の左(部分705)に再び発生する。
スケーラ116の出力117からの調整された振幅情報を含む調整されたスペクトル表現および調相装置106の出力107からの調整された位相情報は、第2の変換器108に送られるが、この変換器は、調整されたスペクトル表現を第2の変換器108の出力109にある調整された時間領域オーディオ信号に変換するよう構成される。第2の変換器108の出力109の調整された時間領域オーディオ信号をパディングリムーバ118へ送ることができる。パディングリムーバ118は、挿入されたパディングされた値のサンプルに相当する調整された時間領域オーディオ信号のサンプルを除去し、調相装置106の下流の処理により位相調整が適用される前に、ウィンドワ102の出力103のバディングされたブロックを生成するよう構成される。より正確には、パディングされた値が位相調整の前に挿入される特定の時間位置に相当する調整された時間領域のオーディオ信号の時間位置でサンプルが除去される。
本発明の実施例において、パディングされた値は、オーディオサンプルの連続ブロックの最初のサンプル708の前と最後のサンプル710の後に、図7に示すもののように対称的に挿入され、それにより、サンプル長706の中心に置かれた連続ブロックを囲む2つの対称ガードゾーン712,714が形成される。この対称の場合、ガードゾーンまたは”ガードインターバル”712,714は、それぞれスペクトル値の位相調整およびそれに続く調整時間領域オーディオ信号への変換の後にパディングリムーバ118によりパディングされたブロックから除去でき、パディングリムーバ118の出力119のパディングされた値だけを除く連続ブロックが得られるようにすることが好ましい。
他の構成では、ガードインターバルは、第2の変換器108の出力109からパディングリムーバ118により除去できないので、パディングされたブロックの調整時間領域オーディオ信号は、中央に置かれた連続ブロックのサンプル長706とガードインターバルのサンプル長712,714を含むサンプル長716を有することになる。この信号をさらに次の段で処理して図2のブロック図に示す重複加算器124まで処理することができる。パディングリムーバ118が存在しない場合、ガードインターバルに対する演算を含むこの処理を信号のオーバーサンプルとして解釈することもできる。パディングリムーバ118は、本発明の実施例には必要ではないが、出力119にある信号はパダー112によるパディングの前に分析窓プロセッサ110の出力111に存在するそれぞれ元の連続ブロックまたはパディングされていないブロックと同じサンプル長をすでに有することになるので、図2に示すようなものを使用することが有利である。このように、続く処理段は、出力119の信号に容易に合わせられる。
パディングリムーバ118の出力119の調整された時間領域オーディオ信号は、デシメータ120に供給されることが好ましい。デシメータ120は、帯域幅拡張係数(σ)を用いて演算する単純サンプルレート変換器により構成され、デシメータ120の出力121にデシメートされた時間領域信号を得ることが好ましい。ここでデシメーション特性は、出力115の調相装置106により与えられる位相調整特性に依存する。本発明の実施例においては、帯域幅拡張係数σ=2が出力115を介して調相装置106によりデシメータ120に供給されるので、1つおきのサンプルが出力119の調整時間領域オーディオ信号から除去されることになり、結果として出力121にデシメートされた時間領域信号が生じる。
デシメータ120の出力121のデシメートされた時間領域信号は、その後合成ウィンドワ122へ送られるが、このウィンドワは、デシメートされた時間領域信号等へ合成窓関数を適用するよう構成され、合成窓関数は、ウィンドワ102の分析窓プロセッサ110により適用される分析関数に一致する。ここで、合成窓関数は、合成関数を適用することで、分析関数の効果を補償するように、分析関数に一致させることができる。代替的には、合成ウィンドワ122が、第2の変換器108の出力109に調整時間領域オーディオ信号に関して演算するよう構成することもできる。
合成ウィンドワ122の出力123からのデシメートされかつウィンドウ処理された時間領域信号は、そこで重複加算器124へ供給される。ここで、重複加算器124は、ウィンドワ102により適用される重複加算演算(a)のための第1の時間距離および出力115で調相装置106により付与される帯域幅拡張係数(σ)についての情報を受ける。重複加算器124は、デシメートされかつウィンドウ処理された時間領域信号に対し第1の時間距離(a)より大きい異なる時間距離(b)を適用する。
デシメーションが重複加算の後に実施される場合、条件σ=b/aが帯域幅拡張スキームに従い満たされる可能性がある。しかしながら、図2に示す実施例では、デシメーションは、重複加算の前に行われるので、デシメーションは、一般に重複加算器124によるものであるはずの上記の条件に影響を持ちえる。
図2に示す装置は、帯域幅拡張係数(σ)を含むBWEアルゴリズムを実施するために構成されており、帯域幅拡張係数(σ)がオーディオ信号の帯域からの周波数拡張を標的周波数帯に制御する。このように、帯域幅拡張係数(σ)に依存する標的周波数域の信号が、重複加算器124の出力125で得られる。
BWEアルゴリズムに関連して、重複加算器124は、オーディオ信号の元の重複する連続ブロックよりも、入力時間領域信号の連続ブロックを相互からさらに間隔をおくことによりオーディオ信号の時間的拡散を誘発して、拡散信号を得るように構成される。
重複加算の後にデシメーションを実施する場合、たとえば2.0という係数による時間的拡散では、元のオーディオ信号100の持続時間の2倍の持続時間の拡散信号になる。たとえば2.0の対応するデシメーション係数の次のデシメーションでは、同様にオーディオ信号100の元の持続時間を有するデシメートされかつ帯域幅を拡張された信号になる。しかしながら、デシメータ120が図2に示すように重複加算器124の前に置かれる場合、デシメータ120は、2.0という帯域幅拡張係数(σ)で演算するよう構成されてもよく、それにより、たとえば、1つおきのサンプルがその入力時間領域信号から除去され、これにより元のオーディオ信号100の持続時間の半分の持続時間のデシメートされた時間領域信号が得られる。同様に、2kHz〜4kHz等の周波数域における帯域通過フィルタ処理された信号が、係数2.0で帯域幅において拡張されることになり、デシメーション後たとえば4kHz〜8kHzの対応する標的周波数領域における信号121が得られる。その後、デシメートされかつ帯域幅拡張された信号は、下流重複加算器124によりオーディオ信号100の元の持続時間まで時間的に拡張され得る。この上記の処理は、本質的に位相ボコーダの原則に関連する。
重複加算器124の出力125から得られる標的周波数域における信号は、その後包絡線アジャスタ130へ供給される。包絡線アジャスタ130の入力101で受け取られたオーディオ信号100由来の送信パラメータに基づき、包絡線アジャスタ130は、決った態様で重複加算器124の出力125の信号の包絡線を調節し、包絡線アジャスタ130の出力129に補正された信号が得られ、これは、調節された包絡線および/または補正された調性を含む。
図3は、本発明の実施例のブロック図であり、同装置は、たとえばσ=2,3,4,…等の異なるBWE係数(σ)を用いて、帯域幅拡張アルゴリズムを実行するよう構成される。まず、帯域幅拡張アルゴリズムパラメータを、BWE係数(σ)に対してともに演算する装置すべてに、入力128を介して転送する。詳細には、これら装置とは、図3に示すように第1の変換器104、調相装置106、第2の変換器108、デシメータ120および重複加算器124である。上記のとおり、帯域幅拡張アルゴリズムを実行するための連続する処理装置は、入力128の異なるBWE係数(σ)について、デシメータ120の出力121−1、121−2、121−3、...に、対応する調整された時間領域オーディオ信号が得られるように演算するよう構成され、これらは、それぞれが標的周波数域または周波数帯が異なることを特徴とする。そこで、異なる調整された時間領域オーディオ信号を異なるWBE係数(σ)に基づき重複加算器124により処理し、異なる重複加算結果が、重複加算器124の出力125−1、125−2、125−3、…に得られる。これら重複加算の結果は、最終的に結合器126によりその出力127で結合され、異なる標的周波数帯を含む結合信号が得られる。
図示については、帯域幅拡張アルゴリズムの基本原則について図10に示す。詳細には、図10は、たとえばそれぞれオーディオ信号100の帯域の部分113−1,113−2または113−3と標的周波数帯125−1,125−2または125−3との間の周波数シフトをBWE係数(σ)が制御する様子を示す模式図である。
まず、σ=2の場合、たとえば周波数域が2kHz〜4kHzの帯域通過フィルタ処理された信号113−1が、オーディオ信号100の最初の帯域から抽出される。帯域通過フィルタ処理された信号113−1の帯域は、その後重複加算器124の第1の出力125−1へ変換される。第1の出力125−1は、オーディオ信号100の当初の帯域の係数2.0(σ=2)による帯域幅拡張に対応する4kHz〜8kHzの周波数域を持つ。このσ=2の上位帯を「第1のパッチ済帯域」とも呼ぶこともできる。次に、σ=3の場合、たとえば周波数域が8/3kHz〜4kHzで帯域通過フィルタ処理された信号113−2を抽出し、重複加算機124の後、周波数域8kHz〜12kHzを特徴とする第2の出力125−2に変換する。係数3.0(σ=3)による帯域幅拡張に対応する出力125−2の上位帯を「第2のパッチ済帯域」と呼ぶこともできる。次に、σ=4の場合、たとえば周波数域が3kHz〜4kHzで帯域通過フィルタ処理された信号113−3を抽出し、これを重複加算器124を経た後、周波数域12kHz〜16kHzを有する出力125−3に変換する。この係数σ=4による帯域幅拡張に対応する出力125−3の上位帯を「第3のパッチ済帯域」と呼ぶこともできる。これにより、高品質帯域幅拡張アルゴリズムという意味で、好ましくは、オーディオ信号100を操作するために必要とされる最大16kHzまでの連続する周波数帯をカバーする第1、第2および第3のパッチ済帯域が得られる。原則的には、帯域幅拡張アルゴリズムを、BWE係数σ>4というより高い値で行ってもよく、より高周波数帯域が得られる。しかしながら、このような高周波数帯域を考慮に入れることが、一般的には、操作されたオーディオ信号の知覚品質の向上にはつながらないと考えられる。
図3に示す通り、異なるBWE係数(σ)に基づく重複加算の結果125−1,125−2,125−3,…を結合器126でさらに結合するため、様々な周波数帯を含む出力127の結合信号が得られる(図10参照)。ここで、出力127の結合信号は、4kHz〜16kHz等、オーディオ信号100の最大周波数(fmax)から最大周波数のσ倍(σ×fmax)の範囲の変換された周波数パッチ済帯域からなる(図10参照)。
下流包絡線アジャスタ130は、入力101にあるオーディオ信号から送信されたパラメータに基づき結合信号の包絡線を調整するよう上記のように構成されており、包絡線アジャスタ130の出力129に修正された信号が得られる。出力129で包絡線アジャスタ130により供給される修正信号はさらに後続の結合器132により元のオーディオ信号100と結合されて、最終的に結合器132の出力131に帯域幅が拡張された操作された信号が得られる。図10に示すように、出力131の帯域幅拡張された信号の周波数域は、オーディオ信号100の帯域と、たとえば合計で0〜16kHzの範囲の帯域幅拡張アルゴリズムによる変換から得られる様々な周波数帯域とを含む(図10)。
図2に示す本発明の実施例では、ウィンドワ102は、オーディオサンプルの連続ブロックの第1のサンプルの前またはオーディオサンプルの連続するブロックの最後のサンプルの後の特定の時間位置にパディングされた値を挿入するよう構成され、連続ブロックにおけるパティングされた値の数と連続ブロックにおける値の数との和が、オーディオサンプルの連続するブロックにおける値の数の1.4倍以上である。
図7に関連して特に、サンプル長712を有するパディングされたブロックの第1の部分が、サンプル長706の中央の連続ブロック704の第1のサンプル708の前に挿入され、サンプル長714のパディングされたブロックの第2の部分が中央にある連続ブロック704の後に挿入される。なお、図7において、連続ブロック704または分析窓のそれぞれが、「対象の領域」(ROI)により示され、サンプル0と1000とを横切る垂直の実線が、分析窓704の境界を示し、循環周期性の条件が成立する。
連続ブロック704の左のパディングされたブロックの第1の部分は、連続ブロック704の右のパディングされたブロックの第2の部分と同じ大きさで、パディングされたブロックの合計の大きさは、サンプル長716(サンプル−500からサンプル1500等)を有し、これは、中央の連続ブロック704のサンプル長さ706の2倍である。分析窓704の左の境界付近に当初位置する過渡702が調相装置106により適用される位相調整によって時間シフトされることになるので、中央連続ブロック704の第1のサンプル708を中心とするシフトされた過渡707が得られることを図7bに示す。この場合、シフトされた過渡707は、サンプル長716を有するパディングされたブロックの内側に全面的に位置することになり、したがって、適用された位相調整により円形の畳込や円形のラッピングが生じるのを防止する。
例えば、中央の連続ブロック704の第1のサンプル708の左のパディングされたブロックの第1の部分は、過渡の可能な時間シフトをすべて収容するには十分な大きさではないなら、後者は循環的に畳み込まれ、すなわち過渡の少なくとも一部が連続するブロック704の最後のサンプル710の右のパディングされたブロックの第2の部分に再び現れることになる。しかしながら、過渡のこの部分は、処理の最後の段で調相装置106を適用した後にパディングリムーバ118によって除去できることが好ましい。しかしながら、パディングされたブロックのサンプル長さ716は、連続ブロック704のサンプル長706の1.4倍以上である必要がある。たとえば、位相ボコーダにより実現される調相装置106により適用される位相調整は、つねにマイナス倍の方向の時間シフト、すなわち時間/サンプル軸上の左の方向へのシフトを生じると考えられる。
本発明の実施例において、第1および第2の変換器104,108は、パディングされたブロックのサンプル長に対応する変換長さに対して動作するよう実現される。たとえば、連続ブロックがサンプル長Nを有していれば、パディングされたブロックは、2N等、1.4×N以上のサンプル長さを有し、第1および第2の変換器104,108により付与される変換長さも、2N等、1.4×N以上になる。
しかしながら、原則的には、第1および第2の変換器104,108の変換長さは、BWE係数(σ)が大きければ大きいほど変換長さが大きくなるはずであると言う点でBWE係数(σ)に依拠して選択する必要がある。しかしながら、変換長さが、σ>4等のBWE係数のより大きい値についてあらゆる種類の循環畳込の影響を阻止するのに十分な大きさでなくても、パディングされたブロックのサンプル長さと同じ変換長さを使用すれば十分であることが好ましい。これは、このような場合(σ>4)、たとえば循環畳込による過渡の時間的エイリアシングが、変換された高周波数パッチ済帯域においては無視可能でかつ知覚品質に大きな影響を与えないからである。
図4において、過渡検出器134を備える実施例を示す。この検出器は、たとえば図7に示すサンプル長706を有するオーディオサンプルの連続ブロック704においてオーディオ信号100のブロックにおける過渡事象を検出するよう構成される。
詳細には、過渡検出器134は、オーディオブロックの連続するブロックが、ある時間部分から次の時間部分へたとえば50%を超えるエネルギー増加または減少等、時間におけるオーディオ信号100のエネルギーの突然の変化を特徴とする過渡事象を含んでいるかどうかを決定するよう構成される。
過渡検出は、たとえば、オーディオ信号100の高周波数帯域に含まれる電力の測定値を表すスペクトル表現の高周波数部分の二乗演算等の周波数選択的処理およびその後の電力の予め定められた閾値への時間的変化の比較に基づくことが可能である。
さらに、パディングされたブロックに相当するオーディオ信号100のあるブロック133−1において過渡検出器134により図7bの過渡事象702等の過渡事象が検出された場合、第1の変換器104は、パダー112の出力103のパディングされたブロックを変換するよう構成される。その一方で、あるブロックで過渡事象が検出されない場合、第1の変換器104は、過渡検出器134の出力133−2のオーディオ信号値のみを有するパディングされていないブロックを変換するよう構成され、この場合は、パディングされないブロックがオーディオ信号100のブロックに相当する。
ここで、パディングされたブロックは、図7bの中央の連続ブロック704の左右に挿入されるゼロ値および図7bの中央の連続ブロック704の内部にあるオーディオ信号値等のパディングされた値を含む。しかしながらパディングされていないブロックは、図7bの連続ブロック704の内部に存在するオーディオサンプルの値等のオーディオ信号値のみを含む。
上記の実施例では、第1の変換器104による変換および第1の変換器104の出力105に基づく次の処理段が、過渡事象の検出に依存し、パダー112の出力103のパディングされたブロックは、オーディオ信号100のある選択された時間ブロック(すなわち、過渡事象を含む時間ブロック)についてのみ発生し、これについては、オーディオ信号100のさらなる操作の前にパディングが行われることが、知覚品質の観点から有利であると考えられる。
本発明の他の実施例では、図4において「過渡事象なし」または「過渡事象」のそれぞれによってあらわされる後の処理のための適切な信号経路の選択が、過渡事象の検出についての情報を含む過渡検出器134の出力135により制御される図5のスイッチ136の使用により行われ、これは、過渡事象がオーディオ信号100のブロックにおいて検出されるか否かという情報を含む。過渡検出器134からのこの情報は、スイッチ136により、「過渡事象」で示すスイッチ136の出力135−1または「過渡事象なし」で表されるスイッチ136の出力135−2に転送される。ここで、図5のスイッチ136の出力135−1,135−2は、等しく図4の過渡検出器134の出力133−1,133−2に対応する。上記のとおり、パダー112の出力103のパディングされたブロックが、過渡事象が過渡検出器134により検出される、オーディオ信号100のブロック135−1から生成される。さらに、過渡事象が過渡検出器134により検出された場合、スイッチ136は、出力103のパダー112により生成されたパディングされたブロックを第1のサブ変換器138−1へ送るよう構成され、かつ過渡事象が過渡検出器134により検出されない場合には、出力135−2のパディングされていないブロックを第2のサブ変換器138−2へ供給するよう構成される。ここで、第1のサブ変換器138−1は、2N等の第1の変換長を用いてパディングされたブロックの変換を行うようになっており、一方、第2のサブ変換器138−2は、N等の第2の変換長を用いてパディングされていないブロックの変換を行うようになっている。パディングされたブロックは、パディングされていないブロックよりもサンプル長が長いので、第2の変換長は、第1の変換長より短い。最終的には、第1のサブ変換器138−1の出力137−1の第1のスペクトル表現または第2のサブ変換器138−2の出力137−2の第2のスペクトル表現それぞれが得られ、これらは上記のとおり帯域幅拡張アルゴリズムに関連してさらに処理されてもよい。
本発明の他の実施例においては、ウィンドワ102が図7の連続ブロック704等のオーディオサンプルの連続ブロックへ分析窓関数を適用するよう構成された分析窓プロセッサ140を含む。分析窓プロセッサ140により適用される分析窓関数は、特に図7bの連続ブロック704の左側の窓関数709の第1のサンプル718(すなわちサンプル−500)で開始する時間部分等の窓関数の開始位置または図7bの連続ブロック704の右側の窓関数709の最後のサンプル720(すなわちサンプル1500)で終了する時間部分等の窓関数の終了位置の少なくとも1つのガード領域を含む。
図6は、本発明の他の実施例であって、過渡検出器134の出力135によって与えられる過渡検出についての情報に依存して分析窓プロセッサ140を制御するよう構成されたガード窓スイッチ142をさらに含む。分析窓プロセッサ140は、過渡事象が過渡検出器134により検出された場合は、第1の窓サイズを有するガード窓スイッチ142の出力139−1で第1の連続ブロックが生成されるよう制御され、過渡検出器134によって過渡事象が検出されない場合には、第2の窓サイズを有するガード窓スイッチ142の出力139−2で他の連続ブロックが生成されるように制御される。ここで、分析窓プロセッサ140は、図9aにより表されるガードゾーンを有するハン窓等の分析窓関数を出力139−1の連続ブロックまたは出力139−2のもう1つの連続ブロックへ適用するよう構成され、それぞれ出力141−1のパディングされたブロックまたは141−2のパディングされていないブロックが得られる。
図9aにおいて、出力141−1のパディングされたブロックは、たとえば第1のガードゾーン910および第2のガードゾーン920を含み、ガードゾーン910,920のオーディオサンプルの値をゼロにセットする。ここで、ガードゾーン910,920は、窓関数の特徴、たとえば、この場合、ハン窓の特徴的形状により与えられる特徴に対応するゾーン930を取り囲む。他の例では、図9bに関して、ガードゾーン940,950のオーディオサンプルの値もゼロを中心にディザリングする。図9の垂直の線は、ゾーン930の第1のサンプル905と最後のサンプル915とを表す。さらに、ガードゾーン910,940は、窓関数の第1のサンプル901から始まり、ガードゾーン920,950は、窓関数の最後のサンプル903で終了する。たとえば、図9aのガードゾーン910,920を含む中央のハン窓部を有する完全な窓のサンプル長900は、ゾーン930のサンプル長の2倍の長さである。
過渡事象が過渡検出器134により検出される場合には、出力139−1の連続ブロックは、たとえば図9aに示すガードゾーン910,920を有する正規化されたハン窓901等の分析窓関数の特徴的形状により重み付けされるという点で処理される。一方で、過渡検出器134により過渡事象が検出されない場合は、出力139−2の連続ブロックが、たとえば図9aの正規化されたハン窓901のゾーン930等の分析窓関数のみのゾーン930の特徴的形状により重み付けされると言う点で処理される。
出力141−1,141−2のパディングされたブロックまたはパディングされていないブロックが、上記のガードゾーンを含む分析窓関数を使用することにより生成される場合、パディングされた値またはオーディオ信号値は、それぞれ窓関数のガードゾーンまたは非ガード(特徴的)ゾーンによるオーディオサンプルの重みづけに由来する。ここで、パディングされた値およびオーディオ信号値は、重みづけされた値を表し、特にパディングされた値はおよそゼロである。出力141−1,141−2のパディングされたブロックまたはパディングされていないブロックは、特に、図5に示す実施例の出力103,135−2のブロックに対応し得る。
分析窓関数の適用による重みづけのため、過渡検出器134および分析窓プロセッサ140は、好ましくは、過渡検出器134による過渡事象の検出が、分析窓プロセッサ140により分析窓関数が適用される前に生じるよう構成する必要がある。そうでなければ、過渡事象の検出は、重み付けプロセスにより大きく影響を受けることになる。ガードゾーン内または非ガード(特徴)ゾーンの境界付近にある過渡事象の場合には特にそうである。これは、この領域においては、分析窓関数の値に対応する重み付係数がつねにゼロに近くなるからである。
出力141−1のパディングされたブロックおよび出力141−2のバディングされていないブロックを、第1の変換長を有する第1のサブ変換器138−1および第2の変換長を有する第2のサブ変換器138−2を用いて、出力143−1,143−2で、それらのスペクトル表現に変換する。この第1および第2の変換長は、それぞれ変換されたブロックのサンプル長さに対応する。出力143−1,143−2のスペクトル表現をさらに上記の実施例の通り処理できる。
図8は、帯域幅拡張構成の実施例の概略図である。図8は特に出力ブロックの「低周波数(LF)オーディオデータ」により示すオーディオ信号100を付与する「オーディオ信号/追加パラメータ」により示すブロック800を含む。また、ブロック800は、図2および図3における包絡線アジャスタ130の入力101に対応し得るデコードされたパラメータを提供する。ブロック800の出力101のパラメータは、後に包絡線アジャスタ130および/または調性正器150に使用することができる。包絡線アジャスタ130および調性正器150は、たとえば予め定められた歪みを結合信号127に与えて、図2および図3の正信号129に対応し得る歪み信号151を得るよう構成される。
ブロック800は、帯域幅拡張構成のエンコーダ側で得られる過渡検出のサイド情報を含んでいてもよい。この場合、このサイド情報を、破線で示すようなビットストリーム810によりデコーダ側の過渡検出器134へさらに送信する。
しかしながら、過渡検出が、ここでは「フレーミング」装置102−1と呼ばれる分析窓プロセッサ110の出力111のオーディオサンプルの複数の連続するブロックに対して行われることが好ましい。言い換えれば、過渡側の情報は、デコーダを表す過渡検出器134で検出されるか、エンコーダからのビットストリーム810(破線)で転送されるかのいずれかである。第1の解決法では、送信するビットレートが向上しないが、後者は、元の信号が依然として入手可能なので、検出を容易にする。
詳細には、図8は、図13に示すような高調波帯域幅拡張(HBE)構成を実行するよう構成された装置のブロック図で、これは、過渡検出器134により制御されるスイッチ136と組み合わされて、出力135での過渡事象の発生に関する情報に基づいて信号適応処理を実行する。
図8では、フレーミング装置102−1の出力111の複数の連続ブロックが、フレーム演算において典型的に適用される矩形の窓形状に比べてより浅いフランクを特徴とする二乗余弦窓等の予め定められた窓形状を有する分析窓関数を適用するよう構成される分析ウィンドウ装置102−2へ供給される。スイッチ136で得られる「過渡」または「過渡無し」で表す切り替えの判断に従って、過渡検出器134により検出される分析ウィンド装置102−2の出力811で、複数の連続するウィンドウ化された(フレーミングおよび重み付された)ブロックの過渡事象を含むブロック135−1または過渡事象を含まないブロック135−2がそれぞれ上に詳細に述べたような処理をさらに受ける。図2、図4、および図5の窓102のパダー112に対応し得るゼロパディング装置102−3は、特に、時間ブロック135−1の外側のゼロ値を挿入するために使用することが好ましく、それにより時間ブロック135−2のサンプル長Nの2倍のサンプル長2Nを有するパディングされたブロック103に対応し得るゼロパディングされたブロック803が得られる。ここで、過渡検出器134は「過渡位置検出器」により表されるが、これは、出力811の複数の連続するブロックに対して、連続するブロック135−1の「位置」(すなわち時間位置)を決定するために使用できるから、すなわち過渡事象を含むそれぞれのブロックを出力811の連続ブロックのシーケンスから識別できるからである。
一実施例において、パディングされたブロックは、そのブロック内の位置に関係なく過渡事象が検出される特定の連続ブロックから常に生成される。この場合、過渡検出器134は、単に過渡事象を含むブロックを判別(識別)するよう構成される。他の実施例では、さらに過渡検出器134は、そのブロックに対する過渡事象の特定の位置を判別するよう構成できる。前者の実施例では、過渡検出器134のより簡単な構成を用いることができ、一方、後者の実施例では、処理の計算の複雑性をより減じることができる。これは、過渡事象が特定の位置、好ましくはブロック境界の付近にある場合にのみディングされたブロックが生成されかつさらに処理されることになるからである。言い換えれば、後者の実施例においては、過渡事象がブロック境界付近にある場合(すなわちオフセンターの過渡が発生した場合)、ゼロパディングまたはガードゾーンのみが必要となる。
図8の装置は、基本的には位相ボコーダ処理に入る前に各時間ブロックの両方の終点をゼロパディングすることで、いわゆる「ガードインターバル」を導入することによる循環畳込効果を打ち消す方法を提供する。ここで、位相ボコーダ処理は、2NまたはNの変換長さを有するFFTプロセッサ等を含む第1または第2のサブ変換器138−1,138−2の動作で開始される。
詳細には、第1の変換器104は、パディングされたブロック103の短期フーリエ変換(STFT)を実行するよう構成することができ、一方、第2の変換器108は、出力105の調整されたスペクトル表現の大きさおよび位相に基づく逆STFTを実行するよう構成することができる。
図8に関連して、新しい位相が計算されて、かつたとえば逆STFTまたは逆離散フーリエ変換(IDFT)合成を行った後、ガードインターバルは、時間ブロックの中央部から単に取り除かれ、これをボコーダの重複加算(OLA)段においてさらに処理する。他の例では、ガードインターバルは、除去されないが、OLA段においてさらに処理される。この動作を実際上信号のオーバーサンプリングとして見ることもできる。
図8による構成の結果として、帯域幅において拡張された操作された信号を、後続の結合器132の出力131で得られる。その後、後続のフレーミング装置160を利用して、予め定めた態様で「高周波数(HF)のオーディオ信号」により表す出力131で操作されたオーディオのフレーミング(すなわち、複数の連続時間ブロックの窓の大きさ)を調整することができる。それにより、フレーミング装置160の出力161のオーディオサンプルの連続ブロックが当初のオーディオ信号800と同じ窓の大きさを持つことになる。
図8の実施例に説明したとおり、位相ボコーダにより過渡を処理しながら、このようにガードインターバルを利用することで考えられる利点が、図7に例示される。パネルa)は、分析窓において中央にある過渡を示す(「細い破線」が元の信号を示す)。この場合、窓が調整された過渡を収容できるため、ガードインターバルは、処理に対してあまり影響を及ぼさない(「細い実線」はガードインターバルを使用し、「太い実線」はガードインターバルなし)。しかしながら、パネルb)に示すように、過渡が中心を外れる場合(「細い破線」が元の信号を示す)、ボコーダ処理の間の位相操作により時間シフトされることになる。このシフトが、窓によってカバーされる時間スパンにより直接的に収容できない場合、最終的に過渡の(部分的)誤配置につながる円形包み込みが生じ(ガードインターバルのない「太い実線」)、これにより知覚的オーディオ品質が劣化する。しかしながら、ガードインターバルの使用により、ガードゾーンにおけるシフトした部分を収容することにより円形畳込効果を阻止する(ガードインターバルを使用する「細い実線」)。
上記のゼロパディング構成の代替方法として、ガードゾーンを有する窓(図9を参照)を上記のとおり使用する。ガードゾーンを有する窓の場合、窓の一方側または両側の値は、およそゼロである。ちょうどゼロになるかゼロの周辺でディザすることができ、位相適応により、ガードゾーンからゼロをシフトするのではなく小さな値をシフトするという利点が考えられる。図9は、窓の両方のタイプを示す。図9では特に、窓関数901と902の差が図9aのものであり、窓関数901がガードゾーン910,920を含み、そのサンプルの値は、ちょうどゼロである。一方、図9bでは、窓関数902がガードゾーン940,950を含み、そのサンプル値は、ゼロ付近でディザする。したがって、後者の場合、ゼロ値ではなく小さな値が、位相適応により、ガードゾーン940,950から窓のゾーン930へシフトすることになる。
上記のとおり、ガードインターバルの適用で、オーバーサンプリングに対するその等価性により計算の複雑性が増大し得るが、これは、分析および合成変換を、実質的に拡張された長さ(通常は2の係数)の信号ブロックに対して計算する必要があるからである。一方で、これによりすくなくとも過渡信号ブロックについて改善された知覚品質が確実に得られるが、これらは、平均的音楽オーディオ信号の選択されたブロックにおいてのみ発生する。他方、処理電力は、信号全体の処理の間中、安定して増加する。
本発明の実施例は、オーバーサンプリングがある選択された信号ブロックについてのみ有利であるという事実に基づくものである。詳細には、実施例により、新規な信号適応処理方法を提供し、同方法は、検出機構を含み、知覚品質が実際に改善される信号ブロックに対してのみオーバーサンプリングを適用する。また、標準的処理と高度な処理とを適応的に切り替える信号処理を行うことによって、本発明による信号処理の効率を飛躍的に高めることができ、これにより計算にかかる労力を低減できる。
標準的処理と高度な処理の差を説明するため、典型的な高調波帯域幅拡張(HBE)構成(図13)を図8の構成と比較して以下に説明する。
図13は、HBEの概略図である。ここで、複数の位相ボコーダ段が、システム全体と同じサンプリング周波数で動作する。しかしながら、図8は、真に有益でかつ知覚品質の改善がもたらされる信号の部分に対してのみゼロパディング/オーバーサンプリングが適用される処理の方法を示す。これは、好ましくは次の処理の適切な信号経路を選択する過渡位置検出に基づく切り替え決定によって実現される。図13のHBEに比べると、過渡位置検出134(信号またはビットストリームからの)、スイッチ136と、ゼロパダー102−3により適用されるゼロパディング動作で始まりパディングリムーバ118により行われる(動作的)パディング除去で終了する右側の信号経路とが、図8に示す実施例に加えられている。
本発明の一実施例においては、ウィンドワ102が、パディングされていないブロック133−2,141−2ならびに連続するパディングされたブロック103,141−2からなる第1の対145−1と、パディングされたブロック103,141−1ならびに連続するパディングされていないブロック133−2,141−2からなる第2の対145−2とを少なくとも含む時間シーケンスを構成するオーディオサンプルの複数の連続するブロック111を生成するよう構成される(図12参照)。連続するブロック145−1,145−2の第1および第2の対は、それぞれデシメータ120の出力147−1,147−2で、対応するデシメートされたオーディオサンプルが得られるまで、さらに帯域幅拡張実行という意味で処理される。デシメートされたオーディオサンプル147−1,147−2は、次に重複加算器124内へ供給されるが、この加算器は、第1の対145−1または第2の対145−2のデシメートされたオーディオサンプル147−1,147−2のうち重複するブロックを加算するよう構成される。
他の態様では、デシメータ120は、それぞれ上記に示す通り重複加算器124の後に配置することも可能である。
第1の対145−1については、パディングされていないブロック133−2,141−2の第1のサンプル151,155とパディングされたブロック103,141−1のオーディオ信号値の第1のサンプル153,157との間の図2の時間距離bに対応し得る時間距離b’が重複加算器124により供給され、それにより帯域幅拡張アルゴリズムの標的周波数域の信号が、重複加算器124の出力149−1に得られる。
第2の対145−2については、パディングされたブロック103,141−1のオーディオ信号値の第1のサンプル153,157とパディングされていないブロック133−2,141−2の第1のサンプル151,155との間の時間距離b’が、重複加算器124により供給され、それにより重複加算器124の出力149−2で帯域幅拡張アルゴリズムの標的周波数域の信号が得られる。
ここでも、デシメータ120が図2に示すプロセスチェーンにおいて重複加算器124より前に置かれる場合、時間距離b’に対応するものに対するデシメーションの可能な効果を考慮に入れる必要がある。
なお、本発明について、ブロックが実際のまたは論理上のハードウエア要素を表すブロック図に関連して説明したが、本発明は、コンピュータにより実現される方法によっても実現することができる。後者の場合、ブロックは、対応する方法ステップを表し、これらのステップが、対応する論理または物理ハードウエアのブロックにより実行される機能性を表す。
記載の実施例は、本発明の原則を表すものに過ぎない。当業者とって、ここに記載の構成および詳細には変形例および変更が明らかであることは当然である。したがって、その意図するところは、特許請求の範囲によってのみ限定され、ここに記載の実施例の記載および説明により提示される特定の詳細に限定されない。
本発明の方法のある構成要件によっては、発明の方法をハードウエアまたはソフトウエアいずれでも実現できる。構成は、発明の方法が実行されるようにプログラム可能なコンピュータシステムと協働する電子的に読み出し可能な制御信号を記憶したデジタル記憶媒体、特にディスク、DVDまたはCDを用いて実行できる。したがって、一般には、本件は、機械で読み出し可能な担体に記憶されるプログラムコードを有するコンピュータプログラム製品として実現することが可能で、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、発明の方法を実行するよう動作される。したがって、言い換えれば、発明の方法は、コンピュータプログラムがコンピュータ上で実行される場合に発明の方法の1以上を実行するためのプログラムコードを有するコンピュータプログラムである。本発明の処理されたオーディオ信号は、デジタル記憶媒体等のなんらかの機械読み出し可能な記憶媒体上に記憶することができる。
この新規な処理の利点は、上記の実施例、すなわち、この出願に記載の装置、方法または、コンピュータプログラムが、必要がない場合に高コストの複雑すぎる計算処理を回避する点である。この処理は、中心を外れた過渡事象等を含む時間ブロックを識別し、知覚品質に関して改善が得られる場合にのみ、ガードインターバルを利用するオーバーサンプルの処理等高度な処理に切り替える過渡位置検出を利用する。
本件の処理は、時間循環畳込効果がエイリアシングをもたらし、同時に、処理の電力が限定されたリソースである、位相ボコーダまたはパラメトリックスサラウンドサウンドアプリケーション等いずれのブロック系オーディオ処理の応用にも有用である(エール・J、ファーラー・C、エルテル・C、ヒルパート・J、ホルツァー・A、スペンジャー・C、「MP3サラウンド、マルチチャネルオーディオの効率的かつ互換性コーディング」、第116回会議、Aud. Eng. Soc.、2004年5月)(Herre, J.; Faller, C.; Ertel, C.; Hilpert, J.; Holzer, A.; Spenger, C, “MP3 Surround: Efficient and Compatible Coding of Multi-Channel Audio,” 116th Conv. Aud. Eng. Soc., May 2004)。
最も顕著な応用は、携帯装置上に実現されることが多く、したがって電池を電源として動作するオーディオデコーダである。
100 オーディオ信号
102 ウィンドワ
104 第1の変換器
106 調相装置
108 第2の変換器
110 分析窓プロセッサ
112 パダー
114 帯域通過フィルタ

Claims (19)

  1. オーディオ信号(100)を操作するための装置であって、
    オーディオサンプルからなる複数の連続するブロック(111,811)を生成するためのウィンドワ(102)を含み、複数の連続するブロック(111,811)がオーディオサンプルからなる1以上のパディングされたブロック(103,803,141−1,902)を含み、パディングされたブロック(103,803,141−1,902)がパディングされた値およびオーディオ信号値を有し、さらに
    パディングされたブロック(103,803,141−1、902)をスペクトル値を有するスペクトル表現(105)へ変換するための第1の変換器(104)と、
    調整されたスペクトル表現(107)を得るためにスペクトル値の位相を調整するための調相装置(106)と、
    調整されたスペクトル表現(107)を調整された時間領域オーディオ信号(109)へ変換するための第2の変換器(108)と
    オーディオ信号(100)内の過渡事象(700,702)を決定するための過渡検出器(134)とを含み、
    過渡検出器(134)が、パディングされたブロック(103,803,141−1,902)に対応するオーディオ信号(100)のブロック(133−1,135−1)における過渡事象(700,702)を検出した場合に、第1の変換器(104)が、パディングされたブロック(103,803,141−1,902)を変換するよう構成され、かつ
    ブロックにおいて、過渡事象(700,702)が検出されない場合に、第1の変換器(104)が、オーディオ信号値のみを有するパディングされていないブロック(133−2,135−2,141−2,930)を変換するよう構成され、パディングされていないブロック(133−2,135−2,141−2,930)がオーディオ信号(100)のブロックに対応する、装置。
  2. 調整された時間領域オーディオ信号(109)または調整された時間領域オーディオサンプルの重複加算されたブロックをデシメートして、デシメートされた時間領域信号(121)を得るためのデシメータ(120)をさらに含み、デシメーション特性が調相装置(106)により付与される位相調整特性に依存する、請求項1に記載の装置。
  3. オーディオ信号(100)を使用して帯域幅拡張を実行するように構成され、
    スペクトル表現(105)またはオーディオ信号(100)から帯域通過信号(113)を抽出するための帯域通過フィルタ(114)をさらに含み、帯域通過フィルタ(114)の帯域通過特性が、調相装置(106)により付与される位相調整特性に基づいて選択され、それにより帯域通過信号(113)が後の処理により、オーディオ信号(100)に含まれていない標的周波数域(125−1,125−2,125−3)に変換される、請求項2に記載の装置。
  4. デシメートされた時間領域信号(121)のデシメートされたオーディオサンプルまたは調整された時間領域オーディオ信号(109)の調整された時間領域オーディオサンプルの重複するブロック(121−1,121−2,121−3)を加算して、帯域幅拡張アルゴリズムの標的周波数域(125−1,125−2,125−3)の信号を得るための重複加算器(124)をさらに含む、請求項2に記載の装置。
  5. スペクトル値を係数でスケーリングするためのスケーラ(116)をさらに含み、この係数が、ウィンドワ(102)により付与される重複加算の第1の時間距離(a)および重複加算器(124)により付与される異なる時間距離(b)と、窓特性との関係に依拠すると言う点で、重複加算特性に依存する、請求項4に記載の装置。
  6. ウィンドワ(102)が、同じ大きさの複数の連続するブロック(111,811)を生成するための分析窓プロセッサ(110,102−1,102−2,140)と、
    パディングされた値を、オーディオサンプルの連続するブロック(133−1,135−1,704)の第1のサンプル(708)の前またはオーディオサンプルの連続するブロック(133−1,135−1,704)の最後のサンプル(710)の後の特定の時間位置に挿入することによって、オーディオサンプルの複数(111,811)の連続するブロックのうちのあるブロック(133−1,135−1)をパディングして、パディングされたブロック(103,803,141−1,902)を得るためのパダー(112,102−3)とを含む、請求項1に記載の装置。
  7. ウィンドワ(102)が、オーディオサンプルの連続するブロック(133−1,135−1,704)の第1のサンプル(708)の前またはオーディオサンプルの連続するブロック(133−1,135−1,704)の最後のサンプル(710)の後の特定の時間位置にパディングされた値を挿入するように構成され、装置が
    調整された時間領域オーディオ信号(109)の時間位置のサンプルを除去するためのパディングリムーバ(118)をさらに含み、時間位置が、ウィンドワ(102)により付与される特定の時間位置に対応する、請求項1に記載の装置。
  8. デシメートされた時間領域信号(121)またはウィンドワ(102)により付与される分析関数に一致する合成窓関数を有する調整された時間領域オーディオ信号(109)をウィンドウ化するための合成ウィンドワ(122)をさらに含む、請求項1または2に記載の装置。
  9. ウィンドワ(102)が、オーディサンプルの連続するブロック(133−1,135−1,704)の第1のサンプル(708)の前またはオーディオサンプルの連続するブロック(133−1,135−1,704)の最後のサンプル(710)の後の特定の時間位置にパディングされた値を挿入するよう構成され、パディングされた値の数とオーディオサンプルの連続するブロック(133−1,135−1,704)における値の数との和が、オーディオサンプルの連続するブロック(133−1,135−1,704)における値の数の1.4倍以上である、請求項1に記載の装置。
  10. ウィンドワ(102)が、オーディオサンプルの連続するブロック(133−1,135−1,704)の第1のサンプル(708)の前およびオーディオサンプルの中央の連続するブロック(133−1,135−1,704)の最後のサンプル(710)の後にパディングされた値を対称的に挿入するよう構成され、それによりパディングされたブロック(103,803,141−1,902)が第1の変換器(104)および第2の変換器(108)による変換に適応する、請求項7に記載の装置。
  11. ウィンドワ(102)が、窓関数(709,902)の開始位置(718,901)または窓関数(709,902)の終了位置(720,903)に1以上のガード領域(712,714;910,920;940,950)を有する窓関数(709,902)を付与するよう構成される、請求項1に記載の装置。
  12. 装置が帯域幅拡張アルゴリズムを実行するよう構成され、この帯域幅拡張アルゴリズムが、帯域幅拡張係数(σ)を含み、帯域幅拡張係数(σ)が、オーディオ信号(100)の帯域(113−1,113−2,113−3,...)と標的周波数帯域(125−1,125−2,125−3,...)との間の周波数シフトを制御し、調相装置(106)が帯域幅拡張係数(σ)によりオーディオ信号(100)の帯域(113−1,113−2,113−3,...)のスペクトル値の位相をスケールするよう構成され、それにより、オーディオサンプルの連続するブロックの1以上のサンプルが循環的にブロックへ畳み込まれる、請求項1に記載の装置。
  13. 装置が帯域幅拡張アルゴリズムを実行するよう構成され、帯域拡張アルゴリズムが帯域幅拡張係数(σ)を含み、帯域幅拡張係数(σ)が、オーディオ信号(100)の帯域(113−1,113−2,113−3,...)と、標的周波数帯域(125−1,125−2,125−3,...)との間の周波数シフトを制御し、
    第1の変換器(104)、調相装置(106)、第2の変換器(108)およびデシメータ(120)が、異なる帯域幅拡張係数(σ)を使用して演算するよう構成され、それにより、異なる標的周波数帯(125−1,125−2,125−3,...)を有する異なる調整された時間オーディオ信号(121−1,121−2,121−3)が得られ、
    異なる帯域幅拡張係数(σ)に基づく重複加算を実行するための重複加算器(124)と、
    重複加算の結果(125−1,125−2,125−3,...)を結合して異なる標的周波数帯域(125−1,125−2,125−3)を含む結合信号(127)を得るための結合器(126)とをさらに含む、請求項2に記載の装置。
  14. ウィンドワ(102)が、オーディオサンプルの連続するブロック(133−1,135−1,704)の第1のサンプル(708)の前またはオーディオサンプルの連続するブロック(133−1,135−1,704)の最後のサンプル(710)の後の特定の時間位置にパディングされた値を挿入するためのパダー(112、102−3)を含み、装置が、
    スイッチ(136)を含み、スイッチが、過渡事象(700,72)が過渡検出器(134)により検出された場合に、パディングされた値およびオーディオ信号値を有するパディングされたブロック(103,803)が生成されるよう、パダー(112,102−3)を制御し、過渡事象(700,72)が過渡検出器(134)により検出されない場合に、オーディオ信号値のみを有するパディングされていないブロック(133−2,135−2)を生成するようパダー(112,102−3)を制御するよう構成され、
    第1の変換器(104)が第1のサブ変換器(138−1)と第2のサブ変換器(138−2)とを含み、
    スイッチ(136)が、さらに、過渡事象(700,72)が過渡検出器(134)により検出された場合に、第1のサブ変換器(138−1)にパディングされたブロック(103,803)を供給して、第1の変換長さを有する変換を実行し、過渡事象(700,72)が過渡検出器(134)により検出されなかった場合に、パディングされていないブロック(133−2,135−2)を第2のサブ変換器(138−2)へ供給して、第1の長さより短い第2の長さを有する変換を実行するよう構成される、請求項に記載の装置。
  15. ウィンドワ(102)が、オーディオサンプルの連続ブロック(139−1,139−2)に分析窓関数を適用するための分析窓プロセッサ(110,102−1,102−2,140)を含み、分析窓プロセッサは、分析窓関数がガードゾーン(712,714,910,920,940,950)を窓関数(709,902)の開始位置(718,901)または窓関数(709,902)の終了位置(720,903)に含むように制御可能で、装置が、
    過渡検出器(134)により制御されるガード窓スイッチ(142)をさらに含み、ガード窓スイッチ(142)が、過渡事象(700,72)が過渡検出器(134)により検出された場合には、ガードゾーンを含む分析窓関数の使用によりオーディオサンプルの連続するブロックから、ディングされた値およびオーディオ信号値を有するディングされたブロック(141−1,902)が生成されるよう分析窓プロセッサ(110,102−1,102−2,140)を制御し、かつ過渡事象(700,72)が過渡検出器(134)により検出されない場合に、オーディオ信号値のみを有するパディングされていないブロック(141−2,930)が生成されるよう、分析窓プロセッサ(102−1,102−2,140)を制御するよう構成され、
    第1の変換器(104)が、第1のサブ変換器(138−1)と第2のサブ変換器(138−2)とを含み、
    ガード窓スイッチ(142)が、さらに、過渡事象(700,72)が過渡検出器(134)により検出された場合には、第1のサブ変換器(138−1)へパディングされたブロック(141−1,902)を供給して、第1の変換長さを有する変換を行い、過渡事象(700,72)が過渡検出器(134)により検出されない場合には、第2のサブ変換器(138−2)へパディングされていないブロック(141−2,930)を供給して、第1の長さより短い第2の変換長さを有する変換を行うよう構成される、請求項に記載の装置。
  16. 標的周波数域(125−1,125−2,125−3)の信号(125)の包絡線または送信されたパラメータ(101)に基づく結合信号(129)の包絡線を調節して、補正された信号(129)を得る包絡線アジャスタ(130)と、
    オーディオ信号(100,102−1)と補正された信号(129)を結合して、帯域幅が拡張された操作された信号(131)を得るための後続の結合器(132)とをさらに含む、請求項4または13に記載の装置。
  17. ウィンドワ(102)が、オーディオサンプルからなる複数の連続するブロック(111,811)を生成するよう構成され、複数の連続するブロック(111,811)が、パディングされていないブロック(133−2,135−2,141−2,930)と連続するパディングされたブロック(103,803,141−1,902)とからなる第1の対(145−1)と、パディングされたブロック(103,803,141−1,902)と連続するパディングされていないブロック(133−2,135−2,141−2,930)とからなる第2の対(145−2)とを少なくとも含み、装置が、
    調整された時間領域オーディオサンプルもしくは第1の対(145−1)の調整された時間領域オーディオサンプルの重複加算ブロックをデシメートして第1の対(145−1)のデシメートされたオーディオサンプル(147−1)を得るためまたは調整された時間領域オーディオサンプルもしくは第2の対(145−2)の調整された時間領域オーディオサンプルの重複加算ブロックをデシメートして、第2の対(145−2)のデシメートされたオーディオサンプル(147−2)を得るためのデシメータ(120)と、
    重複加算器(124)とをさらに含み、重複加算器(124)が、デシメートされたオーディオサンプル(147−1,147−2)または第1の対(145−1)もしくは第2の対(145−2)の調整された時間領域オーディオサンプルの重複するブロックを加算するように構成され、第1の対(145−1)については、パディングされていないブロック(133−2,135−2,141−2,930)の第1のサンプル(151)と、パディングされたブロック(103,803,141−1,902)のオーディオ信号値の第1のサンプル(153)との間の時間距離(b’)が重複加算器(124)により供給されるかまたは第2の対について(145−2)、パディングされたブロック(103,803,141−1,902)のオーディオ信号値の第1のサンプル(153)とパディングされていないブロック(133−2,135−2,141−2,930)の第1のサンプル(157)との間の時間距離(b’)が重複加算器(124)により供給されて、帯域幅拡張アルゴリズムの標的周波数域の信号が得られる、請求項に記載の装置。
  18. オーディオ信号を操作するための方法であって、
    オーディオサンプルからなる複数の連続するブロック(111,811)を生成するステップ(102)を含み、複数の連続するブロック(111,811)が、オーディオサンプルの1以上のパディングされたブロック(103,803)を含み、パディングされたブロック(103,803)がパディングされた値およびオーディオ信号値を有し、さらに、
    パディングされたブロック(103,803)をスペクトル値を有するスペクトル表現に変換するステップ(104)と、
    スペクトル値の位相を調整して、調整されたスペクトル表現(107)を得るステップ(106)と、
    調整されたスペクトル表現(107)を調整された時間(105)領域オーディオ信号(109)に変換するステップ(108)と
    オーディオ信号(109)内の過渡事象(700,702)を決定するステップとを含
    過渡検出器(134)が、パディングされたブロック(103;803;141−1;902)に対応するオーディオ信号(100)のブロック(133−1;135−1)における過渡事象(700,702)を検出した場合に、変換するステップ(104)は、パディングされたブロック(103;803;141−1;902)を変換するステップを含み、かつ
    ブロックにおいて、過渡事象(700,702)が検出されない場合に、変換するステップ(104)が、オーディオ信号値のみを有するパディングされていないブロック(133−2,135−2,141−2,930)を変換するステップを含み、パディングされていないブロック(133−2,135−2,141−2,930)がオーディオ信号(100)のブロックに対応する、方法。
  19. コンピュータで実行される際に、請求項18の方法を実行するためのプログラムコードを有する、コンピュータプログラム。
JP2012501273A 2009-03-26 2010-03-22 オーディオ信号を操作するための装置および方法 Active JP5328977B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16360909P 2009-03-26 2009-03-26
US61/163,609 2009-03-26
EP09013051A EP2234103B1 (en) 2009-03-26 2009-10-15 Device and method for manipulating an audio signal
EP09013051.9 2009-10-15
PCT/EP2010/053720 WO2010108895A1 (en) 2009-03-26 2010-03-22 Device and method for manipulating an audio signal

Publications (3)

Publication Number Publication Date
JP2012521574A JP2012521574A (ja) 2012-09-13
JP2012521574A5 JP2012521574A5 (ja) 2013-06-27
JP5328977B2 true JP5328977B2 (ja) 2013-10-30

Family

ID=42027826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012501273A Active JP5328977B2 (ja) 2009-03-26 2010-03-22 オーディオ信号を操作するための装置および方法

Country Status (20)

Country Link
US (1) US8837750B2 (ja)
EP (2) EP2234103B1 (ja)
JP (1) JP5328977B2 (ja)
KR (1) KR101462416B1 (ja)
CN (1) CN102365681B (ja)
AR (1) AR075963A1 (ja)
AT (1) ATE526662T1 (ja)
AU (1) AU2010227598A1 (ja)
BR (1) BRPI1006217B1 (ja)
CA (1) CA2755834C (ja)
ES (2) ES2374486T3 (ja)
HK (2) HK1148602A1 (ja)
MX (1) MX2011010017A (ja)
MY (1) MY154667A (ja)
PL (2) PL2234103T3 (ja)
RU (1) RU2523173C2 (ja)
SG (1) SG174531A1 (ja)
TW (1) TWI421859B (ja)
WO (1) WO2010108895A1 (ja)
ZA (1) ZA201106971B (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102648495B (zh) * 2009-10-21 2014-05-28 杜比Ab国际公司 用于利用适应性过取样产生高频音频信号的装置及方法
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
PL3239978T3 (pl) 2011-02-14 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
CA2827249C (en) 2011-02-14 2016-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
CN103503062B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
JP5625126B2 (ja) 2011-02-14 2014-11-12 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン スペクトル領域ノイズ整形を使用する線形予測ベースコーディングスキーム
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
WO2014126688A1 (en) * 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
EP2959481B1 (en) 2013-02-20 2017-04-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded audio or image signal or for decoding an encoded audio or image signal in the presence of transients using a multi overlap portion
KR101732059B1 (ko) 2013-05-15 2017-05-04 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
ES2693559T3 (es) 2013-08-23 2018-12-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesar una señal de audio mediante una señal de error de aliasing
CN103714824B (zh) * 2013-12-12 2017-06-16 小米科技有限责任公司 一种音频处理方法、装置及终端设备
US20150170655A1 (en) * 2013-12-15 2015-06-18 Qualcomm Incorporated Systems and methods of blind bandwidth extension
CN105096957B (zh) 2014-04-29 2016-09-14 华为技术有限公司 处理信号的方法及设备
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
EP3155828B1 (en) 2014-07-22 2018-11-07 Huawei Technologies Co., Ltd. An apparatus and a method for manipulating an input audio signal
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
JP6668372B2 (ja) * 2015-02-26 2020-03-18 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
KR102413692B1 (ko) * 2015-07-24 2022-06-27 삼성전자주식회사 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
JP6564135B2 (ja) * 2015-09-22 2019-08-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号処理
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
DE102022200660A1 (de) 2022-01-20 2023-07-20 Atlas Elektronik Gmbh Signalverarbeitungsanlage

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4366349A (en) * 1980-04-28 1982-12-28 Adelman Roger A Generalized signal processing hearing aid
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
US5455888A (en) 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
JPH10124088A (ja) 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
US6266003B1 (en) * 1998-08-28 2001-07-24 Sigma Audio Research Limited Method and apparatus for signal processing for time-scale and/or pitch modification of audio signals
US6549884B1 (en) 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6868377B1 (en) * 1999-11-23 2005-03-15 Creative Technology Ltd. Multiband phase-vocoder for the modification of audio or speech signals
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
AU2005201813B2 (en) 2005-04-29 2011-03-24 Phonak Ag Sound processing with frequency transposition
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US8706496B2 (en) 2007-09-13 2014-04-22 Universitat Pompeu Fabra Audio signal transforming by utilizing a computational cost function
US7729237B2 (en) 2008-03-17 2010-06-01 Lg Electronics Inc. Method of transmitting reference signal and transmitter using the same
JP5691367B2 (ja) * 2009-10-27 2015-04-01 アイシン精機株式会社 トルク変動吸収装置

Also Published As

Publication number Publication date
AR075963A1 (es) 2011-05-11
PL2234103T3 (pl) 2012-02-29
ATE526662T1 (de) 2011-10-15
WO2010108895A1 (en) 2010-09-30
EP2234103B1 (en) 2011-09-28
HK1166415A1 (en) 2012-10-26
EP2234103A1 (en) 2010-09-29
CA2755834A1 (en) 2010-09-30
CN102365681B (zh) 2014-07-16
ES2478871T3 (es) 2014-07-23
US8837750B2 (en) 2014-09-16
TW201040943A (en) 2010-11-16
AU2010227598A1 (en) 2011-11-10
BRPI1006217A2 (pt) 2016-11-29
ZA201106971B (en) 2012-07-25
KR20110139294A (ko) 2011-12-28
PL2411976T3 (pl) 2014-10-31
CN102365681A (zh) 2012-02-29
TWI421859B (zh) 2014-01-01
RU2011138839A (ru) 2013-04-10
ES2374486T3 (es) 2012-02-17
CA2755834C (en) 2016-03-15
EP2411976A1 (en) 2012-02-01
KR101462416B1 (ko) 2014-11-17
MY154667A (en) 2015-07-15
JP2012521574A (ja) 2012-09-13
US20120076323A1 (en) 2012-03-29
MX2011010017A (es) 2011-10-10
RU2523173C2 (ru) 2014-07-20
HK1148602A1 (en) 2011-09-09
BRPI1006217B1 (pt) 2020-12-22
EP2411976B1 (en) 2014-05-21
SG174531A1 (en) 2011-10-28

Similar Documents

Publication Publication Date Title
JP5328977B2 (ja) オーディオ信号を操作するための装置および方法
AU2010310041B2 (en) Apparatus and method for generating a high frequency audio signal using adaptive oversampling
EP2269189B1 (en) Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension
US10580415B2 (en) Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
AU2014208306B2 (en) Device and method for manipulating an audio signal

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20130508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130723

R150 Certificate of patent or registration of utility model

Ref document number: 5328977

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250