JP5283757B2 - オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法 - Google Patents

オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法 Download PDF

Info

Publication number
JP5283757B2
JP5283757B2 JP2011533774A JP2011533774A JP5283757B2 JP 5283757 B2 JP5283757 B2 JP 5283757B2 JP 2011533774 A JP2011533774 A JP 2011533774A JP 2011533774 A JP2011533774 A JP 2011533774A JP 5283757 B2 JP5283757 B2 JP 5283757B2
Authority
JP
Japan
Prior art keywords
frequency
spectrum
frequencies
audio signal
offset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011533774A
Other languages
English (en)
Other versions
JP2012507055A (ja
Inventor
ザーシャ・ディッシュ
ハラルド・ポップ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2012507055A publication Critical patent/JP2012507055A/ja
Application granted granted Critical
Publication of JP5283757B2 publication Critical patent/JP5283757B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Transmitters (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明による実施の形態は、オーディオ信号の処理システムに関し、さらに詳しくは、オーディオ信号のスペクトルの複数の局部重心周波数(local center of gravity frequency)を決定するための装置及び方法に関する。
例えばデータベースから取り出されるあらかじめ記録済みのオーディオ信号を新たな音楽の文脈に適合させるために、極端な信号の操作の必要性に対処するデジタル信号処理技法がますます必要とされている。そのようにするために、ピッチ、調及び音階などの高度にセマンティックな信号特性を調整する必要がある。これらの操作はすべて、本質的な音楽品質を可能な限り良好に維持しつつ、元々のオーディオマテリアルの音楽的特性を大きく変更することを共通の目的としている。換言すると、これらの編集は、オーディオマテリアルの音楽的内容を強く変更するが、それでもなお、処理後のオーディオサンプルの自然さが保存され、したがって真実性が維持されることを必要とする。これは、理想的には、多声の混合の音楽コンテンツを含むさまざまな種類の信号に広く適用することができる信号処理方法を必要とする。
そのため、マルチバンド変調コンポーネントに基づくオーディオ信号の分析、操作及び合成のための方法が最近になって提案されている(S.Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008、ならびにS. Disch及びB. Edlerの「Multiband perceptual modulation analysis, processing and synthesis of audio signals」、Proc. of the IEEE-ICASSP、2009を参照)。この手法の基本的な考え方は、多声の混合体をいずれにせよ音の構成要素として知覚されるコンポーネントに分解し、1つのコンポーネントに含まれるすべての信号要素を結合する方法でさらに操作することにある。さらに、平滑かつ知覚的に好ましいが、加えられた操作の種類に応じて劇的に変更されている出力信号を提供する合成方法が紹介されている。その方法では、コンポーネントに対していかなる操作も加えられない場合、多数のテスト信号について、透過的又は準透過的な本質的なオーディオ品質をもたらすことが示されている(S. Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008を参照)。
例えばマルチバンド変調分解など、多声の音楽のブロックベースの操作のための重要な工程は、時間において連続するスペクトルの局部重心(COG)の推定である(J. Anantharaman、A. Krishnamurthy、及びL. Fethの「Intensity-weighted average of instantaneous frequency as a model for frequency discrimination」、J. Acoust. Soc. Am.、vol. 94、pp. 723-729、1993、並びにQ. Xu、L. L. Feth、J. N. Anantharaman、及びA. K. Krishnamurthyの「Bandwidth of spectral resolution for the “c-o-g” effect in vowel-like complex sounds」、Acoustical Society of America Journal、vol. 101、pp. 3149-+、May 1997を参照)。この文献は、信号の局部COGに整列させた信号適応型のスペクトル分解を決定するために使用することができる反復アルゴリズムを示している。
COGの手法は、古典的な時間周波数の再割り当て(t−fリアサインメント)法を連想させるかもしれない。この技法の広範囲にわたる概説については、A. Fulop及びK. Fitzの「Algorithms for computing the time corrected instantaneous frequency (reassigned) spectrogram, with applications」、Journal of the Acoustical Society of America、vol. 119、pp. 360-371、2006を参照されたい。基本的には、t−fリアサインメントは、従来からの短時間フーリエ変換(STFT)の規則的な時間−周波数グリッドを、時間補正された瞬間の周波数スペクトログラムに向かって変化させ、STFTスペクトルグラムにつきもののt−f分解能の妥協に巻き込まれるよりも良好に局在したエネルギーの時間的及びスペクトル的な蓄積を明らかにする。多くの場合に、リアサインメントは、後のパーシャルトラッキングのための改善されたフロントエンドとして使用される(K. Fitz及びL. Hakenの「On the use of time-frequency reassignment in additive sound modeling」、Journal of the Audio Engineering Society、vol. 50(11)、pp. 879-893、2002を参照)。
他の関連の刊行物は、特定の調和的関係を呈するスペクトルピークを別々のソースへグループ化することによる複数の基本周波数の推定を目的としている(A Klapuriの「Signal Processing Methods For the Automatic Transcription of Music」、Ph.D. 学位論文、Tampere University of Technology、2004、及びChunghsin Yehの「Multiple fundamental frequency estimation of polyphonic recordings」、Ph.D. 学位論文、Ecole doctorale edite、 Universite de Paris、2008を参照)。しかしながら、多数のソースで構成される複雑な音楽(オーケストラ音楽など)においては、この手法は妥当な機会を有さない。
いくつかの用途においては、ボコーダが信号の操作に使用される。ボコーダの1つの種類は、位相ボコーダである。位相ボコーダについての指導書は、「The Phase Vocoder: A tutorial」、Mark Dolson、Computer Music Journal、Volume 10、No. 4、pages 14 to 27、1986という刊行物である。さらなる刊行物は、「New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects」、L. Laroche及びM. Dolson、proceedings 1999、IEEE workshop on applications of signal processing to audio and acoustics、New Paltz、New York、October 17 to 20、1999、pages 91 - 94である。
図17及び18が、位相ボコーダの種々の実例及び用途を示している。図17は、オーディオ信号が入力500に供給され、出力510において合成されたオーディオ信号が得られる位相ボコーダ1700のフィルタバンクの実例を示している。具体的には、図17に示したフィルタバンクの各チャネルが、帯域通過フィルタ501と、その後に接続された発振器502とを備えている。すべてのチャネルからのすべての発振器502の出力信号が、加算器として示されている結合器503によって合成される。結合器503の出力に出力信号510が得られる。
各々のフィルタ501は、一方では振幅信号A(t)をもたらし、他方では周波数信号f(t)をもたらすように実現されている。振幅信号及び周波数信号は時間信号である。振幅信号はフィルタの帯域内の振幅の時間につれての進行を示し、周波数信号はフィルタの出力信号の周波数の時間につれての進行を示している。
フィルタ501の概略的な実例が図18に示されている。到来する信号が、2つの平行な経路へと案内される。一方の経路においては、551に示されるように、信号に1.0という振幅及び帯域通過フィルタの中心周波数に等しい周波数を有する正弦波が乗算される。他方の経路においては、551に示されるように、信号に同じ振幅及び周波数の余弦波が乗算される。すなわち、2つの平行な経路は、乗算の波形の位相を除いて同一である。次いで、各々の経路において、乗算の結果が低域通過フィルタ553へ送り込まれる。乗算の操作そのものは単純なリング変調としても知られている。任意の信号を一定の周波数の正弦(余弦)波で乗算することは、正弦波の周波数のプラス又はマイナスの両方によって元の信号のすべての周波数成分を同時にシフトさせるという効果を有している。この結果が、次に適切な低域通過フィルタに通されると、低周波数部分のみが残る。この一連の操作はヘテロダイニングとしても知られている。このヘテロダイニングが平行な2つの経路の各々において実行されるが、一方の経路が正弦波でヘテロダインを行い、他方の経路は余弦波を使用するため、2つの経路において得られるヘテロダイン後の信号は90°だけ位相がずれている。したがって、上側の低域通過フィルタ553が直角信号554をもたらし、下側のフィルタ553は同相信号をもたらす。I信号及びQ信号としても知られるこれら2つの信号が、座標変換器556へ送られ、直交表現から振幅/位相表現が生成される。
振幅信号が557において出力され、図17からのA(t)に相当する。位相信号は、位相アンラッパー558へ入力される。要素558の出力には、0〜360°の間の位相値は存在しないが、線形な方法で増加する位相値が存在する。この「アンラップ後」の位相値が、例えば先行の時刻における位相を現在の時刻における位相から引き算して現在の時刻についての周波数値を得る位相差装置として実現することができる位相/周波数変換器559へ入力される。
この周波数値がフィルタチャネルiの一定の周波数値fiへ加えられ、出力560に時間変化する周波数値が得られる。
出力560における周波数値は、DC部分Fi及び「周波数変動」としても知られる変化部分を有しており、その変化部分によってフィルタの信号の現在の周波数が平均周波数Fiから離れる。
このように、図5及び6に示されているような位相ボコーダは、スペクトル情報及び時間情報の分離を提供する。スペクトル情報は個々のフィルタ・バンク・チャネル及び周波数fiに含まれ、時間情報は周波数変動及び時間につれての振幅に含まれる。
位相ボコーダの他の説明はフーリエ変換の解釈である。それは、有限長の時間ウインドウについて行われる重なり合うフーリエ変換の連続で構成される。フーリエ変換の解釈においては、ただ1つの時点における種々のフィルタ帯域又は周波数ビンのすべてについての振幅及び位相の値が注目される。フィルタバンクの解釈においては、再合成を、各々の発振器についての時間変化する振幅及び周波数の制御による加算合成の古典的な例として見ることができるが、フーリエの実例においては、合成は、実及び虚の形態へ再び変換し、連続する逆フーリエ変換を重なり合い加算することによって達成される。フーリエの解釈においては、位相ボコーダのフィルタ帯域の数がフーリエ変換における点の数である。同様に、個々のフィルタの周波数の等しい間隔を、フーリエ変換の基本的特徴として認識することができる。他方で、フィルタ通過帯の形状、すなわち帯域の縁におけるカットオフの急峻さは、変換の計算に先立って適用されるウインドウ関数の形状によって決定される。例えばハミングウインドウなど、特定の特徴的な形状において、フィルタのカットオフの急峻さは、ウインドウの長さに正比例して増加する。
位相ボコーダ分析の2つの異なる解釈が、帯域通過フィルタのバンクの実例についてのみ当てはまることを理解することが有用である。これらのフィルタの出力を時間変化する振幅及び周波数として表現するための操作は、両方の実例において同じである。位相ボコーダの基本的な目標は、時間情報をスペクトル情報から分離することにある。実施されている方法は、信号をいくつかのスペクトル帯に分割して、各帯域の時間変化する信号の特徴を明らかにすることである。
2つの基本的な操作が特に重要である。それらの操作は、時間スケーリング及びピッチ移調である。録音済みの音を、単純により低いサンプルレートで再生することによって遅くすることは常に可能なことである。これは、テープ録音をより遅い再生速度で再生することに似ている。しかしながら、この種の単純すぎる時間の拡大は、同時に、ピッチも時間の拡大と同じ係数で低くなる。ピッチを変化させることなく、音の時間的進展をゆっくりにすることは、時間情報及びスペクトル情報の明確な分離を必要とする。上述のように、これがまさに位相ボコーダが行おうとしていることである。図5Aに対して、時間変化する振幅信号A(t)及び周波数信号f(t)を引き伸ばすと、個々の発振器の周波数をまったく変化させないで、複合音の時間的進展をゆっくりにする。その結果は、元のピッチを有しつつ時間的に引き伸ばされた音である。時間スケーリングについてのフーリエ変換の見方は、音を時間的に引き伸ばすために、単純に逆FFTの間隔を分析FFTよりもさらに広げることができるというものである。結果として、この用途において、スペクトル変化が、合成された音において元の音よりもゆっくりと生じ、位相が、音の時間的な引き伸ばしと正確に同じ係数でスケーリングし直される。
他の用途は、ピッチ移調である。位相ボコーダを、ピッチを変化させることなく音の時間的進展を変化させるために使用することができるため、この反対を行うことも可能なはずであり、すなわち継続時間を変えることなくピッチを変えることが可能なはずである。これは、所望のピッチ変更係数を使用して時間スケーリングを行い、得られた音を同じ係数だけ変更されたサンプルレートで再生することによって行われる。例えば、ピッチを1オクターブだけ上げる場合、音が最初に時間的に2倍に引き伸ばされ、引き伸ばされたものが、元のサンプルレートの2倍で再生される。
オーディオ信号の処理のためのボコーダの用途が、例えばSascha Disch及びBernd Edlerの「An Amplitude- and Frequency-Modulation Vocoder for Audio Signal Processing」、Proceedings of the 11th International Conference on Digital Audio Effects (DAFx-08)、Espoo、Finland、September 1-4、2008に示されている。この文献においては、局部重心候補が、重心位置関数の正から負への移行を探すことによって推定されている。このために、重心位置関数が、オーディオ信号の各々の時間ブロックのスペクトルの各々の値(例えば、各々のスペクトル振幅値又は各々のパワー密度値)について計算される。この文脈において、48kHzのサンプル周波数におけるN=214という値のブロックサイズが述べられている。したがって、局部重心候補を推定するための計算量がきわめて多い。
さらに、最終的に推定された重心位置が知覚スケールにおいてほぼ等距離であることを保証するために、事後の選択手順が必要である。
本発明の目的は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための優れた考え方であって、計算量の削減を可能にする考え方を提供することにある。
この目的は、請求項1に記載の装置及び請求項20に記載の方法によって達成される。
本発明の実施の形態は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置を提供する。この装置は、オフセット決定部、周波数決定部、及び反復コントローラを備えている。オフセット決定部は、複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数を、オーディオ信号のスペクトルに基づいて決定するように構成されており、ここではスペクトルの個々のサンプル値の数が反復開始周波数の数よりも多い。周波数決定部は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって、新たな複数の反復開始周波数を決定するように構成されている。さらに、反復コントローラは、さらなる反復のためにオフセット決定部へ前記新たな複数の反復開始周波数を供給し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数に等しく設定される複数の局部重心周波数を供給するように構成されている。
本発明による実施の形態は、オフセット周波数が複数の反復開始周波数について決定され、次いで反復開始周波数が、それらについて決定されたオフセット周波数によって更新されるという中心的な考え方に基づいている。これが、所定の終息条件が満たされるまで繰り返し行われる。反復開始周波数の数が、スペクトルの個々のサンプル値の数よりも少ないため、計算の複雑さが公知の考え方に比べて大幅に軽減される。
例えば、反復開始周波数の数は10〜100の間であることができる。これは、例えば、上述したN=214という個々のサンプル値の数よりも大幅に少ない。この例では、計算量を(1/100)よりも少ないように削減することができる。
さらに、スペクトル分解能を、反復開始周波数の数を変え、及び/又はオフセット周波数の計算パラメータを調節することによって、容易に適合させることができる。
本発明によるいくつかの実施の形態は周波数マージャを備えている。周波数マージャは、複数の反復開始周波数のうちの2つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、それらの2つの隣接する反復開始周波数を併合する。
本発明によるいくつかのさらなる実施の形態は周波数加算器を備えている。周波数加算器は、複数の反復開始周波数のうちの2つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、複数の反復開始周波数へと反復開始周波数を追加する。例えば、これは、初期化が先の(時間)ブロックの推定によって行われる場合に有用となりうる。
本発明によるいくつかの実施の形態は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法に関する。この方法は、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数を決定するステップ、新たな複数の反復開始周波数を決定するステップ、及びさらなる反復のために前記新たな複数の反復開始周波数を提供するステップ、又は前記複数の局部重心周波数をもたらすステップを含んでいる。複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数はオーディオ信号のスペクトルに基づいて決定され、そこではスペクトルの個々のサンプル値の数が反復開始周波数の数よりも多い。新たな複数の反復開始周波数は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって決定される。所定の決定条件が満たされた場合に、複数の局部重心周波数が、保存、送信又はさらなる処理のために供給される。このために、供給された複数の局部重心周波数は新たな複数の反復開始周波数に等しい。
本発明によるいくつかの実施の形態においては、オーディオ信号の先の時間ブロックについて決定された複数の局部重心周波数が、オーディオ信号の次の時間ブロックの最初の反復のための反復開始周波数として使用される。この場合に、反復開始周波数の間の大きな間隔を周波数加算器によって埋めることができる。
次に、本発明による実施の形態を、添付の図面を参照して詳述する。
複数の局部重心周波数を決定するための装置のブロック図である。 複数の局部重心周波数を決定するための装置のブロック図である。 前処理を使用して複数の局部重心周波数を決定するための装置のブロック図である。 写像されたスペクトル−対−平滑化スペクトルの図である。 2つの別個の音について、局部重心の推定−対−写像されたスペクトル(抜粋)の概略図である。 うなりを生じる2つの音について、局部重心の推定−対−写像されたスペクトル(抜粋)の概略図である。 撥弦について、局部重心の推定−対−写像されたスペクトル(抜粋)の概略図である。 オーケストラ音楽について、局部重心の推定−対−写像されたスペクトル(抜粋)の概略図である。 信号適応フィルタバンクのブロック図である。 撥弦について、局部重心をもって整列させたバンドパスセグメンテーション−対−パワースペクトル(抜粋)の概略図である。 オーケストラ音楽について、局部重心をもって整列させたバンドパスセグメンテーション−対−パワースペクトル(抜粋)の概略図である。 オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。 オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。 オーディオ信号をパラメータ化表現へと変換するための装置のブロック図である。 合成モジュールのブロック図である。 多声のキーモード変化のための応用の概略図である。 5度圏の概略図である。 複数の局部重心周波数を決定するための方法のフロー図である。 複数の局部重心周波数を決定するための方法のフロー図である。 反復COG推定の概略図である。 反復開始周波数を追加するための方法のフロー図である。 従来技術の分析−合成−ボコーダ構造の概略図である。 図17に示したボコーダ構造について、従来技術のフィルタの実例の概略図である。
以下では、実施の形態の説明の冗長さを減らすために、一部において、同じ又は類似の機能的特性を有している対象物及び機能ユニットについて、同じ参照番号が使用され、そのような物件及び機能ユニットの或る図に関する説明は、他の図にも当てはまる。
図1はオーディオ信号のスペクトル102の複数の局部重心周波数132を決定するための本発明の実施の形態による装置100のブロック図を示している。装置100は、オフセット決定部110、周波数決定部120及び反復コントローラ130を備えている。オフセット決定部110は周波数決定部120へ接続され、周波数決定部120は反復コントローラ130へ接続され、反復コントローラ130はオフセット決定部110へ接続されている。オフセット決定部110は、オーディオ信号のスペクトル102に基づき、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数112を決定する。スペクトル102は別個のサンプル値によって表わされ、スペクトル102のサンプル値の数は反復開始周波数の数よりも多い。周波数決定部120は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数112だけ増加又は減少させることによって、新たな複数の反復開始周波数122を決定する。次いで、反復コントローラ130は、新たな複数の反復開始周波数122をさらなる反復のためにオフセット決定部110へ供給する。これに代え、あるいはこれに加えて、所定の終息条件が満たされた場合に、複数の局部重心周波数132がもたらされ、その複数の局部重心周波数132は、新たな複数の反復開始周波数122に等しくなり、又は新たな複数の反復開始周波数122に等しく設定される。
反復開始周波数の数がスペクトルの個々のサンプル値の数よりも少ないため、スペクトルの個々のサンプル値の各々について計算されなければならない関数に基づいて局部重心周波数を決定する考え方に比べて、複数の局部重心周波数132を決定するための計算量が少なくなる。
局部重心周波数決定の分解能及び/又は精度を、反復開始周波数の数及び/又はオフセット周波数の計算パラメータを変えることによって、個々の用途に合わせることができる。この方法では、計算量も変化するが、反復開始周波数の数が通常はスペクトルの個々のサンプル値の数よりも明らかに少ないため、計算の複雑性が低いことを保証することができる。
例えば、スペクトル102の個々のサンプル値は、スペクトル振幅、パワースペクトル密度値、又はオーディオ信号のフーリエ変換によって得られる他の値であることができる。オーディオ信号の時間ブロックについて、スペクトル102の個々のサンプル値の数は、例えば1,000〜100,000の間又は29〜220の間であることができる。対照的に、反復開始周波数の数は、例えば5〜500の間であることができる。スペクトル102の個々のサンプル値の数と反復開始周波数の数との間のこの大きな差が、公知の方法と比べて、計算の複雑性の大幅な低減を可能にする。
局部重心周波数132は、オーディオ信号のスペクトル102がスペクトル振幅、パワースペクトル密度、又はオーディオ信号のフーリエ変換によって得られる他の値について、例えば極大又は局部集合を含むことができる周波数であることができる。
例えば、複数の反復開始周波数は、最初の反復について、スペクトル102において互いに等しく離れることができ、又は分布関数もしくは所与の分布に従って離れることができる。この反復開始周波数及びスペクトル102に基づき、オフセット決定部110は、反復開始周波数が局部重心からどれだけ離れて位置するかを表わすことができるオフセット周波数112を決定する。したがって、周波数決定部120は、この局部重心と反復開始周波数との間の距離を、反復開始周波数を決定された該当のオフセット周波数だけ(オフセット周波数の正又は負の値に応じて)増加又は減少させることによって補償しようと試みる。その後、さらなる反復のために、その新たな複数の反復開始周波数122がオフセット決定部110へ提供され、又は所定の終息条件が満たされる場合、その新たな複数の反復開始周波数122が決定されるべき複数の局部重心周波数132として提供される。
装置100は、オーディオ信号の複数の時間ブロックの各々の時間ブロックについて、複数の局部重心周波数132を決定することができる。換言すると、オーディオ信号を、時間ブロックにて処理することができる。各々の時間ブロックについて、スペクトル102をフーリエ変換によって生成することができ、複数の局部重心周波数132を決定することができる。
考えられる所定の終息条件は、例えば、各々のオフセット周波数が最大オフセット周波数を下回ることであってよく、すべてのオフセット周波数の合計が最大オフセット周波数合計値を下回ることであってよく、又は現在の時間ブロックについて決定されたオフセット周波数と先の時間ブロックについて決定されたオフセット周波数との合計がしきい値オフセットを下回ることであってよい。
オフセット決定部110へもたらされるスペクトル102は、例えば、線形又は対数のスケールを備えることができる。例えば、決定された複数の重心周波数132が知覚スケールに分布することができるように、複数の局部重心周波数132の決定の傾向を設定するために、第1の反復について、複数の反復開始周波数を対数スペクトル102において等間隔に分布させることができる。
オフセット決定部110、周波数決定部120及び反復コントローラ130は、独立したハードウェアユニットであることができ、又はデジタル信号プロセッサ、マイクロコントローラもしくはコンピュータの一部であることができる。又は、マイクロコントローラもしくはコンピュータ上で動作するように構成された、コンピュータプログラム又はコンピュータプログラム製品として実現することもできる。
図2は、オーディオ信号のスペクトル102の複数の局部重心周波数132を決定するための本発明の実施の形態による装置200のブロック図を示している。装置200は、図1に示した装置に類似しているが、周波数加算器210、周波数マージャ220、及び周波数リムーバ230をさらに備えている。この実施例では、周波数決定部120が周波数リムーバ230へ接続され、周波数リムーバ230が反復コントローラ130へ接続され、反復コントローラ130が周波数加算器210へ接続され、周波数加算器210が周波数マージャ220へ接続され、周波数マージャ220がオフセット決定部110へ接続されている。代案として、周波数加算器210と周波数マージャ220の位置を交換することが可能であり、及び/又は周波数リムーバ230を、反復コントローラ130と周波数加算器210との間、周波数加算器210と周波数マージャ220との間、又は周波数マージャ220とオフセット決定部110との間に配置してもよい。
周波数加算器210は、新たな複数の反復開始周波数122の2つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、反復開始周波数を新たな複数の反復開始周波数122へ加えることができる。このために、周波数距離及び最大周波数距離を、線形又は対数のスケールにおいて測定することができる。
換言すると、周波数加算器210は、2つの隣接する反復開始周波数の間のギャップが大きすぎる場合に、反復開始周波数を加える。例えば、これは、現在の時間ブロックについて決定された複数の局部重心周波数132が、次の時間ブロックの最初の反復のための複数の反復開始周波数として使用されるべくオフセット決定部110へもたらされる場合に特に重要かもしれない。しかしながら、同じ時間ブロックについての反復の最中にも、反復開始周波数を加えることが可能である。
複数の局部重心周波数を、新たな複数の反復開始周波数を生成するためのベースとして利用することができる。
時間ブロックの最初の反復のための複数の反復開始周波数は、上述のように、互いに等間隔とすることができ、又はオーディオ信号の先の時間ブロックについて決定された複数の局部重心周波数132を現在の時間ブロックの最初の反復のための反復開始周波数として使用することもできる。
周波数マージャ220は、新たな複数の反復開始周波数122の2つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、それらの2つの隣接する反復開始周波数を併合する。やはり、周波数距離及び最小周波数距離を線形又は対数のスケールにおいて測定することができる。
換言すると、周波数マージャ220は、2つの隣接する反復開始周波数の間の距離が限界よりも小さい場合に、2つの隣接する反復開始周波数を1つの反復開始周波数によって置き換えることができる。
周波数リムーバ230は、反復開始周波数がオーディオ信号のスペクトル102の所定の最大周波数よりも高い場合、又は反復開始周波数がオーディオ信号のスペクトル102の所定の最小周波数よりも低い場合に、その反復開始周波数を新たな複数の反復開始周波数132から取り除く。例えば、所定の最大周波数は、スペクトル102に含まれる最高の周波数であってよく、所定の最小周波数は、スペクトル102に含まれる最低の周波数であってよい。
換言すると、周波数リムーバ230は、反復開始周波数がオーディオ信号のスペクトル102の周波数範囲の外側に位置する場合に、それらの反復開始周波数を新たな複数の反復開始周波数122から取り除く。
周波数加算器210及び周波数リムーバ230は、装置200の任意によるユニットである。
周波数加算器210、周波数マージャ220及び周波数リムーバ230は、オフセット決定部110、周波数決定部120及び反復コントローラ130について述べたように、独立したハードウェアユニットであっても、統合されていてもよい。
図3は、オーディオ信号302のスペクトル102の複数の局部重心周波数132を決定するための本発明の実施の形態による装置300のブロック図を示している。装置300は、図1に示した装置に類似しているが、プリプロセッサ310をさらに備えている。プリプロセッサ310はオフセット決定部110へ接続されている。プリプロセッサ310は、オーディオ信号302の時間ブロックについてフーリエ変換スペクトルを生成し、この時間ブロックのフーリエ変換スペクトルに基づいて平滑化スペクトルを生成する。さらに、プリプロセッサ310は、フーリエ変換スペクトルを平滑化スペクトルによって除算することによって、オフセット決定部110へ供給されるべきオーディオ信号302のスペクトル102を生成する。次いで、プリプロセッサ310は、スペクトルを対数のスケールに写像し、対数スペクトル102をオフセット決定部110へ供給する。又は、プリプロセッサ310は、平滑化スペクトルを生成する前及びフーリエ変換スペクトルを平滑化スペクトルによって除算する前に、フーリエ変換スペクトルを対数のスケールへと写像してもよい。
いくつかの実施の形態においては、各々の信号ブロック(時間ブロック)について、パワースペクトル密度(psd)の推定が、DFTスペクトルエネルギーを計算することによって得られる。次いで、グローバルトレンドを除去するために、例えば低次の多項式のフィッティング、ケプストラム(cepstral)平滑化の実行、又は周波数方向に沿ったフィルタ処理によって計算される平滑化psdについてpsdが正規化される。除算に先立ち、両方の量を、例えば200msの時定数を有する一次IIRフィルタによって時間的に平滑化することもできる。次に、例えばスペクトルを知覚的に調整された非一様であると同時にCOGに中心を有する帯域へ分割する作業を容易にするために、COGの計算及び分割に先立ってpsdの写像が知覚のスケール(対数のスケール)へ実行される。これにより、信号の推定による局部COG位置をもつ一組のほぼ一様なセグメントを整列させるという作業へと問題を単純化することができる。知覚的なスケールとして、低い周波数において例えばBARKスケールよりも良好なスペクトル分解能を提供するERBスケール(B. C. J. Moore及びB. R. Glasbergの「A revision of Zwicker's loudness model」、Acta Acustica、vol. 82、pp. 335-345、1996を参照)を適用することができる。しかしながら、BARKスケールも使用可能である。写像されたスペクトルは、ERBスケールに従って離間したスペクトルサンプルに対して一様にサンプルされたスペクトルを補間することによって計算することができる(式2を参照)。
Figure 0005283757
あるいは、各々の信号ブロックについて、パワースペクトル密度(psd)の推定が、DFTスペクトルエネルギーを計算することによって得られる。次に、スペクトルを知覚的に調整された非一様であると同時にCOGに中心を有する帯域へと分割する作業を容易にするために、COGの計算及び分割に先立って、psdの写像が知覚のスケールへ実行される。これにより、信号の推定による局部COG位置をもつ一組のほぼ一様なセグメントを整列させるという作業へと、問題が単純化される。知覚的なスケールとして、低い周波数において例えばBARKスケールよりも良好なスペクトル分解能を提供するERBスケールが適用される。写像されたスペクトルは、ERBスケールに従って離間したスペクトルサンプルに対して一様にサンプルされたスペクトルを補間することによって計算することができる(式2を参照)。
次いで、実世界のオーディオ信号スペクトルにつきもののグローバルトレンドを除去するために、写像されたpsdが、最小二乗基準を最小にする線形回帰によって計算される自身のトレンドについて正規化される。除算に先立ち、両方の量が、式2aによって定義されるように、例えばτ=200msの時定数を各々が有している一次IIRフィルタH(z)を適用することによって時間的に平滑化される。ここでTは、DFTの時間ストライドに入力サンプル期間を掛けることによって与えられるDFTサブバンドサンプル期間である。
Figure 0005283757
これらの前処理工程は、後のCOG位置の反復において低い周波数へと向かうグローバルバイアスを防止でき、時間的に連続するブロックについてそれぞれ推定される位置を安定にすることができる。
図3Aは、線形なトレンドによって表わされた写像されたスペクトル360及び平滑化スペクトル370のダイヤグラム350の例を示している。
プリプロセッサ310は、別個のハードウェアユニットであることができ、又はデジタル信号プロセッサ、マイクロプロセッサもしくはコンピュータの一部であることができ、又はソフトウェアプログラムとして実現することもできる。
図15はが、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法1500のフロー図を示している。方法1500は、上述した反復の重心の推定のさらに詳細な例を説明している。
各々の時間ブロックkについて、分類された位置候補リストcを、間隔Sを有するN個の候補位置c(n)からなる一様な間隔の格子によって、初期化1510することができる。パラメータSが、反復プロセスの経過において得られる推定のスペクトル分解能を設定する。換言すると、パラメータSが、COG推定の局部の範囲と考えられるべきものを決定する。
Figure 0005283757
例えば、214個のサンプルからなる時間ブロック長を使用し、DFTスペクトルは、213+1個のサンプルで構成される。それらが、やはり213+1個のサンプルを有するERBスケールの表現へと写像される。0.5ERBに相当するCOG分解能を選択すると、これは、48kHzのサンプリング周波数においてS=47のサンプルをもたらし、したがってN=174の初期の等間隔の候補をもたらす。反復において、例えば40〜50個の最終的なCOG位置が推定される。最終的なCOG位置の総数は、信号の特性、重みg(i)、及びERBにおいて測定されるCOG分解能に依存する(式4も参照)。COG分解能についての賢明な値は、例えば0.1〜1ERBの区間にある。
反復プロセスは、2つのループからなる。第1のループは、重みg(i)によって重み付けされたサイズ2Sの負から正への線形スロープ関数を、信号ブロックの前処理されたpsd推定において各々の候補位置nへ適用することによって、真の局部重心からの候補位置c(n)の位置オフセットposOff(n)を計算1410する(式4を参照)。
Figure 0005283757
換言すると、オフセット決定部110は、位置オフセットとも称されるオフセット周波数を、スペクトルの複数の個々のサンプル値(この例では、パワースペクトル密度値)、重みパラメータg(i)の複数の対応する値及び距離パラメータidxOff(i)の対応する値に基づいて決定することができる。距離パラメータの値は、対数スケールにおいて互いに等間隔であってよく、距離パラメータのすべての値が、最大距離値(この例では、S)よりも小さい。さらに、距離パラメータは、例えば式4によって示されるように、正又は負の値をとることができる。重みパラメータは、例えば矩形又は多少なりとも険しい縁を有するウインドウなど、ウインドウ関数に基づくことができる。この方法で、現時点においてオフセット周波数が決定される反復開始周波数(この例では、候補とも呼ばれる)から遠く離れた大きなピークの影響が小さくされる。換言すると、重みパラメータの値が、(例えば、矩形について)すべて同じであってよく、あるいは重みパラメータの値を、対応する距離パラメータの増加する絶対値について減少させる(例えば、大きな距離を有するピークの影響を小さくするために)ことができる。
図15Aに、候補位置オフセットposOff(n)の手順が視覚化されている。ステムプロット1590が、候補位置c(n)に中心を有する局部psdサンプルwn(i)に対応しており、ウインドウ関数が、値g(i)によって表わされ、線形スロープ関数が、idxOff(i)によって示されている。
次の段階(式5を参照)において、リストからのすべての候補位置が、それらの位置オフセットによって更新1420される。
Figure 0005283757
境界の制限に違反(スペクトルの最大周波数よりも高い周波数及びスペクトルの最小周波数よりも低い周波数)する各々の候補位置が、(式6を参照)によって示されるとおりにリストから除去1525され、残りの候補位置の数Nが1だけ減らされる。
Figure 0005283757
(式7aを参照)において定義されるように、候補の実際及び先の位置オフセットの合計の絶対値が所定のしきい値よりも小さい場合、この候補位置c(n)は、さらなる反復において更新されないが、依然としてリストに残り、したがって後の候補融合機構の対象となる。
Figure 0005283757
すべての候補の|sumOff(n)|が所定のしきい値よりも小さい場合(式7bを参照)、第1の反復ループから退出1440し、反復プロセスが終息する。リストからのすべての残りの候補が、最終的な一組のCOG位置の推定を構成する。この種の条件を使用することが、位置オフセットが2つの値の間を交互に切り換わる場合にも反復を終了させることで、適切な終息を常に保証することに注意すべきである。
Figure 0005283757
そうでない場合、次の反復の工程を、更新された候補位置1520によって実行することができる。
例えば、thres1を、1つのサンプル(2つのサンプル、5つのサンプル又は10個のサンプル)に等しく設定することができ、又はそれよりも小さく設定することができる。
第2のループは、第1のループによってもたらされる位置の更新によって所定の近接制限に違反1570する(特定の近接性の指標に従って)最も近い2つの位置候補を、1つの単一の新たな候補へと繰り返し融合1540させることで、知覚融合を考慮する。近接性の指標prox2 1530は、2つの候補のスペクトル距離である(式8を参照)。
Figure 0005283757
例えば、thres2を、S個のサンプル、S/2個のサンプル、2S個のサンプル、又は1つのサンプル〜10S個のサンプルの間の他の値へと設定することができる。
新たに計算されるジョイント候補の各々が、それまでの2つの候補のエネルギーに関して重み付けされた平均位置を占めるように初期化される(式9を参照)。
Figure 0005283757
これまでの候補が両方ともリストから削除され、新たなジョイント候補がリストへと追加される。結果として、残りの候補位置の数Nが1だけ減らされる。第2のループの反復は、近接制限に違反する候補がもはや存在しない場合に終息1570する。最終的な一組のCOG候補が、推定された局部重心位置を構成する。
推定された重心周波数を保存1560することができ、あるいはさらなる処理のために送信又は供給することができる。
反復プロセスを高速にするために、新たなブロックの各々の初期化を、先のブロックのCOG位置の推定を使用して好都合に行うことができる。なぜならば、先のブロックのCOG位置の推定は、すでに現在の位置のかなり良好な推定であるからである。例えば、これは、分析におけるブロックの重なり合い及び前処理における時間的平滑化、したがってCOG位置の時間的進展における変化速度が限られているという適切な仮定ゆえに当てはまる。
それでも、考えられる新たなCOGの発生も捕捉するために充分な初期位置の推定をもたらすように、注意を払わなければならない。したがって、例えば間隔S、・・・、2Sに位置する所定の値よりも大きい距離をまたぐ推定における位置候補の間隔が、新たなCOG位置候補によって埋められ(式10を参照)、潜在的な新たな候補が位置更新関数の範囲内にあることが保証される。図16は、アルゴリズムのこの拡張1600のフロー図を示している。リストへの追加の候補の付加が、2Sよりも大きい間隔がもはや発見されない場合に終息1620するループによって達成される。
Figure 0005283757
換言すると、複数の局部重心周波数又は局部重心の推定1602について、隣接する局部重心周波数の間の周波数距離が計算1610される。1620において、2つの隣接する重心周波数の間の周波数距離が、最大周波数距離よりも大きい場合に、その複数の局部重心周波数へ1つの局部重心周波数が追加1630される。最大周波数距離よりも大きいすべての間隔を埋めた後で、その複数の局部重心周波数を次の時間ブロックのために保存1640することができる。
図4、5、6及び7は、上記提案の反復的な局部COG推定アルゴリズムを種々の試験アイテムに適用することによって得られた結果を示している。試験アイテムは、2つの別々の純音400、互いに響く2つの音590、撥弦600(「MPEG Test Set - sm03」)、及びオーケストラ音楽(「ビバルディ−四季、春、アレグロ)700である。これらの図においては、知覚的に写像され、平滑化され、全体的にトレンド除去(正規化)されたスペクトル410、595、610、710が、COGの推定(参照番号12〜26)とともに表示されている。COGの推定には、昇順で番号が付けられている。例えば、図4の22番及び26番の推定ならびに図6の18番及び19番の推定が正弦の信号成分に対応する一方で、図5の22番の推定、図6の23番及び25番の推定、ならびに図7の大部分の推定は、スペクトル的に広がり、又はうなりを生じている成分を捕捉しており、これらの成分が、それにもかかわらず良好に検出及びセグメント化されており、知覚ユニットへグループ化されている。
図8は、本発明の実施の形態による信号適応フィルタバンク800のブロック図を示している。信号適応フィルタバンク800は、オーディオ信号802のスペクトルの複数の局部重心周波数132を決定するための装置100と、複数の帯域通過フィルタ810とを備えている。複数の帯域通過フィルタ810は、オーディオ信号802をフィルタ処理し、フィルタ処理後のオーディオ信号812を送信、保存又はさらなる処理のために供給するように構成されている。このために、複数の帯域通過フィルタ810の各々の帯域通過フィルタの中心周波数及び帯域幅は複数の局部重心周波数132に基づいている。
例えば、複数の帯域通過フィルタ810の各々の帯域通過フィルタが局部重心周波数に対応し、帯域通過フィルタの中心周波数及び帯域幅が該当の局部重心周波数及び該当の局部重心周波数に隣接する局部重心周波数に依存する。
複数の帯域通過フィルタ810の帯域幅を、スペクトル全体が穴がなくカバーされるように決定することができる。
フィルタを対数スケールで得られる元のCOG推定に従って対数の周波数スケールにて設計することができ、得られるスペクトルの重みを線形ドメインへ写像することができ、又は他の実施の形態においては、フィルタを再写像されたCOG位置に従って線形ドメインにおいて設計することができる。
換言すると、後者の実施の形態においては、例えばERB適応のドメインにおいてCOG推定を割り出した後で、fについて式2を解くことによってCOG位置が線形ドメインへ再び写像され、次いで線形ドメインにおいて、N個の帯域通過フィルタの組が広帯域信号の元のDFTスペクトルへ直接適用されるスペクトルの重みの形態にて計算される。
第1の好ましい実施の形態においては、COG位置が、ERBドメインにおいてさらに処理される。N個の帯域通過フィルタの組が、式(10a)に従って長さMのスペクトル重み付け関数の重みn(weightsn)の形態にて計算される。換言すると、帯域通過フィルタの組を、線形ドメインへの写像後に広帯域の信号の元のDFTスペクトルへ適用されるスペクトルの重みの形態にて計算することができる。
例えば、帯域通過フィルタは、正弦二乗の特性を有する長さ2?rollOffの所定のロールオフを有するように設計される。推定されたCOG位置との所望の整列を達成するために、以下で説明される設計の手順を適用することができる。
第1に、隣接するCOG位置の推定の間の中間位置が計算され、ここでmL(n)が、COG位置c(n)の隣のCOG位置に対する下側の中間点を指し、mU(n)が、上側の中間点を指している。次いで、これらの移行点において、スペクトルの重みのロールオフ部分が、隣接するフィルタのロールオフ部分の合計が1になるように中心付けされる。帯域通過重み関数の中央部は、1に等しい平坦な上部となるように選択され、残りのサンプル点はゼロに設定される。n=0及びn=Nについてのフィルタは、1つのロールオフ部分しか有さず、それぞれ低域通過又は高域通過として構成される。
Figure 0005283757
ロールオフ特性の設計において、一方でスペクトル選択性、他方で時間分解能に関して、トレードオフを行わなければならない。また、複数のフィルタのスペクトル的な重なり合いを許すことで、設計の制約にさらなる自由度を追加することが可能である。トレードオフを、例えば過渡の再現の改善のために、信号適応的なやり方で選択することができる。
最後に、COG位置及びスペクトル重み関数が、fについて式(2)を解いて式(10b)を得ることによって、線形ドメインへ再び写像される。最終的に、広帯域の信号のDFTスペクトルへ適用される線形スケールでのスペクトルの重みがもたらされる。
Figure 0005283757
対数スペクトル及び等間隔の反復開始周波数での初期化を使用することによって、知覚的なセグメンテーションの傾向(低い周波数については狭く、高い周波数については広い帯域幅)を達成できるが、局部重心周波数の位置はオーディオ信号に依存するため、スペクトルのいくつかの領域においては、低い周波数のフィルタの帯域幅が、より高い周波数のフィルタの帯域幅よりも広くてもよい。
例えば、帯域通過フィルタのエッジを、対数又は線形スケールにおいて隣接する2つの重心周波数の真ん中ごとに位置させることができる。あるいは、いくつかの帯域通過フィルタの重なり合いも可能である。
本発明のいくつかの実施の形態は、フィルタバンク又は位相ボコーダについての上述の考え方の応用に関する。上述の考え方を、例えばチャネルのうちのただ1つ又は所定の数のチャネルのピッチを変更するための音楽の操作に使用することができる。
図9及び10に、信号ブロック900、1000の前処理なしの元々のpsd910、1010が示されており、上記のように設計された一組の帯域通過フィルタ920、1020が示されている。各々のフィルタがCOG推定をもって整列しており、隣のサブバンドフィルタにペアをなして滑らかに重なっていることを明確に見て取ることができる。図9は図6に対応し、図10は図7に対応している。
図11は、オーディオ信号1102をパラメータ化表現1132へと変換するための本発明の実施の形態による装置1100のブロック図を示している。装置1100は、オーディオ信号1102のスペクトルの複数の局部重心周波数132を決定するための装置100と、帯域通過推定部1110と、変調推定部1120と、出力インターフェイス1130とを備えている。複数の局部重心周波数132を決定するための装置100は、信号分析器とも呼ばれ、変調推定部1120が複数の帯域通過フィルタ810を備えている。
信号分析器100は、局部重心周波数132に関する信号分析結果132を得るために、オーディオ信号1102の一部分を分析する。信号分析結果132は、その信号分析結果132に基づいてオーディオ信号の前記部分について複数の帯域通過フィルタ810についての情報1112を推定するための帯域通過推定部1110へ入力される。その結果、複数の帯域通過フィルタ810についての情報1112が信号適応の方法で計算される。
具体的には、複数の帯域通過フィルタ810についての情報1112がフィルタ形状についての情報を含んでいる。フィルタ形状は、信号の前記一部分についての帯域通過フィルタの帯域幅及び/又は帯域通過フィルタの中心周波数、及び/又はパラメータ形式又は非パラメータ形式での大きさ伝達関数のスペクトル形態を含むことができる。重要なことには、帯域通過フィルタの帯域幅が全周波数範囲にわたって一定というわけではなく、帯域通過フィルタの中心周波数に依存してよい。例えば、依存性は、より高い中心周波数に対しては帯域幅が増加し、より低い中心周波数に対しては帯域幅が減少するようであってよい。
信号分析器100は、オーディオ信号の信号部分のスペクトル分析を実行し、特にパワーの集中を有する領域(そのような領域は、音の受信及びさらなる処理の際に人間の耳によっても決定されるため)を見つけるために、スペクトルにおけるパワー分布を分析することができる。
本発明の装置1100は、オーディオ信号の前記一部分について複数の帯域通過フィルタ810の各々の帯域のための振幅変調1122又は周波数変調1124を推定するための変調推定部1120をさらに備えている。この目的を達成するために、変調推定部1120は、後述されるように、複数の帯域通過フィルタ810についての情報1112を使用する。
図11の本発明による装置は、振幅変調1112についての情報、周波数変調1124の情報、又は複数の帯域通過フィルタ810についての情報(オーディオ信号のこの特定の部分/ブロックのための帯域通過フィルタの中心周波数の値などのフィルタ形状情報又は上述のような他の情報を含むことができる)を送信、保存又は修正するための出力インターフェイス1130をさらに備えている。出力はパラメータ化表現1132である。
図12及び12Aは、変調推定部1120と、「キャリア周波数推定」と呼ばれる単一のユニットへ組み合わせられた信号分析器100及び帯域通過推定部1110の2つの好ましい実施の形態を示している。変調推定部1120は、好ましくは、帯域通過信号をもたらす帯域通過フィルタ1120aを備えている。帯域通過信号は分析信号変換部1120bへ入力される。ブロック1120bの出力はAM情報及びFM情報の計算に有用である。AM情報を計算するために、分析信号の大きさがブロック1120cによって計算される。分析信号ブロック1120bの出力が乗算器1120dへ入力される。乗算器1120dは、他方の入力において、帯域通過1120aの実際のキャリア周波数fc1210によって制御される発振器1120eからの発振器信号を受信する。次いで、乗算器出力の位相がブロック1120fにおいて決定される。瞬間の位相が、最終的にFM情報を得るためにブロック1120gにおいて微分される。さらに、図12Aは、オーディオ信号のDFTスペクトルを生成するプリプロセッサ310を示している。
マルチバンド変調分解が、オーディオ信号を(分析)帯域通過信号の信号適応セットへと分解し、帯域通過信号のそれぞれが、正弦波キャリアと、その帯域通過信号の振幅変調(AM)及び周波数変調(FM)へとさらに分割される。帯域通過フィルタの組が、一方では全帯域のスペクトルが継ぎ目なくカバーされ、他方ではフィルタがそれぞれ局部COGをもって整列するように計算される。さらに、フィルタの帯域幅を例えばERBスケールなどの知覚スケールに一致するように選択することによって人間の聴覚が考慮される(B. C. J. Moore及びB. R. Glasbergの「A revision of Zwicker's loudness model」、Acta Acustica、vol. 82, pp. 335-345、1996を参照)。
局部COGは、その周波数領域におけるスペクトル的な寄与ゆえに、聴取者によって知覚される平均周波数に対応する。さらに、局部COG位置に中心を有する帯域は、古典的な位相ボコーダの影響ベースの位相ロックの領域に対応する(J. Laroche及びM. Dolsonの「Improved phase vocoder timescale modification of audio」、IEEE Transactions on Speech and Audio Processing、vol. 7、no. 3、pp. 323-332、1999、 Ch. Duxbury、M. Davies、及びM. Sandlerの「Improved timescaling of musical audio using phase locking at transients」、in 112th AES Convention、2002、A. Roebelの「A new approach to transient processing in the phase vocoder」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、pp. 344-349、2003、 A. Roebelの「Transient detection and preservation in the phase vocoder」、Int. Computer Music Conference (ICMC' 03)、pp. 247-250、2003を参照)。帯域通過信号の包絡線表現及び影響位相ロックの伝統的な領域の両方が、内在的に、又は後者の場合には合成の際の局部スペクトル位相コヒーレンスを保証することによって、帯域通過信号の時間的包絡線を保存する。推定された局部COGに対応する周波数の正弦波キャリアに関して、AM及びFMの両方が、それぞれ振幅の包絡線及び分析帯域通過信号のヘテロダインされた位相に捕捉される。専用の合成方法が、キャリア周波数、AM及びFMから出力信号を与える。
キャリア信号及び関連の変調成分への信号の分解のブロック図が、図12に示されている。図においては、1つの成分の抽出についての概略の信号の流れが示されている。他のすべての成分も、同様のやり方で得られる。実際には、抽出が、各々のウインドウの信号ブロックに離散型フーリエ変換(DFT)を適用することによって、例えば48kHzのサンプリング周波数におけるN=214というブロックサイズ及び75%の分析の重なり合い(大まかに、340msの時間間隔及び85msのストライドに相当)を使用して、ブロックごとのやり方ですべての成分について一緒に実行される。ウインドウは、式(1)による「平坦な上部」のウインドウであってよい。これは、後の変調合成に渡される中心出しされたN/2のサンプルが、分析ウインドウの傾斜によって影響されないことを保証することができる。精度の改善のために、重なり合いの程度を大きくすることができるが、計算の複雑さが増すという対価を伴う。
Figure 0005283757
スペクトル表現が与えられると、次いで、局部COG位置をもって整列した一組の信号適応スペクトル重み関数(帯域通過特性を有している)を計算することができる。スペクトルに帯域通過の重み付けを加えた後で、信号が時間ドメインへと変換され、ヒルベルト変換によって分析信号が導出される。これら2つの処理段階を、各々の帯域通過信号について片側のIDFTを計算することによって、効率的に組み合わせることができる。その後に、各々の分析信号が、その推定されたキャリア周波数によってヘテロダインされる。最後に、信号が、位相の導関数を計算することによって得られる振幅の包絡線及び瞬間の周波数(IF)トラックへとさらに分解され、所望のAM及びFM信号がもたらされる(S. Disch及びB. Edlerの「An amplitude- and frequency modulation vocoder for audio signal processing」、Proc. of the Int. Conf. on Digital Audio Effects (DAFx)、2008も参照)。
合わせて、図13Aが、オーディオ信号のパラメータ化表現を合成するための装置1300のブロック図を示している。例えば、好都合な実施例は、変調ドメイン、すなわち時間ドメイン帯域通過信号の生成前のドメインにおけるオーバーラップ加算操作(OLA)に基づいている。ビットストリームであってよいが、分析器又は変更器への直接接続であってもよい入力信号が、AM成分1302、FM成分1304、及びキャリア周波数成分1306へと分離される。AMシンセサイザが、好ましくはオーバーラップ加算器1310を備えており、さらに成分結合コントローラ1320を備えており、好ましくはブロック1310を備えるだけでなく、FMシンセサイザ内のオーバラップ加算器であるブロック1330も備えている。FMシンセサイザは、周波数オーバーラップ加算器1330、位相積分器1332、位相結合器1334(やはり、通常の加算器として実現することができる)、及び位相シフタ1336(先のブロックからの信号の位相が実際のブロックの位相と連続的であるよう、ブロックからブロックへと一定の位相を再成するために、成分結合コントローラ1320によって制御することができる)をさらに備えている。したがって、要素1334、1336における位相の付加が、分析器側での図12のブロック1120gでの微分の際に失われた定数の再生に対応すると言うことができる。知覚ドメインにおける情報損失の観点から、これが唯一の情報損失であり、すなわち図12の微分装置1120gによる定数部分の損失であることに注意すべきである。この損失を、成分結合装置1320によって決定される一定の位相を加えることによって再生することができる。
オーバーラップ加算(OLA)が、隣接する時間ブロックの間のうなりの影響を回避するために、すぐに合成される信号についてではなく、パラメータドメインにおいて適用される。OLAは、スペクトルの近接性(ERBスケールにおいて測定される)によって案内されて、実際のブロックのコンポーネントについて先のブロックのそれらの先行物とのペアごとの縁組みを実行するコンポーネント結合機構によって制御される。さらに、結合が、実際のブロックの絶対の成分の位相を先のブロックのそれに整列させる。
詳しくは、最初にFM信号がキャリア周波数へと加えられ、結果がOLA段へと渡され、その出力がその後に積分される。正弦波発振器1340に、得られた位相信号が供給される。AM信号は、第2のOLA段によって処理される。最後に、発振器の出力が、得られたAM信号によって振幅変調1350され、出力信号1360への成分の付加的寄与が得られる。
変調分析における信号の適切なスペクトルセグメンテーションが、さらなる変調パラメータ処理の説得力のある結果のために最も重要であることを、強調しておかなければならない。したがって、本明細書において、新規かつ適切なセグメンテーションアルゴリズムが提示される。
合わせて、図13Bが、多声のキーモード変化についての上述の考え方1300の応用を示している。
オーディオ信号の移調を、元の再生速度を維持しつつ実行することは、難しい作業である。これが、ここで提案されるシステムを使用して、すべてのキャリア成分に一定の係数を掛け算することによって単刀直入に実現される。入力信号の時間構造は、AM信号によってのみ捕捉されるため、キャリアのスペクトル間隔を引き伸ばすことによる影響を受けることがない。
さらに要求の厳しい効果も選択的な処理によって得ることができる。1曲の音楽のキーモードを、例えば短調から長調、あるいはその反対に変更することができる。したがって、特定の所定の周波数間隔に対応するキャリアの部分集合のみが適切な新たな値へと写像される。これを達成するために、キャリア周波数がMIDIピッチへと量子化1370され、次いで適切な新たなMIDIピッチへ写像1372される(処理対象の音楽アイテムのモード及びキーについての推測的な知識を使用して)。必要な処理が、図13Bに示されている。
長音階と自然的短音階との間の変換の場合には、写像されるべきMIDIピッチを、図13cに示されるように、5度圏表1390から導出することができる。長音階から短音階への変換は反時計方向の3段階の跳躍によって得られ、短音階から長音階への変化は時計方向の3段階によって得られる。最後に、合成1378に使用される変更されたキャリア周波数を取得1376するために、写像されたMIDI音調が再び変換1374される。専用のMIDI音調の開始/終了の検出は、時間的特徴が変更されていないAMによってもっぱら表わされ、従って保存されるため、不要である。他の短音階フレーバー(例えば、和声的短音階)への変換及び他の短音階フレーバーからの変換を可能にする任意の写像テーブルを定義することが可能である。
図14は、オーディオ信号のスペクトルの複数の局部重心周波数を決定するための本発明の実施の形態による方法1400のフロー図を示している。この方法1400は、複数の反復開始周波数の各々の反復開始周波数についてオフセット周波数を決定するステップ1410、新たな複数の反復開始周波数を決定するステップ1420、ならびに新たな複数の反復開始周波数をさらなる反復のために提供するステップ1430、又は複数の局部重心周波数をもたらすステップ1440を含んでいる。複数の反復開始周波数の各々の反復開始周波数についてのオフセット周波数は、オーディオ信号のスペクトルに基づいて決定1410され、ここでスペクトルの個々のサンプル値の数が、反復開始周波数の数よりも多い。新たな複数の反復開始周波数は、複数の反復開始周波数の各々の反復開始周波数を、決定された該当のオフセット周波数だけ増加又は減少させることによって決定1420される。所定の終息条件が満たされたならば、複数の局部重心周波数が、保存、送信、又はさらなる処理のために供給1440される。このために、複数の局部重心周波数が、新たな複数の反復開始周波数に等しく設定される。
本発明によるいくつかの実施の形態は、推定された局部重心に依存するオーディオ信号スペクトルのための反復セグメンテーションアルゴリズムに関する。
現代の音楽の生成及び音の生成は、巨大なデータベースから取られる録音済みのオーディオ片(いわゆる、サンプル)の操作に依存することが多い。結果として、これらのサンプルを柔軟な方法で新たな音楽の文脈に幅広く適合させる要求が増している。この目的のために、先進のデジタル信号処理が、ピッチの変更、時間的な引き伸ばし、又は和音などのオーディオ効果を実現するために必要とされる。多くの場合、これらの処理方法の重要部は、信号に適応したブロックベースのスペクトルセグメンテーション操作である。したがって、局部重心(COG)に基づくそのようなスペクトルセグメンテーションのための新規なアルゴリズムが提案される。例えば、この方法を、オーディオ信号のマルチバンド変調分解に使用することができる。さらに、このアルゴリズムを、優れたボコーダ関連の用途というさらに一般的な文脈においても使用することができる。
いくつかの実施の形態において、本明細書において提案されるセグメンテーションアルゴリズムは、洗練された推定によって反復的に更新される初期のCOGスペクトル位置候補リストで構成される。洗練のプロセスにおいて、候補の追加、削除、又は融合が取り入れられ、従って本方法は、最終的なCOG推定の総数を先験的に知る必要がない。反復を、2つのループによって実行することができる。すべての必要な操作は、信号のスペクトル表現に対して実行される。
ブロックベースの(多声の)音楽の操作の重要な工程は、時間において連続するスペクトルの局部重心(COG)の推定である。信号に適応したマルチバンド変調分解の発展によって動機付けられ、任意のオーディオ信号のスペクトルの多数の局部COGを推定する詳細な方法及びアルゴリズムが提案されている。さらに、推定されたCOG位置に整列させて得られる一組の帯域通過フィルタの設計の考え方も説明されている。これらのフィルタを、後に広帯域の信号を信号依存の知覚的に適応させたサブバンド信号へと分割するために使用することができる。
この方法を適用することによって得られる典型的な結果が、提示及び説明されている。専用のマルチバンド変調分解の考え方の文脈において開発され、ここに提案されるアルゴリズムを、潜在的に、オーディオの事後処理、オーディオ効果及び優れたボコーダの用途というさらに一般的な文脈において使用することができる。
t−fリアサインメント法と対照的に、ここで説明されるアルゴリズムが、知覚的に適応させたスケールでのスペクトルセグメンテーションを直接的に実行する一方で、t−fリアサインメントは、より良好に局部化したスペクトログラムをもたらすだけであり、例えばパーシャルトラッキングなど、後の段階にセグメンテーションの問題を残す。
複数の基本周波数の推定を目的とする方法と対照的に、ここに提示される手法は、信号をそのソースへと分解しようとするのではなく、スペクトルを連帯してさらに操作することができる知覚ユニットへとセグメント分けする。
他の態様の中でもとりわけ、推定されたCOG位置をもって整列した一組の帯域通過フィルタの導出につながる複数の局部COGの推定の新規なアルゴリズムが説明される。COG推定のいくつかの典型的な結果データ及び関連の一組の帯域通過フィルタが、提示及び説明される。
いくつかの態様は、装置の文脈において説明されているが、これらの態様が、対応する方法の説明も代表することは明らかであり、そこでは、ブロック又は装置が、方法の各工程又は方法の各工程の特徴に対応する。同様に、方法の文脈において説明された態様も、対応するブロック又は項目あるいは対応する装置の特徴の説明を代表する。
本発明によるエンコード後のオーディオ信号を、デジタル記憶媒体に保存することができ、あるいは伝送媒体(インターネットなどの無線の伝送媒体又は有線の伝送媒体など)において伝送することができる。
特定の実施の要件に応じて、本発明の実施の形態を、ハードウェア又はソフトウェアにて実現することができる。その実現は、それぞれの方法を実行するようにプログラマブルなコンピュータシステムと協働する(又は協働できる)電子的に読み取ることができる制御信号が保存されてなるデジタル記憶媒体(例えば、フロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、又はフラッシュメモリ)を使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータにとって読み取り可能であってよい。
本発明によるいくつかの実施の形態は、本明細書に記載の方法のうちの1つを実行するように、プログラマブルなコンピュータシステムと協働することができる電子的に読み取ることができる制御信号を有しているデータ担体を備える。
一般に、本発明の実施の形態を、プログラムコードを有するコンピュータプログラム製品として実現することができ、このコンピュータプログラム製品がコンピュータ上で実行されるときに、プログラムコードが本方法のうちの1つを実行するように動作することができる。プログラムコードを、例えば機械で読み取ることができる担体に保存することができる。
他の実施の形態は、機械で読み取ることができる担体に保存された本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、換言すると、本発明の方法の実施の形態は、コンピュータ上で実行されたときに本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有しているコンピュータプログラムである。
したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムが記録されてなるデータ担体(又はデジタル記憶媒体、又はコンピュータによって読み取り可能な媒体)である。
したがって、本発明の方法のさらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表わしているデータストリーム又は信号の並びである。データストリーム又は信号の並びを、例えば、データ通信接続(例えば、インターネット)を介して伝達されるように構成することができる。
さらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するように構成又は調整された処理手段(例えば、コンピュータ)又はプログラマブルな論理デバイスを含む。
さらなる実施の形態は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
いくつかの実施の形態においては、プログラマブルな論理デバイス(例えば、フィールド・プログラマブル・ゲート・アレイ)を、本明細書に記載の方法の機能の一部又はすべてを実行するために使用することができる。いくつかの実施の形態においては、フィールド・プログラマブル・ゲート・アレイが、本明細書に記載の方法のうちの1つを実行すべくマイクロプロセッサと協働することができる。一般に、これらの方法は、任意のハードウェア装置によって好ましく実行される。
上述の実施の形態は、あくまでも本発明の原理の例示にすぎない。本明細書に記載の構成及び細部の変更及び変種が、当業者にとって明らかであることを、理解すべきである。したがって、本発明は、後述の特許請求の範囲の技術的範囲によってのみ限定され、本明細書において実施の形態の解説及び説明として提示した具体的詳細には限定されない。

Claims (22)

  1. オーディオ信号のスペクトル(102)の複数の局部重心周波数(132)を決定するための装置(100)であって、
    オーディオ信号のスペクトル(102)に基づいて、該スペクトル(102)の個々のサンプル値の数より少ない複数の反復開始周波数の各々の反復開始周波数について、オフセット周波数(112)を決定するように構成されたオフセット決定部(110)と、
    前記複数の反復開始周波数の各々の反復開始周波数を、前記決定された該当のオフセット周波数(112)だけ増加又は減少させることによって、新たな複数の反復開始周波数(122)を決定するように構成された周波数決定部(120)と、
    さらなる反復のために前記オフセット決定部(110)へ前記新たな複数の反復開始周波数(122)を提供し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数(122)に等しい複数の局部重心周波数(132)を提供するように構成された反復コントローラ(130)と、を備えている装置。
  2. 前記オフセット決定部(110)は、前記スペクトル(102)の複数の個々のサンプル値と、対応する重みパラメータの値と、対応する距離パラメータの値とに基づいて、反復開始周波数についてオフセット周波数(112)を決定するように構成されている請求項1に記載の装置。
  3. 前記距離パラメータの値は対数スケールにおいて互いに等間隔であり、前記距離パラメータのすべての値は最大距離値よりも小さい請求項2に記載の装置。
  4. 前記重みパラメータの値はすべて等しく、又は前記重みパラメータの値は対応する距離パラメータの絶対値の増加において減少している請求項2又は3に記載の装置。
  5. 前記オフセット決定部(110)は、対数スケールを含んでいる前記スペクトル(102)に基づいて、各々の反復開始周波数についてオフセット周波数(112)を決定するように構成されている請求項1から4のいずれか一項に記載の装置。
  6. オーディオ信号の複数の時間ブロックの各々の時間ブロックについて複数の局部重心周波数(132)を決定するように構成されている請求項1から5のいずれか一項に記載の装置。
  7. 前記複数の反復開始周波数が、前記複数の時間ブロックのうちのある時間ブロックの第1の反復において、対数スケール上で互いに等間隔に初期化される請求項6に記載の装置
  8. ある時間ブロックの第1の反復のための複数の反復開始周波数が、先の時間ブロックにおいて決定された複数の局部重心周波数(132)に基づく請求項6に記載の装置。
  9. 前記新たな複数の反復開始周波数(122)の2つの隣接する反復開始周波数の間の周波数距離が最大周波数距離よりも大きい場合に、反復開始周波数を前記新たな複数の反復開始周波数(122)へ加えるように構成された周波数加算器(210)を備えている請求項1から8のいずれか一項に記載の装置。
  10. 前記複数の反復開始周波数(122)の2つの隣接する反復開始周波数の間の周波数距離が最小周波数距離よりも小さい場合に、該2つの隣接する反復開始周波数を併合するように構成された周波数マージャ(220)を備えている請求項1から9のいずれか一項に記載の装置。
  11. 前記周波数マージャ(220)は、前記2つの隣接する反復開始周波数を、該2つの隣接する反復開始周波数の間に位置する新たな反復開始周波数によって置き換えることで、前記2つの隣接する反復開始周波数を併合するように構成されている請求項10に記載の装置。
  12. 反復開始周波数がオーディオ信号のスペクトル(102)の所定の最大周波数よりも高い場合、又は反復開始周波数がオーディオ信号のスペクトル(102)の所定の最小周波数よりも低い場合に、該反復開始周波数を前記新たな複数の反復開始周波数(122)から取り除くように構成された周波数リムーバ(230)を備えている請求項1から11のいずれか一項に記載の装置。
  13. 各々の反復開始周波数について、現在の時間ブロックについて決定された周波数オフセットと先の時間ブロックについて決定された時間オフセットの合計の絶対値が所定のしきい値オフセットよりも小さい場合に、前記所定の終息条件が満たされる請求項6から12のいずれか一項に記載の装置。
  14. オーディオ信号の時間ブロックについてフーリエ変換スペクトルを生成し、該時間ブロックのフーリエ変換スペクトルに基づいて平滑化スペクトルを生成し、前記フーリエ変換スペクトルを前記平滑化スペクトルで除算することによって前記オフセット決定部(110)へ供給されるべきオーディオ信号(302)のスペクトル(102)を生成し、該スペクトル(102)を対数スケールへ写像して、該対数スペクトル(102)を前記オフセット決定部(110)へ供給するように構成されているか、
    又はオーディオ信号の時間ブロックについてフーリエ変換スペクトルを生成し、該フーリエ変換スペクトル(102)を対数スケールへ写像し、該時間ブロックの対数フーリエ変換スペクトルに基づいて平滑化スペクトルを生成し、前記対数フーリエ変換スペクトルを前記平滑化スペクトルで除算することによって前記オフセット決定部(110)へ供給されるべきオーディオ信号(302)のスペクトル(102)を生成して、該スペクトル(102)を前記オフセット決定部(110)へ供給するように構成されたプリプロセッサ(310)を備えている請求項1から13のいずれか一項に記載に装置。
  15. 前記プリプロセッサ(310)は、前記フーリエ変換スペクトル又は前記対数フーリエ変換スペクトルを前記平滑化スペクトルで除算する前に、前記フーリエ変換スペクトル、前記対数フーリエ変換スペクトル及び/又は前記平滑化スペクトルを時間的に平滑化するように構成されたフィルタを備えている請求項14に記載の装置。
  16. オーディオ信号(802)をフィルタ処理するための信号適応フィルタバンク(800)であって、
    オーディオ信号(802)のスペクトルの複数の局部重心周波数を決定するための請求項1から15のいずれか一項に記載の装置と、
    前記オーディオ信号(802)をフィルタ処理してフィルタ処理済みオーディオ信号(812)を得、該フィルタ処理済みオーディオ信号(812)を供給するように構成された複数の帯域通過フィルタ(810)と、を備えており、
    前記複数の帯域通過フィルタ(810)の各々の帯域通過フィルタの中心周波数及び帯域幅が、前記複数の局部重心周波数(132)に基づいている信号適応フィルタバンク。
  17. 前記複数の帯域通過フィルタ(810)の各々の帯域通過フィルタは局部重心周波数に対応しており、帯域通過フィルタの中心周波数及び帯域幅は該当の局部重心周波数及び相関する重心周波数の隣接の局部重心周波数に依存する請求項16に記載の信号適応フィルタバンク。
  18. 前記複数の帯域通過フィルタ(810)の帯域幅はスペクトル全体が穴がなくカバーされるように決定される請求項16又は17に記載の信号適応フィルタバンク。
  19. 請求項16から18のいずれか一項に記載の信号適応フィルタバンクを備えている位相ボコーダ。
  20. オーディオ信号(1102)をパラメータ化表現(1132)へと変換するための装置(1100)であって、
    オーディオ信号(1102)のスペクトルの複数の局部重心周波数(132)を決定するための請求項1から15のいずれか一項に記載の装置と、
    前記複数の局部重心周波数(132)に基づいて、オーディオスペクトルにおいて帯域幅が異なっている複数の帯域通過フィルタ(810)について、オーディオ信号の一部分に関するフィルタ形状についての情報を含む情報(1112)を推定するための帯域通過推定部(1110)と、
    前記複数の帯域通過フィルタ(810)についての前記情報(1112)を使用し、前記オーディオ信号の一部分に関して、前記複数の帯域通過フィルタ(810)の各々の帯域の振幅変調(1122)、周波数変調(1124)又は位相変調(1124)を推定するための変調推定部(1120)と、
    前記オーディオ信号の一部分に関して、前記振幅変調についての情報、前記周波数変調又は位相変調についての情報、又は前記複数の帯域通過フィルタ(810)についての情報を送信、保存又は変更するための出力インターフェイス(1130)と、を備えている装置。
  21. オーディオ信号のスペクトルの複数の局部重心周波数を決定するための方法(1400)であって、
    オーディオ信号のスペクトルに基づいて、該スペクトルの個々のサンプル値より少ない複数の反復開始周波数の各々の反復開始周波数について、オフセット周波数を決定するステップ(1410)と、
    前記複数の反復開始周波数の各々の反復開始周波数を、前記決定された該当のオフセット周波数だけ増加又は減少させることによって、新たな複数の反復開始周波数を決定するステップ(1420)と、
    さらなる反復のために前記新たな複数の反復開始周波数を提供(1430)し、又は所定の終息条件が満たされた場合に、前記新たな複数の反復開始周波数に等しい複数の局部重心周波数を提供(1440)するステップと、を含んでいる方法。
  22. コンピュータ上又はマイクロコントローラ上で実行されたときに請求項21に記載の方法を実行するためのプログラムコードを有しているコンピュータプログラム。
JP2011533774A 2009-04-03 2010-03-18 オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法 Active JP5283757B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US16656209P 2009-04-03 2009-04-03
US61/166,562 2009-04-03
EP09011091A EP2237266A1 (en) 2009-04-03 2009-08-28 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
EP09011091.7 2009-08-28
PCT/EP2010/053574 WO2010112348A1 (en) 2009-04-03 2010-03-18 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal

Publications (2)

Publication Number Publication Date
JP2012507055A JP2012507055A (ja) 2012-03-22
JP5283757B2 true JP5283757B2 (ja) 2013-09-04

Family

ID=41328588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011533774A Active JP5283757B2 (ja) 2009-04-03 2010-03-18 オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法

Country Status (12)

Country Link
US (1) US8996363B2 (ja)
EP (2) EP2237266A1 (ja)
JP (1) JP5283757B2 (ja)
KR (1) KR101264486B1 (ja)
CN (1) CN102027533B (ja)
AU (1) AU2010219353B2 (ja)
BR (1) BRPI1001241B1 (ja)
CA (1) CA2721402C (ja)
HK (1) HK1165602A1 (ja)
MX (1) MX2010011863A (ja)
RU (1) RU2490729C2 (ja)
WO (1) WO2010112348A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
FR2956743B1 (fr) * 2010-02-25 2012-10-05 Inst Francais Du Petrole Procede non intrusif de determination de l'impedance electrique d'une batterie
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
GB2488768A (en) * 2011-03-07 2012-09-12 Rhodia Operations Treatment of hydrocarbon-containing systems
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
JP2019106575A (ja) * 2017-12-08 2019-06-27 ルネサスエレクトロニクス株式会社 無線受信機、及び中間周波数信号生成方法
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법
WO2020178322A1 (en) * 2019-03-06 2020-09-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for converting a spectral resolution
CN112666547B (zh) * 2020-12-11 2024-03-19 北京理工大学 一种无线电多普勒信号频率提取和脱靶量测量方法
CN114236231A (zh) * 2021-12-08 2022-03-25 湖南艾科诺维科技有限公司 一种载波频率估计方法、系统及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5633499A (en) * 1995-11-21 1997-05-27 Trionix Research Laboratory, Inc. Scatter elimination technique and apparatus in radionuclide emission and transmission imaging in a nuclear camera
DE69840791D1 (de) * 1997-06-02 2009-06-10 Joseph A Izatt Doppler-abbildung einer strömung mittels optischer kohaerenztomografie
RU2174714C2 (ru) * 1998-05-12 2001-10-10 Научно-технический центр "Вычислительная техника" Способ выделения основного тона
WO2001071366A2 (en) * 2000-03-17 2001-09-27 The Board Of Regents Of The University Of Texas System Power spectral strain estimators in elastography
EP1403783A3 (en) 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
US8219392B2 (en) * 2005-12-05 2012-07-10 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components employing a coding operation with monotone function
KR100653643B1 (ko) 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Also Published As

Publication number Publication date
US20120008799A1 (en) 2012-01-12
AU2010219353B2 (en) 2011-10-06
RU2490729C2 (ru) 2013-08-20
KR20110002089A (ko) 2011-01-06
AU2010219353A1 (en) 2010-10-21
BRPI1001241A2 (pt) 2017-06-13
EP2401740A1 (en) 2012-01-04
RU2010136359A (ru) 2012-03-10
EP2401740B1 (en) 2013-01-16
JP2012507055A (ja) 2012-03-22
WO2010112348A1 (en) 2010-10-07
CA2721402A1 (en) 2010-10-07
KR101264486B1 (ko) 2013-05-15
HK1165602A1 (en) 2012-10-05
MX2010011863A (es) 2010-11-30
CN102027533B (zh) 2012-11-07
CN102027533A (zh) 2011-04-20
BRPI1001241B1 (pt) 2021-02-23
US8996363B2 (en) 2015-03-31
CA2721402C (en) 2014-08-26
EP2237266A1 (en) 2010-10-06

Similar Documents

Publication Publication Date Title
JP5283757B2 (ja) オーディオ信号のスペクトルの複数の局部重心周波数を決定するための装置及び方法
US8793123B2 (en) Apparatus and method for converting an audio signal into a parameterized representation using band pass filters, apparatus and method for modifying a parameterized representation using band pass filter, apparatus and method for synthesizing a parameterized of an audio signal using band pass filters
JP5425250B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
JP2018510374A (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
MX2012009787A (es) Aparato y metodo para modificar una señal de audio usando modelado de envolvente.
Sanjaume Audio Time-Scale Modification in the Context of Professional Audio Post-production
Disch et al. An iterative segmentation algorithm for audio signal spectra depending on estimated local centers of gravity
Luig et al. Sinusoidal Modelling and Synthesis

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130528

R150 Certificate of patent or registration of utility model

Ref document number: 5283757

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250