JP5467098B2 - オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法 - Google Patents

オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法 Download PDF

Info

Publication number
JP5467098B2
JP5467098B2 JP2011500074A JP2011500074A JP5467098B2 JP 5467098 B2 JP5467098 B2 JP 5467098B2 JP 2011500074 A JP2011500074 A JP 2011500074A JP 2011500074 A JP2011500074 A JP 2011500074A JP 5467098 B2 JP5467098 B2 JP 5467098B2
Authority
JP
Japan
Prior art keywords
information
frequency
modulation
bandpass filter
bandpass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011500074A
Other languages
English (en)
Other versions
JP2011514562A (ja
Inventor
サッシャ ディスヒ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2011514562A publication Critical patent/JP2011514562A/ja
Application granted granted Critical
Publication of JP5467098B2 publication Critical patent/JP5467098B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Amplitude Modulation (AREA)
  • Transmitters (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本発明は、オーディオ符号化に関し、特に、ボコーダにおいて適用されるパラメータ化されたオーディオ符号化スキームに関する。
ボコーダの1つの種類は、位相ボコーダである。位相ボコーダに関するチュートリアルは、出版物、Mark Dolson、「位相ボコーダ(The Phase Vocoder):チュートリアル」、Computer Music Journal、1986年、第10巻、第4号、14−27頁である。さらなる出版物は、L. LarocheおよびM. Dolson、「ピッチシフト、ハーモナイジングおよび他の外来影響のための新しい位相ボコーダ技術(New phase vocoder techniques for pitch−shifting, harmonizing and other exotic effects)」、proceedings 1999、IEEE workshop on applications of signal processing to audio and acoustics、ニューヨーク、ニューパルツ、1999年10月17日−20日、91−94頁である。
図5−図6は、位相ボコーダのための異なる実施およびアプリケーションを示す。図5は、位相ボコーダのフィルタバンク実施を示し、そこにおいて、オーディオ信号は入力500に提供され、さらに、出力510で、合成されたオーディオ信号が得られる。特に、図5に示されるフィルタバンクのそれぞれチャネルは、帯域通過フィルタ501およびその後に接続された発振器502を含む。全てのチャネルからの全ての発振器502の出力信号は、加算器として示される結合器503を介して結合される。結合器503の出力で、出力信号510が得られる。
それぞれのフィルタ501は、一方では振幅信号A(t)、および、他方では周波数信号f(t)を提供するように実施される。振幅信号および周波数信号は、時間信号である。振幅信号は、時間にわたってフィルタ帯域を有する振幅の進展を示し、さらに、周波数信号は、時間にわたってフィルタ出力信号の周波数の進展を示す。
フィルタ501の概略実施が図6に示される。入力信号は、2つの平行パスを経由する。1つのパスにおいて、信号は、551で示されるように、1.0の振幅および帯域通過フィルタの中心周波数に等しい周波数を有する正弦波で乗算される。他のパスにおいて、信号は、551で示されるように、同じ振幅および周波数の余弦波で乗算される。このように、2つの平行パスは、乗算波形の位相を除いて同一である。次に、それぞれパスにおいて、乗算の結果が低域通過フィルタ553に供給される。乗算演算自体は、単純なリングモジュレーションとしても知られている。一定の周波数の正弦(または余弦)波をどんな信号に乗算することも、正弦波の周波数を加算することおよび減算することの両方によって元の信号において全ての周波数成分を同時にシフトする効果を有する。この結果が適切な低域通過フィルタを通過する場合、低周波部分だけが残る。この演算のシーケンスも、ヘテロダイニングとして知られている。このヘテロダイニングは、2つの平行パスのそれぞれにおいて実行されるが、1つのパスが正弦波を用いて周波数変換処理を施すので、他のパスは余弦波を用いるとともに、2つのパスにおいて生じる周波数変換が施された信号は、位相が90度ずれている。したがって、上側の低域通過フィルタ553は、直角信号554を提供し、下側のフィルタ553は、同相信号を提供する。これらの2つの信号は、I信号およびQ信号として知られ、直角表現から振幅/位相表現を生成する座標変換器556に送られる。
振幅信号は、557で出力され、図5からのA(t)に対応する。位相信号は、位相アンラッパー(phase unwrapper)558に入力される。エレメント558の出力で、線形的に増加する位相値以外の0および360度間の位相値が存在しない。この「アンラップされた(unwrappered)」位相値は、位相/周波数変換器559に入力され、それは、例えば、現在の瞬間のための周波数値を得るために、現在の瞬間での位相から先行する瞬間での位相を減算する位相差装置として実施され得る。
この周波数値は、出力560で時間的に変化する周波数値を得るために、フィルタチャネルiの一定の周波数値fiに加算される。
出力560での周波数値はDC直流部分fiおよび変化部分を有し、それは「周波数変動(frequency fluctuation)」としても知られ、それによって、フィルタチャネルにおいて信号の現在の周波数は中心周波数fiから外れる。
このように、図5および図6に示されるように、位相ボコーダは、スペクトル情報および時間情報の分離を提供する。スペクトル情報は、周波数fiで特定のフィルタバンクチャネルの位置に含まれ、時間情報は、周波数変動においてさらに時間にわたって振幅にある。
位相ボコーダの別の言い方は、フーリエ変換解釈である。それは、時間において有限持続時間ウィンドウにわたって取られる一連のオーバーラップするフーリエ変換からなる。フーリエ変換解釈において、時間において一点で、異なるフィルタ帯域または周波数ビン(frequency bins)の全てのための振幅値および位相値が焦点となる。フィルタバンク解釈において、再合成は、発振器ごとに時間的に変化する振幅および周波数制御を有する加算合成の古典的な例として見られるが、フーリエ実施において、合成は、実数および虚数の形式に逆に変換することによってさらに連続する逆フーリエ変換をオーバーラップ加算することによって達成される。フーリエ解釈において、位相ボコーダにおけるフィルタ帯域の数は、フーリエ変換における周波数点の数である。同様に、個々のフィルタの周波数において等しい間隔は、フーリエ変換の基本的な特徴と認められ得る。一方、フィルタ通過帯域の形状、すなわち、帯域エッジでのカットオフの峻度は、変換を計算する前に適用されるウィンドウ関数の形状によって決定される。特定の特徴形状、例えばハミングウィンドウのために、フィルタカットオフの峻度は、ウィンドウの持続時間に正比例して増加する。
位相ボコーダ解析の2つの異なる解釈が帯域通過フィルタのバンクの実施だけに適用されるということを知ることは役立つ。これらのフィルタの出力が時間的に変化する振幅および周波数として表される演算は、両方の実施のために同じである。位相ボコーダの基本的な狙いは、スペクトル情報から時間的情報を分離することである。演算戦略は、信号を多くのスペクトル帯域に分割しさらにそれぞれの帯域において時間的に変化する信号を特徴付けることである。
2つの基本演算は、特に重要である。これらの演算は、時間スケーリングおよびピッチ転移である。単に、記録されたサウンドをより低いサンプルレートで再生することによって、記録されたサウンドの速度を落とすことは常に可能である。これは、テープ録音をより低い再生速度で再生することに類似している。しかしながら、この種の安易な時間拡大は、時間拡大と同じファクタによって同時にピッチを低下する。そのピッチを変えることなくサウンドの時間的発生を遅くすることは、時間的およびスペクトル情報の明確な分離を必要とする。上述のように、これは、まさに位相ボコーダがしようと試みることである。図5における時間的に変化する振幅信号A(t)および周波数信号f(t)を引き伸ばすことは、個々の発振器の周波数を全く変えないが、それは複合サウンドの時間的発生を遅くする。結果は、元のピッチを有する時間拡大されたサウンドである。時間スケーリングのフーリエ変換観は、サウンドを時間拡大するために、逆FFTが解析FFTより大きく離れて間隔を簡単に置かれ得るということである。その結果、スペクトル変化は、このアプリケーションにおいて元のものに比べて合成されたサウンドにおいてゆっくり発生し、さらに、位相は、まさにサウンドが時間拡大される同じファクタによって再スケーリングされる。
他のアプリケーションは、ピッチ転移である。位相ボコーダがそのピッチを変えることのないサウンドの時間的発生を変えるために用いられ得るので、逆のことをすること、すなわち持続時間を変えることなくピッチを変えることは、可能であるべきでもある。これは、所望のピッチ変化ファクタを用いて時間スケーリングし次に結果として生じるサウンドを誤ったサンプルレートで再生することによって行われ、または、所望のファクタでダウンサンプリングしさらに未変化レートで再生することである。例えば、ピッチを1オクターブ上げるために、サウンドは、最初に2倍に時間拡大され、そして、時間拡大は、元のサンプルレートの2倍で再生される。
ボコーダ(または「VODER」)は、人間のスピーチを生成するための手動操作の合成装置としてダッドリー(Dudley)によって発明された(非特許文献2)。相当な時間の後に、その作動原理は、いわゆる位相ボコーダに拡張された(非特許文献3)(非特許文献4)。位相ボコーダは、オーバーラップする短時間DFTスペクトルに、したがって、一定の中心周波数を有する1セットのサブバンドフィルタに作用する。ボコーダは、オーディオファイルを操作するための基本原理として広い受け入れを見つけた。例えば、時間引き伸ばしおよびピッチ転移のようなオーディオ効果が、ボコーダによって容易に達成される(非特許文献5)。その後、この技術に対する多くの修正および改良が発表された。特に、固定周波数を有することの解析フィルタの制約は、例えば、「ストレイト(STRAIGHT)」ボコーダにおいてマッピングを導出する基本周波数(「f0」)を加算することによって減少された(非特許文献6)。しかしながら、一般的な使用事例は、スピーチ符号化/処理のままであった。
オーディ処理地域のために興味がある他のエリアは、変調された成分へのスピーチ信号の分解であった。それぞれの成分は、キャリア、振幅変調(AM)および何らかの周波数変調(FM)部分からなる。そのような分解の信号適応方法は、例えば、1セットの信号適応帯域通過フィルタの使用を提案する非特許文献7に発表された。非特許文献8において、「正弦曲線プラスノイズ(sinusoids plus noise)」パラメトリックコーダと組み合わせてAM情報を利用するアプローチが提示された。他の分解方法は、いわゆる「フェーム(FAME)」戦略を用いる非特許文献9に発表された:ここでは、スピーチ信号は、それらのAMおよびFM内容をその後に抽出するために帯域通過フィルタを用いて4つの帯域に分解された。また、ごく最近の出版物は、AM情報(サブバンドエンベロープ)だけからオーディオ信号を再生することを意図し、さらに、FMを主に含む関連した位相情報の回復のための反復方法を提案する(非特許文献10)。
ここに提示される我々のアプローチは、一般的なオーディオ信号したがって音楽もを含む処理をターゲットにしている。それは、位相ボコーダと類似しているが、それぞれ関連したAMおよびFMを有する1セットのサブバンドキャリア周波数への信号の依存する知覚的に動機付けられたサブバンド分解を実行するために修正される。我々は、この分解が知覚的に意味がありさらにそのエレメントが直接的な方法で解釈可能であると指摘したく、これにより、分解の成分に関する各種の変調処理が可能になる。
図9b(上部および中央部のプロット)において、両方の信号の時間信号およびヒルベルトエンベロープが示される。第2信号と対照的に、エンベロープのゼロで、第1の信号においてπの位相跳躍に留意されたい。図9aは、2つの信号のパワースペクトル密度プロットを表示する(上部および中央部のプロット)。
これらの信号がそれらのスペクトル内容においてかなり異なるにもかかわらず、それらの支配的な知覚的なキュー、すなわちCOGによって表される「平均(mean)」周波数および振幅エンベロープは、類似している。これは、図9aおよび図9b(下部のプロット)に示されるように、COGに集中する帯域制限されたスペクトル領域に関して、それらに知覚的に相互の代替物を作る。同じ原理は、より複合的な信号に対して近似的にまだ当てはまる。
一般的に、キャリア、振幅変調および周波数変調情報を含む1セットの成分のそれぞれへの広帯域信号を分解する変調解析/合成システムは、この作業が一般に不良設定問題であるので、多自由度を有する。複合オーディオスペクトルのサブバンド振幅エンベロープを修正しその後に再合成のためのそれらの未修正の位相でそれらを再結合する方法は、これらの手順がサウンドの最終的なレシーバすなわち人間の耳に留意を払わないので、アーチファクトをもたらす。
さらに、細かい周波数分解能を得るために、非常に長いFFTすなわち非常に長いウィンドウを適用することは、同時に時間分解能を低減する。一方、一時的な信号は、高い周波数分解能を必要としないが、高い時間分解能を必要とし、その理由は、特定の瞬間で、帯域通過信号は、「垂直コヒーレンス(vertical coherence)」としても知られている、強い相互相関を呈するからである。この専門用語において、水平軸に時間変数が用いられさらに垂直軸に周波数変数が用いられる、時間スペクトログラムプロットをイメージする。したがって、非常に高い周波数分解能を有する一時的な信号を処理することは、低い時間分解能をもたらし、同時に、垂直コヒーレンスのほぼ完全な消失を意味する。また、サウンドの最終的なレシーバすなわち人間の耳は、そのようなモデルにおいて考慮されない。
出版物(非特許文献22)は、オーディオ信号から正確な正弦波パラメータを抽出するための解析方法論を開示する。その方法は、修正されたボコーダパラメータ推定を正弦波モデリングにおいて現在用いられるピーク検出アルゴリズムと結合する。このシステムは、フレームごとに入力を処理し、正弦波解析モデルのようなピークを検索するが、FFTドメインにおいて不鮮明になったピークが処理されるボコーダチャネルを動的に選択する。このように、フレーム内の周波数変化の正弦曲線の周波数軌道は、正確にパラメータ化され得る。スペクトル構文解析ステップにおいて、振幅FFTにおけるピークおよび谷が確認される。ピークの隔離において、スペクトルは興味があるピークの外側でゼロにセットされ、さらに、ピークの正および負の周波数バージョンの両方が保持される。次に、このスペクトルのヒルベルト変換が計算され、その後、元のIFFTおよびヒルベルト変換されたスペクトルが、互いに位相が90度ずれている2つの時間ドメイン信号を得るために計算される。信号は、ボコーダ解析に用いられる解析信号を得るために用いられる。スプリアスピークは、検出され得り、後でノイズとしてモデル化され、または、モデルから除外される。
また、スペクトルにわたって人間の耳の変化する帯域幅のような、すなわち、例えばスペクトルのより低い部分において小さい帯域幅およびスペクトルのより高い部分においてより大きい帯域幅などような、知覚基準は、説明がつかない。さらに、人間の耳の重要な特徴は、図9a、図9bおよび図9cと関連して述べられるように、人間が小さい周波数差を有する2つの安定なトーンを聞かないが、変化する振幅を有する1つのトーンを知覚するように、人間の耳が人間の耳の臨界帯域幅に対応する帯域幅内の正弦波トーンを結合し、そこにおいて、このトーンの周波数は、元のトーンの周波数間に位置付けられる。この効果は、人間の耳の臨界帯域幅が増加するときにますます増加する。
さらに、スペクトルにおいて臨界帯域の位置決めは、一定でないが、信号に依存する。人間の耳がスペクトルに応じて臨界帯域の中心周波数を動的に選択することは、心理音響学によって発見された。例えば、人間の耳が大きいトーンを知覚するときに、それから、臨界帯域は、この大きいトーンの周囲に集中する。後で、大きいトーンが異なる周波数で知覚されるときに、それから、人間の知覚が時間にわたって信号適応できるだけでなく、低い周波数部分において高いスペクトル分解能を有しかつ低いスペクトル分解能すなわちスペクトルのより高い部分において大きい帯域幅を有するフィルタも有するように、人間の耳は、この異なる周波数の周囲に臨界帯域を位置付ける。
M. VintonおよびL. Atlas、「スケーラブルおよびプログレッシブオーディオコーデック(A Scalable And Progressive Audio Codec)」、Proc. of ICASSP 2001、2001年、3277−3280頁 H. Dudley、「ボコーダ(The vocoder)」、Bell Labs Record、1939年、第17巻、122−126頁 J. L. FlanaganおよびR. M. Golden、「位相ボコーダ(Phase Vocoder)」、Bell System Technical Journal、1966年、第45巻、1493−1509頁 J. L. Flanagan、「スピーチスペクトルのパラメトリック符号化(Parametric coding of speech spectra)」、J. Acoust. Soc. Am.、1980年、第68巻(2)、412−419頁 U. Zoelzer、DAFX:「デジタルオーディオ効果(Digital Audio Effects)」、Wiley & Sons、2002年、201−298頁 H. Kawahara、「重み付けられたスペクトルの適応補間を用いるスピーチ表現および変換:再訪されるボコーダ(Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited)」、Proc. of ICASSP 1997、1997年、第2巻、1303−1306頁 A. RaoおよびR. Kumaresan、「変調された成分へのスピーチの分解に関して(On decomposing speech into modulated components)」、IEEE Trans. on Speech and Audio Processing、2000年、第8巻、240−254頁 M. Christensen et al.、「マルチ帯域振幅変調された正弦波オーディオモデリング(Multiband amplitude modulated sinusoidal audio modelling)」、IEEE Proc. of ICASSP 2004、2004年、第4巻、169−172頁 K. NieおよびF. Zeng、「蝸牛移植およびスピーチ符号化のための知覚に基づく処理戦略(A perception−based processing strategy for cochlear implants and speech coding)」、Proc. of the 26th IEEE−EMBS、2004年、第6巻、4205−4208頁 J. ThiemannおよびP. Kabal、「修正された非コヒーレントヒルベルトエンベロープからのオーディオ信号の再構成(Reconstructing Audio Signals from Modified Non−Coherent Hilbert Envelopes、Proc. Interspeech(ベルギー、アントワープ)、2007年、534−537頁 Z. M. Smith、B. DelgutteおよびA. J. Oxenham、「空想的なサウンドは聴覚における分裂を明らかにする(Chimaeric sounds reveal dichotomies in auditory perception)」、Nature、2002年、第416巻、87−90頁 J. N. AnantharamanおよびA. K. Krishnamurthy、L. L Feth、「周波数弁別のためのモデルとしての瞬時周波数の強度重み付けられた平均(Intensity weighted average of instantaneous frequency as a model for frequency discrimination)」、J. Acoust. Soc. Am.、1993年、第94巻(2)、723−729頁 O. Ghitza、「スピーチ知覚との関連で聴覚臨界帯域エンベロープ検出器の上側カットオフ周波数に関して(On the upper cutoff frequency of the auditory critical−band envelope detectors in the context of speech perception)」、J. Acoust. Soc. Amer.、2001年、第110巻(3)、1628−1640頁 E. ZwickerおよびH. Fastl、「心理音響学−事実およびモデル(Psychoacoustics − Facts and Models)」、Springer、1999年 E. Terhardt、「周期サウンド変動(粗さ)の知覚に関して(On the perception of periodic sound fluctuations(roughness))」、Acustica、1974年、第30巻、201−213頁 P. DanielおよびR. Weber、「心理音響学的な粗さ:最適化モデルの実施(Psychoacoustical Roughness: Implementation of an Optimized Model)」、Acustica、1997年、第83巻、113−123頁 P. LoughlinおよびB. Tacer、「瞬時周波数の解釈に関するコメント(Comments on the interpretation of instantaneous frequency)」、IEEE Signal Processing Lett.、1997年、第4巻、123−125頁 D. WeiおよびA. Bovik、「マルチ成分AM−FM信号の瞬時周波数に関して(On the instantaneous frequencies of multicomponent AM−FM signals)」、IEEE Signal Processing Lett.、1998年、第5巻、84−86頁 Q. LiおよびL. Atlas、「過度に変調されたAM−FM分解(Over−modulated AM−FM decomposition)」、Proceedings of the SPIE、2004年、第5559巻、172−183頁 M. Dietz、L. Liljeryd、K. KjoerlingおよびO. Kunz、「スペクトル帯域複製、オーディオ符号化における新規なアプローチ(Spectral Band Replication, a novel approach in audio coding)」、112th AES Convention、ミュンヘン、2002年5月 ITU−R Recommendation BS.534−1、「中間音質の主観評価のための方法(MUSHRA)(Method for the subjective assessment of intermediate sound quality(MUSHRA))」、International Telecommunications Union、スイス、ジュネーブ、2001年 「動的チャネルボコーダモデルを介する正弦波モデリングパラメータ推定(Sinusoidal modeling parameter estimation via a dynamic channel vocoder model)」、A.S. Master、2002 IEEE International Conference on Acoustics, Speech and Signal Processing
本発明の目的は、オーディオ信号をパラメータ化するためのおよび修正または合成によってパラメータ化された表現を処理するための改良された概念を提供することである。
この目的は、請求項1、17に記載のオーディオ信号を変換するための装置、請求項7、18に記載のオーディオ信号を変換する方法、請求項8、19に記載のパラメータ化された表現を修正するための装置、請求項10、20に記載のパラメータ化された表現を修正する方法、請求項11、21に記載のパラメータ化された表現を合成するための装置、請求項15、22に記載のオーディオ信号のパラメータ化された表現を合成する方法または請求項16、23に記載のコンピュータプログラムによって達成される。
本発明は、臨界帯域の可変帯域幅が異なる目的のために有利に利用され得る知見に基づく。1つの目的は、人間の耳の低い分解能を利用することによって効率をよくすることである。これに関連して、本発明は、効率を高めるために必要でないデータを計算しようとしない。
しかしながら、第2の利点は、高い分解能が必要である領域において、必要なデータがパラメータ化されさらに再合成された信号の品質を高めるために計算されるということである。
しかしながら、主要な利点は、例えば粗さ、ピッチなどのような特性を直接的にアドレッシングするために、直接的な、直感的なおよび知覚的に適合された方法で信号演算のための処理を提供するという事実にある。
この目的のために、オーディオ信号の信号適応解析が実行され、さらに、解析結果に基づいて、複数の帯域通過フィルタが信号適応方法で推定される。特に、帯域通過フィルタの帯域幅は、一定でないが、帯域通過フィルタの中心周波数に依存する。したがって、本発明は、帯域通過フィルタ周波数を変えることおよび帯域通過フィルタ帯域幅を変えることを可能にし、それにより、知覚的に正しい帯域通過信号ごとに、計算された帯域通過中心周波数に近似する現在の中心周波数ととともに振幅変調および周波数変調が得られる。好ましくは、帯域において中心周波数の周波数値は、できるだけ人間の耳をモデル化するために、この帯域の範囲内でエネルギーの重心(COG)を表す。そのため、帯域通過フィルタの中心周波数の周波数値は、帯域において特定のトーンにあるように必ずしも選択されないが、帯域通過フィルタの中心周波数は、周波数値に容易に位置することができ、そこにおいて、ピークは、FFTスペクトルに存在しなかった。
周波数変調情報は、帯域通過信号を決定された中心周波数とダウンミックスするによって得られる。そのため、中心周波数は、FFTに基づく(スペクトルに基づく)決定による低い時間分解能で決定されたにもかかわらず、瞬時的な時間情報は、周波数変調においてセーブされる。しかしながら、キャリア周波数への長時間変化および振幅変調とともに周波数変調情報への短時間変化の分離は、知覚的に正しい感覚においてボコーダのようなパラメータ化された表現を可能にする。
このように、本発明は、変調情報に適用される変調処理が変調表現自体の制限によって導入される望まれていないアーチファクトを回避する知覚的に平滑な結果を作り出すべきであるという感覚において、抽出された情報が知覚的に意味のあり解釈できることを、条件が満足するという点で有利である。
本発明の他の利点は、すでに単独で抽出されたキャリア情報が、粗いけれどもオーディオ信号の知覚的に楽しく表現的な「スケッチ」再構成を可能にすることであり、さらに、AMおよびFM関連情報のどんな連続するアプリケーションも、この表現を全詳細および透過性(transparency)に改良すべきであり、それは、本発明の概念が、すでに知覚的に楽しい抽出されたキャリア情報だけを用いる「スケッチ」再構成に依存する低いスケーリング層から、増加する精度/時間分解能においてAMおよびFM関連情報を有するさらなるより高いスケーリング層を用いる高品質まで、全スケーラビリティを可能にすることを意味する。
本発明の利点は、一方では新しいオーディオ効果の開発のために、他方では将来の効率的なオーディオ圧縮アルゴリズムのための構成要素として、非常に望ましいことである。従来、パラメトリック符号化方法および波形符号化間の差異が常にあるとともに、この差異は大部分が本発明によって埋められ得る。波形符号化方法は、必要なビットレートが利用できるならば透過性まで容易にスケーリングされるが、例えばCELPまたはACELPスキームなどのパラメトリック符号化スキームは、基礎となるソースモデルの制限を受け、さらに、ビットレートがこれらのコーダにおいてますます増加する場合であっても、それらは透過性に接近することができない。しかしながら、パラメトリック方法は、通常、オーディオ効果のアプリケーションのために利用され得る広範囲にわたる操作可能性を提供するが、波形符号化は、元の信号の可能な再生として最も厳しく制限される。
本発明は、両方のアプローチ間にシームレスな遷移を可能にすることによってこのギャップを埋める。
その後、本発明の実施形態は、添付図面との関連で述べられる。
図1aは、オーディオ信号を変換するのための装置または方法の実施形態の略図である。 図1bは、他の好適な実施形態の略図である。 図2aは、図1aの実施形態との関連で処理操作を示すフローチャートである。 図2bは、好適な実施形態において複数の帯域通過信号を生成するための操作プロセスを示すためのフローチャートである。 図2cは、COG計算および知覚の制約に基づく信号適応スペクトルセグメンテーションを示す。 図2dは、図1bの実施形態との関連で実行されるプロセスを示すためのフローチャートを示す。 図3aは、パラメータ化された表現を修正するための概念の実施形態の略図を示す。 図3bは、図3aに示される概念の好適な実施形態を示す。 図3cは、粗いおよび細かい情報へのAM情報の分解を説明するための略図を示す。 図3dは、図3cの実施形態に基づいて圧縮シナリオを示す。 図4aは、合成概念の略図を示す。 図4bは、図4aの概念の好適な実施形態概念を示す。 図4cは、処理された時間ドメインオーディオ信号、オーディオ信号のビットストリームおよび変調情報合成のためのオーバーラップ/加算手順のオーバーラップの表現を示す。 図4dは、パラメータ化された表現を用いてオーディオ信号を合成するための好適な実施形態のフローチャートを示す。 図5は、従来技術の解析/合成ボコーダ構造を示す。 図6は、図5の従来技術のフィルタ実施を示す。 図7aは、元の音楽アイテムのスペクトログラムを示す。 図7bは、合成されたキャリアだけのスペクトログラムを示す。 図7cは、粗いAMおよびFMによって改良されたキャリアのスペクトログラムを示す。 図7dは、粗いAMおよびFM並びに加算された「グレースノイズ(grace noise)」によって改良されたキャリアのスペクトログラムを示す。 図7eは、合成後のキャリア並びに未処理のAMおよびFMのスペクトログラムを示す。 図8は、主観的なオーディオ品質テストの結果を示す。 図9aは、2つのトーン信号、マルチトーン信号および適切に帯域制限されたマルチトーン信号のパワースペクトル密度を示す。 図9bは、2つのトーン信号、マルチトーン信号および適切に帯域制限されたマルチトーン信号の波形およびエンベロープを示す。 図9cは、帯域通過感覚において、2つの知覚的に等価な信号を生成するための方程式を示す。
図1aは、オーディオ信号100をパラメータ化された表現180に変換するための装置を示す。装置は、解析結果104を得るためにオーディオ信号の部分を解析するための信号解析器102を含む。解析結果は、信号解析結果に基づいてオーディオ信号部分のための複数の帯域通過フィルタに関する情報を推定するための帯域通過推定器106に入力される。そのため、複数の帯域通過フィルタに関する情報108は、信号適応方法で計算される。
特に、複数の帯域通過フィルタに関する情報108は、フィルタ波形に関する情報を含む。フィルタ波形は、帯域通過フィルタの帯域幅および/またはオーディオ信号の部分のための帯域通過フィルタの中心周波数、および/またはパラメトリック形式またはノンパラメトリック形式において振幅伝達関数のスペクトル形状を含むことができる。重要なことに、帯域通過フィルタの帯域幅は、全周波数範囲にわたって一定でないが、帯域通過フィルタの中心周波数に依存する。好ましくは、依存関係は、帯域幅がより高い中心周波数まで増加しさらにより低い中心周波数まで減少するということである。さらにより好ましくは、帯域通過フィルタの帯域幅は、例えばバークスケールなどの完全に知覚的に正しいスケールにおいて決定され、その結果、帯域通過フィルタの帯域幅は、特定の信号最応的に決定された中心周波数のための人間の耳によって実際に実行される帯域幅に常に依存する。
この目的のために、信号解析器102がオーディオ信号の信号部分のスペクトル解析を実行し、特に、パワー集中を有する領域を見つけるためにスペクトルにおいてパワー分布を解析することが好ましく、その理由は、そのような領域は、サウンドを受信しさらに処理するときと同様に人間の耳によって決定されるからである。
本発明の装置は、さらに、オーディオ信号の部分のための複数の帯域通過フィルタの帯域ごとに振幅変調112または周波数変調114を推定するための変調推定器110を含む。この目的ために、変調推定器110は、後述されるように、複数の帯域通過フィルタに関する情報108を用いる。
図1aの本発明の装置は、さらに、振幅変調に関する情報112、周波数変調の情報114または複数の帯域通過フィルタに関する情報108を送信し、格納しまたは修正するための出力インターフェース116を含み、それは、上述のように、例えばオーディオ信号のこの特定部分/ブロックのための帯域通過フィルタの中心周波数の値などのフィルタ波形情報または他の情報を含んでもよい。出力は、図1aに示されるように、パラメータ化された表現180である。
図1bは、変調推定器110並びに図1bに「キャリア周波数推定」と呼ばれる単一のユニットに結合される図1aの信号解析器102および図1aの帯域通過推定器106の好適な実施形態を示す。変調推定器110は、好ましくは帯域通過フィルタ110aを含み、それは、帯域通過信号を提供する。これは、解析信号変換器110bに入力される。ブロック110bの出力は、AM情報およびFM情報を計算するために役立つ。AM情報を計算するために、解析信号の振幅は、ブロック110cによって計算される。解析信号ブロック110bの出力は、乗算器110dに入力され、それは、他の入力で、発振器110eからの発振器信号を受信し、それは、帯域通過110aの実際のキャリア周波数fcによって制御される。次に、乗算器出力の位相は、ブロック110fにおいて決定される。瞬時位相は、FM情報を最終的に得るためにブロック110gで微分される。
このように、キャリア信号およびそれらの関連した変調成分への分解は、図1bに示される。
代わりの重心値計算関数が考えられ、それは反復または非反復であり得る。非反復関数は、例えば、帯域の異なる部分のための加算演算の結果を比較して、帯域の異なる部分のための加算エネルギー値を含む。
局所COGは、その周波数領域においてスペクトル貢献による人間のリスナーによって知覚される「平均(mean)」周波数に対応する。この関係を参照ために、非特許文献12において導出されるように「強度重み付け平均瞬時周波数(intensity weighted average instantaneous frequency)」(IWAIF)およびCOGの等価に留意されたい。COG推定ウィンドウおよび結果として生じるフィルタの遷移帯域幅は、人間の耳の分解能に関して選択される(「臨界帯域(critical band)」)。ここで、約0.5バークの帯域幅は、各種のテストアイテム(スピーチ、音楽、環境)のための良好な値であると経験的にわかった。さらに、この選択は、文献(非特許文献13)によって支持される。
その後、解析信号は、帯域通過フィルタリングされた信号のヒルベルト変換を用いて得られ、推定されたCOG周波数によって周波数変換処理が施される。最終的に、信号は、所望のAMおよびFM信号を得るその振幅エンベロープおよびその瞬時周波数(IF)トラックにさらに分解される。局所COG位置に集中する帯域通過信号の使用が従来の位相ボコーダの「影響の領域(regions of influence)」パラダイムに対応することに留意されたい。両方の方法は、帯域通過信号の時間的エンベロープを保存する:第1のものは本質的に後の1つは局所スペクトル位相コヒーレンスを確実にすることによる。
フィルタの結果として生じるセットは、一方ではスペクトルをシームレスにカバーし、他方では隣接するフィルタがそれほどオーバーラップしないことに留意が取られる必要があり、その理由は、これは(修正された)成分の合成の後に望まれていない打撃効果(beating effects)をもたらすからである。これは、知覚スケールに従うが同時にシームレスなスペクトル範囲を設ける必要があるフィルタの帯域幅に関していくらかの妥協を含む。そのため、キャリア周波数推定および信号適応フィルタ設計が、分解成分の知覚的な重要性のための臨界部分という結果になり、したがって、再合成された信号の品質に関する強い影響力を有する。そのような補償のセグメンテーションの例が図2cに示される。
図2aは、図2bに示されるようにオーディオ信号をパラメータ化された表現に変換するための好適なプロセスを示す。第1のステップ120において、オーディオサンプルのブロックが形成される。この目的のために、ウィンドウ関数が好ましくは用いられる。しかしながら、ウィンドウ関数の使用は、どんな場合でも必要でない。次に、ステップ121において、高い周波数分解能スペクトル121へのスペクトル変換が実行される。それから、ステップ122において、重心関数が好ましくは方程式(3)を用いて計算される。この計算は、信号解析器102において実行され、後に決定されるゼロ交差は、図1aの信号解析器102から図1aの帯域通過推定器106に提供される解析結果104である。
それが方程式(3)から明らかなように、重心関数は、異なる帯域幅に基づいて計算される。特に、方程式(3)において分子nom(k,m)および分母(k,m)のための計算において用いられる帯域幅B(k)は、周波数に依存する。したがって、周波数インデックスkは、Bの値を決定し、さらにより好ましくは、Bの値は、増加する周波数インデックスkのために増加する。したがって、nom(k,m)のための方程式(3)において明らかになるように、スペクトル領域においてウィンドウ幅Bを有する「ウィンドウ(window)」は、特定の周波数値kの周囲に集中し、そこにおいて、iは、−B(k)/2から+B(k)/2である。
nomタームにおいてウィンドウw(i)に乗算されるこのインデックスiは、実際の周波数値kの左のスペクトルパワー値X2(そこにおいてXはスペクトル振幅である)が負符号を有する加算演算に入るとともに、周波数インデックスkの右の2乗スペクトル値が正符号を有する加算演算に入ることを確認する。必然的に、この関数は異なることがあり、その結果、例えば、上半分が負符号とともに入り、さらに、下半分が正符号とともに入る。関数B(k)は、重心の知覚的に正しい計算が起こることを確認し、さらに、この関数は、好ましくは、例えば図2cに示されるように決定され、そこにおいて、知覚的に正しいスペクトルセグメンテーションが示される。
代わりの実施において、スペクトル値X(k)は、重心関数を計算する前に、対数ドメインに変換される。次に、方程式(3)において分子および分母のためのタームにおいて値Bは、(対数スケール)周波数から独立している。ここで、知覚的に正しい依存関係は、スペクトル値Xにすでに含まれ、それは、この実施形態において、対数スケールに存在する。必然的に、対数スケールにおける等しい帯域幅は、非対数スケールにおける中心周波数に関して増加する帯域幅に対応する。
ゼロ交差および特に正から負への遷移がステップ122において計算されるとすぐに、ステップ124において後の選択手順が実行される。ここで、ゼロ交差での周波数値は、知覚基準に基づいて修正される。この修正は、いくつかの制約に従い、それらは、全スペクトルが好ましくはカバーされることになり、さらに、スペクトル全体が好ましくは可能にされない。さらに、帯域通過フィルタの中心周波数は、できるだけ重心関数ゼロ交差に位置付けられ、さらに、好ましくは、スペクトルのより低い部分において中心周波数の位置決めは、スペクトルのより高い部分における位置決めに関して支持される。これは、信号適応スペクトルセグメンテーションがより密接にスペクトルのより低い部分においてステップ122の重心結果に従おうとすることを意味し、さらに、この決定に基づいて、スペクトルのより高い部分において重心が帯域通過中心周波数と一致しないときに、このオフセットは、受け入れられる。
帯域通過フィルタの中心周波数値および対応する幅が決定されるとすぐに、オーディオ信号ブロックは、ステップ124によって得られるように修正された周波数値において変化する帯域幅を有する帯域通過フィルタを有するフィルタバンクでフィルタリング126される。そのため、図2cにおける例に関して、信号適応スペクトルセグメンテーションに示されるようにフィルタバンクは、フィルタ係数を計算しさらにこれらのフィルタ係数をセットすることによって適用され、さらに、フィルタバンクは、これらのスペクトルセグメンテーションを計算するために用いられたオーディオ信号の部分をフィルタリングするために後に用いられる。
次に、1つのブロックのための計算が完了され、さらに、ステップ130において、ストライドまたはアドバンス値が、図2aにおいて120で示されるようにオーディオサンプルの次のブロックを得るためにオーバーラップ方法で時間ドメインにおいて適用される。
この手順は、図4cに示される。時間ドメインオーディオ信号は上部に示され、そこにおいて、それぞれの部分が好ましくは同数のオーディオサンプルを含む例示的に7つの部分が示される。それぞれのブロックは、N個のサンプルからなる。示されるように、第1のブロック1は、最初の4つの隣接する部分1、2、3、および4からなる。次のブロック2は、信号部分2、3、4、5からなり、第3のブロックすなわちブロック3は、信号部分3、4、5、6を含み、さらに、第4のブロックすなわちブロック4は、後の信号部分4、5、6および7を含む。ビットストリームにおいて、図2aからステップ128は、ブロックごとにすなわちブロック1、ブロック2、ブロック3、ブロック4またはブロックの選択された部分、好ましくはN/2個の中央部分ごとにパラメータ化された表現を生成し、その理由は、外側部分がフィルタリンギングまたはそれに応じて設計される変換ウィンドウのロールオフ特徴を含んでもよいからである。好ましくは、ブロックごとにパラメータ化された表現は、シーケンシャルな方法でビットストリームにおいて送信される。図4cの上部のプロットに示される例において、4重のオーバーラップ演算が形成される。代わりに、ステップ130において適用されるストライドまたはアドバンス値が1つの部分の代わりに図4cにおいて2つの部分を有するように、2重のオーバーラップが同様に実行され得る。基本的に、オーバーラップ演算は、全く必要でないが、それは、アーチファクトをブロックすることを回避するためにさらにブロックからブロックにクロスフェード演算を有利に可能にするために好ましく、それは、本発明の好適な実施形態に従って、時間ドメインにおいて実行されないが、図4cに示されるようにさらに図4aおよび図4bに関して後述するように、AM/FMドメインにおいて実行される。
図2bは、方程式(3)に関して図2aにおいて特定の手順の一般的な実施を示す。図2bにおいてこの手順は、信号解析器および帯域通過推定器において部分的に実行される。ステップ132において、オーディオ信号の部分は、パワーのスペクトル分布に関して解析される。ステップ132は、時間/周波数変換を含んでもよい。ステップ134において、スペクトルにおいて局所パワー集中のための推定された周波数値が、異なる帯域通過フィルタの知覚的に動機付けられた帯域幅を有しさらにスペクトルにおいてどんなホールも有しない、例えば図2cにおけるスペクトルセグメンテーションなどの知覚的に正しいスペクトルセグメンテーションを得るために、適合される。ステップ135において、オーディオ信号の部分は、フィルタバンクまたは変換方法を用いて決定されたスペクトルセグメンテーションでフィルタリングされ、そこにおいて、フィルタバンク実施のための例は、帯域通過110aを有する1つのチャネルおよび図1bにおいて他の成分101のための対応する帯域通過フィルタに対して図1bにおいて与えられる。ステップ135の結果は、より高い周波数に増加する帯域幅を有する帯域のための複数の帯域通過信号である。次に、ステップ136において、それぞれの帯域通過信号は、好適な実施形態においてエレメント110a〜110gを用いて別々に処理される。しかしながら、代わりに、AM変調およびFM変調を抽出するための他の全ての方法が、それぞれの帯域通過信号をパラメータ化するために実行され得る。
その後、図2dが述べられ、そこにおいて、それぞれの帯域通過信号を別々に処理するためのステップの好適なシーケンスが示される。ステップ138において、帯域通過フィルタは、計算された中心周波数値を用いて、さらに、図2bのステップ134において得られるようにスペクトルセグメンテーションによって決定されるように帯域幅を用いてセットされる。このステップは、帯域通過フィルタ情報を用い、さらに、帯域通過フィルタ情報を図1aにおいて出力インターフェース116に出力するために用いられることもできる。ステップ139において、オーディオ信号は、ステップ138においてセットされた帯域通過フィルタを用いてフィルタリングされる。ステップ140において、帯域通過信号の解析信号が形成される。ここで、真のヒルベルト変換または近似ヒルベルト変換アルゴリズムが適用され得る。これは、図1bにおいてアイテム110bで示される。次に、ステップ141において、図1bのボックス110cの実施が実行され、すなわち、解析信号の振幅がAM情報を提供するために決定される。基本的に、AM情報は、ブロック110aの出力で帯域通過信号の分解能と同じ分解能において得られる。この多量のAM情報を圧縮するために、どんなデシメーションまたはパラメータ化技術も実行され得るが、それは後述される。
位相または周波数情報を得るために、ステップ142は、帯域通過フィルタの中心周波数を有する発振器信号と解析信号との乗算を含む。乗算の場合において、後の低い通過フィルタリング演算が、ステップ142において乗算によって生成される高い周波数部分を阻止するために好ましい。発振器信号が複合的であるときに、次に、フィルタリングは必要でない。ステップ142は、ダウンミックスされた解析信号をもたらし、それは、図1bにおいてボックス110fによって示されるように瞬時位相情報を抽出するためにステップ143において処理される。この位相情報は、AM情報に加えてパラメトリック情報として出力され得るが、図1bにおいて114で示されるように、真の周波数変調情報を得るために、ボックス144においてこの位相情報を微分することが好ましい。また、位相情報は、周波数/位相関連変動を表すために用いられ得る。パラメータ化情報として位相情報が十分であるときに、次に、ブロック110gにおいて微分は必要でない。
図3aは、オーディ信号のパラメータ化された表現を修正するための装置を示し、それは、時間部分に対して、例えば図4cの中央部のプロットにおけるブロック1などの複数の帯域通過フィルタからの帯域通過フィルタ情報を有する。帯域通過フィルタ情報は、帯域通過フィルタに依存する帯域幅および帯域通過フィルタの周波数を有しさらにそれぞれの時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報を有する帯域通過フィルタの時間/変化する帯域通過フィルタ中心周波数(キャリア周波数)を示す。修正するための装置は、情報修正器160を含み、それは、時間変化する中心周波数を修正しまたは振幅変調情報、周波数変調情報若しくは位相変調情報を修正するように作動し、さらに、オーディオ信号部分、修正されたAM情報、修正されたPM情報または修正されたFM情報のためのキャリア周波数を有する修正されたパラメータ化された表現を出力する。
図3bは、図3aにおいて情報修正器160の好適な実施形態を示す。好ましくは、AM情報は、粗い/細かいスケール構造にAM情報を分解するための分解ステージに導入される。この分解は、好ましくは、例えば図3cに示されるような分解などの非線形分解である。AM情報のための送信データを圧縮するために、例えば、粗い構造だけが合成器に送信される。この合成器の部分は、加算器160eおよび帯域通過ノイズ源160fであり得る。しかしながら、これらのエレメントは、情報修正器の部分でもあり得る。しかしながら、好適な実施形態において、伝送路は、ブロック160aおよび160e間にあり、この伝送チャネルにおいて、粗い構造と例えば細かい構造を表しまたはそれから導出されるエネルギー値とのパラメータ化された表現がライン161を介して解析器から合成器に送信される。次に、合成器側において、ノイズ源160fは、特定の帯域通過信号のための帯域通過ノイズ信号を提供するためにスケーリングされ、さらに、ノイズ信号は、例えばライン161において例えばエネルギー値などのパラメータを介して示されるようにエネルギーを有する。それから、デコーダ/合成器側において、ノイズは、粗い構造によって時間的に整形され、そのターゲットエネルギーによって重み付けられ、さらに、細かい構造の人工的な合成による送信のための低ビットレートを必要とするだけの信号を合成するために、送信された粗い構造に加算される。一般的に、ノイズ加算器160fは、特定のグローバルなエネルギー値および所定の時間的エネルギー分布を有する(疑似ランダム)ノイズ信号を加算するためのものである。それは、送信されたサイド情報を介して制御されまたは例えば帯域ごとに決定される固定値などの経験的図表に基づいて固定的にセットされる。代わりに、それは、修正器または合成器において局所解析によって制御され、そこにおいて、利用できる信号は解析され、さらに、ノイズ加算器制御値が導出される。これらの制御値は、好ましくはエネルギー関連値である。
情報修正器160は、さらに、制約多項式フィット関数160bおよび/またはキャリア周波数のための転移器160dを含んでもよく、それは、FM情報を乗算器160cを介して転移する。代わりに、FM情報またはAM情報を修正せずに、キャリア周波数だけを修正することに役立ち、または、AM情報またはキャリア周波数情報を修正しないが、FM情報だけを修正することに役立つはずである。
目前に変調成分を有すると、新しいおよび興味深い処理方法が可能になる。ここで提示される変調分解の大きな利点は、提案された解析/合成方法が、処理の正確な性質から大きく独立しているどんな変調処理の結果も知覚的に平滑である(クリック、一時的な反復などがない)ことを暗に保証するということである。変調処理のいくつかの例は、図3bに包含される。
確かに、顕著なアプリケーションは、元の再生速度を維持するととともにオーディオ信号を「転移すること(trnsporting)」である:これは、一定のファクタと全てのキャリア成分との乗算によって容易に達成される。入力信号の時間的構造が単にAM信号によって捕えられるだけであるので、それはキャリアのスペクトル間隔の引き伸ばしに影響を受けない。
特定の所定の周波数間隔に対応するキャリアのサブセットが適切な新しい値にマップされる場合、楽曲のキーモードは例えばマイナーからメジャーにまたはその逆に変えられる得る。これを達成するために、キャリア周波数は、(処理される音楽アイテムのモードおよびキーについての演繹的知識を用いて)適当な新しいMIDI番号に後にマップされるMIDI番号に量子化される。最後に、マップされたMIDI番号は、合成のために用いられる修正されたキャリア周波数を得るために、逆に変換される。また、専用のMIDIノートオンセット/オフセット検出は、時間的特徴が未修正のAMによって主に表されて保存されるので必要でない。
より高度な処理は、信号の変調特性の修正をターゲットにしている:例えば、変調フィルタリングによって信号の「粗さ(roughness)」(非特許文献14)(非特許文献15)を修正することは、望ましくあり得る。AM信号において、音楽イベントなどのオンおよびオフセットに関連する粗い構造およびより速い変調周波数(〜30−300Hz)に関連する細かい構造がある。この細かい構造は(2kHzまでのキャリアのための)オーディオ信号の粗さ特性を表しているので(非特許文献15)(非特許文献16)、聴覚粗さは細かい構造を除去しさらに粗い構造を維持することによって修正され得る。
エンベロープを粗いおよび細かい構造に分解するために、非線形方法が利用され得る。例えば、粗いAMを捕らえるために、(低次の)多項式の区分的フィットを適用できる。細かい構造(残余)は、元のおよび粗いエンベロープの差として得られる。細かいAM構造の消失は、必要に応じて、残余のエネルギーによってスケーリングされ粗いAMエンベロープによって時間的に整形される帯域制限された「グレース」ノイズを加算することによって、知覚的に補償され得る。
どんな修正もAM信号に適用される場合、ゆっくり変化しているFM信号だけを制限することが望ましいことに留意されたく、その理由は、未処理のFMが1つの帯域通過領域内で打撃効果よる突然のピークを含んでもよいからである(非特許文献17)(非特許文献18)。これらのピークは、AM信号のゼロ(非特許文献19)の近くに現れて、知覚的に無視できる。IFにおいてそのようなピークの例は、ヒルベルトエンベロープのゼロ位置でπの位相跳躍の形式で図9において方程式(1)に従って信号に見られる。望まれていないピークは、例えば、元のAM信号が所望の適合度のための重み付けとして作用するFMに関する制約された多項式フィッティングによって除去され得る。そのため、FMにおいてスパイクは、望まれていないバイアスを導入することなしに除去され得る。
他のアプリケーションは、信号からFMを除去することである。ここで、簡単にFMをゼロにセットすることができる。キャリア信号が局所COGに集中するので、それらは知覚的に正しい局所平均周波数を表す。
図3cは、帯域通過信号から粗い構造を抽出するための例を示す。図3cは、上部のプロットにおいて特定の楽器によって作り出されるトーンのための典型的な粗い構造を示す。最初に楽器は静かであり、次にアタック瞬間に振幅の急激な上昇が見られ、それからそれはいわゆるサステイン期間において一定に保たれる。次に、トーンはリリースされる。これは、サステイン期間の終わりに始まる一種の指数関数的減衰によって特徴付けられる。これは、リリース期間すなわちリリース瞬間の始まりである。サステイン期間は、楽器において必ずしもそこにあるとは限らない。例えば、ギターが考慮されるときに、トーンがストリングを励起することによって励起瞬間のアタックの後に生成されることが明らかになり、かなり長いリリース部分が直ぐに続き、それは、その後にストリングがリリース時間の終わりである定常状態になるまでストリング振動が弱められるという事実によって特徴付けられる。典型的な楽器に対して、そのようなトーンのための典型的な形式または粗い構造が存在する。帯域通過信号からそのような粗い構造を抽出するために、帯域通過信号に多項式フィットを実行することが好ましく、そこにおいて、多項式フィットは、図3cの上部のプロットにおける形式と類似した一般的な形式を有し、それは、多項式係数を決定することによってマッチされ得る。最もマッチしている多項式フィットが得られるとすぐに、信号は、細かい構造が得られるように帯域通過信号の粗い構造が実際の帯域通過信号から抽出されるという、多項式供給によって決定され、多項式フィットが十分に良好なときに、多項式係数である粗い構造情報に加えて解析器側から合成器側に送信され得る特定のエネルギーを有するノイズの多い信号である。その粗い構造およびその細かい構造への帯域通過信号の分解は、非線形分解のための例である。他の非線形合成は、帯域通過信号から他の特徴を抽出するために、さらに、低ビットレートアプリケーションにおいてAM情報を送信するためのデータ転送速度を大きく低減するために、同様に実行され得る。
図3dは、そのような手順におけるステップを示す。ステップ165において、粗い構造は、例えば多項式フィッティングによって、さらに、その後に解析器から合成器に送信される振幅変調情報である多項式パラメータを計算することによって抽出される。この送信をより効率的に実行するために、送信のためのパラメータのさらなる量子化および符号化演算166が実行される。量子化は、均一またま不均一であり得る、さらに、符号化演算は、例えばハフマン符号化などのように、例えばビデオ圧縮で知られる算術符号化に基づくコンテクストなどのテーブルまたは算術符号化の有無にかかわらず、周知のエントロピー符号化演算のいずれかであり得る。
次に、非常に効率的な方法で伝送路にわたって送信され得る低ビットレートのAM情報またはFM/PM情報が形成される。合成器側において、ステップ168は、送信されたパラメータを復号化しさらに非量子化するために実行される。それから、ステップ169において、粗い構造は、例えば、送信された多項式係数を有する多項式によって定義される全ての値を実際に計算することによって再構成される。さらに、好ましくは送信されたエネルギーパラメータに基づいて、さらに、粗いAM情報によってまたは、代わりに、極端なビットレートアプリケーションにおいて、経験的に選択されたエネルギーを有する(グレース)ノイズを加算することによって時間的に整形される帯域ごとにグレースノイズを加算することは、役立つはずである。
代わりに、信号修正は、上述のように、MIDI番号にまたは一般的には音階に中心周波数のマッピングを含んでもよく、次に、例えばメジャースケールをマイナースケールにまたはその逆に楽曲を変換するためにスケールを変換する。この場合、最も重要なことだが、キャリア周波数は修正される。好ましくは、AM情報またはPM/FM情報はこの場合に修正されない。
代わりに、他の種類のキャリア周波数修正は、例えば、1より大きい整数であってもよくまたは1および0間の小数であってもよい同じ転移ファクタを用いて全てのキャリア周波数を転移することを実行され得る。後者の場合、トーンのピッチは修正の後により小さく、前者の場合、トーンのピッチは修正の前より修正の後により大きい。
図4aは、オーディオ信号のパラメータ化された表現を合成するための装置を示し、パラメータ化された表現は、例えば帯域通過フィルタのためのキャリア周波数または帯域通過中心周波数などの帯域通過情報を含む。パラメータ化された表現のさらなる成分は、振幅変調に関する情報、周波数変調に関する情報または帯域通過信号の位相変調に関する情報である。
信号を合成するために、合成するための装置は、全ての帯域通過フィルタのための情報を含む未修正のまたは修正されたパラメータ化された表現を受信する入力インターフェース200を含む。例示的に、図4aは、単一の帯域通過フィルタ信号のための合成モジュールを示す。AM情報を合成するために、AM変調に基づいてAM成分を合成するためのAM合成器201が設けられる。さらに、キャリア周波数に関する情報および送信されたPMまたはFM変調情報に基づいて瞬時周波数または位相情報を合成するためのFM/PM合成器も、設けられる。両方のエレメント201、202は、フィルタバンクチャネルごとにAM/FM/PM変調された発振信号204である、出力信号を生成するための発振器モジュール203に接続される。さらに、結合器205が、帯域通過フィルタチャネルからの信号、例えば他の帯域通過フィルタチャネルのための発振器からの信号204などを結合するために、および、帯域通過フィルタチャネルからの信号に基づくオーディオ出力信号を生成するために設けられる。まさに好適な実施形態においてサンプル的な方法で帯域通過信号を加算するだけで、合成されたオーディオ信号206を生成する。しかしながら、他の結合方法が同様に用いられる得る。
図4bは、図4aの合成器の好適な実施形態を示す。有利な実施は、変調ドメインにおいて、すなわち時間ドメイン帯域通過信号を生成する前にドメインにおいて、オーバーラップ加算演算(OLA)に基づく。図4cの中央部のプロットに示されるように、ビットストリームであってもよいが同様に解析器または修正器に直接接続されるものであってもよい入力信号は、AM成分207a、FM成分207bおよびキャリア周波数成分207cに分離される。AM合成器201は、好ましくは、オーバーラップ加算器201aを含み、さらに、成分結合制御器201bを含み、それは、好ましくは、ブロック201aだけでなく、FM合成器202内のオーバーラップ加算器であるブロック202aも含む。FM合成器202は、さらに、周波数オーバーラップ加算器202a、位相積分器202b、標準的な加算器として実施され得る位相結合器202c、および、先行するブロックからの信号の位相が実際のブロックの位相と連続的であるようにブロックからブロックに一定の位相を再生するために成分結合制御器201bによって制御可能である移相器202dを含む。したがって、エレメント202d、202cにおいて位相加算は、解析器側において図1bのブロック110gにおける微分の間に消失した定数の再生に対応すると言うことができる。知覚的なドメインの情報消失の観点から、これは、唯一の情報消失、すなわち図1bにおいて微分装置110gによる一定の部分の消失である点に留意する必要がある。この消失は、図4bにおいて成分結合装置201bにより決定される一定の位相を加算することによって再現される。
信号は、全ての成分の加算基準で合成される。1つの成分のために、処理チェーンが、図4bに示される。解析のように、合成は、ブロックごとに実行される。それぞれの解析ブロックの中央に置かれたN/2部分だけが合成のために用いられるので、1/2のオーバーラップファクタがもたらされる。成分結合メカニズムは、AMおよびFMを混合し、さらに、以前のブロックにおいてそれらの先行するもののスペクトル近接における成分のための絶対位相を整列するために利用される。また、スペクトル近接は、ピッチ知覚に関して人間の耳の感度を反映するためにバークスケール基準で計算される。
詳細については、まず、FM信号がキャリア周波数に加算され、さらに、その結果がオーバーラップ加算(OLA)ステージに伝えられる。次に、合成される成分の位相を得るために積分される。正弦波発振器は、結果として生じる位相信号によって供給される。AM信号は、他のOLAステージによって同様に処理される。最後に、発振器の出力は、出力信号に成分の加算貢献を得るために、結果として生じるAM信号によってその振幅において変調される。
図4cの下部のブロックは、50%オーバーラップの場合においてオーバーラップ加算演算の好適な実施を示す。この実施において、現在のブロックからの実際に利用された情報の第1の部分は、以前のブロックの第2の部分である対応する部分に加算される。さらに、図4cの下部のブロックは、フェードアウトするブロックの部分が1から0に減少する重み付けを受信し同時にフェードインするブロックが0から1に増加する重み付けを受信する、クロスフェージング演算を示す。これらの重み付けは、解析器側ですでに適用され得り、さらに、それから、デコーダ側で加算器演算だけが必要である。しかしながら、好ましくは、これらの重み付けは、エンコーダ側で適用されないが、所定の方法でデコーダ側に適用される。上述のように、それぞれの解析ブロックの中央に置かれたN/2部分だけは、図4cに示されるように1/2のオーバーラップファクタが生じるように、合成のために用いられる。しかしながら、図4cの上部に示されるように4重のオーバーラップが示されるように、オーバーラップ/加算のためのそれぞれの解析ブロックの完全な部分を用いることもできる。中央部分が用いられる記載されている実施形態は、外側の4分の1の部分が解析ウィンドウのロールオフを含みさらに中央の4分の1の部分だけがフラットトップ部分を有するので、好ましい。
他の全てのオーバーラップ率が、場合によっては実施され得る。
以下に、提案された変調処理スキームの特性を示すいくつかのスペクトログラムが提示される。図7aは、オーケストラクラシック音楽アイテム(ビバルディ)の抜粋の元のログスペクトログラムを示す。
図7bから図7eは、だんだんと回復する変調詳細の順に、変調処理のさまざまな方法の後の対応するスペクトログラムを示す。図7bは、単にキャリアからの信号再構成を示す。白い領域は、高いスペクトルエネルギーに対応し、図7aの元の信号のスペクトログラムにおける局所エネルギー集中と一致する。図7cは、同じキャリアを示すが、非線形に平滑化されたAMおよびFMによって改良される。詳細の加算は、明らかに見える。さらに、図7dにおいて、AMの消失の詳細は、多くの詳細を信号に再び加算する、エンベロープ整形された「グレース(grace)」ノイズの加算によって補償される。最後に、未処理の変調成分からの合成された信号のスペクトログラムが、図7eに示される。図7eにおけるスペクトログラムを図7aにおける元の信号のスペクトログラムと比較すると、全詳細の非常に良好な再生を示す。
提案された方法の性能を評価するために、主観的なリスニングテストが行われた。MUSHRA(非特許文献21)タイプのリスニングテストが、STAXの高品質静電型ヘッドホンを用いて行われた。全6人のリスナーがテストに参加した。全ての主体は、経験豊かなリスナーと考慮され得る。
図8にリストされるアイテムからなるテストセットおよびテストに基づく構成が、図9に包含される。
図8におけるチャートプロットが結果を示す。アイテムごとに95%の信頼区間を有する平均結果が示される。プロットは、全てのリスナーのためのテスト結果の統計解析の後の結果を示す。X軸は処理タイプを表し、さらに、Y軸は0(悪い)から100(透過的)にわたっている100ポイントのMUSHRAスケールに従ってスコアを表す。
結果から、完全なAMおよび完全なまたは粗いFMの詳細を有する2つのバージョンが平均において約80ポイントでベストをスコアするが、元のものからまだ識別可能であることがわかる。両方のバージョンの信頼区間が主にオーバーラップするので、細かいFM詳細の消失が実際に知覚的にごくわずかであると結論することができる。粗いAMおよびFM並びに加算された「グレース(grace)」ノイズを有するバージョンは、平均でまだ60ポイントであるがかなり低くスコアする:これは、細かいAM詳細情報の脱落の増加とともに、提案された方法のグレースフルな劣化特性を反映する。
大部分の劣化は、グロッケンシュピールおよびハープシコードのような強い一時的な内容を有するアイテムのために知覚される。これは、スペクトル全体の異なる成分間の元の位相関係の消失に起因する。しかしながら、この問題は、全ての成分のために共同でAMエンベロープの時間的な重心でキャリア位相を調整することによって、提案された合成方法の将来のバージョンにおいて解決され得る。
テストセットにおいてクラシック音楽アイテムのために、観察された劣化は、統計学的に意味がない。
提示される解析/合成方法は、異なるアプリケーションシナリオにおいて有用であり得る:オーディオ符号化のために、それは、改善された知覚的に正しい細かい粒子のスケーラブルオーディオコーダの構成要素として働き、その基本原理が非特許文献1に発表されている。ビットレートの減少とともに、より少ない詳細は、例えば完全なAMエンベロープを粗いものおよび加算された「グレース(grace)」ノイズと置き換えることによってレシーバ側に伝えられる可能性がある。
オーディオ帯域幅拡張のさらに新しい概念(非特許文献20)が考えられ、それは、ハイバンドを形成するためにシフトされおよび変更されたベースバンド成分を用いる。人間の聴覚器官特性の改良された実験は、変調構造(非特許文献11)の人間の知覚をさらに評価するために、空想的なサウンドの実行可能な例えば改良された創造物になる。
最後に、音楽製品のための特に新しく刺激的で芸術的なオーディ効果は、手の届く範囲にある:音楽アイテムのスケールおよびキーモードは、キャリア信号の適切な処理によって変更され得る、または、粗さ感覚の心理音響特性は、AM成分に関する操作によってアクセスされ得る。
知覚的に意味があるキャリアおよびAM/FM成分に任意のオーディオ信号を分解するためのシステムの提案が提示され、それは、変調の詳細修正の細かい粒子のスケーラビリティを可能にする。適切な再合成方法が与えられた。変調処理原理のいくつかの例が概説され、例のオーディオファイルの結果として生じるスペクトろグラムが提示された。リスニングテストは、変調処理および後の再合成の異なるタイプの知覚的な品質を実証するために行われた。この有望な新しい解析/合成方法のための将来のアプリケーションシナリオが確認された。結果は、提案された方法がパラメトリックおよび波形オーディオ処理間のギャップを埋めるための適切な手段を提供しさらに新しい魅力的なオーディオ効果を可能にすることを実証する。
記載された実施形態は、本発明の原理のために単に示すだけである。ここに記載されている構成および詳細の修正および変更が他の当業者にとって明らかであるものと理解される。したがって、間近に迫った特許請求の範囲だけによって制限されるが、ここに実施形態の記載および説明として提示される具体的な詳細によっては制限されないことが意図である。
本発明の方法の特定の実施要求に応じて、本発明の方法は、ハードウェアにおいてまたはソフトウェアにおいて実施され得る。実施は、本発明の方法が実行されるように、プログラミング可能なコンピュータシステムと協働する、それに格納される電子的に読み出すことができる制御信号を有するデジタル記憶媒体、特にディスク、DVDまたはCDを用いて実行され得る。そのため、本発明は、一般的に、機械で読み取り可能なキャリアに格納されたプログラムコードを有するコンピュータプログラム製品であり、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、本発明の方法を実行するために作動される。したがって、言い換えると、本発明の方法は、コンピュータプログラムがコンピュータ上で実行されるときに、本発明の方法のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。

Claims (23)

  1. オーディオ信号をパラメータ化された表現に変換するための装置であって、
    解析結果(104)を得るために前記オーディオ信号の部分(122)を解析するための信号解析器(102)であって、前記信号解析器(102)は、前記オーディオ信号の前記部分(122)のスペクトル表現のための重心位置関数を計算するように作動し、前記重心位置関数において所定のイベントは、複数の帯域通過フィルタの中心周波数のための候補値(124)を示す、信号解析器(102)、
    前記解析結果(104)に基づいて前記複数の帯域通過フィルタの情報(108)を推定するための帯域通過推定器(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存し、前記帯域通過推定器(106)は、前記候補値(124)に基づいて前記中心周波数を決定するように作動する、帯域通過推定器(106)、
    前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するための変調推定器(110)、および
    前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するための出力インターフェース(116)を含む、装置。
  2. 前記信号解析器(102)は、帯域のための重心位置値を計算するように作動する、請求項1に記載の装置。
  3. 前記信号解析器(102)は、重心位置候補値を得るために、帯域の前半の負のパワー値を加算しさらに帯域の後半の正のパワー値を加算するように作動し、前記重心位置候補値は、平滑化された重心位置値を得るために時間にわたって平滑化され、さらに
    前記帯域通過推定器(106)は、時間にわたって前記平滑化された重心位置値のゼロ交差の周波数を決定するように作動する、請求項1または請求項2に記載の装置。
  4. 前記帯域通過推定器(106)は、より低い始値からより高い終値までのスペクトルがスペクトルホールなしにカバーされるように、前記帯域通過フィルタの前記中心周波数または前記帯域幅の前記情報を決定するように作動し、前記より低い始値および前記より高い終値は、少なくとも5つの帯域通過フィルタ帯域幅を含む、請求項1ないし請求項3のいずれかに記載の装置。
  5. 前記帯域通過推定器(106)は、知覚スケールに関して近似的に等しい帯域通過中心周波数間隔が生じるような方法でゼロ交差の周波数が修正されるように、前記情報を決定するように作動し、前記帯域通過フィルタの前記中心周波数および重心位置関数においてゼロ交差の周波数間の距離は、最小化される、請求項1、請求項3または請求項4に記載の装置。
  6. 前記変調推定器(110)は、前記帯域通過フィルタの前記帯域において前記オーディオ信号の前記振幅変調に関する情報を得るために、前記帯域通過フィルタのための帯域通過信号の解析信号(110b)を形成しさらに前記解析信号の振幅を計算するように作動する、請求項1ないし請求項5のいずれかに記載の装置。
  7. オーディオ信号をパラメータ化された表現に変換する方法であって、
    解析結果(104)を得るために前記オーディオ信号の部分(122)を解析するステップ(102)であって、前記オーディオ信号の前記部分(122)のスペクトル表現のための重心位置関数は、計算され、前記重心位置関数において所定のイベントは、複数の帯域通過フィルタの中心周波数のための候補値(124)を示す、ステップ(102)、
    前記解析結果(104)に基づいて前記複数の帯域通過フィルタの情報(108)を推定するステップ(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存し、前記推定するステップ(106)は、前記候補値(124)に基づいて前記中心周波数を決定する、ステップ(106)、
    前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するステップ(110)、および
    前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するステップ(116)を含む、方法。
  8. オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記装置は、
    前記時間的に変化する帯域通過フィルタ中心周波数を修正しさらに修正されたパラメータ化された表現を生成するための修正器(160)を含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存する、装置。
  9. 前記修正器(160)は、楽曲のキーモードを例えばメジャーからマイナーにまたはその逆に変えるために、一定のファクタとの乗算によってまたは選択された中心周波数を変えることによって、すべての中心周波数を修正するように作動する、請求項8に記載の装置。
  10. オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記方法は、
    前記時間的に変化する帯域通過フィルタ中心周波数を修正するステップ(160)および修正されたパラメータ化された表現を生成するステップを含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存する、方法。
  11. オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
    前記振幅変調情報に基づいて振幅変調成分を合成するための振幅変調合成器(201)、
    キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて位相情報の瞬時周波数を合成するための周波数変調または位相変調合成器、
    隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
    帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するための発器(203)、および
    前記帯域通過フィルタチャネルからの信号を結合しさらに前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号(206)を生成するための結合器(205)を含み、
    前記振幅変調合成器(201)は、前記振幅変調成分を得るために振幅変調情報の後のブロックをオーバーラップしさらに重み付け加算するためのオーバーラップ加算器(201a)を含み、または
    前記周波数変調または位相変調合成器(202)は、合成された周波数情報を得るために、周波数変調若しくは位相変調情報の2つの後のブロックまたは前記周波数変調情報および帯域通過信号のための前記キャリア周波数の結合表現を重み付け加算するためのオーバーラップ加算器を含む、装置。
  12. 前記周波数変調または位相変調合成器(202)は、前記合成された周波数情報を積分しさらに前記発振器(203)の出力信号の以前のブロックからのスペクトル近接における成分の位相から導出される位相ターム(202d、202c)を前記合成された周波数情報に加算するための積分器(202b)を含む、請求項11に記載の装置。
  13. 前記発振器(203)は、加算演算(202c)によって得られる位相信号によって供給される正弦波発振器である、請求項12に記載の装置。
  14. 前記発振器(203)は、前記帯域通過フィルタチャネルのための前記振幅変調成分を用いて前記正弦波発振器の出力信号を変調するための変調器(203b)を含む、請求項13に記載の装置。
  15. オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
    前記振幅変調情報に基づいて振幅変調成分を合成するステップ(201)、
    キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて瞬時周波数または位相情報を合成するステップ(202)、
    隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
    帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するステップ(203)、および
    前記帯域通過フィルタチャネルからの信号を結合するステップ(205)および前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号(206)を生成するステップを含み、
    前記振幅変調成分を合成するステップ(201)は、前記振幅変調成分を得るために振幅変調情報の後のブロックをオーバーラップしさらに重み付け加算するステップ(201a)を含み、または
    前記瞬時周波数または位相情報を合成するステップ(202)は、合成された周波数情報を得るために、周波数変調若しくは位相変調情報の2つの後のブロックまたは前記周波数変調情報および帯域通過信号のための前記キャリア周波数の結合表現を重み付け加算するステップを含む、方法。
  16. コンピュータ上で実行されるときに、請求項7、請求項10または請求項15に記載の方法を実行するためのコンピュータプログラム。
  17. オーディオ信号をパラメータ化された表現に変換するための装置であって、
    解析結果(104)を得るために前記オーディオ信号の部分を解析するための信号解析器(102)、
    前記解析結果(104)に基づいて複数の帯域通過フィルタの情報(108)を推定するための帯域通過推定器(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、帯域通過推定器(106)、
    前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するための変調推定器(110)であって、前記変調推定器(110)は、前記帯域通過フィルタの前記帯域において前記周波数変調または位相変調に関する情報を得るために、帯域通過信号をそれぞれの帯域通過の前記中心周波数を有するキャリアとダウンミックスする(110d)ように作動する、変調推定器(110)、および
    前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するための出力インターフェース(116)を含む、装置。
  18. オーディオ信号をパラメータ化された表現に変換する方法であって、
    解析結果(104)を得るために前記オーディオ信号の部分を解析するステップ(102)、
    前記解析結果(104)に基づいて複数の帯域通過フィルタの情報(108)を推定するステップ(106)であって、前記複数の帯域通過フィルタに関する前記情報は、前記オーディオ信号の前記部分のためのフィルタ波形に関する情報を含み、帯域通過フィルタの帯域幅は、オーディオスペクトルにわたって異なりさらに前記帯域通過フィルタの中心周波数に依存する、ステップ(106)、
    前記複数の帯域通過フィルタに関する前記情報(108)を用いて前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタの帯域ごとに振幅変調、周波数変調または位相変調を推定するステップ(110)であって、帯域通過信号は、前記帯域通過フィルタの前記帯域において前記周波数変調または位相変調に関する情報を得るために、それぞれの帯域通過の前記中心周波数を有するキャリアとダウンミックスされる(110d)、ステップ(110)、および
    前記振幅変調に関する情報、前記周波数変調若しくは位相変調に関する情報または前記オーディオ信号の前記部分のための前記複数の帯域通過フィルタに関する前記情報を送信し、格納しまたは修正するステップ(116)を含む、方法。
  19. オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記装置は、
    前記帯域通過フィルタの前記時間的に変化する中心周波数を修正しまたは前記振幅変調、位相変調若しくは周波数変調情報を修正しさらに修正されたパラメータ化された表現を生成するための修正器(160)を含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記時間的に変化する帯域通過フィルタ中心周波数に依存し、
    前記修正器(160)は、粗い構造および細かい構造への非線形分解によってさらに前記粗い構造または前記細かい構造を修正することによって、前記振幅変調情報、前記位相変調情報または前記周波数変調情報を修正するように作動する、装置。
  20. オーディオ信号の時間部分に対して、複数の帯域通過フィルタのための帯域通過フィルタ情報を有するパラメータ化された表現を修正する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数に依存する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、前記変調情報は、前記時間的に変化する帯域通過フィルタ中心周波数に関連し、前記方法は、
    前記時間的に変化する帯域通過フィルタ中心周波数を修正するステップ(160)または前記振幅変調、位相変調若しくは周波数変調情報を修正するステップおよび修正されたパラメータ化された表現を生成するステップを含み、前記帯域通過フィルタの前記帯域幅は、前記対応する帯域通過フィルタの前記帯域通過フィルタ中心周波数に依存し、
    前記修正するステップ(160)は、粗い構造および細かい構造への非線形分解によってさらに前記粗い構造または前記細かい構造を修正することによって、前記振幅変調情報、前記位相変調情報または前記周波数変調情報を修正する、方法。
  21. オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成するための装置であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
    前記振幅変調情報に基づいて振幅変調成分を合成するための振幅変調合成器(201)であって、前記振幅変調合成器(201)は、ノイズを加算するためのノイズ加算器(160f)を含み、前記ノイズ加算器は、固定的にセットされまたは局所解析によって制御される送信されたサイド情報を介して制御される、振幅変調合成器(201)、
    キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて位相情報の瞬時周波数を合成するための周波数変調または位相変調合成器、
    隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
    帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するための発器(203)、および
    前記帯域通過フィルタチャネルからの信号を結合しさらに前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号(206)を生成するための結合器(205)を含む、装置。
  22. オーディオ信号の時間部分および複数の帯域通過フィルタのための帯域通過フィルタ情報を含むオーディオ信号のパラメータ化された表現を合成する方法であって、前記帯域通過フィルタ情報は、対応する帯域通過フィルタの帯域通過フィルタ中心周波数に依存する変化する帯域幅と前記オーディオ信号の前記時間部分のための帯域通過フィルタごとに振幅変調、位相変調または周波数変調情報とを有する帯域通過フィルタの時間的に変化する帯域通過フィルタ中心周波数を示し、
    前記振幅変調情報に基づいて振幅変調成分を合成するステップ(201)であって、前記合成するステップ(201)は、送信されたサイド情報を介して制御されるノイズを加算するステップを含み、前記サイド情報は、固定的にセットされまたは局所解析によって制御される、ステップ(201)、
    キャリア周波数に関する情報およびそれぞれの帯域幅のための周波数変調情報に基づいて瞬時周波数または位相情報を合成するステップ(202)、
    隣接するキャリア周波数間の周波数における距離は、周波数スペクトルにわたって異なり、
    帯域通過フィルタチャネルごとに瞬時に振幅変調され、周波数変調されまたは位相変調された発振信号(204)を表す出力信号を生成するステップ(203)、および
    前記帯域通過フィルタチャネルからの信号を結合するステップ(205)および前記帯域通過フィルタチャネルからの前記信号に基づいてオーディオ出力信号(206)を生成するステップを含む、方法。
  23. コンピュータ上で実行されるときに、請求項18、請求項20または請求項22に記載の方法を実行するためのコンピュータプログラム。
JP2011500074A 2008-03-20 2009-03-10 オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法 Active JP5467098B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US3830008P 2008-03-20 2008-03-20
US61/038,300 2008-03-20
EP08015123.6A EP2104096B1 (en) 2008-03-20 2008-08-27 Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal
EP08015123.6 2008-08-27
PCT/EP2009/001707 WO2009115211A2 (en) 2008-03-20 2009-03-10 Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthensizing a parameterized representation of an audio signal

Publications (2)

Publication Number Publication Date
JP2011514562A JP2011514562A (ja) 2011-05-06
JP5467098B2 true JP5467098B2 (ja) 2014-04-09

Family

ID=40139129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011500074A Active JP5467098B2 (ja) 2008-03-20 2009-03-10 オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法

Country Status (16)

Country Link
US (1) US8793123B2 (ja)
EP (6) EP3296992B1 (ja)
JP (1) JP5467098B2 (ja)
KR (1) KR101196943B1 (ja)
CN (1) CN102150203B (ja)
AU (1) AU2009226654B2 (ja)
CA (2) CA2718513C (ja)
CO (1) CO6300891A2 (ja)
ES (5) ES2796493T3 (ja)
HK (4) HK1250089A1 (ja)
MX (1) MX2010010167A (ja)
MY (1) MY152397A (ja)
RU (1) RU2487426C2 (ja)
TR (1) TR201911307T4 (ja)
WO (1) WO2009115211A2 (ja)
ZA (1) ZA201006403B (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
CN101770776B (zh) * 2008-12-29 2011-06-08 华为技术有限公司 瞬态信号的编码方法和装置、解码方法和装置及处理系统
US20100324913A1 (en) * 2009-06-18 2010-12-23 Jacek Piotr Stachurski Method and System for Block Adaptive Fractional-Bit Per Sample Encoding
WO2011001589A1 (ja) * 2009-06-29 2011-01-06 三菱電機株式会社 オーディオ信号処理装置
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102648495B (zh) 2009-10-21 2014-05-28 杜比Ab国际公司 用于利用适应性过取样产生高频音频信号的装置及方法
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
HUE028738T2 (en) 2010-06-09 2017-01-30 Panasonic Ip Corp America Bandwidth Extension Procedure, Bandwidth Extension Device, Program, Integrated Circuit, and Audio Decoder
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
BE1019445A3 (fr) * 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
MY176574A (en) * 2010-09-16 2020-08-17 Dolby Int Ab Cross product enhanced subband block based harmonic transposition
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
US9161035B2 (en) 2012-01-20 2015-10-13 Sony Corporation Flexible band offset mode in sample adaptive offset in HEVC
AU2012366843B2 (en) 2012-01-20 2015-08-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for audio encoding and decoding employing sinusoidal substitution
BR122021009025B1 (pt) * 2013-04-05 2022-08-30 Dolby International Ab Método de decodificação para decodificar dois sinais de áudio e decodificador para decodificar dois sinais de áudio
CN110265047B (zh) * 2013-04-05 2021-05-18 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
BR112016014476B1 (pt) 2013-12-27 2021-11-23 Sony Corporation Aparelho e método de decodificação, e, meio de armazenamento legível por computador
CN105659321B (zh) * 2014-02-28 2020-07-28 弗朗霍弗应用研究促进协会 解码装置和解码方法
US10468035B2 (en) * 2014-03-24 2019-11-05 Samsung Electronics Co., Ltd. High-band encoding method and device, and high-band decoding method and device
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
RU2584462C2 (ru) * 2014-06-10 2016-05-20 Федеральное государственное образовательное бюджетное учреждение высшего профессионального образования Московский технический университет связи и информатики (ФГОБУ ВПО МТУСИ) Способ передачи и приема сигналов, представленных параметрами ступенчатого модуляционного разложения, и устройство для его осуществления
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP3238210B1 (fr) * 2014-12-24 2019-08-07 Reza, Yves, Jean-Paul, Guy Procede de traitement et d'analyse d'un signal, et dispositif mettant en oeuvre ledit procede
KR101661713B1 (ko) * 2015-05-28 2016-10-04 제주대학교 산학협력단 파라메트릭 어레이 응용을 위한 변조 방법 및 장치
CN107924683B (zh) * 2015-10-15 2021-03-30 华为技术有限公司 正弦编码和解码的方法和装置
US20170275986A1 (en) * 2015-11-05 2017-09-28 Halliburton Energy Services Inc. Fluid flow metering with point sensing
WO2017158105A1 (en) * 2016-03-18 2017-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding by reconstructing phase information using a structure tensor on audio spectrograms
CN106126172B (zh) 2016-06-16 2017-11-14 广东欧珀移动通信有限公司 一种音效处理方法及移动终端
CN108023548B (zh) * 2016-10-31 2023-06-16 北京普源精电科技有限公司 一种复合调制信号发生器及复合调制信号发生方法
CN108564957B (zh) * 2018-01-31 2020-11-13 杭州士兰微电子股份有限公司 码流的解码方法、装置、存储介质和处理器
CN109119053B (zh) * 2018-08-08 2021-07-02 瓦纳卡(北京)科技有限公司 一种信号传输方法、装置、电子设备以及计算机可读存储介质
WO2020082311A1 (zh) * 2018-10-25 2020-04-30 Oppo广东移动通信有限公司 消除频率干扰的装置和方法
CN109599104B (zh) * 2018-11-20 2022-04-01 北京小米智能科技有限公司 多波束选取方法及装置
CN110488252B (zh) * 2019-08-08 2021-11-09 浙江大学 一种地基气溶胶激光雷达系统的重叠因子定标装置和标定方法
CN111710327B (zh) * 2020-06-12 2023-06-20 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion
CN113218391A (zh) * 2021-03-23 2021-08-06 合肥工业大学 一种基于ewt算法的姿态解算方法
CN113542980B (zh) * 2021-07-21 2023-03-31 深圳市悦尔声学有限公司 一种抑制扬声器串扰的方法
CN115440234B (zh) * 2022-11-08 2023-03-24 合肥工业大学 基于midi和对抗生成网络的音频隐写方法和系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5214708A (en) * 1991-12-16 1993-05-25 Mceachern Robert H Speech information extractor
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
US5574823A (en) * 1993-06-23 1996-11-12 Her Majesty The Queen In Right Of Canada As Represented By The Minister Of Communications Frequency selective harmonic coding
JPH07261798A (ja) * 1994-03-22 1995-10-13 Secom Co Ltd 音声分析合成装置
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
JPH10319947A (ja) * 1997-05-15 1998-12-04 Kawai Musical Instr Mfg Co Ltd 音域制御装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder
TW430778B (en) * 1998-06-15 2001-04-21 Yamaha Corp Voice converter with extraction and modification of attribute data
US6725108B1 (en) * 1999-01-28 2004-04-20 International Business Machines Corporation System and method for interpretation and visualization of acoustic spectra, particularly to discover the pitch and timbre of musical sounds
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
AU2094201A (en) * 1999-12-13 2001-06-18 Broadcom Corporation Voice gateway with downstream voice synchronization
WO2002091363A1 (en) * 2001-05-08 2002-11-14 Koninklijke Philips Electronics N.V. Audio coding
JP3709817B2 (ja) * 2001-09-03 2005-10-26 ヤマハ株式会社 音声合成装置、方法、及びプログラム
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
US6950799B2 (en) * 2002-02-19 2005-09-27 Qualcomm Inc. Speech converter utilizing preprogrammed voice profiles
US7191134B2 (en) * 2002-03-25 2007-03-13 Nunally Patrick O'neal Audio psychological stress indicator alteration method and apparatus
JP3941611B2 (ja) * 2002-07-08 2007-07-04 ヤマハ株式会社 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
EP1395065B1 (en) * 2002-08-28 2007-01-24 Freescale Semiconductor, Inc. Tone detector and method therefor
US7027979B2 (en) * 2003-01-14 2006-04-11 Motorola, Inc. Method and apparatus for speech reconstruction within a distributed speech recognition system
JP2004350077A (ja) * 2003-05-23 2004-12-09 Matsushita Electric Ind Co Ltd アナログオーディオ信号送信装置および受信装置並びにアナログオーディオ信号伝送方法
US7179980B2 (en) * 2003-12-12 2007-02-20 Nokia Corporation Automatic extraction of musical portions of an audio stream
DE102004012208A1 (de) * 2004-03-12 2005-09-29 Siemens Ag Individualisierung von Sprachausgabe durch Anpassen einer Synthesestimme an eine Zielstimme
FR2868587A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme de conversion rapides d'un signal vocal
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
DE102004021403A1 (de) 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
US8315857B2 (en) * 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
CA2558595C (en) * 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
CN101351841B (zh) * 2005-12-02 2011-11-16 旭化成株式会社 音质转换系统
US7831420B2 (en) * 2006-04-04 2010-11-09 Qualcomm Incorporated Voice modifier for speech processing systems
ATE448638T1 (de) * 2006-04-13 2009-11-15 Fraunhofer Ges Forschung Audiosignaldekorrelator
WO2007118583A1 (en) 2006-04-13 2007-10-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decorrelator
JP2007288468A (ja) 2006-04-17 2007-11-01 Sony Corp オーディオ出力装置、パラメータ算出方法
JP4966048B2 (ja) * 2007-02-20 2012-07-04 株式会社東芝 声質変換装置及び音声合成装置
US7974838B1 (en) * 2007-03-01 2011-07-05 iZotope, Inc. System and method for pitch adjusting vocals
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
JP5224219B2 (ja) * 2008-06-26 2013-07-03 独立行政法人科学技術振興機構 オーディオ信号圧縮装置、オーディオ信号圧縮方法、オーディオ信号復号装置及びオーディオ信号復号方法

Also Published As

Publication number Publication date
EP3242294B1 (en) 2024-05-01
US8793123B2 (en) 2014-07-29
ES2796493T3 (es) 2020-11-27
EP2104096B1 (en) 2020-05-06
ES2895268T3 (es) 2022-02-18
EP3242294C0 (en) 2024-05-01
EP2255357A2 (en) 2010-12-01
HK1250089A1 (zh) 2018-11-23
CN102150203B (zh) 2014-01-29
WO2009115211A2 (en) 2009-09-24
ES2770597T3 (es) 2020-07-02
CN102150203A (zh) 2011-08-10
KR101196943B1 (ko) 2012-11-05
EP3296992A1 (en) 2018-03-21
AU2009226654A1 (en) 2009-09-24
MY152397A (en) 2014-09-15
MX2010010167A (es) 2010-12-07
EP3242294A1 (en) 2017-11-08
ES2741200T3 (es) 2020-02-10
WO2009115211A3 (en) 2010-08-19
US20110106529A1 (en) 2011-05-05
ZA201006403B (en) 2011-05-25
CO6300891A2 (es) 2011-07-21
EP2255357B1 (en) 2019-05-15
CA2867069C (en) 2016-01-19
EP2104096A3 (en) 2010-08-04
EP3244407B1 (en) 2019-11-27
BRPI0906247A8 (pt) 2018-10-16
JP2011514562A (ja) 2011-05-06
RU2487426C2 (ru) 2013-07-10
EP3273442B1 (en) 2021-10-20
AU2009226654B2 (en) 2012-08-09
HK1246494A1 (zh) 2018-09-07
CA2718513A1 (en) 2009-09-24
KR20100134611A (ko) 2010-12-23
TR201911307T4 (tr) 2019-08-21
ES2898865T3 (es) 2022-03-09
CA2718513C (en) 2015-09-22
EP3273442A1 (en) 2018-01-24
EP2104096A2 (en) 2009-09-23
HK1251074A1 (zh) 2019-01-18
EP3296992B1 (en) 2021-09-22
CA2867069A1 (en) 2009-09-24
HK1246495A1 (zh) 2018-09-07
RU2010139018A (ru) 2012-03-27
EP3244407A1 (en) 2017-11-15

Similar Documents

Publication Publication Date Title
JP5467098B2 (ja) オーディオ信号をパラメータ化された表現に変換するための装置および方法、パラメータ化された表現を修正するための装置および方法、オーディオ信号のパラメータ化された表現を合成するための装置および方法
JP6668372B2 (ja) 目標時間領域エンベロープを用いて処理されたオーディオ信号を得るためにオーディオ信号を処理するための装置および方法
JP5336522B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
JP5597738B2 (ja) クロス生成物により向上された高調波転換
JP2001508197A (ja) 構成信号にノイズを加算してlpc原理により符号化された音声のオーディオ再生のための方法及び装置
Disch et al. An amplitude-and frequency modulation vocoder for audio signal processing
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130220

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140127

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5467098

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250