JP5325307B2 - 過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラム - Google Patents

過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラム Download PDF

Info

Publication number
JP5325307B2
JP5325307B2 JP2011546728A JP2011546728A JP5325307B2 JP 5325307 B2 JP5325307 B2 JP 5325307B2 JP 2011546728 A JP2011546728 A JP 2011546728A JP 2011546728 A JP2011546728 A JP 2011546728A JP 5325307 B2 JP5325307 B2 JP 5325307B2
Authority
JP
Japan
Prior art keywords
signal
transient
audio signal
audio
signal portion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011546728A
Other languages
English (en)
Other versions
JP2012516460A (ja
Inventor
フレドリック ナーゲル
アンドレーアス ワルサー
ギヨーム フックス
イェレミー ルコンテ
ハラルド ポップ
ティーロ ヴィク
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2012516460A publication Critical patent/JP2012516460A/ja
Application granted granted Critical
Publication of JP5325307B2 publication Critical patent/JP5325307B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source

Description

本発明による実施形態は、過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラムに関する。
以下に、代表的応用例の状況が説明され、その中で、本発明による実施形態は適用されうる。
現在のオーディオ信号処理システムにおいて、オーディオ信号は、デジタル技術を使用して、しばしば処理される。過渡現象のような特定の信号部分は、例えば、デジタル信号処理に特別な要求をする。
過渡的事象(または「過渡現象(transients)」)は、全帯域の、または、特定の周波数範囲の信号のエネルギーが急激に変化している、すなわち、そのエネルギーが急激に増加又は急激に減少している間の信号の事象である。特定の過渡現象(過渡的事象)の特性は、スペクトルの信号エネルギーの分布に見つけることができる。一般的に、過渡的事象の間のオーディオ信号のエネルギーは、全周波数範囲にわたって分配される。その一方で、非過渡信号部分において、エネルギーは、通常、オーディオ信号の低周波部分に、または、一つ以上の特定のバンドに集中する。これは、定常の又は「音の」信号部分とも呼ばれている非過渡信号部分が、フラットでないスペクトルを有することを意味する。また、過渡信号部分のスペクトルは、(例えば、過渡信号部分の前の信号部分のスペクトルを知っているとき、)一般的に無秩序であり、「予測不可能」である。換言すれば、信号のエネルギーは、比較的少ない数のスペクトル線またはスペクトルバンドに含まれる。そして、それはオーディオ信号のノイズフロアを通じて強く強調される。しかしながら、過渡現象部分において、オーディオ信号の過渡現象部分のためのスペクトルが比較的フラットで、一般的にオーディオ信号の音の部分のスペクトルよりフラットであるように、オーディオ信号のエネルギーは、多くの異なる周波数バンドにわたって分配されて、具体的には、高周波部分において分配される。にもかかわらず、例えば、過渡現象を示さないノイズ状の信号のように、フラットなスペクトルを有する他のタイプの信号がある点に留意する必要がある。しかし、ノイズ状の信号のスペクトルビンが、無相関である、又は、わずかに相関している位相値を有する一方で、過渡現象がある場合には、スペクトルビンの非常に重要な位相相関がしばしばある。
一般的に、過渡的事象は、オーディオ信号の時間領域表現の強い変化である。そして、それは、信号がフーリエ分解が実行されるとき、多くのより高い周波数成分を含むことを意味する。これらの多くの高調波の重要な特徴は、これらの高調波の位相が非常に特定の相互の関係にあるということである。その結果、すべての高調波の重ね合わせは、結果として信号エネルギー(時間領域において考慮されるときに)の急激な変化をもたらすだろう。換言すれば、過渡的事象の近くのスペクトル全体の強い相関が、存在する。すべての高調波の中の特定の位相状況は、「垂直コヒーレンス(vertical coherence)」とも称することができる。この「垂直コヒーレンス」は、水平方向が時間における信号の推移に対応する、そして、垂直の次元が周波数における短時間スペクトルのスペクトル成分の周波数における依存を表す、信号の時間/周波数スペクトル表示に関する。
例えば、量子化によって、大きい時間領域にわたっての変化が実行される場合、前記変化は全てのブロックに影響する。過渡現象がエネルギーの短期の増加によって特徴づけられるので、このエネルギーは、ブロックが変えられるとき、そのブロックにより示された全体の領域にわたっておそらく塗りつけられる(smeared)だろう。
ピッチが維持されると共に信号の再生速度が変えられるときに、または、再生の元の継続時間が維持されると共に信号が転置されているときにも、課題は、特に明白になる。両方とも、位相ボコーダ又は例えば(P)SOLAのような方法(この問題に関しては参照[A1]〜[A4]を参照のこと)を使用して、達成されうる。後者は、拡張された信号を再生することによって達成される。そして、時間拡張の係数によって加速される。時間離散信号表現によって、これは、サンプリング周波数を維持すると共に、拡張係数によって信号をダウンサンプリングすることに対応する。位相ボコーダのような時間拡張する方法は、実際、定常の又は準定常の信号にのみ適している。というのは、過渡現象が、分散によって時間において「塗りつけられる」からである。位相ボコーダは、信号の(時間/周波数スペクトル表示に関連した)いわゆる垂直コヒーレンス特性をそこなう。
オーディオ信号の時間拡張は、娯楽および技術の両方において重要な役割を果たす。一般のアルゴリズムは、例えば位相ボコーダ(PV)、同期重複加算(Synchronous Overlap Add)(SOLA)、ピッチ同期重複加算(Pitch Synchronous Overlap Add)(PSOLA)および波形類似重複加算(Waveform Similarity Overlap Add)(WSOLA)のような重複加算(overlap and add)(OLA)技術に基づく。これらのアルゴリズムが、それらの元のピッチを保存すると共に、オーディオ信号の再生速度を変えることができる一方で、過渡現象はうまく保存されない。過渡現象分散[B1]およびWSOLAおよびSOLAによってしばしば起こる時間領域エイリアシングを回避するために、OLAを使用してそのピッチを変えずにオーディオ信号の時間拡張することは、過渡現象および維持された信号部分の別々の処理を必要とする。調子笛などのまさに音の信号及びカスタネットなどのパーカッション信号の組み合わせを拡張するタスクにより挑戦がされる。
以下では、本発明の背景を提供するために、いくつかの従来のアプローチを参照できるだろう。
いくつかの従来の方法は、過渡現象の継続時間における時間拡張を実行する必要がない、又は、わずかしか実行する必要がないように、より強烈に、過渡現象のまわりの時間を拡張する(例えば参照[5]〜[8]を参照のこと)。
以下の論文および特許は、時間および/またはピッチの操作の方法を記載する:[A1]、[A2]、[A3]、[A4]、[A5]、[A6]、[A7]、[A8]。
[B2]において、スペクトル特性だけでなく、時間拡張されたバージョンにおいて信号の包絡線をおおよそ保存する方法が提案される。このアプローチは、時間拡張されたパーカッションの事象が元のものよりゆっくりと減衰することを予想する。
いくつかの広く周知の方法は、過渡現象および定常信号成分の区別された処理、例えば正弦波(sines)、過渡現象(transients)および雑音(noise)の加算(S+T+N)[B4、B5]としての信号のモデリングを可能にする。時間スケールの修正後に過渡現象を保存ために、全3つの部分が別々に拡張される。この技術は、オーディオ信号の過渡現象成分を完全に保存することができる。しかしながら、結果として生じた音は、しばしば不自然なものとして知覚される。
更なるアプローチは、時間拡張量を変化させ、そして、それを過渡現象時間の間では1つに設定する又は過渡的事象の位相をロックする[B3、B6、B7]。
刊行物[B8]は、過渡現象がどのようにPVを用いた時間及び周波数拡張において保存できるかについて示す。そのアプローチにおいては、それが拡張される前に、過渡現象はその信号から取り除かれた。過渡現象部分の除去は、結果として、PV方法によって拡張された信号の範囲内のギャップをもたらした。その拡張の後、過渡現象は、拡張されたギャップと合った周辺を有する信号に再追加された。
国際公開第2007/118533号(WO 2007/118533 A1) 米国特許出願番号6,549,884、ラロッシュ J.、ドルセン M.:「位相ボコーダのピッチシフト」(United States Patent 6,549,884,Laroche,J.&Dolson,M.:“Phase−vocoder pitch−shifting”)
J.L.フラナガンおよびR.M.ゴールデン、「ベルシステム技術ジャーナル」、1966年11月、ページ1394〜1509(J.L.Flanagan and R.M.Golden,"The Bell System Technical Journal,November 1966",pages 1394 to 1509) ジーン・ラロッシュおよびマーク・ドルセン、会報「ピッチシフト、調和、および他のエキゾチックな効果のための新しい位相ボコーダ技術」(Jean Laroche and Mark Dolson,"New Phase−Vocoder Techniques for Pitch−Shifting,Harmonizing and Other Exotic Effects",by Proc.) ゼルザー.U著:「DAFX:デジタル音声効果」、ワイリーアンドサンズ、第1版、2002年2月26日、ページ201〜298(Zoelzer,U:"DAFX:Digital Audio Effects",Wiley&Sons,Edition:1 (26 February 2002),pages 201−298) ラロッシュ.Lおよびドルセン.M、「オーディオの改良された位相ボコーダ時間スケール変更」、IEEE通信、音声およびオーディオ処理、7巻、No.3、ページ323〜332(Laroche L.,Dolson M.:"Improved phase vocoder timescale modification of audio",IEEE Trans. Speech and Audio Processing,vol.7,no.3,pp.323−332) エマニュエル・ラベリ、マーク・サンドラーおよびホアン・P.ベロ、「ステレオオーディオの非線形時間スケールの高速実行」、デジタル音声効果の第8回国際会議(DAFx´05)の議事録、マドリード、スペイン、2005年9月20日〜22日(Emmanuel Ravelli,Mark Sandler and Juan P.Bello:"Fast implementation for non−linear time−scaling of stereo audio", Proc. of the 8th Int. Conference on Digital Audio Effects(DAFx’05),Madrid,Spain,September 20−22,2005) ダックスベリー、C.M.デイヴィスおよびM.サンドラー(2001年、12月)、「マルチ分解能分析技術を使用した音楽オーディオの過渡的事象情報の分離」、デジタル音声効果のCOST G−6会議(DAFX−01)の議事録、リムリック、アイルランド(Duxbury,C.,M.Davies,and M.Sandler (2001,December):"Separation of transient information in musical audio using multiresolution analysis techniques".In:Proceedings of the COST G−6 Conference on Digital Audio Effects (DAFX−01),Limerick,Ireland) ローベル、A.:「位相ボコーダでの過渡的事象の処理に対する新しいアプローチ」、デジタル音声効果の第6回国際会議(DAFx−03)の議事録、ロンドン、イギリス、2003年9月8日〜11日(Roebel A.:"A NEW APPROACH TO TRANSIENT PROCESSING IN THE PHASE VOCODER",Proc.Of the 6th Int.Conference on Digital Audio Effects(DAFx−03),London,UK,September 8−11,2003.) T.カラー、E.リー、J.ボーチャーズ、「Phavorit:リアルタイム相互時間拡張のための位相ボコーダ」、ICMC2006 コンピュータ音楽国際会議の会報、ニューオーリンズ、USA、2006年11月、pp.708〜715(T.Karrer,E.Lee,and J.Borchers,"Phavorit:A phase vocoder for real−time interactive time−stretching,"in Proceedings of the ICMC 2006 International Computer Music Conference, New Orleans,USA,November 2006,pp.708−715.) T.F.クアティエリ、R.B.ダン、R.J.マコーレー、T.E.ハンナ、「雑音における複雑な音響信号の時間スケール変更」、技術報告書、マサチューセッツ工科大学、1994年2月(T.F.Quatieri,R.B.Dunn,R.J.McAulay,and T. E. Hanna,"Time−scale modifications of complex acoustic signals in noise," Technical report,Massachusetts Institute of Technology,February 1994.) C.ダックスベリー、M.デイヴィス、M.B.サンドラー、「過渡現象の位相ロックを使用した音楽オーディオの改良された時間スケーリング」、第112回AESコンベンション、ミュンヘン、2002年、オーディオエンジニアリング協会(C.Duxbury,M.Davies, and M.B.Sandler,"Improved time−scaling of musical audio using phase locking at transients," in 112th AES Convention, Munich,2002,Audio Engineering Society) S.レヴィン、ジュリアス O.スミスIII、「データ圧縮及び時間/ピッチスケール変更のための正弦波+過渡現象+雑音オーディオ表現」、1998(S.Levine and Julius O.Smith III,"A sines+transients+noise audio representation for data compression and time/pitchscale modifications," 1998) T.S.ヴァルマー、T.H.Y.ムオン、「正弦波+過渡現象+雑音信号モデルを用いた時間スケール変更」、DAFX98、バルセロナ、スペイン、1998(T.S.Verma and T.H.Y.Meng,"Time scale modification using a sines+transients+noise signal model," in DAFX98,Barcelona,Spain,1998) A.ローベル、「位相ボコーダにおける過渡現象検知及び保存」、コンピュータ音楽国際会議(ICMC 03)、シンガポール、2003、pp.247〜250(A.Roebel,"Transient detection and preservation in the phase vocoder," in Int.Computer Music Conference (ICMC 03),Singapore,2003,pp.247−250) F.ナゲル、S.ディッシュ、N.レッテルバッハ、「オーディオ符号化のための新しい過渡現象操作を用いた位相ボコーダ駆動の帯域幅拡張方法」、第126回AESコンベンション、ミュンヘン、2009年(F.Nagel,S.Disch,and N.Rettelbach,"A phase vocoder driven bandwidth extension method with novel transient handling for audio codecs," in 126th AES Convention,Munich,2009) M.ドルセン、「位相ボコーダ:チュートリアル」、コンピュータ音楽ジャーナル、10巻、No.4、pp.14〜27、1986年(M.Dolson,"The phase vocoder:A tutorial," Computer Music Journal,vol.10,no.4,pp.14−27,1986) B.エドラー、「オーバーラッピングブロック変換及び適応型窓関数を用いたオーディオ信号の符号化(ドイツ語)」、Frequenz、43巻、No.9、pp.252〜256、1989年9月(B.Edler,"Coding of audio signals with over−lapping block transform and adaptive window functions(in german)," Frequenz,vol.43,no.9,pp.252−256,Sept.1989) オリバー・ニーマイヤー、ベルント・エドラー、「オーディオ符号化のための過渡現象の検知及び抽出」、第120回AESコンベンション、パリ、フランス、2006年(Oliver Niemeyer and Bernd Edler,"Detection and extraction of transients for audio coding," in AES 120th Convention,Paris,France,2006) M.M.グッドウィン、C.アヴェンダノ、「過渡現象変更に基づいたオーディオ信号拡張のための周波数領域アルゴリズム」、オーディオエンジニアリング協会のジャーナル、54巻、pp.827〜840、2006年(M.M.Goodwin and C.Avendano,"Frequency−domain algorithms for audio signal enhancement based on transient modifiation," Journal of the Audio Engineering Society.,vol.54,pp.827−840,2006) P.ブロッシヤー、J.P.ベロ、M.D.プラムブライ、「音楽信号における音符オブジェクトのリアルタイム時間的分割」、ICMC、マイアミ、USA、2004年(P.Brossier,J.P.Bello,and M.D.Plumbley,"Real−time temporal segmentation of note objects in music signals," in ICMC,Miami,USA,2004) J.P.ベロ、L.ドーデ、S.アブドゥッラー、C.ダックスベリー、M.デイヴィス、M.B.サンドラー、「音楽信号における開始検知に関するチュートリアル」、音声およびオーディオ処理、IEEE通信、13巻、No.5、pp.1035〜1047、2005年9月(J.P.Bello, L.Daudet, S.Abdallah, C.Duxbury, M.Davies, and M.B.Sandler,"A tutorial on onset detection in music signals," Speech and Audio Processing,IEEE Transactions on, vol.13, no.5, pp.1035−1047, Sept.2005) A.クラプリ、「心理音響学情報の適用による音響開始検知」、ICASSP、1999年(A.Klapuri,"Sound onset detection by applying psychoacoustic knowledge," in ICASSP,1999) C.ダックスベリー、M.デイヴィス、M.サンドラー、「マルチ分解能分析技術を使用した音楽オーディオの過渡的事象情報の分離」、DAFX、2001年(C.Duxbury, M.Davies, and M.Sandler,"Separation of transient information in musical audio using multiresolution analysis techniques," in DAFX,2001) C.ダックスベリー、M.サンドラー、M.デイヴィス、「音符開始検知へのハイブリッドアプローチ」、DAFX、2002年(C.Duxbury, M.Sandler, and M.Davies,"A hybrid approach to musical note onset detection," in DAFX, 2002) W−C.リー、C−C.J.クオ、「適応線形予測に基づいた音開始の検知」、ICME、2006年(W−C.Lee and C−C.J.Kuo,"Musical onset detection based on adaptive linear prediction," in ICME,2006) M.グッドウィン、C.アヴェンダノ、「過渡現象検知及び変更を用いたオーディオ信号の拡張」、第117回AESコンベンションにて発表、USA、2004年10月(M.Goodwin, C.Avendano,"Enhancement of Audio Signals Using Transient Detection and Modification", presented at the AES 117th Convention,USA,October 2004) ワルサーら、「ブラインド・マルチチャンネルアップミックスアルゴリズムにおける過渡現象抑制の使用」、第122回AESコンベンションにて発表、オーストリア、2007年5月(Walther et al., "Using Transient Suppression in Blind Multi−channe1 Upmix Algorithms", presented at the AES 122th Convention,Austria, May 2007) R.C.マヘル、「デジタルオーディオデータ欠落の外挿のための方法」、JAES、42巻、No.5、1994年5月(R.C.Maher,"A Method for Extrapolation of Missing Digital Audio Data",JAES, Vol.42,No.5, May 1994) L.ドーデ、「音楽信号における過渡現象の抽出のための技術に関する考察」、本シリーズ:コンピュータサイエンスの講義ノート、シュプリンガー・ベルリン/ハイデルベルク、Vol.3902/2006、本:コンピュータ音楽モデリング及び検索(L.Daudet,"A review on techniques for the extraction of transients in musical signals", book series: Lecture Notes in Computer Science, Springer Berlin/Heidelberg, Volume 3902/2006,Book:Computer Music Modeling and Retrieval, pp.219−232) メラー・パケット、「位相をロックしたボコーダ」、会報1995、IEEE ASSP、オーディオおよび音響学に関する信号処理の応用に関する会議(Meller Puckette,"Phase−lockd Vocoder",Proceedings 1995,IEEE ASSP,Conference on applications ofsignal processing to audio and acoustics)
上記を考慮して、改良された知覚された品質の出力信号を提供する過渡的事象を含んでいるオーディオ信号を操作するための構想の必要がある。
本発明による実施形態は、過渡的事象を含んでいるオーディオ信号を操作するための装置を創作する。本装置は、過渡現象を低減したオーディオ信号を得るために、過渡的事象を含む、オーディオ信号の過渡信号部分を、オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、過渡信号部分の信号エネルギー特性に適合された置換信号部分と、置換するように構成された過渡信号置換器を含む。本装置は、過渡現象を低減したオーディオ信号の処理されたバージョンを得るために、過渡現象を低減したオーディオ信号を処理するように構成された信号処理器を更に含む。本装置はまた、元の又は処理された形で、過渡信号部分の過渡現象内容を示している過渡信号と、過渡現象を低減したオーディオ信号の処理されたバージョンを結合するように構成された過渡信号再挿入器を含む。
上記の実施形態は、過渡的事象を低減する又は除去する一方で、その信号エネルギーが元のオーディオ信号の信号エネルギー特性に適合される置換信号部分と、過渡信号部分を置換する場合、信号処理器は改良された品質の出力信号を供給するという発見に基づく。この構想は、単にオーディオ信号から過渡信号部分を除去することによって生じるであろう、信号処理器に入力された信号のエネルギーの大きい階段状の変化を回避し、更に、信号処理器上の過渡現象の有害な結果を回避する、又は、少なくとも低減する。
このように、(過渡現象を低減したオーディオ信号を得るために、)オーディオ信号の過渡的事象を取り除く又は低減することにより、及び、入力オーディオ信号と比較して過渡現象を低減したオーディオ信号のエネルギーの変化を制限することにより、信号処理器は、その出力信号が過渡的事象がない場合に所望の出力信号に近づくように適当な入力信号を受ける。
好ましい実施形態において、過渡信号置換器は、過渡信号部分と比較して、置換信号部分が平滑化された時間的推移を有する時間信号を示すように、および、置換信号部分のエネルギーと過渡信号の前又は過渡信号の後のオーディオ信号の非過渡信号部分のエネルギーとの間の偏差が所定の閾値より小さいように、置換信号部分(又は過渡現象を低減した信号部分)を供給するように構成される。このようにして、置換信号部分が、2つの条件、すなわち、いわゆる「過渡現象条件」及びいわゆる「エネルギー条件」を満たすことを成し遂げることができる。過渡現象条件は、時間領域においてステップまたはピークによって示される過渡的事象が、置換信号部分の範囲内で強度(又はステップ高さ又はピーク高さ)において制限されることを示す。エネルギー条件は、(置換信号部分の)過渡現象を低減したオーディオ信号が、スペクトルエネルギー分布の滑らかな時間的推移を有しなければならないことを示す。スペクトルエネルギー分布の時間的推移における不連続が、一般的に、結果として、聞き取れるアーチファクトの生成をもたらす。したがって、スペクトルエネルギー分布のこの種の時間的不連続を制限することによって、入力オーディオ信号から過渡信号部分の(置換なしの)単なる除去の結果として生じうる聞き取れるアーチファクトは回避できる。
好ましい実施形態において、過渡信号置換器は、置換信号部分の振幅値を得るために、過渡信号部分の前の一つ以上の信号部分の振幅値を外挿するように構成される。過渡信号置換器はまた、置換信号部分の位相値を得るために、過渡信号部分の前の一つ以上の信号部分の位相値を外挿するようにも構成される。このアプローチを使用して、過渡現象を低減したオーディオ信号の滑らかな振幅の推移を得ることができる。更に、過渡現象を低減したオーディオ信号の異なるスペクトル成分の位相は、(非過渡信号部分の位相値とは異なる)過渡信号部分の間の特定の位相値により特徴付けられる過渡的事象が抑制されるように、(外挿により、)うまく制御される。
換言すれば、過渡現象を特徴付けている位相値とは異なって生成される位相値は、外挿によって実施される。外挿はまた、過渡信号部分の前のオーディオ信号部分についての情報が外挿を実行するために充分であるという利点を供給する。しかしながら、外挿を実施するために、いくつかの補助情報、例えば外挿パラメータを更に適用することは、当然可能である。
他の好ましい実施形態において、過渡信号再挿入器(150)は、元の又は処理された形で、過渡信号部分の過渡現象内容を示している過渡信号と、過渡現象を低減したオーディオ信号の処理されたバージョンをクロスフェードするように構成される。この場合、過渡現象を低減した信号の処理されたバージョンは、入力オーディオ信号の時間拡張されたバージョンでありうる。したがって、過渡現象は、入力オーディオ信号の拡張されたバージョンに、スムーズに再挿入されうる。換言すれば、過渡現象を低減したオーディオ信号の(時間)拡張の後、(処理された又は処理されていない形の)過渡現象は、拡張されたギャップに合う周辺を有する信号に再度追加される。
他の好ましい実施形態として、過渡信号置換器は、置換信号部分の一つ以上の振幅値を得るために、過渡信号部分の前の信号部分の振幅値と過渡信号部分の後の信号部分の振幅値との間を内挿するように構成される。加えて、過渡信号置換器は、置換信号部分の一つ以上の位相値を得るために、過渡信号部分の前の信号部分の位相値と過渡信号部分の後の信号部分の位相値との間を内挿するように構成される。内挿を実行することによって、振幅および位相値の両方の特に滑らかな時間的推移を得ることができる。過渡現象が一般的にその過渡現象の直接的な近接において非常に特定の位相分布を含むので、位相の内挿はまた、一般的に、結果として過渡的事象の低減または取消しをもたらす。そして、その位相分布は、過渡現象と特定の間隔をおいて配置される位相分布とは一般的に異なる。
好ましい実施形態において、過渡信号置換器は、置換信号部分の振幅値を得るために、重み付き雑音(例えば、オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、または、過渡信号部分の信号エネルギー特性に適合された、擬似雑音信号のスペクトル)を適用するように、および、置換信号部分の位相値を得るために、重み付き雑音を適用するように構成される。重み付き雑音を適用することによって、エネルギーへの影響を十分に小さく保つと共に、更に過渡現象を低減することが可能である。
好ましい実施形態において、過渡信号置換器は、置換信号部分を得るために、過渡信号部分の非過渡現象成分を、外挿された又は内挿された値と結合するように構成される。過渡信号部分の非過渡現象成分が保持される場合、過渡現象を低減したオーディオ信号の(及び、信号処理器を使用して得られるその処理されたバージョンの)改良された品質を得ることができることが分かっている。例えば、過渡信号部分の音の成分は、(時間的過渡現象が一般的に周波数における特定の位相分布を有する広帯域の信号によって生じるので)過渡現象に、限られた影響を及ぼすのみでありうる。このように、過渡信号部分の音の非過渡現象成分は、実際に信号処理器の所望の出力信号に寄与できる貴重な情報をもたらしうる。このように、過渡現象を低減すると共に、この種の信号部分を保持することによって、処理されたオーディオ信号の改善に寄与できる。
本発明の実施形態において、過渡信号置換器は、過渡信号部分の長さに依存して、可変長の置換信号部分を得るように構成される。オーディオ信号品質を置換信号部分の長さを過渡信号部分の可変の長さに適合することによって改良できる場合があることが分かっている。例えば、いくつかの信号において、過渡信号部分は、非常に短い継続時間である場合もある。この場合、最適化された処理されたオーディオ信号は、入力オーディオ信号の比較的短い部分だけを置換することによって得ることができる。このように、元の入力オーディオ信号のできるだけ多くの(非過渡現象)情報を維持できる。また、(過渡信号部分の長さに従って)置換信号部分を短く保つことによって、続く置換信号部分のオーバーラップは、多くの状況において、回避できる。従って、ほとんどの場合、元の非過渡信号部分が2つのその後の置換信号部分の間にあることが達成される。それ故、処理されたオーディオ信号は充分な精度で生成され、できるだけ多くの元の入力オーディオ信号の(非過渡現象)情報を保持する。
好ましい実施形態において、過渡現象を低減したオーディオ信号の処理されたバージョンの所定の時間的信号部分が、過渡現象を低減したオーディオ信号の複数の時間的にオーバーラップなしの時間的信号部分に依存しているように、信号処理器は過渡現象を低減したオーディオ信号を処理するように構成される。換言すれば、過渡現象を低減したオーディオ信号の処理されたバージョンの信号部分を生成するときに、信号処理器が時間的メモリを含むことが好ましい。メモリを用いた信号処理は、過渡現象を低減したオーディオ信号のブロック的な進行、または、過渡現象を低減したオーディオ信号の時間的フィルタリング(例えばFIRフィルタリング又はIIR―フィルタリング)を可能にする。過渡信号部分を置換する本発明概念が、この種の信号処理器と協同して働くために非常によく構成されることもまた分かった。過渡現象はブロック的な処理を実行している又は時間的メモリを有している説明された信号処理器に通常重大な悪影響を及ぼすが、本発明の置換信号部分は過渡現象のこの有害な効果を低減する。過渡現象は、過渡信号部分の時間的許容値を越えている信号処理器により供給された多数の信号部分に通常影響を及ぼす一方で、過渡現象の有害な効果は、本発明概念によって低減される又は除去されさえする。過渡現象を低減した信号のエネルギーの滑らかな時間的推移を維持することによって、いかなる低下も、十分に滑らかに保たれることができる。例えば、置換信号部分が残りのブロックにエネルギー適合されるので、(例えば元の非過渡信号部分を加えた)置換信号部分を含む(信号処理器のブロック的な処理の)ブロックは、大幅に劣化させられない。このように、全体としてのブロックは、過渡的事象の消去又は低減にわずかにしか影響を受けない。更に、過渡的事象によって、また、過渡信号部分の(例えばゼロフォーシングの形での)完全な除去によって悪影響を受けるであろう時間的フィルタリングは、置換信号部分の使用のため、過渡的除去(または低減)にほぼ影響を受けないままにされる。
好ましい実施形態において、信号処理器は、過渡現象を低減したオーディオ信号の処理されたバージョンを得るために、過渡現象を低減したオーディオ信号の時間ブロックベースの処理を実行するように構成される。過渡信号置換器はまた、時間ブロックの継続時間より高い時間分解能を有する置換信号部分と置換される信号部分の継続時間を調整するように、又は、時間ブロックの継続時間より小さい継続時間を有する置換信号部分と、時間ブロックの継続時間より小さい継続時間を有する過渡信号部分を置換するように構成される。このように、除かれた過渡信号部分の長さが時間ブロックの長さと異なる場合であっても、本願明細書において提案された置換は、オーディオ信号の低歪化処理を可能にする。
好ましい実施形態において、信号処理器は、その処理が過渡現象を弱める周波数依存した位相シフトを、過渡現象を低減したオーディオ信号に生ぜしめるように、周波数に依存した方法で、過渡現象を低減したオーディオ信号を処理するように構成される。しかしながら、過渡現象が、一般的に過渡現象を低減したオーディオ信号の処理とは別々に処理されるので、この種の過渡信号を弱める信号処理さえ、処理されたオーディオ信号に重大な有害な影響を及ぼさない。したがって、過渡現象を弱める信号処理アルゴリズムが、信号処理器において適用できる一方で、過渡現象の質は、過渡現象の別々の処理およびその処理の後のステップでの過渡現象の再挿入を使用して、維持できる。
好ましい実施形態において、過渡信号置換器は、過渡現象検知器を含む。そこにおいて、過渡現象検知器は、検知閾値が調節可能なスムージング時定数に関するオーディオ信号の包絡線をたどるように、オーディオ信号における過渡現象の検知のための時変の検知閾値を供給するように構成される。過渡現象検知器は、過渡現象の検知に応答して、および/または、オーディオ信号の時間的推移に依存して、スムージング時定数を変えるように構成される。この種の過渡現象検知器を使用することにより、過渡現象が時間において密に間隔を置かれる場合であっても、異なる強度の過渡現象を検知することは可能である。例えば、弱い過渡信号が密に前の強い過渡信号に続く場合であっても、本発明概念は弱い過渡信号の検知を可能にする。したがって、過渡現象の置換のための過渡現象検知は、信頼性が高く正確な方法で実行できる。
好ましい実施形態において、本装置は、過渡信号部分の過渡現象内容を示している過渡現象情報を受けるように構成された過渡現象処理器を含む。この場合、過渡現象処理器は、過渡現象情報に基づいて、音の成分が低減される処理された過渡信号を得るように構成されうる。過渡信号再挿入器は、過渡現象を低減したオーディオ信号の処理されたバージョンを、過渡現象処理器により供給された処理された過渡信号と結合するように構成されうる。このように、異なる信号部分の後の結合が結果として適当な全体の出力信号となるような方法で、過渡現象を低減したオーディオ信号の、および、(過渡現象情報により示された)入力オーディオ信号の過渡現象成分の、別々の処理が実行できる。「主」信号処理器により処理された過渡信号部分のこれらの信号成分(例えば音の信号成分)は、過渡現象の別々の処理に含まれることを必要としない。したがって、過渡信号部分のオーディオ成分の処理の適切なシェアリングは、実行できる。
本発明による更なる実施形態は、過渡的事象を含んでいるオーディオ信号を操作するための方法およびコンピュータ・プログラムを創作する。
本発明による実施形態は、同封された図を参照として、以下に説明される。
図1は、本発明の一実施形態による、過渡的事象を含んでいるオーディオ信号を操作するための装置のブロック略図を示す。 図2は、本発明の一実施形態による、過渡信号置換器のブロック略図を示す。 図3aは、本発明の実施形態による、信号処理器のブロック略図を示す。 図3bは、本発明の実施形態による、信号処理器のブロック略図を示す。 図3cは、本発明の実施形態による、信号処理器のブロック略図を示す。 図4は、本発明の一実施形態による、過渡信号再挿入器のブロック略図を示す。 図5aは、図1の信号処理器において使用されるボコーダの実施例の概要を示す。 図5bは、図1の信号処理器の部分(分析)の実施例を示す。 図5cは、図1の信号処理器の他の部分(拡張)を示す。 図6は、図1の信号処理器において使用される位相ボコーダの変形実施例を示す。 図7は、分析ホップサイズとは異なる、例えば2倍の合成ホップサイズを有する位相ボコーダアルゴリズムの演算の略図を示す。 図8は、オーディオ信号の振幅の時間的推移のグラフ表示を示す。 図9は、図1の装置の信号処理のタイミングのグラフ表示を示す。 図10は、図1の装置に現れうる信号のグラフ表示を示す。 図11は、図1の装置に現れうる信号の他のグラフ表示を示す。 図12は、本発明の一実施形態による、オーディオ信号を操作するための方法のフローチャートを示す。 図13は、本発明の一実施形態による、過渡現象の除去および内挿のグラフ表示を示す。 図14は、本発明の一実施形態による、時間拡張および過渡現象再挿入のグラフ表示を示す。 図15は、位相ボコーダを有する時間拡張アプリケーションにおいて本発明の過渡現象操作の異なったステップにおいて生じる信号波形のグラフ表示を示す。 図16は、時間拡張の異なるステップに存在する信号のグラフ表示を示す。
以下に、本発明によるいくつかの実施形態は、説明される。過渡的事象を含んでいるオーディオ信号を操作するための装置の第1実施形態は、第1の実施形態の概要を示す図1を参照に、また、第1実施形態の構成要素および位相ボコーダ(図7)の演算の詳細を示す図2、図3a〜図3c、図4、図5a、図5b、図5c、図6および図7を参照に説明される。過渡信号は図8に示され、その処理は、図9〜図11に示される。図12は、対応する方法のフローチャートを示す。
以下に、過渡的事象を含んでいるオーディオ信号を操作するための装置の第2実施形態の演算が、図13〜図17を参照に説明される。
「図1による実施形態」
図1は、本発明の一実施形態による、過渡的事象を含んでいるオーディオ信号を操作するための装置のブロック略図を示す。図1に示された装置は、全体として100で示される。装置100は、過渡的事象を含んでいるオーディオ信号110を受けて、それに基づいて、処理されたオーディオ信号120に、処理されていない「本来の」又は合成された過渡現象を供給するように構成される。装置100は、過渡現象を低減したオーディオ信号132を得るために、オーディオ信号110の過渡的事象を含んでいる過渡信号部分を、オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、過渡信号部分の信号エネルギー特性に適合された置換信号部分と、置換するように構成された過渡信号置換器130を含む。任意で、置換信号部分の位相特性は、オーディオ信号の一つ以上の非過渡信号部分の位相特性に適合されうる。装置100は、過渡現象を低減したオーディオ信号の処理されたバージョン142を得るために、過渡現象を低減したオーディオ信号132を処理するように構成された信号処理器140を更に含む。装置100は、処理されていない「本来の」又は合成された過渡現象を有する処理されたオーディオ信号120を得るために、過渡現象を低減したオーディオ信号の処理されたバージョン142を過渡信号152と結合するように構成された過渡信号再挿入器150を含む。過渡信号152は、元の又は処理された形で、過渡信号置換器130により置換信号部分と置換された過渡信号部分の過渡現象内容を示しうる。
過渡信号置換器130は、任意で、(過渡現象を低減したオーディオ信号132において置換信号部分と置換される)過渡信号部分の過渡現象内容を示している過渡現象情報134を更に供給しうる。したがって、過渡現象情報134は、過渡現象を低減したオーディオ信号132において低減される又は完全に抑制されさえする過渡信号にオーディオ信号110の過渡現象内容を「保存する」のに役立ちうる。過渡現象情報134は、過渡信号152として役立つように、過渡信号再挿入器150に直接転送されうる。しかし、装置100は、そこから過渡信号152を導き出すために過渡現象情報134を処理するように構成される、任意の過渡現象処理器160を更に含みうる。例えば、過渡現象処理器160は、過渡現象周波数転置(frequency transposition)、過渡現象周波数シフト、過渡現象合成を実行するように構成されうる。
装置100は、任意で、再生のための調整されたオーディオ信号を得るために処理されたオーディオ信号120を調整するように構成された信号調整器170を更に含みうる。
装置100の機能に関して、一般的に、装置100は、(過渡現象を低減したオーディオ信号132で示された)オーディオ信号110の非過渡現象オーディオ内容の、および、(過渡現象情報134で示された)オーディオ信号110の過渡現象オーディオ内容の、別々の処理を可能にすると言える。過渡現象を低減したオーディオ信号132において、信号処理器140が過渡的事象を弱める、および/または、過渡的事象に有害に影響を受ける信号処理を実行しうるように、過渡的事象は低減される、または、抑制されさえする。しかし、過渡信号部分をエネルギー適合された置換信号部分と置換することによって、過渡信号置換器130は、過渡信号部分が単にゼロに設定される場合に信号処理器140により生ぜしめられるだろう聞き取れるアーチファクトを回避するのに役立つ。
適切なヒアリング印象もまた、過渡信号再挿入器150により過渡現象の再挿入を用いて得られる。もちろん、過渡的事象が単に除去される場合、ヒアリング印象は一般的に著しく弱められるだろう。このため、過渡現象は、処理されたオーディオ信号142に再挿入される。再挿入された過渡現象は、過渡信号置換器130によりオーディオ信号110から除去された過渡現象と同一でありうる。あるいは、前記除去された(置換された)過渡現象の処理は、例えば周波数転置又は周波数シフトの形で、実行されうる。しかしながら、いくつかの実施形態において、その再挿入された過渡現象は、例えば、再挿入される過渡現象の時間及び強度を表している過渡現象パラメータに基づいて、合成して生成されさえしうる。
「過渡信号置換器の詳細」
以下では、過渡信号置換器130の機能が、図2を参照として説明される。そこにおいて、図2は、過渡信号置換器130の実施形態のブロック略図を示す。過渡信号置換器130は、オーディオ信号110を受けて、それに基づいて、過渡現象を低減したオーディオ信号132を供給する。
この目的のために、過渡信号置換器130は、例えば、過渡現象を検知して、過渡現象のタイミングに関する情報を供給するように構成される過渡現象検知器130aを含みうる。例えば、過渡現象検知器130aは、過渡信号部分の開始時および終了時を表している情報130bを供給しうる。過渡現象検知のための異なる構想は、従来技術において周知であり、そのため、詳細な説明はここでは省略する。しかしながら、場合によっては、過渡現象検知器130aは、認識された過渡信号部分の長さが実際の信号形状に依存して変動しうるように、異なる長さの過渡現象を区別するように構成されうる。
あるいは、例えば、過渡現象のタイミングを表している補助情報がオーディオ信号110と関連している場合、過渡信号置換器は補助情報抽出器130cを含みうる。この場合、過渡現象検知器130aは、当然省略されうる。補助情報抽出器130cは、任意で、オーディオ信号110と関連した補助情報に基づいて、一つ以上の内挿パラメータ、外挿パラメータおよび/または置換パラメータを供給するように更に構成されうる。過渡現象置換器130は、過渡現象部分置換器130d、例えば過渡現象部分内挿器または過渡現象部分外挿器を更に含む。過渡信号部分置換器130eは、オーディオ信号110および(過渡現象検知器130aにより、又は、補助情報抽出器130cにより供給された)過渡現象時間情報130bを受けて、置換信号部分とオーディオ信号110の過渡現象部分を置換するように構成される。
以下では、過渡現象の検知及び置換(又は除去)に関する詳細が説明される。特に、過渡現象除去のための種々の方法が詳細に述べられる。
過渡現象(例えば楽器の開始またはパーカッションの信号)は、通常、信号が予測不可能な方法で急激な推移をする間の短い時間間隔として表されうる。例えば、過渡現象は、オーディオ信号110の時間領域表現を評価することによって、(過渡現象検知器130aを用いて)検知されうる。オーディオ信号110の時間領域表現が、(時変でありうる)閾値を上回る場合、過渡的事象の存在は示されうる。過渡的事象を含んでいる時間的領域は、過渡信号部分とみなされ、過渡現象時間情報130bによって表されうる。
この種の信号部分(すなわち、過渡現象、又は信号が予測不可能な方法で急激に推移する時間間隔)は、理想的には時間において拡張されないことになっているので、(信号処理器140により実行できうる)時間拡張の前に信号から「過渡現象時間」を取り除くことは有益である。抑制は、「非定常」とみなされる時間全体の間に生じうる。パーカッション楽器のために、この時間は、大部分は全ての音の事象(例えば単一のハイハットを打つ音)から成る。楽器の開始のために、いわゆるADSR(Attack Decay Sustain Release)包絡線は、過渡現象時間を示すのに役立ちうる。
図8は、信号振幅の時間的推移のグラフ表示800を示す。横軸810は時間を表し、縦軸812は振幅を表す。曲線814は、振幅の時間的推移を表す。図8から分かるように、振幅の時間的推移は、立ち上がり(attack)区間、減衰(decay)区間、保持(sustain)区間および余韻(release)区間を含む。立ち上がり区間および減衰区間は、例えば「過渡現象領域」又は過渡信号部分とみなせうる。
しかしながら、(例えば信号処理器140における)更なる信号処理のために、(例えば信号処理器140を使用して処理された)処理された信号(=合成信号)を聞くときに、分裂的な休止および振幅変調のない連続的で、過渡的で、開放された信号という聴覚の感じがあるように、過渡現象の抑制によって生じるオーディオ信号のギャップは埋められなければならないことが分かった。
本願明細書において説明された応用例の特定の場合のために、合成信号における(例えば、信号処理器140に供給された信号132における、又は、結果として信号処理器140により供給された信号142における)元の信号(例えば信号110)のすべての過渡現象部分を抑制することが好まれるが、音の部分及び非過渡現象雑音成分は存在し続ける。
この問題に関して、すでに存在するさまざまなアプローチがあるが、どれも高品質の、過渡現象を調整した(または過渡現象をパージした)信号を目的としたものではない。この問題に関して、例えば、刊行物[エドラー]を参照とすることができる。
過渡現象検知方法の効率および例えば「過渡現象+雑音」などの各種成分への分解に関して、以下の結論は、一般方法の良い全体図を供給する各専門家の刊行物[ベロ]及び[ドーデ]から引き出すことができる:他より明らかに優れている方法がないこと。選択は、各用途により、及び、利用可能な計算機能力により、決定すべきであること。
特定の検知および分解方法の選択が、本発明の方法の結果に有意に影響しうるということになる。当業者にとって、各用途のシナリオに可能な限り最善の状態を供給するためにさまざまな周知の方法のいずれかを適用することは容易に可能である。
「過渡現象部分置換のための構想」
いくつかの用途のシナリオは、参照信号との照合により「正しい」又は「誤っている」と評価される必要がなく、ただ良い全体の音に基づく信号部分を生成することについてのものである。これは、本発明による実施形態が、その部分を分離し、過渡現象成分を省くことに限定されず、特定の特性を有する合成信号を生成しうることを意味する。
従って、合成信号生成(例えば、過渡信号置換器130dによる過渡現象を低減した信号132の生成)は、(想定された信号の内挿および/または外挿という意味において)過渡現象時間の間の信号分解及び信号生成の組み合わせでありうる。元の信号の非過渡現象成分は、内挿/外挿された成分と混合されうる、又は、同上を置換しうる。
本発明によるいくつかの実施形態において、外挿は、過去の値を用いた合成信号生成と等しくありうる。したがって、外挿は、リアルタイム可能でありうる。対照的に、いくつかの実施形態において、内挿は、前の及び後の値を用いた合成信号生成と等しくありうる。このように、場合によっては、内挿は、先読みを必要としうる。
上記をまとめると、種々の構想は、過渡現象を低減したオーディオ信号132を得るために、過渡現象部分置換器130dにおいて適用されうる。
例えば、過渡現象部分置換器130dは、過渡現象を低減したオーディオ信号を得るために、オーディオ信号110からの過渡現象成分を低減するように構成されうる。この場合、過渡現象部分置換器130dは、過渡信号部分と取ってかわる置換信号部分において充分なエネルギーが維持されることを確実にするように構成されうる。例えば、過渡現象の位相特性を含む周波数成分は、オーディオ信号110から取り除かれうる。その一方で、過渡現象の位相特性を含まない他の周波数成分(例えば音の周波数成分)は、過渡信号部分から置換信号部分に引き継がれうる。したがって、置換信号部分が、前及び後の信号部分の信号エネルギーからあまり強くは逸脱しない充分な信号エネルギーを含むことが確実にされうる。
あるいは、過渡現象部分置換器130dは、過渡信号部分の過渡現象を成形している位相関係を破壊することによって置換信号部分を得るように構成されうる。例えば、過渡現象部分置換器は、過渡信号部分の異なる周波数成分の位相をランダム化する又は(決定論的に)調整するように構成されうる。したがって、こうして得られた置換信号部分は、(周波数成分の位相変更がエネルギーを変えないので、)過渡信号部分と(少なくともほぼ)同じエネルギーを含みうる。しかしながら、置換信号部分により表された時間信号の過渡現象を成形した時間的推移は、破壊される種々の周波数成分の特定の位相関係に基づく過渡現象の時間的推移のために失われうる。
しかしながら、代わりに、過渡現象部分置換器130dは、例えば、過渡信号部分の前の非過渡信号部分に基づいて、種々の周波数バンドのエネルギーの時間的推移を内挿しうる。したがって、置換信号部分の内容は、過渡信号部分の前の非過渡信号部分の内容の外挿に単に基づくだけでありうる。したがって、過渡信号部分の内容は、完全に無視されうる。
しかし、代わりに、過渡信号部分の前の非過渡信号部分の内容および過渡信号部分後の非過渡信号部分間の内挿によって、置換信号部分の内容は、過渡現象部分置換器130dを用いて得られうる。さらにまた、過渡信号部分の内容は、完全に無視されうる。内挿は、例えば、時間―周波数領域において実行されうる。
しかし、代わりに、上記の方法の組み合わせは、置換信号部分の内容を得るために使用されうる。例えば、(例えば過渡現象内容を除去することによって、または、過渡現象を形成している位相関係を破壊することによって抽出された)過渡信号部分の非過渡現象内容は、一つ以上の過渡信号部分を内挿又は外挿することによって得られたオーディオ信号内容と結合されうる。別の例として、過渡信号部分の過渡現象を形成している位相関係は破壊されうる。そして、過渡信号部分のエネルギーは、隣接する非過渡信号部分のエネルギーに適合されるためにスケールされうる。
上記を考慮して、置換信号部分が、非過渡信号部分(例えば、前および/または後の過渡信号部分)のみに基づいて(過渡信号部分の内容を使用せずに)、過渡信号部分のみに基づいて、または、一つ以上の非過渡信号部分と過渡信号部分の組み合わせに基づいて、合成されることが言える。
「過渡現象を低減したオーディオ信号の生成のための更なる構想−基本」
以下に、過渡現象を低減したオーディオ信号132の生成のための更なる構想が説明され、その態様は、本願明細書において説明されるいかなる実施形態においても適用できる。検知および置き換えのプロセスに関しては、参照により本願明細書において全体として取り入れられる国際公開2007/118533号を参照することができる。
国際公開2007/118533号は、周囲の領域の信号の生成のための装置および方法を説明する。この文書は、過渡現象時間を検知するために供給される、過渡現象検知器を説明する。国際公開2007/118533号において説明された過渡現象検知器は、例えば本願明細書において説明された過渡現象検知器130aを実行する(又は取りかえる)ために使用されうる。前記刊行物は、過渡条件および連続条件を満たす合成信号を生成する、合成信号生成器を更に説明する。国際公開2007/118533号において説明される合成生成器は、例えば、過渡現象部分置換器130dを実行するために使用されうる、または、過渡現象部分置換器130dに取りかえさえしうる。このように、国際公開2007/118533号において説明された構想は、合成信号の生成のために、本発明のいくつかの実施形態において、過渡現象を低減したオーディオ信号132の生成のために使用できる。
「過渡現象を低減したオーディオ信号の生成のための更なる構想−拡張」
ここに説明された応用(良いヒアリング印象を維持すると共に、過渡信号を含んでいる信号の処理)において、結果生じる信号の高いオーディオ品質が、国際公開2007/118533号(アンビエント信号生成(Ambient Signal Generation))の応用においてよりも、より実質的に重要であるので、オーディオ信号品質を改善するために、国際公開2007/118533号において説明された方法は、いくつかのステップによって拡大される。
例えば、振幅外挿に加えて、本発明による実施形態はまた、過渡現象部分を有しない改良された品質の合成信号を得るために、位相値を外挿又は内挿することを含みうる。
例えば線形予測または線形予測符号化(LPC)を使用して、または、線形に、および/または、スプライン等に重み付き雑音を加えたもので、外挿または内挿は実行される。
いくつかの実施形態において、信号処理器140の一部でありうる、又は、信号処理器140を構成しうる、位相ボコーダとの結合に使用されるとき、過渡現象を低減したオーディオ信号132の上記の生成は、特に有益でありうる。いくつかの実施形態では、過渡現象の間に予測可能な関係が前のフレームに存在しないということに存する、通常大きな問題[8]とみなされる、位相ボコーダの特性は、活用される。いくつかの実施形態において、このまさしくその事実は、過渡現象が前のビンとの関係を強制することによって消されるという点で、過渡現象を抑制するために実施される。換言すれば、例えば、(例えば複素数の形で)置換信号部分の異なる時間―周波数ビンを表している異なる係数の位相は、(前の非過渡信号部分の)前の時間―周波数ビンから外挿すること、または、前の非過渡信号部分と後の非過渡信号部分との対応する時間―周波数ビン間を内挿することによって調整される。刊行物[マヘル]において、相当する内挿方法が説明される。[マヘル]の中で提案された方法は、信号のギャップに続く部分もまた必要とされるので、リアルタイムでは可能でない。さらに、[マヘル]は、オーディオ信号における「ピーク」の処理を説明するのみ(対照的に、本発明によるいくつかの実施形態は、すべての周波数を処理する)であり、そして、雑音成分も明示的に取扱われない。換言すれば、いくつかの実施形態において、元の入力オーディオ信号110に基づいて、オーディオ信号におけるギャップの橋絡のための[マヘル]中で説明された構想は、過渡現象を低減したオーディオ信号132を得るために、本応用によって適用されうる。オーディオ信号の「失った」部分を橋絡するよりはむしろ、過渡信号部分と同一とみなされた部分が、[マヘル]の中で説明された方法を使用して置換されうる。しかしながら、内挿/外挿は、周波数ビンごとに独立して実行されうる。任意で、振幅および位相は、(別々に)内挿されうる。
「過渡現象検知器130a」
以下では、過渡現象検知器130aに関するいくつかの現在の詳細が説明される。しかし、過渡現象検知器130aの多くの異なる実施例が使用できる点に留意する必要がある。そうすると、以下の詳細は1つの有益な実施の例とみなされるべきである。いくつかの実施形態では、適合可能な閾値は、過渡現象時間を認識するために好まれる。通常、適合可能な閾値は、大きな変動となり、それにより大きいピークの周辺の小さいピークの非検知をもたらしうる検知関数の平滑化されたバージョンである。詳細は、刊行物[ベロ]を参照できる。この問題は、例えば、現在検知された状態(過渡現象領域/非過渡現象領域)に、および、検知関数の推移(例えば立ち上がり、減衰)に依存したスムージング定数の適切な適合によって解決されうる。
以下に、上述した態様に関するいくつかの文献参照が与えられる。
[エドラー]、[ベロ]、[グッドウィン]、[ワルサー]、[マヘル]、[ドーデ]
「過渡現象部分抽出器130e」
上記の機能に加えて、過渡信号置換器130は、過渡現象部分抽出器130eがオーディオ信号110(又は少なくともその過渡信号部分)を受けるように、および、過渡現象情報134を供給するように構成された、過渡現象部分抽出器130eを更に含む。過渡現象部分抽出器130eは、考えられるあらゆる形で、例えば、過渡信号部分―時間信号の形で、過渡信号部分―時間周波数領域表現の形で、または、過渡パラメータ(例えば過渡現象時間情報および/または過渡現象強度情報および/または過渡現象スチープネス情報および/または他の適当な過渡現象情報)の形で、過渡現象情報134を供給するように構成されうる。
特に、過渡現象部分抽出器130eは、データレートを無理なく少なく保つために、過渡現象を低減したオーディオ信号132を得るようにオーディオ信号110から取り除かれた信号部分だけに、過渡現象情報134を供給するように構成されうる。
「信号処理器140のための実施変形例−概要」
以下に、信号処理器140の実施のための種々の基本的概念が説明される。図3aは、図1の信号処理器140の好ましい実施例を示す。この実施例は、周波数選択分析器310と元のオーディオ信号の「垂直コヒーレンス」に悪影響を与えるように実施される、後に接続された周波数選択処理デバイス312を含む。この周波数選択処理のための例は、時間における信号の拡張又は時間における信号の縮小である。ここで、この拡張又は縮小は、例えばその処理が、異なる周波数ごとに異なる処理されたオーディオ信号に位相シフトを取り入れるように、周波数選択的な方法で適用される。位相シフトは、例えば過渡現象が弱められるように取り入れられる。図3aに示された信号処理器140は、任意で、周波数選択処理312により供給された処理されたオーディオ信号の異なる周波数成分を単一の信号(例えば時間領域信号)に結合するように構成される周波数結合器314を更に含みうる。
複数の周波数成分(例えば複素数値のスペクトル係数)に過渡現象を低減したオーディオ信号132を分割しうる周波数選択分析器310、および、異なる周波数バンドごとに複数の複素数値のスペクトル係数に基づいた処理されたオーディオ信号142の時間領域表現を得るように構成されうる周波数結合器314の両方は、ブロック的な処理を実行するように構成されうる。例えば、周波数選択分析器310は、オーディオ信号サンプルのブロックのオーディオ内容を示している一組の複素数値のスペクトル係数を得るために、オーディオ信号132のサンプルの(例えばウィンドウ化された)ブロックを処理しうる。同様に、任意の周波数結合器314は、一組の複素数値の係数(例えば複数の周波数バンドの周波数バンドごとに1つ)を受け、それに基づいて、複数の時間領域サンプルを含んでいる時間の制限された区間に時間領域表現を供給しうる。
他の好ましい信号処理は、位相ボコーダ処理に関して、図3bに示される。通常、位相ボコーダは、出力326で時間領域において処理された信号142を最終的に得るために、サブバンド/変換分析器320、分析器320により供給された複数の出力信号の周波数選択的な処理を実行するための後に接続された処理器322、およびその後に、処理器322により処理された信号を結合するサブバンド/変換結合器324を含む。さらにまた、処理された信号142の帯域幅が、項目322と324との間に単一のブランチによって示された帯域幅より大きい限り、時間領域の処理された信号142は、ローパスフィルタ信号のための十分な帯域幅信号である。というのも、サブバンド/変換結合器324は、周波数選択的な信号の結合を実行するからである。
この位相ボコーダに関する詳細は、図5a、図5b、図5cおよび図6と関連して以下で述べる。
図3cは、信号処理器140の他のありうる実施例を示す。図に示すように、過渡現象を低減したオーディオ信号132は、いくつかの実施形態において、時間領域において処理されさえしうる。一般的に、時間領域処理330は、信号132における過渡現象が、処理されたオーディオ信号142に長時間の影響を及ぼすように、メモリを含みうる。場合によっては、過渡現象を低減したオーディオ信号132によって、処理されたオーディオ信号142において、過渡現象の継続時間(又は過渡信号部分の継続時間)より著しく長い(例えば、2倍、又は、5倍、又は10倍以上も長い)過渡現象の応答が生じるだろう。この場合、オーディオ信号132の過渡現象は、例えば聞き取れる反響を生成することにより、望ましくない方法で、処理されたオーディオ信号142を有意に劣化させる。更に、過渡信号部分の完全な削除はまた、処理されたオーディオ信号142に長時間の影響を及ぼしうる。その理由は、過渡信号部分の完全な削除によって過渡現象そのものが生じるからである。
「ボコーダを用いた信号処理器の実施例−フィルタバンク実施例」
以下に、図5および図6を参照に、信号処理器140の実施例のために使用できる、または、信号処理器140の一部でありうる、ボコーダのための好ましい実施例が示される。図5aは、位相ボコーダのフィルタバンク実施例を示す。そこにおいて、入力オーディオ信号(例えば過渡現象を低減したオーディオ信号132)は、入力500に送り込まれ、そして、処理されたオーディオ信号(例えば処理されたオーディオ信号142)は、出力510で得られる。特に、図5aにおいて図示された模式的なフィルタバンクの各チャンネルは、バンドパスフィルタ501およびダウンストリーム発振器502を含む。全てのチャンネルからの全ての発振器の出力信号は、出力510で出力信号を得るために、例えばアダーとして実行されて503で示される結合器により、結合される。各フィルタ501は、それが一方では振幅信号、他方では周波数信号を供給するように、実行される。振幅信号および周波数信号は、時間上でのフィルタ501の振幅の推移を示している時間信号であり、その一方で、周波数信号は、フィルタ501によってフィルタをかけられた信号の周波数の推移を示す。
フィルタ501の模式的なセットアップは、図5bにおいて示される。図5aの各フィルタ501は、図5bで示されるようにセットアップされうる。しかしながら、そこにおいて、2つの入力ミキサー551およびアダー552に供給された周波数fiだけはチャンネル間で異なる。ミキサー出力信号は、両方ともローパス553によりローパスフィルタにかけられる。そこにおいて、そのローパス信号は、それらが90度位相ずれした局部発振器信号によって生成される限り、異なる。上のローパスフィルタ553は、直交信号554を供給し、その一方で、下のフィルタ553は、同位相信号555を供給する。これらの二つの信号、すなわち、IおよびQは、直交表示から強度位相表示を生成する座標変換器556に供給される。時間上での図5aの強度信号又は振幅信号は、それぞれ、出力557の出力である。位相信号は、位相アンラッパー(phase unwrapper)558に供給される。要素558の出力で、もはや常に0および360度の間にある位相値はなく、線形に増加する位相値がある。この「アンラップされた(unwrapped)」位相値は、時間における現在点のための周波数値を得るために、時間における現在点での位相から時間における前の点での位相を引く単純な位相差形成器として実施されうる位相/周波数変換器559に供給される。この周波数値は、出力560で時間変化している周波数値を得るために、フィルタチャンネルiの一定の周波数値fiに付加される。出力560の周波数値は、直接成分=fi、および、代替成分=フィルタチャンネルの信号の現在の周波数が平均周波数fiから偏移する周波数偏差を有する。
このように、図5aおよび図5bにて図示したように、位相ボコーダは、スペクトル情報および時間情報の分離を達成する。スペクトル情報は、特別なチャンネルに、または、チャンネルごとに周波数の直接部分を供給する周波数fiにある。その一方で、時間情報は、周波数偏差または時間にわたった強度にそれぞれ含まれる。
図5cは、図5aの破線でプロットされたボコーダの位置のボコーダにおいて実行されうる操作を示す。
時間スケーリングのために、例えば、各チャンネルの振幅信号A(t)、又は、各信号の信号f(t)の周波数は、それぞれ、大量に取り除かれうる、または、内挿されうる。転置のために、本発明に役立つように、内挿、すなわち信号A(t)およびf(t)の時間的拡張又は拡散は、拡散信号A’(t)およびf’(t)を得るために実行される。そこにおいて、その内挿は、拡散係数によって制御される。位相偏差、すなわちアダー552による一定周波数の付加の前の値の内挿によっては、図5aの個々の発振器502の周波数は変わらない。しかしながら、全体のオーディオ信号の時間的変化は、すなわち2倍に、遅くされる。その結果は、元のピッチを有する時間的に拡散されたトーン、すなわちその高調波を有する元の基本波である。
周波数転置(frequency transposition)のために、以下の構想が使用できる。図5aの全てのフィルタバンドチャンネルにおいて実行される図5cに示された信号処理を実行することによって、および、減数器で結果として生じている時間的信号を大量に取り除くことによって、すべての周波数が同時に2倍になると共に、オーディオ信号をその元の継続時間へ戻って縮小できる。このことは、2倍のピッチ転置につながる。しかしながら、そこにおいて、元のオーディオ信号と同じ長さを有する、すなわち、同数のサンプルを有するオーディオ信号が得られる。
「ボコーダを用いた信号処理器の実施例−変形実施例」
図5aに示されたフィルタバンク実施例に代わるものとして、位相ボコーダの変形実施例はまた、図6に示すように、使用されうる。ここで、オーディオ信号132は、FFT処理器に、または、さらに一般的にいえば、短時間フーリエ変換処理器600に、一連の時間サンプルとして送られる。FFT処理器600は、FFTによりスペクトルの強度および位相を計算するために、オーディオ信号の時間ウィンドウ化を実行するように、図6において図式的に実行される。そこにおいて、この計算は、強くオーバーラップしているオーディオ信号のブロックに関連がある連続したスペクトルのために実行される。
極端な場合において、新しいオーディオ信号サンプルごとに、新しいスペクトルは算出されうる。そこにおいて、新しいスペクトルはまた、例えば20番目の新しいサンプルごとにだけ算出されうる。2つのスペクトル間のサンプルにおけるこの距離aは、制御器602によって好ましくは与えられる。制御器602は、オーバーラップ演算において演算するように実施されるIFFT処理器604に供給するために、更に実行される。特に、重複加算(overlap add)演算を実行し、そこから結果として生じる時間信号を得るために、修正されたスペクトルの強度および位相に基づいて、スペクトルごとに1つのIFFTを実行することによって逆短時間フーリエ変換を実行するように、IFFT処理器604は実行される。重複加算演算は、分析ウィンドウの効果を除去する。
時間信号の拡散は、それらがIFFT処理器604によって処理される時、FFTスペクトルの生成におけるスペクトル間の距離aより大きい、2つのスペクトル間の距離bによって得られる。基本概念は、単に分析FFTよりはるかに離れた間隔で置かれている逆FFTによってオーディオ信号を広げることである。その結果、合成されたオーディオ信号においての時間的変化は、元のオーディオ信号においてよりもゆっくり生じる。
しかしながら、ブロック606の位相再スケーリングがなければ、これはアーチファクトにつながるだろう。例えば、単一の周波数ビンが、45度ずつ連続した位相値が実行されるとみなされるとき、このフィルタバンク内の信号が円の1/8の割合で、すなわち時間区間ごとに45度ずつ位相において増加するということを暗に意味する。そこにおいて、ここで時間区間とは連続したFFT間の時間区間である。今、逆FFTが互いにさらに離れた間隔を置いて配置されている場合、これは、45度位相増加が、より長い時間区間にわたって生じることを意味する。これは、位相シフトのために、その後の重複加算処理における不整合により、不要である信号取消につながることが起こることを意味する。このアーチファクトを除去するために、位相は、正確にオーディオ信号が時間において広げられた同係数により再スケールされる。各FFTスペクトル値の位相は、このように係数b/aによって増加する。その結果、この不整合は除去される。
図5cに示された実施形態において、振幅/周波数制御信号の内挿による拡張が、図5aのフィルタバンク実施例の単一の信号発振器ごとに得られる一方で、図6における拡張は、2つのFFTスペクトル間の距離より大きい2つのIFFTスペクトル間の距離、すなわちaより大きいbによって得られる。しかし、そこにおいて、アーチファクト防止のために、位相再スケーリングは、b/aにより実行される。
位相ボコーダの詳細な説明に関して、以下の文書を参照できる。
「位相ボコーダ:チュートリアル」、マーク・ドルセン、コンピュータ音楽ジャーナル、10巻、No.4、pp.14〜27、1986年、又は、「ピッチシフト、調和、および他のエキゾチックな効果のための新しい位相ボコーダ技術」、L.ラロッシュおよびM.ドルセン、オーディオ及びアコースティックへの信号処理の応用に関する1999年IEEEワークショップ会報、ニューパルツ、ニューヨーク、1999年10月17日〜20日、ページ91〜94;「位相ボコーダにおける過渡現象処理への新しいアプローチ」、A.ローベル、デジタルオーディオエフェクトに関する第6回会議(DAFx−03)の会報、ロンドン、UK、2003年9月8〜11日、ページDAFx−1〜DAFx−6;「位相をロックしたボコーダ」、メラー・パケット、会報1995、IEEE ASSP、オーディオおよび音響学に関する信号処理の応用に関する会議、又は、米国特許出願番号6,549,884。
以下に、変換ベースの位相ボコーダの機能のための例が、図7を参照として簡単に説明される。図7は、分析ホップサイズとは異なる、例えば2倍の、合成ホップサイズを有する位相ボコーダアルゴリズムの演算の略図を示す。
位相ボコーダ(PV)アルゴリズムは、そのピッチを変えることなしで信号の継続時間を変更するために使用される[B9]。それは、信号を、一般的に約10ミリ秒の範囲の長さを有する信号のウィンドウ化されたカットアウトを意味するいわゆるグレイン(grain)に分ける。そのグレインは、分析ホップサイズとは異なる合成ホップサイズを用いた重複加算(OLA)処理で再配列される。例えば2倍に信号を拡張するために、合成ホップサイズは、分析ホップサイズの2倍である。図7は、そのアルゴリズムを示す。
「過渡信号再挿入器」
以下に、図1に示された過渡信号再挿入器150の好ましい実施例が、図4を参照にして説明される。
過渡信号再挿入器150は、主要構成要素として、信号結合器150aを含む。信号結合器150aは、処理されたオーディオ信号142および過渡信号152の両方を受けて、それに基づいて、処理されたオーディオ信号120を供給するように構成される。信号結合器150aは、例えば、過渡信号152の一部との処理されたオーディオ信号142の一部の困難な切り換え置換を実行するように構成されうる。しかしながら、好ましい実施形態において、信号結合器150aは、処理されたオーディオ信号120内に前記信号142、152間で滑らかな遷移があるように、処理されたオーディオ信号142と過渡信号152との間にクロスフェージングを形成するように構成されうる。
しかし、過渡信号再挿入器150は、最適挿入係数を決定するように構成されうる。例えば、過渡信号再挿入器150は、過渡現象再挿入部分の長さを算出するための計算器150bを含みうる。例えば、(例えば過渡現象検知器130aにより決定されるような)置換された過渡現象部分の長さが、信号特性に依存して可変である場合、過渡現象再挿入部分のこの長さの計算は、重要でありうる。元の入力オーディオ信号110と比較して、処理されたオーディオ信号142が異なる長さ(または1秒あたりの異なる数のサンプル、または異なる数の全体のサンプル)を含む場合には、拡張係数又は圧縮係数は、過渡現象再挿入部分の長さを決定するために計算器150bによって考慮されうる。この長さのバリエーションの詳細な考察は、下記で図10および図11を参照に提供される。
過渡信号再挿入器150は、再挿入位置を算出するための計算器150cを更に含みうる。場合によっては、再挿入位置の計算は、処理されたオーディオ信号142の拡張又は圧縮を考慮しうる。場合によっては、処理されたオーディオ信号120における非過渡現象オーディオ信号内容と過渡現象内容との間の関係(例えば時間的関係)が、元の入力オーディオ信号110における前記非過渡現象オーディオ内容と前記過渡現象内容の時間的関係と少なくともほぼ同一であることが好ましい。しかし、適当な過渡信号再挿入位置の前計算に加えて、前記再挿入位置の細密調整は実行されうる。例えば、再挿入位置を計算するための計算器150cは、処理されたオーディオ信号142と過渡信号152の両方を読み込み、処理されたオーディオ信号142と過渡信号152の比較に基づいて、再挿入の瞬間を決定するように構成されうる。再挿入位置の可能な計算に関する詳細は、図10および図11に示された例を参照として下記に説明される。
「可能なタイミング関係」
以下に、可能なタイミング関係に関する詳細は、図9を参照として説明される。図9は、元の入力オーディオ信号110の異なるブロックの処理のグラフ表示を示す。第1のグラフ表示910は、元の入力オーディオ信号110の時間的推移を表し、そこにおいて、横軸912は時間を示す。入力オーディオ信号110は、過渡信号部分920を含み、その長さは可変的でありうる。タイミング基準として、信号処理器140の処理区間又は処理ブロック922a、922b、922cは、グラフ表示910に示される。図から分かるように、過渡信号部分920の継続時間は、処理区間922a、922b、922cの継続時間より小さいこともある。しかしながら、場合によっては、過渡信号部分の継続時間は、処理区間の継続時間より大きくさえありうる、または、1つのみの処理区間以上にわたって拡張しうる。場合によっては、処理区間922a、922b、922cはまた、時間的にオーバーラップしていることもありうる。
グラフ表示930は、過渡信号置換器130により実行された過渡現象置換により得ることができる、過渡現象を低減したオーディオ信号132を示す。図から分かるように、過渡信号部分920は、置換信号部分と置換された。
グラフ表示950は、例えば、過渡現象を低減したオーディオ信号132のブロック的な処理を使用して得ることができる、処理されたオーディオ信号142を表す。その処理は、例えば、位相ボコーダおよびダウンサンプリングを使用して実行されうる。この処理において、ブロックは任意でウィンドウ化されうる。さらに、ブロックは任意でオーバーラップする。
更なるグラフ表示970は、過渡現象(又はその変更されたバージョン)が過渡信号再挿入器150によって再挿入された処理されたオーディオ信号120を示す。
過渡現象エネルギーが一般的にそのブロック的な処理において全体のブロックにわたって広がっているので、過渡信号部分920はブロック的な処理にあるとみなされる場合、過渡信号部分920は全体のブロック1”に影響を及ぼすだろうことは重要である。このように、過渡信号部分がブロック的な処理にあるとみなされた場合、ブロックの全体のエネルギーは、過渡現象エネルギーによりおそらく偽って伝えられるだろう。更に、過渡現象がブロック的な処理に影響を受けた場合、過渡現象は、一般的に、拡散されるだろう(すなわち、幅を広げる)。対照的に、過渡現象の別々の処理は、過渡現象と関連している処理されたオーディオ信号120の時間区間1”に過渡現象の影響を制限することを可能にする。信号処理器140のブロック的な信号処理の全部のブロックへの過渡信号部分の拡散は、回避できる。むしろ、処理されたオーディオ信号120の過渡信号部分の継続時間は、過渡現象処理器160によって実行された過渡信号処理により決定できる。あるいは、必要に応じて、過渡信号部分920をその元の継続時間の処理されたオーディオ信号142に挿入することは可能である。このように、信号処理器140の過渡現象エネルギーの不必要な拡散は回避できる。
「オーディオ信号の時間拡張」
上記説明から分かるように、過渡的事象を含んでいるオーディオ信号を操作するための本発明概念は、多くの異なる応用例において適用できる。例えば、前記構想は、過渡現象が信号処理により弱めさせられる、および、それにもかかわらず過渡現象を維持することが望まれるいかなるオーディオ信号処理においても、適用できる。例えば、多くの種類の非線形オーディオ信号処理は、過渡現象がある場合には、ひどく質の落ちた結果をもたらすだろう。加えて、ある種の時間的フィルタリングは、過渡現象の存在により、著しく影響を受けるだろう。更に、過渡現象のエネルギーが全部の処理ブロックにわたって塗りつけられるので、オーディオ信号のいかなるブロック的な処理も、一般的に過渡信号の存在により劣化させられ、こうして、結果として聞き取れるアーチファクトが生じる。
にもかかわらず、オーディオ信号の時間拡張は、過渡的事象を含んでいるオーディオ信号を操作するための現在の構想の特に重要なアプリケーションであるとみなすことができる。このため、このアプリケーションに関する詳細は、以下に説明される。
以下に、発明概念の効果の理解を可能にするために、オーディオ信号の時間拡張のための従来の構想のいくつかの短所を説明する。位相ボコーダによるオーディオ信号の時間拡張は、(異なる周波数バンドの成分間の特定の位相関係という意味における)信号のいわゆる垂直コヒーレンスが害されるので、分散により過渡信号部分を「塗りつけること(smearing)」含む。いわゆる重複加算(OLA)方法を用いる方法は、過渡的音響事象の分裂的な前反響および遅延した反響を生成しうる。これらの問題は、実際、過渡現象の周囲におけるより明白な時間拡張により対処されうる。しかし、転置が起こる場合、転置係数は、過渡現象の環境においてもはや一定ではない、すなわち、重ね合わさった(おそらく音の)信号成分のピッチは変化し、分裂的なものとして知覚されるだろう。
過渡現象が取り除かれた場合、そして、結果生じたギャップが拡張された場合、非常に大きいギャップは、これに続いて埋められなければならない。過渡現象が密に互いに続く場合、大きいギャップはおそらく重複するだろう。
以下に、信号の変換のための新規な方法を説明する。ここで提案された方法は、前述の問題を解決する。
この方法の一態様によれば、過渡現象を含んでいるウィンドウ化されたセクションは、操作される信号(例えば元の入力オーディオ信号110)から内挿される又は外挿される。アプリケーションが時間的に重要である場合、すなわち、遅延が回避されるべきことである場合、外挿が好ましくは選択できる。先に起こることがいわゆる先読み(look−ahead)として知られる場合、そして、遅延がそれほど重要な働きをするということもない場合、内挿が好まれる。
いくつかの実施形態において、その方法は、次のステップから基本的に成っており、図10および図11に示す。
1.過渡現象の認識
2.過渡現象の長さの決定
3.過渡現象が保存される
4.外挿および/または内挿
5.実際の方法の適用(例えば位相ボコーダ)
6.保存された過渡現象の再挿入
7.場合によっては(任意で)(サンプルレートの変更のための)再サンプリング
このシーケンスが実行されるときに、過渡現象の持続時間はダウンサンプリングで短くなる。これが所望でない場合、再挿入前シフトキーイング後に、所望の周波数バンド内にあるように過渡現象は変調されうる(ステップ6および7は入れ替わる)。
以下に、いくつかの詳細が、図10を参照にして説明される。図10は、図1に記載の装置100の実施形態に現れうる、異なる信号のグラフ表示を示す。図10の表示は、全体として1000で示される。信号表示1010は、元の入力オーディオ信号110の時間的推移を表す。図に示すように、入力オーディオ信号110は、過渡信号部分1012を含み、そして、その可変の幅(又は継続時間)は、信号適合された方法で過渡現象検知器130aで決定されうる。過渡信号部分1012は、過渡信号置換器130によって除去され、置換信号部分と置換されうる。したがって、過渡現象を低減したオーディオ信号132を得ることができ、それは信号表現1020に示される。置換信号部分は、参照番号1022で示され、過渡信号部分1012と取ってかわる。過渡現象を低減したオーディオ信号132は、ブロック的な方法で処理されうる。そこにおいて、(ブロック的な処理の粒度を決定し、「グレイン(grain)」とも示される)異なる処理ウィンドウは、信号表現1030で示される。例えば、ブロック(または「グレイン」)ごとに、過渡現象を低減したオーディオ信号132の時間―周波数領域表現を形成するために、一組のスペクトル係数を得ることができる。位相ボコーダ処理は、過渡現象を低減したオーディオ信号132の時間―周波数領域表現の中で適用されうる。その結果、増加した継続時間の信号が得られる。この目的のために、内挿された時間―周波数領域係数は、得られうる。それから、時間―周波数領域係数は、時間領域信号を構築するために使用されうる。そして、その継続時間は元の入力オーディオ信号と比較して拡張され、その一方で、ピッチを維持する。換言すれば、信号周期の数は、増加する。位相ボコーダ演算により得られた信号は、信号表現1040に示される。グラフ表示1040から分かるように、(入力オーディオ信号の始まりに関して考慮されるとき、)置換信号は過渡信号部分と置換するように内挿された、いわゆる「カットアウト過渡現象領域」は、元の入力オーディオ信号における過渡信号部分の時間的位置に関して時間シフトされる。
その後、例えば過渡信号再挿入器150によって、前に置換された過渡信号部分は、再挿入される。例えば、過渡信号152により表された過渡信号部分は、過渡現象を低減したオーディオ信号の処理されたバージョン142に、クロスフェードされうる。過渡現象の再挿入の結果は、グラフ表示1050に示される。
その後のダウンサンプリングにおいて、処理されたオーディオ信号120の継続時間は、低減できる。ダウンサンプリングは、例えば、信号調整器170によって実行できる。ダウンサンプリングは、例えば時間スケールの変更を含みうる。あるいは、多くのサンプル点は、低減されうる。結果として、位相ボコーダにより供給された信号と比較して、ダウンサンプリングされた信号の継続時間は低減される。同時に、位相ボコーダにより供給された信号と比較して、多くの周期は、ダウンサンプリングによって維持できる。したがって、信号表示1050で示されるダウンサンプリングされた信号のピッチは、(信号表示1040に示された)位相ボコーダにより供給された信号と比較して、増加しうる。
図11は、図1の装置100の他の実施形態に現れている信号を示している他の信号表示を示す。その処理は、図10に関して説明された処理と同様であり、そうすると、処理の順序の唯一の違いが、ここで説明され、そして、この種のその同一の信号表示および信号特性は、図10と図11において同じ参照番号で示される。
信号表示1100で示された信号処理において、ダウンサンプリングは、過渡信号再挿入の前に実行される。このように、信号表示1150は、挿入された過渡信号部分なしでダウンサンプリングされた信号を示す。しかし、過渡信号部分は、過渡現象処理器160により実行されうる過渡現象周波数シフト演算1160を使用して周波数においてシフトされる。周波数シフトされた(過渡信号置換器130により置換された過渡信号部分に関して周波数シフトされた)過渡信号は、過渡信号再挿入器150によって、ダウンサンプリングされた処理されたオーディオ信号142に再挿入されうる。過渡現象の再挿入の結果は、信号表示1170に示される。
「過渡信号部分のフィッティング」
以下に、過渡信号152が過渡信号挿入器150を使用して、処理されたオーディオ信号142とどのように結合できるかについて説明する。例えば、過渡信号挿入器150は、処理されたオーディオ信号142から過渡現象領域をカットアウトするように構成されうる。そして、その過渡現象領域に過渡信号152が挿入される。過渡信号152の境界部分が、カットアウト過渡現象領域の境界部分と時間的にオーバーラップしうると、ここではみなすことができる。このオーバーラップしている境界部分において、処理されたオーディオ信号142と過渡信号152間のクロスフェードが起こりうる。過渡信号152はまた、処理されたオーディオ信号142に関して時間シフトされうる。そうすると、カバーされた過渡現象領域の境界部分の波形が、過渡信号152の境界部分の波形と良い一致に至らされる。
正確なフィッティングは、過渡現象部分の端部を有する結果として生じる凹所の相互相関の最大を計算することによって実行されうる(そこにおいて、凹所は、処理されたオーディオ信号142からの過渡現象領域のカットアウトによって生じうる)。このように、過渡現象の主観的なオーディオ品質は、分散および反響効果によって、もはや害されない。
適切なカットアウトを選択するための過渡現象の位置の正確な測定は、例えば時間にわたるエネルギーの変動する重心計算を用いて、実行されうる。
最大相互相関による過渡現象の最適フィッティングは、同上の元の位置上の時間においてわずかなオフセットを必要としうる。しかしながら、時間的プレマスキング及び特にポストマスキング効果の存在のために、再挿入された過渡現象の位置は、元の位置と厳密に一致する必要はない。ポストマスキングの作用のより長い時間のため、プラスの時間方向の過渡現象のシフトは、この状況において好まれる。元の信号部分を挿入することによって、サンプリングレートの変化は、音色またはピッチの変化につながる。しかしながら、これは、通常、音響心理学的なマスキング機構を用いて、過渡現象によりマスクされる。
「過渡現象処理」
例えば処理された信号に単に付け加えられたために、過渡現象がカットアウトに続く再挿入の前に音色がなくなることになる場合、対応するウィンドウ化された過渡現象部分は適切な方法で処理されなければならない。これに関連して、逆(LPC)フィルタリングは行われうる。
代わりのアプローチ例は、以下に簡潔に説明される。
1.スペクトルを得るために、(例えば、過渡現象情報134によって表された過渡信号部分の)短時間フーリエ変換(STFT)測定すること
2.(例えば過渡信号部分のスペクトルの)ケプストラム(Cepstrum)を測定すること
3.スペクトルのハイパスフィルタリングを得るために、ケプストラム(第1の係数は0にセットされる)のハイパスフィルタリング
4.平滑化されたスペクトルを得るために、(例えば過渡信号部分の)フィルタをかけたスペクトルにより、(過渡信号部分の)スペクトルを分割すること
5.(例えば処理された過渡信号152を得るために)時間領域に(例えば、平滑化されたスペクトルの)逆変換
結果として生じる信号は、出力信号と(少なくともほぼ)同じスペクトル包絡線を呈するが、音の部分を失った。
「方法」
本発明による実施形態は、過渡的事象を含んでいるオーディオ信号を操作するための方法を含む。図12は、この種の方法1200のフローチャートを示す。
方法1200は、過渡現象を低減したオーディオ信号を得るために、オーディオ信号の過渡的事象を含んでいる過渡信号部分を、オーディオ信号の非過渡信号部分の一つ以上の信号エネルギー特性に、または、過渡信号部分の信号エネルギー特性に適合された置換信号部分を置換するステップ1210を含む。
方法1200は、過渡現象を低減したオーディオ信号の処理されたバージョンを得るために、過渡現象を低減したオーディオ信号を処理するステップ1220を更に含む。
方法1200は、過渡現象を低減したオーディオ信号の処理されたバージョンを、元の又は処理された形で、過渡信号部分の過渡現象内容を示している過渡信号と結合するステップ1230を更に含む。
方法1200は、上記の発明の装置に関しても本願明細書において説明された特徴または機能のいずれかによって補充できる。
換言すれば、いくつかの態様が装置に関連して説明されたが、これらの態様はまた、対応する方法の記載を示すことは明らかである。ここで、ブロック又はデバイスは、方法ステップ又は方法ステップの特徴に対応する。類似して、方法ステップに関連して説明された態様はまた、対応するブロック又は項目の記載又は対応する装置の特徴を示す。
「コンピュータ・プログラム」
特定の実現要求に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアにおいて実行できる。その実施は、各方法が実行されるように、プログラミング可能な計算機システムと協動する(または協動できる)、その上に格納された電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。従って、デジタル記憶媒体は、コンピュータ読み込み可能でありうる。
本発明によるいくつかの実施形態は、本願明細書において説明された方法の1つが実行されるように、プログラミング可能な計算機システムと協動できる、電子的に読み込み可能な制御信号を有するデータキャリアを含む。
通常、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実施できる。そして、コンピュータ・プログラム製品がコンピュータ上で動作するときに、プログラムコードが方法のうちの1つを実行する働きをする。プログラムコードは、例えば機械読み取り可能なキャリアに格納できる。
他の実施形態は、機械読み取り可能なキャリアに格納された、本願明細書において説明された方法の1つを実行するためのコンピュータ・プログラムを含む。
換言すれば、本発明の方法の実施形態は、従って、コンピュータ・プログラムはコンピュータ上で動作するときに、本願明細書において説明された方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
本発明の方法の更なる実施形態は、従って、その上に記録されて、本願明細書において説明された方法のうちの1つを実行するためのコンピュータ・プログラムを含んでいるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
本発明の方法の更なる実施形態は、従って、本願明細書において説明された方法のうちの1つを実行するためのコンピュータ・プログラムを示しているデータ・ストリームまたは信号のシーケンスである。データ・ストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されうる。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するように構成された又は適合された、処理手段、例えばコンピュータ又はプログラム可能な論理回路を含む。
更なる実施形態は、その上に、本願明細書において説明された方法のうちの1つを実行するためのコンピュータ・プログラムをインストールしたコンピュータを含む。
いくつかの実施形態において、プログラム可能な論理回路(例えばフィールド・プログラマブル・ゲート・アレイ)は、本願明細書において説明された方法の機能のいくつか又は全てを実行するために使用されうる。いくつかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、本願明細書において説明された方法のうちの1つを実行するために、マイクロプロセッサと協動しうる。通常、その方法は、いかなるハードウェア装置によっても好ましくは実行される。
「結論」
上記を要約すると、本発明による実施形態は、(例えば、信号処理器を使用して)現存する処理ルーチンによって処理されない、又は、処理することができない音響事象を処理するという新規な方法を含む。いくつかの実施形態において、本発明の方法は、基本的に、別々に処理されることになる音響事象を含んでいる信号部分を外挿するステップ又は内挿するステップから成る。その処理の後に、別々に処理された過渡現象部分は、再度付加される。この処理は、時間又は周波数拡張に制限されず、信号の実際の処理が過渡信号部分に有害であるとき(または、過渡信号部分に悪影響を受ける場合)、信号処理において一般的に使用されうる。
以下に、いくつかの実施形態において得ることができる新規な方法のいくつかの効果が説明される。新規な方法については、時間拡張および転置方法を使用した過渡現象の処理の間生じうるアーチファクト(例えば分散、前反響および遅延した反響など)は、効果的に示される。重ね合わさった(おそらく音の)信号部分の品質の潜在的障害は、回避される。
本発明による実施形態は、種々の応用分野において適用できる。本方法は、例えば、オーディオ信号の再生速度又はそれらのピッチが変更されるオーディオアプリケーションに適している。
上記を要約すると、アーチファクトを回避するためにオーディオ信号の音響事象の別々の処置のための手段及び方法が説明された。
「実施形態2」
本発明の他の実施形態は、図13〜図16を参照として、以下に説明される。
まず、過渡現象検知に関する詳細が述べられる。その後、過渡現象の処理は、図13および図14を参照に説明される。過渡現象の処理の結果は、図15を参照に述べられる。過渡現象の処理の更なる改良は、図16を参照に説明される。加えて、実施形態の性能評価が与えられ、いくつかの結論が下される。
「実施形態2−過渡現象の検知」
発明された構想を実施するために、過渡現象の置換および過渡現象の別々の処理を可能にするために、過渡現象の存在を検知することは重要である。
目下の時間拡張アプリケーションの他に、広範囲にわたる信号処理方法は、オーディオ信号の過渡現象内容についての情報を必要とする。顕著な例は、変換オーディオ符号化におけるブロック長決定(B.エドラー、「オーバーラッピングブロック変換及び適応型窓関数を用いたオーディオ信号の符号化(ドイツ語)」、Frequenz、43巻、No.9、pp.252〜256、1989年9月)、又は、過渡現象及び定常の別々の符号化(オリバー・ニーマイヤー、ベルント・エドラー、「オーディオ符号化のための過渡現象の検知及び抽出」、第120回AESコンベンション、パリ、フランス、2006年)、過渡現象成分の変更(M.M.グッドウィン、C.アヴェンダノ、「過渡現象変更に基づいたオーディオ信号拡張のための周波数領域アルゴリズム」、オーディオエンジニアリング協定のジャーナル、54巻、pp.827〜840、2006年)、および、オーディオ信号分割(P.ブロッシヤー、J.P.ベロ、M.D.プラムブライ、「音楽信号における音符オブジェクトのリアルタイム時間的分割」、ICMC、マイアミ、USA、2004年)である。そのアプリケーションと同じくらい多いのは、過渡現象を検知するためのアプローチである。最も一般的には、その検知は、検知関数(J.P.ベロ、L.ドーデ、S.アブドゥッラー、C.ダックスベリー、M.デイヴィス、M.B.サンドラー、「音楽信号における開始検知に関するチュートリアル」、音声およびオーディオ処理、IEEE通信、13巻、No.5、pp.1035〜1047、2005年9月)すなわち、過渡現象の発生と合致する極大値を有する関数を計算することによって実行される。さまざまな提案された方法は、サブバンド信号、ブロードバンド信号、その導関数、または、その相対的差分関数の(重み付きされた)強度またはエネルギー包絡線を調査することによって、この種の検知関数を導き出す(例えば、参照文献(A.クラプリ、「心理音響学情報の適用による音響開始検知」、ICASSP、1999年)及び(P.マスリ、A.ベイトマン、「音楽分析再合成における過渡現象への取り組みの改良されたモデリング」、ICMC、1996年)を参照されたい)。
他の方法は、測定された位相と予測された位相の偏差(例えば、C.ダックスベリー、M.デイヴィス、M.サンドラー著の「マルチ分解能分析技術を使用した音楽オーディオの過渡的事象情報の分離」(DAFX、2001年)を参照)、サブバンド信号の位相及び強度の両方の併用試験(例えば、C.ダックスベリー、M.サンドラー、M.デイヴィス著の「音符開始検知へのハイブリッドアプローチ」(DAFX、2002年)を参照)、または、適応線形予測器によりなされたエラー(例えば、W−C.リー、C−C.J.クオ著の「適応線形予測に基づいた音開始の検知」(ICME、2006年)を参照)を算出する。ピークピッキングによって、過渡現象の存在及び時間におけるその定位は、バイナリ決定としても導き出される、または、連続的な検知関数は、変更装置の挙動を制御するように適用される(例えば、M.M.グッドウィン、C.アヴェンダノ、「過渡現象変更に基づいたオーディオ信号拡張のための周波数領域アルゴリズム」、オーディオエンジニアリング協会のジャーナル、54巻、pp.827〜840、2006年を参照)。
バイナリ決定については、検知段階での誤分類による間違った割当ては、使用目的によっては高度の障害を引き起こしうる。現在のアルゴリズムのために、フォルス・ネガティブ(false negative)(すなわち、過渡現象の見逃し)は、フォルス・ポジティブ(false positive)(すなわち、存在しない過渡現象を検知)より悪い。内挿が適切に実施される場合、後者は、余分な内挿を生じるだけであるが、前者は、塗りつけられた過渡現象成分につながる。
短時間フーリエ変換ブロックの要約された重みつき絶対値は、過渡現象領域の検知のために使用される。この関数は、立ち上がりの過渡現象の間の著しい上昇を示して、パーカッション信号および関連残響の減衰を示すこともできる。平滑化された検知関数上のピークピッキングは、例えば参照文献(J.P.ベロ、L.ドーデ、S.アブドゥッラー、C.ダックスベリー、M.デイヴィス、M.B.サンドラー著の「音楽信号における開始検知に関するチュートリアル」、音声およびオーディオ処理、IEEE通信、13巻、No.5、pp.1035〜1047、2005年9月)に説明したように、百分率計算に基づいて適合可能な閾値を使用して実現された。
上記を要約すると、過渡現象の検知のための種々の構想が従来技術において周知であり、発明された装置において適用できる。例えば、過渡現象の検知のための上記の構想は、過渡信号置換器130の過渡現象検知器130aにおいて使用できる。
「実施形態2−過渡現象の処理」
以下に、過渡現象の処理は、図13および図14を参照に説明される。図13は、過渡現象除去および内挿のグラフ表示を示す。図14は、時間拡張および過渡現象再挿入のグラフ表示を示す。このように、図13および図14の略図は、提示されたアルゴリズムの処理ステップのシーケンスを示す。
図13の第1行1310は、過渡的事象1312を含んでいる元の信号(すなわちオーディオ信号110)を示す。この過渡現象1312の検知に応答して(または介して)、後にその信号から取り去られる(例えば、過渡現象領域開始位置1314から過渡現象領域終了位置1316まで拡張している)過渡現象領域が(例えば過渡現象検知器130aによって)定められる。換言すれば、第1に、過渡現象は、検知され、ウィンドウ化される。第2に、それが信号から取り去られる。過渡現象が取り去られる信号は、参照[B20]に示される。過渡現象そのものは、後の使用のために保存される。ここで使用されたカットアウトウィンドウが長方形(点太線)であるという事実にもかかわらず、このステップまで、アルゴリズムは、参照[B8]で説明されたものと同一である。過渡現象の記憶装置のために、2、3のミリ秒のガードインターバルが先行され、追加され、そして、ウィンドウが過渡現象自由信号を削除された時間に、保存された過渡現象の滑らかな再挿入のためのクロスフェード領域を定めるために先細りにされる(細い実線)。
その後、本実施形態による本発明のアルゴリズムの最も重要な特徴、ギャップを穴埋めするための内挿が、適用される。換言すれば、最後に、結果として生じるギャップは、内挿で埋められる。内挿の結果は、参照番号1330の図13の底の行に見ることができる。信号が内挿の後、一般的に、準定常であるので、それは現在、迷惑なアーチファクトを取り入れることなく、拡張できる。この拡張の結果は、参照番号1410の図14の第一行に示される。転置された位置の過渡現象領域は、確認されて、以前保存されたウィンドウ化された過渡現象の再挿入の準備がされる。従って、(過渡現象の抽出および/または保存のために適用された、そして、参照番号1310にグラフ表示に細い実線で示された)先細りのウィンドウは、過渡現象が再追加されるのを可能にするために、反転され、信号に適用される。この処理の結果は、参照番号1420に示される。最後に、参照番号1430のグラフ表示で分かるように、保存された過渡現象は、拡張された信号に付加される。
上記をまとめると、過渡現象の除去およびその過渡現象の除去によって生じるギャップの内挿は、図13に示される。第1に、過渡現象は、検知され、ウィンドウ化される。第2に、それは、信号から取り去られる。最後に、結果として生じるギャップは、内挿で埋められる。図14は、過渡現象除去および内挿に続く、時間―拡張および過渡現象の再挿入を示す。第1に、例えば、本願明細書において説明されたボコーダを使用して、準定常信号は拡張される。その後、時間拡張された信号における過渡現象のための位置は、図14の過渡現象を保存するために使用されたそれの反転されたウィンドウを用いた掛け算によって準備される。最後に、過渡現象は、信号に再追加される。換言すれば、最後に、保存された過渡現象は、拡張された信号に付加される。
「実施形態2−過渡現象処理結果」
以下に、本発明の過渡現象処理のいくつかの結果は、図15を参照に述べられる。図15は、位相ボコーダを有する時間―拡張アプリケーションにおける本発明の過渡現象処理のステップのグラフ表示を示す。第1行は拡張されていない信号を含み、そして、第2行は拡張されたポートを含む。第1行のグラフ表示において、および、第2行において使用された異なる時間幅には留意すべきである。
図15は、調子笛とミックスされたカスタネットに基づいて、異なるアルゴリズムのステップの結果を示す。
検知された過渡現象領域のしるしを有する元の入力信号の波形プロットは、図15aにおいて表される。図15bは、その過渡現象に図15cにおいて示された自由な定常信号を生じるように(その後のステップにおいて)内挿されるカットアウト過渡現象領域を示す。図15eが、過渡現象を削除した時間位置で逆クロスフェード・ウィンドウによって減衰される内挿された(および一般的に時間拡張された)信号を示す一方で、図15dは、クロスフェード・ガードインターバルを含んでいる過渡現象領域を含む。仕上げに、図15fは、時間―拡張アルゴリズムの最終出力を示す。
このように、図15aは、オーディオ信号110を示す。図15eは、過渡現象を低減したオーディオ信号132を示す。図15dは、過渡信号152を示す。図15fは、処理されたオーディオ信号120を示す。
「実施形態2−過渡現象処理の改良」
カットアウト過渡現象領域の内挿に関する種々の構想が場合によっては重要でありうることが分かっている。例えば、過渡現象の前の信号が、過渡現象の後の信号とかなり異なる場合、過渡現象領域上への内挿は困難でありえる。その場合、過渡的事象の間の信号の関係は、場合によってはほとんど予測できない。図16は、例証として2つの部分にそれぞれ1つのみのありうる評価を用いることにより単純化された、この種の状況を示す。アルゴリズム(例えばギャップを穴埋めするための内挿を実行するためのアルゴリズム)は、(ギャップを埋めるために内挿された信号の)ピッチの1つの関係に有利な決定を下さなければならない。同じことが、より複雑な広帯域の信号にあてはまる。問題を解決する考えられる解決法が、各々の間にクロスフェードを有する前方および後方予測(forward and backward prediction)にある。このように、ギャップを埋めるために内挿された信号を計算するときに、互い間でクロスフェードを有するこの種の前方および後方予測は適用できる。
この問題は、図16に示され、本発明の一態様による解決策が提案れる。図16は、過渡現象の間に著しく信号が変化する場合、過渡現象の内挿(すなわち過渡現象の除去により生じるギャップの内挿)が困難であることを示す。ピッチ輪郭の無限の方法が、内挿範囲(すなわち過渡現象の除去により生じるギャップ)の間に存在する。図16aは、時間―周波数表現の形で、過渡的事象を含んでいる信号のグラフ表示を示す。過渡現象範囲、すなわち過渡現象の時間間隔とみなされた時間間隔)は、1610で表される。図16bは、過渡現象が検出され、除去される間の入力オーディオ信号の時間的部分を得るための種々の可能性のグラフ表示を示す。図に示すように、過渡現象が入力オーディオ信号から除去される時間間隔1620の時間的に前の第1のピッチおよび時間間隔1620の時間的に後の第2のピッチがある場合、過渡現象の時間間隔1620を取り除くことによって残されるギャップを埋めるためのピッチ推移を決定することが必要である。図に示すように、例えば、時間間隔1620間のピッチを得るために、時間間隔1620の前のピッチを(時間方向において)前方に外挿することは可能である(破線1630を参照)。あるいは、時間間隔1620への、時間間隔1620の後にあるピッチを(時間的方向において)後方に外挿することは可能である(破線1632を参照)。あるいは、時間間隔1620の前にあるピッチおよび時間間隔1620の後にあるピッチとの間の時間間隔1620間を内挿することは可能である(破線1634を参照)。当然、時間間隔1620(過渡現象除去によって生じるギャップ)の間のピッチ推移を得る異なるスキームは可能である。
過渡信号再挿入の後、最後に得られた処理されたオーディオ信号の影響は、図16cに示される。図に示すように、(過渡信号部分の元の又は処理された過渡現象内容を反映する)再挿入された過渡信号部分は、過渡現象内容なしで処理された、処理された(例えば時間拡張された)オーディオ信号142より時間的に短くありうる。このように、例えば、(過渡信号152で表された)再挿入された過渡現象部分が、処理されたオーディオ信号142においてギャップ埋めの処理された結果より短い場合、オーディオ信号132における過渡現象の除去により生じるギャップを埋めるための構想の選択は、過渡現象再挿入の後でさえ、処理されたオーディオ信号120に聞き取れる影響を実際に及ぼしうる。再挿入された過渡現象前の時間間隔140および再挿入された過渡現象後の時間間隔142を参照できる。
上記を要約すると、過渡現象間で著しく信号が変化する場合、過渡現象領域の内挿がいくつかの考慮を必要とすることが図16を参照に示された。ピッチ輪郭の無限の方法が、内挿範囲の間に存在する。図16aは、過渡的事象を含んでいる信号を示す。図16bは、過渡現象範囲の内挿のための種々の可能性を示し、それは点線によって示される。図16cは、拡張された信号を示す。拡張された内挿された領域が、過渡現象部分を越える際、内挿された信号は聞き取れて、知覚的なアーチファクトにつながりうる。
「実施形態2−性能評価」
提案された方法の知覚的な性能にいくらかの洞察を得るために、非公式のリスニングが行われた。選択された信号は、過渡信号のための新規なスキームの利益を評価し、同時に、定常信号が劣化させられないことを確実にするために、過渡信号および定常信号の特性の両方を有する項目を含んだ。
この非公式試験により、現状技術ソフトウェア時間―拡張アルゴリズムと比較すると、調子笛およびカスタネットの上述の組み合わせのために重要な利点が明らかとなった。焦点が過渡信号に関して主であるとき、その結果は、WSOLAを通じたPVベースの時間―拡張アルゴリズムへの選好を示した。
新規な方法によって拡張された現実の信号によっては、他の方法を好む場合もあった。
「結論」
上記を要約すると、時間―拡張アルゴリズムのために有益に使用できる、新規な過渡現象処理スキームが説明された。それぞれの残りに影響を及ぼさずにオーディオ信号の速度かピッチを変えることは、音楽制作および創造的な再生(例えばリミックス)のためにしばしば使用される。それは、例えば帯域幅拡張および速度増加などの他の目的のためにも利用される。定常信号が品質を害せずに拡張できる一方で、過渡現象は、従来のアルゴリズムを使用するとき、拡張後にしばしばうまく維持されない。本発明は、時間―拡張アルゴリズムの過渡現象処理のためのアプローチを示す。過渡現象領域は、定常信号と置換される。このことにより除去された過渡現象は、保存され、時間―拡張の後に時間拡張した定常のオーディオ信号に再挿入される。
調子笛などのまさに音の信号及びカスタネットなどのパーカッション信号の組み合わせを拡張するタスクにより挑戦がされる。
いくつかの従来の方法が、そのスペクトル特性だけでなく時間拡張されたバージョンの信号の包絡線をおおよそ保存して、時間拡張したパーカッションの事象が元の信号よりもゆっくり減衰することを予測する一方で、本発明は、音楽的な信号の時間スケーリングのために、目的が過渡的事象の包絡線を保存することであるという逆の前提に従う。従って、本発明によるいくつかの実施形態は、異なる性質で演奏された同じ楽器のような音の効果を得るために、維持された成分を拡張するのみである(例えば参照[B3]を参照)。これを達成するために、過渡信号および定常信号成分は、本発明によって別々に処理される。
本発明による実施形態は、過渡現象がどのように位相ボコーダで時間および周波数拡張において保持できるかが述べられた、刊行物[B8]において説明された構想に基づく。そのアプローチにおいて、過渡現象は、その信号から、それが拡張される前に取り除かれる。過渡現象部分の除去は、位相ボコーダ処理によって拡張される信号の範囲内で、結果としてギャップをもたらす。拡張後、過渡現象は、拡張されたギャップに合う周囲を有する信号に再追加される。しかし、解決策は多くの信号のためのいくつかの利点を含むことが分かっている。しかし、ギャップが新規な非定常部分を信号にもたらすので、過渡現象を取り除くことによって、新規なアーチファクトが特に生ぜしめられたギャップの境界に現れることをも分かった。この種の非定常性は、例えば、図15bに見ることができる。
本願明細書において説明された本発明の方法の実施形態は、例えば、過渡現象の周囲において拡張係数を変更する必要なしで時間拡張することを可能にする、刊行物[B3]、[B6]、[B7]において説明される技術に利点を有する。本発明の方法は、例えば、参照[B8]および[B5]において説明された方法に関して共通性を有する。本発明のスキームは、その信号を過渡現象部分と過渡現象のない準定常的な信号に分ける。[B8]で説明された方法とは対照的に、過渡現象を取り除くことから生じるギャップは、定常信号と置換される。内挿方法は、ギャップの全体にわたって、ギャップ時間を包囲している信号の継続を推定するために利用される。結果として生じている準定常部分は、それから時間―拡張アルゴリズムにうまく適している。この信号が現在(すなわち内挿又は外挿の後)過渡現象もギャップも含まないという事実のため、拡張された過渡現象および拡張されたギャップの両方のアーチファクトは、防止できる。拡張の実行の後、過渡現象は、挿入された信号の部分を置換する。その技術は、過渡現象の正しい検知および定常部分の知覚的に正しい内挿の両方に依存する。しかしながら、内挿とは別に、他の埋め合わせ技術は、上記の通りに使用できる。
上記をより良く要約すると、上で説明されたいくつかの実施形態において、その目的は、いかなる知覚的なアーチファクトなしで、厳密に音の信号および過渡信号の組み合わせ(例えば調子笛にカスタネットを加えるなど)を拡張することであった。本発明がこの目的への方法に飛躍的進歩を提供することが示された。本発明の重要な態様の1つが、過渡的事象、特にその正確な開始と、より困難であるその消失およびその関連残響の正しい認識にある。過渡的事象の消失及び残響が、信号の定常部分でオーバーレイされるので、これらの部分は、信号の拡張された部分に再追加した後に知覚的な変動を回避するために、非常に注意深い処理を必要とする。
いくつかの聴取者は、残響が、維持された信号部分と共に拡張されるバージョンを好む傾向がある。この好みは、過渡現象および関連の音響を実体とみなすために、実際の目的と矛盾する。従って、場合によっては、聴取者の好みに対するより多くの洞察が必要である。
しかしながら、本発明による、アイデアおよび原理のアプローチは、特別な場合のためのそれらの価値およびアプリケーションを証明した。にもかかわらず、本発明のアプリケーションの範囲を拡張さえできることは期待される。その構造のため、本発明のアルゴリズムは、過渡現象部分の操作、例えば定常信号部分と比較してそれらのレベルを変えることのために使用されることに容易に適用できる。
本発明の方法の更に考えられるアプリケーションは、任意で再生のための過渡現象を減らす又は増やすことであるだろう。これは、過渡現象および定常部分への信号の分離がアルゴリズムに本来備わっているので、ドラムなどの過渡的事象のラウドネスを変えるために、または、それらを完全に取り出すためにさえ活用できるだろう。
上記の実施形態は、本発明の原理のために単に示しているだけである。本装置および本願明細書において説明された詳細の修正変更が、他の当業者にとって明らかであるものと理解される。従って、独立した特許請求の範囲のみによって限定され、本願明細書において実施形態の記載および説明として示された具体的な詳細によって限定されないという意図である。
「参照」
[A1]J.L.フラナガンおよびR.M.ゴールデン、「ベルシステム技術ジャーナル」、1966年11月、ページ1394〜1509
[A2]米国特許出願番号6,549,884、ラロッシュ J.、ドルセン M.:「位相ボコーダのピッチシフト」
[A3]ジーン・ラロッシュおよびマーク・ドルセン、会報「ピッチシフト、調和、および他のエキゾチックな効果のための新しい位相ボコーダ技術」
[A4]ゼルザー.U著:「DAFX:デジタル音声効果」、ワイリーアンドサンズ、第1版、2002年2月26日、ページ201〜298
[A5]ラロッシュ.Lおよびドルセン.M、「オーディオの改良された位相ボコーダ時間スケール変更」、IEEE通信、音声およびオーディオ処理、7巻、No.3、ページ323〜332
[A6]エマニュエル・ラベリ、マーク・サンドラーおよびホアン・P.ベロ、「ステレオオーディオの非線形時間スケールの高速実行」、デジタル音声効果の第8回国際会議(DAFx´05)の議事録、マドリード、スペイン、2005年9月20日〜22日[A7]ダックスベリー、C.M.デイヴィスおよびM.サンドラー(2001年、12月)、「マルチ分解能分析技術を使用した音楽オーディオの過渡的事象情報の分離」、デジタル音声効果のCOST G−6会議(DAFX−01)の議事録、リムリック、アイルランド
[A8]ローベル、A.:「位相ボコーダでの過渡的事象の処理に対する新しいアプローチ」、デジタル音声効果の第6回国際会議(DAFx−03)の議事録、ロンドン、イギリス、2003年9月8日〜11日
[B1]T.カラー、E.リー、J.ボーチャーズ、「Phavorit:リアルタイム相互時間拡張のための位相ボコーダ」、ICMC2006 コンピュータ音楽国際会議の会報、ニューオーリンズ、USA、2006年11月、pp.708〜715
[B2]T.F.クアティエリ、R.B.ダン、R.J.マコーレー、T.E.ハンナ、「雑音における複雑な音響信号の時間スケール変更」、技術報告書、マサチューセッツ工科大学、1994年2月
[B3]C.ダックスベリー、M.デイヴィス、M.B.サンドラー、「過渡現象の位相ロックを使用した音楽オーディオの改良された時間スケーリング」、第112回AESコンベンション、ミュンヘン、2002年、オーディオエンジニアリング協会
[B4]S.レヴィン、ジュリアス O.スミスIII、「データ圧縮及び時間/ピッチスケール変更のための正弦波+過渡現象+雑音オーディオ表現」、1998
[B5]T.S.ヴァルマー、T.H.Y.ムオン、「正弦波+過渡現象+雑音信号モデルを用いた時間スケール変更」、DAFX98、バルセロナ、スペイン、1998
[B6]A.ローベル、「位相ボコーダにおける過渡現象処理への新しいアプローチ」、デジタルオーディオエフェクトに関する第6回会議(DAFx−03)、ロンドン、2003年、pp.344〜349
[B7]A.ローベル、「位相ボコーダにおける過渡現象検知及び保存」、コンピュータ音楽国際会議(ICMC 03)、シンガポール、2003、pp.247〜250
[B8]F.ナゲル、S.ディッシュ、N.レッテルバッハ、「オーディオ符号化のための新しい過渡現象操作を用いた位相ボコーダ駆動の帯域幅拡張方法」、第126回AESコンベンション、ミュンヘン、2009年
[B9]M.ドルセン、「位相ボコーダ:チュートリアル」、コンピュータ音楽ジャーナル、10巻、No.4、pp.14〜27、1986年
[B10]B.エドラー、「オーバーラッピングブロック変換及び適応型窓関数を用いたオーディオ信号の符号化(ドイツ語)」、Frequenz、43巻、No.9、pp.252〜256、1989年9月
[B11]オリバー・ニーマイヤー、ベルント・エドラー、「オーディオ符号化のための過渡現象の検知及び抽出」、第120回AESコンベンション、パリ、フランス、2006年
[B12]M.M.グッドウィン、C.アヴェンダノ、「過渡現象変更に基づいたオーディオ信号拡張のための周波数領域アルゴリズム」、オーディオエンジニアリング協会のジャーナル、54巻、pp.827〜840、2006年
[B13]P.ブロッシヤー、J.P.ベロ、M.D.プラムブライ、「音楽信号における音符オブジェクトのリアルタイム時間的分割」、ICMC、マイアミ、USA、2004年
[B14]J.P.ベロ、L.ドーデ、S.アブドゥッラー、C.ダックスベリー、M.デイヴィス、M.B.サンドラー、「音楽信号における開始検知に関するチュートリアル」、音声およびオーディオ処理、IEEE通信、13巻、No.5、pp.1035〜1047、2005年9月
[B15]A.クラプリ、「心理音響学情報の適用による音響開始検知」、ICASSP、1999年
[B16]P.マスリ、A.ベイトマン、「音楽分析再合成における過渡現象への取り組みの改良されたモデリング」、ICMC、1996年
[B17]C.ダックスベリー、M.デイヴィス、M.サンドラー、「マルチ分解能分析技術を使用した音楽オーディオの過渡的事象情報の分離」、DAFX、2001年
[B18]C.ダックスベリー、M.サンドラー、M.デイヴィス、「音符開始検知へのハイブリッドアプローチ」、DAFX、2002年
[B19]W−C.リー、C−C.J.クオ、「適応線形予測に基づいた音開始の検知」、ICME、2006年
[エドラー]O.ニーマイヤー、B.エドラー、「オーディオ符号化のための過渡現象の検知及び抽出」、第120回AESコンベンションにて発表、パリ、フランス、2006年
[ベロ]J.P.ベロら、「音楽信号における開始検知に関するチュートリアル」、音声およびオーディオ処理、IEEE通信、13巻、No.5、2005年9月
[グッドウィン]M.グッドウィン、C.アヴェンダノ、「過渡現象検知及び変更を用いたオーディオ信号の拡張」、第117回AESコンベンションにて発表、USA、2004年10月
[ワルサー]ワルサーら、「ブラインド・マルチチャンネルアップミックスアルゴリズムにおける過渡現象抑制の使用」、第122回AESコンベンションにて発表、オーストリア、2007年5月
[マヘル]R.C.マヘル、「デジタルオーディオデータ欠落の外挿のための方法」、JAES、42巻、No.5、1994年5月
[ドーデ]L.ドーデ、「音楽信号における過渡現象の抽出のための技術に関する考察」、本シリーズ:コンピュータサイエンスの講義ノート、シュプリンガー・ベルリン/ハイデルベルク、Vol.3902/2006、本:コンピュータ音楽モデリング及び検索

Claims (15)

  1. 過渡的事象を含んでいるオーディオ信号(110)を操作するための装置(100)であって、前記装置(100)は、
    過渡現象を低減したオーディオ信号(132)を得るために、前記オーディオ信号の、前記過渡的事象を含んでいる過渡信号部分を、前記オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、前記過渡信号部分の信号エネルギー特性に適合された置換信号部分と置換するように構成された過渡信号置換器(130)と、
    前記過渡現象を低減したオーディオ信号の処理されたバージョン(142)を得るために、前記過渡現象を低減したオーディオ信号(132)を処理するように構成された信号処理器(140)と、
    前記過渡現象を低減したオーディオ信号(132)の前記処理されたバージョン(142)を、元の又は処理された形で、前記過渡信号部分の過渡現象内容を示している過渡信号(152)と結合するように構成された、過渡信号再挿入器(150)と、を含み、
    前記過渡信号置換器(130)は、前記置換信号部分の振幅値を得るために、前記過渡信号部分の前の一つ以上の信号部分の振幅値を外挿するように構成されること、および、
    前記過渡信号置換器(130)は、前記置換信号部分の位相値を得るために、前記過渡信号部分の前の一つ以上の信号部分の位相値を外挿するように構成されること、を特徴とする、装置。
  2. 過渡的事象を含んでいるオーディオ信号(110)を操作するための装置(100)であって、前記装置(100)は、
    過渡現象を低減したオーディオ信号(132)を得るために、前記オーディオ信号の、前記過渡的事象を含んでいる過渡信号部分を、前記オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、前記過渡信号部分の信号エネルギー特性に適合された置換信号部分と置換するように構成された過渡信号置換器(130)と、
    前記過渡現象を低減したオーディオ信号の処理されたバージョン(142)を得るために、前記過渡現象を低減したオーディオ信号(132)を処理するように構成された信号処理器(140)と、
    前記過渡現象を低減したオーディオ信号(132)の前記処理されたバージョン(142)を、元の又は処理された形で、前記過渡信号部分の過渡現象内容を示している過渡信号(152)と結合するように構成された、過渡信号再挿入器(150)と、を含み、
    前記過渡信号置換器(130)は、前記置換信号部分の一つ以上の振幅値を得るために、前記過渡信号部分の前の信号部分の振幅値と前記過渡信号部分の後の信号部分の振幅値との間を内挿するように構成されること、および、
    前記過渡信号置換器(130)は、前記置換信号部分の一つ以上の位相値を得るために、前記過渡信号部分の前の信号部分の位相値と前記過渡信号部分の後の信号部分の位相値との間を内挿するように構成されること、を特徴とする、装置。
  3. 過渡的事象を含んでいるオーディオ信号(110)を操作するための装置(100)であって、前記装置(100)は、
    過渡現象を低減したオーディオ信号(132)を得るために、前記オーディオ信号の、前記過渡的事象を含んでいる過渡信号部分を、前記オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、前記過渡信号部分の信号エネルギー特性に適合された置換信号部分と置換するように構成された過渡信号置換器(130)と、
    前記過渡現象を低減したオーディオ信号の処理されたバージョン(142)を得るために、前記過渡現象を低減したオーディオ信号(132)を処理するように構成された信号処理器(140)と、
    前記過渡現象を低減したオーディオ信号(132)の前記処理されたバージョン(142)を、元の又は処理された形で、前記過渡信号部分の過渡現象内容を示している過渡信号(152)と結合するように構成された、過渡信号再挿入器(150)と、を含み、
    前記過渡信号置換器(130)は、前記置換信号部分の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号(110)の非過渡信号部分と関連した複素数値の時間周波数領域係数を外挿するように構成されること、または、
    前記過渡信号置換器(130)は、前記置換信号部分の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号(110)の非過渡信号部分と関連した複素数値の時間周波数領域係数と前記過渡信号部分の後の前記オーディオ信号の非過渡信号部分と関連した複素数値の時間周波数領域係数との間を内挿するように構成されること、
    前記置換信号部分の前記時間周波数領域係数が複素数値であること
    を特徴とする、装置。
  4. 前記置換信号部分のエネルギーと前記過渡信号部分の前の又は前記過渡信号部分の後の前記オーディオ信号(110)の非過渡信号部分のエネルギーとの間の偏差が所定の閾値より小さくなるように、前記過渡信号部分と比較して、前記置換信号部分が平滑化された時間的推移を有する時間信号を示すように、前記過渡信号置換器(130)は、前記置換信号部分を供給するように構成されること、を特徴とする、請求項1〜請求項3のうちの1つに記載の装置(100)。
  5. 前記過渡信号置換器(130)は、前記置換信号部分を得るために、前記過渡信号部分の非過渡信号成分を、前記外挿又は内挿された値と結合するように構成されること、を特徴とする、請求項1〜請求項4のうちの1つに記載の装置(100)。
  6. 前記過渡信号置換器(130)は、前記現在の過渡信号部分の長さに依存して、可変の長さの置換信号部分を得るように構成されること、を特徴とする、請求項1〜請求項5のうちの1つに記載の装置(100)。
  7. 前記信号処理器(140)は、前記過渡現象を低減したオーディオ信号の前記処理されたバージョン(142)の所定の時間的信号部分が、前記過渡現象を低減したオーディオ信号(132)の複数の時間的にシフトされた時間的信号部分に依存するように、前記過渡現象を低減したオーディオ信号(132)を処理するように構成されること、を特徴とする、請求項1〜請求項6のうちの1つに記載の装置(100)。
  8. 前記信号処理器(140)は、前記過渡現象を低減したオーディオ信号の前記処理されたバージョン(142)を得るために、前記過渡現象を低減したオーディオ信号132の時間ブロックベースの処理を実行するように構成されること、および、
    前記過渡信号置換器130は、時間ブロックの継続時間より微細である時間分解能を有する前記置換信号部分と置換される前記過渡信号部分の継続時間を調整するように、又は、前記時間ブロックの前記継続時間より小さい継続時間を有する過渡信号部分を、前記時間ブロックの前記継続時間より小さい継続時間を有する置換信号部分と置換するように、構成されること、を特徴とする、請求項1〜請求項7のうちの1つに記載の装置(100)。
  9. 前記信号処理器(140)は、周波数依存の方法で前記過渡現象を低減したオーディオ信号(132)を処理するように構成され、その結果、前記処理が過渡現象を弱める周波数依存の位相シフトを、前記過渡現象を低減したオーディオ信号(132)に生ぜしめること、を特徴とする、請求項1〜請求項8のうちの1つに記載の装置(100)。
  10. 前記過渡信号置換器(130)は、過渡現象検知器(130a)を含むこと、前記過渡現象検知器(130a)は、検知閾値が調節可能なスムージング時定数に関する前記オーディオ信号の包絡線をたどるように、前記オーディオ信号(110)の前記過渡現象の前記検知のための前記時変の検知閾値を供給するように構成されること、および、
    前記過渡現象検知器は、過渡現象の前記検知に応答して、および/または、前記オーディオ信号の時間的推移に依存して、前記スムージング時定数を変えるように構成されること、を特徴とする、請求項1〜請求項9のうちの1つに記載の装置(100)。
  11. 前記装置(100)は、過渡現象情報(134)を受けて、前記過渡現象情報(134)に基づいて、音の成分を低減された処理された過渡信号(152)を得るように構成された過渡現象処理器(160)を含むこと、および、
    前記過渡信号再挿入器(150)は、前記過渡現象を低減したオーディオ信号(132)の前記処理されたバージョン(142)を、前記過渡現象処理器(160)により供給された前記処理された過渡信号(152)と結合するように構成されること、を特徴とする、請求項1〜請求項10の1つに記載の装置(100)。
  12. 前記過渡信号置換器(130)は、前記オーディオ信号(110)をモニターすることに基づいて、又は、前記オーディオ信号に付随している補助情報に基づいて、前記オーディオ信号(110)の過渡信号部分を検知するように、そして、前記過渡信号部分の長さを決定するように構成された過渡現象検知器(130a、130c)を含むことと、
    前記過渡信号置換器(130)は、前記過渡現象検知器(130a、130c)により決定された前記過渡信号部分の前記長さを考慮するように構成されることと、
    前記過渡信号置換器(130)は、前記置換信号部分の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号(110)の非過渡信号部分と関連した複素数値の時間周波数領域係数を外挿するように構成されること、または、
    前記過渡信号置換器(130)は、前記置換信号部分の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号(110)の非過渡信号部分と関連した複素数値の時間周波数領域係数と前記過渡信号部分の後の前記オーディオ信号の非過渡信号部分と関連した複素数値の時間周波数領域係数との間を内挿するように構成されることと、
    前記信号処理器(140)は、前記信号処理器(140)により供給された前記処理された信号(142)が前記オーディオ信号処理器により受けた前記処理されていない信号(132)の継続時間より大きい又は小さい継続時間を含むように、時間拡張又は時間圧縮により過渡現象を弱めるオーディオ信号処理を実行するように構成されることと、
    前記装置(100)は、前記過渡信号置換器(130)に入力された前記オーディオ信号(110)と比較して、前記過渡信号再挿入器(150)により得られた前記信号の少なくとも非過渡現象成分が周波数転置されるように、前記過渡信号再挿入器(150)により得られた前記信号の時間スケーリング又はサンプルレートを適合するように構成されることと、
    を特徴とした、請求項1〜請求項11のうちの1つに記載の装置(100)。
  13. 前記過渡信号再挿入器(150)は、元の又は処理された形で、前記過渡信号部分の過渡現象内容を示している過渡信号(152)と、前記過渡現象を低減したオーディオ信号(132)の前記処理されたバージョン(142)をクロスフェードするように構成されること、を特徴とする、請求項1〜請求項12のうちの1つに記載の装置(100)。
  14. 過渡的事象を含んでいるオーディオ信号を操作するための方法(1200)であって、前記方法は、
    過渡現象を低減したオーディオ信号を得るために、前記オーディオ信号の、前記過渡的事象を含んでいる過渡信号部分を、前記オーディオ信号の一つ以上の非過渡信号部分の信号エネルギー特性に、又は、前記過渡信号部分の信号エネルギー特性に適合された置換信号部分と置換するステップ(1210)、
    前記過渡現象を低減したオーディオ信号の処理されたバージョンを得るために、前記過渡現象を低減したオーディオ信号を処理するステップ(1220)、および、
    前記過渡現象を低減したオーディオ信号の前記処理されたバージョンを、元の又は処理された形で、前記過渡信号部分の過渡現象内容を示している過渡信号と結合するステップ(1230)、を含み、
    前記過渡信号部分の前の一つ以上の信号部分の振幅値は、前記置換信号部分の振幅値を得るために、外挿されることと、
    前記過渡信号部分の前の一つ以上の信号部分の位相値は、前記置換信号部分の位相値を得るために、外挿されること、または、
    前記置換信号部分の一つ以上の振幅値を得るために、前記過渡信号部分の前の信号部分の振幅値と前記過渡信号部分の後の信号部分の振幅値との間で、内挿が実行されることと、
    前記置換信号部分の一つ以上の位相値を得るために、前記過渡信号部分の前の信号部分の位相値と前記過渡信号部分の後の信号部分の位相値との間で、内挿が実行されることと、または、
    前記置換信号部分の複素数値の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号の非過渡信号部分と関連した複素数値の時間周波数領域係数は、外挿されること、または、
    前記置換信号部分の複素数値の時間周波数領域係数を得るために、時間周波数領域において、前記過渡信号部分の前の前記オーディオ信号の非過渡信号部分と関連した複素数値の時間周波数領域係数と前記過渡信号部分の後の前記オーディオ信号の非過渡信号部分と関連した複素数値の時間周波数領域係数との間で、内挿が実行されること、を特徴とする、方法。
  15. コンピュータに、請求項14に記載の方法を実行させるためのコンピュータ・プログラム。
JP2011546728A 2009-01-30 2010-01-05 過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラム Active JP5325307B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US14875909P 2009-01-30 2009-01-30
US61/148,759 2009-01-30
US23156309P 2009-08-05 2009-08-05
US61/231,563 2009-08-05
EP09012410A EP2214165A3 (en) 2009-01-30 2009-09-30 Apparatus, method and computer program for manipulating an audio signal comprising a transient event
EP09012410.8 2009-09-30
PCT/EP2010/050042 WO2010086194A2 (en) 2009-01-30 2010-01-05 Apparatus, method and computer program for manipulating an audio signal comprising a transient event

Publications (2)

Publication Number Publication Date
JP2012516460A JP2012516460A (ja) 2012-07-19
JP5325307B2 true JP5325307B2 (ja) 2013-10-23

Family

ID=42040618

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011546728A Active JP5325307B2 (ja) 2009-01-30 2010-01-05 過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラム

Country Status (15)

Country Link
US (1) US9230557B2 (ja)
EP (2) EP2214165A3 (ja)
JP (1) JP5325307B2 (ja)
KR (1) KR101317479B1 (ja)
CN (1) CN102341847B (ja)
AR (1) AR075164A1 (ja)
AU (1) AU2010209943B2 (ja)
BR (1) BRPI1005311B1 (ja)
CA (1) CA2751205C (ja)
ES (1) ES2566927T3 (ja)
HK (1) HK1162080A1 (ja)
MX (1) MX2011008004A (ja)
RU (1) RU2543309C2 (ja)
TW (1) TWI493541B (ja)
WO (1) WO2010086194A2 (ja)

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
PL3246919T3 (pl) 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
CN103559891B (zh) 2009-09-18 2016-05-11 杜比国际公司 改进的谐波转置
JP5588025B2 (ja) 2010-03-09 2014-09-10 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. パッチ境界整合を用いてオーディオ信号を処理するための装置および方法
JP5854520B2 (ja) 2010-03-09 2016-02-09 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. オーディオ信号用の位相ボコーダに基づく帯域幅拡張方法における改善された振幅応答及び時間的整列のための装置及び方法
JP5649084B2 (ja) * 2010-03-09 2015-01-07 フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 再生速度またはピッチを変更する際にオーディオ信号における過渡音声事象を処理するための装置および方法
DK2617035T3 (da) 2010-09-16 2019-01-02 Dolby Int Ab Krydsprodukt-forstærket underbåndsblokbaseret harmonisk transponering
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
TWI484479B (zh) 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
CN105304090B (zh) 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
SG192718A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Audio codec using noise synthesis during inactive phases
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
BR112013020588B1 (pt) 2011-02-14 2021-07-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para codificação de uma parte de um sinal de áudio utilizando uma detecção transiente e um resultado de qualidade
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
MX2012013025A (es) 2011-02-14 2013-01-22 Fraunhofer Ges Forschung Representacion de señal de informacion utilizando transformada superpuesta.
JP5633431B2 (ja) * 2011-03-02 2014-12-03 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
JP6009547B2 (ja) 2011-05-26 2016-10-19 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・システム及びオーディオ・システムのための方法
JP6118522B2 (ja) * 2012-08-22 2017-04-19 Pioneer DJ株式会社 タイムスケーリング方法、ピッチシフト方法、オーディオデータ処理装置およびプログラム
US9830917B2 (en) * 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
JP6305694B2 (ja) * 2013-05-31 2018-04-04 クラリオン株式会社 信号処理装置及び信号処理方法
CN105408955B (zh) 2013-07-29 2019-11-05 杜比实验室特许公司 用于降低去相关器电路中瞬态信号的时间伪差的系统和方法
CN103440871B (zh) * 2013-08-21 2016-04-13 大连理工大学 一种语音中瞬态噪声抑制的方法
CN103456310B (zh) * 2013-08-28 2017-02-22 大连理工大学 一种基于谱估计的瞬态噪声抑制方法
EP3071997B1 (en) * 2013-11-18 2018-01-10 Baker Hughes, a GE company, LLC Methods of transient em data compression
CN104681034A (zh) * 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
PL3509063T3 (pl) * 2014-05-01 2020-08-24 Nippon Telegraph And Telephone Corporation Koder, dekoder, sposób kodowania, sposób dekodowania, program kodujący, program dekodujący i nośnik rejestrujący
EP3164825B1 (en) * 2014-07-03 2019-04-03 Bio-rad Laboratories, Inc. Deconstructing overlapped peaks in experimental pcr data
WO2016012037A1 (en) 2014-07-22 2016-01-28 Huawei Technologies Co., Ltd. An apparatus and a method for manipulating an input audio signal
US9668074B2 (en) 2014-08-01 2017-05-30 Litepoint Corporation Isolation, extraction and evaluation of transient distortions from a composite signal
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
EP3430620B1 (en) 2016-03-18 2020-03-25 Fraunhofer Gesellschaft zur Förderung der Angewand Encoding by reconstructing phase information using a structure tensor on audio spectrograms
EP3246923A1 (en) * 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
EP3516534A1 (en) * 2016-09-23 2019-07-31 Eventide Inc. Tonal/transient structural separation for audio effects
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382703A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
US20190074805A1 (en) * 2017-09-07 2019-03-07 Cirrus Logic International Semiconductor Ltd. Transient Detection for Speaker Distortion Reduction
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
CN110085214B (zh) * 2019-02-28 2021-07-20 北京字节跳动网络技术有限公司 音频起始点检测方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2006E (fr) 1903-03-14 1903-11-24 Societe A. Monborne Aine Et Fils Articulation pour supports de lampes électriques à incandescence et autres applications
EP0796489B1 (en) * 1994-11-25 1999-05-06 Fleming K. Fink Method for transforming a speech signal using a pitch manipulator
AU6785696A (en) * 1995-09-05 1997-03-27 Frank Uldall Leonhard Method and system for processing auditory signals
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
GB9718026D0 (en) * 1997-08-27 1997-10-29 Secr Defence Multi-component signal detection system
US20030156624A1 (en) * 2002-02-08 2003-08-21 Koslar Signal transmission method with frequency and time spreading
US6549884B1 (en) 1999-09-21 2003-04-15 Creative Technology Ltd. Phase-vocoder pitch-shifting
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
DE60033705T2 (de) * 2000-03-23 2007-10-31 Interdigital Technology Corporation, Wilmington Effizienter Spreizer für Spreizspektrumübertragungssysteme
JP2004519738A (ja) * 2001-04-05 2004-07-02 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定された信号型式に固有な技術を適用する信号の時間目盛修正
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002093560A1 (en) * 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
CN1319043C (zh) * 2001-10-26 2007-05-30 皇家飞利浦电子股份有限公司 用于编码和解码音频信号的方法与设备以及包括这样的设备的系统
US6965859B2 (en) * 2003-02-28 2005-11-15 Xvd Corporation Method and apparatus for audio compression
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US7148415B2 (en) * 2004-03-19 2006-12-12 Apple Computer, Inc. Method and apparatus for evaluating and correcting rhythm in audio data
US7876909B2 (en) * 2004-07-13 2011-01-25 Waves Audio Ltd. Efficient filter for artificial ambience
US7565289B2 (en) * 2005-09-30 2009-07-21 Apple Inc. Echo avoidance in audio time stretching
DE102006017280A1 (de) 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
US8103504B2 (en) * 2006-08-28 2012-01-24 Victor Company Of Japan, Limited Electronic appliance and voice signal processing method for use in the same
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
CN101308655B (zh) * 2007-05-16 2011-07-06 展讯通信(上海)有限公司 一种音频编解码方法与装置
US8078456B2 (en) * 2007-06-06 2011-12-13 Broadcom Corporation Audio time scale modification algorithm for dynamic playback speed control
ES2739667T3 (es) * 2008-03-10 2020-02-03 Fraunhofer Ges Forschung Dispositivo y método para manipular una señal de audio que tiene un evento transitorio

Also Published As

Publication number Publication date
CN102341847B (zh) 2014-01-08
CA2751205C (en) 2016-05-17
RU2543309C2 (ru) 2015-02-27
BRPI1005311A2 (pt) 2018-03-27
CN102341847A (zh) 2012-02-01
BRPI1005311B1 (pt) 2020-12-01
JP2012516460A (ja) 2012-07-19
AU2010209943A1 (en) 2011-08-25
EP2214165A3 (en) 2010-09-15
WO2010086194A3 (en) 2011-09-29
EP2392004B1 (en) 2015-12-30
TW201103009A (en) 2011-01-16
EP2392004A2 (en) 2011-12-07
KR101317479B1 (ko) 2013-10-11
TWI493541B (zh) 2015-07-21
RU2011133694A (ru) 2013-03-10
HK1162080A1 (zh) 2012-08-17
US20120051549A1 (en) 2012-03-01
AU2010209943B2 (en) 2014-05-15
CA2751205A1 (en) 2010-08-05
ES2566927T3 (es) 2016-04-18
WO2010086194A2 (en) 2010-08-05
US9230557B2 (en) 2016-01-05
MX2011008004A (es) 2011-08-15
EP2214165A2 (en) 2010-08-04
KR20110119745A (ko) 2011-11-02
AR075164A1 (es) 2011-03-16

Similar Documents

Publication Publication Date Title
JP5325307B2 (ja) 過渡的事象を含んでいるオーディオ信号を操作するための装置、方法およびコンピュータ・プログラム
TWI505264B (zh) 操縱具有瞬變事件的音頻信號的設備和方法以及具有執行該方法之程式碼的電腦程式
US8265940B2 (en) Method and device for the artificial extension of the bandwidth of speech signals
JP5898534B2 (ja) 音響信号処理装置および音響信号処理方法
KR102563915B1 (ko) 오디오 신호의 인위적 대역폭 제한 처리와 관련된 미리 결정된 특성을 결정하기 위한 장치 및 방법
JP2004053940A (ja) オーディオ復号化装置およびオーディオ復号化方法
KR101412117B1 (ko) 재생 속도 또는 피치를 변경할 때 오디오 신호에서 과도 사운드 이벤트를 처리하기 위한 장치 및 방법
WO2020179472A1 (ja) 信号処理装置および方法、並びにプログラム
AU2012216538B2 (en) Device and method for manipulating an audio signal having a transient event

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121211

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130306

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130606

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130719

R150 Certificate of patent or registration of utility model

Ref document number: 5325307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250