JP2008529078A - 音響的特徴の同期化された修正のための方法及び装置 - Google Patents

音響的特徴の同期化された修正のための方法及び装置 Download PDF

Info

Publication number
JP2008529078A
JP2008529078A JP2007552713A JP2007552713A JP2008529078A JP 2008529078 A JP2008529078 A JP 2008529078A JP 2007552713 A JP2007552713 A JP 2007552713A JP 2007552713 A JP2007552713 A JP 2007552713A JP 2008529078 A JP2008529078 A JP 2008529078A
Authority
JP
Japan
Prior art keywords
signal
feature
pitch
time
aligned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007552713A
Other languages
English (en)
Other versions
JP5143569B2 (ja
JP2008529078A5 (ja
Inventor
フィリップ ジェフリー ブルーム
ウィリアム ジョン エルウッド
ジョナサン ニューランド
Original Assignee
シンクロ アーツ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0501744A external-priority patent/GB2422755A/en
Application filed by シンクロ アーツ リミテッド filed Critical シンクロ アーツ リミテッド
Publication of JP2008529078A publication Critical patent/JP2008529078A/ja
Publication of JP2008529078A5 publication Critical patent/JP2008529078A5/ja
Application granted granted Critical
Publication of JP5143569B2 publication Critical patent/JP5143569B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • G10H2210/391Automatic tempo adjustment, correction or control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

アマチュアの歌唱のようなデジタル化された音声信号(310)、及び、デジタル・ガイド音声信号(312)が、ガイド信号に時間整列された、時間整列された新しい信号(330)を生成する時間整列工程(320)に供給される。時間整列された新しい信号(330)に沿った、及び、ガイド信号(312)に沿ったピッチが、測定結果をピッチ調整計算機(370)に供給する工程(340)及び(345)で測定される。このピッチ調整計算機(370)は、これらの測定からピッチ訂正ファクターCs(Fps)、及び、信号の最も近いオクターブ比を計算する。ピッチ変更工程(380)は、時間整列された新しい信号(330)のピッチを変更して、時間整列されピッチ調整された新しい信号(390)を生成する。

Description

本発明は、信号修正に関連する。より詳細には、しかし排他的ではなく、本発明は、第1の及び第2の音声信号の対応する特徴が、それぞれの信号内の時間における同じ相対位置において発生しない場合の、他の要約された音声信号における特徴に基づく、1つの要約された(digested)音声信号の修正において起こる問題に関連する。
新たな演技(performance)が、オリジナルの俳優又は歌手の言葉の、正確に同期された反復であるような場合に、音声又は音声/映像クリップ(clip)と共に話すこと、又は、歌うことが困難であることは良く知られている。従って、新たな演技の記録の開始及び詳細な音響的特徴が、オリジナルの音声トラック(track)の開始及び詳細な音響的特徴と同期することは非常に稀である。同様に、新たな歌手のピッチのような特徴は、オリジナルの歌手の特徴程には、正確又は複雑に変化しないかもしれない。音声記録が、新たに記録された声の発声及び音楽のピッチで為されるような、プロの音声記録業界、及び、コンスーマ・コンピュータ・ベースのゲーム及びアクティビティが、当該音声記録を、オリジナルの声の記録と同期させるための、ピッチ調整(一般的に訂正を意味する)から恩恵を被るような多くの場合が存在する。更に、たとえ、同期していても、通常のアマチュアの歌唱の記録は、プロの歌手の熟練した発声スタイル及びピッチ抑揚(inflection)を持たないことがあり得る。
図4は、プロの歌手のピッチ測定(ガイドピッチ401)、及び、同じ音楽トラックと同じ言葉の、いくつかの、公衆の(public)(新らしいピッチ402)歌唱を示す。発声された信号(非ゼロHzのピッチ値)の対応するセクション(パルス)の開始(onsets)とオフセット(offsets)の間のタイミング、及び、非発声又は沈黙セクション(ゼロHzにおける)の位置、の不一致は、しばしば起こり、大きなものである。同じ相対時間におけるガイド・ピッチ401からのピッチデータを、新しいピッチ402のデータに、直接適用することは、ここに示されるセグメントの実質的な量に対して、明らかに間違っており、不適切である。これが一般的な結果であり、基本的な解決課題を示す。
音楽の音色(note)毎のピッチ調整は、一般的に、入力音(notes)を、受け入れ可能な音ピッチ(note pitches)の指定された固定のグリッドに同期させるような、商業的に入手可能なハードウェア及びソフトウェア装置により、記録された、又は、ライブの歌唱に対して自動的に適用され得る。そのようなシステムにおいては、各出力音は、自動的に訂正され得るが、このアプローチはしばしば、受け入れられない、又は、不愉快な結果をもたらし得る。何故なら、それは、自然の、そして望ましい「人間の」変化(variations)を除去し得るからである。
そのような既知のソフトウェア及びハードウェア装置における、ターゲットのピッチ識別に対する基本的なベースは、基本的に、それらの特定の音の周波数のリスト(これに対して当該装置が、第1に、入力信号を比較すべき)である、音楽の音階(scale)である。殆どの装置は、標準音階に対する、予め設定された音楽の音階を伴っており、例えば、ターゲット・ピッチを変更するために、或いは、一定のピッチ化された音をそのままにするために、それらのカスタマイズを可能とする。
既知のソフトウェア装置は、自動モードに設定可能である。この自動モードは一般的に、如何にして、ハードウェア装置が動作するか(装置が入力ピッチを検知し、ユーザ指定のプリセット音階における最も近い音階(scale note)を識別し、出力ピッチが、指定された音階の音のピッチに一致するように入力信号を変更する)に関する。比率であって、当該比率において出力ピッチが回転され(slewed)ターゲットのピッチに戻される、当該比率(しばしば、「スピード」と呼ばれる)は、自然のピッチ・カウンタ(即ち、時間の関数としてのピッチ)を、より正確に、そしてより自然に維持し、より広い範囲の「スタイル」を可能とすることを助けるように制御される。
しかし、アマチュアの記録された歌唱は、プロの歌手の歌唱(performance)に見出される、複雑で熟練したピッチ変動を実現するためには、そのような既知の自動調整技術によって強調されるべきではない。
ターゲット発声音、又は、他の記憶されたターゲット発声音パラメータ・データのシーケンスを用いて、所望の修正を指定するために、ピッチ訂正、及び/又は、他の発声音修正を実行する、既知の発声音処理方法及びシステムも存在する。これらのこれらの既知の方法は、1つあるいはそれより多い大きな欠点を有する。例えば、
1.ユーザの入力発声音信号に提供されるターゲット・ピッチ(又は他の発声音の特徴)が、厳格に、ユーザがそれに沿って、一般的にリアルタイムで歌う、カラオケ・トラック又は他のそのような伴奏のタイミングに従い、対応する発声音の特徴を整合させる試みが為されない(特許文献1:米国特許第5966867号、特許文献2:日本特許2003044066号)。もしユーザの発声音が、ターゲットの特徴(例えばピッチ)データのタイミングに比して余りにも早く開始するなら、後の言葉又は音節に対して、ターゲットの特徴が誤って適用されることになる。もし、ユーザ声が遅い場合に、類似の問題が発生する。フレーズ(phrases)の間において、音楽トラックとの関係での時間から外れたいずれの言葉又は音節も、その言葉又は音節に対する誤ったピッチ又は他の特徴に割り当てられることになる。同様に、無音声のセグメント(unvoiced segments)が予想されるときに発生する、いずれの発声音化されたセグメント(voiced segments)も、記憶されたターゲットのピッチ又は他のターゲットの特徴情報を全く受信しない。
2.ユーザの入力発声音に適用されるターゲット・ピッチ(又は、他の発声音の特徴(feature))は、予想される、記憶された入力音素(phonemes)のシーケンス、又は、類似の発声された/非発声のパターン、又は、単に、母音の検知に依存し、そして、それに従う(follows)(特許文献3:米国特許第5750912号)。そのような方法は、一般的に、ユーザの訓練、又は、音素データの固定された特性の入力を必要とし、及び/又は、正確な識別が起こるための同じ言葉の十分に近い発音を必要とする。もし、訓練が存在せず、ユーザの音素の組が認識されないほど、記憶された組から十分に異なるならば、システムは、適切に機能しないことになる。もし、ユーザの音素が、十分に長く保持されないならば、又は、余りにも短く保持されるならば、出力音(notes)は、切り捨てられるか、削除され得る。もし、音素が、余りにも早く又は余りにも遅く到達するならば、ピッチ又は特徴は、正しい音素に適用され得るが、音楽の伴奏とはタイミングがずれて(out of time)しまう。もし、ユーザが、誤った音素(1つあるいはそれより多い)を呟くならば、システムは、容易に、一致状態(match)を維持することに失敗する。更に、歌において、単一の音素には、しばしば、所定の範囲のマルチプルのピッチ、及び/又は、ピッチの連続が与えられる(これらに対しては、音素ベースのシステムは、正しいピッチ又は特徴変化を実行し難い)。正確な音素認識は、非ゼロの処理時間(これは、リアル・タイム・システムでの正しい特徴の適用を遅緩させ得る)をも要求する。非発声音(例えば、フルート)は、ガイド信号又は入力として使用され得ない。
3.ターゲット・ピッチ・モデルは一般的に、一般的にピッチと時間の双方において量子化される、テーブル(例えば、Midiデータとして)によって記述される離散的な音(notes)の組に基礎を置く。この場合には、入力発声音への修正は、記憶された音に限定される。このアプローチは、生成され得る、利用可能な発声音パターンの限定的な組に繋がる。音と音の間の(inter-note)遷移、ビブラート、及び、グリッサンド制御は、一般的に、粗い音ベースの記述(即ちMidi)に限定される。また、処理されたピッチ訂正された歌の発声音は、機械的(モノトーン)な音に乗り得(take on)、そして、もし、ピッチが、ミス・タイミングによって、言葉の間違った部分に適用されるならば、歌は、奇妙に歌われて聞こえ、場合によっては、調子外れにもなり得る。
4.システムは、(ライブのカラオケシステムのように)実時間に近い形で作動するように設計され、出力を、(訂正されるべき)入力が、受信された後直ぐに(即ち、1秒の数分の一以内に)生成する。音素又は類似の特徴を使用するシステム(例えば、特許文献4:米国特許第5750912号)は、非常に局所化されたタイムスロットに限定される。そのようなシステムは、ステップを外れ得、例えば、カラオケ歌手の母音が、ガイディングするターゲット歌唱の間違った部分に一致することにつながり得る。
米国特許第5966867号公報 特開2003-044066号公報 米国特許第5750912号公報 米国特許第5750912号公報
それ故、第1に、新しい歌唱の時間変化する特徴と、ガイディングする歌唱の対応する特徴、との間の詳細なタイミング関係を確立する方法及び装置の必要性が存在する。第2に、このタイミング整列(alignment)パス(path)は、特徴(例えばピッチ)調整を、正しく決定し、正確に、正しい時間において、新しい歌唱(vocal performance)に適用するための時間マップとして使用されなければならない。正しく実行されると、この方法は、(例えば、ピッチ、ビブラート、抑揚カーブ、わたり(glide)、ジャンプ等に対する)ガイディング発声音の歌唱に見出されるニュアンス及び複雑さが、新しい歌唱に作用されることを可能とする。更に、もし、時間整列が適用されるならば、ピッチに加えて、又は、それの代替としての、他の特徴が;例えば、声門音の特性(例えば、気息音、または、ガリガリ削るような(raspy)発声音)、発声音路(tract)共鳴(resonances)、EQ、及び、他のものが制御され得る。
本発明他の目的は、非理想的な入力信号状態の場合、特に新しい入力(例えば、ユーザの発生音)が、
(a)帯域制限され、及び/又は、ダイナミック・レンジが制限された場合(例えば、電話システムを介する入力)、
(b)一定のタイプのノイズ又は歪を含む場合、
(c)ガイディング(ターゲット)発生音(voice)とは、異なったアクセント、性別、又は、年齢を持つ人からのものである場合、又は、言葉及び音素(それらが、ガイディング(ターゲット)信号と同じかまたは異なった場合のいずれでも、更には、異なった入力言語の場合でも)の伝達(delivery)の非常に異なったタイミングを持つ人からのものである場合、
に作動する、発声音修正ための方法を提供することである。
更なる目的は、例えば、信号の音韻(phonemic)の性質に関する、記憶されるべき信号又は、出力信号に適用され得る、あり得る信号状態の詳細な組についての、如何なる、事前の情報をも必要としない方法を提供することである。従って、関連する更なる目的は、ガイディング音声信号と新しい音声信号(これらのいずれか、または双方が、スピーチ又は歌唱であることが要求されない)と共に作動しうる方法を提供することである。
タイム・マッピング及び音声信号の整列のためのシステム及び方法が、既に存在する。2つの音声(audio)信号の間の時間差を決定し、自動波形編集によって、音声信号の1つを自動的に、他の音声信号に時間整列するための方法及びシステムは、英国特許2117168及び米国特許4591928(ブルーム他)に説明されている。時間整列のための他の技術は、J Holmes及びW Holmes, (2001), "Speech synthesis and recognition, 2nd Edirtion", Taylor and Francis, Londonに説明される。
ピッチ変更及び他の発生音(vocal)修正のための技術もまた、良く確立されている。その1つの例は、K. Lent(1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, (65から71頁)である。
本発明は、請求項によって規定され、以下で、それに対する参照がなされる。
本発明の好ましい実施例は、自動的に及び正しく、第2のデジタル化された音声信号の、1つあるいはそれより多い信号特性を、第1のデジタル化された音声信号における指定された特徴の関数であるように修正するための方法及び装置を提供する。これらの実施例において、双方の信号における、指定された特徴の相対的なタイミングが、最初に確立される。これらのタイミング関係に基づいて、信号の特徴(features)の、詳細な、そして、時間的にクリティカルな修正が、正しく適用され得る。これを実現するために、第1の信号の特徴と、第2の信号の特徴の間のマッピングを生成し、第2の(ユーザの)信号をオプショナルに編集するための関数を提供するための、時間整列関数が生成される。
本発明の特定の応用には、プロの歌手のデジタル化された発声音の歌唱の選択された音声特性を、より熟練していない人のデジタル化された歌唱に正確に伝達(transferring)し、従ってそれを改善(enhancing)することが含まれる。本発明の1つの特定の応用は、公衆の一般的なメンバーによって生成された新しい音声信号(「新信号」)のピッチが、プロの歌手によって生成された他の音声信号(「ガイド信号」)のピッチに従うように、自動的に調整することにおける応用である。これの例は、オリジナルのソースとしてのデジタル化された音楽ビデオを用いたカラオケ・スタイルのレコーディング及び再生システムであって、オリジナルの音声及びオプショナルの対応映像の再生中に、ユーザの声がデジタル化され、(新しい記録として)装置に入力されるようなシステムである。このシステムによって、自動的に時間とピッチが訂正された、修正されたユーザの声信号が生成され得る。オリジナルの映像と同期して、修正された声信号が再生されるとき、ユーザの声は、何らかのリップ同期(lip synching)を含む、ピッチと時間の双方に関して、オリジナルの歌手の記録された声を正確に置換し得る。もし、オリジナルの、置換される発声信号が、ユーザの修正された声の録音によって、再生中に可聴的でないならば、音楽映像の再生中に、この置換のインパクトは、更により有効となろう。WO2004/040576に説明されるように、修正された声の記録は、オリジナルの背景音楽と組み合わせられ得る。
本発明の追加的な応用は、電話システムで使用するための、個人化された音声ファイルの生成に存在する。そのような応用において、ユーザは、歌い、又は、会話さえして、記録され、その後、改善(enhanced)(例えば、プロの歌手のバージョンの特性に追従(follow)するために、ピッチ及び時間が訂正)され、選択的に、適切な背景トラック(track)とミックスされる発声信号を提供する。得られる、改善されたユーザ記録は、次に、電話のユーザに、個人化された呼び出し音、又は、他の目的のための音声ファイルとして利用可能とされ得る。本発明を実現する装置は、次に、例えば、電気通信ネットワーク、及び/又は、インターネットを備える電気通信システムにカップルされたサーバ・コンピュータの形式をとり得、装置とユーザの間のインターフェースとしての移動電話を利用し得る。更に、又は代替的に、移動電話は、本発明を実現するために適用され得る。そのようなシステムにおいて、本発明の実施例によって生成された、修正された発声信号、又は、そのような信号を表すデータは、呼び出し音又は他の識別音声信号として用いられるために、呼び出し音(ring tone)配送システムを介して選択された受信者に送信され得る。
本発明の好ましい実施例において、時間に依存するガイド(Guide)と新しい信号(NewSignal)の間のマッピング関数を生成するステップの包含(inclusion)は、信号の特徴の修正が、2つの信号の間の実質的な差異に関わらず、新しい信号内の適切な時間において為されることを確実にする。時間整列関数は、制御特徴(feature)関数データを、所望の信号修正工程にマップするために用いられる。修正工程は、新しい信号にアクセスし、要求されるように、それを修正する。この動作は、新しい信号から、新しい、第3の音声信号を生成する。従って、第3の信号は、次に、ガイド信号の制御特徴として指定される特徴(features)によって決定される所望の時間変動特徴(features)を持つ。
1つの実施例において、第2の音声信号(新しい信号)は、時間整列関数からのマッピング情報を用いて、時間修正され(非線形に時間圧縮された又は拡張された)、それによって、その時間変動特徴が、時間において、第1の音声信号(ガイド信号)と整列するようになっている。この時間整列は、上述の所望の修正が行われる前、又は後に、行われ得る。
代替的な実施例において、時間整列工程は、新しい又は修正された波形において実行されない。その代わり、第2の信号の波形の適切な部分を修正して、そのオリジナルのタイミングを維持するために、時間ワーピング(warping)パスが用いられて、第1の信号(ガイド信号音声制御パラメータ)の制御特徴を第2の信号にマップする。
実時間処理の制約無しに処理を実行することによって、ガイド信号及び新しい信号の記憶されたバージョン(version)の詳細な分析がなされ得、時間整列工程が開始する前に、統計的に重要で実質的な、双方の信号の量(例えば、最大30秒、又は、更には信号全体)が処理され、そして、長期間の信号特性に関して重要な決定が為される。
従って、大きいサイズの、(例えば、数秒の)時間偏位が、順応され(accommodated)、訂正され得、言葉及びフレーズの中で、局所化された最適な整列(alignment)が実行され得る。更に、機能特徴は、「オフライン」でも行われ得、それによって、最も高い品質の処理が適用されること、及び、修正関連のデータの補間、及び/又は、スムージングが、何らかの明白なひどいエラーを、新しい信号に適用する前に除去することを可能とする。
新しい信号に対する出力特徴値の組は、事前に規定される必要が無い。例えば、もし、ユーザによって提供される新しい信号のピッチが、プロの歌手のレコーディングという形式のガイド信号のピッチに一致させるために訂正されるべきならば、受け入れ可能なピッチ値は、規定又は設定される必要がない。代わりに、ユーザの声が、ガイド信号のレコーディングに存在し、測定された値に調整される。
新しい信号は、ガイド信号に似せるために制限される必要が無い、又は、ガイド信号と同じタイプの音声的工程によって生成される必要が無い。例えば、単調な(monotonic)スピーチは、ソロの木管楽器又は鳥のさえずりに追従するために時間及びピッチ修正され得る。双方の信号が、関連するものとして扱われ得る、同じ時間変動特徴を持つ限り、本発明を具現化する方法は、適切に修正された特性(properties)を持つ出力信号を生成し得る。更に、新しい信号及びガイド信号の特徴は、周波数において、互いにオフセットされ得る。例えば、1つの信号のピッチは、他の信号から、オクターブ、又は、それより離れたものであり得る。
1つ又は双方の音声信号が、超音波又は低周波音声(infra sound)領域内にあり得ることも理解されたい。
本発明の好ましい実施例の作動によって、プロの歌手の実演に見出される、複雑で、巧妙な(skilled)ピッチ変動(及び、選択的に、他の特性)が、ユーザ(例えば、アマチュア)の歌手のデジタル化された声に、正確に転換され得る。これは、ユーザの実演の多くの側面を、プロのレベルに改善する。
本発明の実施例は、俳優のADRスタジオ記録された実演を改善するために、自動会話置換(ADR:Automatic Dialogue Replacement)の分野にも適用され得る。実施例は、ピッチ、エネルギーレベル、及び、韻律的特徴(pprosodic features)のような、スタジオ・レコーディングされたボーカル特性を、セットで(on set)、又は、ロケーション(location)で、画像とともに記録されたオリジナルのガイド信号のものに一致又は追従するように修正するために使用され得る。更に、スタジオ内の実演家は、ガイド信号を記録した人とは別の実演家であり得る。
更に、本発明は、適用され得る処理の範囲において柔軟である。例えば、ピッチ調整の場合においては、時間整列されたハーモニー生成(harmony generation)のような更なるピッチ変更特徴が、代替的な出力信号を生成するための複数のピッチ調整関数の1つの関数として導入され得る。更に、ガイド信号内の1つの測定された特徴が、新しい信号内の他の全く異なった特徴を制御するための任意の関数によってマップされ得る。
本発明を実現する方法は、音声入力及び出力のための手段を有する、PC、又は、コンピュータ・ベースのゲーム・コンソールのようなコンピュータ・システム内のコンピュータ・プログラムで実施され得る。
実行されうる処理シーケンスの配列(arrangements)の多くの置換(permutation)が存在する(いくつかは、一定の状況において、他のものに対して利点を持つ)。以下の例は、如何にして、変動が、処理の複雑さに影響を与えるか、及び/又は、出力信号において可調信号アーティファクトを生成することに対する潜在性を削減させるかを説明するために、処理ピッチに関して示される。大きさ(koudness)、トーン、又は、フォーマット構造(structure)のような、ピッチ以外の処理特徴の考察において、類似の検討及び結果が生まれ得る。
一般的に、実施例において、手始めに、新しい及びガイド信号が、デジタル的にサンプルされ、記憶される。次に、ロバストで、話者に独特の、短時間特徴分析が、双方の信号における特徴変化のプロファイルを抽出する。(例えば、米国特許第4,591,928号に説明されるように)ノイズ及びレベル圧縮アルゴリズムが与えられた状態で、連続的なウィンドウ化された信号の「フレーム」に亘って、毎10ms毎に、スペクトル的なエネルギー測定が為される。この分析は、処理の正確性とロバストネスを最大化するために、入力信号全体に亘って実行される。他の短期間特徴測定が、代替的に使用され得る。その例が、L.R.Rabiner及びR.W.Schfer(1978)"Digital Processing of Speech Signals," Prentice Hallに示される。
ピッチ決定の例をとると、記録された信号及びそれらの測定された信号機能データについてコンピュータ・システムで実行されるべき残りの主要な信号処理ステップは:
方法1
(a)ガイド信号及び新しい信号の時間に従属する特徴シーケンスは、最適時間整列パス関数(optimal Time Alignment path function)を、データ・シーケンスとして決定し、出力する、パターン・マッチング・アルゴリズムで処理される。このパスは、新しい信号のフレームを、ガイド信号のフレームに最適にマップする。
(b)時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された(time-aligned)新しい信号を生成するために用いられる。
(c)ガイド信号は、離散的で連続的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は、ガイド信号ピッチ・コンターを提供するために円滑化される。
(d)ステップ(c)における処理ステップは、整列された(編集された)新しい信号が、そのピッチ・コンターを生成するために反復される。
(e)ガイド信号の各ピッチ・コンター値は、整列された新しい信号に対する、対応するピッチ・コンター値によって分割され、オクターブ・シフトして、整列された新しい信号の各フレームに適用するための訂正ファクターを与える値の組である訂正コンターを生成するために調整される。この訂正コンターは、何らかの酷い(gross)エラーを除去するために円滑化される。
(f)ピッチ・シフト・アルゴリズムが用いられて、整列された新しい信号のピッチを、ステップ(e)からの円滑化された訂正コンターに従った値にシフトすることによって、時間及びピッチにおける、所定のガイド信号への、新しい信号マッチング(matching)を生成する、
である。
方法1は、2つの編集アルゴリズムを直列的に採用し、新しい信号が、1つの編集ステップを経験(undergo)した後に、新しい信号のピッチを測定する。従って、方法1における、生成された出力の品質は、ステップ(b)からの、編集された信号の出力品質に依存する。その結果、編集中に導入された、その信号内の不完全性は、ステップ(d)及び(f)の出力の品質を劣化させ得る。これは、訂正されたピッチにおける随時の小さなエラーに繋がり、場合によっては、生成された出力における、わずかな荒さ(roughness)を生成する。
方法2
そのようなエラーのリスクを低減するために、他の実施例は、上述のステップ(b)と(f)を組み合わせて、単一の編集段階を生成する。また、新しい信号(本例ではピッチ)の如何なる特性も、時間整列された(編集された)バージョンからではなく、修正されていない新しい信号から測定され得る。これは、時間整列パスの逆(inverse)を計算することによって実現される。逆パスは、編集されていない新しい信号の各フレームを、その、対応するガイド信号のフレームにマップする。このマッピングから、時間において、ガイド信号に整列された、新しい信号に対するピッチ訂正コンターが計算される。ピッチ訂正コンターが計算される前に、実際上、ガイド信号は、時間において、新しい信号に整列されている。
以下のステップが、本方法を要約する。
(a)ガイド信号及び新しい信号の時間に従属する特徴のシーケンスが、最適時間整列パス特徴を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力する、パターン・マッチング・アルゴリズムで処理され、
(b)時間整列パスからのデータが用いられて、ガイド信号のフレームを対応する新しい信号のフレームにマッピングする逆パス関数を生成し、
(c)ガイド信号が、離散フレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値が円滑化されて、ガイド信号ピッチ・コンターを与え、
(d)ステップ(c)での処理が、新しい信号(未編集)に対して反復されて、そのピッチ・コンターを生成し、
(e)逆パス関数を用いて、ガイド信号ピッチ・コンターを、新しい信号ピッチ・コンターに整列し、マップされたガイド信号の各ピッチ・コンター値が、新しい信号に対する対応するピッチ・コンター値によって分割され、オクターブ・シフトのために調整されて、新しい信号の各フレームに訂正ファクターを与える値の組である整列された訂正コンターを生成する。この整列された訂正コンターは円滑化されて、如何なる酷い(gross)エラーをも除去する。
(f)時間整列されたパス関数及び円滑化された整列された訂正コンターを用いて、時間において、及び、ピッチにおいて、ガイド信号に整列された出力信号を生成するために要求される、新しい信号のピッチをシフトし且つ時間圧縮も行うか、又は、新しい信号を時間伸長する、処理アルゴリズムを用いて、新しい信号が編集される。
(g)又は、ステップ(f)の代替として、円滑化され、整列された訂正コンターが、新しい信号からガイド信号への時間整列無しに適用され得る。これによって、新しい信号のオリジナルのタイミングを維持し得るが、新しい信号が、時間において、ガイド信号に整列されていない場合であっても、ピッチ訂正を、新しい信号の正しいフレームに適用することになろう。
方法2のいずれかの形式が、正確に、ビブラート及び他のディテールのような微妙なニュアンスに追従でき、それを再生成できる、全ての言葉とフレーズを通じた、より信頼でき、自然な、音声ピッチ訂正を提供する。
方法3
方法2は、新しい信号を1回だけ編集するが、それは、同時にピッチ及び時間整列を修正する処理技術を利用する。ステップのシーケンスを僅かに変化させることによって、方法1を用いること無しに、ピッチシフティングと時間修正を別個に処理することが可能となる。これによって、編集の2つの段階が導入されるが、最も適切な特定化された(specialized)処理アルゴリズムが、各段階に対して別個に選択され得る。
以下のステップが、この第3の方法を要約する。
(a)ガイド信号及び新しい信号の時間従属関数(function)シーケンスが、最適時間整列パス関数を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力するパターン・マッチング・アルゴリズムで処理され、
(b)ガイド信号が、離散的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は円滑化されて、ガイド信号ピッチ・コンターを提供する。
(c)新しい信号(未編集)に対して処理ステップ(b)が反復されて、そのピッチ・コンターを生成する。
(d)時間整列パス関数を用いて、新しい信号のピッチ・コンターが、有効に、ガイド信号ピッチ・コンターに時間整列される。
(e)各ガイド信号ピッチ・コンター値が、対応する時間整列された新しい信号のピッチ・コンター値によって分割され、オクターブ・シフトのために結果が調整される。これは、時間整列された新しい信号の各フレームに適用するための訂正ファクターを含む、整列された訂正コンターを生成する。この整列された訂正コンターは、円滑化されて、如何なる酷いエラーをも除去する。
(f)時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された新しい信号を生成するために用いられる。
(g)ピッチ・シフティング・アルゴリズムを用いて、時間整列された新しい信号のピッチが、ステップ(e)で生成された、円滑化され、整列された、訂正コンターによってシフトされる。これは、時間において、及び、ピッチにおいて、所定のガイド信号に整列された編集された新しい信号を与える。
方法3は、逆(inverse)ではなく、オリジナルの時間整列パス関数を用いる。更に、それは、方法2におけるように、時間整列された(編集された)バージョンのピッチではなく、修正されていない新しい信号のピッチが、測定されるという利点を持つ。しかし、それは、まず、時間整列されたバージョンを生成(ステップf)すること無しには、新しい信号(ステップg)のピッチを修正できない。
更なる実施例において、ピッチ以外の音声信号の他の特徴が修正されて、一旦時間整列関数が生成された場合に、ガイド信号における当該特徴を追従させ得る。追加的なタイプの時間同期的な修正可能な特徴には、瞬時音量、イクアライゼーション、スピーチ・フォーマット又は共鳴(resonant)パターン、反響、及び、エコー特性、そして更には、指定された特徴の分析及び修正に対する適切なメカニズムが利用可能である場合には言葉自身、のような音声信号特徴の修正が含まれる。
本発明において、映像信号は必要ではない。そして、入力音声信号は、他の音声信号に随伴、又は、それを置換するためにのみ必要とされ得る。
本発明の好ましい実施例において、最適で十分にディテール化された、第1の(ガイド)音声信号における時間変動する特徴と、対応する第2の(新しい)音声信号の時間変化特徴の間の時間マッピングを提供し得る、時間整列された関数又は時間ワーピング・パス(time warping path)を決定するための手段が含まれる。このマッピングは、時間変化する変更(alterations)が、修正されている新しい信号の適切な部分に対応するガイド(制御)信号の部分における指定された特徴に基づくことを保証する。時間整列を決定するために用いられる、特定の時間変化する特徴の測定が、サンプルされた信号の波形の短い部分又はウィンドウ(各ウィンドウは、T'の期間であり、T'は、Tとは異なり得る)に対して、毎T秒毎に為される。測定は、通常、サンプリング・ウィンドウがオーバーラップした状態で、連続的なフレーム・バイ・フレームベースで為される。これは、L.R.Rabiner及びR.W.Schfer(1978)の「Digital Processing of Speech Signals」Prentice Hallに記載されるような、「短時間」信号分析である。
時間整列工程に対して測定された特徴が、変更された特徴と、制御として使用される特徴、の双方とは異なった特徴である可能性が高いことに留意頂きたい。変更されるべき特徴と、制御特徴パラメータの間の基本的な関係が規定されねばならない。例えば、これ以降、より詳細に説明される1つの単純な関係は、新しい信号を生成する人の自然なピッチ範囲を維持するための調整を伴って、新しい信号のピッチを、ガイド信号のピッチに一致するように修正する。必要であれば、修正関数のこの規定、及び他の規定(definitions)は時間と共に変化され得る。修正関数は、音声処理コンピュータ・システムにおける、出力値.対.入力値のデータ・アレーとして、又は、数学的な関数として、又は、処理規則の組としてプログラムされ得る。関数が、必ずしも信号自身に依存せず、それ故、信号が何の分析も必要としないかもしれないことに留意頂きたい。更なるステップにおいて、第2の信号で修正されるように指定された特徴、及び、第1の信号における指定された制御特徴の双方は、時間の関数(function)として測定される。これらの測定は、データとして記憶される。
音声入力を記録する間に、同時に、デジタル化されたコンピュータ映像及び音声ファイルからの背景音声、及び/又は、映像信号を再生できるコンピュータ・システムは、良く知られている。これらの機能(functions)をサポートできる、一般的なPCシステムのコンポーネント及び環境が添付図面の図1に示され、このシステムは、本発明の複数の実施例に対するハードウェア及びソフトウェア環境を提供する基礎としての図2のソフトウェアとともに使用され得る。
図1において、CPU(中央処理ユニット)112、RAM(ランダム・アクセス・メモリ)118、一般的にマウス、キーボード125、及び、表示スクリーン130のようなポインティング・デバイス120を含むユーザ・インターフェース・ハードウェア、ハードディスク又は更なるRAMのような内部記憶装置140、CD ROM又はDVD ROMのような、固定された、又は、除去可能な記憶媒体165の上のデータにアクセスするための装置160、及び、オプショナルに、インターネット175へのアクセスを提供するためのモデム又はネットワーク・インターフェース170、を有するコンピュータ110からなる環境的な(environmental)コンピュータ・システム100が示される。ポインティング装置120は、表示されたスクリーン・カーソル(不図示)の位置、及び、スクリーン130上に表示された機能(function)のセクションを制御する。
コンピュータ110は、PC又はアップル・マッキントッシュのような、如何なる、従来的なホーム又はビジネス・コンピュータ、又は、代替的に、ゲーム・コントローラ装置であるポインティング装置120を伴った、Microsoft(登録商標)XboxTM、ソニーPlaystation2TM、のような専用の「ゲーム機器」でもあり得る。図1に示されるいくつかのコンポーネントは、特定のゲーム機器に存在しないかもしれない。図2は、コンピュータ110にインストールされ得る、更なるソフトウェアを示す。
ユーザは、CD ROM、インターネット、又は、他の手段から、音声及びオプショナルな添付の映像クリップ(clip)を含むデジタル・データ・ファイル115を獲得し得る。このデジタル・データ・ファイル115は、aviやQuickTime(登録商標)ムービー・フォーマットのような、広く用いられるフォーマットであり得、当該デジタル・データ・ファイル115は、例えば、ハードディスク140の上に、又は、RAMの中に、コピーされ記憶される。コンピュータ110は、Microsoft(登録商標)Windowa(登録商標)又はMac(登録商標)OS、の利用可能なバージョンのいずれかによって提供されるもののような、既知のオペレーティング・システム135、サウンド・カード150、又は、録音のためにマイクロホン159から接続されるADC(アナログからデジタルへのコンバータ)を含み、音声を再生するための1つあるいはそれより多いラウドスピーカ156から接続されるDAC(デジタルからアナログへのコンバータ)を含むコンピュータのマザーボード上の等価のハードウェアの形式の音声ソフトウェア及びハードウェア、を持つ。
図2に示されるように、そのようなオペレーティング・システム135は一般的に、サウンド・カード150を介した音声記録、及び、編集機能(functions)、をサポートする音声記録及び編集ソフトウェア18(Windows(登録商標)と共に出荷される「Sound Recorder」アプリケーション・プログラムのような)と共に出荷される。記録プログラム、及び/又は、他のプログラムは、入来アナログ音声信号を、デジタル音声データに変換し、そのデータを、ハード・ディスク・ドライブ140上のコンピュータ・ファイルに記録するために、サウンド・カード150を使用し得る。Windows(登録商標)、及び/又は、他のソフトウェアと共に出荷されるWindows(登録商標) Media Playerのような音声/映像プレーヤー・ソフトウェア190が、サウンド・カード150、更なるビルトインの映像ハードウェア及びソフトウェア、表示スクリーン130、及び、スピーカー156を介して、コンポジットのデジタル映像及び音声ファイル、又は、音声ファイルだけを再生するために使用され得る。コンポジット映像及び音声ファイルは、映像データ及び1つあるいはそれより多い平行同期された音声データのトラックからなる。或いは、音声データは、マルチプルの音声データのストリームを記憶するために割り当てられた別個のファイルとして保持され得る。音声データは、会話や歌唱、インストゥルメンタル音楽、「サウンド・エフェクト」、又は、これらの何らかの組み合わせ、のような発声データであり得る。ブロック180及び190もまた、135及び110と協調して、ここに説明される歌唱処理システムを実装し得るソフトウェア及びハードウェアを表し得る。
代替的に、100及び110におけるハードウェア及びソフトウェアシステムの分散された実施例が、採用され得る。その1つの例は、コンピュータ・システム100の主要素が、遠隔サーバによってユーザに提供されるようなものである。そのような場合には、アナログ又はデジタルの音声信号がユーザと100の間で送信される状態において、ユーザ側において、ユーザのPCシステムに接続された電話又はマイクロホン及びスピーカによって、電話システムネットワーク、及び/又は、インターネットを介して、入力及び出力の変換器(transducer)159、156が提供され得る。ユーザは、電話タッチトーン・キーパッド、コンピュータ・キーボード、音声入力、又は、他の手段を含む膨大な方法によって、システム・オペレーションを、遠隔的に制御できる。
非実時間コンスーマ・カラオケ・システムの形式の本発明の実施例は、幾人かの公衆が、ミュージック・ビデオと一緒に、ポップ・ソングを歌う彼らの声を、コンピュータ・ベースのシステムに記録することを可能とする。ユーザの記録された声が修正され、その後、再生されたときに、修正された声は、オリジナルの歌手の口の動きにリップ同期され、且つ、ミュージック・ビデオ内の置換された歌手の声と同じピッチ変動を持つ。図2のシステムは、随伴ビデオを伴って、或いは、それを伴わないで、オリジナルの実演家の歌の歌唱の音声再生を可能とする。ユーザは歌を再生でき、システムは、ユーザの声をデジタル化し、コンピュータのハード・ディスク又は他のメモリ装置の上に記録(格納)する。正確に、オリジナルの歌手の声の特徴(features)を測定することへの要求が存在するので、その声信号が、背景のミュージック・トラックとは別個であることが好ましい、。これは、レコード会社、又は、媒体コンテントを提供する組織から、声が隔離された録音を要求することによって、最も効果的に実現できる。
本実施例において、アイソレートされた状態(in isolation)で(例えば、オリジナルの録音セッションからのマルチ・トラックの録音から移されたソロのボーカル・トラック)歌を実演する歌手のデジタル化された録音である第1の信号(ガイド信号)、好ましくは、エコーや反響(reverberation)のような追加された処理が無いもの、が用いられる。そのようなデジタル化されたガイド・信号、g(n)は、CD又はDVD/ROM165で、又は、インターネット175を介して、ユーザのシステムに提供され得る。或いは、更なる実施例において、(時間整列と特徴修正制御の双方に対する)ガイド信号の要求される特徴(features)は、要求されるデータを抽出するために、同じ、又は、他のシステムにおいて事前に分析されたものであり得る。このデータは、165、175を介した、又は、他のデータ転送方法を介した、データ・ファイルとしての使用のために、システム100に入力され得る。実施例のデータ記憶及び処理モジュールが、図3に示される。
音声記録及び再生プログラムを走らせているユーザは、オリジナルの歌手が可聴な状態で、又は非可聴の状態で、所望の歌を再生でき、同時に歌唱できる。ユーザの歌唱は、デジタル化され、データ記憶部310内のデータファイルに記録される。このデジタル化された信号は、第2の信号、即ち、新しい信号、s(n)である。
図3の実施例は、以後説明される方法1を実行する。その目的は、ユーザの新しい信号のピッチ及びタイミングを、ガイド信号のピッチ及びタイミングに擬似するように訂正することである。この場合には、ガイド信号における特徴(feature)は、制御関数(function)として使用されており、新しい信号で修正される特徴は、同じ特徴、即ち、それぞれの信号のピッチ・コンターである。時間整列された新しい信号ピッチ測定と、ガイド信号ピッチ測定の間の差異を追跡する工程は、修正された新しい信号のピッチが、ガイド信号のピッチに追従するようにするためのピッチ調整関数の計算において使用される。ここで、新しい信号、s(n)は、句切り法(phrasing)、コンテント、及び、長さにおいて、ガイド信号、g(n)に類似することが想定される。非実時間カラオケ・タイプの応用に対して、これは、道理に適った想定である。何故なら、ユーザは通常、タイミング、ピッチ、及び、言葉(words)において、オリジナルの歌唱実演を擬似することを試みるからである。
ここで、方法1は、非実時間におけるデジタル音声データにおいて、以下のように実行される。
<入力信号記述及び測定>
処理無しに、新しい信号及びガイド信号が適切に時間整列されていることは、きわめて少ない。米国特許第4591928号(Bloom他)は、時間整列されていないが類似の複数のスピーチ信号のエネルギー・パターンの間の差異、及び、時間整列工程への入力としてのフィルタバンク出力のようなエネルギーに関連する測定の使用を説明する。
図4は、プロの女性歌手のガイド信号のピッチの測定によって得られる、以後ピッチコンター401と呼ばれる、ピッチ測定フレーム番号M(ここで、M=0,1,2・・・N)の関数としての、時系列Pg(M)、及び、時間整列前の一般的なアマチュアの新しい信号(男性の声)のピッチ・コンター402として示される時系列Ps(M)、を、同じ時間スケールに沿って示す。双方の信号のピッチ・コンターにおける差異、及び、時間におけるそれらの整合ミスが、明白である。時間において、第2の系列、Ps(M)と整列されていない第1の系列(series)、Pg(M)は、大きくて可聴的なエラーを生成すること無しには、第2の信号に対する、制御又はターゲットのピッチ関数として直接使用できない。
ピッチ・コンター401又は402においてゼロHZとして示されるデータ・ポイントは、対応するピッチ測定フレームが、沈黙か、非発声スピーチかのいずれかを含むことを示す。非ゼロの測定は、そのフレームにおける、それぞれの信号のピッチ測定を示す。
図4において、新しい信号ピッチ・コンター402における発声された音の非ゼロの値のセグメント(パルス)は、一般的に、ガイド信号ピッチ・コンター401における対応する特徴(features)に対して遅れ、且つ、異なった期間(durations)を持つ。更に、2つのピッチ・コンターの、発声された(voiced)音声は、異なったオクターブに存在する。更に、ガイド信号ピッチ・コンター401の各パルスにおけるピッチ範囲(range)変動は、新しい信号のピッチ・コンター402における対応するパルスの場合に比して、より広い。ガイド信号ピッチ・コンター401は、プロの歌手から取られる(taken frm)ので、このようなことが予測される。ガイド信号ピッチ・コンター401のそのような詳細及びタイミングが、アマチュアのユーザの録音された歌唱に与えられる。
<新しい信号の時間整列(alignment)>
図3において、データ記憶部310から読み取られた、サンプルされた新しい信号波形s(n)は先ず、米国特許第4,591,928号に説明されるような技術を用いて、時間において、データ記憶部312から読み取られたガイド信号、g(n)に整列されて、中間音声信号、つまり、時間整列された新しい信号、s’(n)(これは、例えば、ディスク330に記憶される)を生成する。これは、s’(n)におけるエネルギー・パターンの詳細(detail)が、ガイド信号におけるそれと同じ相対的時間において発生することを保証する。これは、更に、如何なる、リップ同期(lip-synching)も有効であり、如何なる、ガイド信号から、新しい信号への特徴(feaures)の転写(transfer)も、更なる時間マッピングを必要としないことをも保証する。本例における新しい信号、s(n)及びガイド信号g(n)の生成において使用されるサンプリング周波数は、44.1kHzである。
米国特許第4,591,928号に説明される時間整列工程は、スペクトラル・エネルギー特徴(feature)(例えば、フィルタバンク出力)を、10ms毎に測定し、10ms毎のパス・ポイント(path point)を持ち、新しい信号における類似のスペクトラル特徴を、ガイド信号における最も近い対応するフィーチャーと対応付ける、時間整列又は「時間ワーピング」パスを生成する。
図5は、その中で、新しい信号の各特徴フレームが、フレーム・ナンバーjを持ち、ガイド信号の各特徴フレームが、フレーム・ナンバーkを持ち、フレーム・サンプリング・インターバルが、T秒(ここでT=10ms)であるような、時間ワーピング・パス、w(k)、k=0,1,2,・・の例を示す。そのようなワーピング・パスは、時間整列処理モジュール320内で生成され、このパスは、ディスク330の上に記憶される時間整列された新しい信号s’(n)の生成において、モジュール320における新しい信号s(n)の編集(即ち、時間圧縮/伸長)を制御するために使用される。米国特許第4,591,928号に示されるように、時間整列された新しい信号、s’(n)、は、s(n)の編集されたバージョンの構築により、モジュール320によって生成される。なお、このs(n)の編集されたバージョンの中で、s(n)の部分が、w(k)、及び、編集システムからの追加的なタイミング・エラー・フィードバックに従って、反復されてきた、または、削除されてきており、このs(n)の編集されたバージョンは、発声音が存在するときに、ピッチ同期的な編集を作るように制限される。
<新しい信号のピッチ・コンターの生成>
整列された新しい信号、s’(n)、の生のピッチ・コンター、Ps’(M)は、連続的離散ピッチ測定フレームにおける移動分析のHaanウィンドウを用いて取られたs’(n)の測定から生成される(ここで、Mは、フレーム番号であり、M=1,2,3,・・・である)。正確なピッチ測定を得るために、分析ウィンドウの長さが、測定される、最も低い周期の長さの2.5から3.0倍であることが推奨される。それ故、本実施例において、約0.0139sの周期をもち、72Hz程度の低いピッチを測定するために、1536サンプル(4401kHzサンプリング周波数において)の分析ウィンドウ(又は約35ms)が用いられる。ピッチ測定フレームのサンプリング・インターバルは、10msである。ピッチ・エスティメータ(estimator)・モジュール340の分析ウィンドウは、サンプルの各ピッチ測定フレーム内に中心を置かれる(centered)。各ピッチ測定フレームに対して、ピッチ予測のための周知の方法(例えば、自動相関、櫛形フィルタリング等)の1つを用いたピッチの予測(estimate)が為される。これらの技術の詳細な記述は、Wolfgang Hess(1983) "Pitch Determination of Speech Signals, Algorithms and Devices", Springer-Verlag; R.J.McAulay and T.F.Quatieri, (1990); "Pitch estimation and voicing detection based on a sinusoidal model," Proc. Int Conf.on Acoustics, Speech and Signal Processing, Albuquerque, NM, pp. 249-252; 及びT.F.Quatieri (2002) "Discrete-Time Speech Signal Processing; Principles and Practice," Prentice Hallのような参考文献に発見できる。
測定は、分析ウィンドウのオーバーラップ無しに採取され得るが、25と50%の間の連続的にウィンドウ化されたデータのオーバーラップが、一般的に推奨される。この実施例において、Mの測定フレーム・レートは、100Hz(即ち、10msのインターバル)であり、これは、十分なオーバーラップを提供し、同時に、便利なことに、時間整列関数(function)の測定レートと同じである。最初の及び最後の数ピッチの測定(この中で、分析ウィンドウが、当然、利用可能なデータ・サンプルを超える)を正しく行うために、それらのピッチ測定を行う前に、信号の開始と終了の双方が、最大、ゼロ・マグニチュードのサンプルの1つの分析ウィンドウの長さでパッド(padded)される。
最終の円滑化されたピッチ・コンター(時間整列された新しい信号に対するPs'(M))を生成するために、3ポイント・メジアン・フィルタ、そしてその後、平均化フィルタを用いて、フィルタ・モジュール350において、個々のフレームのピッチ測定が円滑化される。更に、時間整列された新しい信号s'(n)の沈黙及び非発声フレームが、P's'(M)において、ゼロのピッチを持つとしてマークされる。
<ガイドのピッチ・コンターの生成>
同様に、ピッチ・エスティメータ・モジュール345において、ピッチ・コンターPs’(M)の生成のために説明されたものと同じ方法とパラメータを用いて、ガイド信号g(n)のピッチ・コンターPg(M)が生成され、フィルタ・モジュール355において円滑化されて、ガイド信号に対する円滑化されたピッチ・コンターP’g(M)を生成する。
<ピッチ調整の計算>
次の工程は、時間整列された新しい信号の各フレームに対するピッチ調整又は訂正ファクターの計算である。これは、ピッチ調整モジュール370によって為され、ガイド信号ピッチと時間整列された新しい信号ピッチの比率、及び、何らかの所望のオクターブのシフトを考慮する。この計算は、同じフレーム番号Mを有するピッチ測定フレームの各組に対して為される。モジュール370内のローパス・フィルタは、次に、訂正ファクターを円滑化する。2つのステップが存在する:それらは、オクターブの決定、及び、新しい信号のピッチのシフティングである。ピッチの調整を考慮した上での2つのメインのオプションが存在する:それらは、(a)ガイド信号のピッチと同じとなるように出力ピッチを調整すること、又は、(b)調整された声が最も自然に聞こえるように、入力された新しい信号のピッチ範囲を維持すること、である。この後者の効果を実現するためのオクターブ調整について、これから説明する。オクターブ調整モジュール358は、オクターブ乗数Q(これは、信号の期間において一定に維持される)を計算する。このことは、この値を設定することが可能となる前に、新しい信号の全て又は少なくとも実質的な量を分析することが必要となることを強調する。
各ピッチ分析に対して、時間整列された新しい信号のフレームM(ピッチ予測器モジュール350及び355からのフレームMに対する円滑化されていないピッチ予測)が、用いられて、ローカル・ピッチ訂正CL(M)(ここで、Mはフレーム番号である)を計算し、それらのフレームへの計算を、時間整列された新しい信号及びその対応するガイド信号フレームの双方が発声されている場合、即ち、これらの双方のフレームが有効なピッチを持つ場合に限定する。これらのフレームにおいて、ローカル・ピッチ訂正ファクターCL(M)(これは、時間整列された新しい信号のフレームMのピッチを、ガイド信号のフレームMのピッチと同じにする)は、

CL(M)=Pg(M)/Ps'(M) (1)

によって表される。
各比率CL(M)は、次に、以下のテーブルに従って、2のべき乗数(powers of 2)を選択することによって、その、最も近いオクターブ(octave)に丸められる。
Figure 2008529078
全ての、得られるオクターブ値は、ヒストグラムにエンターされ、次に、最も頻繁に発生するオクターブ訂正値Qが選択される。Qは、この場合、時間の関数ではなく、時間の関数である実施例もあり得る。必要であれば、ピッチ周波数(frequency)における何らかの所望のオフセットを実現するために、Qには、他のファクターを乗算され得る。Qの計算は、モジュール358で実行される。オクターブ訂正値Qは、ピッチ調整モジュール370に与えられ、以下の式(2)で用いられて、オクターブ訂正されたピッチ訂正ファクターC(M)を生成する。

C(M)=P'g(M)/(Q*P's'(M)) (2)

ここで、C(M)は、信号のフレームMにおけるピッチ訂正ファクターであり、
P's'(M)及びP’g(M)は、それぞれ、時間整列された新しい信号の、及び、ガイド信号の、フレームMにおける円滑化された予測されたピッチである。
ピッチ訂正信号を生成するために、式(2)から、時間整列された新しい信号の全てのフレームに対して、ピッチ訂正ファクターC(M)が計算されて、修正された時間整列された新しい信号のピッチ・レジスター(pitch register)が、オリジナルの新しい信号のピッチ・レジスターに最も近く一致するようにされる。
もし、フレームMにおいて、対応するガイド信号ピッチが全く存在しない(即ち、ガイド信号が非発声であるか、又は、時間整列された新しい信号が、ガイド信号に比してわずかに長い)ならば、M−1における最後の訂正ファクター値が再使用される。この場合に、補間を用いて、より良い予測を得ることもまた可能である。
得られる訂正処理値の例において、1.0の訂正ファクターC(M)は、フレームMにおいてs'(n)への変化が無いことを意味し、0.5は、1オクターブだけ、より低いピッチを意味し、2.0は、ピッチを1オクターブだけ上げること、等を意味する。
<新しい信号のシフト・ピッチ>
ピッチ訂正信号における各値C(M)は、時間整列された新しい信号s'(n)のサンプルの、対応するフレームMのために必要とされる訂正乗算値を与える。この例において、C(M)のフレーム・レートは、時間整列アルゴリズムによって使用されるもの(これは、毎秒100フレーム(即ち100fps)である)と同じであるように選択される。換言すれば、C(M)は、毎秒のs'(n)ごとに、100個のサンプルを持つことになる。
正しく機能させるために、いくつかのピッチ・シフティング・アルゴリズムは、時間整列されたアルゴリズムのフレーム・レートより、非常に小さいフレーム・レートを持たなければならない(即ち、サンプリング・インターバル(分析フレーム)は、非常に、より長い)。例えば、時間ドメインのピッチ・シフティング技術は通常、約25から30fpsのフレーム・レートを持つ(もし、それらが、50から60Hzの周波数までにおいても作動すべきものならば)。しかし、それらのフレーム・レートは、信号を通じて一定である必要が無い。そして、レートは、例えば、信号s'(n)の基本ピッチとともに変動し得る。しかし、本実施例において、ピッチ・シフティングで、固定フレーム・レートが使用される。
本実施例において、ピッチ訂正ファクターC(M)の計算のための、それぞれのフレーム・レート及び、ピッチ・シフティング・アルゴリズムの作動は異なり、それ故、線形補間が用いられて、時間において、ピッチ・シフティング・アルゴリズムの各分析フレームの中央に最も近いC(M)サンプルからの、ピッチ・シフティング・アルゴリズムの各分析フレームの中央において必要とされるピッチ訂正の予測が導出される。この、補間された訂正ファクターは、以下のように導出される:
ピッチ訂正信号のフレームMは、新しい信号s(n)のLcサンプルと等しい長さを持つ。ここで、Lcは、以下によって与えられる。

Lc=新しい信号s(n)のサンプリング・レート/C(M)のフレーム・レート
(3)
ピッチ・シフティング・アルゴリズム(ここで、ピッチ訂正の予測が要求される)の分析フレームの各々の中央における、s'(n)に沿ったサンプル番号が、以下のように決定される。
もし、Nc(Fps−1)が、ピッチ・シフティング分析フレームFps−1の中央における、s'(n)に沿ったサンプル番号ならば、次のフレームFpsの中央におけるサンプル番号Nc(Fps)は、

Nc(Fps)=Nc(Fps−1)+Ls(Fps, T0(Fps−1)) (4)

である。ここで、
Fpsは、ピッチ・シフティング分析フレーム番号、Fps=0,1,2,・・・であり、
Ls(Fps, T0(Fps−1))=(新しい信号のサンプリング・レート)/(ピッチ・シフティング・アルゴリズムのフレーム・レート)
である。
この一般的なケースにおいて、Lsは、フレーム番号Fps及びT0(Fps−1)(これは、Fps−1におけるピッチ周期期間である)の関数であり、時間変動するフレーム・レートを可能とする。この実施例において、Lsは一定に保持され、1536サンプル、即ち、34.83msに設定される。
最初に計算されたフレームの前のピッチ・シフティング分析フレーム(Nc(−1))と、最初に計算されたフレームNc(0)、の双方の中央におけるs'(n)に沿ったサンプル番号に対する初期値は、ピッチ・シフティンング・アルゴリズムに依存する。この実施例において、Nc(−1)=0.5*T0(−1)及びNc(0)=0である。
Nc(Fps)及びLcを用いて、ピッチ・シフティング・アルゴリズムにおける特定の分析フレームFpsの中央におけるサンプルをバインドされる(bound)、又は、それを含む、C(M)のピッチ相関フレーム番号Fc(M)は、

Fc(Fps)=Nc(Fps)/Lc (5)

である。ここで、
/ は、整数の割り算を意味し、
Fc(Fps)は、ピッチ・シフティング・アルゴリズム・フレームFpsの丁度前(just before)に、又は、その中央で、発生するC(M)のフレームであり、
Lcは、上において定義されたものである。
もし、Fc(Fps)が、ピッチ・シフティング・アルゴリズム・フレームの丁度前又はその中央において発生しているピッチ訂正フレームであるならば、(F(Fps)+1)は、その中央の後ろに発生する次のピッチ訂正フレームとなる。
ピッチ訂正C(Fc(Fps))とC(Fc(Fps)+1)の間の線形補間は、ピッチ・シフタの分析フレームの中央において、補間された訂正ファクタCs(Fps)を与えて、ピッチ・シフタを制御する。

Cs(Fps)=C(Fc(Fps))*(1−α)+α*C(Fc(Fps)+1) (6)

ここで、
α=(Nc(Fps)−Lc*Fc(Fps))/Lc
であり、ここで、
/ は、整数の割り算を意味し、
他のシンボルは、上述のものである。
補間された訂正ファクター値Cs(Fps)は、単純なローパス・フィルタリングによって円滑化されて、C's(Fps)となり、モジュール370の出力(ピッチ・チェンジャー・モジュール380(pitch changer moduke)に与えられる)として表現される。ピッチ訂正のために、時間整列された新しい信号s'(n)は、ピッチ・シフティング・アルゴリズム・フレームに対応するフレームFps内で処理される。時間整列された新しい信号s’(n)のそのようなフレームFpsの各々は、モジュール380において、その、円滑化された訂正ファクターによって、ピッチにおいて動的にシフトされ、得られるピッチ訂正され、時間整列された新しい信号s''(n)は、背景音楽及び利用可能な場合に選択的に対応する音楽ビデオを伴った後の再生のために、ディスク390に書き込まれる。この出力信号s''(n)は、ガイド信号g(n)に対する置換として、又は、それと同期して再生されるべき、要求される時間整列とピッチ訂正の双方を持つことになる。図6に示される、時間整列された新しい信号s’(n)のピッチ値の、対応する訂正ファクター値への乗算の結果としてs''(n)で観察されることになる、時間整列され、訂正されたピッチ・コンター701の例が、図7に示される。ガイド信号ピッチ・コンター401の詳細の殆どが、今、計算された修正されたピッチ・コンター701のこの例に現れる。
記憶部390においてピッチ訂正された時間整列された出力信号波形s''(n)を生成するためにモジュール380によって実行されるピッチ・シフティングは、K. Lent (1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, の65-71ページ; N. Schnell, G. Peeters, S. Lemouton, P. Manoury, and X. Rodet (2000), "Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA)," International Computer Music Conference, の102 - 108ページ; J. Laroche and M. Dolson (1999), "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and other Exotic Effects." Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics の91 - 94ページ; G. Peeters (1998), "Analyse-Synthese des sons musicaux par Ia methode PSOLA," Proceedings of the Journees d'lnformatique Musicale, Agelonde, France; and V. Goncharoff and P. Gries (1998), "An algorithm for accurately marking pitch pulses in speech signals", Proceedings of the IASTED International Conference Signal and Image Processing (SIP'98), October 28 - 31のような参考文献に説明されるTDHS、PS−OLA、FFTのようなスタンダードのピッチ・シフティング方法のいずれかを用いて実現され得る。
この実施例において、実質的に、D. Malah (1979) "Time Domain Algorithms for Harmonic Bandwidth Reduction and Time Scaling of Speech Signals", IEEE Transactions Acoustics, Speech and Signal Processing, Volume 27, No.2, 121-133ページに記載されるような時間ドメイン・アルゴリズムが、モジュール380において用いられてて、信号s'(n)のピッチをシフトする。
s'(n)の毎フレームFpsにおいて、ここで、T0(Fps)と定義されるピッチ周期が測定される。以後、単純化のために、T0(Fps)を含む計算に基づく変数もまた、Fpsの変数であるが、パラメータFpsは、それらの表現において明白(explicit)にされない。
この実施例において、時間整列された新しい信号s'(n)は、s'(n)にh(p)(分析ウィンドウ関数801(図10(a)に示される))(これは、時間において周期的にシフトされる)を乗算することによって、信号のウィンドウ化されたサンプルs'(n)のシーケンスに分解(decomposed)されることによって、

s'(u,n)=h(n)*s'(n−ta(u)) (7)

が得られる。ここで、
h(p)は、Pサンプルの長さのピッチ・シフティング分析ウィンドウであり、時間における当該Pサンプルの長さは、フレームFpsの測定されたピッチ周期の2倍、すなわち、2*(Fps)と等しい。本実施例において、h(p)は、PサンプルのHannウィンドウである。
また、ta(u)は、発声されたフレームに対するピッチ同期レートにおいて設定される、u番目の分析インスタンスであり、ta(u)−ta(u−1)=T0(Fps)、(ここで、u=0,1,2・・・)のようになる。非発声のフレームに対して、ta(u)は、10msの一定のレートに設定される。それは、T0の最後の有効な値にも設定されて、発声されたフレームを形成し得る。
円滑化されたピッチ訂正C's(Fps)から、訂正された信号の新しい出力周期T0'(Fps)が計算される。フレームFpsにおける非発声信号に対しては、T0'(Fps)=T0(Fps)である。フレームFpsにおける発声された信号(voiced signals)に対しては、

0'(Fps)=T0(Fps)/C's(Fps) (8)
である。
この処理から、短期間合成ウィンドウts(v)のシーケンス802が生成される。このシーケンス802は、新しい出力周期T0’(Fps)に同期されて、

ts(v)−ts(v−1)=T0'(Fps) (9)

のようになる。ここで、ts(v)は、出力フレームにおけるv番目の合成インスタンスである。
図10(a)及び10(b)に説明されるように、各ts(v)に対して、時間において最も近いs'(n)データのそのウィンドウta(u)が、選択される。s'(n)データの選択されたウィンドウta(u)は、次に、出力ストリーム・バッファ(不図示)に加えられて、出力信号ストリームs''(n)を、1フレームFpsの全ての短期間合成ウィンドウts(v)を組み合わせるオーバラップ及び加算の既知の方法によって、一回に1フレームずつ生成する。実効的に、ウィンドウ化されたサンプルs'(u,n)は、T0(Fps)の周期と再結合されるのではなくむしろ、T0'(Fps)のピッチ周期と再結合(recombined)される。
更なる実施例が説明される。
ビブラート及び抑揚曲線を含むピッチに加えて、音声信号の多くの他の特徴(features)が、測定可能であり、修正され得る。これらの例は、瞬時ラウドネス、声門音特性、スピーチ・フォーマット又は共鳴パターン、等化、反響、及び、エコー特性である。更に、新しい及びガイド信号は、必ずしも、韻律的、リズミック、又は、音響的な類似性を持つことに制限されない。
図8において、それぞれモジュール840及び850において新しい信号及びガイド信号に対して作動して、fs(N)及びfg(M)を生成する、特徴分析作動が示される。これらは、それぞれフレームN及びMで測定された、選択された特徴を指定する特徴ベクトルとして肉太に(bold)示される。ベクトルは、同じ特徴のものである必要はない。fg(M)が、少なくとも1つの特徴を含まなければなければならない一方、更なる実施例において、fs(N)は、何の特徴(feature)も持たないヌル・ベクトルであり得る。
特徴調整関数、A(fs(N),fg(M),M)が提供されねばならず、ここでは、ソース865からの処理仕様(specification)としての、システムへの入力である。この関数は、フレームN及びMにおける2つの信号の特徴ベクトル(ここで、これらの2つは、同じフレームであり得るか、又は、同じフレームでは無いかもしれない。) の間の所望の関係、フレーム・パラメータMによって表現されるような経過時間、及び、ソフトウェアで実現されてモジュール870で適用される時間変動する信号修正工程、を規定する。この関数及びバリエーションは、一般的に、システム・プログラマによって規定され、入力され、引き続き、プリセットの組として提示され得、及び/又は、システム・ユーザによって選択され得る、ユーザによって定義されたバリエーションを提供し得ることになる。
A(fs(N),fg(M),M)における2つの異なった特徴を用いることの例には、新しい信号が移動バンドパス・フィルタのバンド内にエネルギーを含むという条件下で、ガイド信号のラウドネスが、新しい信号における移動バンドパス・フィルタ・プロセスの中央周波数を制御することが含まれる。AをMの関数にすることもまた、工程が、関数への、あり得る(possible)時間ベースの修正を含むことを一般化する。
前に説明された方法2を採用する他の実施例が、図9Aに示される。ここでは、時間整列された新しい信号波形が、最初のステップとして生成されない。その代わりに、モジュール920で図3及び8の実施例におけるものとして得られた時間整列データが用いられて、モジュール960において、ガイド信号の測定された特徴を、新しい信号における適切な時間(appropriate times)に時間歪みさせる(time distort)。モジュール970は、新しい信号に、時間整列された修正を為す。選択的な時間整列は、同時に(モジュール970と975の処理の1つのアルゴリズムへの結合) 特徴修正工程モジュール970において、修正された新しい信号において実行され得、又は、後続のプロセス・モジュール975において、特徴修正された信号に対して実行され得る。このアプローチの更なる詳細は、以下に与えられる。
図5における時間整列関数の逆は、フレームkにおけるガイド信号の一致フレームを、フレームjにおける新しい信号の各フレームにマップする。もし、Fsが、新しい信号のフレーム番号であり、W(Fs)が、時間整列工程モジュール920によって生成された(逆)時間ワーピング関数(又はマッピング関数)ならば、

Fag(Fs)=W(Fs) (10)

であり、ここで、Fagは、時間整列されたガイドの対応するフレーム番号である。
このマッピングから、特徴調整関数の、時間整列された、又は、ワープされたバージョンが生成され、(図示せず)9Aの調整モジュール960で使用される。
例として、ピッチ訂正での応用に戻って、式(1)に基づいて、ピッチ訂正関数のワープされたバージョンが、

C(Fs)=Pg(Fag(Fs))/Ps(Fs) (11)

として計算される。
(10)及び(11)から、

C(Fs)=Pg(W(Fs))/Ps(Fs) (12)

ここで、C(Fs)は、新しい信号のフレームFsの訂正ファクターである。
Ps(Fs)は、新しい信号のフレームFsの予測されたピッチである。W(Fs)は、ワーピング関数からの、ガイドにおける対応するフレームである。(必要であれば)オクターブ修正を含む、以前説明された、C(Fs)の更なる処理が、調整モジュール960において行われる。この調整モジュール960は次に、式(2)に基づいて、

C(Fs)=P’g(W(Fs))/(Q*P’s(Fs)) (13)

で与えられる修正関数を提供する。
この修正関数は、修正モジュール970において、フレーム毎に(on a frame by frame basis)、s(n)に適用されて、修正された出力s*(n)を生成する。
分析及び修正のために、如何なる信号特徴も指定されることを可能とするために、図9Aに示される処理は、図8に示されるように一般化されるが、記憶部980における修正された出力s*(n)がガイド信号と時間整列されていない代わりに、オリジナルの新しい信号s(n)のタイミングを持つ点で異なる。修正された出力s*(n)の、ガイド信号g(n)への時間整列は、モジュール970における特徴修正及びモジュール975における時間整列が同時に実行されるような単一の工程においてピッチ修正に対して実現できる。例えば、同時に、ピッチ及び時間修正を実施する(これは、潜在的な処理アーティファクトを低減し、計算効率を改善し得る)ための方法の記述は、J. McAulay and T. Quatieri (1992), "Shape Invariant Time-Scale and Pitch Modification of Speech", IEEE Trans. Sig. Processing, IEEE Trans. Sig. Processing, March, Vol. 40 No. 3, 497-510 ページ、及び、D. O'Brien and A. Monaghan (1999), "Shape Invariant Pitch Modification of Speech Using a Harmonic Model", EuroSpeech 1999, 1059-1062ページのような参考文献に見出される。これらの参考文献は、適用するシフトの量を決定するために、任意の一定ピッチ・シフトか、オリジナルの信号の測定に基づく一定のピッチ・シフトかのいずれかを想定する。例えば、もし、非発声のフレームが、オリジナルの発声波形で検知されるならば、そのフレーム中に適用される全ての(any)時間又はピッチ修正をスイッチ・オフ、又は、少なくとも低減することが通常のやり方である。
選択的に、通常の時間整列関数も、信号s'*(n)を生成するために、モジュール975における非線形の編集工程に適用され得る。このs'*(n)は、特徴が修正された新しい信号s*(n)の時間整列されたバージョンである。
方法3を実行する他の実施例は、図9Bに説明される。この図では、記憶モジュール982内の時間整列された信号s'(n)が、モジュール920で生成された、オリジナルの時間整列されたパスを用いて、モジュール975によって生成される。このアレンジメントにおいて、新しい信号の特徴コンターは、非修正の新しい信号s(n)から、モジュール840によって生成され、ガイド信号の特徴コンターは、モジュール850によって生成される。モジュール960において、式

C(M)=P'g(M)/Q*P's(w(M)) (14)

(ここで、w(M)は、モジュール920によって生成された時間ワーピング・パスである)が実行されて、特徴修正コンターC(M)を生成する。この修正コンターは、モジュール972で、時間整列された新しい信号に適用されて、時間整列された、そして、特徴が修正された、新しい信号s*(n)を、出力記憶モジュール987で生成する。
更なる実施例において、1つの連続的な信号の代わりに、ガイド信号は、一連の異なった個々の信号から成り立ち得る。或いは、マルチプルのガイド信号(例えば、ハーモニー・ボーカル)が使用されて、単一の新しい信号から、マルチプルのボーカル・パーツを生成し得る。
更なる実施例において、新しい信号における特徴は、測定される必要が無い、又は、新しい信号の特徴調整計算に入力される必要が無く、単純に、ガイド信号の特徴又は複数の特徴の測定に基づいて、修正され得る。これの例は、ガイド信号におけるそれらの特徴の関数としての、新しい信号への反響又はEQの適用であり得る。
以上の実施例で用いられる処理モジュールは、図1及び2のシステム100のようなシステムで実現される際には、ソフトウェア・モジュールであるが、代替的な実装においては、ハードウェア・モジュール、又は、ハードウェア及びソフトウェア・モジュールの混合物であり得ることが理解されるであろう。
本発明の1つの応用は、例えば、携帯電話又はコンピュータ・ベースの電話システムでの電話の呼び出し音を提供できるユーザの声を持つ、個人化された(personalised)音声ファイルを生成するためのものである。他の例は、電話の呼び出し中又は他のデータ交換中に、発呼者(caller)又は呼の受信者に提示され得る、何らかの呼び出し音や他の音声を置換することを含む。そのような交換は、電話ネットワーク、VOIP(ボイス・オーバー・インターネット・プロトコル)システム、又は、他のメッセージ配送システムを介して行われ得る。更なる例は、個人化された事前録音のメッセージを使用し得る、何らかの装置又はシステムに対する、個人化された音声ファイルの生成を含む。
図11は、ユーザが、そのような音声ファイルを生成、発送、及び、受信することを可能とするための本発明の実施例を説明する。オペレーションにおいて、ユーザは、陸上ラインのハンドセット1110又は移動電話のハンドセット1120から、電気通信ネットワーク1140を介して、電話コールを開始する。適切なコンバータ1150が、電気通信ネットワーク1140から信号を受信し、それを、デジタル音声信号及びオペレーショナルなコマンド・トーンに変換する(これらは、サーバ・コンピュータ1160によって処理される)。サーバコンピュータ1160は、ユーザに選択及びオペレーションについてのフィードバックを与えるために、作動可能に、モジュール1165から、インタラクティブな発声応答(IVR:Interactive Voice Response)を提供する。
サーバ・コンピュータ1160は、1つあるいはそれより多いコンピュータの中に実装され得、図3又は8又は9A又は9Bに説明される工程を実施するための音声処理モジュール1170を取り込み得る。コンピュータ1160は、歌の音声ファイルを記憶するために、記憶モジュール1180にアクセスし、それらの歌のファイルを参照するために、データベースにアクセスする。コンピュータ1160は、記憶モジュール1185内に、オリジナルの及び処理されたユーザ音声レコーディング、並びに、それらのレコーディングを参照するためのデータベースをも記憶する。
サーバ・コンピュータ1160は、タッチトーン又は他の信号を解釈して、オペレーションを開始する。例えば、この実装における電話のキーパッドで、ユーザは、コンピュータ1160に、
(a) 「トラック(track)」(例えば、(モジュール1180に記憶される)歌の一部)を選択することを選択する、
(b) ユーザが、それ(選択されたトラック)を聞いて、それに対してリハーサルするために、選択されたトラックを、コンバータ1150及びネットワーク1140を介して、電話ハンドセット1110または1120に送信する、
(c) 選択されたトラックが電話ハンドセット1110又は1120を通じて再生(replaying)し、そして、ユーザが、ハンドセット・マイクロホンに向かって歌う間に、ユーザの声を記録する、
(d) 適切な背景トラック(例えば、オリジナルの歌手の声が無いトラックのバージョン)と混合されたユーザの声の処理された記録を再生する、
ように指令できる。
ステップ(c)において、ユーザの声は、記憶モジュール1185に記録され、図3又は8又は9A又は9Bに示されるもののような処理を実行する処理モジュール1170を介して処理され、結果が、モジュール1185に記憶される。
最後に、次に、ユーザは、彼/彼女のハンドセット1110又は1120のキーパッドで、受信者の移動電話番号を入力する。コンピュータ1160は次に、「WAPプッシュ」システムのようなリングトーン配送システム1190を用いて、データ・メッセージを受信者の番号に送る。このデータ・メッセージは、受信者に、処理された音声を、彼の移動電話又は他の装置にダウンロードするために必要とされる情報を与える。
代替的な実装において、マイクロホン159及びスピーカ156を有するユーザのコンピュータ100が、直接インターネット175を介して、又は、VOIPソフトウェア1135を用いた電話コールによって、サーバ・コンピュータ1160にアクセスするために用いられる。ユーザは、次に、前に説明したのと同じ手順を行い得るが、コンピュータ100を用いて聞き、記録し、コンピュータ100のキーボード125(不図示)に入力されたコマンドを、サーバ・コンピュータ1160に送る。ユーザは、最後に、配送システム1190を通じて生成された音声ファイルを受信するために、その番号によって、移動電話を指定できる。音声ファイルは、指定されたコンピュータのVOIPシステムにおけるリングトーン又は他の識別音ファイルとして、ユーザのコンピュータ100、又は、(友人のコンピュータのような)他の指定されたコンピュータにおいても使用され得る。
ユーザが、インターネットを介してサーバ・コンピュータ1160にアクセスするような他の代替的実装において、図3又は8又は9A又は9Bの処理モジュールのいくつか又は全ては、モジュール1130によって表されるように、ユーザのコンピュータ100にダウンロードされ得る。サーバ・コンピュータ1160における音声処理モジュールの支援ありで、又は当該支援無しで、モジュール1130の使用の結果得られ、ユーザのコンピュータ100か、記憶モジュール1185かのいずれかに記憶される音声ファイルは、インターネット175又は電気通信ネットワーク1140を介して、要求された宛先の(destination)電話又は他のパーソナル・コンンピュータに送られ得る。
更なる実施例において、プロセッサは、その全体又は一部が、電話内、又は、コンピュータ・システム及びメモリ及び要求された音声信号を入力し出力するための手段を含む何らかの他の装置の中に実装され得る。
更なる実施例において、サーバ・コンピュータ1160から、ユーザが受信する歌の音声ファイルとともに、(音楽ビデオのような)ビデオ信号が提供され得る。ユーザは、これらの音声及びビデオ信号を再生でき、上述のような音声レコーディングが可能である。背景トラック及び同期されたビデオと混合された、処理されたファイルは、指定された電話、パーソナル・コンピュータ、又は、音声/映像ファイルを再生できる他の装置、に配送される。
歌の音声ファイルは、歌に限定されず、スピーチ、音声効果、音楽、又は、これらの組み合わせを含む、如何なる音声記録でもあり得る。
本発明の実施における使用のために適したコンピュータ・システムのブロック図である。 本発明を実施するために図1のコンピュータに追加され得る、追加的なソフトウェア・コンポーネントを示すブロック図である。 異なったピッチ及びタイミング特性を持つ入力信号に基づくピッチ調整を伴う出力音声信号を生成するために使用される信号及び処理モジュールを示す本発明の1つの実施例のブロック図である。 プロの歌手の録音されたガイド発声に対しての時間の関数としてのピッチ測定、及び、同じ音楽伴奏に対して同じ歌を歌う、訓練されていないユーザからの録音された新しい信号における同じ測定の、一般的な例を示すグラフである。 時間ワーピング関数又はアルゴリズム・パスを表すグラフである。 左の周波数軸に対する、図4(ピッチ訂正前)からのガイド信号のピッチ及び整列された新しい信号のピッチ、並びに、右の垂直軸に対する、計算された円滑化されたピッチ訂正ファクターを示すグラフである。 ガイド信号のピッチ、及び、(図6では非訂正状態で示された)訂正された新しい信号ピッチのグラフである。 任意の入力信号の時間整列された特徴に基づく何らかの一般的信号特徴修正を持つ出力音声信号を生成するために用いられる信号及び処理モジュールを示す本発明の他の実施例のブロック図である。 本発明に従った処理であって、当該処理において新しい信号の特徴が、ガイド信号への同時時間整列によって、又は、それ無しに修正される当該処理を有する更なる実施例のブロック図である。 本発明に従った処理であって、当該処理の中で、時間整列パスが、時間整列された新しい信号を生成すること、及び、時間整列された新しい信号に為されるべき修正を正確に決定するためのマッピング関数を提供すること、の双方のために用いられる、当該処理を有する更なる実施例のブロック図である。 図10(a)は、オーバーラップ及び加算合成を用いて信号s''(n)を生成するために使用される分析ウィンドウの相対位置及び形状の例のグラフィックな表現である。図10(b)は、オーバーラップ及び加算合成を用いて信号s''(n)を生成するために用いられる合成ウィンドウの相対位置及び形状の例のグラフィカルな表現である。 通信システムを利用する、本発明の更なる実施例のブロック図である。

Claims (45)

  1. 音声信号(audio signal)の少なくとも1つの音響的特徴(acousticfeature)を修正するための方法であって、
    第1の及び第2のサンプルされた音声信号を比較して、当該第2の信号における時間に依存する特徴の発生の時間と、当該第1の信号における時間に依存する特徴の発生の時間の間のタイミング差から時間整列データを決定し、
    前記第1の信号に沿った選択された位置において、前記第1の信号の少なくとも1つの音響的特徴を測定して、そこから、第1の信号特徴測定のシーケンスを生成し、
    第1の信号特徴測定の前記シーケンスを処理して、特徴修正データのシーケンスを生成し、そして、
    特徴修正データの前記シーケンスを、前記第2の信号に適用して、前記時間整列データによって、前記第2の信号の選択された部分の少なくとも1つの音響的特徴を修正する、
    ステップを含む方法。
  2. 前記方法が、
    前記第2の信号に沿った選択された位置において、前記第2の信号の前記少なくとも1つの音響的特徴を測定して、そこから、第2の信号特徴測定のシーケンスを生成するステップを含み、
    第1の信号測定の前記シーケンスを処理するステップが、前記第1の信号特徴測定を、前記第2の信号特徴測定と比較し、そのような比較から前記特徴修正データを決定することを含む、
    請求項1に記載の方法。
  3. 前記特徴修正データを適用する前記ステップが、前記時間整列データを用いて、前記第2のサンプルされた信号から、時間整列された第2の信号を生成し、前記特徴修正データを、当該時間整列された第2の信号に適用するステップを含む、請求項1又は2に記載の方法。
  4. 前記処理ステップが、前記第1の信号特徴測定で、前記時間整列されたデータを用いて、前記第2の信号特徴測定との時間整列において前記特徴修正データを生成するステップを含む、請求項2又は3に記載の方法。
  5. 前記特徴修正データを適用するステップが、所定の関数に従って、前記特徴修正データを変更(modulating)して、前記特徴修正データと前記所定の関数との共同(jointly)によって、前記第2の信号の前記選択された部分の前記少なくとも1つの音響的特徴を修正することを含む、以上のいずれかの請求項に記載の方法。
  6. 前記第1の信号の前記少なくとも1つの音響的特徴がピッチである、以上のいずれかの請求項に記載の方法。
  7. 前記第2の信号の前記少なくとも1つの音響的特徴がピッチである、以上のいずれかの請求項に記載の方法。
  8. 前記第1の及び第2の信号の前記時間に従属する特徴が、サンプルされたスペクトラル・エネルギー測定である、以上のいずれかの請求項に記載の方法。
  9. 前記第1の信号の前記少なくとも1つの音響的特徴がピッチであり、前記第2の信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記処理ステップが、前記第1の信号のピッチ測定と、前記第2の信号の時間整列されたピッチ測定の比率の値から、乗算ファクターを決定して、当該ファクターを、前記特徴修正データを適用する前記ステップに含ませて、前記修正され選択された信号部分内の前記第2の信号においてピッチ変化の周波数範囲をシフトする、ステップを含む、
    請求項1に記載の方法。
  10. 2のべき乗(a power of two)だけ前記乗算ファクターをスケーリングして、前記2のべき乗の選択に従って、前記修正され選択された信号部分におけるピッチを変更するステップを更に含む、
    請求項9に記載の方法。
  11. 前記第2の信号に沿った、選択された位置で測定する前記ステップが、
    前記時間整列データを用いて、前記第2のサンプルされた信号から、時間整列された第2の信号であって、当該第2の信号内に、前記第2のサンプルされた信号の前記時間に依存する特徴の発生の時間(times)が、前記第1のサンプルされた信号における前記時間に依存する特徴の発生の時間と実質的に一致する、当該第2の信号を生成するステップを含み、
    前記時間整列された第2の信号に沿った位置での前記時間整列された第2の信号における前記少なくとも1つの音響的特徴の測定が、前記第1のサンプルされた信号に沿った前記選択された位置と、タイミングにおいて関連するように選択される、
    請求項2に記載の方法。
  12. 前記第1のサンプルされた信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記第2のサンプルされた信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記特徴修正データを適用する前記ステップが、
    前記時間整列されたデータを用いて、前記第2のサンプルされた信号から、時間整列された第2の信号を生成して、前記特徴修正データを、前記時間整列された第2の信号に適用して、ピッチ修正され時間整列された第2の信号を生成するステップを含む、
    請求項2に記載の方法。
  13. 前記特徴修正データを適用する前記ステップが、
    所定の関数に従って、前記特徴修正データを変更して、前記特徴修正データと前記所定の関数の共同によって、前記第2の信号の前記選択された部分におけるピッチを修正することを含む、
    請求項12に記載の方法。
  14. 前記所定の関数が、前記第1のサンプルされた信号におけるピッチ測定と、前記第2のサンプルされた信号に沿った前記第2のサンプルされた信号における対応するピッチ測定の比率の前記値の関数である、請求項13に記載の方法。
  15. 第1の及び第2のサンプルされた音声信号を比較して、前記第2の信号における時間に従属する特徴の発生の時間と、前記第1の信号における時間に依存する特徴の発生の時間の間のタイミング差から、時間整列データを決定するための手段、
    前記第1の信号に沿った、選択された位置において、前記第1の信号の少なくとも1つの音響的特徴を測定して、そこから、第1の信号特徴測定のシーケンスを生成するための手段、
    第1の信号特徴測定の前記シーケンスを処理して、特徴修正データのシーケンスを生成するための手段、及び、
    特徴修正データの前記シーケンスを、前記第2の信号に適用して、前記時間整列されたデータに従って、前記第2の信号の選択された位置の少なくとも1つの音響的特徴を修正するための手段、
    を備える、音声信号の少なくとも1つの音響的特徴を修正するための装置。
  16. 前記第2の信号に沿った、選択された位置において、前記第2の信号の前記少なくとも1つの音響的特徴を測定して、そこから、第2の信号特徴測定のシーケンスを生成するための手段を更に備え、
    第1の信号測定の前記シーケンスを処理するための手段が、前記第1の信号特徴測定を、前記第2の信号特徴測定と比較して、そのような比較から、前記特徴修正データを決定するための手段を含む、請求項15に記載の装置。
  17. 前記特徴修正データを適用するための前記手段が、前記時間整列データを使用して、前記第2のサンプルされた信号から、時間整列された第2の信号を生成し、前記特徴修正データを、前記時間整列された第2の信号に適用するための手段を含む、
    請求項15又は16に記載の装置。
  18. 前記処理手段が、前記第1の信号特徴測定について前記時間整列データを使用して、前記第2の信号特徴測定と時間整列した前記特徴修正データを生成するための手段を含み、
    請求項16又は17に記載の装置。
  19. 前記特徴修正データを適用するための前記手段が、所定の関数に従って、前記特徴修正データを変更(modulating)して、前記特徴修正データと前記所定の関数の共同によって、前記第2の信号の前記選択された部分の前記少なくとも1つの音響的特徴を修正するための手段を含む、請求項15に記載の装置。
  20. 前記第1の信号の前記少なくとも1つの音響的特徴がピッチである、請求項15に記載の装置。
  21. 前記第2の信号の前記少なくとも1つの音響的特徴がピッチである、請求項15に記載の装置。
  22. 前記第1の及び第2の信号の前記時間に従属する特徴が、サンプルされたスペクトラル・エネルギー測定である、請求項15に記載の装置。
  23. 前記第1の信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記第2の信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記処理手段が、前記第1の信号のピッチ測定と、前記第2の信号の時間整列されたピッチ測定の比率の値から、乗算ファクターを決定して、前記特徴修正データの適用に前記ファクターを含ませて、前記修正され選択された信号部分の前記第2の信号におけるピッチ変化の周波数範囲をシフトさせるための手段を含む、
    請求項15に記載の装置。
  24. 2のべき乗によって前記乗算ファクターをスケーリングして、当該2のべき乗の選択に従って、前記第2の修正され、選択された信号部分におけるピッチを変更するための手段を更に含む、請求項23に記載の装置。
  25. 前記第2の信号に沿った選択された部分において測定するための前記手段が、
    前記時間整列データを使用して、前記第2のサンプルされた信号から、時間整列された第2の信号であって、当該第2の信号内で、前記第2のサンプルされた信号の前記時間に従属する特徴の発生の時間が、実質的に、前記第1のサンプルされた信号における前記時間に従属する特徴の発生の時間と一致する、当該第2の信号を生成するための手段を含み、
    前記時間整列された第2の信号に沿った位置での、前記時間整列された第2の信号における前記少なくとも1つの音響的特徴を測定するための手段が、タイミング的に、前記第1のサンプルされた信号に沿った、前記選択された位置と関連するように選択される、
    請求項16に記載の装置。
  26. タイミング的に関連するように選択された前記位置が、実質的に、タイミング的に、前記第1のサンプルされた信号に沿った、前記選択された位置と一致する、請求項25に記載の装置。
  27. 前記第1のサンプルされた信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記第2のサンプルされた信号の前記少なくとも1つの音響的特徴がピッチであり、
    前記特徴修正データを適用するための前記手段が、
    前記時間整列データを使用して、前記第2のサンプルされた信号から、時間整列された第2の信号を生成して、前記特徴修正データを、前記時間整列された第2の信号に適用して、ピッチ修正され時間整列された第2の信号を生成するための手段を含む、
    請求項16に記載の装置。
  28. 前記特徴修正データを適用するための手段が、
    前記特徴修正データと、前記所定の関数の共同によって、前記第2の信号の前記選択された部分におけるピッチを修正するように、所定の関数に従って、前記特徴修正データを変更するための手段を含む、請求項27に記載の装置。
  29. 前記所定の関数が、前記第1のサンプルされた信号におけるピッチ測定と、前記第2のサンプルされた信号に沿った前記第2のサンプルされた信号における対応するピッチ測定の、前記比率の前記値の関数である、請求項28に記載の装置。
  30. 新しい信号及びガイド音声信号を受信し、それらから、時間整列された新しい信号を生成するようにされた時間整列モジュール、
    前記時間整列モジュールにカップルされ、前記時間整列された新しい信号においてピッチを測定するようにされた第1のピッチ測定モジュール、
    前記ガイド音声信号を受信し、前記ガイド音声信号におけるピッチを測定するようにされた第2のピッチ測定モジュール、
    前記第1の及び第2のピッチ測定モジュールにカップルされ、ピッチ訂正ファクターを計算するようにされたピッチ調整計算機、及び、
    前記時間整列された新しい信号を受信するために前記時間整列モジュールにカップルされ、前記ピッチ訂正ファクターを受信するために前記ピッチ調整計算機にカップルされ、前記ピッチ訂正ファクターに従って、前記時間整列された新しい信号におけるピッチを修正するようにされたピッチ変更器、
    を備える音声信号修正装置。
  31. 新しい信号及びガイド音声信号を受信して、それらから、時間整列された新しい信号を生成するようにされた時間整列モジュール、
    前記ガイド音声信号を受信し、前記ガイド音声信号の少なくとも1つの音響的特徴を測定するようにされた第1の音響的特徴測定モジュール、
    前記第1の音響的特徴測定モジュールにカップルされ、音響的特徴修正ファクターを計算するようにされた音響的特徴調整計算機、及び、
    前記時間整列された新しい信号を受信するために前記時間整列モジュールにカップルされ、前記音響的特徴修正ファクターを受信するために前記音響的特徴調整計算機にカップルされ、前記音響的特徴修正ファクターに従って、前記時間整列された新しい信号の前記少なくとも1つの音響的特徴を修正するようにされた音響的特徴変更器、
    を備える音声信号修正装置。
  32. 処理関数モジュールが、前記特徴調整計算機にカップルされて、そこに、信号関数を供給し、
    前記特徴調整計算機が、前記信号関数とは独立して、前記音響的特徴修正ファクターを計算するようにされる、
    請求項31に記載の音声信号修正装置。
  33. 第2の音響的特徴測定モジュールが、前記時間整列モジュールにカップルされ、
    前記時間整列された新しい信号の少なくとも1つの音響的特徴を測定するようにされ、そして、
    前記音響的特徴調整計算機が、前記第2の音響的特徴測定モジュールにカップルされた、
    請求項31又は32に記載の音声信号修正装置。
  34. 第2の音響的特徴測定モジュールが、前記新しい音声信号を受信し、前記新しい音声信号の前記少なくとも1つの音響的特徴を測定するようにされ、
    前記音響的特徴調整計算機が、前記第2の音響的特徴測定モジュール及び前記時間整列モジュールにカップルされ、前記新しい音声信号の前記測定された音響的特徴を、前記ガイド音声信号の前記測定された音響的特徴に整列するようにされている、
    請求項31に記載の音声信号修正装置。
  35. 新しい音声信号及びガイド音声信号を受信し、それらから、時間整列データを生成するようにされた時間整列モジュール、
    前記ガイド音声信号を受信し、前記ガイド音声信号の少なくとも1つの音響的特徴を測定するようにされた第1の音響的特徴測定モジュール、
    前記時間整列モジュール及び前記第1の音響的特徴測定モジュールにカップルされ、音響的特徴修正ファクターの時間整列された値を計算するようにされた音響的特徴調整計算機、および、
    新しい音声信号を受信するためにカップルされ、前記音響的特徴修正ファクターの前記時間整列された値を受信するために前記音響的特徴調整計算機にカップルされ、修正された新しい音声信号を生成するように、前記音響的特徴修正ファクターの前記時間整列された値に従って、前記新しい音声信号の前記少なくとも1つの音響的特徴を修正するようにされた音響的特徴変更器、
    を備える音声信号修正装置。
  36. 時間整列器が、前記修正された新しい音声信号を受信するために前記音響的特徴変更器にカップルされ、前記時間整列データを受信するために前記時間整列モジュールにカップルされ、前記修正された新しい音声信号及び時間整列データに従って、時間整列された新しい信号を生成するようにされた、請求項35に記載の音声信号修正装置。
  37. 第2の音響的特徴測定モジュールが、前記新しい音声信号を受信し、前記新しい音声信号の少なくとも1つの音響的特徴を測定するようにされ、そして、
    前記音響的特徴調整計算機が、前記第2の音響的特徴測定モジュールにカップルされた、
    請求項35又は36に記載の音声信号修正装置。
  38. 前記適用するステップが、それによって、修正された第2の信号を表すデータを生成することを含む、請求項1に記載の方法。
  39. 前記修正された第2の信号を表すデータを電気通信装置に提供するステップを更に含む、請求項38に記載の方法。
  40. 前記提供するステップが、前記修正された第2の信号を表すデータを、リングトーン配送システムを通じて送信することを含む、請求項39に記載の方法。
  41. 前記比較手段、前記測定手段、前記処理手段、及び、前記適用手段が、電気通信装置内に取り込まれている、請求項16に記載の装置。
  42. 前記電気通信装置が、電気通信ネットワークにカップルされるようにされたサーバ・コンピュータを備える、請求項41に記載の装置。
  43. 前記電気通信装置が移動電話を備える、請求項41に記載の装置。
  44. 前記電気通信装置が、修正された第2の信号を表すデータを、リングトーン・システムに供給するようにされる、請求項41に記載の装置。
  45. 前記移動電話が、修正された第2の信号を表すデータを、リングトーン・システムに供給するようにされる、請求項43に記載の装置。
JP2007552713A 2005-01-27 2006-01-26 音響的特徴の同期化された修正のための方法及び装置 Active JP5143569B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US64755505P 2005-01-27 2005-01-27
GB0501744A GB2422755A (en) 2005-01-27 2005-01-27 Audio signal processing
GB0501744.7 2005-01-27
US60/647,555 2005-01-27
PCT/GB2006/000262 WO2006079813A1 (en) 2005-01-27 2006-01-26 Methods and apparatus for use in sound modification

Publications (3)

Publication Number Publication Date
JP2008529078A true JP2008529078A (ja) 2008-07-31
JP2008529078A5 JP2008529078A5 (ja) 2010-07-22
JP5143569B2 JP5143569B2 (ja) 2013-02-13

Family

ID=36120266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007552713A Active JP5143569B2 (ja) 2005-01-27 2006-01-26 音響的特徴の同期化された修正のための方法及び装置

Country Status (4)

Country Link
EP (1) EP1849154B1 (ja)
JP (1) JP5143569B2 (ja)
PL (1) PL1849154T3 (ja)
WO (1) WO2006079813A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011521303A (ja) * 2008-07-11 2011-07-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間軸圧縮曲線計算機、音声信号符号器、符号化された音声信号表現、復号化された音声信号表現の提供方法、符号化された音声信号表現の提供方法、およびコンピュータプログラム
WO2012046447A1 (ja) * 2010-10-06 2012-04-12 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
US9015041B2 (en) 2008-07-11 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
JP2015534095A (ja) * 2012-08-07 2015-11-26 スミュール, インク.Smule, Inc. 選択的に適用可能な(複数の)ボーカルエフェクトスケジュールに基づいて、その後で再演奏するために、ボーカル演奏の連続的リアルタイムピッチ補正およびドライボーカル取込を用いるソーシャル音楽システムおよび方法
US10229662B2 (en) 2010-04-12 2019-03-12 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US10930256B2 (en) 2010-04-12 2021-02-23 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4322283B2 (ja) * 2007-02-26 2009-08-26 独立行政法人産業技術総合研究所 演奏判定装置およびプログラム
JP5135931B2 (ja) 2007-07-17 2013-02-06 ヤマハ株式会社 楽曲加工装置およびプログラム
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
JP5141397B2 (ja) 2008-06-24 2013-02-13 ヤマハ株式会社 音声処理装置およびプログラム
JP6003083B2 (ja) * 2012-02-27 2016-10-05 ソニー株式会社 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
CN104080024B (zh) * 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
KR20150072597A (ko) 2013-12-20 2015-06-30 삼성전자주식회사 멀티미디어 장치 및 이의 음악 작곡 방법, 그리고 노래 보정 방법
CN105869621B (zh) * 2016-05-20 2019-10-25 广州华多网络科技有限公司 音频合成装置及其音频合成的方法
US11176957B2 (en) 2017-08-17 2021-11-16 Cerence Operating Company Low complexity detection of voiced speech and pitch estimation
CN109841225B (zh) * 2019-01-28 2021-04-30 北京易捷胜科技有限公司 声音替换方法、电子设备和存储介质
CN110769309B (zh) * 2019-11-04 2023-03-31 北京字节跳动网络技术有限公司 用于展示音乐点的方法、装置、电子设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772881A (ja) * 1993-09-06 1995-03-17 Matsushita Electric Ind Co Ltd カラオケ装置
JPH08234772A (ja) * 1995-02-27 1996-09-13 Yamaha Corp カラオケ装置
JPH09198091A (ja) * 1996-01-18 1997-07-31 Yamaha Corp フォルマント変換装置およびカラオケ装置
JP2001117599A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声処理装置およびカラオケ装置
JP2003044066A (ja) * 2001-07-31 2003-02-14 Daiichikosho Co Ltd ピッチシフター付きカラオケ装置
JP2004133409A (ja) * 2002-08-07 2004-04-30 Speedlingua Sa 音声イントネーション較正方法
JP2004287350A (ja) * 2003-03-25 2004-10-14 Casio Comput Co Ltd 音声変換装置、音声効果付与装置、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
GB9711339D0 (en) * 1997-06-02 1997-07-30 Isis Innovation Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0772881A (ja) * 1993-09-06 1995-03-17 Matsushita Electric Ind Co Ltd カラオケ装置
JPH08234772A (ja) * 1995-02-27 1996-09-13 Yamaha Corp カラオケ装置
JPH09198091A (ja) * 1996-01-18 1997-07-31 Yamaha Corp フォルマント変換装置およびカラオケ装置
JP2001117599A (ja) * 1999-10-21 2001-04-27 Yamaha Corp 音声処理装置およびカラオケ装置
JP2003044066A (ja) * 2001-07-31 2003-02-14 Daiichikosho Co Ltd ピッチシフター付きカラオケ装置
JP2004133409A (ja) * 2002-08-07 2004-04-30 Speedlingua Sa 音声イントネーション較正方法
JP2004287350A (ja) * 2003-03-25 2004-10-14 Casio Comput Co Ltd 音声変換装置、音声効果付与装置、及びプログラム

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9431026B2 (en) 2008-07-11 2016-08-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9466313B2 (en) 2008-07-11 2016-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9263057B2 (en) 2008-07-11 2016-02-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9293149B2 (en) 2008-07-11 2016-03-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9015041B2 (en) 2008-07-11 2015-04-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9025777B2 (en) 2008-07-11 2015-05-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, encoded multi-channel audio signal representation, methods and computer program
US9043216B2 (en) 2008-07-11 2015-05-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, time warp contour data provider, method and computer program
US9646632B2 (en) 2008-07-11 2017-05-09 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
US9502049B2 (en) 2008-07-11 2016-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
JP2011521304A (ja) * 2008-07-11 2011-07-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 音声信号復号器、時間軸圧縮曲線データ提供装置、復号化された音声信号の提供方法、およびコンピュータプログラム
JP2011521303A (ja) * 2008-07-11 2011-07-21 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 時間軸圧縮曲線計算機、音声信号符号器、符号化された音声信号表現、復号化された音声信号表現の提供方法、符号化された音声信号表現の提供方法、およびコンピュータプログラム
US9299363B2 (en) 2008-07-11 2016-03-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time warp contour calculator, audio signal encoder, encoded audio signal representation, methods and computer program
US10930256B2 (en) 2010-04-12 2021-02-23 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US10229662B2 (en) 2010-04-12 2019-03-12 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
JPWO2012046447A1 (ja) * 2010-10-06 2014-02-24 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
WO2012046447A1 (ja) * 2010-10-06 2012-04-12 パナソニック株式会社 符号化装置、復号装置、符号化方法及び復号方法
US9117461B2 (en) 2010-10-06 2015-08-25 Panasonic Corporation Coding device, decoding device, coding method, and decoding method for audio signals
JP2015534095A (ja) * 2012-08-07 2015-11-26 スミュール, インク.Smule, Inc. 選択的に適用可能な(複数の)ボーカルエフェクトスケジュールに基づいて、その後で再演奏するために、ボーカル演奏の連続的リアルタイムピッチ補正およびドライボーカル取込を用いるソーシャル音楽システムおよび方法

Also Published As

Publication number Publication date
PL1849154T3 (pl) 2011-05-31
EP1849154A1 (en) 2007-10-31
EP1849154B1 (en) 2010-12-15
JP5143569B2 (ja) 2013-02-13
WO2006079813A1 (en) 2006-08-03

Similar Documents

Publication Publication Date Title
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP5143569B2 (ja) 音響的特徴の同期化された修正のための方法及び装置
US9847078B2 (en) Music performance system and method thereof
ES2356476T3 (es) Procedimiento y aparato para su uso en la modificación de sonido.
US10008193B1 (en) Method and system for speech-to-singing voice conversion
US9595256B2 (en) System and method for singing synthesis
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
JP2016161919A (ja) 音声合成装置
JP2010014913A (ja) 声質変換音声生成装置および声質変換音声生成システム
JP2014048472A (ja) カラオケ用音声合成システム,及びパラメータ抽出装置
JP6737320B2 (ja) 音響処理方法、音響処理システムおよびプログラム
JP6171393B2 (ja) 音響合成装置および音響合成方法
JPH11259066A (ja) 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP2009157220A (ja) 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
WO2020158891A1 (ja) 音信号合成方法およびニューラルネットワークの訓練方法
JP2022065554A (ja) 音声合成方法およびプログラム
JP2022065566A (ja) 音声合成方法およびプログラム
JP5106437B2 (ja) カラオケ装置及びその制御方法並びにその制御プログラム
JP2000010597A (ja) 音声変換装置及び音声変換方法
JP2004061753A (ja) 歌唱音声を合成する方法および装置
EP0986807A1 (en) Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
KR101966587B1 (ko) 가창 표현 이식 시스템
Alexandraki Real-time machine listening and segmental re-synthesis for networked music performance
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111101

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120626

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121022

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5143569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250