JP2008529078A

JP2008529078A - 音響的特徴の同期化された修正のための方法及び装置

Info

Publication number: JP2008529078A
Application number: JP2007552713A
Authority: JP
Inventors: フィリップジェフリーブルーム; ウィリアムジョンエルウッド; ジョナサンニューランド
Original assignee: シンクロアーツリミテッド
Priority date: 2005-01-27
Filing date: 2006-01-26
Publication date: 2008-07-31
Anticipated expiration: 2026-01-26
Also published as: PL1849154T3; EP1849154A1; EP1849154B1; JP5143569B2; WO2006079813A1

Abstract

アマチュアの歌唱のようなデジタル化された音声信号（310）、及び、デジタル・ガイド音声信号（312）が、ガイド信号に時間整列された、時間整列された新しい信号(330)を生成する時間整列工程(320)に供給される。時間整列された新しい信号（330）に沿った、及び、ガイド信号(312)に沿ったピッチが、測定結果をピッチ調整計算機(370)に供給する工程（340）及び(345)で測定される。このピッチ調整計算機(370)は、これらの測定からピッチ訂正ファクターＣs(Ｆps)、及び、信号の最も近いオクターブ比を計算する。ピッチ変更工程(380)は、時間整列された新しい信号(330)のピッチを変更して、時間整列されピッチ調整された新しい信号(390)を生成する。

Description

本発明は、信号修正に関連する。より詳細には、しかし排他的ではなく、本発明は、第１の及び第２の音声信号の対応する特徴が、それぞれの信号内の時間における同じ相対位置において発生しない場合の、他の要約された音声信号における特徴に基づく、１つの要約された（digested）音声信号の修正において起こる問題に関連する。

新たな演技（performance）が、オリジナルの俳優又は歌手の言葉の、正確に同期された反復であるような場合に、音声又は音声／映像クリップ（clip）と共に話すこと、又は、歌うことが困難であることは良く知られている。従って、新たな演技の記録の開始及び詳細な音響的特徴が、オリジナルの音声トラック（track）の開始及び詳細な音響的特徴と同期することは非常に稀である。同様に、新たな歌手のピッチのような特徴は、オリジナルの歌手の特徴程には、正確又は複雑に変化しないかもしれない。音声記録が、新たに記録された声の発声及び音楽のピッチで為されるような、プロの音声記録業界、及び、コンスーマ・コンピュータ・ベースのゲーム及びアクティビティが、当該音声記録を、オリジナルの声の記録と同期させるための、ピッチ調整（一般的に訂正を意味する）から恩恵を被るような多くの場合が存在する。更に、たとえ、同期していても、通常のアマチュアの歌唱の記録は、プロの歌手の熟練した発声スタイル及びピッチ抑揚（inflection）を持たないことがあり得る。

図４は、プロの歌手のピッチ測定（ガイドピッチ401）、及び、同じ音楽トラックと同じ言葉の、いくつかの、公衆の（public）（新らしいピッチ402）歌唱を示す。発声された信号（非ゼロＨｚのピッチ値）の対応するセクション（パルス）の開始（onsets）とオフセット（offsets）の間のタイミング、及び、非発声又は沈黙セクション（ゼロＨｚにおける）の位置、の不一致は、しばしば起こり、大きなものである。同じ相対時間におけるガイド・ピッチ401からのピッチデータを、新しいピッチ402のデータに、直接適用することは、ここに示されるセグメントの実質的な量に対して、明らかに間違っており、不適切である。これが一般的な結果であり、基本的な解決課題を示す。

音楽の音色（note）毎のピッチ調整は、一般的に、入力音（notes）を、受け入れ可能な音ピッチ（note pitches）の指定された固定のグリッドに同期させるような、商業的に入手可能なハードウェア及びソフトウェア装置により、記録された、又は、ライブの歌唱に対して自動的に適用され得る。そのようなシステムにおいては、各出力音は、自動的に訂正され得るが、このアプローチはしばしば、受け入れられない、又は、不愉快な結果をもたらし得る。何故なら、それは、自然の、そして望ましい「人間の」変化（variations）を除去し得るからである。

そのような既知のソフトウェア及びハードウェア装置における、ターゲットのピッチ識別に対する基本的なベースは、基本的に、それらの特定の音の周波数のリスト（これに対して当該装置が、第１に、入力信号を比較すべき）である、音楽の音階（scale）である。殆どの装置は、標準音階に対する、予め設定された音楽の音階を伴っており、例えば、ターゲット・ピッチを変更するために、或いは、一定のピッチ化された音をそのままにするために、それらのカスタマイズを可能とする。

既知のソフトウェア装置は、自動モードに設定可能である。この自動モードは一般的に、如何にして、ハードウェア装置が動作するか（装置が入力ピッチを検知し、ユーザ指定のプリセット音階における最も近い音階（scale note）を識別し、出力ピッチが、指定された音階の音のピッチに一致するように入力信号を変更する）に関する。比率であって、当該比率において出力ピッチが回転され（slewed）ターゲットのピッチに戻される、当該比率（しばしば、「スピード」と呼ばれる）は、自然のピッチ・カウンタ（即ち、時間の関数としてのピッチ）を、より正確に、そしてより自然に維持し、より広い範囲の「スタイル」を可能とすることを助けるように制御される。

しかし、アマチュアの記録された歌唱は、プロの歌手の歌唱(performance)に見出される、複雑で熟練したピッチ変動を実現するためには、そのような既知の自動調整技術によって強調されるべきではない。

ターゲット発声音、又は、他の記憶されたターゲット発声音パラメータ・データのシーケンスを用いて、所望の修正を指定するために、ピッチ訂正、及び／又は、他の発声音修正を実行する、既知の発声音処理方法及びシステムも存在する。これらのこれらの既知の方法は、１つあるいはそれより多い大きな欠点を有する。例えば、

１．ユーザの入力発声音信号に提供されるターゲット・ピッチ（又は他の発声音の特徴）が、厳格に、ユーザがそれに沿って、一般的にリアルタイムで歌う、カラオケ・トラック又は他のそのような伴奏のタイミングに従い、対応する発声音の特徴を整合させる試みが為されない（特許文献１：米国特許第5966867号、特許文献２：日本特許2003044066号）。もしユーザの発声音が、ターゲットの特徴（例えばピッチ）データのタイミングに比して余りにも早く開始するなら、後の言葉又は音節に対して、ターゲットの特徴が誤って適用されることになる。もし、ユーザ声が遅い場合に、類似の問題が発生する。フレーズ（phrases）の間において、音楽トラックとの関係での時間から外れたいずれの言葉又は音節も、その言葉又は音節に対する誤ったピッチ又は他の特徴に割り当てられることになる。同様に、無音声のセグメント（unvoiced segments）が予想されるときに発生する、いずれの発声音化されたセグメント（voiced segments）も、記憶されたターゲットのピッチ又は他のターゲットの特徴情報を全く受信しない。

２．ユーザの入力発声音に適用されるターゲット・ピッチ（又は、他の発声音の特徴(feature））は、予想される、記憶された入力音素(phonemes)のシーケンス、又は、類似の発声された／非発声のパターン、又は、単に、母音の検知に依存し、そして、それに従う（follows）（特許文献３：米国特許第5750912号）。そのような方法は、一般的に、ユーザの訓練、又は、音素データの固定された特性の入力を必要とし、及び／又は、正確な識別が起こるための同じ言葉の十分に近い発音を必要とする。もし、訓練が存在せず、ユーザの音素の組が認識されないほど、記憶された組から十分に異なるならば、システムは、適切に機能しないことになる。もし、ユーザの音素が、十分に長く保持されないならば、又は、余りにも短く保持されるならば、出力音（notes）は、切り捨てられるか、削除され得る。もし、音素が、余りにも早く又は余りにも遅く到達するならば、ピッチ又は特徴は、正しい音素に適用され得るが、音楽の伴奏とはタイミングがずれて（out of time）しまう。もし、ユーザが、誤った音素（１つあるいはそれより多い）を呟くならば、システムは、容易に、一致状態（match）を維持することに失敗する。更に、歌において、単一の音素には、しばしば、所定の範囲のマルチプルのピッチ、及び／又は、ピッチの連続が与えられる（これらに対しては、音素ベースのシステムは、正しいピッチ又は特徴変化を実行し難い）。正確な音素認識は、非ゼロの処理時間（これは、リアル・タイム・システムでの正しい特徴の適用を遅緩させ得る）をも要求する。非発声音（例えば、フルート）は、ガイド信号又は入力として使用され得ない。

３．ターゲット・ピッチ・モデルは一般的に、一般的にピッチと時間の双方において量子化される、テーブル（例えば、Ｍｉｄｉデータとして）によって記述される離散的な音（notes）の組に基礎を置く。この場合には、入力発声音への修正は、記憶された音に限定される。このアプローチは、生成され得る、利用可能な発声音パターンの限定的な組に繋がる。音と音の間の（inter-note）遷移、ビブラート、及び、グリッサンド制御は、一般的に、粗い音ベースの記述（即ちＭｉｄｉ）に限定される。また、処理されたピッチ訂正された歌の発声音は、機械的(モノトーン)な音に乗り得（take on）、そして、もし、ピッチが、ミス・タイミングによって、言葉の間違った部分に適用されるならば、歌は、奇妙に歌われて聞こえ、場合によっては、調子外れにもなり得る。

４．システムは、（ライブのカラオケシステムのように）実時間に近い形で作動するように設計され、出力を、（訂正されるべき）入力が、受信された後直ぐに（即ち、１秒の数分の一以内に）生成する。音素又は類似の特徴を使用するシステム（例えば、特許文献４：米国特許第5750912号）は、非常に局所化されたタイムスロットに限定される。そのようなシステムは、ステップを外れ得、例えば、カラオケ歌手の母音が、ガイディングするターゲット歌唱の間違った部分に一致することにつながり得る。

米国特許第5966867号公報特開2003-044066号公報米国特許第5750912号公報米国特許第5750912号公報

それ故、第１に、新しい歌唱の時間変化する特徴と、ガイディングする歌唱の対応する特徴、との間の詳細なタイミング関係を確立する方法及び装置の必要性が存在する。第２に、このタイミング整列(alignment)パス（path）は、特徴（例えばピッチ）調整を、正しく決定し、正確に、正しい時間において、新しい歌唱（vocal performance）に適用するための時間マップとして使用されなければならない。正しく実行されると、この方法は、（例えば、ピッチ、ビブラート、抑揚カーブ、わたり（glide）、ジャンプ等に対する）ガイディング発声音の歌唱に見出されるニュアンス及び複雑さが、新しい歌唱に作用されることを可能とする。更に、もし、時間整列が適用されるならば、ピッチに加えて、又は、それの代替としての、他の特徴が；例えば、声門音の特性（例えば、気息音、または、ガリガリ削るような（raspy）発声音）、発声音路（tract）共鳴（resonances）、ＥＱ、及び、他のものが制御され得る。

本発明他の目的は、非理想的な入力信号状態の場合、特に新しい入力（例えば、ユーザの発生音）が、
（ａ）帯域制限され、及び／又は、ダイナミック・レンジが制限された場合（例えば、電話システムを介する入力）、
（ｂ）一定のタイプのノイズ又は歪を含む場合、
（ｃ）ガイディング（ターゲット）発生音（voice）とは、異なったアクセント、性別、又は、年齢を持つ人からのものである場合、又は、言葉及び音素（それらが、ガイディング（ターゲット）信号と同じかまたは異なった場合のいずれでも、更には、異なった入力言語の場合でも）の伝達（delivery）の非常に異なったタイミングを持つ人からのものである場合、
に作動する、発声音修正ための方法を提供することである。

更なる目的は、例えば、信号の音韻（phonemic）の性質に関する、記憶されるべき信号又は、出力信号に適用され得る、あり得る信号状態の詳細な組についての、如何なる、事前の情報をも必要としない方法を提供することである。従って、関連する更なる目的は、ガイディング音声信号と新しい音声信号（これらのいずれか、または双方が、スピーチ又は歌唱であることが要求されない）と共に作動しうる方法を提供することである。

タイム・マッピング及び音声信号の整列のためのシステム及び方法が、既に存在する。２つの音声（audio）信号の間の時間差を決定し、自動波形編集によって、音声信号の１つを自動的に、他の音声信号に時間整列するための方法及びシステムは、英国特許2117168及び米国特許4591928（ブルーム他）に説明されている。時間整列のための他の技術は、J Holmes及びW Holmes, (2001), "Speech synthesis and recognition, 2nd Edirtion", Taylor and Francis, Londonに説明される。

ピッチ変更及び他の発生音（vocal）修正のための技術もまた、良く確立されている。その１つの例は、K. Lent(1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, （65から71頁）である。

本発明は、請求項によって規定され、以下で、それに対する参照がなされる。

本発明の好ましい実施例は、自動的に及び正しく、第２のデジタル化された音声信号の、１つあるいはそれより多い信号特性を、第１のデジタル化された音声信号における指定された特徴の関数であるように修正するための方法及び装置を提供する。これらの実施例において、双方の信号における、指定された特徴の相対的なタイミングが、最初に確立される。これらのタイミング関係に基づいて、信号の特徴（features）の、詳細な、そして、時間的にクリティカルな修正が、正しく適用され得る。これを実現するために、第１の信号の特徴と、第２の信号の特徴の間のマッピングを生成し、第２の（ユーザの）信号をオプショナルに編集するための関数を提供するための、時間整列関数が生成される。

本発明の特定の応用には、プロの歌手のデジタル化された発声音の歌唱の選択された音声特性を、より熟練していない人のデジタル化された歌唱に正確に伝達（transferring）し、従ってそれを改善（enhancing）することが含まれる。本発明の１つの特定の応用は、公衆の一般的なメンバーによって生成された新しい音声信号（「新信号」）のピッチが、プロの歌手によって生成された他の音声信号（「ガイド信号」）のピッチに従うように、自動的に調整することにおける応用である。これの例は、オリジナルのソースとしてのデジタル化された音楽ビデオを用いたカラオケ・スタイルのレコーディング及び再生システムであって、オリジナルの音声及びオプショナルの対応映像の再生中に、ユーザの声がデジタル化され、（新しい記録として）装置に入力されるようなシステムである。このシステムによって、自動的に時間とピッチが訂正された、修正されたユーザの声信号が生成され得る。オリジナルの映像と同期して、修正された声信号が再生されるとき、ユーザの声は、何らかのリップ同期（lip synching）を含む、ピッチと時間の双方に関して、オリジナルの歌手の記録された声を正確に置換し得る。もし、オリジナルの、置換される発声信号が、ユーザの修正された声の録音によって、再生中に可聴的でないならば、音楽映像の再生中に、この置換のインパクトは、更により有効となろう。ＷＯ2004/040576に説明されるように、修正された声の記録は、オリジナルの背景音楽と組み合わせられ得る。

本発明の追加的な応用は、電話システムで使用するための、個人化された音声ファイルの生成に存在する。そのような応用において、ユーザは、歌い、又は、会話さえして、記録され、その後、改善（enhanced）（例えば、プロの歌手のバージョンの特性に追従（follow）するために、ピッチ及び時間が訂正）され、選択的に、適切な背景トラック（track）とミックスされる発声信号を提供する。得られる、改善されたユーザ記録は、次に、電話のユーザに、個人化された呼び出し音、又は、他の目的のための音声ファイルとして利用可能とされ得る。本発明を実現する装置は、次に、例えば、電気通信ネットワーク、及び／又は、インターネットを備える電気通信システムにカップルされたサーバ・コンピュータの形式をとり得、装置とユーザの間のインターフェースとしての移動電話を利用し得る。更に、又は代替的に、移動電話は、本発明を実現するために適用され得る。そのようなシステムにおいて、本発明の実施例によって生成された、修正された発声信号、又は、そのような信号を表すデータは、呼び出し音又は他の識別音声信号として用いられるために、呼び出し音（ring tone）配送システムを介して選択された受信者に送信され得る。

本発明の好ましい実施例において、時間に依存するガイド（Guide）と新しい信号（NewSignal）の間のマッピング関数を生成するステップの包含(inclusion)は、信号の特徴の修正が、２つの信号の間の実質的な差異に関わらず、新しい信号内の適切な時間において為されることを確実にする。時間整列関数は、制御特徴(feature)関数データを、所望の信号修正工程にマップするために用いられる。修正工程は、新しい信号にアクセスし、要求されるように、それを修正する。この動作は、新しい信号から、新しい、第３の音声信号を生成する。従って、第３の信号は、次に、ガイド信号の制御特徴として指定される特徴（features）によって決定される所望の時間変動特徴（features）を持つ。

１つの実施例において、第２の音声信号（新しい信号）は、時間整列関数からのマッピング情報を用いて、時間修正され（非線形に時間圧縮された又は拡張された）、それによって、その時間変動特徴が、時間において、第１の音声信号（ガイド信号）と整列するようになっている。この時間整列は、上述の所望の修正が行われる前、又は後に、行われ得る。

代替的な実施例において、時間整列工程は、新しい又は修正された波形において実行されない。その代わり、第２の信号の波形の適切な部分を修正して、そのオリジナルのタイミングを維持するために、時間ワーピング（warping）パスが用いられて、第１の信号（ガイド信号音声制御パラメータ）の制御特徴を第２の信号にマップする。

実時間処理の制約無しに処理を実行することによって、ガイド信号及び新しい信号の記憶されたバージョン（version）の詳細な分析がなされ得、時間整列工程が開始する前に、統計的に重要で実質的な、双方の信号の量（例えば、最大３０秒、又は、更には信号全体）が処理され、そして、長期間の信号特性に関して重要な決定が為される。

従って、大きいサイズの、（例えば、数秒の）時間偏位が、順応され（accommodated）、訂正され得、言葉及びフレーズの中で、局所化された最適な整列（alignment）が実行され得る。更に、機能特徴は、「オフライン」でも行われ得、それによって、最も高い品質の処理が適用されること、及び、修正関連のデータの補間、及び／又は、スムージングが、何らかの明白なひどいエラーを、新しい信号に適用する前に除去することを可能とする。

新しい信号に対する出力特徴値の組は、事前に規定される必要が無い。例えば、もし、ユーザによって提供される新しい信号のピッチが、プロの歌手のレコーディングという形式のガイド信号のピッチに一致させるために訂正されるべきならば、受け入れ可能なピッチ値は、規定又は設定される必要がない。代わりに、ユーザの声が、ガイド信号のレコーディングに存在し、測定された値に調整される。

新しい信号は、ガイド信号に似せるために制限される必要が無い、又は、ガイド信号と同じタイプの音声的工程によって生成される必要が無い。例えば、単調な(monotonic)スピーチは、ソロの木管楽器又は鳥のさえずりに追従するために時間及びピッチ修正され得る。双方の信号が、関連するものとして扱われ得る、同じ時間変動特徴を持つ限り、本発明を具現化する方法は、適切に修正された特性(properties)を持つ出力信号を生成し得る。更に、新しい信号及びガイド信号の特徴は、周波数において、互いにオフセットされ得る。例えば、１つの信号のピッチは、他の信号から、オクターブ、又は、それより離れたものであり得る。

１つ又は双方の音声信号が、超音波又は低周波音声（infra sound）領域内にあり得ることも理解されたい。

本発明の好ましい実施例の作動によって、プロの歌手の実演に見出される、複雑で、巧妙な(skilled)ピッチ変動（及び、選択的に、他の特性）が、ユーザ（例えば、アマチュア）の歌手のデジタル化された声に、正確に転換され得る。これは、ユーザの実演の多くの側面を、プロのレベルに改善する。

本発明の実施例は、俳優のＡＤＲスタジオ記録された実演を改善するために、自動会話置換（ＡＤＲ：Automatic Dialogue Replacement）の分野にも適用され得る。実施例は、ピッチ、エネルギーレベル、及び、韻律的特徴（pprosodic features）のような、スタジオ・レコーディングされたボーカル特性を、セットで（on set）、又は、ロケーション（location）で、画像とともに記録されたオリジナルのガイド信号のものに一致又は追従するように修正するために使用され得る。更に、スタジオ内の実演家は、ガイド信号を記録した人とは別の実演家であり得る。

更に、本発明は、適用され得る処理の範囲において柔軟である。例えば、ピッチ調整の場合においては、時間整列されたハーモニー生成（harmony generation）のような更なるピッチ変更特徴が、代替的な出力信号を生成するための複数のピッチ調整関数の１つの関数として導入され得る。更に、ガイド信号内の１つの測定された特徴が、新しい信号内の他の全く異なった特徴を制御するための任意の関数によってマップされ得る。

本発明を実現する方法は、音声入力及び出力のための手段を有する、ＰＣ、又は、コンピュータ・ベースのゲーム・コンソールのようなコンピュータ・システム内のコンピュータ・プログラムで実施され得る。

実行されうる処理シーケンスの配列（arrangements）の多くの置換（permutation）が存在する（いくつかは、一定の状況において、他のものに対して利点を持つ）。以下の例は、如何にして、変動が、処理の複雑さに影響を与えるか、及び／又は、出力信号において可調信号アーティファクトを生成することに対する潜在性を削減させるかを説明するために、処理ピッチに関して示される。大きさ（koudness）、トーン、又は、フォーマット構造（structure）のような、ピッチ以外の処理特徴の考察において、類似の検討及び結果が生まれ得る。

一般的に、実施例において、手始めに、新しい及びガイド信号が、デジタル的にサンプルされ、記憶される。次に、ロバストで、話者に独特の、短時間特徴分析が、双方の信号における特徴変化のプロファイルを抽出する。（例えば、米国特許第4,591,928号に説明されるように）ノイズ及びレベル圧縮アルゴリズムが与えられた状態で、連続的なウィンドウ化された信号の「フレーム」に亘って、毎１０ms毎に、スペクトル的なエネルギー測定が為される。この分析は、処理の正確性とロバストネスを最大化するために、入力信号全体に亘って実行される。他の短期間特徴測定が、代替的に使用され得る。その例が、Ｌ．Ｒ．Rabiner及びR.W.Schfer(1978)"Digital Processing of Speech Signals," Prentice Hallに示される。

ピッチ決定の例をとると、記録された信号及びそれらの測定された信号機能データについてコンピュータ・システムで実行されるべき残りの主要な信号処理ステップは：

方法１
（ａ）ガイド信号及び新しい信号の時間に従属する特徴シーケンスは、最適時間整列パス関数（optimal Time Alignment path function）を、データ・シーケンスとして決定し、出力する、パターン・マッチング・アルゴリズムで処理される。このパスは、新しい信号のフレームを、ガイド信号のフレームに最適にマップする。
（ｂ）時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された（time-aligned）新しい信号を生成するために用いられる。
（ｃ）ガイド信号は、離散的で連続的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は、ガイド信号ピッチ・コンターを提供するために円滑化される。
（ｄ）ステップ（ｃ）における処理ステップは、整列された（編集された）新しい信号が、そのピッチ・コンターを生成するために反復される。
（ｅ）ガイド信号の各ピッチ・コンター値は、整列された新しい信号に対する、対応するピッチ・コンター値によって分割され、オクターブ・シフトして、整列された新しい信号の各フレームに適用するための訂正ファクターを与える値の組である訂正コンターを生成するために調整される。この訂正コンターは、何らかの酷い（gross）エラーを除去するために円滑化される。
（ｆ）ピッチ・シフト・アルゴリズムが用いられて、整列された新しい信号のピッチを、ステップ（ｅ）からの円滑化された訂正コンターに従った値にシフトすることによって、時間及びピッチにおける、所定のガイド信号への、新しい信号マッチング(matching)を生成する、
である。

方法１は、２つの編集アルゴリズムを直列的に採用し、新しい信号が、１つの編集ステップを経験（undergo）した後に、新しい信号のピッチを測定する。従って、方法１における、生成された出力の品質は、ステップ(ｂ)からの、編集された信号の出力品質に依存する。その結果、編集中に導入された、その信号内の不完全性は、ステップ（ｄ）及び（ｆ）の出力の品質を劣化させ得る。これは、訂正されたピッチにおける随時の小さなエラーに繋がり、場合によっては、生成された出力における、わずかな荒さ（roughness）を生成する。

方法２
そのようなエラーのリスクを低減するために、他の実施例は、上述のステップ（ｂ）と(ｆ)を組み合わせて、単一の編集段階を生成する。また、新しい信号（本例ではピッチ）の如何なる特性も、時間整列された（編集された）バージョンからではなく、修正されていない新しい信号から測定され得る。これは、時間整列パスの逆（inverse）を計算することによって実現される。逆パスは、編集されていない新しい信号の各フレームを、その、対応するガイド信号のフレームにマップする。このマッピングから、時間において、ガイド信号に整列された、新しい信号に対するピッチ訂正コンターが計算される。ピッチ訂正コンターが計算される前に、実際上、ガイド信号は、時間において、新しい信号に整列されている。

以下のステップが、本方法を要約する。
（ａ）ガイド信号及び新しい信号の時間に従属する特徴のシーケンスが、最適時間整列パス特徴を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力する、パターン・マッチング・アルゴリズムで処理され、
（ｂ）時間整列パスからのデータが用いられて、ガイド信号のフレームを対応する新しい信号のフレームにマッピングする逆パス関数を生成し、
（ｃ）ガイド信号が、離散フレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値が円滑化されて、ガイド信号ピッチ・コンターを与え、
（ｄ）ステップ（ｃ）での処理が、新しい信号（未編集）に対して反復されて、そのピッチ・コンターを生成し、
（ｅ）逆パス関数を用いて、ガイド信号ピッチ・コンターを、新しい信号ピッチ・コンターに整列し、マップされたガイド信号の各ピッチ・コンター値が、新しい信号に対する対応するピッチ・コンター値によって分割され、オクターブ・シフトのために調整されて、新しい信号の各フレームに訂正ファクターを与える値の組である整列された訂正コンターを生成する。この整列された訂正コンターは円滑化されて、如何なる酷い（gross）エラーをも除去する。
（ｆ）時間整列されたパス関数及び円滑化された整列された訂正コンターを用いて、時間において、及び、ピッチにおいて、ガイド信号に整列された出力信号を生成するために要求される、新しい信号のピッチをシフトし且つ時間圧縮も行うか、又は、新しい信号を時間伸長する、処理アルゴリズムを用いて、新しい信号が編集される。
（ｇ）又は、ステップ（ｆ）の代替として、円滑化され、整列された訂正コンターが、新しい信号からガイド信号への時間整列無しに適用され得る。これによって、新しい信号のオリジナルのタイミングを維持し得るが、新しい信号が、時間において、ガイド信号に整列されていない場合であっても、ピッチ訂正を、新しい信号の正しいフレームに適用することになろう。

方法２のいずれかの形式が、正確に、ビブラート及び他のディテールのような微妙なニュアンスに追従でき、それを再生成できる、全ての言葉とフレーズを通じた、より信頼でき、自然な、音声ピッチ訂正を提供する。

方法３
方法２は、新しい信号を１回だけ編集するが、それは、同時にピッチ及び時間整列を修正する処理技術を利用する。ステップのシーケンスを僅かに変化させることによって、方法１を用いること無しに、ピッチシフティングと時間修正を別個に処理することが可能となる。これによって、編集の２つの段階が導入されるが、最も適切な特定化された（specialized）処理アルゴリズムが、各段階に対して別個に選択され得る。

以下のステップが、この第３の方法を要約する。
（ａ）ガイド信号及び新しい信号の時間従属関数（function）シーケンスが、最適時間整列パス関数を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力するパターン・マッチング・アルゴリズムで処理され、
（ｂ）ガイド信号が、離散的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は円滑化されて、ガイド信号ピッチ・コンターを提供する。
（ｃ）新しい信号（未編集）に対して処理ステップ（ｂ）が反復されて、そのピッチ・コンターを生成する。
（ｄ）時間整列パス関数を用いて、新しい信号のピッチ・コンターが、有効に、ガイド信号ピッチ・コンターに時間整列される。
（ｅ）各ガイド信号ピッチ・コンター値が、対応する時間整列された新しい信号のピッチ・コンター値によって分割され、オクターブ・シフトのために結果が調整される。これは、時間整列された新しい信号の各フレームに適用するための訂正ファクターを含む、整列された訂正コンターを生成する。この整列された訂正コンターは、円滑化されて、如何なる酷いエラーをも除去する。
（ｆ）時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された新しい信号を生成するために用いられる。
（ｇ）ピッチ・シフティング・アルゴリズムを用いて、時間整列された新しい信号のピッチが、ステップ（ｅ）で生成された、円滑化され、整列された、訂正コンターによってシフトされる。これは、時間において、及び、ピッチにおいて、所定のガイド信号に整列された編集された新しい信号を与える。

方法３は、逆（inverse）ではなく、オリジナルの時間整列パス関数を用いる。更に、それは、方法２におけるように、時間整列された（編集された）バージョンのピッチではなく、修正されていない新しい信号のピッチが、測定されるという利点を持つ。しかし、それは、まず、時間整列されたバージョンを生成（ステップｆ）すること無しには、新しい信号（ステップｇ）のピッチを修正できない。

更なる実施例において、ピッチ以外の音声信号の他の特徴が修正されて、一旦時間整列関数が生成された場合に、ガイド信号における当該特徴を追従させ得る。追加的なタイプの時間同期的な修正可能な特徴には、瞬時音量、イクアライゼーション、スピーチ・フォーマット又は共鳴（resonant）パターン、反響、及び、エコー特性、そして更には、指定された特徴の分析及び修正に対する適切なメカニズムが利用可能である場合には言葉自身、のような音声信号特徴の修正が含まれる。

本発明において、映像信号は必要ではない。そして、入力音声信号は、他の音声信号に随伴、又は、それを置換するためにのみ必要とされ得る。

本発明の好ましい実施例において、最適で十分にディテール化された、第１の（ガイド）音声信号における時間変動する特徴と、対応する第２の（新しい）音声信号の時間変化特徴の間の時間マッピングを提供し得る、時間整列された関数又は時間ワーピング・パス（time warping path）を決定するための手段が含まれる。このマッピングは、時間変化する変更（alterations）が、修正されている新しい信号の適切な部分に対応するガイド（制御）信号の部分における指定された特徴に基づくことを保証する。時間整列を決定するために用いられる、特定の時間変化する特徴の測定が、サンプルされた信号の波形の短い部分又はウィンドウ（各ウィンドウは、Ｔ'の期間であり、Ｔ'は、Ｔとは異なり得る）に対して、毎Ｔ秒毎に為される。測定は、通常、サンプリング・ウィンドウがオーバーラップした状態で、連続的なフレーム・バイ・フレームベースで為される。これは、L.R.Rabiner及びR.W.Schfer(1978)の「Digital Processing of Speech Signals」Prentice Hallに記載されるような、「短時間」信号分析である。

時間整列工程に対して測定された特徴が、変更された特徴と、制御として使用される特徴、の双方とは異なった特徴である可能性が高いことに留意頂きたい。変更されるべき特徴と、制御特徴パラメータの間の基本的な関係が規定されねばならない。例えば、これ以降、より詳細に説明される１つの単純な関係は、新しい信号を生成する人の自然なピッチ範囲を維持するための調整を伴って、新しい信号のピッチを、ガイド信号のピッチに一致するように修正する。必要であれば、修正関数のこの規定、及び他の規定（definitions）は時間と共に変化され得る。修正関数は、音声処理コンピュータ・システムにおける、出力値．対．入力値のデータ・アレーとして、又は、数学的な関数として、又は、処理規則の組としてプログラムされ得る。関数が、必ずしも信号自身に依存せず、それ故、信号が何の分析も必要としないかもしれないことに留意頂きたい。更なるステップにおいて、第２の信号で修正されるように指定された特徴、及び、第１の信号における指定された制御特徴の双方は、時間の関数（function）として測定される。これらの測定は、データとして記憶される。

音声入力を記録する間に、同時に、デジタル化されたコンピュータ映像及び音声ファイルからの背景音声、及び／又は、映像信号を再生できるコンピュータ・システムは、良く知られている。これらの機能(functions)をサポートできる、一般的なＰＣシステムのコンポーネント及び環境が添付図面の図１に示され、このシステムは、本発明の複数の実施例に対するハードウェア及びソフトウェア環境を提供する基礎としての図２のソフトウェアとともに使用され得る。

図１において、ＣＰＵ（中央処理ユニット）112、ＲＡＭ（ランダム・アクセス・メモリ）118、一般的にマウス、キーボード125、及び、表示スクリーン130のようなポインティング・デバイス120を含むユーザ・インターフェース・ハードウェア、ハードディスク又は更なるＲＡＭのような内部記憶装置140、ＣＤＲＯＭ又はＤＶＤＲＯＭのような、固定された、又は、除去可能な記憶媒体165の上のデータにアクセスするための装置160、及び、オプショナルに、インターネット175へのアクセスを提供するためのモデム又はネットワーク・インターフェース170、を有するコンピュータ110からなる環境的な（environmental）コンピュータ・システム100が示される。ポインティング装置120は、表示されたスクリーン・カーソル（不図示）の位置、及び、スクリーン130上に表示された機能(function)のセクションを制御する。

コンピュータ110は、ＰＣ又はアップル・マッキントッシュのような、如何なる、従来的なホーム又はビジネス・コンピュータ、又は、代替的に、ゲーム・コントローラ装置であるポインティング装置120を伴った、Microsoft（登録商標）Xbox^TM、ソニーPlaystation2^TM、のような専用の「ゲーム機器」でもあり得る。図１に示されるいくつかのコンポーネントは、特定のゲーム機器に存在しないかもしれない。図２は、コンピュータ110にインストールされ得る、更なるソフトウェアを示す。

ユーザは、ＣＤＲＯＭ、インターネット、又は、他の手段から、音声及びオプショナルな添付の映像クリップ（clｉp）を含むデジタル・データ・ファイル115を獲得し得る。このデジタル・データ・ファイル115は、ａｖｉやQuickTime（登録商標）ムービー・フォーマットのような、広く用いられるフォーマットであり得、当該デジタル・データ・ファイル115は、例えば、ハードディスク140の上に、又は、ＲＡＭの中に、コピーされ記憶される。コンピュータ110は、Microsoft（登録商標）Windowa（登録商標）又はMac（登録商標）ＯＳ、の利用可能なバージョンのいずれかによって提供されるもののような、既知のオペレーティング・システム135、サウンド・カード150、又は、録音のためにマイクロホン159から接続されるＡＤＣ（アナログからデジタルへのコンバータ）を含み、音声を再生するための１つあるいはそれより多いラウドスピーカ156から接続されるＤＡＣ（デジタルからアナログへのコンバータ）を含むコンピュータのマザーボード上の等価のハードウェアの形式の音声ソフトウェア及びハードウェア、を持つ。

図２に示されるように、そのようなオペレーティング・システム135は一般的に、サウンド・カード150を介した音声記録、及び、編集機能(functions)、をサポートする音声記録及び編集ソフトウェア18（Windows（登録商標）と共に出荷される「Sound Recorder」アプリケーション・プログラムのような）と共に出荷される。記録プログラム、及び／又は、他のプログラムは、入来アナログ音声信号を、デジタル音声データに変換し、そのデータを、ハード・ディスク・ドライブ140上のコンピュータ・ファイルに記録するために、サウンド・カード150を使用し得る。Windows（登録商標）、及び／又は、他のソフトウェアと共に出荷されるWindows（登録商標） Media Playerのような音声／映像プレーヤー・ソフトウェア190が、サウンド・カード150、更なるビルトインの映像ハードウェア及びソフトウェア、表示スクリーン130、及び、スピーカー156を介して、コンポジットのデジタル映像及び音声ファイル、又は、音声ファイルだけを再生するために使用され得る。コンポジット映像及び音声ファイルは、映像データ及び１つあるいはそれより多い平行同期された音声データのトラックからなる。或いは、音声データは、マルチプルの音声データのストリームを記憶するために割り当てられた別個のファイルとして保持され得る。音声データは、会話や歌唱、インストゥルメンタル音楽、「サウンド・エフェクト」、又は、これらの何らかの組み合わせ、のような発声データであり得る。ブロック180及び190もまた、135及び110と協調して、ここに説明される歌唱処理システムを実装し得るソフトウェア及びハードウェアを表し得る。

代替的に、100及び110におけるハードウェア及びソフトウェアシステムの分散された実施例が、採用され得る。その１つの例は、コンピュータ・システム100の主要素が、遠隔サーバによってユーザに提供されるようなものである。そのような場合には、アナログ又はデジタルの音声信号がユーザと100の間で送信される状態において、ユーザ側において、ユーザのＰＣシステムに接続された電話又はマイクロホン及びスピーカによって、電話システムネットワーク、及び／又は、インターネットを介して、入力及び出力の変換器（transducer）159、156が提供され得る。ユーザは、電話タッチトーン・キーパッド、コンピュータ・キーボード、音声入力、又は、他の手段を含む膨大な方法によって、システム・オペレーションを、遠隔的に制御できる。

非実時間コンスーマ・カラオケ・システムの形式の本発明の実施例は、幾人かの公衆が、ミュージック・ビデオと一緒に、ポップ・ソングを歌う彼らの声を、コンピュータ・ベースのシステムに記録することを可能とする。ユーザの記録された声が修正され、その後、再生されたときに、修正された声は、オリジナルの歌手の口の動きにリップ同期され、且つ、ミュージック・ビデオ内の置換された歌手の声と同じピッチ変動を持つ。図２のシステムは、随伴ビデオを伴って、或いは、それを伴わないで、オリジナルの実演家の歌の歌唱の音声再生を可能とする。ユーザは歌を再生でき、システムは、ユーザの声をデジタル化し、コンピュータのハード・ディスク又は他のメモリ装置の上に記録（格納）する。正確に、オリジナルの歌手の声の特徴（features）を測定することへの要求が存在するので、その声信号が、背景のミュージック・トラックとは別個であることが好ましい、。これは、レコード会社、又は、媒体コンテントを提供する組織から、声が隔離された録音を要求することによって、最も効果的に実現できる。

本実施例において、アイソレートされた状態（in isolation）で（例えば、オリジナルの録音セッションからのマルチ・トラックの録音から移されたソロのボーカル・トラック）歌を実演する歌手のデジタル化された録音である第１の信号（ガイド信号）、好ましくは、エコーや反響（reverberation）のような追加された処理が無いもの、が用いられる。そのようなデジタル化されたガイド・信号、ｇ（ｎ）は、ＣＤ又はＤＶＤ／ＲＯＭ165で、又は、インターネット175を介して、ユーザのシステムに提供され得る。或いは、更なる実施例において、（時間整列と特徴修正制御の双方に対する）ガイド信号の要求される特徴（features）は、要求されるデータを抽出するために、同じ、又は、他のシステムにおいて事前に分析されたものであり得る。このデータは、165、175を介した、又は、他のデータ転送方法を介した、データ・ファイルとしての使用のために、システム100に入力され得る。実施例のデータ記憶及び処理モジュールが、図３に示される。

音声記録及び再生プログラムを走らせているユーザは、オリジナルの歌手が可聴な状態で、又は非可聴の状態で、所望の歌を再生でき、同時に歌唱できる。ユーザの歌唱は、デジタル化され、データ記憶部310内のデータファイルに記録される。このデジタル化された信号は、第２の信号、即ち、新しい信号、ｓ（ｎ）である。

図３の実施例は、以後説明される方法１を実行する。その目的は、ユーザの新しい信号のピッチ及びタイミングを、ガイド信号のピッチ及びタイミングに擬似するように訂正することである。この場合には、ガイド信号における特徴（feature）は、制御関数（function）として使用されており、新しい信号で修正される特徴は、同じ特徴、即ち、それぞれの信号のピッチ・コンターである。時間整列された新しい信号ピッチ測定と、ガイド信号ピッチ測定の間の差異を追跡する工程は、修正された新しい信号のピッチが、ガイド信号のピッチに追従するようにするためのピッチ調整関数の計算において使用される。ここで、新しい信号、ｓ（ｎ）は、句切り法（phrasing）、コンテント、及び、長さにおいて、ガイド信号、ｇ（ｎ）に類似することが想定される。非実時間カラオケ・タイプの応用に対して、これは、道理に適った想定である。何故なら、ユーザは通常、タイミング、ピッチ、及び、言葉（words）において、オリジナルの歌唱実演を擬似することを試みるからである。

ここで、方法１は、非実時間におけるデジタル音声データにおいて、以下のように実行される。

＜入力信号記述及び測定＞
処理無しに、新しい信号及びガイド信号が適切に時間整列されていることは、きわめて少ない。米国特許第4591928号（Bloom他）は、時間整列されていないが類似の複数のスピーチ信号のエネルギー・パターンの間の差異、及び、時間整列工程への入力としてのフィルタバンク出力のようなエネルギーに関連する測定の使用を説明する。

図４は、プロの女性歌手のガイド信号のピッチの測定によって得られる、以後ピッチコンター401と呼ばれる、ピッチ測定フレーム番号Ｍ（ここで、Ｍ＝０,１,２・・・Ｎ）の関数としての、時系列Ｐｇ（Ｍ）、及び、時間整列前の一般的なアマチュアの新しい信号（男性の声）のピッチ・コンター402として示される時系列Ｐｓ（Ｍ）、を、同じ時間スケールに沿って示す。双方の信号のピッチ・コンターにおける差異、及び、時間におけるそれらの整合ミスが、明白である。時間において、第２の系列、Ｐｓ（Ｍ）と整列されていない第１の系列（series）、Ｐｇ（Ｍ）は、大きくて可聴的なエラーを生成すること無しには、第２の信号に対する、制御又はターゲットのピッチ関数として直接使用できない。

ピッチ・コンター401又は402においてゼロＨＺとして示されるデータ・ポイントは、対応するピッチ測定フレームが、沈黙か、非発声スピーチかのいずれかを含むことを示す。非ゼロの測定は、そのフレームにおける、それぞれの信号のピッチ測定を示す。

図４において、新しい信号ピッチ・コンター402における発声された音の非ゼロの値のセグメント（パルス）は、一般的に、ガイド信号ピッチ・コンター401における対応する特徴（features）に対して遅れ、且つ、異なった期間（durations）を持つ。更に、２つのピッチ・コンターの、発声された（voiced）音声は、異なったオクターブに存在する。更に、ガイド信号ピッチ・コンター401の各パルスにおけるピッチ範囲（range）変動は、新しい信号のピッチ・コンター402における対応するパルスの場合に比して、より広い。ガイド信号ピッチ・コンター401は、プロの歌手から取られる（taken frm）ので、このようなことが予測される。ガイド信号ピッチ・コンター401のそのような詳細及びタイミングが、アマチュアのユーザの録音された歌唱に与えられる。

＜新しい信号の時間整列（alignment）＞
図３において、データ記憶部310から読み取られた、サンプルされた新しい信号波形ｓ（ｎ）は先ず、米国特許第4,591,928号に説明されるような技術を用いて、時間において、データ記憶部312から読み取られたガイド信号、ｇ（ｎ）に整列されて、中間音声信号、つまり、時間整列された新しい信号、ｓ’（ｎ）（これは、例えば、ディスク330に記憶される）を生成する。これは、ｓ’（ｎ）におけるエネルギー・パターンの詳細（detail）が、ガイド信号におけるそれと同じ相対的時間において発生することを保証する。これは、更に、如何なる、リップ同期（lip-synching）も有効であり、如何なる、ガイド信号から、新しい信号への特徴（feaures）の転写（transfer）も、更なる時間マッピングを必要としないことをも保証する。本例における新しい信号、ｓ（ｎ）及びガイド信号ｇ（ｎ）の生成において使用されるサンプリング周波数は、44.1kHzである。

米国特許第4,591,928号に説明される時間整列工程は、スペクトラル・エネルギー特徴（feature）（例えば、フィルタバンク出力）を、１０ms毎に測定し、１０ms毎のパス・ポイント（path point）を持ち、新しい信号における類似のスペクトラル特徴を、ガイド信号における最も近い対応するフィーチャーと対応付ける、時間整列又は「時間ワーピング」パスを生成する。

図５は、その中で、新しい信号の各特徴フレームが、フレーム・ナンバーｊを持ち、ガイド信号の各特徴フレームが、フレーム・ナンバーｋを持ち、フレーム・サンプリング・インターバルが、Ｔ秒（ここでＴ＝10ms）であるような、時間ワーピング・パス、ｗ（ｋ）、ｋ＝0,1,2,・・の例を示す。そのようなワーピング・パスは、時間整列処理モジュール320内で生成され、このパスは、ディスク330の上に記憶される時間整列された新しい信号ｓ’（ｎ）の生成において、モジュール320における新しい信号ｓ（ｎ）の編集（即ち、時間圧縮／伸長）を制御するために使用される。米国特許第4,591,928号に示されるように、時間整列された新しい信号、ｓ’（ｎ）、は、ｓ（ｎ）の編集されたバージョンの構築により、モジュール320によって生成される。なお、このｓ（ｎ）の編集されたバージョンの中で、ｓ（ｎ）の部分が、ｗ（ｋ）、及び、編集システムからの追加的なタイミング・エラー・フィードバックに従って、反復されてきた、または、削除されてきており、このｓ（ｎ）の編集されたバージョンは、発声音が存在するときに、ピッチ同期的な編集を作るように制限される。

＜新しい信号のピッチ・コンターの生成＞
整列された新しい信号、ｓ’（ｎ）、の生のピッチ・コンター、Ｐｓ’（Ｍ）は、連続的離散ピッチ測定フレームにおける移動分析のHaanウィンドウを用いて取られたｓ’（ｎ）の測定から生成される（ここで、Ｍは、フレーム番号であり、Ｍ＝1,2,3,・・・である）。正確なピッチ測定を得るために、分析ウィンドウの長さが、測定される、最も低い周期の長さの2.5から3.0倍であることが推奨される。それ故、本実施例において、約0.0139ｓの周期をもち、72Ｈｚ程度の低いピッチを測定するために、1536サンプル（4401kHzサンプリング周波数において）の分析ウィンドウ（又は約35ms）が用いられる。ピッチ測定フレームのサンプリング・インターバルは、１０ｍｓである。ピッチ・エスティメータ（estimator）・モジュール340の分析ウィンドウは、サンプルの各ピッチ測定フレーム内に中心を置かれる（centered）。各ピッチ測定フレームに対して、ピッチ予測のための周知の方法（例えば、自動相関、櫛形フィルタリング等）の１つを用いたピッチの予測（estimate）が為される。これらの技術の詳細な記述は、Wolfgang Hess(1983) "Pitch Determination of Speech Signals, Algorithms and Devices", Springer-Verlag; R.J.McAulay and T.F.Quatieri, (1990); "Pitch estimation and voicing detection based on a sinusoidal model," Proc. Int Conf.on Acoustics, Speech and Signal Processing, Albuquerque, NM, pp. 249-252; 及びT.F.Quatieri (2002) "Discrete-Time Speech Signal Processing; Principles and Practice," Prentice Hallのような参考文献に発見できる。

測定は、分析ウィンドウのオーバーラップ無しに採取され得るが、２５と５０％の間の連続的にウィンドウ化されたデータのオーバーラップが、一般的に推奨される。この実施例において、Ｍの測定フレーム・レートは、１００Ｈｚ（即ち、１０msのインターバル）であり、これは、十分なオーバーラップを提供し、同時に、便利なことに、時間整列関数（function）の測定レートと同じである。最初の及び最後の数ピッチの測定（この中で、分析ウィンドウが、当然、利用可能なデータ・サンプルを超える）を正しく行うために、それらのピッチ測定を行う前に、信号の開始と終了の双方が、最大、ゼロ・マグニチュードのサンプルの１つの分析ウィンドウの長さでパッド（padded）される。

最終の円滑化されたピッチ・コンター（時間整列された新しい信号に対するＰｓ'（Ｍ））を生成するために、３ポイント・メジアン・フィルタ、そしてその後、平均化フィルタを用いて、フィルタ・モジュール350において、個々のフレームのピッチ測定が円滑化される。更に、時間整列された新しい信号ｓ'（ｎ）の沈黙及び非発声フレームが、Ｐ'ｓ'（Ｍ）において、ゼロのピッチを持つとしてマークされる。

＜ガイドのピッチ・コンターの生成＞
同様に、ピッチ・エスティメータ・モジュール345において、ピッチ・コンターＰｓ’（Ｍ）の生成のために説明されたものと同じ方法とパラメータを用いて、ガイド信号ｇ（ｎ）のピッチ・コンターＰｇ（Ｍ）が生成され、フィルタ・モジュール355において円滑化されて、ガイド信号に対する円滑化されたピッチ・コンターＰ’ｇ（Ｍ）を生成する。

＜ピッチ調整の計算＞
次の工程は、時間整列された新しい信号の各フレームに対するピッチ調整又は訂正ファクターの計算である。これは、ピッチ調整モジュール370によって為され、ガイド信号ピッチと時間整列された新しい信号ピッチの比率、及び、何らかの所望のオクターブのシフトを考慮する。この計算は、同じフレーム番号Ｍを有するピッチ測定フレームの各組に対して為される。モジュール370内のローパス・フィルタは、次に、訂正ファクターを円滑化する。２つのステップが存在する：それらは、オクターブの決定、及び、新しい信号のピッチのシフティングである。ピッチの調整を考慮した上での２つのメインのオプションが存在する：それらは、（ａ）ガイド信号のピッチと同じとなるように出力ピッチを調整すること、又は、（ｂ）調整された声が最も自然に聞こえるように、入力された新しい信号のピッチ範囲を維持すること、である。この後者の効果を実現するためのオクターブ調整について、これから説明する。オクターブ調整モジュール358は、オクターブ乗数Ｑ（これは、信号の期間において一定に維持される）を計算する。このことは、この値を設定することが可能となる前に、新しい信号の全て又は少なくとも実質的な量を分析することが必要となることを強調する。

各ピッチ分析に対して、時間整列された新しい信号のフレームＭ（ピッチ予測器モジュール350及び355からのフレームＭに対する円滑化されていないピッチ予測）が、用いられて、ローカル・ピッチ訂正Ｃ_L（Ｍ）(ここで、Ｍはフレーム番号である)を計算し、それらのフレームへの計算を、時間整列された新しい信号及びその対応するガイド信号フレームの双方が発声されている場合、即ち、これらの双方のフレームが有効なピッチを持つ場合に限定する。これらのフレームにおいて、ローカル・ピッチ訂正ファクターＣ_L（Ｍ）（これは、時間整列された新しい信号のフレームＭのピッチを、ガイド信号のフレームＭのピッチと同じにする）は、

ＣＬ（Ｍ）＝Ｐｇ（Ｍ）／Ｐｓ'（Ｍ）（１）

によって表される。

各比率Ｃ_L（Ｍ）は、次に、以下のテーブルに従って、２のべき乗数（powers of 2）を選択することによって、その、最も近いオクターブ（octave）に丸められる。

全ての、得られるオクターブ値は、ヒストグラムにエンターされ、次に、最も頻繁に発生するオクターブ訂正値Ｑが選択される。Ｑは、この場合、時間の関数ではなく、時間の関数である実施例もあり得る。必要であれば、ピッチ周波数（frequency）における何らかの所望のオフセットを実現するために、Ｑには、他のファクターを乗算され得る。Ｑの計算は、モジュール358で実行される。オクターブ訂正値Ｑは、ピッチ調整モジュール370に与えられ、以下の式（２）で用いられて、オクターブ訂正されたピッチ訂正ファクターＣ（Ｍ）を生成する。

Ｃ（Ｍ）＝Ｐ'ｇ（Ｍ）／（Ｑ*Ｐ'ｓ'（Ｍ））（２）

ここで、Ｃ（Ｍ）は、信号のフレームＭにおけるピッチ訂正ファクターであり、
Ｐ'ｓ'（Ｍ）及びＰ’ｇ（Ｍ）は、それぞれ、時間整列された新しい信号の、及び、ガイド信号の、フレームＭにおける円滑化された予測されたピッチである。

ピッチ訂正信号を生成するために、式（２）から、時間整列された新しい信号の全てのフレームに対して、ピッチ訂正ファクターＣ（Ｍ）が計算されて、修正された時間整列された新しい信号のピッチ・レジスター（pitch register）が、オリジナルの新しい信号のピッチ・レジスターに最も近く一致するようにされる。

もし、フレームＭにおいて、対応するガイド信号ピッチが全く存在しない（即ち、ガイド信号が非発声であるか、又は、時間整列された新しい信号が、ガイド信号に比してわずかに長い）ならば、Ｍ−１における最後の訂正ファクター値が再使用される。この場合に、補間を用いて、より良い予測を得ることもまた可能である。

得られる訂正処理値の例において、1.0の訂正ファクターＣ（Ｍ）は、フレームＭにおいてｓ'（ｎ）への変化が無いことを意味し、0.5は、１オクターブだけ、より低いピッチを意味し、2.0は、ピッチを１オクターブだけ上げること、等を意味する。

＜新しい信号のシフト・ピッチ＞
ピッチ訂正信号における各値Ｃ（Ｍ）は、時間整列された新しい信号ｓ'（ｎ）のサンプルの、対応するフレームＭのために必要とされる訂正乗算値を与える。この例において、Ｃ（Ｍ）のフレーム・レートは、時間整列アルゴリズムによって使用されるもの（これは、毎秒100フレーム（即ち100fps）である）と同じであるように選択される。換言すれば、Ｃ（Ｍ）は、毎秒のｓ'（ｎ）ごとに、100個のサンプルを持つことになる。

正しく機能させるために、いくつかのピッチ・シフティング・アルゴリズムは、時間整列されたアルゴリズムのフレーム・レートより、非常に小さいフレーム・レートを持たなければならない（即ち、サンプリング・インターバル（分析フレーム）は、非常に、より長い）。例えば、時間ドメインのピッチ・シフティング技術は通常、約25から30fpsのフレーム・レートを持つ（もし、それらが、50から60Hzの周波数までにおいても作動すべきものならば）。しかし、それらのフレーム・レートは、信号を通じて一定である必要が無い。そして、レートは、例えば、信号ｓ'（ｎ）の基本ピッチとともに変動し得る。しかし、本実施例において、ピッチ・シフティングで、固定フレーム・レートが使用される。

本実施例において、ピッチ訂正ファクターＣ（Ｍ）の計算のための、それぞれのフレーム・レート及び、ピッチ・シフティング・アルゴリズムの作動は異なり、それ故、線形補間が用いられて、時間において、ピッチ・シフティング・アルゴリズムの各分析フレームの中央に最も近いＣ（Ｍ）サンプルからの、ピッチ・シフティング・アルゴリズムの各分析フレームの中央において必要とされるピッチ訂正の予測が導出される。この、補間された訂正ファクターは、以下のように導出される：

ピッチ訂正信号のフレームＭは、新しい信号ｓ（ｎ）のＬｃサンプルと等しい長さを持つ。ここで、Ｌｃは、以下によって与えられる。

Ｌｃ＝新しい信号ｓ（ｎ）のサンプリング・レート／Ｃ（Ｍ）のフレーム・レート
（３）

ピッチ・シフティング・アルゴリズム（ここで、ピッチ訂正の予測が要求される）の分析フレームの各々の中央における、ｓ'（ｎ）に沿ったサンプル番号が、以下のように決定される。

もし、Ｎｃ（Ｆps−１）が、ピッチ・シフティング分析フレームＦps−１の中央における、ｓ'(ｎ)に沿ったサンプル番号ならば、次のフレームＦpsの中央におけるサンプル番号Ｎｃ（Ｆps）は、

Ｎｃ（Ｆps）＝Ｎｃ（Ｆps−１）＋Ｌｓ（Ｆps, Ｔ₀（Ｆps−１））（４）

である。ここで、
Ｆpsは、ピッチ・シフティング分析フレーム番号、Ｆps＝０,１,２,・・・であり、
Ｌｓ（Ｆps, Ｔ₀（Ｆps−１））＝（新しい信号のサンプリング・レート）／（ピッチ・シフティング・アルゴリズムのフレーム・レート）
である。

この一般的なケースにおいて、Ｌｓは、フレーム番号Ｆps及びＴ₀（Ｆps−１）（これは、Ｆps−１におけるピッチ周期期間である）の関数であり、時間変動するフレーム・レートを可能とする。この実施例において、Ｌｓは一定に保持され、1536サンプル、即ち、34.83msに設定される。

最初に計算されたフレームの前のピッチ・シフティング分析フレーム（Ｎｃ(−１)）と、最初に計算されたフレームＮｃ(０)、の双方の中央におけるｓ'（ｎ）に沿ったサンプル番号に対する初期値は、ピッチ・シフティンング・アルゴリズムに依存する。この実施例において、Ｎｃ(−１)＝0.5*Ｔ₀(−１)及びＮｃ(０)＝０である。

Ｎｃ(Ｆps)及びＬｃを用いて、ピッチ・シフティング・アルゴリズムにおける特定の分析フレームＦpsの中央におけるサンプルをバインドされる(bound)、又は、それを含む、Ｃ（Ｍ）のピッチ相関フレーム番号Ｆｃ(Ｍ)は、

Ｆｃ(Ｆps)＝Ｎｃ(Ｆps)／Ｌｃ (５)

である。ここで、
／は、整数の割り算を意味し、
Ｆｃ(Ｆps)は、ピッチ・シフティング・アルゴリズム・フレームＦpsの丁度前(just before)に、又は、その中央で、発生するＣ(Ｍ)のフレームであり、
Ｌｃは、上において定義されたものである。

もし、Ｆｃ(Ｆps)が、ピッチ・シフティング・アルゴリズム・フレームの丁度前又はその中央において発生しているピッチ訂正フレームであるならば、(Ｆ(Ｆps)＋１)は、その中央の後ろに発生する次のピッチ訂正フレームとなる。

ピッチ訂正Ｃ(Ｆｃ(Ｆps))とＣ(Ｆｃ(Ｆps)＋１)の間の線形補間は、ピッチ・シフタの分析フレームの中央において、補間された訂正ファクタＣｓ(Ｆps)を与えて、ピッチ・シフタを制御する。

Ｃｓ(Ｆps)＝Ｃ(Ｆｃ(Ｆps))*(１−α)＋α＊Ｃ（Fｃ(Ｆps)＋１） (６)

ここで、
α＝(Ｎｃ(Ｆps)−Ｌｃ＊Ｆｃ(Ｆps))／Ｌｃ
であり、ここで、
／は、整数の割り算を意味し、
他のシンボルは、上述のものである。

補間された訂正ファクター値Ｃｓ(Ｆps)は、単純なローパス・フィルタリングによって円滑化されて、Ｃ's(Ｆps)となり、モジュール370の出力(ピッチ・チェンジャー・モジュール380(pitch changer moduke)に与えられる)として表現される。ピッチ訂正のために、時間整列された新しい信号ｓ'(ｎ)は、ピッチ・シフティング・アルゴリズム・フレームに対応するフレームＦps内で処理される。時間整列された新しい信号ｓ’(ｎ)のそのようなフレームＦpsの各々は、モジュール380において、その、円滑化された訂正ファクターによって、ピッチにおいて動的にシフトされ、得られるピッチ訂正され、時間整列された新しい信号ｓ''(ｎ)は、背景音楽及び利用可能な場合に選択的に対応する音楽ビデオを伴った後の再生のために、ディスク390に書き込まれる。この出力信号ｓ''（ｎ）は、ガイド信号ｇ（ｎ）に対する置換として、又は、それと同期して再生されるべき、要求される時間整列とピッチ訂正の双方を持つことになる。図６に示される、時間整列された新しい信号ｓ’(ｎ)のピッチ値の、対応する訂正ファクター値への乗算の結果としてｓ''（ｎ）で観察されることになる、時間整列され、訂正されたピッチ・コンター701の例が、図７に示される。ガイド信号ピッチ・コンター401の詳細の殆どが、今、計算された修正されたピッチ・コンター701のこの例に現れる。

記憶部390においてピッチ訂正された時間整列された出力信号波形ｓ''(ｎ)を生成するためにモジュール380によって実行されるピッチ・シフティングは、K. Lent (1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, の65-71ページ; N. Schnell, G. Peeters, S. Lemouton, P. Manoury, and X. Rodet (2000), "Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA)," International Computer Music Conference, の102 - 108ページ; J. Laroche and M. Dolson (1999), "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and other Exotic Effects." Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics の91 - 94ページ; G. Peeters (1998), "Analyse-Synthese des sons musicaux par Ia methode PSOLA," Proceedings of the Journees d'lnformatique Musicale, Agelonde, France; and V. Goncharoff and P. Gries (1998), "An algorithm for accurately marking pitch pulses in speech signals", Proceedings of the IASTED International Conference Signal and Image Processing (SIP'98), October 28 - 31のような参考文献に説明されるＴＤＨＳ、ＰＳ−ＯＬＡ、ＦＦＴのようなスタンダードのピッチ・シフティング方法のいずれかを用いて実現され得る。

この実施例において、実質的に、D. Malah (1979) "Time Domain Algorithms for Harmonic Bandwidth Reduction and Time Scaling of Speech Signals", IEEE Transactions Acoustics, Speech and Signal Processing, Volume 27, No.2, 121-133ページに記載されるような時間ドメイン・アルゴリズムが、モジュール380において用いられてて、信号ｓ'(ｎ)のピッチをシフトする。

ｓ'(ｎ)の毎フレームＦpsにおいて、ここで、Ｔ₀(Ｆps)と定義されるピッチ周期が測定される。以後、単純化のために、Ｔ₀(Ｆps)を含む計算に基づく変数もまた、Ｆpsの変数であるが、パラメータＦpsは、それらの表現において明白(explicit)にされない。

この実施例において、時間整列された新しい信号ｓ'(ｎ)は、ｓ'(n)にｈ(ｐ)(分析ウィンドウ関数801(図10(ａ)に示される))(これは、時間において周期的にシフトされる)を乗算することによって、信号のウィンドウ化されたサンプルｓ'(ｎ)のシーケンスに分解(decomposed)されることによって、

ｓ'(u,n)＝ｈ(ｎ)*ｓ'(ｎ−ｔａ(u)) (７)

が得られる。ここで、
ｈ(ｐ)は、Ｐサンプルの長さのピッチ・シフティング分析ウィンドウであり、時間における当該Ｐサンプルの長さは、フレームＦpsの測定されたピッチ周期の２倍、すなわち、２*(Ｆps)と等しい。本実施例において、ｈ（ｐ）は、ＰサンプルのHannウィンドウである。

また、ta(u)は、発声されたフレームに対するピッチ同期レートにおいて設定される、ｕ番目の分析インスタンスであり、ta(u)−ta(ｕ−１)＝Ｔ₀(Ｆps)、(ここで、ｕ＝0,1,2・・・)のようになる。非発声のフレームに対して、ta(u)は、10msの一定のレートに設定される。それは、Ｔ₀の最後の有効な値にも設定されて、発声されたフレームを形成し得る。

円滑化されたピッチ訂正Ｃ's(Ｆps)から、訂正された信号の新しい出力周期Ｔ₀'(Ｆps)が計算される。フレームＦpsにおける非発声信号に対しては、Ｔ₀'(Ｆps)＝Ｔ₀(Ｆps)である。フレームＦpsにおける発声された信号(voiced signals)に対しては、

Ｔ₀'(Ｆps)＝Ｔ₀(Ｆps)／Ｃ's(Ｆps) (８)
である。

この処理から、短期間合成ウィンドウts(v)のシーケンス802が生成される。このシーケンス802は、新しい出力周期Ｔ₀’(Ｆps)に同期されて、

ts(ｖ)−ts(ｖ−１)＝Ｔ０'（Ｆps） (９)

のようになる。ここで、ts(ｖ)は、出力フレームにおけるｖ番目の合成インスタンスである。

図１０(ａ)及び１０(ｂ)に説明されるように、各ｔｓ(ｖ)に対して、時間において最も近いｓ'(ｎ)データのそのウィンドウta(u)が、選択される。ｓ'(ｎ)データの選択されたウィンドウta（u）は、次に、出力ストリーム・バッファ（不図示）に加えられて、出力信号ストリームｓ''（ｎ）を、１フレームＦpsの全ての短期間合成ウィンドウｔｓ（ｖ）を組み合わせるオーバラップ及び加算の既知の方法によって、一回に１フレームずつ生成する。実効的に、ウィンドウ化されたサンプルｓ'(u,n)は、Ｔ０(Ｆps)の周期と再結合されるのではなくむしろ、Ｔ０'(Ｆps)のピッチ周期と再結合(recombined)される。

更なる実施例が説明される。
ビブラート及び抑揚曲線を含むピッチに加えて、音声信号の多くの他の特徴(features)が、測定可能であり、修正され得る。これらの例は、瞬時ラウドネス、声門音特性、スピーチ・フォーマット又は共鳴パターン、等化、反響、及び、エコー特性である。更に、新しい及びガイド信号は、必ずしも、韻律的、リズミック、又は、音響的な類似性を持つことに制限されない。

図８において、それぞれモジュール840及び850において新しい信号及びガイド信号に対して作動して、fs(Ｎ)及びfg(Ｍ)を生成する、特徴分析作動が示される。これらは、それぞれフレームＮ及びＭで測定された、選択された特徴を指定する特徴ベクトルとして肉太に(bold)示される。ベクトルは、同じ特徴のものである必要はない。fg（Ｍ）が、少なくとも１つの特徴を含まなければなければならない一方、更なる実施例において、fs(Ｎ)は、何の特徴(feature)も持たないヌル・ベクトルであり得る。

特徴調整関数、Ａ(fs(Ｎ),fg(Ｍ),Ｍ)が提供されねばならず、ここでは、ソース865からの処理仕様(specification)としての、システムへの入力である。この関数は、フレームＮ及びＭにおける２つの信号の特徴ベクトル(ここで、これらの２つは、同じフレームであり得るか、又は、同じフレームでは無いかもしれない。) の間の所望の関係、フレーム・パラメータＭによって表現されるような経過時間、及び、ソフトウェアで実現されてモジュール870で適用される時間変動する信号修正工程、を規定する。この関数及びバリエーションは、一般的に、システム・プログラマによって規定され、入力され、引き続き、プリセットの組として提示され得、及び／又は、システム・ユーザによって選択され得る、ユーザによって定義されたバリエーションを提供し得ることになる。

Ａ(fs(Ｎ),fg(Ｍ),Ｍ)における２つの異なった特徴を用いることの例には、新しい信号が移動バンドパス・フィルタのバンド内にエネルギーを含むという条件下で、ガイド信号のラウドネスが、新しい信号における移動バンドパス・フィルタ・プロセスの中央周波数を制御することが含まれる。ＡをＭの関数にすることもまた、工程が、関数への、あり得る（possible）時間ベースの修正を含むことを一般化する。

前に説明された方法２を採用する他の実施例が、図９Ａに示される。ここでは、時間整列された新しい信号波形が、最初のステップとして生成されない。その代わりに、モジュール920で図３及び８の実施例におけるものとして得られた時間整列データが用いられて、モジュール960において、ガイド信号の測定された特徴を、新しい信号における適切な時間(appropriate times)に時間歪みさせる(time distort)。モジュール970は、新しい信号に、時間整列された修正を為す。選択的な時間整列は、同時に(モジュール970と975の処理の１つのアルゴリズムへの結合) 特徴修正工程モジュール970において、修正された新しい信号において実行され得、又は、後続のプロセス・モジュール975において、特徴修正された信号に対して実行され得る。このアプローチの更なる詳細は、以下に与えられる。

図５における時間整列関数の逆は、フレームｋにおけるガイド信号の一致フレームを、フレームｊにおける新しい信号の各フレームにマップする。もし、Ｆｓが、新しい信号のフレーム番号であり、Ｗ(Ｆｓ)が、時間整列工程モジュール920によって生成された(逆)時間ワーピング関数(又はマッピング関数)ならば、

Ｆag(Ｆｓ)＝Ｗ(Ｆｓ) (１０)

であり、ここで、Ｆagは、時間整列されたガイドの対応するフレーム番号である。

このマッピングから、特徴調整関数の、時間整列された、又は、ワープされたバージョンが生成され、（図示せず）９Ａの調整モジュール960で使用される。
例として、ピッチ訂正での応用に戻って、式(１)に基づいて、ピッチ訂正関数のワープされたバージョンが、

Ｃ(Ｆｓ)＝Ｐｇ(Ｆag（Ｆｓ）)／Ｐｓ(Ｆｓ) (１１)

として計算される。
(１０)及び(１１)から、

Ｃ(Ｆｓ)＝Ｐｇ(Ｗ(Ｆｓ))／Ｐｓ(Ｆｓ) (１２)

ここで、Ｃ(Ｆｓ)は、新しい信号のフレームＦｓの訂正ファクターである。
Ｐｓ(Ｆｓ)は、新しい信号のフレームＦｓの予測されたピッチである。Ｗ(Ｆｓ)は、ワーピング関数からの、ガイドにおける対応するフレームである。（必要であれば）オクターブ修正を含む、以前説明された、Ｃ(Ｆｓ)の更なる処理が、調整モジュール960において行われる。この調整モジュール960は次に、式（２）に基づいて、

Ｃ(Ｆｓ)＝Ｐ’ｇ(Ｗ(Ｆｓ))／（Ｑ*Ｐ’ｓ（Ｆｓ）） (１３)

で与えられる修正関数を提供する。

この修正関数は、修正モジュール970において、フレーム毎に(on a frame by frame basis)、ｓ(ｎ)に適用されて、修正された出力ｓ*(ｎ)を生成する。

分析及び修正のために、如何なる信号特徴も指定されることを可能とするために、図９Ａに示される処理は、図８に示されるように一般化されるが、記憶部980における修正された出力ｓ*(ｎ)がガイド信号と時間整列されていない代わりに、オリジナルの新しい信号ｓ(ｎ)のタイミングを持つ点で異なる。修正された出力ｓ*(ｎ)の、ガイド信号ｇ(ｎ)への時間整列は、モジュール970における特徴修正及びモジュール975における時間整列が同時に実行されるような単一の工程においてピッチ修正に対して実現できる。例えば、同時に、ピッチ及び時間修正を実施する(これは、潜在的な処理アーティファクトを低減し、計算効率を改善し得る)ための方法の記述は、J. McAulay and T. Quatieri (1992), "Shape Invariant Time-Scale and Pitch Modification of Speech", IEEE Trans. Sig. Processing, IEEE Trans. Sig. Processing, March, Vol. 40 No. 3, 497-510 ページ、及び、D. O'Brien and A. Monaghan (1999), "Shape Invariant Pitch Modification of Speech Using a Harmonic Model", EuroSpeech 1999, 1059-1062ページのような参考文献に見出される。これらの参考文献は、適用するシフトの量を決定するために、任意の一定ピッチ・シフトか、オリジナルの信号の測定に基づく一定のピッチ・シフトかのいずれかを想定する。例えば、もし、非発声のフレームが、オリジナルの発声波形で検知されるならば、そのフレーム中に適用される全ての(any)時間又はピッチ修正をスイッチ・オフ、又は、少なくとも低減することが通常のやり方である。

選択的に、通常の時間整列関数も、信号ｓ'*（ｎ）を生成するために、モジュール975における非線形の編集工程に適用され得る。このｓ'*（ｎ）は、特徴が修正された新しい信号ｓ*(ｎ)の時間整列されたバージョンである。

方法３を実行する他の実施例は、図９Ｂに説明される。この図では、記憶モジュール982内の時間整列された信号ｓ'（ｎ）が、モジュール920で生成された、オリジナルの時間整列されたパスを用いて、モジュール975によって生成される。このアレンジメントにおいて、新しい信号の特徴コンターは、非修正の新しい信号ｓ(ｎ)から、モジュール840によって生成され、ガイド信号の特徴コンターは、モジュール850によって生成される。モジュール960において、式

Ｃ(Ｍ)＝Ｐ'ｇ(Ｍ)／Ｑ*Ｐ'ｓ（ｗ（Ｍ）） (１４)

(ここで、ｗ（Ｍ）は、モジュール920によって生成された時間ワーピング・パスである)が実行されて、特徴修正コンターＣ（Ｍ）を生成する。この修正コンターは、モジュール972で、時間整列された新しい信号に適用されて、時間整列された、そして、特徴が修正された、新しい信号ｓ*(ｎ)を、出力記憶モジュール987で生成する。

更なる実施例において、１つの連続的な信号の代わりに、ガイド信号は、一連の異なった個々の信号から成り立ち得る。或いは、マルチプルのガイド信号(例えば、ハーモニー・ボーカル)が使用されて、単一の新しい信号から、マルチプルのボーカル・パーツを生成し得る。

更なる実施例において、新しい信号における特徴は、測定される必要が無い、又は、新しい信号の特徴調整計算に入力される必要が無く、単純に、ガイド信号の特徴又は複数の特徴の測定に基づいて、修正され得る。これの例は、ガイド信号におけるそれらの特徴の関数としての、新しい信号への反響又はＥＱの適用であり得る。

以上の実施例で用いられる処理モジュールは、図１及び２のシステム100のようなシステムで実現される際には、ソフトウェア・モジュールであるが、代替的な実装においては、ハードウェア・モジュール、又は、ハードウェア及びソフトウェア・モジュールの混合物であり得ることが理解されるであろう。

本発明の１つの応用は、例えば、携帯電話又はコンピュータ・ベースの電話システムでの電話の呼び出し音を提供できるユーザの声を持つ、個人化された(personalised)音声ファイルを生成するためのものである。他の例は、電話の呼び出し中又は他のデータ交換中に、発呼者(calｌer)又は呼の受信者に提示され得る、何らかの呼び出し音や他の音声を置換することを含む。そのような交換は、電話ネットワーク、ＶＯＩＰ（ボイス・オーバー・インターネット・プロトコル）システム、又は、他のメッセージ配送システムを介して行われ得る。更なる例は、個人化された事前録音のメッセージを使用し得る、何らかの装置又はシステムに対する、個人化された音声ファイルの生成を含む。

図１１は、ユーザが、そのような音声ファイルを生成、発送、及び、受信することを可能とするための本発明の実施例を説明する。オペレーションにおいて、ユーザは、陸上ラインのハンドセット1110又は移動電話のハンドセット1120から、電気通信ネットワーク1140を介して、電話コールを開始する。適切なコンバータ1150が、電気通信ネットワーク1140から信号を受信し、それを、デジタル音声信号及びオペレーショナルなコマンド・トーンに変換する（これらは、サーバ・コンピュータ1160によって処理される）。サーバコンピュータ1160は、ユーザに選択及びオペレーションについてのフィードバックを与えるために、作動可能に、モジュール1165から、インタラクティブな発声応答(ＩＶＲ：Interactive Voice Response)を提供する。

サーバ・コンピュータ1160は、１つあるいはそれより多いコンピュータの中に実装され得、図３又は８又は９Ａ又は９Ｂに説明される工程を実施するための音声処理モジュール1170を取り込み得る。コンピュータ1160は、歌の音声ファイルを記憶するために、記憶モジュール1180にアクセスし、それらの歌のファイルを参照するために、データベースにアクセスする。コンピュータ1160は、記憶モジュール1185内に、オリジナルの及び処理されたユーザ音声レコーディング、並びに、それらのレコーディングを参照するためのデータベースをも記憶する。

サーバ・コンピュータ1160は、タッチトーン又は他の信号を解釈して、オペレーションを開始する。例えば、この実装における電話のキーパッドで、ユーザは、コンピュータ1160に、
(ａ) 「トラック(track)」（例えば、(モジュール1180に記憶される)歌の一部）を選択することを選択する、
(ｂ) ユーザが、それ(選択されたトラック)を聞いて、それに対してリハーサルするために、選択されたトラックを、コンバータ1150及びネットワーク1140を介して、電話ハンドセット1110または1120に送信する、
(ｃ) 選択されたトラックが電話ハンドセット1110又は1120を通じて再生(replaying)し、そして、ユーザが、ハンドセット・マイクロホンに向かって歌う間に、ユーザの声を記録する、
(ｄ) 適切な背景トラック(例えば、オリジナルの歌手の声が無いトラックのバージョン)と混合されたユーザの声の処理された記録を再生する、
ように指令できる。

ステップ(ｃ)において、ユーザの声は、記憶モジュール1185に記録され、図３又は８又は９Ａ又は９Ｂに示されるもののような処理を実行する処理モジュール1170を介して処理され、結果が、モジュール1185に記憶される。

最後に、次に、ユーザは、彼／彼女のハンドセット1110又は1120のキーパッドで、受信者の移動電話番号を入力する。コンピュータ1160は次に、「ＷＡＰプッシュ」システムのようなリングトーン配送システム1190を用いて、データ・メッセージを受信者の番号に送る。このデータ・メッセージは、受信者に、処理された音声を、彼の移動電話又は他の装置にダウンロードするために必要とされる情報を与える。

代替的な実装において、マイクロホン159及びスピーカ156を有するユーザのコンピュータ100が、直接インターネット175を介して、又は、ＶＯＩＰソフトウェア1135を用いた電話コールによって、サーバ・コンピュータ1160にアクセスするために用いられる。ユーザは、次に、前に説明したのと同じ手順を行い得るが、コンピュータ100を用いて聞き、記録し、コンピュータ100のキーボード125（不図示）に入力されたコマンドを、サーバ・コンピュータ1160に送る。ユーザは、最後に、配送システム1190を通じて生成された音声ファイルを受信するために、その番号によって、移動電話を指定できる。音声ファイルは、指定されたコンピュータのＶＯＩＰシステムにおけるリングトーン又は他の識別音ファイルとして、ユーザのコンピュータ100、又は、（友人のコンピュータのような）他の指定されたコンピュータにおいても使用され得る。

ユーザが、インターネットを介してサーバ・コンピュータ1160にアクセスするような他の代替的実装において、図３又は８又は９Ａ又は９Ｂの処理モジュールのいくつか又は全ては、モジュール1130によって表されるように、ユーザのコンピュータ100にダウンロードされ得る。サーバ・コンピュータ1160における音声処理モジュールの支援ありで、又は当該支援無しで、モジュール1130の使用の結果得られ、ユーザのコンピュータ100か、記憶モジュール1185かのいずれかに記憶される音声ファイルは、インターネット175又は電気通信ネットワーク1140を介して、要求された宛先の(destination)電話又は他のパーソナル・コンンピュータに送られ得る。

更なる実施例において、プロセッサは、その全体又は一部が、電話内、又は、コンピュータ・システム及びメモリ及び要求された音声信号を入力し出力するための手段を含む何らかの他の装置の中に実装され得る。

更なる実施例において、サーバ・コンピュータ1160から、ユーザが受信する歌の音声ファイルとともに、(音楽ビデオのような)ビデオ信号が提供され得る。ユーザは、これらの音声及びビデオ信号を再生でき、上述のような音声レコーディングが可能である。背景トラック及び同期されたビデオと混合された、処理されたファイルは、指定された電話、パーソナル・コンピュータ、又は、音声／映像ファイルを再生できる他の装置、に配送される。

歌の音声ファイルは、歌に限定されず、スピーチ、音声効果、音楽、又は、これらの組み合わせを含む、如何なる音声記録でもあり得る。

本発明の実施における使用のために適したコンピュータ・システムのブロック図である。本発明を実施するために図１のコンピュータに追加され得る、追加的なソフトウェア・コンポーネントを示すブロック図である。異なったピッチ及びタイミング特性を持つ入力信号に基づくピッチ調整を伴う出力音声信号を生成するために使用される信号及び処理モジュールを示す本発明の１つの実施例のブロック図である。プロの歌手の録音されたガイド発声に対しての時間の関数としてのピッチ測定、及び、同じ音楽伴奏に対して同じ歌を歌う、訓練されていないユーザからの録音された新しい信号における同じ測定の、一般的な例を示すグラフである。時間ワーピング関数又はアルゴリズム・パスを表すグラフである。左の周波数軸に対する、図４（ピッチ訂正前）からのガイド信号のピッチ及び整列された新しい信号のピッチ、並びに、右の垂直軸に対する、計算された円滑化されたピッチ訂正ファクターを示すグラフである。ガイド信号のピッチ、及び、（図６では非訂正状態で示された）訂正された新しい信号ピッチのグラフである。任意の入力信号の時間整列された特徴に基づく何らかの一般的信号特徴修正を持つ出力音声信号を生成するために用いられる信号及び処理モジュールを示す本発明の他の実施例のブロック図である。本発明に従った処理であって、当該処理において新しい信号の特徴が、ガイド信号への同時時間整列によって、又は、それ無しに修正される当該処理を有する更なる実施例のブロック図である。本発明に従った処理であって、当該処理の中で、時間整列パスが、時間整列された新しい信号を生成すること、及び、時間整列された新しい信号に為されるべき修正を正確に決定するためのマッピング関数を提供すること、の双方のために用いられる、当該処理を有する更なる実施例のブロック図である。図１０（ａ）は、オーバーラップ及び加算合成を用いて信号ｓ''（ｎ）を生成するために使用される分析ウィンドウの相対位置及び形状の例のグラフィックな表現である。図１０（ｂ）は、オーバーラップ及び加算合成を用いて信号ｓ''（ｎ）を生成するために用いられる合成ウィンドウの相対位置及び形状の例のグラフィカルな表現である。通信システムを利用する、本発明の更なる実施例のブロック図である。

Claims

音声信号(audio signal)の少なくとも１つの音響的特徴(acousticfeature)を修正するための方法であって、
第１の及び第２のサンプルされた音声信号を比較して、当該第２の信号における時間に依存する特徴の発生の時間と、当該第１の信号における時間に依存する特徴の発生の時間の間のタイミング差から時間整列データを決定し、
前記第１の信号に沿った選択された位置において、前記第１の信号の少なくとも１つの音響的特徴を測定して、そこから、第１の信号特徴測定のシーケンスを生成し、
第１の信号特徴測定の前記シーケンスを処理して、特徴修正データのシーケンスを生成し、そして、
特徴修正データの前記シーケンスを、前記第２の信号に適用して、前記時間整列データによって、前記第２の信号の選択された部分の少なくとも１つの音響的特徴を修正する、
ステップを含む方法。
前記方法が、
前記第２の信号に沿った選択された位置において、前記第２の信号の前記少なくとも１つの音響的特徴を測定して、そこから、第２の信号特徴測定のシーケンスを生成するステップを含み、
第１の信号測定の前記シーケンスを処理するステップが、前記第１の信号特徴測定を、前記第２の信号特徴測定と比較し、そのような比較から前記特徴修正データを決定することを含む、
請求項１に記載の方法。
前記特徴修正データを適用する前記ステップが、前記時間整列データを用いて、前記第２のサンプルされた信号から、時間整列された第２の信号を生成し、前記特徴修正データを、当該時間整列された第２の信号に適用するステップを含む、請求項１又は２に記載の方法。
前記処理ステップが、前記第１の信号特徴測定で、前記時間整列されたデータを用いて、前記第２の信号特徴測定との時間整列において前記特徴修正データを生成するステップを含む、請求項２又は３に記載の方法。
前記特徴修正データを適用するステップが、所定の関数に従って、前記特徴修正データを変更(modulating)して、前記特徴修正データと前記所定の関数との共同(jointly)によって、前記第２の信号の前記選択された部分の前記少なくとも１つの音響的特徴を修正することを含む、以上のいずれかの請求項に記載の方法。
前記第１の信号の前記少なくとも１つの音響的特徴がピッチである、以上のいずれかの請求項に記載の方法。
前記第２の信号の前記少なくとも１つの音響的特徴がピッチである、以上のいずれかの請求項に記載の方法。
前記第１の及び第２の信号の前記時間に従属する特徴が、サンプルされたスペクトラル・エネルギー測定である、以上のいずれかの請求項に記載の方法。
前記第１の信号の前記少なくとも１つの音響的特徴がピッチであり、前記第２の信号の前記少なくとも１つの音響的特徴がピッチであり、
前記処理ステップが、前記第１の信号のピッチ測定と、前記第２の信号の時間整列されたピッチ測定の比率の値から、乗算ファクターを決定して、当該ファクターを、前記特徴修正データを適用する前記ステップに含ませて、前記修正され選択された信号部分内の前記第２の信号においてピッチ変化の周波数範囲をシフトする、ステップを含む、
請求項１に記載の方法。
２のべき乗(a power of two)だけ前記乗算ファクターをスケーリングして、前記２のべき乗の選択に従って、前記修正され選択された信号部分におけるピッチを変更するステップを更に含む、
請求項９に記載の方法。
前記第２の信号に沿った、選択された位置で測定する前記ステップが、
前記時間整列データを用いて、前記第２のサンプルされた信号から、時間整列された第２の信号であって、当該第２の信号内に、前記第２のサンプルされた信号の前記時間に依存する特徴の発生の時間(times)が、前記第１のサンプルされた信号における前記時間に依存する特徴の発生の時間と実質的に一致する、当該第２の信号を生成するステップを含み、
前記時間整列された第２の信号に沿った位置での前記時間整列された第２の信号における前記少なくとも１つの音響的特徴の測定が、前記第１のサンプルされた信号に沿った前記選択された位置と、タイミングにおいて関連するように選択される、
請求項２に記載の方法。
前記第１のサンプルされた信号の前記少なくとも１つの音響的特徴がピッチであり、
前記第２のサンプルされた信号の前記少なくとも１つの音響的特徴がピッチであり、
前記特徴修正データを適用する前記ステップが、
前記時間整列されたデータを用いて、前記第２のサンプルされた信号から、時間整列された第２の信号を生成して、前記特徴修正データを、前記時間整列された第２の信号に適用して、ピッチ修正され時間整列された第２の信号を生成するステップを含む、
請求項２に記載の方法。
前記特徴修正データを適用する前記ステップが、
所定の関数に従って、前記特徴修正データを変更して、前記特徴修正データと前記所定の関数の共同によって、前記第２の信号の前記選択された部分におけるピッチを修正することを含む、
請求項１２に記載の方法。
前記所定の関数が、前記第１のサンプルされた信号におけるピッチ測定と、前記第２のサンプルされた信号に沿った前記第２のサンプルされた信号における対応するピッチ測定の比率の前記値の関数である、請求項１３に記載の方法。
第１の及び第２のサンプルされた音声信号を比較して、前記第２の信号における時間に従属する特徴の発生の時間と、前記第１の信号における時間に依存する特徴の発生の時間の間のタイミング差から、時間整列データを決定するための手段、
前記第１の信号に沿った、選択された位置において、前記第１の信号の少なくとも１つの音響的特徴を測定して、そこから、第１の信号特徴測定のシーケンスを生成するための手段、
第１の信号特徴測定の前記シーケンスを処理して、特徴修正データのシーケンスを生成するための手段、及び、
特徴修正データの前記シーケンスを、前記第２の信号に適用して、前記時間整列されたデータに従って、前記第２の信号の選択された位置の少なくとも１つの音響的特徴を修正するための手段、
を備える、音声信号の少なくとも１つの音響的特徴を修正するための装置。
前記第２の信号に沿った、選択された位置において、前記第２の信号の前記少なくとも１つの音響的特徴を測定して、そこから、第２の信号特徴測定のシーケンスを生成するための手段を更に備え、
第１の信号測定の前記シーケンスを処理するための手段が、前記第１の信号特徴測定を、前記第２の信号特徴測定と比較して、そのような比較から、前記特徴修正データを決定するための手段を含む、請求項１５に記載の装置。
前記特徴修正データを適用するための前記手段が、前記時間整列データを使用して、前記第２のサンプルされた信号から、時間整列された第２の信号を生成し、前記特徴修正データを、前記時間整列された第２の信号に適用するための手段を含む、
請求項１５又は１６に記載の装置。
前記処理手段が、前記第１の信号特徴測定について前記時間整列データを使用して、前記第２の信号特徴測定と時間整列した前記特徴修正データを生成するための手段を含み、
請求項１６又は１７に記載の装置。
前記特徴修正データを適用するための前記手段が、所定の関数に従って、前記特徴修正データを変更(modulating)して、前記特徴修正データと前記所定の関数の共同によって、前記第２の信号の前記選択された部分の前記少なくとも１つの音響的特徴を修正するための手段を含む、請求項１５に記載の装置。
前記第１の信号の前記少なくとも１つの音響的特徴がピッチである、請求項１５に記載の装置。
前記第２の信号の前記少なくとも１つの音響的特徴がピッチである、請求項１５に記載の装置。
前記第１の及び第２の信号の前記時間に従属する特徴が、サンプルされたスペクトラル・エネルギー測定である、請求項１５に記載の装置。
前記第１の信号の前記少なくとも１つの音響的特徴がピッチであり、
前記第２の信号の前記少なくとも１つの音響的特徴がピッチであり、
前記処理手段が、前記第１の信号のピッチ測定と、前記第２の信号の時間整列されたピッチ測定の比率の値から、乗算ファクターを決定して、前記特徴修正データの適用に前記ファクターを含ませて、前記修正され選択された信号部分の前記第２の信号におけるピッチ変化の周波数範囲をシフトさせるための手段を含む、
請求項１５に記載の装置。
２のべき乗によって前記乗算ファクターをスケーリングして、当該２のべき乗の選択に従って、前記第２の修正され、選択された信号部分におけるピッチを変更するための手段を更に含む、請求項２３に記載の装置。
前記第２の信号に沿った選択された部分において測定するための前記手段が、
前記時間整列データを使用して、前記第２のサンプルされた信号から、時間整列された第２の信号であって、当該第２の信号内で、前記第２のサンプルされた信号の前記時間に従属する特徴の発生の時間が、実質的に、前記第１のサンプルされた信号における前記時間に従属する特徴の発生の時間と一致する、当該第２の信号を生成するための手段を含み、
前記時間整列された第２の信号に沿った位置での、前記時間整列された第２の信号における前記少なくとも１つの音響的特徴を測定するための手段が、タイミング的に、前記第１のサンプルされた信号に沿った、前記選択された位置と関連するように選択される、
請求項１６に記載の装置。
タイミング的に関連するように選択された前記位置が、実質的に、タイミング的に、前記第１のサンプルされた信号に沿った、前記選択された位置と一致する、請求項２５に記載の装置。
前記第１のサンプルされた信号の前記少なくとも１つの音響的特徴がピッチであり、
前記第２のサンプルされた信号の前記少なくとも１つの音響的特徴がピッチであり、
前記特徴修正データを適用するための前記手段が、
前記時間整列データを使用して、前記第２のサンプルされた信号から、時間整列された第２の信号を生成して、前記特徴修正データを、前記時間整列された第２の信号に適用して、ピッチ修正され時間整列された第２の信号を生成するための手段を含む、
請求項１６に記載の装置。
前記特徴修正データを適用するための手段が、
前記特徴修正データと、前記所定の関数の共同によって、前記第２の信号の前記選択された部分におけるピッチを修正するように、所定の関数に従って、前記特徴修正データを変更するための手段を含む、請求項２７に記載の装置。
前記所定の関数が、前記第１のサンプルされた信号におけるピッチ測定と、前記第２のサンプルされた信号に沿った前記第２のサンプルされた信号における対応するピッチ測定の、前記比率の前記値の関数である、請求項２８に記載の装置。
新しい信号及びガイド音声信号を受信し、それらから、時間整列された新しい信号を生成するようにされた時間整列モジュール、
前記時間整列モジュールにカップルされ、前記時間整列された新しい信号においてピッチを測定するようにされた第１のピッチ測定モジュール、
前記ガイド音声信号を受信し、前記ガイド音声信号におけるピッチを測定するようにされた第２のピッチ測定モジュール、
前記第１の及び第２のピッチ測定モジュールにカップルされ、ピッチ訂正ファクターを計算するようにされたピッチ調整計算機、及び、
前記時間整列された新しい信号を受信するために前記時間整列モジュールにカップルされ、前記ピッチ訂正ファクターを受信するために前記ピッチ調整計算機にカップルされ、前記ピッチ訂正ファクターに従って、前記時間整列された新しい信号におけるピッチを修正するようにされたピッチ変更器、
を備える音声信号修正装置。
新しい信号及びガイド音声信号を受信して、それらから、時間整列された新しい信号を生成するようにされた時間整列モジュール、
前記ガイド音声信号を受信し、前記ガイド音声信号の少なくとも１つの音響的特徴を測定するようにされた第１の音響的特徴測定モジュール、
前記第１の音響的特徴測定モジュールにカップルされ、音響的特徴修正ファクターを計算するようにされた音響的特徴調整計算機、及び、
前記時間整列された新しい信号を受信するために前記時間整列モジュールにカップルされ、前記音響的特徴修正ファクターを受信するために前記音響的特徴調整計算機にカップルされ、前記音響的特徴修正ファクターに従って、前記時間整列された新しい信号の前記少なくとも１つの音響的特徴を修正するようにされた音響的特徴変更器、
を備える音声信号修正装置。
処理関数モジュールが、前記特徴調整計算機にカップルされて、そこに、信号関数を供給し、
前記特徴調整計算機が、前記信号関数とは独立して、前記音響的特徴修正ファクターを計算するようにされる、
請求項３１に記載の音声信号修正装置。
第２の音響的特徴測定モジュールが、前記時間整列モジュールにカップルされ、
前記時間整列された新しい信号の少なくとも１つの音響的特徴を測定するようにされ、そして、
前記音響的特徴調整計算機が、前記第２の音響的特徴測定モジュールにカップルされた、
請求項３１又は３２に記載の音声信号修正装置。
第２の音響的特徴測定モジュールが、前記新しい音声信号を受信し、前記新しい音声信号の前記少なくとも１つの音響的特徴を測定するようにされ、
前記音響的特徴調整計算機が、前記第２の音響的特徴測定モジュール及び前記時間整列モジュールにカップルされ、前記新しい音声信号の前記測定された音響的特徴を、前記ガイド音声信号の前記測定された音響的特徴に整列するようにされている、
請求項３１に記載の音声信号修正装置。
新しい音声信号及びガイド音声信号を受信し、それらから、時間整列データを生成するようにされた時間整列モジュール、
前記ガイド音声信号を受信し、前記ガイド音声信号の少なくとも１つの音響的特徴を測定するようにされた第１の音響的特徴測定モジュール、
前記時間整列モジュール及び前記第１の音響的特徴測定モジュールにカップルされ、音響的特徴修正ファクターの時間整列された値を計算するようにされた音響的特徴調整計算機、および、
新しい音声信号を受信するためにカップルされ、前記音響的特徴修正ファクターの前記時間整列された値を受信するために前記音響的特徴調整計算機にカップルされ、修正された新しい音声信号を生成するように、前記音響的特徴修正ファクターの前記時間整列された値に従って、前記新しい音声信号の前記少なくとも１つの音響的特徴を修正するようにされた音響的特徴変更器、
を備える音声信号修正装置。
時間整列器が、前記修正された新しい音声信号を受信するために前記音響的特徴変更器にカップルされ、前記時間整列データを受信するために前記時間整列モジュールにカップルされ、前記修正された新しい音声信号及び時間整列データに従って、時間整列された新しい信号を生成するようにされた、請求項３５に記載の音声信号修正装置。
第２の音響的特徴測定モジュールが、前記新しい音声信号を受信し、前記新しい音声信号の少なくとも１つの音響的特徴を測定するようにされ、そして、
前記音響的特徴調整計算機が、前記第２の音響的特徴測定モジュールにカップルされた、
請求項３５又は３６に記載の音声信号修正装置。
前記適用するステップが、それによって、修正された第２の信号を表すデータを生成することを含む、請求項１に記載の方法。
前記修正された第２の信号を表すデータを電気通信装置に提供するステップを更に含む、請求項３８に記載の方法。
前記提供するステップが、前記修正された第２の信号を表すデータを、リングトーン配送システムを通じて送信することを含む、請求項３９に記載の方法。
前記比較手段、前記測定手段、前記処理手段、及び、前記適用手段が、電気通信装置内に取り込まれている、請求項１６に記載の装置。
前記電気通信装置が、電気通信ネットワークにカップルされるようにされたサーバ・コンピュータを備える、請求項４１に記載の装置。
前記電気通信装置が移動電話を備える、請求項４１に記載の装置。
前記電気通信装置が、修正された第２の信号を表すデータを、リングトーン・システムに供給するようにされる、請求項４１に記載の装置。
前記移動電話が、修正された第２の信号を表すデータを、リングトーン・システムに供給するようにされる、請求項４３に記載の装置。