JP5143569B2 - Method and apparatus for synchronized modification of acoustic features - Google Patents

Method and apparatus for synchronized modification of acoustic features Download PDF

Info

Publication number
JP5143569B2
JP5143569B2 JP2007552713A JP2007552713A JP5143569B2 JP 5143569 B2 JP5143569 B2 JP 5143569B2 JP 2007552713 A JP2007552713 A JP 2007552713A JP 2007552713 A JP2007552713 A JP 2007552713A JP 5143569 B2 JP5143569 B2 JP 5143569B2
Authority
JP
Japan
Prior art keywords
signal
feature
pitch
time
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007552713A
Other languages
Japanese (ja)
Other versions
JP2008529078A5 (en
JP2008529078A (en
Inventor
フィリップ ジェフリー ブルーム
ウィリアム ジョン エルウッド
ジョナサン ニューランド
Original Assignee
シンクロ アーツ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB0501744A external-priority patent/GB2422755A/en
Application filed by シンクロ アーツ リミテッド filed Critical シンクロ アーツ リミテッド
Publication of JP2008529078A publication Critical patent/JP2008529078A/en
Publication of JP2008529078A5 publication Critical patent/JP2008529078A5/ja
Application granted granted Critical
Publication of JP5143569B2 publication Critical patent/JP5143569B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • G10H1/366Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems with means for modifying or correcting the external signal, e.g. pitch correction, reverberation, changing a singer's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/076Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of timing, tempo; Beat detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/375Tempo or beat alterations; Music timing control
    • G10H2210/391Automatic tempo adjustment, correction or control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/325Synchronizing two or more audio tracks or files according to musical features or musical timings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Description

本発明は、信号修正に関連する。より詳細には、しかし排他的ではなく、本発明は、第1の及び第2の音声信号の対応する特徴が、それぞれの信号内の時間における同じ相対位置において発生しない場合の、他の要約された音声信号における特徴に基づく、1つの要約された(digested)音声信号の修正において起こる問題に関連する。   The present invention relates to signal modification. More specifically, but not exclusively, the invention is summarized in other cases where the corresponding features of the first and second audio signals do not occur at the same relative position in time within each signal. Related to the problems that occur in the modification of one digested speech signal, based on features in the recorded speech signal.

新たな演技(performance)が、オリジナルの俳優又は歌手の言葉の、正確に同期された反復であるような場合に、音声又は音声/映像クリップ(clip)と共に話すこと、又は、歌うことが困難であることは良く知られている。従って、新たな演技の記録の開始及び詳細な音響的特徴が、オリジナルの音声トラック(track)の開始及び詳細な音響的特徴と同期することは非常に稀である。同様に、新たな歌手のピッチのような特徴は、オリジナルの歌手の特徴程には、正確又は複雑に変化しないかもしれない。音声記録が、新たに記録された声の発声及び音楽のピッチで為されるような、プロの音声記録業界、及び、コンスーマ・コンピュータ・ベースのゲーム及びアクティビティが、当該音声記録を、オリジナルの声の記録と同期させるための、ピッチ調整(一般的に訂正を意味する)から恩恵を被るような多くの場合が存在する。更に、たとえ、同期していても、通常のアマチュアの歌唱の記録は、プロの歌手の熟練した発声スタイル及びピッチ抑揚(inflection)を持たないことがあり得る。   It is difficult to speak or sing with an audio or audio / video clip if the new performance is an exact synchronized repeat of the words of the original actor or singer It is well known that there is. Thus, it is very rare for the start of a new performance recording and detailed acoustic features to synchronize with the start of the original audio track and detailed acoustic features. Similarly, features such as the new singer's pitch may not change as accurately or as complex as the features of the original singer. Professional audio recording industry and consumer computer-based games and activities, where audio recordings are made with newly recorded voice utterances and musical pitches, make the audio recording the original voice There are many cases that benefit from pitch adjustment (generally meaning correction) to synchronize with other recordings. In addition, even if synchronized, normal amateur song recordings may not have a professional singer's skilled vocal style and pitch inflection.

図4は、プロの歌手のピッチ測定(ガイドピッチ401)、及び、同じ音楽トラックと同じ言葉の、いくつかの、公衆の(public)(新らしいピッチ402)歌唱を示す。発声された信号(非ゼロHzのピッチ値)の対応するセクション(パルス)の開始(onsets)とオフセット(offsets)の間のタイミング、及び、非発声又は沈黙セクション(ゼロHzにおける)の位置、の不一致は、しばしば起こり、大きなものである。同じ相対時間におけるガイド・ピッチ401からのピッチデータを、新しいピッチ402のデータに、直接適用することは、ここに示されるセグメントの実質的な量に対して、明らかに間違っており、不適切である。これが一般的な結果であり、基本的な解決課題を示す。   FIG. 4 shows a professional singer pitch measurement (guide pitch 401) and several public (new pitch 402) songs with the same music track and the same words. The timing between the onsets and offsets of the corresponding section (pulse) of the uttered signal (non-zero Hz pitch value) and the position of the non-voiced or silent section (at zero Hz) Inconsistencies often occur and are significant. Applying pitch data from guide pitch 401 at the same relative time directly to new pitch 402 data is clearly wrong and inappropriate for the substantial amount of segments shown here. is there. This is a general result and represents a basic solution.

音楽の音色(note)毎のピッチ調整は、一般的に、入力音(notes)を、受け入れ可能な音ピッチ(note pitches)の指定された固定のグリッドに同期させるような、商業的に入手可能なハードウェア及びソフトウェア装置により、記録された、又は、ライブの歌唱に対して自動的に適用され得る。そのようなシステムにおいては、各出力音は、自動的に訂正され得るが、このアプローチはしばしば、受け入れられない、又は、不愉快な結果をもたらし得る。何故なら、それは、自然の、そして望ましい「人間の」変化(variations)を除去し得るからである。   Pitch adjustments for musical notes are generally commercially available, such as synchronizing input notes to a fixed grid with a specified pitch of acceptable notes. Can be automatically applied to recorded or live singing by various hardware and software devices. In such systems, each output tone can be corrected automatically, but this approach can often be unacceptable or have unpleasant consequences. Because it can remove natural and desirable "human" variations.

そのような既知のソフトウェア及びハードウェア装置における、ターゲットのピッチ識別に対する基本的なベースは、基本的に、それらの特定の音の周波数のリスト(これに対して当該装置が、第1に、入力信号を比較すべき)である、音楽の音階(scale)である。殆どの装置は、標準音階に対する、予め設定された音楽の音階を伴っており、例えば、ターゲット・ピッチを変更するために、或いは、一定のピッチ化された音をそのままにするために、それらのカスタマイズを可能とする。   The basic basis for target pitch identification in such known software and hardware devices is basically a list of those specific sound frequencies (as opposed to the device's first input). The scale of the music, which should be compared). Most devices come with a preset musical scale relative to the standard scale, for example to change the target pitch or leave a constant pitched sound intact. Allows customization.

既知のソフトウェア装置は、自動モードに設定可能である。この自動モードは一般的に、如何にして、ハードウェア装置が動作するか(装置が入力ピッチを検知し、ユーザ指定のプリセット音階における最も近い音階(scale note)を識別し、出力ピッチが、指定された音階の音のピッチに一致するように入力信号を変更する)に関する。比率であって、当該比率において出力ピッチが回転され(slewed)ターゲットのピッチに戻される、当該比率(しばしば、「スピード」と呼ばれる)は、自然のピッチ・カウンタ(即ち、時間の関数としてのピッチ)を、より正確に、そしてより自然に維持し、より広い範囲の「スタイル」を可能とすることを助けるように制御される。   Known software devices can be set to automatic mode. This automatic mode generally determines how the hardware device operates (the device detects the input pitch, identifies the closest scale note in the user-specified preset scale, and the output pitch is specified. The input signal is changed so as to match the pitch of the sound of the selected scale. A ratio, at which the output pitch is slewed back to the target pitch, and the ratio (often referred to as “speed”) is a natural pitch counter (ie pitch as a function of time). ) Is more accurate and more natural, and is controlled to help enable a wider range of “styles”.

しかし、アマチュアの記録された歌唱は、プロの歌手の歌唱(performance)に見出される、複雑で熟練したピッチ変動を実現するためには、そのような既知の自動調整技術によって強調されるべきではない。   However, amateur recorded singing should not be emphasized by such known automatic tuning techniques in order to achieve the complex and skilled pitch variation found in professional singer performances .

ターゲット発声音、又は、他の記憶されたターゲット発声音パラメータ・データのシーケンスを用いて、所望の修正を指定するために、ピッチ訂正、及び/又は、他の発声音修正を実行する、既知の発声音処理方法及びシステムも存在する。これらのこれらの既知の方法は、1つあるいはそれより多い大きな欠点を有する。例えば、   Perform a pitch correction and / or other utterance modification to specify a desired modification using a target utterance or a sequence of other stored target utterance parameter data There are also voice processing methods and systems. These known methods have one or more major drawbacks. For example,

1.ユーザの入力発声音信号に提供されるターゲット・ピッチ(又は他の発声音の特徴)が、厳格に、ユーザがそれに沿って、一般的にリアルタイムで歌う、カラオケ・トラック又は他のそのような伴奏のタイミングに従い、対応する発声音の特徴を整合させる試みが為されない(特許文献1:米国特許第5966867号、特許文献2:日本特許2003044066号)。もしユーザの発声音が、ターゲットの特徴(例えばピッチ)データのタイミングに比して余りにも早く開始するなら、後の言葉又は音節に対して、ターゲットの特徴が誤って適用されることになる。もし、ユーザ声が遅い場合に、類似の問題が発生する。フレーズ(phrases)の間において、音楽トラックとの関係での時間から外れたいずれの言葉又は音節も、その言葉又は音節に対する誤ったピッチ又は他の特徴に割り当てられることになる。同様に、無音声のセグメント(unvoiced segments)が予想されるときに発生する、いずれの発声音化されたセグメント(voiced segments)も、記憶されたターゲットのピッチ又は他のターゲットの特徴情報を全く受信しない。 1. A karaoke track or other such accompaniment in which the target pitch (or other voicing features) provided to the user's input utterance signal is strictly followed by the user, generally in real time No attempt is made to match the characteristics of the corresponding uttered sound in accordance with the timing (Patent Document 1: US Pat. No. 5,966,867, Patent Document 2: Japanese Patent No. 2003044066). If the user's utterance begins too early compared to the timing of the target feature (eg pitch) data, the target feature will be incorrectly applied to later words or syllables. A similar problem occurs if the user voice is slow. During a phrase, any words or syllables that are out of time in relation to the music track will be assigned to an incorrect pitch or other feature for that word or syllable. Similarly, any voiced segments that occur when unvoiced segments are expected will receive no stored target pitch or other target feature information at all. do not do.

2.ユーザの入力発声音に適用されるターゲット・ピッチ(又は、他の発声音の特徴(feature))は、予想される、記憶された入力音素(phonemes)のシーケンス、又は、類似の発声された/非発声のパターン、又は、単に、母音の検知に依存し、そして、それに従う(follows)(特許文献3:米国特許第5750912号)。そのような方法は、一般的に、ユーザの訓練、又は、音素データの固定された特性の入力を必要とし、及び/又は、正確な識別が起こるための同じ言葉の十分に近い発音を必要とする。もし、訓練が存在せず、ユーザの音素の組が認識されないほど、記憶された組から十分に異なるならば、システムは、適切に機能しないことになる。もし、ユーザの音素が、十分に長く保持されないならば、又は、余りにも短く保持されるならば、出力音(notes)は、切り捨てられるか、削除され得る。もし、音素が、余りにも早く又は余りにも遅く到達するならば、ピッチ又は特徴は、正しい音素に適用され得るが、音楽の伴奏とはタイミングがずれて(out of time)しまう。もし、ユーザが、誤った音素(1つあるいはそれより多い)を呟くならば、システムは、容易に、一致状態(match)を維持することに失敗する。更に、歌において、単一の音素には、しばしば、所定の範囲のマルチプルのピッチ、及び/又は、ピッチの連続が与えられる(これらに対しては、音素ベースのシステムは、正しいピッチ又は特徴変化を実行し難い)。正確な音素認識は、非ゼロの処理時間(これは、リアル・タイム・システムでの正しい特徴の適用を遅緩させ得る)をも要求する。非発声音(例えば、フルート)は、ガイド信号又は入力として使用され得ない。 2. The target pitch (or other utterance feature) applied to the user's input utterance is the expected sequence of stored input phonemes, or similar uttered / Rely on and follow non-voicing patterns, or simply vowel detection (US Pat. No. 5,057,912). Such methods generally require user training or input of fixed characteristics of phoneme data and / or require close enough pronunciation of the same words for accurate identification to occur. To do. If there is no training and the user's phoneme set is sufficiently different from the stored set that it is not recognized, the system will not function properly. If the user's phonemes are not kept long enough, or if they are kept too short, the output notes can be truncated or deleted. If the phoneme arrives too early or too late, the pitch or feature can be applied to the correct phoneme, but out of time with the musical accompaniment. If the user asks for incorrect phonemes (one or more), the system will easily fail to maintain a match. Furthermore, in a song, a single phoneme is often given a range of multiple pitches and / or a series of pitches (for these, phoneme-based systems have the correct pitch or feature change). Hard to run). Accurate phoneme recognition also requires non-zero processing time, which can slow down the application of the correct features in a real time system. Non-voiced sounds (eg, flutes) cannot be used as a guide signal or input.

3.ターゲット・ピッチ・モデルは一般的に、一般的にピッチと時間の双方において量子化される、テーブル(例えば、Midiデータとして)によって記述される離散的な音(notes)の組に基礎を置く。この場合には、入力発声音への修正は、記憶された音に限定される。このアプローチは、生成され得る、利用可能な発声音パターンの限定的な組に繋がる。音と音の間の(inter-note)遷移、ビブラート、及び、グリッサンド制御は、一般的に、粗い音ベースの記述(即ちMidi)に限定される。また、処理されたピッチ訂正された歌の発声音は、機械的(モノトーン)な音に乗り得(take on)、そして、もし、ピッチが、ミス・タイミングによって、言葉の間違った部分に適用されるならば、歌は、奇妙に歌われて聞こえ、場合によっては、調子外れにもなり得る。 3. The target pitch model is generally based on a set of discrete notes described by a table (eg, as Midi data) that is typically quantized in both pitch and time. In this case, the correction to the input utterance sound is limited to the stored sound. This approach leads to a limited set of available vocal patterns that can be generated. Inter-note transitions, vibrato, and glissando control are generally limited to rough sound-based descriptions (ie Midi). Also, the processed pitch-corrected utterances can take on mechanical (monotone) sounds, and if the pitch is applied to the wrong part of the word due to miss timing If so, the song can be heard weirdly sung, and in some cases, out of tune.

4.システムは、(ライブのカラオケシステムのように)実時間に近い形で作動するように設計され、出力を、(訂正されるべき)入力が、受信された後直ぐに(即ち、1秒の数分の一以内に)生成する。音素又は類似の特徴を使用するシステム(例えば、特許文献4:米国特許第5750912号)は、非常に局所化されたタイムスロットに限定される。そのようなシステムは、ステップを外れ得、例えば、カラオケ歌手の母音が、ガイディングするターゲット歌唱の間違った部分に一致することにつながり得る。 4). The system is designed to operate in near real time (like a live karaoke system), and the output is output immediately after the input (to be corrected) is received (ie, a few minutes per second). Within one). Systems that use phonemes or similar features (eg, US Pat. No. 5,509,912) are limited to highly localized time slots. Such a system can be out of step, for example, leading to karaoke singer vowels matching the wrong part of the target song to guide.

米国特許第5966867号公報US Patent No. 5966867 特開2003-044066号公報JP2003-044066 米国特許第5750912号公報US Patent No. 5750912 米国特許第5750912号公報US Patent No. 5750912

それ故、第1に、新しい歌唱の時間変化する特徴と、ガイディングする歌唱の対応する特徴、との間の詳細なタイミング関係を確立する方法及び装置の必要性が存在する。第2に、このタイミング整列(alignment)パス(path)は、特徴(例えばピッチ)調整を、正しく決定し、正確に、正しい時間において、新しい歌唱(vocal performance)に適用するための時間マップとして使用されなければならない。正しく実行されると、この方法は、(例えば、ピッチ、ビブラート、抑揚カーブ、わたり(glide)、ジャンプ等に対する)ガイディング発声音の歌唱に見出されるニュアンス及び複雑さが、新しい歌唱に作用されることを可能とする。更に、もし、時間整列が適用されるならば、ピッチに加えて、又は、それの代替としての、他の特徴が;例えば、声門音の特性(例えば、気息音、または、ガリガリ削るような(raspy)発声音)、発声音路(tract)共鳴(resonances)、EQ、及び、他のものが制御され得る。   Therefore, first, there is a need for a method and apparatus that establishes a detailed timing relationship between the time-varying characteristics of a new song and the corresponding characteristics of the guiding song. Second, this timing alignment path can be used as a time map to correctly determine and apply features (eg, pitch) adjustments to new vocal performance at the correct time. It must be. When performed correctly, this method can affect the new singing with the nuance and complexity found in singing vocalizations (eg, for pitch, vibrato, inflection curves, glide, jumps, etc.) Make it possible. In addition, if time alignment is applied, other features in addition to or as an alternative to pitch; for example, glottal characteristics (eg, breath sounds or snarling ( raspy), tract resonances, EQ, and others can be controlled.

本発明他の目的は、非理想的な入力信号状態の場合、特に新しい入力(例えば、ユーザの発生音)が、
(a)帯域制限され、及び/又は、ダイナミック・レンジが制限された場合(例えば、電話システムを介する入力)、
(b)一定のタイプのノイズ又は歪を含む場合、
(c)ガイディング(ターゲット)発生音(voice)とは、異なったアクセント、性別、又は、年齢を持つ人からのものである場合、又は、言葉及び音素(それらが、ガイディング(ターゲット)信号と同じかまたは異なった場合のいずれでも、更には、異なった入力言語の場合でも)の伝達(delivery)の非常に異なったタイミングを持つ人からのものである場合、
に作動する、発声音修正ための方法を提供することである。
Another object of the present invention is that, in the case of non-ideal input signal conditions, particularly new inputs (eg, user-generated sounds)
(A) Bandwidth limited and / or dynamic range limited (eg, input via telephone system)
(B) if it contains certain types of noise or distortion;
(C) Guiding (target) generated voice (voice) is from a person with a different accent, gender or age, or words and phonemes (they are guiding (target) signals) Either from the same or different, and even from different input languages) from people with very different timings of delivery,
To provide a method for correcting utterances.

更なる目的は、例えば、信号の音韻(phonemic)の性質に関する、記憶されるべき信号又は、出力信号に適用され得る、あり得る信号状態の詳細な組についての、如何なる、事前の情報をも必要としない方法を提供することである。従って、関連する更なる目的は、ガイディング音声信号と新しい音声信号(これらのいずれか、または双方が、スピーチ又は歌唱であることが要求されない)と共に作動しうる方法を提供することである。   Further objectives require any prior information about the detailed set of possible signal states that can be applied to the signal to be stored or the output signal, eg regarding the phonemic nature of the signal It is to provide a method that does not. Accordingly, a further related object is to provide a method that can operate with a guiding audio signal and a new audio signal (either or both of which are not required to be speech or singing).

タイム・マッピング及び音声信号の整列のためのシステム及び方法が、既に存在する。2つの音声(audio)信号の間の時間差を決定し、自動波形編集によって、音声信号の1つを自動的に、他の音声信号に時間整列するための方法及びシステムは、英国特許2117168及び米国特許4591928(ブルーム他)に説明されている。時間整列のための他の技術は、J Holmes及びW Holmes, (2001), "Speech synthesis and recognition, 2nd Edirtion", Taylor and Francis, Londonに説明される。   Systems and methods for time mapping and audio signal alignment already exist. A method and system for determining the time difference between two audio signals and automatically aligning one of the audio signals to the other audio signal by automatic waveform editing is described in British Patent 2117168 and US Patent 4591928 (Bloom et al.). Other techniques for time alignment are described in J Holmes and W Holmes, (2001), "Speech synthesis and recognition, 2nd Edirtion", Taylor and Francis, London.

ピッチ変更及び他の発生音(vocal)修正のための技術もまた、良く確立されている。その1つの例は、K. Lent(1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, (65から71頁)である。   Techniques for pitch changes and other vocal corrections are also well established. One example is K. Lent (1989), “An efficient method for pitch shifting digitally sampled sounds,” Computer Music Journal Vol. 13, No. 4, (pages 65 to 71).

本発明は、請求項によって規定され、以下で、それに対する参照がなされる。   The invention is defined by the claims, to which reference will now be made.

本発明の好ましい実施例は、自動的に及び正しく、第2のデジタル化された音声信号の、1つあるいはそれより多い信号特性を、第1のデジタル化された音声信号における指定された特徴の関数であるように修正するための方法及び装置を提供する。これらの実施例において、双方の信号における、指定された特徴の相対的なタイミングが、最初に確立される。これらのタイミング関係に基づいて、信号の特徴(features)の、詳細な、そして、時間的にクリティカルな修正が、正しく適用され得る。これを実現するために、第1の信号の特徴と、第2の信号の特徴の間のマッピングを生成し、第2の(ユーザの)信号をオプショナルに編集するための関数を提供するための、時間整列関数が生成される。   The preferred embodiment of the present invention automatically and correctly converts one or more signal characteristics of the second digitized audio signal to a specified feature in the first digitized audio signal. Methods and apparatus for modifying to be a function are provided. In these embodiments, the relative timing of specified features in both signals is first established. Based on these timing relationships, detailed and temporally critical corrections of signal features can be applied correctly. To accomplish this, a mapping between the first signal features and the second signal features is generated, and a function for optionally editing the second (user) signal is provided. A time alignment function is generated.

本発明の特定の応用には、プロの歌手のデジタル化された発声音の歌唱の選択された音声特性を、より熟練していない人のデジタル化された歌唱に正確に伝達(transferring)し、従ってそれを改善(enhancing)することが含まれる。本発明の1つの特定の応用は、公衆の一般的なメンバーによって生成された新しい音声信号(「新信号」)のピッチが、プロの歌手によって生成された他の音声信号(「ガイド信号」)のピッチに従うように、自動的に調整することにおける応用である。これの例は、オリジナルのソースとしてのデジタル化された音楽ビデオを用いたカラオケ・スタイルのレコーディング及び再生システムであって、オリジナルの音声及びオプショナルの対応映像の再生中に、ユーザの声がデジタル化され、(新しい記録として)装置に入力されるようなシステムである。このシステムによって、自動的に時間とピッチが訂正された、修正されたユーザの声信号が生成され得る。オリジナルの映像と同期して、修正された声信号が再生されるとき、ユーザの声は、何らかのリップ同期(lip synching)を含む、ピッチと時間の双方に関して、オリジナルの歌手の記録された声を正確に置換し得る。もし、オリジナルの、置換される発声信号が、ユーザの修正された声の録音によって、再生中に可聴的でないならば、音楽映像の再生中に、この置換のインパクトは、更により有効となろう。WO2004/040576に説明されるように、修正された声の記録は、オリジナルの背景音楽と組み合わせられ得る。   For specific applications of the present invention, the selected audio characteristics of a professional singer's digitized vocalization song are accurately transferred to the digitized song of a less skilled person, Thus, enhancing it is included. One particular application of the present invention is that the pitch of a new audio signal ("new signal") generated by a general member of the public is different from another audio signal ("guide signal") generated by a professional singer. This is an application in automatically adjusting to follow the pitch. An example of this is a karaoke-style recording and playback system using digitized music video as the original source, where the user's voice is digitized during playback of the original audio and optional corresponding video. System that is then entered into the device (as a new record). This system can generate a modified user voice signal that is automatically time and pitch corrected. When the modified voice signal is played in sync with the original video, the user's voice will be the recorded voice of the original singer in terms of both pitch and time, including some lip synching. Can be exactly substituted. If the original, replaced speech signal is not audible during playback due to the recording of the user's modified voice, the impact of this replacement will be even more effective during playback of the music video. . As described in WO 2004/040576, the modified voice recording can be combined with the original background music.

本発明の追加的な応用は、電話システムで使用するための、個人化された音声ファイルの生成に存在する。そのような応用において、ユーザは、歌い、又は、会話さえして、記録され、その後、改善(enhanced)(例えば、プロの歌手のバージョンの特性に追従(follow)するために、ピッチ及び時間が訂正)され、選択的に、適切な背景トラック(track)とミックスされる発声信号を提供する。得られる、改善されたユーザ記録は、次に、電話のユーザに、個人化された呼び出し音、又は、他の目的のための音声ファイルとして利用可能とされ得る。本発明を実現する装置は、次に、例えば、電気通信ネットワーク、及び/又は、インターネットを備える電気通信システムにカップルされたサーバ・コンピュータの形式をとり得、装置とユーザの間のインターフェースとしての移動電話を利用し得る。更に、又は代替的に、移動電話は、本発明を実現するために適用され得る。そのようなシステムにおいて、本発明の実施例によって生成された、修正された発声信号、又は、そのような信号を表すデータは、呼び出し音又は他の識別音声信号として用いられるために、呼び出し音(ring tone)配送システムを介して選択された受信者に送信され得る。   An additional application of the present invention resides in the generation of personalized audio files for use in a telephone system. In such an application, the user sings or even speaks and is recorded and then enhanced (eg, pitch and time to follow the characteristics of a professional singer's version). Corrected) and optionally provides an utterance signal that is mixed with the appropriate background track. The resulting improved user record can then be made available to the telephone user as a personalized ring tone or as an audio file for other purposes. The device embodying the invention can then take the form of a server computer coupled to a telecommunication network and / or a telecommunication system comprising the Internet, for example, as an interface between the device and the user. You can use the phone. Additionally or alternatively, a mobile phone can be applied to implement the present invention. In such a system, a modified utterance signal, or data representing such a signal, generated by an embodiment of the present invention may be used as a ring tone or other identifying voice signal for use in a ring tone ( ring tone) may be sent to the selected recipient via the delivery system.

本発明の好ましい実施例において、時間に依存するガイド(Guide)と新しい信号(NewSignal)の間のマッピング関数を生成するステップの包含(inclusion)は、信号の特徴の修正が、2つの信号の間の実質的な差異に関わらず、新しい信号内の適切な時間において為されることを確実にする。時間整列関数は、制御特徴(feature)関数データを、所望の信号修正工程にマップするために用いられる。修正工程は、新しい信号にアクセスし、要求されるように、それを修正する。この動作は、新しい信号から、新しい、第3の音声信号を生成する。従って、第3の信号は、次に、ガイド信号の制御特徴として指定される特徴(features)によって決定される所望の時間変動特徴(features)を持つ。   In the preferred embodiment of the present invention, the inclusion of the step of generating a mapping function between a time-dependent guide (Guide) and a new signal (NewSignal) means that the modification of the signal characteristics is between two signals. To ensure that it is done at the appropriate time within the new signal. The time alignment function is used to map the control feature function data to the desired signal modification process. The modification process accesses the new signal and modifies it as required. This operation generates a new, third audio signal from the new signal. Thus, the third signal then has the desired time-varying features determined by the features specified as the control features of the guide signal.

1つの実施例において、第2の音声信号(新しい信号)は、時間整列関数からのマッピング情報を用いて、時間修正され(非線形に時間圧縮された又は拡張された)、それによって、その時間変動特徴が、時間において、第1の音声信号(ガイド信号)と整列するようになっている。この時間整列は、上述の所望の修正が行われる前、又は後に、行われ得る。   In one embodiment, the second audio signal (new signal) is time corrected (non-linearly time compressed or expanded) using the mapping information from the time alignment function, so that its time variation The features are arranged in time with the first audio signal (guide signal). This time alignment may be performed before or after the desired correction described above is performed.

代替的な実施例において、時間整列工程は、新しい又は修正された波形において実行されない。その代わり、第2の信号の波形の適切な部分を修正して、そのオリジナルのタイミングを維持するために、時間ワーピング(warping)パスが用いられて、第1の信号(ガイド信号音声制御パラメータ)の制御特徴を第2の信号にマップする。   In an alternative embodiment, the time alignment process is not performed on the new or modified waveform. Instead, a time warping path is used to modify the appropriate portion of the waveform of the second signal to maintain its original timing, and the first signal (guide signal voice control parameter). Are mapped to the second signal.

実時間処理の制約無しに処理を実行することによって、ガイド信号及び新しい信号の記憶されたバージョン(version)の詳細な分析がなされ得、時間整列工程が開始する前に、統計的に重要で実質的な、双方の信号の量(例えば、最大30秒、又は、更には信号全体)が処理され、そして、長期間の信号特性に関して重要な決定が為される。   By performing processing without the constraints of real-time processing, a detailed analysis of the stored version of the guide signal and the new signal can be made, statistically significant and substantial before the time alignment process begins. Both signal quantities (eg, up to 30 seconds, or even the entire signal) are processed, and important decisions are made regarding long-term signal characteristics.

従って、大きいサイズの、(例えば、数秒の)時間偏位が、順応され(accommodated)、訂正され得、言葉及びフレーズの中で、局所化された最適な整列(alignment)が実行され得る。更に、機能特徴は、「オフライン」でも行われ得、それによって、最も高い品質の処理が適用されること、及び、修正関連のデータの補間、及び/又は、スムージングが、何らかの明白なひどいエラーを、新しい信号に適用する前に除去することを可能とする。   Thus, large size (eg, a few seconds) time excursions can be accommodated and corrected, and localized optimal alignment within words and phrases can be performed. In addition, functional features can also be performed “offline”, so that the highest quality processing is applied, and correction-related data interpolation and / or smoothing introduces some obvious terrible errors. , Allowing it to be removed before being applied to a new signal.

新しい信号に対する出力特徴値の組は、事前に規定される必要が無い。例えば、もし、ユーザによって提供される新しい信号のピッチが、プロの歌手のレコーディングという形式のガイド信号のピッチに一致させるために訂正されるべきならば、受け入れ可能なピッチ値は、規定又は設定される必要がない。代わりに、ユーザの声が、ガイド信号のレコーディングに存在し、測定された値に調整される。   The set of output feature values for the new signal need not be pre-defined. For example, if the pitch of a new signal provided by the user should be corrected to match the pitch of a guide signal in the form of a professional singer recording, an acceptable pitch value is defined or set. There is no need to Instead, the user's voice is present in the recording of the guide signal and is adjusted to the measured value.

新しい信号は、ガイド信号に似せるために制限される必要が無い、又は、ガイド信号と同じタイプの音声的工程によって生成される必要が無い。例えば、単調な(monotonic)スピーチは、ソロの木管楽器又は鳥のさえずりに追従するために時間及びピッチ修正され得る。双方の信号が、関連するものとして扱われ得る、同じ時間変動特徴を持つ限り、本発明を具現化する方法は、適切に修正された特性(properties)を持つ出力信号を生成し得る。更に、新しい信号及びガイド信号の特徴は、周波数において、互いにオフセットされ得る。例えば、1つの信号のピッチは、他の信号から、オクターブ、又は、それより離れたものであり得る。   The new signal need not be limited to resemble the guide signal, or need to be generated by the same type of audio process as the guide signal. For example, monotonic speech can be time and pitch modified to follow a solo woodwind or bird song. As long as both signals have the same time-varying characteristics that can be treated as related, a method embodying the present invention can produce an output signal with appropriately modified properties. Furthermore, the new signal and guide signal features can be offset from each other in frequency. For example, the pitch of one signal can be one octave away from the other signal.

1つ又は双方の音声信号が、超音波又は低周波音声(infra sound)領域内にあり得ることも理解されたい。   It should also be understood that one or both audio signals can be in the ultrasonic or infra sound region.

本発明の好ましい実施例の作動によって、プロの歌手の実演に見出される、複雑で、巧妙な(skilled)ピッチ変動(及び、選択的に、他の特性)が、ユーザ(例えば、アマチュア)の歌手のデジタル化された声に、正確に転換され得る。これは、ユーザの実演の多くの側面を、プロのレベルに改善する。   By operation of the preferred embodiment of the present invention, the complex, skilled pitch variations (and optionally other characteristics) found in the professional singer's demonstrations can be sung by the user (eg, amateur) singer. Can be accurately converted into a digitized voice. This improves many aspects of the user's demonstration to a professional level.

本発明の実施例は、俳優のADRスタジオ記録された実演を改善するために、自動会話置換(ADR:Automatic Dialogue Replacement)の分野にも適用され得る。実施例は、ピッチ、エネルギーレベル、及び、韻律的特徴(pprosodic features)のような、スタジオ・レコーディングされたボーカル特性を、セットで(on set)、又は、ロケーション(location)で、画像とともに記録されたオリジナルのガイド信号のものに一致又は追従するように修正するために使用され得る。更に、スタジオ内の実演家は、ガイド信号を記録した人とは別の実演家であり得る。   Embodiments of the present invention can also be applied to the field of Automatic Dialogue Replacement (ADR) to improve actors' ADR studio recorded performances. Embodiments record studio-recorded vocal features, such as pitch, energy level, and pprosodic features, with images, either on set or location. It can be used to modify to match or follow that of the original guide signal. Further, the performer in the studio can be a different performer than the person who recorded the guide signal.

更に、本発明は、適用され得る処理の範囲において柔軟である。例えば、ピッチ調整の場合においては、時間整列されたハーモニー生成(harmony generation)のような更なるピッチ変更特徴が、代替的な出力信号を生成するための複数のピッチ調整関数の1つの関数として導入され得る。更に、ガイド信号内の1つの測定された特徴が、新しい信号内の他の全く異なった特徴を制御するための任意の関数によってマップされ得る。   Furthermore, the present invention is flexible in the range of processing that can be applied. For example, in the case of pitch adjustment, additional pitch change features such as time aligned harmony generation are introduced as a function of multiple pitch adjustment functions to generate an alternative output signal. Can be done. Furthermore, one measured feature in the guide signal can be mapped by any function to control other completely different features in the new signal.

本発明を実現する方法は、音声入力及び出力のための手段を有する、PC、又は、コンピュータ・ベースのゲーム・コンソールのようなコンピュータ・システム内のコンピュータ・プログラムで実施され得る。   The method of implementing the present invention can be implemented in a computer program in a computer system, such as a PC or a computer-based game console, having means for voice input and output.

実行されうる処理シーケンスの配列(arrangements)の多くの置換(permutation)が存在する(いくつかは、一定の状況において、他のものに対して利点を持つ)。以下の例は、如何にして、変動が、処理の複雑さに影響を与えるか、及び/又は、出力信号において可調信号アーティファクトを生成することに対する潜在性を削減させるかを説明するために、処理ピッチに関して示される。大きさ(koudness)、トーン、又は、フォーマット構造(structure)のような、ピッチ以外の処理特徴の考察において、類似の検討及び結果が生まれ得る。   There are many permutations of arrangements of processing sequences that can be performed (some have advantages over others in certain circumstances). The following example will illustrate how fluctuations affect processing complexity and / or reduce the potential for generating adjustable signal artifacts in the output signal: Shown with respect to processing pitch. Similar considerations and results can arise in consideration of processing features other than pitch, such as kuddness, tone, or format structure.

一般的に、実施例において、手始めに、新しい及びガイド信号が、デジタル的にサンプリングされ、記憶される。次に、ロバストで、話者に独特の、短時間特徴分析が、双方の信号における特徴変化のプロファイルを抽出する。(例えば、米国特許第4,591,928号に説明されるように)ノイズ及びレベル圧縮アルゴリズムが与えられた状態で、連続的なウィンドウ化された信号の「フレーム」に亘って、毎10ms毎に、スペクトル的なエネルギー測定が為される。この分析は、処理の正確性とロバストネスを最大化するために、入力信号全体に亘って実行される。他の短期間特徴測定が、代替的に使用され得る。その例が、L.R.Rabiner及びR.W.Schfer(1978)"Digital Processing of Speech Signals," Prentice Hallに示される。 In general, in an embodiment, initially, new and guide signals are digitally sampled and stored. Next, a robust, speaker-specific, short-time feature analysis extracts feature change profiles in both signals. Spectrally every 10 ms over a continuous windowed signal “frame” given a noise and level compression algorithm (eg, as described in US Pat. No. 4,591,928). Energy measurement. This analysis is performed over the entire input signal to maximize processing accuracy and robustness. Other short-term feature measurements can alternatively be used. An example is L. R. Rabiner and RW Schfer (1978) “Digital Processing of Speech Signals,” shown in Prentice Hall.

ピッチ決定の例をとると、記録された信号及びそれらの測定された信号機能データについてコンピュータ・システムで実行されるべき残りの主要な信号処理ステップは:   Taking the example of pitch determination, the remaining major signal processing steps to be performed in the computer system for the recorded signals and their measured signal function data are:

方法1
(a)ガイド信号及び新しい信号の時間に従属する特徴シーケンスは、最適時間整列パス関数(optimal Time Alignment path function)を、データ・シーケンスとして決定し、出力する、パターン・マッチング・アルゴリズムで処理される。このパスは、新しい信号のフレームを、ガイド信号のフレームに最適にマップする。
(b)時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された(time-aligned)新しい信号を生成するために用いられる。
(c)ガイド信号は、離散的で連続的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は、ガイド信号ピッチ・コンターを提供するために円滑化される。
(d)ステップ(c)における処理ステップは、整列された(編集された)新しい信号が、そのピッチ・コンターを生成するために反復される。
(e)ガイド信号の各ピッチ・コンター値は、整列された新しい信号に対する、対応するピッチ・コンター値によって分割され、オクターブ・シフトして、整列された新しい信号の各フレームに適用するための訂正ファクターを与える値の組である訂正コンターを生成するために調整される。この訂正コンターは、何らかの酷い(gross)エラーを除去するために円滑化される。
(f)ピッチ・シフト・アルゴリズムが用いられて、整列された新しい信号のピッチを、ステップ(e)からの円滑化された訂正コンターに従った値にシフトすることによって、時間及びピッチにおける、所定のガイド信号への、新しい信号マッチング(matching)を生成する、
である。
Method 1
(A) The time-dependent feature sequence of the guide signal and the new signal is processed with a pattern matching algorithm that determines and outputs an optimal time alignment path function as the data sequence. . This path optimally maps the frame of the new signal to the frame of the guide signal.
(B) Data from the time-aligned path is used to edit the new signal and generate a new signal that is time-aligned to the guide signal.
(C) The guide signal is segmented into discrete and continuous frames, and the pitch of each frame is measured. The pitch measurement sequence value is smoothed to provide a guide signal pitch contour.
(D) The processing step in step (c) is repeated for the aligned (edited) new signal to generate its pitch contour.
(E) Correction for each pitch contour value of the guide signal to be applied to each frame of the new aligned signal by dividing and octave shifting by the corresponding pitch contour value for the new aligned signal. Adjusted to produce a correction contour, which is a set of values giving the factor. This correction contour is facilitated to remove any gross errors.
(F) A pitch shift algorithm is used to shift the pitch of the new aligned signal to a value in time and pitch by shifting to a value according to the smoothed correction contour from step (e). Generate a new signal matching to the guide signal of
It is.

方法1は、2つの編集アルゴリズムを直列的に採用し、新しい信号が、1つの編集ステップを経験(undergo)した後に、新しい信号のピッチを測定する。従って、方法1における、生成された出力の品質は、ステップ(b)からの、編集された信号の出力品質に依存する。その結果、編集中に導入された、その信号内の不完全性は、ステップ(d)及び(f)の出力の品質を劣化させ得る。これは、訂正されたピッチにおける随時の小さなエラーに繋がり、場合によっては、生成された出力における、わずかな荒さ(roughness)を生成する。   Method 1 employs two editing algorithms in series and measures the pitch of the new signal after the new signal undergoes one editing step. Thus, the quality of the generated output in Method 1 depends on the output quality of the edited signal from step (b). As a result, imperfections in the signal introduced during editing can degrade the output quality of steps (d) and (f). This leads to occasional small errors in the corrected pitch, and in some cases produces a slight roughness in the generated output.

方法2
そのようなエラーのリスクを低減するために、他の実施例は、上述のステップ(b)と(f)を組み合わせて、単一の編集段階を生成する。また、新しい信号(本例ではピッチ)の如何なる特性も、時間整列された(編集された)バージョンからではなく、修正されていない新しい信号から測定され得る。これは、時間整列パスの逆(inverse)を計算することによって実現される。逆パスは、編集されていない新しい信号の各フレームを、その、対応するガイド信号のフレームにマップする。このマッピングから、時間において、ガイド信号に整列された、新しい信号に対するピッチ訂正コンターが計算される。ピッチ訂正コンターが計算される前に、実際上、ガイド信号は、時間において、新しい信号に整列されている。
Method 2
In order to reduce the risk of such errors, other embodiments combine steps (b) and (f) described above to produce a single editing stage. Also, any characteristic of the new signal (pitch in this example) can be measured from the unmodified new signal, not from the time aligned (edited) version. This is accomplished by calculating the inverse of the time alignment path. The reverse path maps each frame of the new unedited signal to its corresponding frame of the guide signal. From this mapping, a pitch correction contour is calculated for the new signal, aligned with the guide signal in time. In effect, the guide signal is aligned with the new signal in time before the pitch correction contour is calculated.

以下のステップが、本方法を要約する。
(a)ガイド信号及び新しい信号の時間に従属する特徴のシーケンスが、最適時間整列パス特徴を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力する、パターン・マッチング・アルゴリズムで処理され、
(b)時間整列パスからのデータが用いられて、ガイド信号のフレームを対応する新しい信号のフレームにマッピングする逆パス関数を生成し、
(c)ガイド信号が、離散フレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値が円滑化されて、ガイド信号ピッチ・コンターを与え、
(d)ステップ(c)での処理が、新しい信号(未編集)に対して反復されて、そのピッチ・コンターを生成し、
(e)逆パス関数を用いて、ガイド信号ピッチ・コンターを、新しい信号ピッチ・コンターに整列し、マップされたガイド信号の各ピッチ・コンター値が、新しい信号に対する対応するピッチ・コンター値によって分割され、オクターブ・シフトのために調整されて、新しい信号の各フレームに訂正ファクターを与える値の組である整列された訂正コンターを生成する。この整列された訂正コンターは円滑化されて、如何なる酷い(gross)エラーをも除去する。
(f)時間整列されたパス関数及び円滑化された整列された訂正コンターを用いて、時間において、及び、ピッチにおいて、ガイド信号に整列された出力信号を生成するために要求される、新しい信号のピッチをシフトし且つ時間圧縮も行うか、又は、新しい信号を時間伸長する、処理アルゴリズムを用いて、新しい信号が編集される。
(g)又は、ステップ(f)の代替として、円滑化され、整列された訂正コンターが、新しい信号からガイド信号への時間整列無しに適用され得る。これによって、新しい信号のオリジナルのタイミングを維持し得るが、新しい信号が、時間において、ガイド信号に整列されていない場合であっても、ピッチ訂正を、新しい信号の正しいフレームに適用することになろう。
The following steps summarize the method.
(A) a sequence of features dependent on the time of the guide signal and the new signal for determining and outputting the optimal time aligned path feature as a data sequence that optimally maps the new signal frame to the frame of the guide signal; Processed by a matching algorithm,
(B) data from the time aligned path is used to generate an inverse path function that maps a frame of the guide signal to a corresponding frame of the new signal;
(C) The guide signal is segmented into discrete frames and the pitch of each frame is measured. The pitch measurement sequence value is smoothed to give a guide signal pitch contour,
(D) the process in step (c) is repeated for a new signal (unedited) to generate its pitch contour;
(E) Using an inverse path function to align the guide signal pitch contour to the new signal pitch contour and each pitch contour value of the mapped guide signal is divided by the corresponding pitch contour value for the new signal And adjusted for octave shift to produce an aligned correction contour that is a set of values that gives a correction factor to each frame of the new signal. This aligned correction contour is smoothed to remove any gross errors.
(F) A new signal required to generate an output signal aligned with the guide signal in time and pitch using a time aligned path function and a smoothed aligned correction contour. The new signal is edited using a processing algorithm that shifts the pitch and also compresses the time or decompresses the new signal.
As an alternative to (g) or step (f), a smoothed and aligned correction contour can be applied without time alignment from the new signal to the guide signal. This can maintain the original timing of the new signal, but will apply pitch correction to the correct frame of the new signal, even if the new signal is not aligned with the guide signal in time. Let's go.

方法2のいずれかの形式が、正確に、ビブラート及び他のディテールのような微妙なニュアンスに追従でき、それを再生成できる、全ての言葉とフレーズを通じた、より信頼でき、自然な、音声ピッチ訂正を提供する。   Any form of Method 2 can accurately follow subtle nuances such as vibrato and other details and reproduce it, more reliable and natural voice pitch through all words and phrases Provide corrections.

方法3
方法2は、新しい信号を1回だけ編集するが、それは、同時にピッチ及び時間整列を修正する処理技術を利用する。ステップのシーケンスを僅かに変化させることによって、方法1を用いること無しに、ピッチシフティングと時間修正を別個に処理することが可能となる。これによって、編集の2つの段階が導入されるが、最も適切な特定化された(specialized)処理アルゴリズムが、各段階に対して別個に選択され得る。
Method 3
Method 2 edits the new signal only once, but it utilizes processing techniques that simultaneously correct the pitch and time alignment. By slightly changing the sequence of steps, it is possible to handle pitch shifting and time correction separately without using Method 1. This introduces two stages of editing, but the most appropriate specialized processing algorithm can be selected separately for each stage.

以下のステップが、この第3の方法を要約する。
(a)ガイド信号及び新しい信号の時間従属関数(function)シーケンスが、最適時間整列パス関数を、新しい信号フレームをガイド信号のフレームに最適にマップするデータ・シーケンスとして決定して出力するパターン・マッチング・アルゴリズムで処理され、
(b)ガイド信号が、離散的なフレームにセグメント化され、各フレームのピッチが測定される。ピッチ測定シーケンス値は円滑化されて、ガイド信号ピッチ・コンターを提供する。
(c)新しい信号(未編集)に対して処理ステップ(b)が反復されて、そのピッチ・コンターを生成する。
(d)時間整列パス関数を用いて、新しい信号のピッチ・コンターが、有効に、ガイド信号ピッチ・コンターに時間整列される。
(e)各ガイド信号ピッチ・コンター値が、対応する時間整列された新しい信号のピッチ・コンター値によって分割され、オクターブ・シフトのために結果が調整される。これは、時間整列された新しい信号の各フレームに適用するための訂正ファクターを含む、整列された訂正コンターを生成する。この整列された訂正コンターは、円滑化されて、如何なる酷いエラーをも除去する。
(f)時間整列パスからのデータは、新しい信号を編集し、ガイド信号に時間整列された新しい信号を生成するために用いられる。
(g)ピッチ・シフティング・アルゴリズムを用いて、時間整列された新しい信号のピッチが、ステップ(e)で生成された、円滑化され、整列された、訂正コンターによってシフトされる。これは、時間において、及び、ピッチにおいて、所定のガイド信号に整列された編集された新しい信号を与える。
The following steps summarize this third method.
(A) A pattern matching in which a time-dependent function sequence of the guide signal and the new signal determines and outputs an optimal time alignment path function as a data sequence that optimally maps the new signal frame to the frame of the guide signal.・ Processed by algorithm,
(B) The guide signal is segmented into discrete frames and the pitch of each frame is measured. The pitch measurement sequence values are smoothed to provide a guide signal pitch contour.
(C) Processing step (b) is repeated for the new signal (unedited) to generate its pitch contour.
(D) Using a time aligned path function, the new signal pitch contour is effectively time aligned to the guide signal pitch contour.
(E) Each guide signal pitch contour value is divided by the corresponding time aligned new signal pitch contour value, and the result is adjusted for octave shift. This produces an aligned correction contour that includes a correction factor to apply to each frame of the new time aligned signal. This aligned correction contour is smoothed to remove any severe errors.
(F) Data from the time alignment path is used to edit the new signal and generate a new signal time aligned to the guide signal.
(G) Using a pitch shifting algorithm, the pitch of the new time aligned signal is shifted by the smoothed and aligned correction contour generated in step (e). This gives a new edited signal that is aligned with a given guide signal in time and in pitch.

方法3は、逆(inverse)ではなく、オリジナルの時間整列パス関数を用いる。更に、それは、方法2におけるように、時間整列された(編集された)バージョンのピッチではなく、修正されていない新しい信号のピッチが、測定されるという利点を持つ。しかし、それは、まず、時間整列されたバージョンを生成(ステップf)すること無しには、新しい信号(ステップg)のピッチを修正できない。   Method 3 uses the original time-aligned path function, not inverse. Furthermore, it has the advantage that, as in method 2, the pitch of the new unmodified signal is measured rather than the time aligned (edited) version of the pitch. However, it cannot correct the pitch of the new signal (step g) without first generating a time aligned version (step f).

更なる実施例において、ピッチ以外の音声信号の他の特徴が修正されて、一旦時間整列関数が生成された場合に、ガイド信号における当該特徴を追従させ得る。追加的なタイプの時間同期的な修正可能な特徴には、瞬時音量、イクアライゼーション、スピーチ・フォーマット又は共鳴(resonant)パターン、反響、及び、エコー特性、そして更には、指定された特徴の分析及び修正に対する適切なメカニズムが利用可能である場合には言葉自身、のような音声信号特徴の修正が含まれる。 In a further embodiment, other features of the audio signal other than the pitch can be modified to cause the features in the guide signal to follow once the time alignment function has been generated. Additional types of time-synchronizable modifiable features include instantaneous volume, equalization, speech format or resonant pattern, reverberation, and echo characteristics, and even analysis of specified features This includes the modification of audio signal features, such as the word itself, if an appropriate mechanism for modification is available.

本発明において、映像信号は必要ではない。そして、入力音声信号は、他の音声信号に随伴、又は、それを置換するためにのみ必要とされ得る。   In the present invention, a video signal is not necessary. And the input audio signal may only be needed to accompany or replace other audio signals.

本発明の好ましい実施例において、最適で十分にディテール化された、第1の(ガイド)音声信号における時間変動する特徴と、対応する第2の(新しい)音声信号の時間変化特徴の間の時間マッピングを提供し得る、時間整列された関数又は時間ワーピング・パス(time warping path)を決定するための手段が含まれる。このマッピングは、時間変化する変更(alterations)が、修正されている新しい信号の適切な部分に対応するガイド(制御)信号の部分における指定された特徴に基づくことを保証する。時間整列を決定するために用いられる、特定の時間変化する特徴の測定が、サンプリングされた信号の波形の短い部分又はウィンドウ(各ウィンドウは、T'の期間であり、T'は、Tとは異なり得る)に対して、毎T秒毎に為される。測定は、通常、サンプリング・ウィンドウがオーバーラップした状態で、連続的なフレーム・バイ・フレームベースで為される。これは、L.R.Rabiner及びR.W.Schfer(1978)の「Digital Processing of Speech Signals」Prentice Hallに記載されるような、「短時間」信号分析である。 In a preferred embodiment of the present invention, the time between the time-varying feature of the first (guide) audio signal and the corresponding second (new) audio signal, which is optimally and fully detailed, Means are included for determining a time aligned function or time warping path that may provide a mapping. This mapping ensures that the time-varying alterations are based on specified features in the portion of the guide (control) signal that corresponds to the appropriate portion of the new signal being modified. The measurement of a particular time-varying feature used to determine the time alignment is a short portion or window of the sampled signal waveform (each window is a period of T ′, where T ′ is T For every T seconds. Measurements are usually made on a continuous frame-by-frame basis with overlapping sampling windows. This is a “short-time” signal analysis, as described in LRRabiner and RW Schfer (1978) “Digital Processing of Speech Signals” Prentice Hall.

時間整列工程に対して測定された特徴が、変更された特徴と、制御として使用される特徴、の双方とは異なった特徴である可能性が高いことに留意頂きたい。変更されるべき特徴と、制御特徴パラメータの間の基本的な関係が規定されねばならない。例えば、これ以降、より詳細に説明される1つの単純な関係は、新しい信号を生成する人の自然なピッチ範囲を維持するための調整を伴って、新しい信号のピッチを、ガイド信号のピッチに一致するように修正する。必要であれば、修正関数のこの規定、及び他の規定(definitions)は時間と共に変化され得る。修正関数は、音声処理コンピュータ・システムにおける、出力値.対.入力値のデータ・アレーとして、又は、数学的な関数として、又は、処理規則の組としてプログラムされ得る。関数が、必ずしも信号自身に依存せず、それ故、信号が何の分析も必要としないかもしれないことに留意頂きたい。更なるステップにおいて、第2の信号で修正されるように指定された特徴、及び、第1の信号における指定された制御特徴の双方は、時間の関数(function)として測定される。これらの測定は、データとして記憶される。   Note that the features measured for the time alignment process are likely to be different from both the modified features and the features used as controls. The basic relationship between the features to be changed and the control feature parameters must be defined. For example, one simple relationship that will be described in more detail hereinafter is that the pitch of the new signal is changed to the pitch of the guide signal, with adjustments to maintain the natural pitch range of the person generating the new signal. Modify to match. If necessary, this definition of the correction function and other definitions can be changed over time. The correction function is an output value in a speech processing computer system. versus. It can be programmed as a data array of input values, as a mathematical function, or as a set of processing rules. Note that the function does not necessarily depend on the signal itself, so the signal may not require any analysis. In a further step, both the feature designated to be modified with the second signal and the designated control feature in the first signal are measured as a function of time. These measurements are stored as data.

音声入力を記録する間に、同時に、デジタル化されたコンピュータ映像及び音声ファイルからの背景音声、及び/又は、映像信号を再生できるコンピュータ・システムは、良く知られている。これらの機能(functions)をサポートできる、一般的なPCシステムのコンポーネント及び環境が添付図面の図1に示され、このシステムは、本発明の複数の実施例に対するハードウェア及びソフトウェア環境を提供する基礎としての図2のソフトウェアとともに使用され得る。   Computer systems that can simultaneously reproduce background audio and / or video signals from digitized computer video and audio files while recording audio input are well known. A typical PC system component and environment capable of supporting these functions is shown in FIG. 1 of the accompanying drawings, which is the basis for providing a hardware and software environment for embodiments of the present invention. Can be used with the software of FIG.

図1において、CPU(中央処理ユニット)112、RAM(ランダム・アクセス・メモリ)118、一般的にマウス、キーボード125、及び、表示スクリーン130のようなポインティング・デバイス120を含むユーザ・インターフェース・ハードウェア、ハードディスク又は更なるRAMのような内部記憶装置140、CD ROM又はDVD ROMのような、固定された、又は、除去可能な記憶媒体165の上のデータにアクセスするための装置160、及び、オプショナルに、インターネット175へのアクセスを提供するためのモデム又はネットワーク・インターフェース170、を有するコンピュータ110からなる環境的な(environmental)コンピュータ・システム100が示される。ポインティング装置120は、表示されたスクリーン・カーソル(不図示)の位置、及び、スクリーン130上に表示された機能(function)のセクションを制御する。 In FIG. 1, user interface hardware including a CPU (Central Processing Unit) 112, a RAM (Random Access Memory) 118, a pointing device 120, typically a mouse, a keyboard 125, and a display screen 130. An internal storage device 140 such as a hard disk or further RAM, a device 160 for accessing data on a fixed or removable storage medium 165 such as a CD ROM or DVD ROM, and optional Illustrated is an environmental computer system 100 comprising a computer 110 having a modem or network interface 170 for providing access to the Internet 175. The pointing device 120 controls the position of the displayed screen cursor (not shown) and the function section displayed on the screen 130.

コンピュータ110は、PC又はアップル・マッキントッシュのような、如何なる、従来的なホーム又はビジネス・コンピュータ、又は、代替的に、ゲーム・コントローラ装置であるポインティング装置120を伴った、Microsoft(登録商標)XboxTM、ソニーPlaystation2TM、のような専用の「ゲーム機器」でもあり得る。図1に示されるいくつかのコンポーネントは、特定のゲーム機器に存在しないかもしれない。図2は、コンピュータ110にインストールされ得る、更なるソフトウェアを示す。 The computer 110 may be any conventional home or business computer, such as a PC or Apple Macintosh, or alternatively a Microsoft® Xbox with a pointing device 120 that is a game controller device. It can also be a dedicated “game device” such as Sony Playstation2 . Some components shown in FIG. 1 may not be present on a particular gaming device. FIG. 2 shows additional software that may be installed on the computer 110.

ユーザは、CD ROM、インターネット、又は、他の手段から、音声及びオプショナルな添付の映像クリップ(clip)を含むデジタル・データ・ファイル115を獲得し得る。このデジタル・データ・ファイル115は、aviやQuickTime(登録商標)ムービー・フォーマットのような、広く用いられるフォーマットであり得、当該デジタル・データ・ファイル115は、例えば、ハードディスク140の上に、又は、RAMの中に、コピーされ記憶される。コンピュータ110は、Microsoft(登録商標)Windowa(登録商標)又はMac(登録商標)OS、の利用可能なバージョンのいずれかによって提供されるもののような、既知のオペレーティング・システム135、サウンド・カード150、又は、録音のためにマイクロホン159から接続されるADC(アナログからデジタルへのコンバータ)を含み、音声を再生するための1つあるいはそれより多いラウドスピーカ156から接続されるDAC(デジタルからアナログへのコンバータ)を含むコンピュータのマザーボード上の等価のハードウェアの形式の音声ソフトウェア及びハードウェア、を持つ。   A user may obtain a digital data file 115 containing audio and optional attached video clips (clips) from CD ROM, the Internet, or other means. The digital data file 115 can be a widely used format, such as avi or QuickTime® movie format, and the digital data file 115 is, for example, on the hard disk 140 or Copied and stored in RAM. Computer 110 is a known operating system 135, sound card 150, such as that provided by any available version of Microsoft® Windowa® or Mac® OS. Or a DAC (digital-to-analog) connected from one or more loudspeakers 156 for playing back audio, including an ADC (analog-to-digital converter) connected from a microphone 159 for recording. Audio software and hardware in the form of equivalent hardware on the computer's motherboard, including the converter).

図2に示されるように、そのようなオペレーティング・システム135は一般的に、サウンド・カード150を介した音声記録、及び、編集機能(functions)、をサポートする音声記録及び編集ソフトウェア18(Windows(登録商標)と共に出荷される「Sound Recorder」アプリケーション・プログラムのような)と共に出荷される。記録プログラム、及び/又は、他のプログラムは、入来アナログ音声信号を、デジタル音声データに変換し、そのデータを、ハード・ディスク・ドライブ140上のコンピュータ・ファイルに記録するために、サウンド・カード150を使用し得る。Windows(登録商標)、及び/又は、他のソフトウェアと共に出荷されるWindows(登録商標) Media Playerのような音声/映像プレーヤー・ソフトウェア190が、サウンド・カード150、更なるビルトインの映像ハードウェア及びソフトウェア、表示スクリーン130、及び、スピーカー156を介して、コンポジットのデジタル映像及び音声ファイル、又は、音声ファイルだけを再生するために使用され得る。コンポジット映像及び音声ファイルは、映像データ及び1つあるいはそれより多い平行同期された音声データのトラックからなる。或いは、音声データは、マルチプルの音声データのストリームを記憶するために割り当てられた別個のファイルとして保持され得る。音声データは、会話や歌唱、インストゥルメンタル音楽、「サウンド・エフェクト」、又は、これらの何らかの組み合わせ、のような発声データであり得る。ブロック180及び190もまた、135及び110と協調して、ここに説明される歌唱処理システムを実装し得るソフトウェア及びハードウェアを表し得る。   As shown in FIG. 2, such an operating system 135 is typically an audio recording and editing software 18 (Windows () that supports audio recording and editing functions via a sound card 150. (Such as a “Sound Recorder” application program) that is shipped with a registered trademark). A recording program and / or other program can convert an incoming analog audio signal into digital audio data and record the data to a computer file on the hard disk drive 140. 150 can be used. Audio / video player software 190, such as Windows® Media Player, shipped with Windows® and / or other software, sound card 150, additional built-in video hardware and software It can be used to play a composite digital video and audio file, or just an audio file, via the display screen 130 and the speaker 156. Composite video and audio files consist of video data and one or more tracks of parallel synchronized audio data. Alternatively, the audio data may be maintained as a separate file assigned to store multiple streams of audio data. The audio data can be utterance data such as conversation, singing, instrumental music, “sound effects”, or some combination thereof. Blocks 180 and 190 may also represent software and hardware that, in conjunction with 135 and 110, may implement the song processing system described herein.

代替的に、100及び110におけるハードウェア及びソフトウェアシステムの分散された実施例が、採用され得る。その1つの例は、コンピュータ・システム100の主要素が、遠隔サーバによってユーザに提供されるようなものである。そのような場合には、アナログ又はデジタルの音声信号がユーザと100の間で送信される状態において、ユーザ側において、ユーザのPCシステムに接続された電話又はマイクロホン及びスピーカによって、電話システムネットワーク、及び/又は、インターネットを介して、入力及び出力の変換器(transducer)159、156が提供され得る。ユーザは、電話タッチトーン・キーパッド、コンピュータ・キーボード、音声入力、又は、他の手段を含む膨大な方法によって、システム・オペレーションを、遠隔的に制御できる。   Alternatively, distributed embodiments of hardware and software systems at 100 and 110 may be employed. One example is such that the main elements of the computer system 100 are provided to the user by a remote server. In such a case, in a state where an analog or digital audio signal is transmitted between the user and 100, on the user side, a telephone system network, and a telephone or microphone and speaker connected to the user's PC system, and Alternatively, input and output transducers 159, 156 may be provided via the Internet. A user can remotely control system operations by a vast number of methods including a telephone touchtone keypad, computer keyboard, voice input, or other means.

非実時間コンスーマ・カラオケ・システムの形式の本発明の実施例は、幾人かの公衆が、ミュージック・ビデオと一緒に、ポップ・ソングを歌う彼らの声を、コンピュータ・ベースのシステムに記録することを可能とする。ユーザの記録された声が修正され、その後、再生されたときに、修正された声は、オリジナルの歌手の口の動きにリップ同期され、且つ、ミュージック・ビデオ内の置換された歌手の声と同じピッチ変動を持つ。図2のシステムは、随伴ビデオを伴って、或いは、それを伴わないで、オリジナルの実演家の歌の歌唱の音声再生を可能とする。ユーザは歌を再生でき、システムは、ユーザの声をデジタル化し、コンピュータのハード・ディスク又は他のメモリ装置の上に記録(格納)する。正確に、オリジナルの歌手の声の特徴(features)を測定することへの要求が存在するので、その声信号が、背景のミュージック・トラックとは別個であることが好ましい、。これは、レコード会社、又は、媒体コンテントを提供する組織から、声が隔離された録音を要求することによって、最も効果的に実現できる。   Embodiments of the present invention in the form of a non-real-time consumer karaoke system record the voice of some public singing pop songs along with music videos to a computer-based system Make it possible. When the user's recorded voice is modified and then played back, the modified voice is lip-synchronized with the mouth movements of the original singer and the voice of the replaced singer in the music video Have the same pitch variation. The system of FIG. 2 allows for audio playback of the original performer song singing with or without accompanying video. The user can play the song and the system digitizes the user's voice and records (stores) it on a computer hard disk or other memory device. It is preferred that the voice signal be separate from the background music track, as there is a need to accurately measure the original singer's voice features. This can be most effectively accomplished by requesting a voice-isolated recording from a record company or organization that provides media content.

本実施例において、アイソレートされた状態(in isolation)で(例えば、オリジナルの録音セッションからのマルチ・トラックの録音から移されたソロのボーカル・トラック)歌を実演する歌手のデジタル化された録音である第1の信号(ガイド信号)、好ましくは、エコーや反響(reverberation)のような追加された処理が無いもの、が用いられる。そのようなデジタル化されたガイド・信号、g(n)は、CD又はDVD/ROM165で、又は、インターネット175を介して、ユーザのシステムに提供され得る。或いは、更なる実施例において、(時間整列と特徴修正制御の双方に対する)ガイド信号の要求される特徴(features)は、要求されるデータを抽出するために、同じ、又は、他のシステムにおいて事前に分析されたものであり得る。このデータは、165、175を介した、又は、他のデータ転送方法を介した、データ・ファイルとしての使用のために、システム100に入力され得る。実施例のデータ記憶及び処理モジュールが、図3に示される。   In this embodiment, a digitized recording of a singer performing the song in isolation (eg, a solo vocal track transferred from a multi-track recording from the original recording session). The first signal (guide signal), preferably without additional processing such as echo or reverberation, is used. Such a digitized guide signal, g (n), may be provided to the user's system on a CD or DVD / ROM 165 or via the Internet 175. Alternatively, in further embodiments, the required features of the guide signal (for both time alignment and feature modification control) can be pre-configured in the same or other systems to extract the required data. Can be analyzed. This data may be input to the system 100 for use as a data file via 165, 175 or via other data transfer methods. An example data storage and processing module is shown in FIG.

音声記録及び再生プログラムを走らせているユーザは、オリジナルの歌手が可聴な状態で、又は非可聴の状態で、所望の歌を再生でき、同時に歌唱できる。ユーザの歌唱は、デジタル化され、データ記憶部310内のデータファイルに記録される。このデジタル化された信号は、第2の信号、即ち、新しい信号、s(n)である。   A user running a voice recording and playback program can play a desired song while the original singer is audible or inaudible, and can sing at the same time. The user's song is digitized and recorded in a data file in the data storage unit 310. This digitized signal is the second signal, the new signal, s (n).

図3の実施例は、以後説明される方法1を実行する。その目的は、ユーザの新しい信号のピッチ及びタイミングを、ガイド信号のピッチ及びタイミングに擬似するように訂正することである。この場合には、ガイド信号における特徴(feature)は、制御関数(function)として使用されており、新しい信号で修正される特徴は、同じ特徴、即ち、それぞれの信号のピッチ・コンターである。時間整列された新しい信号ピッチ測定と、ガイド信号ピッチ測定の間の差異を追跡する工程は、修正された新しい信号のピッチが、ガイド信号のピッチに追従するようにするためのピッチ調整関数の計算において使用される。ここで、新しい信号、s(n)は、句切り法(phrasing)、コンテント、及び、長さにおいて、ガイド信号、g(n)に類似することが想定される。非実時間カラオケ・タイプの応用に対して、これは、道理に適った想定である。何故なら、ユーザは通常、タイミング、ピッチ、及び、言葉(words)において、オリジナルの歌唱実演を擬似することを試みるからである。   The embodiment of FIG. 3 implements Method 1 described below. The purpose is to correct the pitch and timing of the user's new signal to mimic the pitch and timing of the guide signal. In this case, the feature in the guide signal is used as a control function, and the feature modified by the new signal is the same feature, ie the pitch contour of the respective signal. The process of tracking the difference between the new time-aligned signal pitch measurement and the guide signal pitch measurement is a calculation of the pitch adjustment function so that the corrected new signal pitch follows the guide signal pitch. Used in. Here, it is assumed that the new signal, s (n), is similar to the guide signal, g (n), in phrasing, content, and length. For non-real-time karaoke-type applications, this is a reasonable assumption. This is because the user usually tries to simulate the original singing performance in timing, pitch, and words.

ここで、方法1は、非実時間におけるデジタル音声データにおいて、以下のように実行される。   Here, method 1 is performed on digital audio data in non-real time as follows.

<入力信号記述及び測定>
処理無しに、新しい信号及びガイド信号が適切に時間整列されていることは、きわめて少ない。米国特許第4591928号(Bloom他)は、時間整列されていないが類似の複数のスピーチ信号のエネルギー・パターンの間の差異、及び、時間整列工程への入力としてのフィルタバンク出力のようなエネルギーに関連する測定の使用を説明する。
<Input signal description and measurement>
There is very little that the new and guide signals are properly time aligned without processing. U.S. Pat. No. 4,919,928 (Bloom et al.) Describes differences between energy patterns of similar speech signals that are not time aligned but similar to the energy of the filter bank output as an input to the time alignment process. Explain the use of related measurements.

図4は、プロの女性歌手のガイド信号のピッチの測定によって得られる、以後ピッチコンター401と呼ばれる、ピッチ測定フレーム番号M(ここで、M=0,1,2・・・N)の関数としての、時系列Pg(M)、及び、時間整列前の一般的なアマチュアの新しい信号(男性の声)のピッチ・コンター402として示される時系列Ps(M)、を、同じ時間スケールに沿って示す。双方の信号のピッチ・コンターにおける差異、及び、時間におけるそれらの整合ミスが、明白である。時間において、第2の系列、Ps(M)と整列されていない第1の系列(series)、Pg(M)は、大きくて可聴的なエラーを生成すること無しには、第2の信号に対する、制御又はターゲットのピッチ関数として直接使用できない。   FIG. 4 shows a function of pitch measurement frame number M (where M = 0, 1, 2,... N), hereinafter referred to as pitch contour 401, obtained by measuring the pitch of a professional female singer's guide signal. Of the time series Pg (M) and the time series Ps (M) shown as pitch contour 402 of a new signal (male voice) of a general amateur before time alignment, along the same time scale Show. Differences in the pitch contour of both signals and their misalignment in time are obvious. In time, the second series, the first series that is not aligned with Ps (M), Pg (M), will produce a large and audible error without generating a large audible error. Cannot be used directly as a control or target pitch function.

ピッチ・コンター401又は402においてゼロHZとして示されるデータ・ポイントは、対応するピッチ測定フレームが、沈黙か、非発声スピーチかのいずれかを含むことを示す。非ゼロの測定は、そのフレームにおける、それぞれの信号のピッチ測定を示す。   A data point indicated as zero HZ in pitch contour 401 or 402 indicates that the corresponding pitch measurement frame contains either silence or unvoiced speech. A non-zero measurement indicates a pitch measurement of each signal in that frame.

図4において、新しい信号ピッチ・コンター402における発声された音の非ゼロの値のセグメント(パルス)は、一般的に、ガイド信号ピッチ・コンター401における対応する特徴(features)に対して遅れ、且つ、異なった期間(durations)を持つ。更に、2つのピッチ・コンターの、発声された(voiced)音声は、異なったオクターブに存在する。更に、ガイド信号ピッチ・コンター401の各パルスにおけるピッチ範囲(range)変動は、新しい信号のピッチ・コンター402における対応するパルスの場合に比して、より広い。ガイド信号ピッチ・コンター401は、プロの歌手から取られる(taken frm)ので、このようなことが予測される。ガイド信号ピッチ・コンター401のそのような詳細及びタイミングが、アマチュアのユーザの録音された歌唱に与えられる。   In FIG. 4, the non-zero value segments (pulses) of the uttered sound in the new signal pitch contour 402 are generally delayed relative to the corresponding features in the guide signal pitch contour 401, and , With different durations. In addition, the voiced voices of the two pitch contours are in different octaves. Further, the pitch range variation in each pulse of the guide signal pitch contour 401 is wider than in the corresponding pulse in the pitch contour 402 of the new signal. This is expected because the guide signal pitch contour 401 is taken from a professional singer. Such details and timing of the guide signal pitch contour 401 are provided to the recorded song of the amateur user.

<新しい信号の時間整列(alignment)>
図3において、データ記憶部310から読み取られた、サンプリングされた新しい信号波形s(n)は先ず、米国特許第4,591,928号に説明されるような技術を用いて、時間において、データ記憶部312から読み取られたガイド信号、g(n)に整列されて、中間音声信号、つまり、時間整列された新しい信号、s’(n)(これは、例えば、ディスク330に記憶される)を生成する。これは、s’(n)におけるエネルギー・パターンの詳細(detail)が、ガイド信号におけるそれと同じ相対的時間において発生することを保証する。これは、更に、如何なる、リップ同期(lip-synching)も有効であり、如何なる、ガイド信号から、新しい信号への特徴(feaures)の転写(transfer)も、更なる時間マッピングを必要としないことをも保証する。本例における新しい信号、s(n)及びガイド信号g(n)の生成において使用されるサンプリング周波数は、44.1kHzである。
<Time alignment of new signals>
In FIG. 3, the new sampled signal waveform s (n) read from the data store 310 is first obtained from the data store 312 in time using techniques such as those described in US Pat. No. 4,591,928. Aligned with the read guide signal, g (n), produces an intermediate audio signal, ie a new time-aligned signal, s ′ (n) (which is stored, for example, on disk 330). This ensures that the detail of the energy pattern in s ′ (n) occurs at the same relative time as that in the guide signal. This also means that any lip-synching is valid, and any transfer of features from the guide signal to the new signal does not require further time mapping. Also guarantee. The sampling frequency used in generating the new signal, s (n) and guide signal g (n) in this example is 44.1 kHz.

米国特許第4,591,928号に説明される時間整列工程は、スペクトラル・エネルギー特徴(feature)(例えば、フィルタバンク出力)を、10ms毎に測定し、10ms毎のパス・ポイント(path point)を持ち、新しい信号における類似のスペクトラル特徴を、ガイド信号における最も近い対応するフィーチャーと対応付ける、時間整列又は「時間ワーピング」パスを生成する。   The time alignment process described in US Pat. No. 4,591,928 measures spectral energy features (eg, filter bank output) every 10 ms, has a path point every 10 ms, and is new A time alignment or “time warping” path is generated that associates similar spectral features in the signal with the closest corresponding feature in the guide signal.

図5は、その中で、新しい信号の各特徴フレームが、フレーム・ナンバーjを持ち、ガイド信号の各特徴フレームが、フレーム・ナンバーkを持ち、フレーム・サンプリング・インターバルが、T秒(ここでT=10ms)であるような、時間ワーピング・パス、w(k)、k=0,1,2,・・の例を示す。そのようなワーピング・パスは、時間整列処理モジュール320内で生成され、このパスは、ディスク330の上に記憶される時間整列された新しい信号s’(n)の生成において、モジュール320における新しい信号s(n)の編集(即ち、時間圧縮/伸長)を制御するために使用される。米国特許第4,591,928号に示されるように、時間整列された新しい信号、s’(n)、は、s(n)の編集されたバージョンの構築により、モジュール320によって生成される。なお、このs(n)の編集されたバージョンの中で、s(n)の部分が、w(k)、及び、編集システムからの追加的なタイミング・エラー・フィードバックに従って、反復されてきた、または、削除されてきており、このs(n)の編集されたバージョンは、発声音が存在するときに、ピッチ同期的な編集を作るように制限される。   FIG. 5 shows that each feature frame of the new signal has a frame number j, each feature frame of the guide signal has a frame number k, and the frame sampling interval is T seconds (where An example of a time warping path, w (k), k = 0, 1, 2,. Such a warping path is generated within the time alignment processing module 320, which is a new signal in module 320 in generating a time aligned new signal s ′ (n) stored on disk 330. Used to control editing (ie, time compression / decompression) of s (n). As shown in US Pat. No. 4,591,928, a new time-aligned signal, s ′ (n), is generated by module 320 by building an edited version of s (n). Note that in this edited version of s (n), the s (n) portion has been iterated according to w (k) and additional timing error feedback from the editing system. Or it has been deleted and this edited version of s (n) is limited to making pitch-synchronized editing when utterances are present.

<新しい信号のピッチ・コンターの生成>
整列された新しい信号、s’(n)、の生のピッチ・コンター、Ps’(M)は、連続的離散ピッチ測定フレームにおける移動分析のHaanウィンドウを用いて取られたs’(n)の測定から生成される(ここで、Mは、フレーム番号であり、M=1,2,3,・・・である)。正確なピッチ測定を得るために、分析ウィンドウの長さが、測定される、最も低い周期の長さの2.5から3.0倍であることが推奨される。それ故、本実施例において、約0.0139sの周期をもち、72Hz程度の低いピッチを測定するために、1536サンプル(4401kHzサンプリング周波数において)の分析ウィンドウ(又は約35ms)が用いられる。ピッチ測定フレームのサンプリング・インターバルは、10msである。ピッチ・エスティメータ(estimator)・モジュール340の分析ウィンドウは、サンプルの各ピッチ測定フレーム内に中心を置かれる(centered)。各ピッチ測定フレームに対して、ピッチ予測のための周知の方法(例えば、自動相関、櫛形フィルタリング等)の1つを用いたピッチの予測(estimate)が為される。これらの技術の詳細な記述は、Wolfgang Hess(1983) "Pitch Determination of Speech Signals, Algorithms and Devices", Springer-Verlag; R.J.McAulay and T.F.Quatieri, (1990); "Pitch estimation and voicing detection based on a sinusoidal model," Proc. Int Conf.on Acoustics, Speech and Signal Processing, Albuquerque, NM, pp. 249-252; 及びT.F.Quatieri (2002) "Discrete-Time Speech Signal Processing; Principles and Practice," Prentice Hallのような参考文献に発見できる。
<Generation of new signal pitch contour>
The raw pitch contour, Ps ′ (M), of the aligned new signal, s ′ (n), is taken of s ′ (n) using the Haan window of motion analysis in successive discrete pitch measurement frames. Generated from measurements (where M is the frame number and M = 1, 2, 3,...). In order to obtain an accurate pitch measurement, it is recommended that the length of the analysis window be 2.5 to 3.0 times the lowest period length to be measured. Therefore, in this embodiment, an analysis window (or about 35 ms) of 1536 samples (at a 4401 kHz sampling frequency) is used to measure a pitch as low as 72 Hz with a period of about 0.0139 s. The sampling interval of the pitch measurement frame is 10 ms. The analysis window of the pitch estimator module 340 is centered within each pitch measurement frame of the sample. For each pitch measurement frame, pitch estimation is performed using one of the well-known methods for pitch prediction (eg, autocorrelation, comb filtering, etc.). A detailed description of these techniques can be found in Wolfgang Hess (1983) "Pitch Determination of Speech Signals, Algorithms and Devices", Springer-Verlag; RJMcAulay and TFQuatieri, (1990); "Pitch estimation and voicing detection based on a sinusoidal model, "Proc. Int Conf. On Acoustics, Speech and Signal Processing, Albuquerque, NM, pp. 249-252; and TFQuatieri (2002)" Discrete-Time Speech Signal Processing; Principles and Practice, "In references such as Prentice Hall Can be found.

測定は、分析ウィンドウのオーバーラップ無しに採取され得るが、25と50%の間の連続的にウィンドウ化されたデータのオーバーラップが、一般的に推奨される。この実施例において、Mの測定フレーム・レートは、100Hz(即ち、10msのインターバル)であり、これは、十分なオーバーラップを提供し、同時に、便利なことに、時間整列関数(function)の測定レートと同じである。最初の及び最後の数ピッチの測定(この中で、分析ウィンドウが、当然、利用可能なデータ・サンプルを超える)を正しく行うために、それらのピッチ測定を行う前に、信号の開始と終了の双方が、最大、ゼロ・マグニチュードのサンプルの1つの分析ウィンドウの長さでパッド(padded)される。   Measurements can be taken without analysis window overlap, but continuous windowed data overlap of between 25 and 50% is generally recommended. In this example, the measurement frame rate of M is 100 Hz (ie, a 10 ms interval), which provides sufficient overlap while at the same time conveniently measuring the time alignment function. Same as rate. In order to correctly measure the first and last few pitches (where the analysis window naturally exceeds the available data samples), before starting those pitch measurements, Both are padded with the length of one analysis window of a maximum, zero magnitude sample.

最終の円滑化されたピッチ・コンター(時間整列された新しい信号に対するPs'(M))を生成するために、3ポイント・メジアン・フィルタ、そしてその後、平均化フィルタを用いて、フィルタ・モジュール350において、個々のフレームのピッチ測定が円滑化される。更に、時間整列された新しい信号s'(n)の沈黙及び非発声フレームが、P's'(M)において、ゼロのピッチを持つとしてマークされる。   To generate the final smoothed pitch contour (Ps ′ (M) for the new time aligned signal), the filter module 350 uses a three-point median filter and then an averaging filter. , The pitch measurement of the individual frames is facilitated. Furthermore, silence and unvoiced frames of the new time aligned signal s ′ (n) are marked as having a zero pitch in P ′s ′ (M).

<ガイドのピッチ・コンターの生成>
同様に、ピッチ・エスティメータ・モジュール345において、ピッチ・コンターPs’(M)の生成のために説明されたものと同じ方法とパラメータを用いて、ガイド信号g(n)のピッチ・コンターPg(M)が生成され、フィルタ・モジュール355において円滑化されて、ガイド信号に対する円滑化されたピッチ・コンターP’g(M)を生成する。
<Guide pitch contour generation>
Similarly, the pitch estimator module 345 uses the same method and parameters as described for generating the pitch contour Ps ′ (M) and uses the pitch contour Pg ( M) is generated and smoothed in the filter module 355 to generate a smoothed pitch contour P′g (M) for the guide signal.

<ピッチ調整の計算>
次の工程は、時間整列された新しい信号の各フレームに対するピッチ調整又は訂正ファクターの計算である。これは、ピッチ調整モジュール370によって為され、ガイド信号ピッチと時間整列された新しい信号ピッチの比率、及び、何らかの所望のオクターブのシフトを考慮する。この計算は、同じフレーム番号Mを有するピッチ測定フレームの各組に対して為される。モジュール370内のローパス・フィルタは、次に、訂正ファクターを円滑化する。2つのステップが存在する:それらは、オクターブの決定、及び、新しい信号のピッチのシフティングである。ピッチの調整を考慮した上での2つのメインのオプションが存在する:それらは、(a)ガイド信号のピッチと同じとなるように出力ピッチを調整すること、又は、(b)調整された声が最も自然に聞こえるように、入力された新しい信号のピッチ範囲を維持すること、である。この後者の効果を実現するためのオクターブ調整について、これから説明する。オクターブ調整モジュール358は、オクターブ乗数Q(これは、信号の期間において一定に維持される)を計算する。このことは、この値を設定することが可能となる前に、新しい信号の全て又は少なくとも実質的な量を分析することが必要となることを強調する。
<Pitch adjustment calculation>
The next step is the calculation of the pitch adjustment or correction factor for each frame of the new time aligned signal. This is done by the pitch adjustment module 370 and takes into account the ratio of the new signal pitch time aligned with the guide signal pitch, and any desired octave shift. This calculation is done for each set of pitch measurement frames having the same frame number M. The low pass filter in module 370 then smoothes the correction factor. There are two steps: determining the octave and shifting the pitch of the new signal. There are two main options, taking into account the adjustment of the pitch: (a) adjusting the output pitch to be the same as the pitch of the guide signal, or (b) the adjusted voice. Is to maintain the pitch range of the new input signal so that it sounds the most natural. The octave adjustment for realizing the latter effect will now be described. The octave adjustment module 358 calculates an octave multiplier Q (which is kept constant during the period of the signal). This emphasizes that it is necessary to analyze all or at least a substantial amount of the new signal before this value can be set.

各ピッチ分析に対して、時間整列された新しい信号のフレームM(ピッチ予測器モジュール350及び355からのフレームMに対する円滑化されていないピッチ予測)が、用いられて、ローカル・ピッチ訂正CL(M)(ここで、Mはフレーム番号である)を計算し、それらのフレームへの計算を、時間整列された新しい信号及びその対応するガイド信号フレームの双方が発声されている場合、即ち、これらの双方のフレームが有効なピッチを持つ場合に限定する。これらのフレームにおいて、ローカル・ピッチ訂正ファクターCL(M)(これは、時間整列された新しい信号のフレームMのピッチを、ガイド信号のフレームMのピッチと同じにする)は、

CL(M)=Pg(M)/Ps'(M) (1)

によって表される。
For each pitch analysis, a time aligned new signal frame M (unsmoothed pitch prediction for frame M from pitch predictor modules 350 and 355) is used to produce local pitch correction C L ( M) (where M is the frame number) and the calculations on those frames are performed if both the time-aligned new signal and its corresponding guide signal frame are spoken, i.e. these Only when both frames have an effective pitch. In these frames, the local pitch correction factor C L (M) (which makes the pitch of frame M of the new time aligned signal the same as the pitch of frame M of the guide signal) is

CL (M) = Pg (M) / Ps ′ (M) (1)

Represented by

各比率CL(M)は、次に、以下のテーブルに従って、2のべき乗数(powers of 2)を選択することによって、その、最も近いオクターブ(octave)に丸められる。

Figure 0005143569
Each ratio C L (M) is then rounded to its nearest octave by selecting a powers of 2 according to the following table.
Figure 0005143569

全ての、得られるオクターブ値は、ヒストグラムにエンターされ、次に、最も頻繁に発生するオクターブ訂正値Qが選択される。Qは、この場合、時間の関数ではなく、時間の関数である実施例もあり得る。必要であれば、ピッチ周波数(frequency)における何らかの所望のオフセットを実現するために、Qには、他のファクターを乗算され得る。Qの計算は、モジュール358で実行される。オクターブ訂正値Qは、ピッチ調整モジュール370に与えられ、以下の式(2)で用いられて、オクターブ訂正されたピッチ訂正ファクターC(M)を生成する。

C(M)=P'g(M)/(Q*P's'(M)) (2)

ここで、C(M)は、信号のフレームMにおけるピッチ訂正ファクターであり、
P's'(M)及びP’g(M)は、それぞれ、時間整列された新しい信号の、及び、ガイド信号の、フレームMにおける円滑化された予測されたピッチである。
All the resulting octave values are entered into the histogram and then the most frequently occurring octave correction value Q is selected. In some embodiments, Q is not a function of time, but a function of time. If necessary, Q can be multiplied by other factors to achieve some desired offset in pitch frequency. The calculation of Q is performed in module 358. The octave correction value Q is provided to the pitch adjustment module 370 and used in equation (2) below to generate an octave corrected pitch correction factor C (M).

C (M) = P′g (M) / (Q * P ′s ′ (M)) (2)

Where C (M) is the pitch correction factor in the frame M of the signal,
P ′s ′ (M) and P′g (M) are the smoothed predicted pitch in frame M of the new time aligned signal and the guide signal, respectively.

ピッチ訂正信号を生成するために、式(2)から、時間整列された新しい信号の全てのフレームに対して、ピッチ訂正ファクターC(M)が計算されて、修正された時間整列された新しい信号のピッチ・レジスター(pitch register)が、オリジナルの新しい信号のピッチ・レジスターに最も近く一致するようにされる。   To generate the pitch correction signal, from Equation (2), for every frame of the new time aligned signal, the pitch correction factor C (M) is calculated to produce the modified time aligned new signal. The pitch register of the current signal is made to closely match the pitch register of the original new signal.

もし、フレームMにおいて、対応するガイド信号ピッチが全く存在しない(即ち、ガイド信号が非発声であるか、又は、時間整列された新しい信号が、ガイド信号に比してわずかに長い)ならば、M−1における最後の訂正ファクター値が再使用される。この場合に、補間を用いて、より良い予測を得ることもまた可能である。   If there is no corresponding guide signal pitch in frame M (i.e., the guide signal is unvoiced or the time-aligned new signal is slightly longer than the guide signal) The last correction factor value in M-1 is reused. In this case, it is also possible to obtain a better prediction using interpolation.

得られる訂正処理値の例において、1.0の訂正ファクターC(M)は、フレームMにおいてs'(n)への変化が無いことを意味し、0.5は、1オクターブだけ、より低いピッチを意味し、2.0は、ピッチを1オクターブだけ上げること、等を意味する。   In the example of the correction value obtained, a correction factor C (M) of 1.0 means that there is no change to s ′ (n) in frame M, and 0.5 means a lower pitch by one octave. 2.0 means that the pitch is increased by one octave.

<新しい信号のシフト・ピッチ>
ピッチ訂正信号における各値C(M)は、時間整列された新しい信号s'(n)のサンプルの、対応するフレームMのために必要とされる訂正乗算値を与える。この例において、C(M)のフレーム・レートは、時間整列アルゴリズムによって使用されるもの(これは、毎秒100フレーム(即ち100fps)である)と同じであるように選択される。換言すれば、C(M)は、毎秒のs'(n)ごとに、100個のサンプルを持つことになる。
<New signal shift pitch>
Each value C (M) in the pitch correction signal gives the correction multiplication value required for the corresponding frame M of the samples of the new time-aligned signal s ′ (n). In this example, the frame rate of C (M) is selected to be the same as that used by the time alignment algorithm (which is 100 frames per second (ie, 100 fps)). In other words, C (M) will have 100 samples every s ′ (n) every second.

正しく機能させるために、いくつかのピッチ・シフティング・アルゴリズムは、時間整列されたアルゴリズムのフレーム・レートより、非常に小さいフレーム・レートを持たなければならない(即ち、サンプリング・インターバル(分析フレーム)は、非常に、より長い)。例えば、時間ドメインのピッチ・シフティング技術は通常、約25から30fpsのフレーム・レートを持つ(もし、それらが、50から60Hzの周波数までにおいても作動すべきものならば)。しかし、それらのフレーム・レートは、信号を通じて一定である必要が無い。そして、レートは、例えば、信号s'(n)の基本ピッチとともに変動し得る。しかし、本実施例において、ピッチ・シフティングで、固定フレーム・レートが使用される。   In order to function correctly, some pitch shifting algorithms must have a frame rate that is much smaller than the frame rate of the time-aligned algorithm (ie, the sampling interval (analysis frame) is , Very long). For example, time-domain pitch shifting techniques typically have a frame rate of about 25-30 fps (if they are to operate at frequencies of 50-60 Hz). However, their frame rate need not be constant throughout the signal. The rate can then vary with the basic pitch of the signal s ′ (n), for example. However, in this embodiment, a fixed frame rate is used for pitch shifting.

本実施例において、ピッチ訂正ファクターC(M)の計算のための、それぞれのフレーム・レート及び、ピッチ・シフティング・アルゴリズムの作動は異なり、それ故、線形補間が用いられて、時間において、ピッチ・シフティング・アルゴリズムの各分析フレームの中央に最も近いC(M)サンプルからの、ピッチ・シフティング・アルゴリズムの各分析フレームの中央において必要とされるピッチ訂正の予測が導出される。この、補間された訂正ファクターは、以下のように導出される:   In this embodiment, the operation of the respective frame rate and pitch shifting algorithm for the calculation of the pitch correction factor C (M) is different, so linear interpolation is used, and the pitch in time A prediction of the pitch correction required at the center of each analysis frame of the pitch shifting algorithm is derived from the C (M) sample closest to the center of each analysis frame of the shifting algorithm. This interpolated correction factor is derived as follows:

ピッチ訂正信号のフレームMは、新しい信号s(n)のLcサンプルと等しい長さを持つ。ここで、Lcは、以下によって与えられる。

Lc=新しい信号s(n)のサンプリング・レート/C(M)のフレーム・レート
(3)
The frame M of the pitch correction signal has a length equal to the Lc sample of the new signal s (n). Where Lc is given by:

Lc = sampling rate of new signal s (n) / frame rate of C (M)
(3)

ピッチ・シフティング・アルゴリズム(ここで、ピッチ訂正の予測が要求される)の分析フレームの各々の中央における、s'(n)に沿ったサンプル番号が、以下のように決定される。   The sample number along s ′ (n) at the center of each analysis frame of the pitch shifting algorithm (where prediction of pitch correction is required) is determined as follows.

もし、Nc(Fps−1)が、ピッチ・シフティング分析フレームFps−1の中央における、s'(n)に沿ったサンプル番号ならば、次のフレームFpsの中央におけるサンプル番号Nc(Fps)は、

Nc(Fps)=Nc(Fps−1)+Ls(Fps, T0(Fps−1)) (4)

である。ここで、
Fpsは、ピッチ・シフティング分析フレーム番号、Fps=0,1,2,・・・であり、
Ls(Fps, T0(Fps−1))=(新しい信号のサンプリング・レート)/(ピッチ・シフティング・アルゴリズムのフレーム・レート)
である。
If Nc (Fps-1) is the sample number along s' (n) at the center of the pitch shifting analysis frame Fps-1, the sample number Nc (Fps) at the center of the next frame Fps is ,

Nc (Fps) = Nc (Fps−1) + Ls (Fps, T 0 (Fps−1)) (4)

It is. here,
Fps is the pitch shifting analysis frame number, Fps = 0,1,2, ...
Ls (Fps, T 0 (Fps−1)) = (New signal sampling rate) / (Pitch shifting algorithm frame rate)
It is.

この一般的なケースにおいて、Lsは、フレーム番号Fps及びT0(Fps−1)(これは、Fps−1におけるピッチ周期期間である)の関数であり、時間変動するフレーム・レートを可能とする。この実施例において、Lsは一定に保持され、1536サンプル、即ち、34.83msに設定される。 In this general case, Ls is a function of the frame numbers Fps and T 0 (Fps-1) (which is the pitch period duration in Fps-1), allowing a time-varying frame rate. . In this embodiment, Ls is held constant and is set to 1536 samples, ie 34.83 ms.

最初に計算されたフレームの前のピッチ・シフティング分析フレーム(Nc(−1))と、最初に計算されたフレームNc(0)、の双方の中央におけるs'(n)に沿ったサンプル番号に対する初期値は、ピッチ・シフティンング・アルゴリズムに依存する。この実施例において、Nc(−1)=0.5*T0(−1)及びNc(0)=0である。 Sample number along s ′ (n) in the middle of both the pitch shifting analysis frame (Nc (−1)) before the first calculated frame and the first calculated frame Nc (0) The initial value for depends on the pitch shifting algorithm. In this example, Nc (−1) = 0.5 * T 0 (−1) and Nc (0) = 0.

Nc(Fps)及びLcを用いて、ピッチ・シフティング・アルゴリズムにおける特定の分析フレームFpsの中央におけるサンプルをバインドされる(bound)、又は、それを含む、C(M)のピッチ相関フレーム番号Fc(M)は、

Fc(Fps)=Nc(Fps)/Lc (5)

である。ここで、
/ は、整数の割り算を意味し、
Fc(Fps)は、ピッチ・シフティング・アルゴリズム・フレームFpsの丁度前(just before)に、又は、その中央で、発生するC(M)のフレームであり、
Lcは、上において定義されたものである。
Nc (Fps) and Lc are used to bind or contain the sample at the center of a particular analysis frame Fps in the pitch shifting algorithm C (M) pitch correlation frame number Fc (M) is

Fc (Fps) = Nc (Fps) / Lc (5)

It is. here,
/ Means integer division,
Fc (Fps) is a C (M) frame that occurs just before or in the middle of the pitch shifting algorithm frame Fps.
Lc is as defined above.

もし、Fc(Fps)が、ピッチ・シフティング・アルゴリズム・フレームの丁度前又はその中央において発生しているピッチ訂正フレームであるならば、(F(Fps)+1)は、その中央の後ろに発生する次のピッチ訂正フレームとなる。   If Fc (Fps) is a pitch correction frame occurring just before or in the middle of the pitch shifting algorithm frame, (F (Fps) +1) occurs after that center. This is the next pitch correction frame.

ピッチ訂正C(Fc(Fps))とC(Fc(Fps)+1)の間の線形補間は、ピッチ・シフタの分析フレームの中央において、補間された訂正ファクタCs(Fps)を与えて、ピッチ・シフタを制御する。

Cs(Fps)=C(Fc(Fps))*(1−α)+α*C(Fc(Fps)+1) (6)

ここで、
α=(Nc(Fps)−Lc*Fc(Fps))/Lc
であり、ここで、
/ は、整数の割り算を意味し、
他のシンボルは、上述のものである。
Linear interpolation between pitch corrections C (Fc (Fps)) and C (Fc (Fps) +1) gives an interpolated correction factor Cs (Fps) at the center of the pitch shifter analysis frame, and pitch pitch Control the shifter.

Cs (Fps) = C (Fc (Fps)) * (1−α) + α * C (Fc (Fps) +1) (6)

here,
α = (Nc (Fps) −Lc * Fc (Fps)) / Lc
And where
/ Means integer division,
Other symbols are those described above.

補間された訂正ファクター値Cs(Fps)は、単純なローパス・フィルタリングによって円滑化されて、C's(Fps)となり、モジュール370の出力(ピッチ・チェンジャー・モジュール380(pitch changer moduke)に与えられる)として表現される。ピッチ訂正のために、時間整列された新しい信号s'(n)は、ピッチ・シフティング・アルゴリズム・フレームに対応するフレームFps内で処理される。時間整列された新しい信号s’(n)のそのようなフレームFpsの各々は、モジュール380において、その、円滑化された訂正ファクターによって、ピッチにおいて動的にシフトされ、得られるピッチ訂正され、時間整列された新しい信号s''(n)は、背景音楽及び利用可能な場合に選択的に対応する音楽ビデオを伴った後の再生のために、ディスク390に書き込まれる。この出力信号s''(n)は、ガイド信号g(n)に対する置換として、又は、それと同期して再生されるべき、要求される時間整列とピッチ訂正の双方を持つことになる。図6に示される、時間整列された新しい信号s’(n)のピッチ値の、対応する訂正ファクター値への乗算の結果としてs''(n)で観察されることになる、時間整列され、訂正されたピッチ・コンター701の例が、図7に示される。ガイド信号ピッチ・コンター401の詳細の殆どが、今、計算された修正されたピッチ・コンター701のこの例に現れる。   The interpolated correction factor value Cs (Fps) is smoothed by simple low-pass filtering to become C's (Fps) as the output of module 370 (given to the pitch changer module 380 (pitch changer moduke)). Expressed. For pitch correction, the new time aligned signal s ′ (n) is processed in a frame Fps corresponding to the pitch shifting algorithm frame. Each such frame Fps of the new time-aligned signal s ′ (n) is dynamically shifted in pitch by the smoothed correction factor in module 380 and the resulting pitch corrected time The aligned new signal s ″ (n) is written to disk 390 for later playback with background music and optionally a corresponding music video when available. This output signal s '' (n) will have both the required time alignment and pitch correction to be reproduced as a replacement for or in synchronization with the guide signal g (n). The time-aligned signal that will be observed at s ″ (n) as a result of multiplying the pitch value of the new time-aligned signal s ′ (n) shown in FIG. 6 by the corresponding correction factor value. An example of the corrected pitch contour 701 is shown in FIG. Most of the details of the guide signal pitch contour 401 now appear in this example of the calculated modified pitch contour 701.

記憶部390においてピッチ訂正された時間整列された出力信号波形s''(n)を生成するためにモジュール380によって実行されるピッチ・シフティングは、K. Lent (1989), "An efficient method for pitch shifting digitally sampled sounds," Computer Music Journal Vol. 13, No.4, の65-71ページ; N. Schnell, G. Peeters, S. Lemouton, P. Manoury, and X. Rodet (2000), "Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA)," International Computer Music Conference, の102 - 108ページ; J. Laroche and M. Dolson (1999), "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and other Exotic Effects." Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics の91 - 94ページ; G. Peeters (1998), "Analyse-Synthese des sons musicaux par Ia methode PSOLA," Proceedings of the Journees d'lnformatique Musicale, Agelonde, France; and V. Goncharoff and P. Gries (1998), "An algorithm for accurately marking pitch pulses in speech signals", Proceedings of the IASTED International Conference Signal and Image Processing (SIP'98), October 28 - 31のような参考文献に説明されるTDHS、PS−OLA、FFTのようなスタンダードのピッチ・シフティング方法のいずれかを用いて実現され得る。   Pitch shifting performed by module 380 to generate pitch corrected time aligned output signal waveform s '' (n) in storage 390 is described by K. Lent (1989), “An efficient method for pitch shifting digitally sampled sounds, "Computer Music Journal Vol. 13, No.4, 65-71; N. Schnell, G. Peeters, S. Lemouton, P. Manoury, and X. Rodet (2000)," Synthesizing a choir in real-time using Pitch Synchronous Overlap Add (PSOLA), "International Computer Music Conference, pp. 102-108; J. Laroche and M. Dolson (1999)," New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing and other Exotic Effects. "Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pages 91-94; G. Peeters (1998)," Analyse-Synthese des sons musicaux par Ia methode PSOLA, "Proceedings of the Journees d'lnformatique Musicale, Agelonde, France; and V. Goncharoff and P. Gries (1998), "An algorithm for accuratel Standards such as TDHS, PS-OLA, FFT explained in references such as "y marking pitch pulses in speech signals", Proceedings of the IASTED International Conference Signal and Image Processing (SIP'98), October 28-31 It can be implemented using any of the pitch shifting methods.

この実施例において、実質的に、D. Malah (1979) "Time Domain Algorithms for Harmonic Bandwidth Reduction and Time Scaling of Speech Signals", IEEE Transactions Acoustics, Speech and Signal Processing, Volume 27, No.2, 121-133ページに記載されるような時間ドメイン・アルゴリズムが、モジュール380において用いられてて、信号s'(n)のピッチをシフトする。   In this example, D. Malah (1979) "Time Domain Algorithms for Harmonic Bandwidth Reduction and Time Scaling of Speech Signals", IEEE Transactions Acoustics, Speech and Signal Processing, Volume 27, No. 2, 121-133 A time domain algorithm as described on the page is used in module 380 to shift the pitch of signal s ′ (n).

s'(n)の毎フレームFpsにおいて、ここで、T0(Fps)と定義されるピッチ周期が測定される。以後、単純化のために、T0(Fps)を含む計算に基づく変数もまた、Fpsの変数であるが、パラメータFpsは、それらの表現において明白(explicit)にされない。 At every frame Fps of s ′ (n), a pitch period defined here as T 0 (Fps) is measured. Henceforth, for simplicity, variables based on calculations involving T 0 (Fps) are also variables of Fps, but the parameter Fps is not made explicit in their representation.

この実施例において、時間整列された新しい信号s'(n)は、s'(n)にh(p)(分析ウィンドウ関数801(図10(a)に示される))(これは、時間において周期的にシフトされる)を乗算することによって、信号のウィンドウ化されたサンプルs'(n)のシーケンスに分解(decomposed)されることによって、

s'(u,n)=h(n)*s'(n−ta(u)) (7)

が得られる。ここで、
h(p)は、Pサンプルの長さのピッチ・シフティング分析ウィンドウであり、時間における当該Pサンプルの長さは、フレームFpsの測定されたピッチ周期の2倍、すなわち、2*(Fps)と等しい。本実施例において、h(p)は、PサンプルのHannウィンドウである。
In this example, a new time-aligned signal s ′ (n) is transformed into s ′ (n) h (p) (analysis window function 801 (shown in FIG. 10 (a))) (which is By being decomposed into a sequence of windowed samples s ′ (n) of the signal by multiplying by (periodically shifted)

s ′ (u, n) = h (n) * s ′ (n−ta (u)) (7)

Is obtained. here,
h (p) is the pitch shifting analysis window of the length of the P sample, and the length of the P sample in time is twice the measured pitch period of the frame Fps, ie 2 * (Fps) Is equal to In this example, h (p) is a Hann window of P samples.

また、ta(u)は、発声されたフレームに対するピッチ同期レートにおいて設定される、u番目の分析インスタンスであり、ta(u)−ta(u−1)=T0(Fps)、(ここで、u=0,1,2・・・)のようになる。非発声のフレームに対して、ta(u)は、10msの一定のレートに設定される。それは、T0の最後の有効な値にも設定されて、発声されたフレームを形成し得る。 Also, ta (u) is the u th analysis instance set at the pitch synchronization rate for the uttered frame, ta (u) −ta (u−1) = T 0 (Fps), where , U = 0,1,2,... For unvoiced frames, ta (u) is set to a constant rate of 10 ms. It can also be set to the last valid value of T 0 to form a spoken frame.

円滑化されたピッチ訂正C's(Fps)から、訂正された信号の新しい出力周期T0'(Fps)が計算される。フレームFpsにおける非発声信号に対しては、T0'(Fps)=T0(Fps)である。フレームFpsにおける発声された信号(voiced signals)に対しては、

0'(Fps)=T0(Fps)/C's(Fps) (8)
である。
From the smoothed pitch correction C ′s (Fps), a new output period T 0 ′ (Fps) of the corrected signal is calculated. For non-speech signals in the frame Fps, T 0 ′ (Fps) = T 0 (Fps). For voiced signals in frame Fps,

T 0 '(Fps) = T 0 (Fps) / C's (Fps) (8)
It is.

この処理から、短期間合成ウィンドウts(v)のシーケンス802が生成される。このシーケンス802は、新しい出力周期T0’(Fps)に同期されて、

ts(v)−ts(v−1)=T0'(Fps) (9)

のようになる。ここで、ts(v)は、出力フレームにおけるv番目の合成インスタンスである。
From this process, a sequence 802 of the short-term synthesis window ts (v) is generated. This sequence 802 is synchronized with a new output period T 0 ′ (Fps),

ts (v) −ts (v−1) = T0 ′ (Fps) (9)

become that way. Here, ts (v) is the vth composite instance in the output frame.

図10(a)及び10(b)に説明されるように、各ts(v)に対して、時間において最も近いs'(n)データのそのウィンドウta(u)が、選択される。s'(n)データの選択されたウィンドウta(u)は、次に、出力ストリーム・バッファ(不図示)に加えられて、出力信号ストリームs''(n)を、1フレームFpsの全ての短期間合成ウィンドウts(v)を組み合わせるオーバラップ及び加算の既知の方法によって、一回に1フレームずつ生成する。実効的に、ウィンドウ化されたサンプルs'(u,n)は、T0(Fps)の周期と再結合されるのではなくむしろ、T0'(Fps)のピッチ周期と再結合(recombined)される。   As illustrated in FIGS. 10 (a) and 10 (b), for each ts (v), that window ta (u) of s ′ (n) data closest in time is selected. The selected window ta (u) of s ′ (n) data is then added to an output stream buffer (not shown) to convert the output signal stream s ″ (n) to all of one frame Fps. One frame at a time is generated by a known method of overlap and addition combining short-term composite windows ts (v). Effectively, the windowed sample s ′ (u, n) is recombined with the pitch period of T0 ′ (Fps) rather than being recombined with the period of T0 (Fps). .

更なる実施例が説明される。
ビブラート及び抑揚曲線を含むピッチに加えて、音声信号の多くの他の特徴(features)が、測定可能であり、修正され得る。これらの例は、瞬時ラウドネス、声門音特性、スピーチ・フォーマット又は共鳴パターン、等化、反響、及び、エコー特性である。更に、新しい及びガイド信号は、必ずしも、韻律的、リズミック、又は、音響的な類似性を持つことに制限されない。
Further embodiments are described.
In addition to the pitch including vibrato and inflection curves, many other features of the speech signal are measurable and can be modified. Examples of these are instantaneous loudness, glottal sound characteristics, speech format or resonance pattern, equalization, reverberation, and echo characteristics. Furthermore, the new and guide signals are not necessarily limited to having prosodic, rhythmic or acoustic similarities.

図8において、それぞれモジュール840及び850において新しい信号及びガイド信号に対して作動して、fs(N)及びfg(M)を生成する、特徴分析作動が示される。これらは、それぞれフレームN及びMで測定された、選択された特徴を指定する特徴ベクトルとして肉太に(bold)示される。ベクトルは、同じ特徴のものである必要はない。fg(M)が、少なくとも1つの特徴を含まなければなければならない一方、更なる実施例において、fs(N)は、何の特徴(feature)も持たないヌル・ベクトルであり得る。   In FIG. 8, a feature analysis operation is shown that operates on new and guide signals in modules 840 and 850, respectively, to generate fs (N) and fg (M). These are shown bold as feature vectors specifying the selected features, measured in frames N and M, respectively. The vectors need not have the same characteristics. While fg (M) must contain at least one feature, in a further embodiment, fs (N) can be a null vector with no features.

特徴調整関数、A(fs(N),fg(M),M)が提供されねばならず、ここでは、ソース865からの処理仕様(specification)としての、システムへの入力である。この関数は、フレームN及びMにおける2つの信号の特徴ベクトル(ここで、これらの2つは、同じフレームであり得るか、又は、同じフレームでは無いかもしれない。) の間の所望の関係、フレーム・パラメータMによって表現されるような経過時間、及び、ソフトウェアで実現されてモジュール870で適用される時間変動する信号修正工程、を規定する。この関数及びバリエーションは、一般的に、システム・プログラマによって規定され、入力され、引き続き、プリセットの組として提示され得、及び/又は、システム・ユーザによって選択され得る、ユーザによって定義されたバリエーションを提供し得ることになる。   A feature adjustment function, A (fs (N), fg (M), M) must be provided, here the input from the source 865 to the system as a specification. This function is the desired relationship between the feature vectors of the two signals in frames N and M, where these two can be the same frame or not the same frame, It defines the elapsed time as expressed by the frame parameter M and the time-varying signal correction process implemented in software and applied in module 870. This function and variation is generally defined and entered by the system programmer and can be subsequently presented as a set of presets and / or provide user defined variations that can be selected by the system user Will be able to.

A(fs(N),fg(M),M)における2つの異なった特徴を用いることの例には、新しい信号が移動バンドパス・フィルタのバンド内にエネルギーを含むという条件下で、ガイド信号のラウドネスが、新しい信号における移動バンドパス・フィルタ・プロセスの中央周波数を制御することが含まれる。AをMの関数にすることもまた、工程が、関数への、あり得る(possible)時間ベースの修正を含むことを一般化する。   An example of using two different features in A (fs (N), fg (M), M) is the guide signal under the condition that the new signal contains energy in the band of the moving bandpass filter. Loudness is included to control the central frequency of the moving bandpass filter process in the new signal. Making A a function of M also generalizes that the process includes a possible time-based modification to the function.

前に説明された方法2を採用する他の実施例が、図9Aに示される。ここでは、時間整列された新しい信号波形が、最初のステップとして生成されない。その代わりに、モジュール920で図3及び8の実施例におけるものとして得られた時間整列データが用いられて、モジュール960において、ガイド信号の測定された特徴を、新しい信号における適切な時間(appropriate times)に時間歪みさせる(time distort)。モジュール970は、新しい信号に、時間整列された修正を為す。選択的な時間整列は、同時に(モジュール970と975の処理の1つのアルゴリズムへの結合) 特徴修正工程モジュール970において、修正された新しい信号において実行され得、又は、後続のプロセス・モジュール975において、特徴修正された信号に対して実行され得る。このアプローチの更なる詳細は、以下に与えられる。   Another embodiment that employs previously described Method 2 is shown in FIG. 9A. Here, a new time aligned signal waveform is not generated as the first step. Instead, the time alignment data obtained in module 920 as in the embodiment of FIGS. 3 and 8 is used, and in module 960, the measured characteristics of the guide signal are applied to the appropriate times in the new signal. ) Is time distorted. Module 970 makes time aligned corrections to the new signal. Selective time alignment can be performed simultaneously (combining the processing of modules 970 and 975 into one algorithm) in the feature modification step module 970, or in a new signal that has been modified, or in a subsequent process module 975 It can be performed on the feature-modified signal. Further details of this approach are given below.

図5における時間整列関数の逆は、フレームkにおけるガイド信号の一致フレームを、フレームjにおける新しい信号の各フレームにマップする。もし、Fsが、新しい信号のフレーム番号であり、W(Fs)が、時間整列工程モジュール920によって生成された(逆)時間ワーピング関数(又はマッピング関数)ならば、

Fag(Fs)=W(Fs) (10)

であり、ここで、Fagは、時間整列されたガイドの対応するフレーム番号である。
The inverse of the time alignment function in FIG. 5 maps the matching frame of the guide signal at frame k to each frame of the new signal at frame j. If Fs is the frame number of the new signal and W (Fs) is the (inverse) time warping function (or mapping function) generated by the time alignment process module 920,

Fag (Fs) = W (Fs) (10)

Where Fag is the corresponding frame number of the time-aligned guide.

このマッピングから、特徴調整関数の、時間整列された、又は、ワープされたバージョンが生成され、(図示せず)9Aの調整モジュール960で使用される。
例として、ピッチ訂正での応用に戻って、式(1)に基づいて、ピッチ訂正関数のワープされたバージョンが、

C(Fs)=Pg(Fag(Fs))/Ps(Fs) (11)

として計算される。
(10)及び(11)から、

C(Fs)=Pg(W(Fs))/Ps(Fs) (12)

ここで、C(Fs)は、新しい信号のフレームFsの訂正ファクターである。
Ps(Fs)は、新しい信号のフレームFsの予測されたピッチである。W(Fs)は、ワーピング関数からの、ガイドにおける対応するフレームである。(必要であれば)オクターブ修正を含む、以前説明された、C(Fs)の更なる処理が、調整モジュール960において行われる。この調整モジュール960は次に、式(2)に基づいて、

C(Fs)=P’g(W(Fs))/(Q*P’s(Fs)) (13)

で与えられる修正関数を提供する。
From this mapping, a time aligned or warped version of the feature adjustment function is generated and used in the adjustment module 960 of 9A (not shown).
As an example, returning to the application in pitch correction, based on equation (1), the warped version of the pitch correction function is

C (Fs) = Pg (Fag (Fs)) / Ps (Fs) (11)

Is calculated as
From (10) and (11),

C (Fs) = Pg (W (Fs)) / Ps (Fs) (12)

Here, C (Fs) is a correction factor of the frame Fs of the new signal.
Ps (Fs) is the predicted pitch of the new signal frame Fs. W (Fs) is the corresponding frame in the guide from the warping function. Further processing of C (Fs), previously described, including octave correction (if necessary) is performed in the adjustment module 960. This adjustment module 960 is then based on equation (2)

C (Fs) = P'g (W (Fs)) / (Q * P's (Fs)) (13)

Provides the correction function given by.

この修正関数は、修正モジュール970において、フレーム毎に(on a frame by frame basis)、s(n)に適用されて、修正された出力s*(n)を生成する。   This modification function is applied to s (n) on a frame by frame basis in the modification module 970 to produce a modified output s * (n).

分析及び修正のために、如何なる信号特徴も指定されることを可能とするために、図9Aに示される処理は、図8に示されるように一般化されるが、記憶部980における修正された出力s*(n)がガイド信号と時間整列されていない代わりに、オリジナルの新しい信号s(n)のタイミングを持つ点で異なる。修正された出力s*(n)の、ガイド信号g(n)への時間整列は、モジュール970における特徴修正及びモジュール975における時間整列が同時に実行されるような単一の工程においてピッチ修正に対して実現できる。例えば、同時に、ピッチ及び時間修正を実施する(これは、潜在的な処理アーティファクトを低減し、計算効率を改善し得る)ための方法の記述は、J. McAulay and T. Quatieri (1992), "Shape Invariant Time-Scale and Pitch Modification of Speech", IEEE Trans. Sig. Processing, IEEE Trans. Sig. Processing, March, Vol. 40 No. 3, 497-510 ページ、及び、D. O'Brien and A. Monaghan (1999), "Shape Invariant Pitch Modification of Speech Using a Harmonic Model", EuroSpeech 1999, 1059-1062ページのような参考文献に見出される。これらの参考文献は、適用するシフトの量を決定するために、任意の一定ピッチ・シフトか、オリジナルの信号の測定に基づく一定のピッチ・シフトかのいずれかを想定する。例えば、もし、非発声のフレームが、オリジナルの発声波形で検知されるならば、そのフレーム中に適用される全ての(any)時間又はピッチ修正をスイッチ・オフ、又は、少なくとも低減することが通常のやり方である。   To allow any signal feature to be specified for analysis and modification, the process shown in FIG. 9A is generalized as shown in FIG. The difference is that the output s * (n) has the timing of the original new signal s (n) instead of being time aligned with the guide signal. The time alignment of the modified output s * (n) to the guide signal g (n) is relative to the pitch correction in a single step such that the feature correction in module 970 and the time alignment in module 975 are performed simultaneously. Can be realized. For example, a description of a method for performing pitch and time correction at the same time (which can reduce potential processing artifacts and improve computational efficiency) can be found in J. McAulay and T. Quatieri (1992), " Shape Invariant Time-Scale and Pitch Modification of Speech ", IEEE Trans. Sig. Processing, IEEE Trans. Sig. Processing, March, Vol. 40 No. 3, pages 497-510 and D. O'Brien and A. Monaghan (1999), “Shape Invariant Pitch Modification of Speech Using a Harmonic Model”, EuroSpeech 1999, pages 1059-1062. These references assume either an arbitrary constant pitch shift or a constant pitch shift based on measurements of the original signal to determine the amount of shift to apply. For example, if a non-voicing frame is detected in the original voicing waveform, it is normal to switch off, or at least reduce, any time or pitch correction applied during that frame. It is the way.

選択的に、通常の時間整列関数も、信号s'*(n)を生成するために、モジュール975における非線形の編集工程に適用され得る。このs'*(n)は、特徴が修正された新しい信号s*(n)の時間整列されたバージョンである。   Optionally, a normal time alignment function can also be applied to the non-linear editing process in module 975 to generate the signal s ′ * (n). This s ′ * (n) is a time aligned version of the new signal s * (n) with modified features.

方法3を実行する他の実施例は、図9Bに説明される。この図では、記憶モジュール982内の時間整列された信号s'(n)が、モジュール920で生成された、オリジナルの時間整列されたパスを用いて、モジュール975によって生成される。このアレンジメントにおいて、新しい信号の特徴コンターは、非修正の新しい信号s(n)から、モジュール840によって生成され、ガイド信号の特徴コンターは、モジュール850によって生成される。モジュール960において、式

C(M)=P'g(M)/Q*P's(w(M)) (14)

(ここで、w(M)は、モジュール920によって生成された時間ワーピング・パスである)が実行されて、特徴修正コンターC(M)を生成する。この修正コンターは、モジュール972で、時間整列された新しい信号に適用されて、時間整列された、そして、特徴が修正された、新しい信号s*(n)を、出力記憶モジュール987で生成する。
Another embodiment for performing method 3 is illustrated in FIG. 9B. In this figure, the time aligned signal s ′ (n) in the storage module 982 is generated by module 975 using the original time aligned path generated in module 920. In this arrangement, a new signal feature contour is generated by module 840 from an unmodified new signal s (n) and a guide signal feature contour is generated by module 850. In module 960, the formula

C (M) = P'g (M) / Q * P's (w (M)) (14)

(Where w (M) is the time warping path generated by module 920) is executed to generate a feature modified contour C (M). This modified contour is applied at module 972 to the new time aligned signal to generate a new signal s * (n) that is time aligned and feature corrected at the output storage module 987.

更なる実施例において、1つの連続的な信号の代わりに、ガイド信号は、一連の異なった個々の信号から成り立ち得る。或いは、マルチプルのガイド信号(例えば、ハーモニー・ボーカル)が使用されて、単一の新しい信号から、マルチプルのボーカル・パーツを生成し得る。   In a further embodiment, instead of one continuous signal, the guide signal may consist of a series of different individual signals. Alternatively, multiple guide signals (eg, harmony vocals) can be used to generate multiple vocal parts from a single new signal.

更なる実施例において、新しい信号における特徴は、測定される必要が無い、又は、新しい信号の特徴調整計算に入力される必要が無く、単純に、ガイド信号の特徴又は複数の特徴の測定に基づいて、修正され得る。これの例は、ガイド信号におけるそれらの特徴の関数としての、新しい信号への反響又はEQの適用であり得る。   In a further embodiment, the features in the new signal need not be measured or need to be input into the new signal feature adjustment calculation, simply based on the measurement of the feature of the guide signal or features. Can be modified. An example of this could be the reverberation or application of EQ to a new signal as a function of their characteristics in the guide signal.

以上の実施例で用いられる処理モジュールは、図1及び2のシステム100のようなシステムで実現される際には、ソフトウェア・モジュールであるが、代替的な実装においては、ハードウェア・モジュール、又は、ハードウェア及びソフトウェア・モジュールの混合物であり得ることが理解されるであろう。   The processing modules used in the above embodiments are software modules when implemented in a system such as the system 100 of FIGS. 1 and 2, but in alternative implementations are hardware modules, or It will be understood that it can be a mixture of hardware and software modules.

本発明の1つの応用は、例えば、携帯電話又はコンピュータ・ベースの電話システムでの電話の呼び出し音を提供できるユーザの声を持つ、個人化された(personalised)音声ファイルを生成するためのものである。他の例は、電話の呼び出し中又は他のデータ交換中に、発呼者(caller)又は呼の受信者に提示され得る、何らかの呼び出し音や他の音声を置換することを含む。そのような交換は、電話ネットワーク、VOIP(ボイス・オーバー・インターネット・プロトコル)システム、又は、他のメッセージ配送システムを介して行われ得る。更なる例は、個人化された事前録音のメッセージを使用し得る、何らかの装置又はシステムに対する、個人化された音声ファイルの生成を含む。   One application of the present invention is to generate a personalized voice file with a user voice that can provide, for example, a telephone ring tone in a cell phone or computer-based telephone system. is there. Other examples include replacing some ringing tone or other voice that may be presented to a caller or call recipient during a telephone call or other data exchange. Such an exchange may be done via a telephone network, a VOIP (Voice over Internet Protocol) system, or other message delivery system. Further examples include the generation of personalized audio files for any device or system that may use personalized prerecorded messages.

図11は、ユーザが、そのような音声ファイルを生成、発送、及び、受信することを可能とするための本発明の実施例を説明する。オペレーションにおいて、ユーザは、陸上ラインのハンドセット1110又は移動電話のハンドセット1120から、電気通信ネットワーク1140を介して、電話コールを開始する。適切なコンバータ1150が、電気通信ネットワーク1140から信号を受信し、それを、デジタル音声信号及びオペレーショナルなコマンド・トーンに変換する(これらは、サーバ・コンピュータ1160によって処理される)。サーバコンピュータ1160は、ユーザに選択及びオペレーションについてのフィードバックを与えるために、作動可能に、モジュール1165から、インタラクティブな発声応答(IVR:Interactive Voice Response)を提供する。   FIG. 11 illustrates an embodiment of the present invention that allows a user to generate, ship and receive such audio files. In operation, a user initiates a telephone call via telecommunications network 1140 from a landline handset 1110 or a mobile telephone handset 1120. A suitable converter 1150 receives the signal from the telecommunications network 1140 and converts it into a digital voice signal and operational command tones (which are processed by the server computer 1160). Server computer 1160 operatively provides an interactive voice response (IVR) from module 1165 to provide the user with feedback on selection and operation.

サーバ・コンピュータ1160は、1つあるいはそれより多いコンピュータの中に実装され得、図3又は8又は9A又は9Bに説明される工程を実施するための音声処理モジュール1170を取り込み得る。コンピュータ1160は、歌の音声ファイルを記憶するために、記憶モジュール1180にアクセスし、それらの歌のファイルを参照するために、データベースにアクセスする。コンピュータ1160は、記憶モジュール1185内に、オリジナルの及び処理されたユーザ音声レコーディング、並びに、それらのレコーディングを参照するためのデータベースをも記憶する。   Server computer 1160 may be implemented in one or more computers and may incorporate a voice processing module 1170 for performing the steps described in FIG. 3 or 8 or 9A or 9B. The computer 1160 accesses the storage module 1180 to store song audio files and accesses a database to reference the song files. The computer 1160 also stores in the storage module 1185 the original and processed user voice recordings and a database for referencing those recordings.

サーバ・コンピュータ1160は、タッチトーン又は他の信号を解釈して、オペレーションを開始する。例えば、この実装における電話のキーパッドで、ユーザは、コンピュータ1160に、
(a) 「トラック(track)」(例えば、(モジュール1180に記憶される)歌の一部)を選択することを選択する、
(b) ユーザが、それ(選択されたトラック)を聞いて、それに対してリハーサルするために、選択されたトラックを、コンバータ1150及びネットワーク1140を介して、電話ハンドセット1110または1120に送信する、
(c) 選択されたトラックが電話ハンドセット1110又は1120を通じて再生(replaying)し、そして、ユーザが、ハンドセット・マイクロホンに向かって歌う間に、ユーザの声を記録する、
(d) 適切な背景トラック(例えば、オリジナルの歌手の声が無いトラックのバージョン)と混合されたユーザの声の処理された記録を再生する、
ように指令できる。
Server computer 1160 interprets the touchtone or other signal and initiates operation. For example, with the telephone keypad in this implementation, the user can access the computer 1160
(a) Choose to select “track” (eg, part of a song (stored in module 1180)),
(b) The user transmits the selected track via the converter 1150 and the network 1140 to the telephone handset 1110 or 1120 in order to hear it (selected track) and rehearse against it.
(c) the selected track is replaying through the telephone handset 1110 or 1120 and the user's voice is recorded while the user sings into the handset microphone;
(d) play a processed recording of the user's voice mixed with an appropriate background track (eg, a version of the original singer's voiceless track);
Can be ordered.

ステップ(c)において、ユーザの声は、記憶モジュール1185に記録され、図3又は8又は9A又は9Bに示されるもののような処理を実行する処理モジュール1170を介して処理され、結果が、モジュール1185に記憶される。   In step (c), the user's voice is recorded in the storage module 1185 and processed through a processing module 1170 that performs processing such as that shown in FIG. 3 or 8 or 9A or 9B, and the result is the module 1185. Is remembered.

最後に、次に、ユーザは、彼/彼女のハンドセット1110又は1120のキーパッドで、受信者の移動電話番号を入力する。コンピュータ1160は次に、「WAPプッシュ」システムのようなリングトーン配送システム1190を用いて、データ・メッセージを受信者の番号に送る。このデータ・メッセージは、受信者に、処理された音声を、彼の移動電話又は他の装置にダウンロードするために必要とされる情報を与える。   Finally, the user then enters the recipient's mobile phone number on his / her handset 1110 or 1120 keypad. The computer 1160 then sends the data message to the recipient's number using a ring tone delivery system 1190 such as a “WAP push” system. This data message gives the recipient the information needed to download the processed voice to his mobile phone or other device.

代替的な実装において、マイクロホン159及びスピーカ156を有するユーザのコンピュータ100が、直接インターネット175を介して、又は、VOIPソフトウェア1135を用いた電話コールによって、サーバ・コンピュータ1160にアクセスするために用いられる。ユーザは、次に、前に説明したのと同じ手順を行い得るが、コンピュータ100を用いて聞き、記録し、コンピュータ100のキーボード125(不図示)に入力されたコマンドを、サーバ・コンピュータ1160に送る。ユーザは、最後に、配送システム1190を通じて生成された音声ファイルを受信するために、その番号によって、移動電話を指定できる。音声ファイルは、指定されたコンピュータのVOIPシステムにおけるリングトーン又は他の識別音ファイルとして、ユーザのコンピュータ100、又は、(友人のコンピュータのような)他の指定されたコンピュータにおいても使用され得る。   In an alternative implementation, the user's computer 100 having a microphone 159 and speaker 156 is used to access the server computer 1160 directly over the Internet 175 or by telephone call using VOIP software 1135. The user may then perform the same procedure as previously described, but using the computer 100 to listen, record and send commands entered on the keyboard 125 (not shown) of the computer 100 to the server computer 1160. send. The user can finally designate a mobile phone by its number to receive the audio file generated through the delivery system 1190. The audio file may also be used on the user's computer 100 or other designated computer (such as a friend's computer) as a ring tone or other identification sound file in the designated computer's VOIP system.

ユーザが、インターネットを介してサーバ・コンピュータ1160にアクセスするような他の代替的実装において、図3又は8又は9A又は9Bの処理モジュールのいくつか又は全ては、モジュール1130によって表されるように、ユーザのコンピュータ100にダウンロードされ得る。サーバ・コンピュータ1160における音声処理モジュールの支援ありで、又は当該支援無しで、モジュール1130の使用の結果得られ、ユーザのコンピュータ100か、記憶モジュール1185かのいずれかに記憶される音声ファイルは、インターネット175又は電気通信ネットワーク1140を介して、要求された宛先の(destination)電話又は他のパーソナル・コンンピュータに送られ得る。   In other alternative implementations in which a user accesses server computer 1160 over the Internet, some or all of the processing modules of FIG. 3 or 8 or 9A or 9B are represented by module 1130, It can be downloaded to the user's computer 100. Audio files obtained as a result of the use of the module 1130 with or without the assistance of the voice processing module in the server computer 1160 and stored in either the user's computer 100 or the storage module 1185 are Internet 175 or telecommunications network 1140 may be sent to the requested destination phone or other personal computer.

更なる実施例において、プロセッサは、その全体又は一部が、電話内、又は、コンピュータ・システム及びメモリ及び要求された音声信号を入力し出力するための手段を含む何らかの他の装置の中に実装され得る。   In a further embodiment, the processor is implemented in whole or in part in a telephone or in some other device including a computer system and memory and means for inputting and outputting the requested audio signal. Can be done.

更なる実施例において、サーバ・コンピュータ1160から、ユーザが受信する歌の音声ファイルとともに、(音楽ビデオのような)ビデオ信号が提供され得る。ユーザは、これらの音声及びビデオ信号を再生でき、上述のような音声レコーディングが可能である。背景トラック及び同期されたビデオと混合された、処理されたファイルは、指定された電話、パーソナル・コンピュータ、又は、音声/映像ファイルを再生できる他の装置、に配送される。   In a further embodiment, the server computer 1160 may provide a video signal (such as a music video) along with an audio file of a song received by the user. The user can reproduce these audio and video signals, and can perform audio recording as described above. The processed file, mixed with the background track and synchronized video, is delivered to a designated phone, personal computer, or other device capable of playing audio / video files.

歌の音声ファイルは、歌に限定されず、スピーチ、音声効果、音楽、又は、これらの組み合わせを含む、如何なる音声記録でもあり得る。   An audio file of a song is not limited to a song, and can be any audio recording including speech, sound effects, music, or a combination thereof.

本発明の実施における使用のために適したコンピュータ・システムのブロック図である。FIG. 2 is a block diagram of a computer system suitable for use in the practice of the present invention. 本発明を実施するために図1のコンピュータに追加され得る、追加的なソフトウェア・コンポーネントを示すブロック図である。FIG. 2 is a block diagram illustrating additional software components that may be added to the computer of FIG. 1 to implement the present invention. 異なったピッチ及びタイミング特性を持つ入力信号に基づくピッチ調整を伴う出力音声信号を生成するために使用される信号及び処理モジュールを示す本発明の1つの実施例のブロック図である。FIG. 4 is a block diagram of one embodiment of the present invention showing a signal and processing module used to generate an output audio signal with pitch adjustment based on input signals having different pitch and timing characteristics. プロの歌手の録音されたガイド発声に対しての時間の関数としてのピッチ測定、及び、同じ音楽伴奏に対して同じ歌を歌う、訓練されていないユーザからの録音された新しい信号における同じ測定の、一般的な例を示すグラフである。Pitch measurement as a function of time for a professional singer's recorded guide utterance, and the same measurement in a new recorded signal from an untrained user who sings the same song for the same musical accompaniment It is a graph which shows a general example. 時間ワーピング関数又はアルゴリズム・パスを表すグラフである。Fig. 6 is a graph representing a time warping function or algorithm path. 左の周波数軸に対する、図4(ピッチ訂正前)からのガイド信号のピッチ及び整列された新しい信号のピッチ、並びに、右の垂直軸に対する、計算された円滑化されたピッチ訂正ファクターを示すグラフである。FIG. 4 is a graph showing the pitch of the guide signal and the aligned new signal from FIG. 4 (before pitch correction) for the left frequency axis and the calculated smoothed pitch correction factor for the right vertical axis. is there. ガイド信号のピッチ、及び、(図6では非訂正状態で示された)訂正された新しい信号ピッチのグラフである。FIG. 7 is a graph of the pitch of the guide signal and the corrected new signal pitch (shown in the uncorrected state in FIG. 6). 任意の入力信号の時間整列された特徴に基づく何らかの一般的信号特徴修正を持つ出力音声信号を生成するために用いられる信号及び処理モジュールを示す本発明の他の実施例のブロック図である。FIG. 6 is a block diagram of another embodiment of the present invention showing a signal and processing module used to generate an output audio signal with some general signal feature modification based on time-aligned features of any input signal. 本発明に従った処理であって、当該処理において新しい信号の特徴が、ガイド信号への同時時間整列によって、又は、それ無しに修正される当該処理を有する更なる実施例のブロック図である。FIG. 6 is a block diagram of a further embodiment of the process according to the present invention, wherein the process is characterized in that new signal characteristics are modified with or without simultaneous time alignment to the guide signal. 本発明に従った処理であって、当該処理の中で、時間整列パスが、時間整列された新しい信号を生成すること、及び、時間整列された新しい信号に為されるべき修正を正確に決定するためのマッピング関数を提供すること、の双方のために用いられる、当該処理を有する更なる実施例のブロック図である。Processing according to the invention, in which a time aligned path generates a new time aligned signal and accurately determines the modification to be made to the new time aligned signal FIG. 6 is a block diagram of a further embodiment having the process used for both providing a mapping function to: 図10(a)は、オーバーラップ及び加算合成を用いて信号s''(n)を生成するために使用される分析ウィンドウの相対位置及び形状の例のグラフィックな表現である。図10(b)は、オーバーラップ及び加算合成を用いて信号s''(n)を生成するために用いられる合成ウィンドウの相対位置及び形状の例のグラフィカルな表現である。FIG. 10 (a) is a graphical representation of an example of the relative position and shape of the analysis window used to generate the signal s ″ (n) using overlap and additive synthesis. FIG. 10 (b) is a graphical representation of an example of the relative position and shape of the synthesis window used to generate the signal s ″ (n) using overlap and additive synthesis. 通信システムを利用する、本発明の更なる実施例のブロック図である。FIG. 6 is a block diagram of a further embodiment of the present invention utilizing a communication system.

Claims (27)

音声信号の少なくとも1つの音響的特徴を修正するための方法であって、
ガイド信号である第1のサンプリングされた音声信号と新たな入力信号である第2のサンプリングされた音声信号を比較して、当該第2のサンプリングされた音声信号における時間に依存する特徴の発生の時間と、当該第1のサンプリングされた音声信号における時間に依存する特徴の発生の時間の間のタイミング差を示すように構成された時間整列データを決定し、
前記第1のサンプリングされた音声信号に沿った選択された位置において、前記第1のサンプリングされた音声信号の少なくとも1つの音響的特徴を測定して、第1の信号特徴測定値のシーケンスを生成し、
前記第2のサンプリングされた音声信号に沿った選択された位置において、前記第2のサンプリングされた音声信号の少なくとも1つの音響的特徴を測定して、第2の信号特徴測定値のシーケンスを生成し、
前記時間整列データに従って第1の信号特徴測定値の前記シーケンス及び第2の信号特徴測定値のシーケンスを処理して、前記第2の信号特徴測定値をタイミングが対応する第1の信号特徴測定値に修正するための特徴修正データのシーケンスを生成し、前記シーケンスの処理は、前記第1の信号特徴測定値を、前記第2の信号特徴測定値と比較し、該比較から前記特徴修正データを決定することを含み、そして、
特徴修正データの前記シーケンスを、前記第2のサンプリングされた音声信号に適用して、前記第2のサンプリングされた音声信号の選択された部分の少なくとも1つの音響的特徴を修正する、ステップを含む方法。
A method for modifying at least one acoustic feature of an audio signal, comprising:
The first sampled audio signal that is the guide signal and the second sampled audio signal that is the new input signal are compared to generate a time-dependent feature in the second sampled audio signal. Determining time alignment data configured to indicate a timing difference between time and the time of occurrence of a time dependent feature in the first sampled audio signal;
Measuring at least one acoustic feature of the first sampled audio signal at a selected location along the first sampled audio signal to generate a sequence of first signal feature measurements; And
Measuring at least one acoustic feature of the second sampled audio signal at a selected location along the second sampled audio signal to generate a second sequence of signal feature measurements; And
Processing the first signal feature measurement value sequence and the second signal feature measurement value sequence according to the time alignment data, and the first signal feature measurement value corresponding in timing to the second signal feature measurement value; Generating a sequence of feature correction data for correction, wherein the processing of the sequence compares the first signal feature measurement value with the second signal feature measurement value, and the feature correction data is derived from the comparison. Including deciding and
Applying the sequence of feature modification data to the second sampled audio signal to modify at least one acoustic feature of a selected portion of the second sampled audio signal. Method.
前記特徴修正データを適用する前記ステップが、前記時間整列データを用いて、前記第2のサンプリングされた音声信号から、時間整列された第2の信号を生成し、前記特徴修正データを、当該時間整列された第2の信号に適用するステップを含む、請求項1に記載の方法。The step of applying the feature correction data uses the time alignment data to generate a time aligned second signal from the second sampled audio signal, and the feature correction data is applied to the time correction data. The method of claim 1, comprising applying to the aligned second signal. 前記処理ステップが、前記第1の信号特徴測定値と前記時間整列データを用いて、前記第2の信号特徴測定を時間整列する前記特徴修正データを生成するステップを含む、請求項1に記載の方法。  2. The process of claim 1, wherein the processing step includes generating the feature correction data for time aligning the second signal feature measurement using the first signal feature measurement and the time alignment data. Method. 前記数学的ファクター又は関数を前記特徴修正データと共に用いることによって、前記第2の信号の前記選択された部分の前記少なくとも1つの音響的特徴を修正するために、前記特徴修正データを適用するステップが、数学的ファクター又は関数に従って、前記特徴修正データを変調することを含む、請求項1から3のいずれかの請求項に記載の方法。Applying the feature modification data to modify the at least one acoustic feature of the selected portion of the second signal by using the mathematical factor or function with the feature modification data. 4. A method according to any of claims 1 to 3, comprising modulating the feature correction data according to a mathematical factor or function. 前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチである、請求項1から4のいずれかの請求項に記載の方法。5. A method according to any preceding claim, wherein the at least one acoustic feature of the first sampled audio signal is pitch. 前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチである、請求項1から5のいずれかの請求項に記載の方法。6. A method according to any preceding claim, wherein the at least one acoustic feature of the second sampled audio signal is pitch. 前記第1の及び第2の信号の前記時間に依存する特徴が、サンプリングされたスペクトラル・エネルギー測定値である、請求項1から6のいずれかの請求項に記載の方法。7. A method according to any preceding claim, wherein the time-dependent characteristic of the first and second signals is a sampled spectral energy measurement. 前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記処理ステップが、前記第1の信号のピッチ測定値と、前記第2の信号の時間整列されたピッチ測定値の比率の値から、乗算ファクターを決定して、当該ファクターを、前記特徴修正データを適用する前記ステップに含ませて、前記修正され選択された信号部分内の前記第2のサンプリングされた音声信号においてピッチ変化の周波数範囲をシフトする、ステップを含む、
請求項4に記載の方法。
The at least one acoustic feature of the first sampled audio signal is a pitch and the at least one acoustic feature of the second sampled audio signal is a pitch;
The processing step determines a multiplication factor from the ratio of the pitch measurement value of the first signal and the time-aligned pitch measurement value of the second signal, and determines the factor as the feature correction data. Shifting the frequency range of the pitch change in the second sampled audio signal in the modified selected signal portion.
The method of claim 4.
2のべき乗(a power of two)だけ前記乗算ファクターをスケーリングして、前記2のべき乗の選択に従って、前記修正され選択された信号部分におけるピッチを変更するステップを更に含む、
請求項8に記載の方法。
Further comprising scaling the multiplication factor by a power of two to change the pitch in the modified selected signal portion according to the power-of-two selection.
The method of claim 8.
前記第2のサンプリングされた音声信号に沿った、選択された位置で測定する前記ステップが、
前記時間整列データを用いて、前記第2のサンプリングされた音声信号から、時間整列された第2の信号であって、当該第2の信号内に、前記第2のサンプリングされた音声信号の前記時間に依存する特徴の発生の時間が、前記第1のサンプリングされた音声信号における前記時間に依存する特徴の発生の時間と整列する、当該第2の信号を生成するステップを含み、
前記第1のサンプリングされた音声信号に沿った前記選択された位置とタイミングが関連付けられるように選択される前記時間整列された第2の信号に沿った位置で、前記時間整列された第2の信号における前記少なくとも1つの音響的特徴を測定する、
請求項1に記載の方法。
Measuring at a selected location along the second sampled audio signal;
Using the time alignment data from said second sampled speech signal, a second signal which is time-aligned, in the the second signal, said second sampled speech signal Generating a second signal in which the time of occurrence of the time dependent feature is aligned with the time of occurrence of the time dependent feature in the first sampled audio signal;
The time-aligned second at a position along the time-aligned second signal that is selected such that timing is associated with the selected position along the first sampled audio signal. Measuring the at least one acoustic feature in the signal;
The method of claim 1.
前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記特徴修正データを適用する前記ステップが、
前記時間整列されたデータを用いて、前記第2のサンプリングされた音声信号から、時間整列された第2の信号を生成して、前記特徴修正データを、前記時間整列された第2の信号に適用して、ピッチ修正され時間整列された第2の信号を生成するステップを含む、
請求項1に記載の方法。
The at least one acoustic feature of the first sampled audio signal is a pitch;
The at least one acoustic feature of the second sampled audio signal is a pitch;
Applying the feature correction data comprises:
The time-aligned data is used to generate a time-aligned second signal from the second sampled audio signal, and the feature correction data is converted to the time-aligned second signal. Applying to generate a pitch corrected and time aligned second signal;
The method of claim 1.
前記数学的ファクター又は関数を前記特徴修正データと共に用いることによって、前記第2の信号の前記選択された部分におけるピッチを修正するために、
前記特徴修正データを適用する前記ステップが、
数学的ファクター又は関数に従って、前記特徴修正データを変調することを含む、請求項11に記載の方法。
To correct the pitch in the selected portion of the second signal by using the mathematical factor or function with the feature correction data,
Applying the feature correction data comprises:
The method of claim 11, comprising modulating the feature correction data according to a mathematical factor or function.
前記関数が、前記第1のサンプリングされた音声信号におけるピッチ測定と、前記第2のサンプリングされた音声信号に沿った前記第2のサンプリングされた音声信号における対応するピッチ測定の比率の前記値の関数である、請求項12に記載の方法。The function is, the pitch measurement in the first sampled speech signal, the value of the ratio of the corresponding pitch measurement in the second sampled the second sampled audio signals along the sound signal The method of claim 12, wherein the method is a function. ガイド信号である第1のサンプリングされた音声信号と新たな入力信号である第2のサンプリングされた音声信号を比較して、前記第2のサンプリングされた音声信号における時間に依存する特徴の発生の時間と、前記第1のサンプリングされた音声信号における時間に依存する特徴の発生の時間の間のタイミング差を示すように構成された時間整列データを決定するための手段、
前記第1のサンプリングされた音声信号に沿った選択された位置において、前記第1のサンプリングされた音声信号の少なくとも1つの音響的特徴を測定して、第1の信号特徴測定値のシーケンスを生成するための手段、
前記第2のサンプリングされた音声信号に沿った選択された位置において、前記第2のサンプリングされた音声信号の少なくとも1つの音響的特徴を測定して、第2の信号特徴測定値のシーケンスを生成する手段、
前記時間整列データに従って、第1の信号特徴測定値の前記シーケンス及び第2の信号特徴測定値のシーケンスを処理して、前記第2の信号特徴測定値をタイミングが対応する第1の信号特徴測定値に修正するための特徴修正データのシーケンスを生成するための手段であって、前記シーケンスの処理は、前記第1の信号特徴測定値を、前記第2の信号特徴測定値と比較し、該比較から前記特徴修正データを決定することを含む手段、及び、
特徴修正データの前記シーケンスを、前記第2のサンプリングされた音声信号に適用して、前記第2のサンプリングされた音声信号の選択された位置の少なくとも1つの音響的特徴を修正するための手段、
を備える、音声信号の少なくとも1つの音響的特徴を修正するための装置。
The first sampled audio signal that is the guide signal and the second sampled audio signal that is the new input signal are compared to generate a time- dependent feature in the second sampled audio signal. Means for determining time alignment data configured to indicate a timing difference between time and the time of occurrence of a time dependent feature in the first sampled audio signal;
Measuring at least one acoustic feature of the first sampled audio signal at a selected location along the first sampled audio signal to generate a sequence of first signal feature measurements; Means to
Measuring at least one acoustic feature of the second sampled audio signal at a selected location along the second sampled audio signal to generate a second sequence of signal feature measurements; Means to
Processing the first signal feature measurement value sequence and the second signal feature measurement value sequence according to the time alignment data, and a timing corresponding to the second signal feature measurement value. Means for generating a sequence of feature modification data for modification to a value, the processing of the sequence comparing the first signal feature measurement with the second signal feature measurement; Means comprising determining the feature correction data from a comparison; and
Means for applying the sequence of feature modification data to the second sampled audio signal to modify at least one acoustic feature of a selected location of the second sampled audio signal;
An apparatus for modifying at least one acoustic feature of an audio signal.
前記特徴修正データを適用するための前記手段が、前記時間整列データを使用して、前記第2のサンプリングされた音声信号から、時間整列された第2の信号を生成し、前記特徴修正データを、前記時間整列された第2の信号に適用するための手段を含む、
請求項14に記載の装置。
The means for applying the feature correction data uses the time alignment data to generate a time aligned second signal from the second sampled audio signal, and the feature correction data Means for applying to the time aligned second signal;
The apparatus according to claim 14.
前記処理手段が、前記第1の信号特徴測定について前記時間整列データを使用して、前記第2の信号特徴測定と時間整列した前記特徴修正データを生成するための手段を含む、請求項14に記載の装置。The means for processing includes : means for generating the feature correction data time aligned with the second signal feature measurement using the time alignment data for the first signal feature measurement. The device described. 前記数学的ファクター又は関数を前記特徴修正データと共に用いることによって、前記第2の信号の前記選択された部分の前記少なくとも1つの音響的特徴を修正するために、前記特徴修正データを適用するための前記手段が、数学的ファクター又は関数に従って、前記特徴修正データを変調する手段を含む、請求項14に記載の装置。Applying the feature modification data to modify the at least one acoustic feature of the selected portion of the second signal by using the mathematical factor or function with the feature modification data . 15. The apparatus of claim 14, wherein the means includes means for modulating the feature correction data according to a mathematical factor or function. 前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチである、請求項14に記載の装置。The apparatus of claim 14, wherein the at least one acoustic feature of the first sampled audio signal is pitch. 前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチである、請求項14に記載の装置。The apparatus of claim 14, wherein the at least one acoustic feature of the second sampled audio signal is pitch. 前記第1の及び第2の信号の前記時間に従属する特徴が、サンプリングされたスペクトラル・エネルギー測定である、請求項14に記載の装置。The apparatus of claim 14, wherein the time dependent feature of the first and second signals is a sampled spectral energy measurement. 前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記処理手段が、前記第1のサンプリングされた音声信号のピッチ測定と、前記第2のサンプリングされた音声信号の時間整列されたピッチ測定の比率の値から、乗算ファクターを決定して、前記特徴修正データの適用に前記ファクターを含ませて、前記修正され選択された信号部分の前記第2のサンプリングされた音声信号におけるピッチ変化の周波数範囲をシフトさせるための手段を含む、
請求項14に記載の装置。
The at least one acoustic feature of the first sampled audio signal is a pitch;
The at least one acoustic feature of the second sampled audio signal is a pitch;
Said processing means, and the pitch measurement of the first sampled voice signal, from the value of the ratio of time-aligned pitch measurement of the second sampled speech signal, to determine a multiplication factor, the feature Means for including the factor in the application of correction data to shift the frequency range of pitch changes in the second sampled audio signal of the corrected selected signal portion;
The apparatus according to claim 14.
2のべき乗によって前記乗算ファクターをスケーリングして、当該2のべき乗の選択に従って、前記第2の修正され、選択された信号部分におけるピッチを変更するための手段を更に含む、請求項21に記載の装置。  22. The means of claim 21, further comprising means for scaling the multiplication factor by a power of two and changing the pitch in the second modified and selected signal portion according to the power of two selection. apparatus. 前記第2のサンプリングされた音声信号に沿った選択された部分において測定するための前記手段が、
前記時間整列データを使用して、前記第2のサンプリングされた音声信号から、時間整列された第2の信号であって、当該第2の信号内で、前記第2のサンプリングされた音声信号の前記時間に依存する特徴の発生の時間が、前記第1のサンプリングされた音声信号における前記時間に依存する特徴の発生の時間と整列する、当該第2の信号を生成するための手段を含み、
前記第1のサンプリングされた音声信号に沿った前記選択された位置とタイミングが関連付けられるように選択される前記時間整列された第2の信号に沿った位置で、前記時間整列された第2の信号における前記少なくとも1つの音響的特徴を測定する
請求項14に記載の装置。
The means for measuring at a selected portion along the second sampled audio signal;
Using said time aligned data from said second sampled speech signal, a second signal which is time-aligned, in the second signal, the second sampled speech signal time of occurrence of features that depend on the time aligned with the time of occurrence of the feature that depends on the time in the first sampled speech signal comprises means for generating the second signal,
The time-aligned second at a position along the time-aligned second signal that is selected such that timing is associated with the selected position along the first sampled audio signal. The apparatus of claim 14, wherein the at least one acoustic feature in a signal is measured.
タイミング関連付けれられるように選択された前記位置が、前記第1のサンプリングされた音声信号に沿ってタイミングが前記選択された位置と整列する、請求項23に記載の装置。The position timing has been selected such that is associate is, the timing is aligned with the selected location along said first sampled voice signal, apparatus according to claim 23. 前記第1のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記第2のサンプリングされた音声信号の前記少なくとも1つの音響的特徴がピッチであり、
前記特徴修正データを適用するための前記手段が、
前記時間整列データを使用して、前記第2のサンプリングされた音声信号から、時間整列された第2の信号を生成して、前記特徴修正データを、前記時間整列された第2の信号に適用して、ピッチ修正され時間整列された第2の信号を生成するための手段を含む、
請求項14に記載の装置。
The at least one acoustic feature of the first sampled audio signal is a pitch;
The at least one acoustic feature of the second sampled audio signal is a pitch;
The means for applying the feature correction data comprises:
The time aligned data is used to generate a time aligned second signal from the second sampled audio signal and the feature correction data is applied to the time aligned second signal. Means for generating a second signal that is pitch corrected and time aligned,
The apparatus according to claim 14.
前記特徴修正データを適用するための手段が、
前記数学的ファクター又は関数を前記特徴修正データと共に用いることによって、前記第2の信号の前記選択された部分におけるピッチを修正するように、数学的ファクター又は関数に従って、前記特徴修正データを変調するための手段を含む、請求項25に記載の装置。
Means for applying the feature correction data;
For modulating the feature modification data according to the mathematical factor or function to modify the pitch in the selected portion of the second signal by using the mathematical factor or function with the feature modification data. 26. The apparatus of claim 25, comprising:
前記数学的ファクター又は関数が、前記第1のサンプリングされた音声信号におけるピッチ測定値と、前記第2のサンプリングされた音声信号に沿った前記第2のサンプリングされた音声信号における対応するピッチ測定値の、比率の値の関数である、請求項26に記載の装置。The mathematical factor or function, the pitch measurement in the first sampled voice signal, corresponding pitch measurement in the second sampled the second sampled audio signals along the sound signal 27. The apparatus of claim 26, wherein the apparatus is a function of the ratio value.
JP2007552713A 2005-01-27 2006-01-26 Method and apparatus for synchronized modification of acoustic features Active JP5143569B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US64755505P 2005-01-27 2005-01-27
US60/647,555 2005-01-27
GB0501744A GB2422755A (en) 2005-01-27 2005-01-27 Audio signal processing
GB0501744.7 2005-01-27
PCT/GB2006/000262 WO2006079813A1 (en) 2005-01-27 2006-01-26 Methods and apparatus for use in sound modification

Publications (3)

Publication Number Publication Date
JP2008529078A JP2008529078A (en) 2008-07-31
JP2008529078A5 JP2008529078A5 (en) 2010-07-22
JP5143569B2 true JP5143569B2 (en) 2013-02-13

Family

ID=36120266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007552713A Active JP5143569B2 (en) 2005-01-27 2006-01-26 Method and apparatus for synchronized modification of acoustic features

Country Status (4)

Country Link
EP (1) EP1849154B1 (en)
JP (1) JP5143569B2 (en)
PL (1) PL1849154T3 (en)
WO (1) WO2006079813A1 (en)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4322283B2 (en) * 2007-02-26 2009-08-26 独立行政法人産業技術総合研究所 Performance determination device and program
JP5135931B2 (en) 2007-07-17 2013-02-06 ヤマハ株式会社 Music processing apparatus and program
US9159325B2 (en) * 2007-12-31 2015-10-13 Adobe Systems Incorporated Pitch shifting frequencies
JP5141397B2 (en) 2008-06-24 2013-02-13 ヤマハ株式会社 Voice processing apparatus and program
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101360456B1 (en) 2008-07-11 2014-02-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Providing a Time Warp Activation Signal and Encoding an Audio Signal Therewith
US10930256B2 (en) 2010-04-12 2021-02-23 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
US9601127B2 (en) 2010-04-12 2017-03-21 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
WO2012046447A1 (en) * 2010-10-06 2012-04-12 パナソニック株式会社 Encoding device, decoding device, encoding method, and decoding method
JP6003083B2 (en) * 2012-02-27 2016-10-05 ソニー株式会社 Signal processing apparatus, signal processing method, program, electronic device, signal processing system, and signal processing method for signal processing system
WO2014025819A1 (en) * 2012-08-07 2014-02-13 Smule, Inc. Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s)
CN107093991B (en) * 2013-03-26 2020-10-09 杜比实验室特许公司 Loudness normalization method and equipment based on target loudness
KR20150072597A (en) 2013-12-20 2015-06-30 삼성전자주식회사 Multimedia apparatus, Method for composition of music, and Method for correction of song thereof
CN105869621B (en) * 2016-05-20 2019-10-25 广州华多网络科技有限公司 Audio synthesizer and its audio synthetic method
KR20200038292A (en) 2017-08-17 2020-04-10 세렌스 오퍼레이팅 컴퍼니 Low complexity detection of speech speech and pitch estimation
CN109841225B (en) * 2019-01-28 2021-04-30 北京易捷胜科技有限公司 Sound replacement method, electronic device, and storage medium
CN110769309B (en) * 2019-11-04 2023-03-31 北京字节跳动网络技术有限公司 Method, device, electronic equipment and medium for displaying music points

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1204855A (en) * 1982-03-23 1986-05-20 Phillip J. Bloom Method and apparatus for use in processing signals
JPH0772881A (en) * 1993-09-06 1995-03-17 Matsushita Electric Ind Co Ltd Karaoke device
JP2904045B2 (en) * 1995-02-27 1999-06-14 ヤマハ株式会社 Karaoke equipment
JP3102335B2 (en) * 1996-01-18 2000-10-23 ヤマハ株式会社 Formant conversion device and karaoke device
GB9711339D0 (en) * 1997-06-02 1997-07-30 Isis Innovation Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
JP2001117599A (en) * 1999-10-21 2001-04-27 Yamaha Corp Voice processor and karaoke device
JP3595286B2 (en) * 2001-07-31 2004-12-02 株式会社第一興商 Karaoke device with pitch shifter
FR2843479B1 (en) * 2002-08-07 2004-10-22 Smart Inf Sa AUDIO-INTONATION CALIBRATION PROCESS
JP2004287350A (en) * 2003-03-25 2004-10-14 Casio Comput Co Ltd Voice conversion device, sound effect giving device, and program

Also Published As

Publication number Publication date
PL1849154T3 (en) 2011-05-31
EP1849154B1 (en) 2010-12-15
EP1849154A1 (en) 2007-10-31
JP2008529078A (en) 2008-07-31
WO2006079813A1 (en) 2006-08-03

Similar Documents

Publication Publication Date Title
JP5143569B2 (en) Method and apparatus for synchronized modification of acoustic features
US7825321B2 (en) Methods and apparatus for use in sound modification comparing time alignment data from sampled audio signals
JP6610715B1 (en) Electronic musical instrument, electronic musical instrument control method, and program
JP6610714B1 (en) Electronic musical instrument, electronic musical instrument control method, and program
US10008193B1 (en) Method and system for speech-to-singing voice conversion
ES2356476T3 (en) PROCEDURE AND APPLIANCE FOR USE IN SOUND MODIFICATION.
US9847078B2 (en) Music performance system and method thereof
US20150310850A1 (en) System and method for singing synthesis
Umbert et al. Expression control in singing voice synthesis: Features, approaches, evaluation, and challenges
JP2006030575A (en) Speech synthesizing device and program
JP2016161919A (en) Voice synthesis device
CN111418005B (en) Voice synthesis method, voice synthesis device and storage medium
JP2010014913A (en) Device and system for conversion of voice quality and for voice generation
JP6737320B2 (en) Sound processing method, sound processing system and program
JPH11259066A (en) Musical acoustic signal separation method, device therefor and program recording medium therefor
JP2009157220A (en) Voice editing composite system, voice editing composite program, and voice editing composite method
WO2020158891A1 (en) Sound signal synthesis method and neural network training method
Bonada et al. Spectral approach to the modeling of the singing voice
JP4430174B2 (en) Voice conversion device and voice conversion method
JP5106437B2 (en) Karaoke apparatus, control method therefor, and control program therefor
JP2000010597A (en) Speech transforming device and method therefor
WO1998055991A1 (en) Method and apparatus for reproducing a recorded voice with alternative performance attributes and temporal properties
Alexandraki Real-time machine listening and segmental re-synthesis for networked music performance
JP2004061753A (en) Method and device for synthesizing singing voice
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090126

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110801

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111101

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120326

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120626

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121022

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121121

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5143569

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250