JP2003500700A - 音声制御式電子楽器 - Google Patents

音声制御式電子楽器

Info

Publication number
JP2003500700A
JP2003500700A JP2000620617A JP2000620617A JP2003500700A JP 2003500700 A JP2003500700 A JP 2003500700A JP 2000620617 A JP2000620617 A JP 2000620617A JP 2000620617 A JP2000620617 A JP 2000620617A JP 2003500700 A JP2003500700 A JP 2003500700A
Authority
JP
Japan
Prior art keywords
instrument
pitch
voice
musical instrument
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000620617A
Other languages
English (en)
Inventor
ジョン ダブリュー ジェイムソン
マーク ビー リング
Original Assignee
ジョン ダブリュー ジェイムソン
マーク ビー リング
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ジョン ダブリュー ジェイムソン, マーク ビー リング filed Critical ジョン ダブリュー ジェイムソン
Publication of JP2003500700A publication Critical patent/JP2003500700A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H3/00Instruments in which the tones are generated by electromechanical means
    • G10H3/12Instruments in which the tones are generated by electromechanical means using mechanical resonant generators, e.g. strings or percussive instruments, the tones of which are picked up by electromechanical transducers, the electrical signals being further manipulated or amplified and subsequently converted to sound by a loudspeaker or equivalent instrument
    • G10H3/125Extracting or recognising the pitch or fundamental frequency of the picked up signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/011Files or data streams containing coded musical information, e.g. for transmission
    • G10H2240/046File format, i.e. specific or non-standard musical file format used in or adapted for electrophonic musical instruments, e.g. in wavetables
    • G10H2240/056MIDI or other note-oriented file format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/175Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments for jam sessions or musical collaboration through a network, e.g. for composition, ensemble playing or repeating; Compensation of network or internet delays therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/201Physical layer or hardware aspects of transmission to or from an electrophonic musical instrument, e.g. voltage levels, bit streams, code words or symbols over a physical link connecting network nodes or instruments
    • G10H2240/211Wireless transmission, e.g. of music parameters or control data by radio, infrared or ultrasound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/171Transmission of musical instrument data, control or status information; Transmission, remote access or control of music data for electrophonic musical instruments
    • G10H2240/281Protocol or standard connector for transmission of analog or digital data to or from an electrophonic musical instrument
    • G10H2240/295Packet switched network, e.g. token ring
    • G10H2240/305Internet or TCP/IP protocol use for any electrophonic musical instrument data or musical parameter transmission purposes

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】 電子楽器が表現する実際の楽器を最もよく表現するフォームファクタの音声制御式楽器を提供すること。 【手段】本発明は、電子音声制御楽器である。これは、本質的に、電子的カズーである。演奏者は、マウスピース内にハミングし、そしてこの装置は、楽器のサウンドを模倣し、そのピッチとボリュームは演奏者の声に応じて変化する。演奏者には、実際の楽器を演奏しているような印象、およびその楽器を、自分の声の細かいニュアンスで思うままに制御する印象が与えられる。楽器は、基本的に、トランペット、トロンボーン、クラリネット、フルート、ピアノ、電気ギター、声、口笛、さらにはコーラス等の、実質的に任意のサウンドの供給源などの、任意の音楽生成音源でよい。その最も単純な構成において、楽器は、ある種のホーンと似ている。しかしながら、製造者は、必要に応じて、楽器の形状と外観を、任意の伝統的な楽器のサウンドと一致させるように作ることもできるが、その形状を、全く新規にすることも出来る。本発明の物理的設計の機能要件は、携帯型であること、演奏者の声が入るマウスピースを有すること、サウンドが生成される1つまたは複数のスピーカを有すること、電子回路とバッテリが格納されかつ指操作式制御部を配置することができる本体を有することのみである。本発明の3つの主なソフトウエア構成要素は、周波数検出モジュール、ラウドネス追跡モジュール、およびノート・アタック・モジュールである。周波数検出モジュール(FDM)は、演奏者の声の周波数を識別する。これは、入ってきた音波を解析し、循環形状のパターンを発見することによって行われる。この方法は、自己相関およびゼロ交差あるいはピーク・べースのピッチ検出の計算効率の高い新規の組合せである。選択された楽器は、FDMによって決定されたピッチあるいは演奏者によって要求されたそのピッチからのオフセットで合成される。ラウドネス追跡構成要素は、演奏者の声のラウドネスを測定し、次に、この情報を使用して合成サウンドのボリュームを設定する。ノート・アタック・モジュールは、演奏者の声のラウドネスの急な変化を検出する。この構成要素は、合成された楽器が、新しいノートをいつ開始しなければならないかの決定を支援する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、楽器に関する。より詳細には、本発明は、音声制御式電子楽器に関
する。
【0002】
【従来の技術】
楽器は、伝統的に、演奏が難しく、その楽器の基本操作技術を学ぶには、時間
と場合によってはかなりの金銭投資が必要となる。頻繁でしばしば厳しい練習授
業の他に、一般に、ピッチ、ラウドネス、音色など、その楽器に関連した適切な
音楽表現を達成するための機械的技巧を教える音楽レッスンが必要になる。さら
に、ユーザが、楽器を操作して以前に書かれた歌を演奏できるように楽譜が教え
られる。
【0003】 楽器の発達は、相対的に遅く、過去数百年の間に定着した新しい楽器製品はご
くわずかである。しかしながら、電子回路関連の技術の導入は、楽器の製品開発
に大きな影響を及ぼした。たとえば、音楽シンセサイザは、ピアノ鍵盤インタフ
ェース/コントローラと組み合わされて、ピアノやキーボードなどの1つの楽器
の演奏を学んだ人が作り出すことができる楽器音の数と種類を大幅に拡げた。し
かしながら、シンセサイザを操作する人には、ピアノの演奏と関連した音楽表現
の基礎を少なくともある程度学ばなければならないという必要性が残っている。
【0004】 したがって、自らを音楽的に表現できるようにしたいが、それまで楽器の演奏
を学んだことがなく、またそれぞれの楽器の演奏方法を学ぶことなく多数の楽器
サウンドを作成できるようにしたい人々にとっては、その技能を学ぶために投資
しなければならない時間が依然としてかなり多く、また、その人々が一応満足で
きる習熟レベルに到達できるという保証はなかった。
【0005】 米国特許第3,484,530号および第3,634,596号には、マイクロフォンによる単一
音入力が刺激することができる記録された音楽ノートを含むメモリから音楽出力
を生成するシステムが開示されている。この特許に開示されたシステムは、アタ
ック、持続、および減衰、ならびにボリューム・レベルを感知することができ、
またそれらの感知入力を、再生される記録ノートに適用できると述べられている
。このシステムは、実際には、聴取者や演奏者が遅れに気づかないほど高速に変
換することができる音楽ノート−音楽ノート変換器である。しかしながら、この
ような機能を達成するために、扱い難くかつ高価な電子機械的手段が提案された
が、これらは、携帯型または手持ち型の楽器には適しておらず、主に大型システ
ム向けであった。
【0006】 前述の特許に開示されたシステムにおいて、メモリは、半音階の不連続ノート
を含み、同じピッチの個別の入力音に応じることができる。このシステムは、演
奏者は、不連続ノートしか選択できず、かつその特定のキーを押すことによって
そのノートが生成される鍵盤楽器に類似している。他の楽器は、全音増分と半音
増分の間のピッチの選択肢を演奏者に与える。たとえば、バイオリンは、弦を押
さえた場所によって変化するピッチを生成することができ、あるいはスライド式
のトロンボーンは、全音増分と半音増分の間でピッチを降下させることができる
。これらの楽器は両方とも、ピッチの完全な周波数スペクトルを生成する。しか
しながら、このような従来技術のシステムは、入力の連続変化するピッチに応じ
て連続変化するピッチの出力を提供することができず、また、実際の楽器がその
楽器の音域にわたってピッチの関数として生成するノートの音色を写実的に複製
するノートの音色を生成することができず、また実際の楽器が楽器の入力におけ
る力の大きさの関数として生成するノートの音色を忠実に複製するノートの音質
または音色を作成することができなかった。
【0007】 人間の声を使用してシンセサイザを制御し、それによりほとんどの人が持つ独
特な音楽表現手法を利用するために、他の様々な方法が提案されてきた。話すこ
とができる人はほとんど誰でも、ピッチやラウドネスなどの表現パラメータを音
楽的に変化させる能力を持つ。このような方法の1つは、R.Rupertによる米国特
許第4,463,650号(1984年8月7日)に記載されている。Rupertの装置の場合、シ
ステムのメモリに楽器の実際の音が入れられている。このシステムは、Rupertが
「マウス・ミュージック」と呼ぶものの刺激に応じて、マウス・ミュージックの
刺激に実時間で応答する演奏可能な楽器を作り出す。また、K.Obataによる米国
特許第4,924,746号(1990年5月15日)「入力波形信号からピッチを導出する電子
装置の入力装置(Input apparatus of electronic device for extracting pitch
from input waveform signal)」も参照されたい。
【0008】 Ishikawa、Sakata、Obaraによる「音声認識間隔評価システム(Voice Recognit
ion Interval Scoring System)」欧州特許第142,935号(1985年5月29日)は、歌
声の不正確さを認識し、「カーソルを修正する部分に移動させることによって、
譜面に記入された音程データを容易に修正しかつ音程を修正モードで修正する修
正手段を提供するものである。」声の不正確さを処理するための類似の試みにお
いて、M.Tsunooらによる米国特許第3,999,456号(1976年12月28日)に示された
装置は、出力トーンを音階に制限する音声制御式楽器用音声・キーイング・シス
テムを使用する。Ishikawa特許の装置またはTsunoo特許の装置を有効な目的に使
用する際の問題は、訓練を受けていないほとんどの演奏家が、様々な歌および演
奏に対しどの音階が適切であるのか理解できないことである。この装置は、演奏
したい音に到達できないユーザのフラストレーションのため、改善されていない
音声制御式音楽シンセサイザを損なうことさえある。
【0009】 関連する分野には、「ミュージック・マイナス・ワン」と言う概念がある。こ
れは、事前に決められている通常は事前に録音されたバックグラウンド音楽を使
用して、演奏家/ユーザが、共に、歌いまたは楽器を演奏することが出来る文脈
音楽(通常はリード・パート)を供給する。この概念は、ユーザが、主要パート
を演奏し、他のパートを他の演奏者に演奏させることによって、より完全に聞こ
える音楽を作成することを可能にする。このような体験には、より高い娯楽的な
価値、練習的な価値、および創造的表現手段を与える利点がある。
【0010】 M. Hoffによる「バックグランド音楽と共に容易に演奏するための娯楽および
創造表現装置(Entertainment and creative expression device for easily pla
ying along to background music)」米国特許第4,771,671号(1988年9月20日)
は、ミュージック・マイナス・ワンの概念の強化について開示している。これに
よると、音声制御式音楽シンセサイザのリードを演奏する楽器にある程度のイン
テリジェンスが与えら、このケースでは、バックグランド音楽に対して不協和音
または不調和音となるノートが生成されないようにしてある。さらに、Hoff特許
は、補正を使用することによる音声制御式音楽シンセサイザの変更を開示してい
る。この装置は、TsunooとIshikawaの特許に提案されているように、音程を任意
の方法で修正するのではなく、音楽シンセサイザの出力を、事前に決められてい
るバックグランド音楽に対して平均的聴取者には必ずうまく聞こえるものに調整
する。しかしながら、Hoff特許は、検出したピッチに最も近い伴奏から連想され
る階調ノートを使用することによって、あらかじめプログラムされた伴奏音楽の
文脈でのみピッチ補正を行う。Hoff特許の場合、伴奏がない場合には、ピッチ補
正することは出来ないので、たとえば、ユーザが、ピッチ補正に使用する音階を
選択する機能や、現在検出されているピッチを音階の主音に割り当てる機能など
は無い。
【0011】 ピッチ検出自体については、様々なプロセス手法が知られている。たとえば、
M. RussによるSound Synthesis and Sampling, Focal Press, 1996, p. 265、ま
たはL. Rabiner らによるA Comparative Performance Study of Several Pitch
Detection Algorithms, IEEE Transactions on Acoustics, Speech, and Signal
Processing, Vol. ASSP-24, No. 5, Oct. 1976, p. 399を参照されたい。Russ
によれば、従来の一般的なピッチ検出法は、a)ゼロ交差、b)自己相関、c)ス
ペクトル解析に分類される。本発明の手法に類似した2つの自己相関手法は、た
とえば、S. Dameによる「音楽信号の基本ピッチを決定する方法および装置(Meth
od and Device For Determining The Primary Pitch of A Music Signal)」米国
特許第5,619,004号 (1997年4月8日)と、M.J. Ross、H.L. Shaffer、A. Cohen
、R. FreudbergおよびH.J. Manleyによる「平均強度差関数ピッチエクストラク
タ(Average Magnitude Difference Function Pitch Extractor)」IEEE Trans. o
n Acoustics, Speech, and Signal Processing, Vol. ASSP-22, No. 5 (Oct. 1
974)である。
【0012】 楽器の音声制御を可能にする現在既知のすべてのシステムの主な欠点は、それ
らのシステムが、かさばる筐体を必要とし、一般的ではないフォームファクタで
提供され、すなわちいくつかの技術装置を必要とすることである。したがって、
ユーザは、そのような楽器を自然な方法で接続することができない。このような
装置は、ユーザに、楽器を演奏するというよりも、ほとんどの場合コンピュータ
を操作するのと同様に機械を操作するという印象を与える。このことのみで、こ
のような装置が、商業的に成功せずまた消費者に受け入れられなかったことがよ
く分かる。
【0013】 電子楽器が表現する実際の楽器を最もよく表現するフォームファクタでの音声
制御式楽器を提供することは有利であろう。このようなフォームファクタが、ユ
ーザに単純な操作方法を提供することによって、このような楽器の使い易さに貢
献することは、さらに有利であろう。また、小さい寸法のフォームファクタを達
成できるように、音声制御式電子楽器に計算効率の高いピッチ検出技術を提供す
ることも有利であろう。
【0014】
【課題を解決するための手段】
本発明は、電子楽器が表現しようとする実際の楽器を最もよく表現するフォー
ムファクタでの音声制御式楽器を提供する。このようなフォームファクタは、ユ
ーザに単純な操作方法を提供するので、このような楽器は使いやすくなる。本発
明は、また、音声制御式電子楽器のための計算効率の高いピッチ検出方法を提供
する。
【0015】 本明細書で説明する装置は、電子的音声制御式楽器である。これは、本質的に
、電子的カズーである。演奏者は、マウスピース内にハミングし、そしてこの装
置は、演奏者の声に応じてそのピッチとボリュームが変化する楽器のサウンドを
模倣する。
【0016】 演奏者は、実際の楽器を演奏し、かつその楽器を、自分の声の細かいニュアン
スで思うままに制御している印象が与えられる。特に、この装置は、コンパクト
でかつ独立型であり、かつユーザは単純な一組の制御部により操作することがで
きる。このように、本発明は、従来技術で教示された電子楽器を受け入れるため
の多くの障壁を克服する。すなわち、この装置は、演奏中に操作し保持するのが
簡単である。この装置は、独立型で軽量で完全に一体化されているため、装置の
楽しみと、装置が物理的に表現する実際の楽器の電子的代用物であるという感覚
を損なうことになるシステムの様々な構成要素間に露出されている配線や接続を
不必要とする。この装置は、専用の形態、たとえばホーンの形で提供されるため
、ユーザは、マイクロフォンの使用によって気を散らされることなく、音楽的体
験に引き込まれる。したがって、この装置を音声により操作することにより、こ
の装置が表現する実際の楽器が演奏されている状態が最もよく模倣され、かつユ
ーザが実際に楽器を演奏しているという印象が作り出される。さらに、ユーザが
装置の操作を変更するの可能性を厳しく制限する反直観的な手段をとることによ
って、ユーザ・インタフェースを大幅に簡略化することが出来る。これは、また
、実際の楽器の形と操作をその装置に与え、その結果、ユーザは、実際の楽器を
操作する音楽的技能を持たない場合でも、まるで楽器を演奏しているかのように
感じることができる。この装置は、本明細書で開示された音声制御式電子楽器の
ように、計算効率が高くかつ一体化された装置に適切な独特のピッチ検出方式を
使用するため、コンパクトで独立型の装置と、重要な高度の音楽性を提供する装
置の両方を提供することができ、これにより、ユーザが、楽器を実際に演奏して
いるという印象がさらに高まる。
【0017】 楽器は、基本的に、例えば、トランペット、トロンボーン、クラリネット、フ
ルート、ピアノ、電気ギター、声、口笛、さらにはコーラス、すなわち実質的に
サウンドの任意の供給源などの、任意の音楽生成音源とすることが出来る。
【0018】 最も単純な構成の場合、楽器は、ある種のホーンと似ており、便宜上、本明細
書の全体を通してこれをハムホーン(HumHorn)と呼ぶ。しかしながら、製作者は
、必要に応じて、楽器の形状と外観を、任意の伝統的な楽器のサウンドにと一致
させるように作ることができるし、あるいは、その形状を、全く新規にすること
も出来る。ハムホーンの物理的設計の機能要件は、以下のみである。 ・携帯型であること。 ・演奏者の声が入るマウスピースを有すること。 ・サウンドが生成される1つまたは複数のスピーカを有すること。 ・回路とバッテリが格納されかつ指操作式制御部を配置することができる本体を
有すること。
【0019】 ハムホーンの3つの主なソフトウエア構成要素は、周波数検出モジュール、ラ
ウドネス追跡モジュール、およびノート・アタック・モジュールである。
【0020】 周波数検出モジュール(FDM)は、演奏者の声の周波数を識別する。これは、入
ってきた音波を解析し、循環形状のパターンを発見することによって行われる。
この方法は、自己相関およびゼロ交差あるいはピーク・べースのピッチ検出の計
算効率の高い新規の組合せである。選択された楽器は、FDMによって決定された
ピッチまたは演奏者によって要求されたそのピッチからのオフセットにより合成
される。
【0021】 ラウドネス追跡構成要素は、演奏者の声のラウドネスを測定する。次に、この
情報を使用して、合成サウンドのボリュームを設定する。
【0022】 ノート・アタック・モジュールは、演奏者の声のラウドネスの急な変化を検出
する。この構成要素は、合成された楽器が、新しいノートをいつ開始しなければ
ならないかの決定を支援する。
【0023】
【発明の実施の形態】
用語集 本明細書における考察のために、以下の用語は、以下の意味を有するものとす
る。 ADC: アナログ・デジタル変換器。アナログ電圧をデジタル・サンプルに変換
する。 振幅: 1) 信号におけるある点を参照するとき、これは、中心線からその点までの距離
である。本明細書全体にわたって仮定されているように、中心線がゼロの場合、
振幅は、その点におけるサンプルの絶対値である。 2) 波またはウェーブ・セグメントを参照するとき、これは、中心線から最も遠
いサンプルの絶対値である。 アタック: 音の開始部分または始まり。 DAC: デジタル−アナログ変換器。デジタル・サンプル値をアナログ電圧に変
換する。 F, F(t): 「基本周波数」を参照。 ろ波信号(ろ波サンプル): 帯域フィルタを通過した後の入力信号(入力サン
プル)。本明細書では、明示されない限り、信号とサンプルはすべて、ろ波され
ると仮定される。 基本周波数、F(t): 信号中の最も低いピッチの周波数。これは、歌またはハミ
ングのピッチとして認識可能な周波数。 基本波: 基本波長の長さを有する信号中の任意の波。これは、最も長い繰り返
し波である。 基本波形: 分割できない最も長い繰り返し波形。 基本波長、W(t): 入力において最も長い繰り返し波の長さ(時間)。これは、
所定の時間ステップにおける入力信号の知覚ピッチに対応し、また基本周波数の
逆数である。すなわちW(t)=1/F(t)である。 半音(Half-step): 半音(semitone)と同じ。 L, L(t)、ラウドネス: 入力信号のボリューム。この値は、ボリュームまたは
ラウドネスの知覚概念に対応する。いくつかの要素の混合物であるため、数学的
に説明することは困難である。これは、波の振幅と最も密接に関連するが、波に
含まれる周波数ともある程度関連する。本明細書において、ラウドネスは、常に
、演奏者から受け取った入力信号のことを指す。「ボリューム」を参照。 ラウドネス・サージ: 演奏者の声のラウドネスの急激な増大。これは、演奏者
が楽器でアタックを生成したいことの適切なサインである。 MIDI (Musical Instrument Digital Interface): 楽器デジタル・インタフェ
ース。楽器とコンピュータ間のデジタル通信に使用される標準プロトコル。これ
は、ほぼすべての電子鍵盤およびデジタル音楽合成システムによって使用される
。 音階(モード)、音楽モード: 演奏家が、音楽の一区間における音を特徴づけ
るために使用する、1オクターブ内の11の半音の組から得られた一組の半音。例
には、長音階、短音階、ブルース音階、およびドリア、フリギア、全音、五音な
どの多くのより特殊な音階がある。 ノート: 1) 楽器で演奏されるトーンのサウンド。ノートは、アタックで始まり、その後
、持続期間と減衰が続く。 2) 不連続な整数値のピッチ; すなわち、ミュージカル・スタッフやピアノ鍵盤
などの線形音階上の整数値ピッチの指数であり、この場合、音階における1の音
程は、半音に対応する。したがって、1オクターブ離れた2つのノートは、音階に
おいて差12のみ離される。「ピッチ」を参照されたい。 ノートのアタック: ノートの開始部分または始まり。 知覚ピッチ: 声と楽器によって作成されるサウンドを含むほとんどのサウンド
は、多数の様々な周波数から構成され、多数の重複ピッチを有する。一般に、人
間の耳は、2つの異なる楽音が同じ最低(または基本)周波数を共有するときに
、その2つの楽音を等価物として知覚する。すなわち、それらの楽音は、存在す
る他のすべての周波数に関係なく、同じピッチを有するように見える。 ピッチ: ミュージカル・スタッフやピアノ鍵盤などの線形音階上の聴覚周波数
の位置。ここで、1オクターブ離れた2つのピッチは、たとえば12の一定数のステ
ップによって離される。これと対照的に、1オクターブ離れた2つの周波数は、一
定の比率、すなわち2を有する。人間は、周波数の対数音階よりもピッチの線形
音階のほうが自然に理解することができる。本明細書において、ピッチは、音階
上の任意の場所に位置することができる連続値であると理解される。一方、ノー
トは、不連続な整数値である。 R: 「サンプル・レート」を参照。 SAM: 信号解析モジュール(Signal Analysis Module)。これは、1回に1つの
入力信号サンプルを解析し、ピッチ、ボリューム、およびアタック値、ならびに
ノートを再生すべきか否かを示す値を出力する。 サンプル・レート、サンプリング・レート: Rと表記され、ADC(またはDAC)
が、アナログ電圧をデジタル・サンプル(または、デジタル・サンプルをアナロ
グ電圧)に変換する周波数。音響信号の共通サンプリング・レートは、8,000Hz
、11,025Hz、22,050Hz、44,100Hzおよび48,000Hzであり、サンプリング・レート
が高くなるほど、忠実度が高くなる。特に示さない限り、「サンプル・レート」
と「サンプリング・レート」は、入力信号のサンプリングのことを指す。 サンプル、sample(t), s(t)、サンプル値: ある時点での信号波の高さを表す
時間索引付けしたデジタル符号化値。入力サンプルは、ADCによってSAMに渡され
る。時間ステップtにおける入力サンプルは、s(t)で表される。出力サンプルは
、SSMからDACに渡される。特に断わらない限り、「サンプル」は、入力サンプル
のことを指す。 サンプリング: 入力信号を一連のデジタル符号化数に変換するプロセス。この
プロセスは、ADCによって実行される。 半音(semitone): 1つの半音。標準的な西ヨーロッパ音楽に使用される最も小
さい音程。ピアノの隣り合った鍵の間の音程と、ミュージカル・スタッフの隣り
合ったノートの間の音程である。1オクターブには、均一に離間された12の半音
がある。したがって、半音1つ分離れた2つのトーンは、21/12の周波数比を有す
る。 信号: 時間とともに変化する一連のアナログ値。音響信号は、グラフにプロッ
トしたときに波のように見える。すべての時点で、入力信号は、その点における
信号の電圧を表すデジタル数字に変換することができるある値を有する。この変
換プロセスは、サンプリングと呼ばれる。これは、ADCによって行われる。同様
に、出力信号は、時間の経過による一連のデジタル符号化サンプルを受け取った
ときにDACによって作成される。特に示さない限り、「信号」は、入力信号のこ
とを指す。 強いピーク: 図6のボックス61のSTRONGピークの基準を満たす入力信号のピー
ク。明細書の説明を参照。 ボリューム: 本明細書では、ボリュームは、必ず、ハムホーンによって生成さ
れた出力信号の大きさを指す。「ラウドネス」を参照。 W, W(t): 「基本波長」を参照。 波形: 所定のウェーブ・セグメントにおけるピークと谷の大きさ、数および位
置を含む輪郭。 波長: ある波の始まりから次の波の始まりまでの時間の長さ。これは、周波数
の逆数である。 弱いピーク: 図6のボックス61のWEAKピークの基準を満たす入力信号のピーク
。明細書中の説明を参照。
【0024】 考察 本発明は、電子楽器が表現する実際の楽器を最もよく表現するフォームファク
タでの音声制御式楽器を提供する。このようなフォームファクタは、ユーザに単
純な操作方法を提供することによって、このような楽器の使いやすさに貢献する
。本発明は、また音声制御式電子楽器に計算効率の高いピッチ検出技術を提供す
る。
【0025】 本明細書で説明する装置は、音声制御による電子楽器である。これは、本質的
に電子カズーである。演奏者は、マウスピース内にハミングし、装置は、演奏者
の声に応じてピッチとボリュームが変化する楽器のサウンドを模倣する。
【0026】 演奏者は、実際の楽器を演奏しかつその楽器を自分の声の細かいニュアンスで
思うままに制御しているという印象が与えられる。特に、この装置は、コンパク
トで独立型であり、かつユーザが単純な一組の制御部によって操作することが出
来る。このようにして、本発明は、従来技術で教示されたような電子楽器の受け
入れに関する多くの障壁を克服する。すなわち、この装置は、演奏中に操作しか
つ保持することが簡単である。この装置は、独立型、軽量かつ完全に一体化され
ているので、装置の楽しみと装置が物理的に表現する実際の楽器の電子的代用物
であるという感覚が両方とも損なわれるシステムの様々な構成要素間に行われる
露出した配線と接続部がない。この装置は、専用の形、すなわちホーンの形で提
供されるため、ユーザは、マイクロフォンの使用により気が散らされることはな
く音楽体験に引き込まれる。したがって、この装置の音声操作は、装置が表現す
る実際の楽器の演奏を最もよく暗示し、また、ユーザが実際に楽器を演奏してい
るという印象を作り出す。さらに、ユーザが装置の操作を変更する可能性を厳し
く制限する反直感的手段をとることによって、ユーザ・インタフェースが著しく
簡素化される。これは、また、装置に実際の楽器の形および動作を与え、その結
果、ユーザが実際の楽器を操作する音楽技術を持たない場合でも、ユーザは、楽
器を演奏しているかのように感じることができる。この装置は、計算効率が高く
かつ本明細書で開示した音声制御式電子楽器のような一体型装置に適切な独特の
ピッチ検出方式を使用するため、コンパクトで独立型の装置と、重要な高度の音
楽性を提供する装置の両方を提供することができ、これにより、ユーザが楽器を
実際に演奏しているという印象がさらに高まる。
【0027】 本発明の重要な態様は、以下のものを含む: ・ 携帯性−本明細書で開示した楽器は、コンパクトかつ独立型であるため、た
とえばマーチング・バンドにおいて、演奏中も演奏していない間も容易に持ち運
ぶことができる。 ・ 利用しやすさ−本明細書で開示した楽器は、インタフェースが単純なため、
身体に障害がある人、たとえば部分的または完全な麻痺のある人が使用すること
ができる。 ・ 模擬的な音楽技能−これは、楽器を演奏する行為を示す。
【0028】 ハムホーンは、実際の楽器を演奏する体験を模倣し、その体験は、独奏である
か他の演奏者との共演であるかに関係なく、また聴衆の前か単独かに関係なく、
体験の視覚的、触覚的および聴覚的本質を含み、その楽器の技能においてそれま
で訓練を積んだ演奏家のみしか持つことができなかった楽器の微妙なニュアンス
の聴覚制御を含み、また実際の楽器を演奏する行為に伴う個人的、精神的および
社会的利益をすべて含む。
【0029】 この楽器は、原則的に、たとえばトランペット、トロンボーン、クラリネット
、フルート、ピアノ、電気ギター、声、口笛、さらには声のコーラス、すなわち
実質的に任意のサウンド供給源のような任意の音楽生成音源とすることができる
【0030】 最も単純な構成において、この楽器は、一種のホーンと似ており、便宜上、本
明細書全体を通してそれをハムホーンと呼ぶ。しかしながら、楽器の形と外観は
、必要に応じて、製作者が任意の従来の楽器のサウンドと一致するように作るこ
とができ、あるいは、その形を、全く新しくすることも出来る。ハムホーンの物
理的設計の機能要件は、次のようなもののみである。 ・ 携帯型であること。 ・ 演奏者の声が入るマウスピースを有すること。 ・ サウンドを生成する1つまたは複数のスピーカを有すること。 ・ 電子回路とバッテリを格納しかつ指操作式制御部を配置することができる本
体を有すること。
【0031】 ハムホーンの3つの主要ソフトウエア構成要素は、周波数検出モジュール、ラ
ウドネス追跡モジュールおよびノート・アタック・モジュールである。
【0032】 周波数検出モジュール(FDM)は、演奏者の声の周波数を識別する。これは、入
ってきた音波を解析し、循環形状のパターンを発見することによって行われる。
この方法は、きわめて計算効率が高く、自己相関とゼロ交差あるいはピーク・ベ
ースのピッチ検出の新規の組合せである。選択された楽器は、FDMによって決定
されたピッチあるいは演奏者の要望によりそのピッチからのオフセットで合成さ
れる。ピッチ検出プロセス自体の様々な手法は、公知である。前に考察したよう
に、Russ特許は、ピッチ検出の従来の一般分類が、a)ゼロ交差、b)自己相関、
c)スペクトル解析であることを開示している。しかしながら、この手法は、波
形を、任意のサンプル点によって制限されたスパンではなくピークやゼロ交差な
どの波特性を区別することによって制限されたタイム・スパンにのみ比較(相関
)するため、計算効率がきわめて高い。前者の場合は、きわめて多くの相関計算
が必要とされる。この手法は、単に、ピークやゼロ交差などの特性を区別するこ
とによって波を区分することができるという事実を利用する。Russ特許の分類の
観点から言うと、この手法は、分類(a)および(b)の新規の組合せであり、自己相
関の精度にゼロ交差方法の計算効率を提供する。さらに、自己相関よりも優れた
改良点として、この手法は、比較する波を同じ長さに伸長または短縮した後で相
関を行うことによって、時間の経過によるピッチの変化を考慮する。
【0033】 ラウドネス追跡構成要素は、演奏者の声のラウドネスを測定し、次に、この情
報を使用して合成サウンドのボリュームを設定する。
【0034】 ノート・アタック・モジュールは、演奏者の声のラウドネスの急な変化を検出
する。この構成要素は、合成された楽器が新しいノートをいつ開始しなければな
らないかを決定するのに役立つ。
【0035】 ハムホーンは、出力が人間の声によって制御される携帯型音楽シンセサイザで
ある。図1は、ハムホーンの機能を示す。演奏者10は、楽器12のマウスピース14
内に歌うかまたはハミングする。これに応じて、ハムホーンは、楽器の出力13に
、ピッチとボリュームが両方とも演奏者の声のニュアンスに厳密に従う音を生成
する。演奏者は、ハムホーンがどの楽器を模倣するかを選択することができ、選
択した楽器を単に歌うのみで演奏するという印象が与えられる。
【0036】 本発明の重要な部分は、装置のフォームファクタが楽器であり、装置のすべて
の構成要素が楽器自体に含まれていることである。したがって、ユーザは、コン
ピュータや他の電子装置を操作することなく、実際の楽器を演奏する印象にほと
んど近い印象が与えられる。この事実のみで、新しい技術に直面したときに多く
の人が陥る科学技術恐怖症を克服するのに十分な効果があると思われる。したが
って、本発明品を、たとえばホーンや他の公知の楽器のような見慣れた筐体に入
れることによって、心理的な障壁が克服され、より多くの人がこの装置を使用す
ることができるようになる。さらに、この装置は、小さく軽量でコンパクトで操
作が単純であるため、物理的障壁が克服され、身障者が楽器を演奏することも可
能になる。さらに、楽器の隠喩を提供することによって、ユーザと聴衆に、実際
の楽器を実際に演奏しているという印象を与えらることができる。これは、装置
によって生成されるサウンドが、ユーザの期待通り、その装置が似ている楽器の
音と一致することを意味する。
【0037】 ハムホーン自体は、既知または新規の如何なる楽器に似ていてもよい。図2に
、1つの可能な構成を示す。このモデルでは、マウスピース5が、マイクロフォン
9に直接つながっている。スピーカは、チャネルが中央ハウジング11を通って、
サウンドが伝播されるベル部分7につながるダブルコーン部分3の中にある。した
がって、このハウジングは、生成されるサウンドに音響的品質を与える。電子回
路とバッテリは、中央ハウジング内に収容され、中央ハウジングは、また、たと
えば押しボタン1bや選択スイッチ1aのいくつかの指操作式制御部を保持する。こ
れらの制御部により、演奏者は、楽器選択、ボリューム、オクターブなどのシン
セサイザのパラメータを変更することができる。
【0038】 図3は、ハムホーンの論理構成を示す。マイクロフォン30は、アナログ信号を
アナログ・デジタル変換器(ADC)31に送り、ADC31は、一定の周波数、好ましくは
22,050Hzで信号をサンプリングする。ADCは、一度に1つのサンプルを変換し、そ
れをバンドパス・フィルタ32(これは、高すぎる周波数または低すぎる周波数を
除去することによって信号を平滑化する)に送る。フィルタにかけられた各サン
プルは、次に、信号解析モジュール(SAM)33に送られる、そこで、それより前の
サンプルの文脈内で解析される。サンプルを解析した後、SAMは、シンセサイザ3
8に、次のような情報を渡す。 ・シンセサイザが、ノートを演奏しているか否か。演奏している場合は、 ・現在の周波数。 ・現在のボリューム(ラウドネス)。 ・新しいノート・アタックの状態を検出したか否か。
【0039】 シンセサイザは、SAMからのこの情報の他に、指操作式制御部37から入力を受
け取る。このような制御値は、次のもの(但し、これらに制限されない)を含む
様々なシンセサイザ・パラメータを修正することができる。 ・模倣する現在の楽器(音源) ・演奏者の声からのオフセット。すなわち、合成ノートを、歌われているノート
と同じピッチで演奏するか、合成ノートをそのピッチよりも上または下の指定し
た音程で演奏するか否か。 ・シンセサイザは、SAM(連続的ピッチ追跡)によって検出された正確な周波数
を常に演奏すべきか、そうではなく、指定された音階(不連続的ピッチ追跡)で
その周波数に最も近いノートを演奏すべきか。 ・不連続ピッチ追跡に使用する音階、たとえば、半音階、長調、短調、ブルース
。 ・現在のピッチが、所与の音階における主音(第1のノート)か否か。
【0040】 次に、出力サンプルは、渡されたすべての情報に従ってシンセサイザによって
生成される。また、この出力サンプルは、デジタル-アナログ変換器(DAC)34に送
られる。DACは、受け取ったデジタル出力サンプルのストリームから、アナログ
出力信号を生成する。この信号は、増幅器35に送られた後、スピーカ36によって
伝播される。
【0041】 本明細書の残りの部分は、以上概説した構成要素の詳細を考察する。最初、(
図3の)ソフトウエア構成要素について説明する。次に、ハードウェア構成要素
について説明する。
【0042】 ソフトウエアの構成要素 以下の考察では、最初に、フィルタについて説明する。次に、周波数検出モジ
ュール(FDM)、演奏およびアタック決定モジュール(PADM)、およびラウドネス
追跡モジュール(LTM)の3つのサブモジュールからなるコア・ソフトウエア構成要
素、すなわちSAMについて説明する。次に、サウンド・シンセサイザ・モジュー
ル(SSM)について説明する。
【0043】 (フィルタ) フィルタは、一度に1つのサンプルを、ADCから生の入力信号を直接取得し、そ
れをデジタル的にろ波する。このデジタル・フィルタは、以前のサンプルを見る
ことはできるが、将来の値を見ることはできない。フィルタは、生データを平滑
化し、通常は演奏者の意図したピッチと関係のない突出したピークを除去する。
単純な3次バンドパス・フィルタが使用される。このフィルタは、低い遮断周波
数が200Hz、高い遮断周波数が300Hzである。好ましいフィルタは、W. Press, B.
Flannery, S. Teukolsky, W. Vetterling, Numerical Recipes in C, pp. 456-
460, Cambridge University Press (1988)に記載されている。これ以降、信号
、サンプル値および波について言及する場合には、これらはすべて、常に、ろ波
された値を指し、すべてのグラフは、ろ波された値を表す。生のろ波されていな
い値は、ほとんど得られないと仮定する。したがって、デジタル・フィルタを、
アナログ回路により置換しても、本明細書の残りの部分を変更する必要はない。
【0044】 (信号解析モジュール(SAM)) 信号解析モジュール(SAM)は、入力40として現行サンプルを取得し、出力と
して、前述の4つの情報、すなわちノート・オン/オフ41、周波数42、ラウドネ
ス43およびアタック44を生成する。図4に、SAMの3つのサブモジュールの関係を
示す。入力サンプルは、3つすべてのサブモジュールが、利用可能である。FDM 4
5は、入力信号の周波数を計算し、またこの計算の信頼性の基準も計算する。前
者は、SSM 38(図3)に送られ、後者は、PADM 46によって使用される。PADMは、
LTM 47によって計算されたラウドネス値も使用する。これらの構成要素およびそ
れらの関係については、次の節で説明する。
【0045】 (周波数検出モジュール(FDM)) 周波数検出モジュール(FDM)は、入力信号を解析して基本周波数を求める。
これは、到来波の形状のパターンを調べることによって行われる。基本波長は、
最大繰返し波形である。
【0046】 図5は、人間の声が、帯域ろ波後に生成する可能性がある波に類似する波を示
す。横軸は、時間を表すので、右側にある点は、左側にある点よりも後で起こる
。縦軸は、信号電圧を表す。中央の横線よりも上の点は、正の電圧を有する。こ
の線より下の点は、負の電圧を有する。ADCは、これらの電圧を、デジタル・サ
ンプル値に変換する。好ましい8ビットのADCの場合、サンプル値は、レンジ±12
8内にある(16ビットのADCは、レンジ±32768内の値を生成する。) 波のサンプ
ルの平均大きさが大きくなるほど、波は大きくなる。
【0047】 ピークには、ピークが生じる順序を表す1〜17のラベルが付けられている。ピ
ークという用語は、高いピーク(奇数番号を付けた)と低いピーク(偶数番号を
付けた)の両方を指すために使用される。ピークが生じる時刻は、tpと記述され
、ここで、pは、ピークの番号であり、たとえば、ピーク1が生じた時刻は、t1
記述される。波は、t1〜t17に拡がり、t1〜t5、t5〜t9、t9〜t13、およびt13〜t 17 の、4回繰り返される基本波からなる。この波(たとえば、t13〜t9)の継続時
間または長さは、基本波長であり、基本周波数に反比例する。 F(t)=1/W(t) (1) ここで、W(t)は、基本波長、F(t)は、基本周波数である。FDMは、分割不可能な
最も長い繰返し波形、すなわち基本波形を発見することによって、この基本波長
を求める。その波自体が完全に繰返し波形からなるわけではない場合には、波は
、分割不可能である。たとえば、図5において、t13〜t17の波形は、t9〜t13の波
形とマッチしており、基本波形である。t9〜t17までのセグメントは、t1〜t9
セグメントとマッチするが、このセグメントは、それよりも小さい2つのそろっ
たセグメントに分割できるため、基本波形ではない。
【0048】 基本波形を発見することによって基本周波数を識別するこの技術は、入力信号
が人間の声であり、この入力信号のいくつかの特性が前もって分かっているいる
ため、ハムホーンに使用することが出来る。第一に、人間の声は、ある一定の範
囲の周波数と波長しか生成することができない。したがって、それよりも長いか
または短い波は無視することができ、これにより、処理の手間が、妥当な範囲内
に維持される。第二に、人間の声を有効に帯域ろ波することができ、その得られ
た波形は、滑らかでかつ行儀がよい(以下を参照)。この文脈において、行儀の
よい波とは、基本波が、一般に最大4つまたは5つのわずかな数のピークのみにま
たがるものである。また、これは、探索の手間を制限するのに役立つ。
【0049】 FDMは、最大の繰返し形状を捜して入力波の新しいセグメントを比較すること
によって基本波形を発見する。FDMの形状突き合わせ方法の効率は、1つの基本的
な洞察による。その洞察とは、基本波形が、常に、ピークによって拘束されるた
め、ピークによって拘束されたウェーブ・セグメントのみを比較することにより
、波形を付き合わせる探索の効率を大幅に高めることができるというものである
。このため、新しいピークを検出するときは、周波数の計算しか行われない。基
本波は、通常、最大4つまたは5つのピークを有するので、比較の数は、ほぼ最大
約25(簡単に考えて)であり、平均では、これよりかなり少ない。
【0050】 図6は、周波数検出のプロセス全体を示す。すべての新しいサンプル60につい
て、そのサンプルが、新しいピークを明瞭に表しているか否かのテストが行われ
る(61)。新しいピークを明瞭に表していない場合、周波数は、その前の値のまま
で変更されない(65)。一方、サンプルが、新しいピークを明瞭に表している場合
には、形状が互いにマッチする可能性のあるウェーブ・セグメントを発見するた
めに、直前のピークについて探索が行われる(62)。何も発見されない場合には、
やはり周波数はそのまま変更されない(65)。マッチの可能性がある場合、ウェー
ブ・セグメントが、さらに詳しく比較され(63)、ベスト・マッチを使用して新し
い周波数が計算される(64)。
【0051】ピークのテスト 図6における番号61のボックスは、現行サンプルがピークを表すか否かをテス
トする。このテストは、現時点における波の一次導関数と二次導関数を測定する
。結果としては、STRONG、WEAKおよびNONEの3つ可能性がある。図7に、このテス
トの疑似コードが示されている。第1行〜第3行は、tが、現在時刻であり、sampl
e(t)が、現在時刻ステップにおける入力サンプルの値であり、かつslope(t)が、
現行時間ステップにおける勾配を測定することを定義する。高いピーク(上に湾
曲したもの。第5行)と低いピーク(下に湾曲したもの。第6行)の2種類のピー
クがある。曲率は、サンプル点の二次導関数の大きさに等しくなるように設定さ
れる(第7行)。縦線「||」は、絶対値を表す。サンプルが、高いピークでも低
いピークでもない場合は、ピークはない(第8行、第9行)。サンプルの大きさが
、しきい値より小さい場合(第10行)、または二次導関数の大きさが、小さすぎ
る場合(第12行)は、ピークが存在するが、そのピークは弱い(第11行または第
13行)。そうでない場合は、その点は、強いピークである(第15)。強いピーク
があるときには、波形の探索のみが行われる。
【0052】 第10行のテストが、周波数の推定に使用されるピーク(強いピーク)の数を少
なくするためのみのものであり、かつこれにより全体の計算負担が軽減されるこ
とに注意されたい。このピークを選別する特定の方法は、ある程度任意である。
第10行のテストを完全になくすと、演算は増えるが、周波数推定の速度を高める
ことができる。
【0053】個々のウェーブ・セグメント・ペアについての繰り返し 現行サンプルが、強いピークである場合には、図6の番号62のボックス(個々
のウェーブ・セグメント・ペアについての繰り返し)は、最近のウェーブ・セグ
メントのすべてのペアを列挙し、そしてそれらを比較のために番号63のボックス
に送る。ボックス62で行うことの例については、再度、図5を参照されたい。ボ
ックス61で、t17のピークがちょうど検出されたと仮定する。これは、次で、比
較しようとする2つのセグメントのうちの第2のセグメントの終点として使用され
る。第1のセグメントwave1は、暫定的にstartとラベルが付けられたピークで始
まり、暫定的にsplitとラベルが付けられた後の方のピークで終わる。第2のセグ
メントwave2は、splitピークで始まり、currentと呼ばれるボックス61で検出さ
れたばかりのピークで終わる。最初、splitは、最後から2番目のピークであり、
startは、直前のピークである。次に、繰返しプロセスが始まり、これにより、
ラベルstartおよびsplitは、あるピークから次のピークに後方に移動される。ラ
ベルが移動されるたびに、新しいセグメントwave1とwave2が比較される。これは
、可能性があるセグメントがすべて比較されるまで続く。既に述べたように、あ
る範囲内の波長のみを検討すればよい。セグメントは、最初、マッチする可能性
があるか否か確認するテストの後に、比較のためにボックス63に送られる。また
、startとsplitは、強いピークでなければならない。
【0054】 再び図5を参照すると、t17は、現在時刻であり、そして下の表Aに示したウェ
ーブ・セグメントが処理される。
【表A】
【0055】 図8は、ボックス62の擬似コードを示す。第1行〜第4行において、 wave1とwav
e2が、前述のように定義され、 length()関数が、上に示したような波長になる
ように定義され、そしてsample()関数は、所与のピークにおける入力サンプルの
値を戻す。第6行は、マッチがあったか否かを記録するフラグを初期化する。第7
行〜第12行は、マッチする適切な候補のすべてのウェーブ・セグメントに繰り返
される。波は、人間の声が生成することができる波長の範囲内になければならな
い(第8行、第9行)。この波は、ほぼ同じ長さでなければならない(第10行)。
この波は、グラフ上のほぼ同じ高さで始まってかつ終わらなければならない(第
11行と第12行)。これらの基準がすべて満たされた場合に、波は、比較される(
第13行)。この比較手順については、以下の段落で詳しく説明するが、簡単に述
べると、波を同じ長さに引き伸ばし、次に一方を他方から減算する。この減算に
よって得た差を使用してそれらの波の類似性を判断する。差がゼロに近いほど、
2つの波は類似している。2つの波が、十分に類似している場合(第14行と第15行
)、それらの波はマッチしていると見なされる。それらの波がマッチしているか
否かの基準は、ノートが現在演奏されているか否かによる。ノートが演奏されて
いない場合には、演奏が適正な周波数で始まることを保証する厳密な規格が使用
される。ノートの演奏が始まって近似的な周波数が確立された後は、もっと緩い
規格が適用される。これらの異なる2つの規格は、周波数計算および補正モジュ
ール(FCCR: Frequency Calculation and Correction Module)のために必要とな
る。後により詳細に説明するように、ノートが確立された後、FCCRは、それぞれ
の新しい周波数を、強制的に前の周波数に近づける。したがって、ノートのちょ
うど始まりで周波数を得ることがきわめて重要である。
【0056】 セグメントがマッチすると、それらのセグメントが表す基本波長(それらのセ
グメントの個々の長さの平均)が、計算される(第16行)。この波長が、それま
でベスト・マッチした波長の約2倍である場合(第17行)は、探索が余計に行わ
れており、そしてwave1とwave2は、それぞれ、2つの完全な基本波形からなる。
このケースでは、処理が停止し、新しい周波数が返される(第18行)。そうでな
い場合は、セグメント間の差が、前の差の値と比較される(第19行)。その差が
、それまでで最も小さい場合には、その差が、維持され(第20行と第21行)、マ
ッチ・フラグがTRUEにセットされる。
【0057】 ここで説明した好ましい周波数検出方法は、ピークの識別に依存しているが、
例えば、ゼロ交差の様な他のきわだった特徴の識別に依存することも可能である
。ゼロ交差の場合、強いピークの類似物(ボックス61)は、正または負の大きな
勾配を有するゼロ交差である。
【0058】2つのウェーブ・セグメントの比較 2つのセグメントを比較するボックス63は、2つのウェーブ・セグメントを取得
し、第1のウェーブ・セグメントと第2のウェーブ・セグメントが同じ長さになる
ように、第2のウェーブ・セグメントを伸長または短縮し、そしてそれらのサン
プルの差を合算する。両方の波におけるすべてのサンプルの差を合算するのでは
なく、均一に分散した少数のサンプル(チェック・ポイントと呼ばれる)のみが
選択される。これにより、処理速度が向上する。各チェック・ポイント間の距離
は、ほぼN_SAMPLES_PER_CHECKPOINTである。図9に、ボックス63の擬似コードが
示されている。2つのウェーブ・セグメントを、wave1およびwave2と呼ぶ。第2行
で、wave1の長さに基づいてチェック・ポイントの数を計算する。下限記号 「└
┘」は、端数を切り捨てて最も近い整数にすることを意味する。wavelength_rat
ioの値は、wave1の長さと比較したwave2の長さを表す(第3行)。第5行、第6行
および第13行のwhileループが、すべてのチェック・ポイントに繰り返される。
第7行において、t1は、wave1におけるi番目のチェック・ポイントの時刻である
。t2は、t1に基づくwave2におけるi番目のチェック・ポイントの時刻であるが、
wave2における同じ場所に対応するように拡張または短縮される。第9行と第10行
は、i番目のチェック・ポイントにおけるwave1とwave2のサンプル値を求める。
第11行において、2つの波の差が、そのチェック・ポイントでのそれらの差の大
きさで更新される。第12行〜第14行において、2つのサンプルの平均の大きさが
計算され、その値の最高値が、波全体のために保存される。最後に、第16行で、
波の差の合計が、長さと高さの両方に関して正規化され、その結果、この手続き
の効果が、高い周波数と低い周波数の両方および大きい信号と小さい信号の両方
で同じになる。
【0059】周波数計算および補正ルーチン(FCCR) ノートの進行中、周波数は、連続するピーク間で大きく変化することはない。
人間の声は、そのような短時間の間に周波数を単純に大きく変化させることはで
きないので、この事実を使用して、ある程度の周波数補正を実現することができ
る。現行周波数が、前に検出した周波数と大きく異なる場合には、前者と後者の
どちらかに誤りがある。この状況は、様々な方法で処理することができるが、周
波数計算および補正ルーチン(FCCR)(図6のボックス64)は、最も最近検出した
周波数が間違っていると仮定し、その周波数を前に検出した周波数と置き換える
。(ノートが既に開始してしまっている場合よりもノートが確立される時の方が
周波数の検出が厳密になるのは、特にこの理由による。図8の第14および第15行
を参照) 入力における小さい周波数変化のみを受け入れることによって、ハム
ホーンの出力は、ピッチが滑らかでかつ連続的に変化するように見える。
【0060】 図10は、FCCRの疑似コードを示す。第2行は、最後の波がマッチしてから経過
した時間を計算する。第3行は、式(1)に従って、最良の波長が受け入れられた場
合に、周波数がどうなるかを計算する。第4行〜第7行は、最後に受け入れた周波
数と新しく連想された周波数との周波数差のパーセントを計算する。分子は、2
つのうちの大きい方であり、正規化のために商から1が減算される。ボックス62
でマッチが発見されなかった場合には、周波数は、そのままで変更されない(第
9行)。発見された場合は、その時刻が、第2行での後の繰返しで再び使用するた
めに記録される(第9行)。周波数の変化が、人間の声が達成できる速度の範囲
内にある場合、周波数は、新しい値に変更され、そうでない場合は、そのままで
変更されない。
【0061】 周波数補正の代替手法は、新しい周波数のマッチの格付けがきわめて良好であ
った場合、すなわち図8の第13行の差がきわめて小さい場合のみを除いて、ノー
ト中の1つの著しい周波数変化しか許容しないことである。これにより、歌の開
始がずれた場合のノート、またはハムホーンが不正確に検出したノート・アタッ
クが補正される。
【0062】 周波数検出の最も多い誤りは、1オクターブずれることである。図11は、同じ
声から記録された2つのろ波された波形を示す。これらの波形は、きわめて不明
瞭でありまた周波数検出器が検出することは困難であるため、特に興味深い。上
側の波は、8ミリ秒より少し短い波長を有するが、形の繰り返しのために、この
ままでは2倍の波長を有するように解釈されやすい。下側の波は、これと反対で
ある。この波は、7ミリ秒より少し長い波長を有するが、その半分の波長を有す
るように解釈されやすい。FDMが、両方の波長を正確に認識するためには、パラ
メータを注意深く調整しなければならない。完全な一組のパラメータ値について
は、後で考察する。
【0063】 周波数を修正する別の方法は、図6のボックス62の変更を伴う。ベスト・マッ
チが、その前の波長から遠すぎるとき、ボックス62は、前の波長に最も近いマッ
チを返すことができる。この波長は、ベスト・マッチというわけではないが、実
際の基本波長の可能性がある。
【0064】 周波数補正は、周波数検出プロセスの重要な部分であり、これを達成するため
の多数の様々な方法がある。周波数補正において、一般的な周波数検出アルゴリ
ズムは、人間の声が生成できるスペクトル全体からの候補周波数の数を、通常2
つか3つの少ない数の選択肢に減らしていた。このようなケースでは、汎用の周
波数検出アルゴリズムが区別するのが難しい場合があるあいまいさを、専用のア
ルゴリズムに対してより単純化することが出来る。特にこのような不定期な周波
数の不明瞭さに使用できる2つの方法には、(a)予測フィルタリングやその他の
パラメータ周波数推定方法と、(b)文脈依存の確率的方法がある。(a)のケー
スの場合、このような方法は、波に関する大量の先行情報を必要とするので、一
般的な周波数を検出する場合には非効率であるが、周波数補正のシナリオのよう
に、周波数候補をわずかな数に減らすことができる際には、正確かつ効率的であ
る。ケース(b)の場合、文脈すなわちユーザが最近歌ったピッチは、歌う人が
他のピッチを歌おうとする確率を予測するのに役立つ。このような確率を、周波
数検出アルゴリズムによって見つけた少数の候補と共に使用して、最も確率の高
そうなピッチを選択することができる。たとえば、歌う人が、最後のいくつかの
ノートにおいて、上昇する半音階で音が高くなっていくように歌い、最後のピッ
チよりも半音高い選択肢と、1オクターブに半音1つ加えた高さの他方の選択肢と
の不明瞭な2つの選択肢が生じた場合、歌う人が後者よりも前者を意図した確率
の方が高い。一般に、人間の声に関するアプリオリ情報と、その声が生成できる
かまたは生成する可能性が高い波パターンを使用して、どの周波数が検出された
かを最終的に決定することができる。
【0065】周波数信頼性の評価 ボックス66は、周波数信頼性の評価であり、重要なルーチンであるが、その使
用の文脈がより明瞭になったときに、後でさらに詳しく説明する。現時点では、
ボックス66について説明しないが、後の考察で、周波数信頼性の測定に必要にな
ったときに、ボックス66について説明する。
【0066】FDMに関する特記事項 周波数検出手順全体は、あまり多量の計算を必要とせず、大部分は最近の時間
ステップの小さいサブセットにおける加算からなる。さらに、この手法は、正確
な基本周波数を発見するのにきわめて有効である。他のほとんどの周波数検出方
法は、信号のフィルタリングに大きく依存する。スペクトル法は、数桁多い計算
を必要とする。FDMは、また、スペクトル法よりもかなり反応が早く、基本波長
を検出する前にごく少数のサンプルしか必要としない。FDM法は、標準的な自己
相関と関連しているが、あまり多量の計算を必要としない。自己相関法が、多く
の乗算を含む内積を使って波形の類似性を評価するのに対し、FDMは、差の加算
を使用する。FDMは、また、ピークやゼロ交差などの波形の特徴で制限されたウ
ェーブ・セグメントのみを比較することによって、計算労力をかなり節約させる
【0067】 (演奏およびアタック決定モジュール(PADM)) ノートの最初における楽器のサウンドは、かなり特徴的なことがある。たとえ
ば、金管楽器は、通常、力があって息の混じるサウンドを有する。ノートのこの
部分は、ノートのアタックと呼ばれる。ノートのアタックが生じる周波数は、そ
のアタック周波数と呼ばれる。ハムホーンは、全部で、次のような異なる4つの
ケースでアタックを演奏する: ・ 正確な周波数検出に付随してまたはその直後にラウドネスが急に増大したと
き; ・ 現在はノートが演奏されていないが、ある程度最小時間の間に適切な周波数
が検出されたとき; ・ ピッチ追跡が継続的であり、ピッチが、シンセサイザがアタック・ピッチに
基づいて滑らかなピッチ変化を生成することができる範囲以上に移動したとき;
そして ・ ピッチ追跡が不連続であり、ピッチが、アタック・ピッチからは遠すぎかつ
選択された音階における別のピッチには近すぎるピッチに移動したとき。
【0068】 これらのケースのうちの第3と第4のケースは、演奏オプションとシンセサイザ
・オプションを含む。これらのケースは、SSM(サウンド合成モジュール)によ
って処理され、後に詳細に説明される。第1と第2のケースは、演奏者の側で意図
されたアタックを検出する必要がある。これらのケースは、演奏およびアタック
検出モジュール(PADM)によって処理される。
【0069】 演奏者がハミングするとき、演奏者は、ハムホーンに特定の時刻にアタックを
生成させたいと考える。演奏者は、1つのノートを次のノートと分離するために
、無意識に、自分の舌と唇を使って、通常「d」、「t」、「l」、「p」、「b」
および/または「m」の子音を発音する。演奏者は、一般に、ノートを明確にす
るために、「dum, ba dum, badumpadumpadum」や「doodle oo, doodle oo, dood
le oo doo doo」などの音節を歌う。これを行うことにより、演奏者は、ハムホ
ーンに直観的に信号を送ってアタックを生成する。PADMは、これらの信号を検出
し、それに応じてSSMにアタックを送出することができる。
【0070】 前述のケース(1)とケース(2)の両方において、信号の周波数に疑いがある場合
は、アタックは送出されてはならない。さらに、ケース(2)において、演奏者は
、ある程度適当な期間、正確な周波数を歌っている必要があった。したがって、
前述のように、検出した周波数の信頼性を決定する手続きが必要である。周波数
信頼性の情報は、図6のボックス66から渡される。この手続きは、次の4つの値の
うちの1つを返す: ・BAD: 現行周波数が未知であり、信頼できる周波数が最近検出されてない。
・UNSURE: 周波数を最近検出したが、最新のピークではなかった。 ・GOOD: 周波数を最新のピークで検出したが、最近において不確実なことがあ
った。 ・STABLE: 周波数が、最近ずっと一貫して検出された。
【0071】 次に、周波数の信頼性を計算するルーチンについて説明する。しかしながら、
最初に、PADMの残りの部分を説明する。図13は、PADMとその関連ルーチンの関係
の図を示す。PADM 46は、周波数信頼性の他に、演奏者の声の現在のラウドネス
に関する情報も必要とする。ラウドネスは、後で説明するLTM 47(ラウドネス追
跡モジュール)によって計算される。PADMは、また、ラウドネスの最近の変化に
関する情報、特に、ラウドネスが過去に急に増大したか否かの情報を必要とする
。この情報は、後で説明する最近ラウドネス・サージ・ルーチン130から来る。
【0072】 図14には、PADMの疑似コードが示されている。PADMは、前述のケース(1)およ
びケース(2)に対応する異なる2つのケースでアタックを送出する。第3行〜第5行
は、ケース(1)に対応し、第7行〜第10行は、ケース(2)に対応する。第1のケース
において、(第3行)最近少なくとも1つの周波数マッチがあった場合(周波数信
頼性は、GOODまたはSTABLEである)と、(第5行)最後のアタックから十分な時
間が経過した場合に、アタックが送出される。第2のケースでは、周波数信頼性
が、暫くの間安定しており(第7行)、信号が十分に大きく(第8行)、ノートが
現在演奏されていなく(第9行)、ノートが停止されてから十分な時間が経過し
ている(第10行)。これらの両方のケースにおいて、ノートが現在演奏されてお
り(第12行)、かつアタックが送出される(第13行)ことを示すフラグがセット
される。時刻が、第5行における次の繰返しの使用のために記録される(第15行
)。ケース1もケース2も満たされない場合には、アタックは送出されない(第17
行)。さらに、また最後のピークのマッチがなかった場合、またはラウドネスが
、十分に低いレベルに下がった場合(第18行)には、演奏が停止され(第19行)
、時刻が、第10行における次の繰返しの使用のために記録される(第20行)。
【0073】周波数信頼性の推定 以下の説明は、図6のボックス66の周波数信頼性の推定に関する。参考のため
に、図6とそれに付随する文を見直すことが有効な場合がある。各ピークは、そ
のピークが生じるとき、すなわちサンプルがSTRONGまたはWEAKピークにあるとき
に評価される。弱いピークが、相対的に共通である。それらのピークは、形状突
き合わせと周波数検出の開始には使用されないが、波の形状に関するきわめて重
要な情報を提供するため、形状突き合わせプロセスの有用な部分である。強くか
つマッチしているピーク、すなわちFDMによってマッチが発見されたピークが、
いくつかの弱いピークに分離されるときは、これは、良いサインであり、検出さ
れた周波数における長期の安定した信号を示す。しかしながら、連続した弱いピ
ークが多すぎる場合は、これは、悪いサインである。これは、信号自体が弱いか
または失われたことを示す。弱い信号または失われた信号が、検出の正常な部分
である。これは、演奏者がノートを歌うことをやめるか、子音を発音することに
よって2つのノートを分離しているときに最もよく起こり、これにより、信号に
ノイズが加わる。もう1つの悪いサイン、すなわち周波数が失われたというしる
しは、強いピークが発見されたが、FDMが、そのピークの形状マッチを発見する
ことができないことである。したがって、良いサインと悪いサインに従って、信
号の信頼性を格付けすることができる。良いサインは、強くかつマッチしている
ピークである。悪いサインは、マッチしていないピークであり、連続した弱いピ
ークが多すぎる列である。周波数は、悪いサインなしに連続した少なくとも3つ
の良いサインがある場合にSTABLEである。良いサインなしに連続した少なくとも
5つの悪いサインがあった場合には、BADである。BADでもSTABLEでもないが、現
行ピークが、強くかつマッチしているピークである場合、周波数信頼性は、GOOD
である。これらのいずれのケースにも当てはまらない場合、信頼性は、UNSUREで
ある。
【0074】 図15は、周波数信頼性を推定する疑似コードを示す。第2行〜第15行は、良い
サインと悪いサインをカウントする。第16行〜第23行は、それらを信頼性評価に
分類する。現行ピークが弱い場合(第2行)は、連続した弱いピークの数が増分
される(第3行)。連続した弱いピークの数が大きすぎる場合(悪いサイン)は
、悪いサインのカウンタが増分され(第5行)、良いサインのカウンタがゼロに
リセットされる(第6行)。また、連続した弱いピークのカウントが、再び始ま
るはずである(第7行)。そうでない場合は、ピークは、弱くないので、強くな
くてはならない(第8行)。マッチが発見されなかった場合(悪いサイン)は、
この場合も、悪いサインのカウンタが増分され(第9行)、良いサインのカウン
タが、リセットされ(第10行)、弱いピークのカウンタが、リセットされる(第
11行)。しかしながら、マッチが、発見された場合(良いサイン)は、良いサイ
ンのカウンタが増分され(第13行)、悪いサインのカウンタがリセットされ(第
14行)、この場合も、弱いピークのカウンタは、リセットされる(第15行)であ
る。第16行で、分類が始まる。徐々に現行ピークにつなり、列に悪いサインが5
つ以上あった場合は、周波数信頼性は、BADである(第17行)。良いサインが3つ
以上あった場合、信頼性は、STABLEである(第19行)。BADでもSTABLEでもない
が、現行ピークが、強くかつ一致するピークである場合は、信頼性は、GOODであ
る(第21行)。これらのケースがどれも当てはまらない場合、信頼性は、UNSURE
である(第23行)。
【0075】 良いサイン(3)と悪いサイン(5)の数は、明らかに任意であり、調整することが
できる。また、良いサインと悪いサインの基準は、原則として、他の標識を含め
るように強化することができる。
【0076】ラウドネス・サージ検出 PADMによって必要とされる最後の構成要素は、新しいラウドネス・サージを検
出するためのルーチンである。このルーチンは、アタックの基準としてまだ使用
されていないラウドネス・サージ(演奏者の声のラウドネスの急な増大)が最近
あった場合にTRUEを返す。ラウドネス・サージは、現行ラウドネスが、最近にお
いて前のどのラウドネスよりも実質的に大きいとき、すなわち次のようなときに
生じたと考えられる。 L(t)>SURGE_RATIO*min(L(t-WINDOW_SIZE),..,L(t-ε)) (2) ここで、L(t)は、後で説明する方法のうちの1つによって計算された現行ラウド
ネスであり、SURGE_RATIOは、現行ラウドネスが初期ラウドネスを超えなければ
ならない比率であり、WINDOW_SIZEは、「最近の過去」の長さ、すなわちラウド
ネス・サージが生じる最長時間であり、 min()は、その引き数の最小値を返し、
サンプル間の時間ε=1/Rであり、ここでRは、サンプル・レートである。ラウド
ネス・サージが生じると、フラグがセットされ、その時刻が記録される。次に、
ルーチンは、surge_time秒の間、またはフラグがセットし直されるまでにTRUEを
返す(図14の第14行)。
【0077】 式(2)の関数「min」は、ハムホーンの残りの関数に比べて計算量が多い。この
プロセスを高速化する1つの方法は、ラウドネス値を、それぞれある範囲の値を
表すビンに分割することである。新しいラウドネス値が到着すると、その値が対
応するビンが増やされる。WINDOW_SIZE秒の後、値がウィンドウから出ると、ビ
ンは減らされる。ウィンドウ内の最小値は、ゼロでない最も低いビンの範囲内に
ある。これに代えて、ビンは、そのビンが表わす実効値のリストを指すことも出
来る。実際に、値を、ストア時間がO(log n)である任意の標準的な順序付けら
れたデータ構造内に記憶させることも出来る。これに代えて、この比較のために
、過去のラウドネス値のサブセット、たとえばピーク検出と一致するラウドネス
値を使用することができる。
【0078】 (ラウドネス追跡モジュール(LTM)) 演奏者の声のラウドネスの瞬間ごとの変化に対応するハムホーンの即座でかつ
連続した応答は、鍵盤楽器が表現することができない微妙なニュアンスの制御を
可能にする。ハムホーンの場合、ボリュームの制御は、完全に直覚的でかつ自然
であり、先ず表現しようとする制御を指に変換する必要がない。これは、努力を
要せずかつ無意識的に行われる。
【0079】 また、PADMが、迅速でかつ微妙なノート・アタックを検出するには、敏感にラ
ウドネスを追跡することがきわめて重要である。
【0080】 SAMが入力信号のラウドネスを追跡する1つの方法は、次のように、サンプル値
の大きさの移動平均によるものである: L(t)=(1-K)*|s(t)|+K*L(t-ε) (3) ここで、L(t)は、時刻tにおけるラウドネスであり、s(t)は、時刻tにおけるサン
プル値であり、||は、絶対値を示し、そして0<K<<1である。L(t)は、単に、サン
プル値の大きさトレースまたは低域フィルタである。この方法は、ラウドネスの
遅い変化を追跡するには十分である。しかしながら、この方法は、急な変化を追
跡するには十分でない。ノート・アタックの急な遷移を検出するためには、ラウ
ドネスの急な変化を追跡しなければならない。
【0081】 さらに応答性の高いラウドネス追跡を実現する簡単な方法は、単に、最近の過
去すなわち最も最近のMのステップのウィンドウにおけるすべてのサンプル値を
調べることである。ラウドネスは、単に、この範囲において、次のように、大き
さ(すなわち、中心線からの距離)が最も大きいサンプルの絶対値に設定される
: L(t)=max(|s(t-M)|,..,|s(t)|) (4) ここで、Mは、すべてのユーザにとっての予想される最大波長の近似値である。
したがって、波の振幅が大きくなるほど、ラウドネスが増大し、波の振幅が小さ
くなるほど、ラウドネスは減少する。入力信号がないとき、ラウドネスは、ゼロ
に近づく。
【0082】 式0は、実現するための計算の量が多くなる可能性があるが、いくつかの最適
化を計ることができる。少ない計算オーバヘッドしか必要としない別の方法は、
単純に、次のように、過去のMステップにわたるサンプルの大きさの(トレース
ではない)実際平均を使用する: L(t)=Σt j=t-k |s(j)|/M (5) = L(t-ε)+[|s(t)|-|s(t-M)|]/M
【0083】 この手法は、各時間ステップで1つの加法と1つの減算しか必要としないため、
計算的な負担は少ない。Mは常に同じであるため、除算は、無視することができ
る。また、この手法は、必要なプログラム・コードが他の手法よりも少ない。こ
のことは、ハードウェアの制約によっては重要な検討事項となる場合がある。こ
れと類似しているが少し異なる方法は、次のように、波の沿岸線長を測定して、
その波が有するアクティビティまたはエネルギーの量を推定することである: L(t) = Σt j=t-k |s(j)-s(j-ε)|/M (6) = L(t-1)+[|s(t)-s(t-ε)|-|s(t-M)-s(t-M-ε)|]/M
【0084】 ラウドネス追跡のより精巧な方法は、式(6)が示すことを達成するが、計算の
量ははるかに少ない。この方法は、やはり、(サイズMの)先行する時間ウィン
ドウにおける最大値を発見するが、(時間ステップごとではなく)強いピークか
弱いピークが到着したときにのみ、ラウドネスの評価を更新する。さらなる最適
化として、評価に使用するサンプル値は、認識されたピークにおけるもののみで
ある。このピークに基づく手法は、ピークに基づくFDMとうまく適合する。図28
に示したC++コードが、この方法を実現する。
【0085】 以上の方法のいずれか、特に最後の方法において、周波数情報を使用して、M
すなわちサンプル・ウィンドウのサイズを動的に調整することができる。基本周
波数が高いときは、短いウィンドウを使用することができ、基本周波数が低いと
きは、長いウィンドウを使用することができる。これにより、モジュールが、ラ
ウドネスの変化に反応しやすくなる。正確な周波数が常に分かっている場合、M
は、基本波長よりも1つの時間ステップのみ短いと最適である。これは、波長全
体が、前の基本波からの最大ピークも含む可能性があるためである。実際には、
FDMが、ピークのマッチを見つけたときのみ、ラウドネスが更新される場合は、M
は、マッチしたピークの後のすべてのもの、すなわちベスト・マッチのwave1お
よびwave2に関して図8の分割ピークの後のすべてのものを含まなければならない
【0086】 周波数情報が入手できないときは、Mに、予想される最も長い波長を使用する
ことができる。これにより、信号に実際に存在しないラウドネスの急な変化が検
出された場合に、PADMが頻繁すぎるノート・アタックを生成する可能性がある過
剰応答が回避される。しかしながら、部分的または完全に信頼できない周波数情
報から波長を推定しようとする様々な発見的方法によって、より高い応答性を得
ることができる。連続したいくつかのピークにマッチが発見されなかった場合は
、Mの適切なサイズが、不確かになり始める。このケースにおいて、適切な発見
的方法は、最も最近検出された基本波長の約0.9倍でMを開始することである。周
波数の信頼性が低くなるほど、Mは、最後のGOODの周波数信頼性の測定から経過
した時間の関数(g(△t))として増加することがある。すなわち、 M(t) = min[wmax, 0.9 W(tlm)g(t-tlm)] (7) であり、ここで、wmaxは、予想される最長波長であり、tは、現在時刻であり、t lm は、FDMがマッチを検出した最後の時刻であり、W(x)は、時刻xにおける波長
である。この方法は、特に、周波数検出の信頼性が低くなる可能性があるときに
、子音の発音に伴ってラウドネスが一時的に小さくなるときに有効である。
【0087】 アタック検出が、ほとんどラウドネス追跡に基づいているため、ラウドネス追
跡モジュールは、理想的には、演奏者が望むアタック検出の感度に従って調整さ
れなければならない。特に、g(△t)は、個々の演奏者の声の能力に依存させるべ
きである。人が、その声のピッチを変更できる速さには限界がある。ほとんどの
人は、40ミリ秒で約1オクターブ以上の割合でピッチを変化させることはできな
いと思われる。間違ったアタックを最小限に抑えることが、目標である場合には
、g(△t)は、周波数が、FDMの最後のマッチの瞬間からこの最大の割合で実際に
下がったかのように、最悪の場合の値を計算することができる。しかしながら、
大規模市場のユーザにより大きく受け入れてもらうためには、Mを、この最大の
割合よりもゆるやかに変化させることが好ましい。これは、子音のサウンド間で
ピッチをきわめて急に変化させたいユーザにたいしては、いくつかの余分なアタ
ックを生成することになるが、より敏感なアタック検出を可能にする。人間の耳
がピッチに対し対数的な知覚を有しているため、周波数と波長の処理には指数関
数を使用することが便利であり、したがって、次のように定義するとが便利であ
る: g(△t)=2△t/△td (8) ここで、△tdは、波長が2倍になるまでの時間、すなわち周波数が1オクターブ下
がるための時間である、パラメータ△tdは、演奏者のピッチ変化の推定速度を反
映させるように調整することができる。前述の最悪の場合のシナリオにおいては
、△tdは、0.04秒であり、g(0.040) = 2である。サンプル・ウィンドウの成長速
度は、この手法の本質的な趣旨から逸脱しない範囲で、式(7)と式(8)以外のいく
つかの他の方法で表現できることは明らかである。
【0088】 図12は、式(7)と(8)を使用して得られたラウドネス値の代表的なプロファイル
を示す。ラウドネス・プロファイル122は、対応する一連のサンプル値の大きさ1
23の上に重ねられる。前の方法に示したように、ラウドネスは、ピークでのみ更
新されることに注意されたい。
【0089】 (その他の技術的詳細) 疑似コードの概念に支障のない範囲で、いくつかの技術的詳細が、前述のコー
ドから省略された。そのような1つの詳細は、最新データを入れる循環式バッフ
ァの使用である。以前に記録したすべてのデータを維持しなくてもよいことは明
らかである。単に、新しいデータが、古いデータの上に循環式に書き込まれる。
この技術は、一連の繰返しの間ずっと蓄積されるすべての情報に当てはまる。循
環式バッファのサイズは、人間の声が生成できる最長の波長wmaxを処理するため
に必要なすべての情報を十分に維持できる大きさに決められる。一般に、バッフ
ァは、wmaxの2倍を少し超える期間をカバーするのに十分なデータを保持する必
要がある。
【0090】 疑似コードの不完全な性質から生じるあいまいさの問題を回避するために、図
19〜32においては、完全で実際に使えるC++プログラム・コードが含まれている
【0091】 (サウンド・シンセサイザ・モジュール) 図3に示したように、サウンド・シンセサイザは、SAMから、ノート・オン/オ
フ、周波数、ラウドネスおよびアタックの入力を受け取る。サウンド・シンセサ
イザは、指操作式制御(FAC)システムから、楽器、オクターブ/オフセット、
不連続と連続、および音階の好み、ならびにここでは説明しない他の制御を指定
するユーザからのパラメータを受け取る。次に、これらの入力およびそれらの関
係を、詳細に説明する。SSMの出力は、出力信号への変換のためにDACに送られる
出力サンプルのストリームである。
【0092】 図16には、SSM 38の内部構造が示されている。SSMは、メッセージ・プロセッ
サ(MP)160とサウンド・ジェネレータ(SG)161の2つの主構成要素からなる。ピ
ッチ変換ボックスとボリューム変換ボックスは、後に説明される相対的に重要で
ない機能である。MPは、SAMおよびFACによって生成された情報を取得し、そして
SGに送るメッセージを生成する。SSMの最も特徴的な部分は、メッセージ・プロ
セッサとサウンド・ジェネレータの間の非同期関係である。MPは、SAMから、好
ましくは8,000Hz、11,025Hzまたは22,050Hzの規則的な間隔で信号を受け取り、
そしてSGは、好ましくは同じ割合で、サウンド・サンプルを規則的な間隔で生成
する。しかしながら、メッセージは、MPからSGに規則的な間隔で送られない。そ
うではなく、メッセージは、SGからの出力を変更する必要があるときにのみ送ら
れる。
【0093】 SGは、楽器からのサウンドのノートを一度に1つ生成する。これにより、自動
的かつ他の支援なしに、要求されたノートを要求されたボリュームで演奏する要
求された楽器を模倣する出力信号、すなわち一連の出力サンプル、を生成するこ
とが可能になる。ノートの演奏が開始されると、そのノートは、停止されるまで
演奏を続ける。MPは、SGに、ノートを開始または終了するように伝えるメッセー
ジを送る。ノートが演奏されている間、MPは、ノートのピッチとボリュームを変
更するメッセージを送ることができる。MPは、また、模倣している楽器をSGに伝
えるメッセージを送ることができる。
【0094】 次に、ピッチおよびボリューム変換機能、メッセージ・プロセッサおよびサウ
ンド・ジェネレータを詳細に説明する。 (ピッチおよびボリューム変換機能)
【0095】 ピッチ変換機能162は、SAMによって生成された周波数を取得し、それをMPのピ
ッチに変換する。ピッチと周波数は、しばしば、同じことを示すために使用され
るが、微妙な違いがある。周波数は、自然に生じるが、ピッチは人為的なもので
ある。周波数は、サウンドを、物理的現象として示す(サイクル/秒)。ピッチ
は、サウンドを我々が知覚するように示す、精神物理学的なものである。2つの
周波数が、1オクターブ離れている場合、それらの周波数は、一定の比率、すな
わち2倍の関係を有する。これとは対照的に、ピッチは、ミュージカル・スタッ
フやピアノ鍵盤などの線形音階における聴覚周波数の位置である。この場合、1
オクターブ離れた2つのピッチは、一定数のステップ、たとえば12のステップに
よって分離される。人間が理解するには、ピッチの線形音階の方が周波数の指数
音階よりも自然である。本明細書において、ピッチは、線形音階上の任意の場所
にある連続的な値であると理解すべきである。また、ノートは、線形音階上にあ
るが、不連続な整数値を有する。前に述べたように、周波数は、波長の逆数であ
り、すなわち、F = 1/Wである。周波数の底が2の対数をとると、その周波数は、
線形音階上のピッチの値に変換される。この場合、1オクターブ離れた2つのピッ
チは、1の差を有する。12倍すると、通常の12のトーンの半音階ができ、すなわ
ち、次のように表される: P = 12 log2(F) (9) ここで、Pは、得られたピッチであり、Fは、FDMによって与えられた周波数であ
る。Pに12を加算すると、1オクターブ増大する。12を減算すると、1オクターブ
減少する。
【0096】 ボリューム変換機能163は、SAMからラウドネス値を取得し、それをMPのボリュ
ーム制御値に変換する。ボリュームは、ラウドネスの任意の単調関数でよいが、
好ましい関数は、 ボリューム= A*(ラウドネス-B) (10) であり、ここで、Aは、一定のスケールファクタであり、Bは、一定のバイアスで
ある。耳の対数特性のため、ボリューム変換は、指数関数であることが望ましい
【0097】 (メッセージ・プロセッサ(MP)) MPは、SAMとFACから情報を受け取る。MPは、SAMから、ノート・オン/オフ、
アタック、ピッチおよびボリュームの4つの値を受け取る。後者の2つは、前述の
ように、周波数とラウドネスに変換される。SAMからの情報は、1サイクルごとに
同期した4つの値として到着する。FACは、楽器やオクターブの設定などの演奏者
の好みの値を送る。ユーザが、1つまたは複数のパラメータを変更しようとする
際には、FACの情報は、非同期で到着する。たとえば、演奏者は、ボタンを押す
ことにより、SSMが模倣している楽器の種類を変更したり、歌っているピッチか
ら1オクターブまたは複数オクターブオフセットさせてSSMを演奏させたりするこ
とができる。MPは、最新の設定を内部変数として記憶し、そしてメッセージをSG
に送るときにそれらを適切に適用する。図16には、そのような4つの変数、すな
わちoctave 164、continuous 165、mode 166およびnew tonic 167が示される。F
ACからの楽器変更要求は、MPによる実質的な処理を必要とせず、そして到着した
ときに処理させることができる。それらは、単純にメッセージに形成され、そし
てSGに直接渡される。
【0098】 変数「octave」は、-3〜+3の値を持つ。ゼロでない場合、この変数は、ハムホ
ーンが、ハミングしたピッチよりもこの数のオクターブ下または上のピッチを生
成しなければならないことを示す。ここではオクターブ・オフセットについての
み考察するが、ユーザは、歌のピッチに、たとえば、長三度(半音4つ)や完全
五度(半音7つ)などのように、任意のオフセットを指定することができる。こ
のようなオクターブでないオフセットを使用することにより、ハミングしたピッ
チに並行する、楽しくかつ興味深いメロディを作成することができる。
【0099】 変数「continuous」がTRUEである場合、これは、ハムホーンによって演奏され
るピッチが、きわめて適切な音声制御のもとに、ハミングされたピッチに正確に
従っているはずであることを示す。演奏者の声のピッチが、わずかな量変化する
と、出力ピッチは、同じ量変化するはずである。連続的にピッチを追跡している
場合、楽器は、演奏者によって使用されるビブラートを含む全ての微妙なピッチ
変化に追随することができる。この結果、楽器は、いくつかの楽器のサウンドに
関して他のものより多く発音される不愉快で耳障りな質を有することがある。た
とえば、連続的にピッチを追跡している場合には、ピアノと似たピアノ・サウン
ドを出すことはほとんど不可能である。それは、結局、どちらかと言うとホンキ
ートンク・ピアノのような音になる。さらに、声のピッチ制御が特に優れている
人はまれである。このような理由から、ハムホーンは、楽器に、ユーザのピッチ
に最も近いノートを演奏させるオプションを提供する。この場合、演奏者の声が
わずかに揺れたとしても、楽器のピッチは安定したままである。したがって、co
ntinuousがFALSEの場合、後で説明するように、演奏されるピッチは、演奏者が
選択した音階または音階(モード)における最も近いノートに切り上げまたは切
り下げられなければならない。また、変数「mode」と「new_tonic」については
、後で説明する。
【0100】 図17には、通信プロセッサの擬似コードが示されている。第2行で、ピッチは
、SGのピッチ・スケールならびに現行のオクターブ変数を反映するように修正さ
れる。SGは、鍵盤上の伝統的なノートに対応する半音間隔で分散された線形ピッ
チ・スケールを有するものと仮定されている。これは、MIDIプロトコルによって
使用されるシステムである。スケールにおける開始ノートは、任意であり、かつ
SGに依存する。値synthesizer_offsetは、式0に示される数学的に導出されたピ
ッチ・スケールと、SGの対応するピッチとの差である。これは、すべてのピッチ
に対する一定のオフセットである。MIDIプロトコルの場合、周波数440Hzは、鍵
盤上の69番目のノートに対応する。この場合、シンセサイザ・オフセットは、12
log2(440)-69、すなわち、約36.38(3オクターブを少し超える)である。
【0101】 第5行で、演奏者が選択した音階に関して、ピッチに最も近いノートが計算さ
れる。音階は、1オクターブにおける11の半音のサブセットである。たとえば、
長音階、短音階、ブルース音階、半音階、およびドリアン、フィリジアン、全音
、ペンタトニックなどの多くの複雑な音階(モード)がある。半音階は、オクタ
ーブ内のすべての半音からなり、0〜11の番号が付けられる。長音階は、{0、2、
4、5、7、9、11}の半音からなる。音階の最初のノート(ノート0)は、主音と呼
ばれ、音階におけるすべての半音は、主音からのオフセットである。変数modeに
より、ユーザは、どの音階(モード)を使用するかを選択することができる。変
数new_tonicに割り当てられた指操作式制御部を押すことによって、演奏者は、
主音を、自分がそのとき歌っているあらゆるピッチに動的に割り当てることがで
きる。ピッチへの追従が連続的に行われる場合には、半音階が使用され(第3行
と第4行)、したがって、最も近い半音が調べられる。nearest_mode_noteルーチ
ンについては、後で説明する。
【0102】 第6行〜第13行は、SAMからのアタック信号がないという事実にもかかわらずア
タックを送出する理由があるか否かを判定する。第8行と第9行および第11行と第
12行の2つのケースは、それぞれ、前述のケース3および4に対応する。これらの
うちの最初のケースの場合、ピッチ追跡は連続であり(第8行)、かつピッチは
、シンセサイザが、アタック・ピッチに基づいて滑らかなピッチ変化を生成する
ことができる範囲以上移動している(第9行)。アタック・ピッチは、第7行にお
けるcurrent_noteであり、これは、前のアタックでセットされたものである(第
16行)。ピッチが超えた範囲は、第9行のMAX_BEND_RANGEである。第2のケース(
第11行、第12行)の場合、ピッチ追跡は、不連続的であり、かつピッチは、音階
(モード)においてアタック・ノートよりも別のノートの方に近い(第12行)。
このケースのアタック・ノートは、この場合も、current_noteである。0.5〜1.0
の値であるMAX_PITCH_ERRORは、ピッチが、他のノートにどの程度近くなければ
ならないかを決定する。値0.5は、ピッチを最も近いノートに丸めなければなら
ないことを示す。0.5より大きい値は、ある種の履歴として働き、演奏者の声が
少し不安定なときにノートが変化しないように機能する。
【0103】 第14行〜第33行は、存在する場合には、現在の状況の適切なメッセージをSGに
送る。前述のいずれかの理由のため、したがって前述の4つのケースのいずれか
のために、アタックが送出された場合は、メッセージが送られ、新しいノートが
新しいボリュームで演奏される(第14〜第22行)。ピッチ追従が、不連続か連続
かにより、SGは、メッセージを受け取って整数のノート値nearest_noteを演奏す
る。ピッチ追従が連続の場合は、SGは、また、入力周波数をマッチさせるために
、ピッチを一定量上または下にベンドさせるメッセージを受け取る。第15行と第
16行は、将来参照するためにノートとボリュームを記憶する。SGが、現在ノート
を演奏している場合、第18行は、SGにメッセージを送って停止する。第19行は、
新しいノートを新しいボリュームで演奏するメッセージを発行する。ピッチ追従
が連続の場合(第20行)、新しいノートは、演奏者の声のピッチと一致するよう
に調整される(第21行)。アタックの時刻が、記録される(第22行)。
【0104】 第24行では、アタックはないが、シンセサイザが、前にアタックしたノートを
まだ演奏している。SAMが、Note Offコマンドを送ると(第24行)、演奏を停止
するメッセージがSGに送られる(第25行)。そうでない場合は、ノートが、現在
演奏されており、かつ演奏し続けなければならないが、おそらくそのピッチとボ
リュームは、調整されなければならない(第26行〜第33行)。SGがそのコマンド
を処理するのに少し時間がかかる場合があるため、ピッチとボリュームの変更は
、時々しか送られない。値SG_REFRACTORY_PERIODは、SGに依存し、かつ新しいピ
ッチまたはボリューム・メッセージを送る前に経過しなければならない時間を指
定する。新しいボリュームが、既に演奏しているボリュームと大きく異なる場合
(第27行)には、ボリュームを新しい値に調整するためのメッセージがSGに送ら
れ(第29行)、新しいボリュームが記憶される(第28行)。ピッチ追従が連続的
で、かつピッチが変化した場合(第31行)、そのピッチは調整される(第32行)
。両方のケースにおいて、第26行において再び使用するために、時刻が記録され
る(第30行と第33行)。
【0105】 この場合も、adjust_pitchルーチンは、SGに依存する。MIDIプロトコルの場合
、ピッチをピッチ・ベンドによって調整し、さらに許容可能な最大ピッチ・ベン
ド範囲(MAX_BEND_RANGE)を調整することができる。必要に応じて、adjust_pit
chルーチンは、この両方を行う。
【0106】 図18には、最も近い音階音を返す関数が、疑似コードとして示されている。最
初に4つの音階(モード)を定義するが、他の多くの音階(モード)もあり得る
。各音階(モード)は、位置0の主音から始まり、かつ主音より1オクターブ上の
位置12で終わる音階を構成する半音の形で定義される。長音階の場合、第2のノ
ートは、主音より半音2つ分上にある。次のノートは、それよりもさらに半音2つ
分上、すなわち主音のより半音4つ分上にある。次のノートは、さらに半音1つ分
上でにる。主音自体は、0と11の間の整数であり、かつ線形ピッチ・スケールの
最も下のオクターブにおけるノートである。主音から上に12番目の半音は、主音
より1オクターブ上の音であるが、これは、音階(モード)における主音と同じ
場所にあり、かつこれも主音と見なされる。実際には、すべての音階(モード)
は、オクターブを区別していない。すなわち、それらの音階(モード)は、下に
ある最も近い主音からのオフセットである。したがって、ピッチが38.3で、主音
が2の場合、38.3より下の最も近い主音は、36(2+12+12+12)である。変数new_ton
icがセットされると、所与のピッチに最も近い整数、すなわち半音が、主音とし
て記憶されが、スケールにおける最初のオクターブまで下げられるので、その半
音は、0と11の間の値を有する(第7行)。変数「offset」は、ピッチとその下の
最も近い主音との差である(第8行)。第9行において、mode_note(整数)は、
指定された音階(モード)におけるオフセットに最も近い数である(実数)。そ
れらの間の差は(第10行)、元のピッチに追加されたとき、最も近いモード・ノ
ートを示す(第11行)。
【0107】 (サウンド・ジェネレータ) サウンド・ジェネレータの実施を可能にする原則的な方法には、標準MIDI(楽
器デジタル・インタフェース)モジュールと自己設計シンセサイザの2つがある
。このモジュールに対する要求は、MIDIシステムの能力よりもはるかに低いため
、チップ・スペースを節約するように、カスタム・シンセサイザ・モジュールを
構築し設計することが好ましいことがある。一方、既製のMIDIチップの能力は、
我々の目的にはほぼ十分であり、かつ実際に、メッセージ・プロセッサのメッセ
ージ伝達方法は、MIDI規格に準拠するように設計された。したがって、MIDI処理
装置は、ほとんどまたは全く修正なしに我々の仕様を満たすことができる。
【0108】 ハードウェアの構成要素 ハムホーンは、それぞれ注文品または既製品の次のようなハードウェア構成要
素からなる: 1) 以下の構成要素ならびにバッテリを全て収容するハウジング; 2) マイクロフォン; 3) 1つまたは複数のスピーカ; 4) a) ADC b) 以下のものを実行するための1つまたは複数のチップ i) SAM ii) MP iii) SG c) DAC d) 増幅器、および e) ボリューム制御 を含む電子回路; 5) 指操作式制御スイッチ、ボタンおよびダイヤル;そして 6) オプションとして、演奏者がパラメータを選択しおよび/またはどのパラメ
ータが設定されているかを示すことが出来る小型ディスプレイ。
【0109】 これらの構成要素は、すべて、通常のものである。4)b)のみが、どのように最
良に実施するかについてかなりの配慮を必要とする。次のような、3つの実施態
様が可能である: ・ 注文設計か既製品かに関わりなく、前述の仕様にプログラムされた単一チッ
プ上に、3つすべての処理要素が一体化されている単一ソリューション。 ・ 一方が、SAMとMP用に、前述の仕様にプログラムされたチップで、他方が、S
G用の、おそらく既製のMIDIチップであるが、サウンド合成のためにプログラム
された別の汎用チップでもよい、2つの個別チップ。 ・ SAMおよびMP用のコードが書き込まれている、何らかのオンボード・カスタ
ム・プログラミングが可能な既製のMIDIチップや他のサウンド・シンセサイザ。
【0110】 このようなそれぞれのケースにおいて、ADC、DACまたはその両方が、すでにチ
ップ上にあってもよい。SAMのろ波機構を、必要な帯域フィルタ機能を機械的に
実行するろ波マイクロフォンやその他の機構またはアナログ回路により置換する
こともできる。
【0111】 指操作式制御部に関しては、切り替えられると所定の位置に留まるものと、解
放されると元の位置に戻るものとの、少なくとも2つの異なる種類を有すること
が望ましい。一例として、ピッチ追跡に使用されるFACを検討する。連続または
不連続ピッチ追跡モードにセットすることができ、かつセットした後そこに留ま
るスイッチを有することが最も良い。また、反対のモードに一時的に変化するボ
タンを有することも望ましい。したがって、演奏者が、連続モードにあり、かつ
ピッチを素速く確定したいかまたは音階におけるクイック・スケールを歌いたい
とき、その演奏者は、ボタンを押し、その後すぐにボタンを解放することができ
る。同様に、不連続モードの間、演奏者は、ボタンを一時的に押し、かつ次にす
ぐにボタンを解放してキーを元の状態に戻すことによって、現行の音階に含まれ
ない別のピッチに素早くスライドすることができる。また、楽器とオクターブを
素早く変更し、演奏者が複数の楽器を1人で演奏できるようにするボタンも望ま
しい。
【0112】 楽器のハウジングは、それ自体、様々な目的と機能を有することができる。特
に、ハウジングは、内側容器と外側ケースの2つの部分に分けられる。内側容器
は、単純で便利で取り扱いやすい自己完結型のユニット内に、電子回路とバッテ
リを収容する。その目的は、重く高価な品物を、コンパクトでかつモジュール式
の形に収容することである。外側ケースの役割は、そのスタイルである。外側ケ
ースは、その視覚的特性および/またはその音響特性の両方に関して、任意の伝
統的または新規の楽器の形に似るように製造することができる。このケースは、
マイクロフォンおよび/またはスピーカも含むことができる。内側ハウジングと
外側ハウジングは、容易に分離できるように製造することができる。それらが適
切に合体されると、外側ケースは、内側容器の外側の対応するスロットにはまる
外側ケースの内側面の物理キーによって、内側容器に情報を提供する。このキー
は、他の可能な情報と共に、SGが生成すべき予想される楽器音の説明を提供する
。したがって、ある楽器の形の外側ケースから内側容器を抜き出し、それを別の
楽器の形の別の外側ケースに挿入することよって、SGによって生成されるサウン
ドが、前者の楽器のサウンドから後者の楽器のサウンドに変化することになる。
演奏者が、聴覚的な印象のみでなく、特定の楽器を演奏しているという触覚的お
よび視覚的印象を得ることができるように、多くの様々な外側ケースを製造する
ことができる。
【0113】 (ネック・マイクロフォン) 前述したように、ユーザに、マイクロフォンを含むマウスピース内にハミング
させる代わりに、服の襟にマイクロフォンを配置してもよい。この襟は、マイク
ロフォンが少し喉に押しつけられるようにして首のまわりを包む。ピッチのみを
検出しているので、音声品質は重要ではなく、そのため、この方法は機能する。
マイクロフォンを持ったり口をマイクロフォンに近づける心配をする必要がない
ため、便利であろう。
【0114】 (漏斗状マイクロフォン) 楽器のマウスピースは、不衛生であるので、楽器を他人と共用することは好ま
れない。心理的および物理的な理由から、楽器のマイクロフォン側の漏斗状の受
け口に、唇を当てることには抵抗がある。さらに、 ・ 高速の一連のアタックを生成するのに重要な、子音サウンドを形成するため
に重要な唇の動きの自由度をより大きくする; ・ ユーザの歌/ハミングのサウンドに都合のよい入口を形成する;そして ・ 演奏者の声のサウンドを隠すのに役立つので、聴取者は、声のサウンドの代
わりに楽器のサウンドに集中することができる。
【0115】 パラメータ値 下の表Bに示したパラメータ値は、実行したテストにおいて良好に機能した。
【表B】
以上のパラメータ値は、単なる例であり、これらに限定されるものではない。実
際には、他にも、同様に適切なパラメータ値が、ある。
【0116】 その他の問題 (待ち時間の問題と「プレアタック」) 周波数が事前に定義されていないノート・アタックの場合、前述のFDMは、歌
う人が新しいピッチを開始した時刻から、そのピッチが最終的にFDMによって検
出されるまで、30ミリ秒未満(約1/30秒)の遅延を有する。これは、歌われた最
も低いノートが、中央のCの音よりも2オクターブ低い65Hzの周波数を有するC(
例外的に低いノート)で、この場合、1サイクルには15ミリ秒要し、2サイクルに
は30ミリ秒要するものとの仮定による。SSMは、FDMがピッチを検出した後のみに
、新しい楽器アタックを生成する場合には、このアタックは、少し目立ちかつ耳
障りとなり、この遅延が強調されることになる場合がある。以下の方法で、遅延
の印象を小さくすることができる。それぞれの楽器には、声で表されないアタッ
ク・サウンドがある。歌う人の声が、しきい値に達っすると、SSMは、声で表さ
れないアタック・サウンドを演奏し始める。次に、FDMがピッチを検出したとき
から、この声で表されない音は、検出されたピッチで、楽器のアタックのサウン
ドに徐々に混合される。これは、標準MIDIを使用している場合、専用のMIDIプロ
グラミングを必要とすることになる。
【0117】 (ピッチ平滑化) 歌う人の声のわずかなピッチ変動により、楽器が、連続ピッチ追跡中に、耳障
りな音を出し、ハムホーンのサウンドがそれを実際に強めることがあることは前
に述べた。楽器の演奏により得られたピッチ・プロファイルを平滑化することに
よって、この耳障りな音を和らげることができる。すなわち、ピッチ平滑化機能
の目的は、何人かの人の声によりいくつかの楽器によって示される耳障りな音を
和らげて、連続ピッチ追跡をフレキシブルにすることである。
【0118】 ピッチを平滑化する1つの方法は、FDMによって生成されたピッチ・プロファイ
ルを低域フィルタに通すことである。より適切な方法は、制御システム理論から
の原理を使用することによって得られる。FDMによって生成されたピッチ・プロ
ファイルを追跡する際に楽器によって演奏されるピッチを考察する。本発明は、
この追跡が行われる方法で、楽器のピッチにマスを追加することができる。特に
、 E = PFDM-Pinst d2Pinst/dt2 = k1*E + k2*int_time(E) - k3*dPin/dt (11) であり、ここで、PFDMは、FDMによって示されたピッチであり、Pinstは、楽器に
よって演奏されるピッチであり、Eは、楽器とFDMの出力との間のピッチ追跡誤差
であり、int_time(E)は、時間の積分を意味し、k1、k2およびk3は、定数である
。このことは、制御システムにおいて、PID(proportional-integral-derivative
)制御規則として知られていて、かつこれはPinstにPFDMを円滑に追跡させるかな
り有効な方法である。微分項(第3項)は、抑制効果を有するため、Pinstを安定
させる。これは、制御における発振を抑制するために使用される。積分項は、追
跡の精度を高める。定数の値を変化させることによって、様々なレベルの平滑化
、追跡精度、応答時間を得ることができる。実際には、おそらく、この目的のた
めに、進み遅れ制御などのこれより優れた制御規則があるが、主な概念は、PID
制御規則によって呈示されている。
【0119】 ピッチ平滑化方法を使用する場合、意図的なノートの変化があるとき、または
周波数になんらかの相対的に大きい変化があったときには、それを自動的に無効
化する手段がなければならない。平滑化は、わずかな周波数変化(ほぼ半音より
も小さい)のみを伴う耳障りな音を除去するに過ぎないことに注意されたい。こ
の戦略は、PFDMの変化が、一定のしきい値を超えたときにPinst = PFDMと設定す
ることによって実施することができる。
【0120】 ネットワーク拡張 以下の概念は、HumBandTM技術に関係し、特に、たとえばインターネット装置
として、インターネットに関するHumBandTMの使用に関係する。HumBandTM音声解
析プロセスは、音声・ストリームから少しの量の重要な情報を取り出し、それを
使って所望の楽器を演奏する。すべてのニュアンスを捕らえるには最大300バイ
ト/秒の非圧縮帯域幅が必要であると推定されるが、これは、損失なしに、平均
で推定500ビット/秒、おそらくそれ以下に大幅に圧縮することができる。した
がって、3分間の歌の場合、1つの声に約11Kバイト消費することになる。これに
比例して、複数の声は、さらに多くのバイトを必要とする。これは、かなり小さ
い数であり、そしてHumBandTM電子メール、ダウンロードおよびその他の形のHum
BandTM通信を、少ないオーバヘッドで実行できることを示唆する。
【0121】 (ウェブ/チャット型サービスによるグループ対話式音楽演奏) このサービスを使用するために、人は、HumJam.comウェブ・サイトに、名前と
パスワードを用いてログインした後、オンライン・グループのメンバになる。グ
ループ内のそれぞれの人は、如何なる特定の時刻において、視聴者または演奏者
の何れかである。 視聴者: 聴衆メンバとして、演奏中に、演奏について実時間で批評し議論する
ことができる。特定の意味を有しかつ演奏者に送ることができる特殊な記号また
は聴覚アイコンを設けることも出来る。その例には、演奏者が聞く拍手喝采、ブ
ラボーの叫び、野次、笑い、喝采および口笛がある。さらに、各視聴者は、演奏
の質に関してその視聴者の主観的意見を表現するために、一回りの投票に参加す
ることができる。 演奏者: 演奏者は、聴衆の前で生で演奏したいという演奏者固有の密かな望み
のため、セッションに魅力を感じる。これは、刺激的でかつ楽しく、インターネ
ットの匿名性ならびに「HumBandTMによって提供される偽装した音声により、舞
台上の演奏よりも恐怖が少ない。自分の家の隔離された快適さの中で、数十また
は数百(あるいは数千)の観客のために演奏するこ状況を想像してみる。演奏中
、HumBandTM楽器は、インターネットにインタフェースを介して直接接続され、
これにより、演奏は、HumJam.comウェブ・サイトを介して生で送信させることが
できる。演奏者は、視聴者から生のフィードバックを受け取り、演奏の終わりに
、そのメンバによる格付けを受け取ることができる。
【0122】 (投票は、以下の3つの目的に対して行われる:) ・ 演奏グループのレベルを上げ/下げする。(投票による)ある人のランクが
、十分に高いレベルまで上げられると、その人は、より高い格付けレベルの演奏
グループに参加することができる。その人は、そのレベルで、等しく格付けされ
た演奏者の聴衆に対し演奏する。たとえば、エントリ・レベルが、ランク1であ
るとする。ランク1では、誰でも演奏することができ、誰でも投票することがで
きる。十分に多くの票を得た人は、ランク2に移ることができる。ランク2では、
その人は、ランク2またはそれ以上のランクに達した他の人のみから評価される
。 ・ 投票におけるランクと重みを増加/低下させる。演奏者のランクよりも高い
ランクの人が、演奏に投票すると、その人の票は、ランクが下の人の票よりも価
値が高くなる。 ・ 賞を受ける機会を増加/低下させる。たとえば、毎日/毎週/毎月、定期的
に、その期間中の最も高いランクの演奏者に、または所定の期間にランクがもっ
とも上がった演奏に、賞を与えることができる。この場合、ランクは、その人が
賞を獲得する機会が、その人の以前の能力または平均能力に対してその人がどの
程度上手に演奏したかに依存するという点で、ゴルフのハンディキャップに似て
いる。
【0123】 以上の方法は、多くの人々の競争心と演奏に興味を持つ特性に訴えかける対話
的シナリオのほんの一種類の提案である。さらに、ある種の賞は、すべてのグル
ープのすべてを含めた聴衆や、(何位かにかかわらず)受賞した演奏者を中心と
する特別広告のイベントなど、きわめて多数の聴衆に対して演奏する機会を与え
るであろう。
【0124】 国際的な試み。音楽が、文化/言語の障壁を取り除くため、このような対話式演
奏は、オンラインのみの妨げのない真の国際コミュニケーションの例の1つにな
る。インターネットとHumBandTMは、これまで決して見られなかった一種の直接
国際コミュニケーションの先触れとなる可能性がある。
【0125】技術的問題 演奏者と視聴者はそれぞれ、インターネット対応のHumBandTMを介して参加す
ることができる。演奏者はすべて、情報を自分のHumBandTMを介して送信する。
視聴者はすべて、そのような演奏を、自分のHumBandsTM/PCs/PCヘッドホン/HumB
andTMヘッドホン/または他のHumBandコーデック使用可能装置を介して聴く。
【0126】 演奏者は、HumJam.com HumServerTMによって提供される伴奏に沿って演奏する
。サーバは、伴奏情報をHumBandコーデックを介して演奏者に送信する。伴奏は
、使用可能な任意の装置で演奏される。HumBandコーデックは、MIDIときわめて
似ているが、おそらく音声制御に最適化されている。
【0127】 演奏者は、この伴奏と同期して演奏し、そして彼の信号は、この同じコーデッ
クを介してサーバに送られる。次に、サーバは、その演奏を、聴衆に同報通信す
るのみである。聴衆に対しては、演奏者と伴奏は、完全に同期している。待ち時
間の問題はない。その理由は、サーバが、演奏者の信号を受け取り、かつサーバ
の得た信号が、演奏者が聞くように演奏を再生できるように、その信号を、適切
に時間を合わせた伴奏に組み合わせることができるからである。したがって、わ
ずかな遅延があるが、それでもなお、演奏は、生で同報通信され、かつ忠実度は
十分である。
【0128】 視聴者は、コメントと票をサーバに送り、サーバは、それを計数し、とりまと
め、分類する。
【0129】 (複数演奏者のジャム・セッション) このシナリオは、たいてい、待ち時間の問題によって妨げられる。とりわけ、
演奏者がインターネットを介して信号を送る時刻と、その信号が到着する時刻の
間には大きな時間遅延がある。ほとんどの通信形態の場合、同時性は必要とされ
ないため、この限られた待ち時間は有害ではない。通信の送信とその受信の間の
200ミリ秒の遅延は、ほとんど目立たない。しかしながら、複数の参加者が、サ
ウンドを同期させようとする場合、それは、このような遅延によって不可能にな
る。それぞれの演奏者は、同期をとるために他の当事者の信号が聞こえるのを待
つ。この遅延は、さらに、他方の側での遅延を増大させる。この効果は、雪だる
ま式に増え、同時性の形を維持することができない。
【0130】 このカスケード(雪玉)効果をなくすため、また一般の待ち時間の問題を完全
になくさないまでも緩和するために、中央サーバ(指揮者)は、各参加者が、同
時に信号を受け取るように時間合わせをした安定パルス、たとえばメトロノーム
・チックを、すべての参加者に送ることができる。次に、各演奏者は、このパル
スと合うように自分の演奏を調整し、また他の演奏者からのわずかな遅延を予想
し、徐々に(あるいは、おそらく迅速に)、このわずかな遅延を無視しかつそれ
に適応することを学習する。パルスは、実際には、伴奏である。演奏者の側のソ
フトウェアは、1曲の終わりにこの遅延を考慮することができ、各演奏者ごとに
、演奏全体のサウンドを遅延なしに繰り返すことができる。
【0131】 (グループ作曲) 以上の概念を組み合わせて、後でつなぎ合わされる個別の音楽パートに投票し
て、グループ作業のHumBandTM作曲を行うことができる。
【0132】 (歌の電子メール「HumMailTM」) HumBandTMに記録した単一または複数パートの歌を記録し、それを電子メール
によって友人に送り、その友人が、自分のHumBandTMでその歌を再生することが
できる。
【0133】 (歌のダウンロード ) 魅力的および/または有名な様々な演奏者によって演奏された様々な曲の演奏
を、サイトからダウンロードすることができる。ダウンロードされる情報は、一
般のMIDI演奏よりもかなり正確で、はるかに高い繊細さとニュアンスを有するた
め、より高い現実感と魅力が期待できる。
【0134】 (伴奏のダウンロード) 伴奏セクション(低帯域幅)を自分のHumBandTMにダウンロードし、そしてそ
の伴奏と共に演奏することが可能な、多くの様々な曲の伴奏セクションが入手出
来る。
【0135】 (作曲の連鎖手紙) 伴奏をダウンロードすることができるのとまったく同じように、電子メールで
伴奏を受け取り、トラックをそれに追加し、これを一種の「連続ジャムセッショ
ン」で送ることができる。これに代えて、不完全な曲をサイトにアップロードし
、他の人が、その曲とジャムセッションし、場合によってはその曲に寄与できる
ようにすることもできる。
【0136】 (自動伴奏) 市場には、楽器または声の自動伴奏を提供するソフトウェア製品がある。演奏
者は、歌を選択し、ソフトウェアが、演奏者の声/楽器に従いながらバックグラ
ンド音楽を演奏する。伴奏の速度は、演奏者の速度と合うように連続的に修正さ
れる。おそらくこの会社と提携して、HumBandTM用に、演奏者に従いかつ知的伴
奏を提供する類似のシステムを構築することができる。このような伴奏は、ウェ
ブ・サイトからダウンロードすることができる。
【0137】 (文脈依存ピッチ補正) 歌の楽譜を、HumBandTMにダウンロードし、そして実際の声を、意図した音楽
にマッチさせて、演奏者の声に従って再生させることが出来る。ピッチ制御が極
めて下手な演奏者でも、完璧なトーンで演奏することができる。歌の特定の場所
で自動的に行われるように、楽器とオクターブの変更を、含ませることができる
【0138】 (楽器のウェーブ・テーブルのダウンロード) 新しい楽器音(自然音と合成音の両方)が使用できるように、そのウェーブ・
テーブルをウェブ・サイトに登録することができる。これにより、HumBandTM
所有者は、いつでもインターネットを解して関心のある楽器音の巨大なライブラ
リにアクセスすることができるので、可能なサウンドの選択肢が、購入時のHumB
andTM上にインストールされているわずかな数から、大幅に拡張される。ウェー
ブ・テーブルのダウンロードに必要なデータは、歌のダウンロードよりもかなり
大きい。
【0139】 (制御ソフトウェアのダウンロード ) ソフトウェア「HumletsTM」は、サイトからHumBandTMにダウンロードすること
ができ、次のような様々な有効な方法で、制御を修正することができる。 ・ エコー、コーラス、および他のひずみなどの効果の追加/改善。 ・ 演奏者が自在に呼び出すことができる追加の装飾音/リフなどの追加機能。
このようなリフ/装飾音は、呼び出し時の、曲の音階度、リズム、およびスタイ
ルに応じて様々に演奏されるように、文脈に依存させることができる。曲のスタ
イルは、ダウンロードと共に選択することができる。例として、バロック風、ク
ラシック風、ジャズ風、デキシーランド風、およびハードロック風が挙げられる
。この文脈依存は、(ハードウェア内に)あらかじめセットアップされた特定の
式に従って適用させ、またはダウンロードされたソフトウェアにより実施させて
もよい。 ・ たとえば、状況依存の効果および伴奏を演奏する方法を修正/改善すること
ができる新しい機能を追加する。 ・ 中心機能を修正する。ピッチ認識およびアタック検出アルゴリズムが改善さ
れるため、このような改善点を、更新時にダウンロードすることが可能である。 新しい中心機能。HumBandTMの基本はまさに、修正可能なことである。たとえば
、声の和声楽の変化など、ある一定の声のニュアンスの認識による音色制御など
の新しい機能を追加することができる。
【0140】 (教習) これも、HumJam.comウェブ・サイトmusic instructionから入手可能である。
教習は、人間(有料)によっても、ソフトウェア(無料)によってもよい。ソフ
トウェアは、オンラインでもオフラインでも使用することができ、そしてこれに
より、たとえば、学習者がピッチ制御を上達させることが出来る。これは、学習
者の選択曲を演奏することによって、または学習者が譜面を読むことを可能にし
、そして学習者が聴いたり読んだりしたものを演奏するのを待つことによって、
行うことができる。ソフトウェアは、正確なピッチと学習者のピッチの両方を、
2つの同時実時間グラフとして示すことができる。これで、学習者は、自分のピ
ッチが高すぎたり低すぎたりすることを視覚的に見ることができる。
【0141】 (超高忠実度) 演奏者のHumBandTMの演奏性能が、(モデルによっては)不十分な場合、この
演奏者は、ウェブ・サイトにHumMailTMを送り、そして利用可能な最良のHumBand TM 装置で演奏されるMP3形式などの圧縮版の録音を、受けることができる。これ
は、多少厄介なプロセスになるため、演奏者は、当然これを行わないであろうが
、演奏者が、特に良い録音を洗練させ保存したい場合には、有効なサービスにな
る。これは、最上位モデルの機器の良い印象を提供し、それにより売上高が増加
することになる点が最も重要である。
【0142】 (教習ゲーム) HumJam.comサイトは、HumBandTMゲームのオンライン使用またはダウンロード
を協賛することができる。1つの例は、演奏者が、ノートのシーケンスを模倣し
なければならない「Simon」と似たゲームである。演奏者が、ノートを正確に繰
り返すと、シーケンスは別のノートにより拡張される。単にノートを順序通りに
歌うのみでなく、演奏者は、それらのノートを、ノートの間で楽器音を変えまた
はオクターブ変化させて演奏しなけばならないことがある。
【0143】 (赤外線ネットワーキング) HumBandTMは、同じ部屋の中にある楽器間の無線ネットワーキングを可能にす
るI/Rポートを備えることができる。可能な用途は、次の通りである: ・ 共用スピーカ。各演奏者のHumBandTMが、参加しているすべての演奏者から
の出力を演奏することができ、各人が、自分のHumBandTMでグループ全体の音を
聴くことができる。 ・ サイレント・ジャム・セッション。各演奏者は、ヘッドホンを自分のHumBan
dTMに接続し、すべての楽器の演奏を聴くことができる。傍聴者には、一群のハ
ミングしか聞えないであろう。深夜や音に敏感な隣人には有効である。 ・ 同期。HumBandTMは、アタックおよびリリースを認識し生成するのを支援す
るために、中央ソースから与えられたビートあるいは様々な演奏者について平均
化されたビートに、自動的に調整する。これは、HumBandTM聖歌隊の学童のよう
な初心者の間のサウンドをより整然とさせることになる。 ・ グループ・ピッチ補正。以上と同じ概念は、ピッチの正規化にも適用するこ
とができる。ピッチが外れている人のピッチを、バンドの残りの演奏者のピッチ
に合うように自動的に調整させて、ピッチ補正アルゴリズムを、最も平均的な演
奏者に対応するように適合させることができる。 ・ 単独演奏。事前に録音された複数パートの曲を、それぞれが、単一の声を受
け持ちかつそれを他の楽器に合わせて演奏する一組の楽器で、再生することがで
きる。無人の一組の楽器は、目に見えないバンドの不気味な印象を与えることが
できる。これに代えて、適切に演奏されると、聴衆の目の前に印象的な録音をも
たらすことができる。これは、HumBandTMの対話式の応用例ではないが、友人や
隣人は、これを認識しない可能性がある。 ・ HumJam.comローカル・ジャム演奏。同じ部屋に一緒に座っている友人のグル
ープ間のローカル・ジャム・セッションを、HumJam.comウェブ・サイトを介して
同報通信することができる。I/Rネットワーキング、わずかな待ち時間、および
低帯域幅により、LANバンドは、演奏全体をインターネット上で生で同報通信す
ることができる。 ・ 自動パート。1度に演奏されるノートが複数あるため、和音を論理的に推理
し、新しい音楽パートを自動的に作り出し、そしてバンドの残りの演奏者と一緒
に演奏することができる:AI即興演奏装置。 ・ 高度な対話。バンド内のすべての楽器が、実時間で相互接続されかつきわめ
て高レベルの制御で操作されるときに発生する可能性のある音楽的協力の新しい
実例となる可能性がある。これは、今日バンドに存在するものとは基本的に異な
る種類の相互作用である。対話の可能性は、以下の例のように、無限にあると思
われる。
【0144】 指揮者に管理された演奏。指揮者が、演奏を、手振りによる間接的なもののみ
でなく、各セクションの楽器音を動的に選択することによって、直接的に管理す
るバンドが考えられる。ピッチ、オクターブおよびボリュームなどの他のパラメ
ータも管理することができる。
【0145】 前衛音楽。現代の作曲家は、しばしば、対話的ダイナミクスの使用によって演
奏の偶然性と複雑さを高めたいことがある。ある楽器のいくつかのノートを演奏
するまたはいくつかのパラメータを選択すると、別の楽器のパラメータが自動的
に変更されるように、HumBandをプログラムして、他と協力するようにさせるこ
とができる。有機的相乗作用が展開し、演奏者自身が、連続的に変化する演奏の
性質によって、聴衆と同じように驚くことがある。
【0146】 (FDMによる適応モジュールの使用) ニューラル・ネットなどの適応モジュールを追加することによって、FDMの信
頼性を大幅に高めることができる。実際に、FDMのアーキテクチャは、この強化
にきわめて適している。本発明の手法は、適応モジュールを波形比較ルーチンに
組み込んで、ボックス63のコードを本質的に置き換えることである。図33は、入
力が、波に沿った等しい間隔の音程のサンプル値であるフィードフォワード多層
パーセプトロン(FFMLP)ニューラル・ネットを示す。第1の波形(tstartとtspl it の間)は、入力層334への入力であり、tsplitとtcurrentの間の波からのサン
プルは、入力層336への入力である。次に、この入力層からの接続は、隠された
層332に順方向に送られ、そしてこの層からの接続は、単一出力ノード338に順方
向に送られる。後者すなわちネットワークの望ましい出力は、第1の波の形が第2
の波の形にマッチするという確率である。変数「 difference」(図9を参照)は
、なんらかの方法でこの確率の逆に関連付けられるように定義される。
【0147】 ネットワークへの入力を予備処理する多くの方法があり、同じ目的に役立つ多
くのタイプの適応モジュールがある。さらに、ネットワークまたはその他の適応
アルゴリズムを、ボックス62とボックス63の両方を置き換えるように構成するこ
ともできる。このアルゴリズムは、その入力として、特定数の最も新しいサンプ
ルを取得し、そしてこのアルゴリズムは、その出力に、それらの値の範囲内の分
割点の評価を生成するように訓練される。しかしながら、FDMの利点は、標準的
な自己相関手法に比較して、もっと小さい組の波のマッチングがテストされるこ
とである。したがって、FDMは、ボックス63を、より複雑で適応性のある形状比
較モジュールと置き換えたときでも効率的である。
【0148】 FFMLPを訓練するきわめて一般的な方法は、逆伝播アルゴリズムによるもので
ある。管理された如何なる学習方法の場合と同様に、ネットワークは、所与の入
力に対する望ましい出力の例を必要とする。予想されるユーザの母集団の代表的
なサブセットから、大量のサウンド・ファイル(SF)収集を取得しなければなら
ず、そしてこれらのファイルには、望ましい入力および出力が何であるかを指定
するのに適した場所にラベル付けが行われる。たとえば、各サウンド・ファイル
は、ボックス108の目標値と共にウェーブ・ファイル内のオフセットを示す3つ一
組のフォームtstart、tsplitおよびtcurrentを含むラベル付きファイルを有する
ことがある。目標値は、セグメントがマッチするときは1であり、セグメントが
マッチしないときは0である。FFMLPのこのタイプの管理された訓練は、まったく
周知であり、かつ良く理解されている。これの代わりに、ハムホーンによって生
成されたピッチが正しくない場合、ユーザは、フィードバックをネットワークに
直接提供することができる。いずれの場合にも、ネットワークは、将来の類似の
状況における誤りの確率を減少させるように適合される。
【0149】 本明細書において、本発明は、好ましい実施形態と関連して説明されたが、当
業者は、本発明の趣旨および範囲から逸脱することなく本明細書で説明した応用
例の代わりに他の応用例を使用できることを、容易に理解するであろう。したが
って、添付の特許請求の範囲しか本発明を限定しない。
【図面の簡単な説明】
【図1】 本発明による音声制御式電子楽器の概略図である。
【図2】 本発明による音声制御式電子楽器のより詳細な概略図である。
【図3】 本発明による音声制御式楽器の構成要素を示すブロック図である。
【図4】 本発明による信号解析モジュールを示すプロセス・フローである。
【図5】 入力信号の例を示す波形図である。
【図6】 本発明による周波数検出モジュールの構成要素を示すブロック図である。
【図7】 本発明により現行サンプルがピークか否か判断するテストを示す疑似コード・
リストである。
【図8】 本発明により様々なウェーブ・セグメントに繰り返されるルーチンの疑似コー
ド・リストである。
【図9】 本発明により2つのウェーブ・セグメントを比較するルーチンの疑似コード・
リストである。
【図10】 本発明により周波数を計算しかつ修正するルーチンの疑似コード・リストであ
る。
【図11】 2つのあいまいな波を示す波形図である。
【図12】 本発明による周波数情報を使用したラウドネス追跡を示す波形図である。
【図13】 本発明による演奏およびアタック決定モジュールの図である。
【図14】 本発明による演奏およびアタック決定モジュールの疑似コード・リストである
【図15】 本発明により周波数信頼性を推定するルーチンの疑似コード・リストである。
【図16】 本発明によるサウンド・シンセサイザ・モジュールの構成要素を示すブロック
図である。
【図17】 本発明によるメッセージ・プロセッサの疑似コード・リストである。
【図18】 本発明によりルーチンが指定された音階(モード)における最も近いノートを
発見するための疑似コード・リストである。
【図19】 本発明によるGetPtichクラスのコンストラクタの第1の部分のC++コード・リス
トである。
【図20】 本発明によるGetPitchクラスのコンストラクタの第2の部分のC++コード・リス
トである。
【図21】 本発明によるGetPitchルーチンの第1の部分のC++コード・リストである。
【図22】 本発明によるGetPitchルーチンの第2の部分のC++コード・リストである。
【図23】 本発明によるGetPitchルーチンの第3の部分のC++コード・リストである。
【図24】 本発明によるGetPitchルーチンの第4の部分のC++コード・リストである。
【図25】 本発明によるCode_matchルーチンの第1の部分のC++コード・リストである。
【図26】 本発明によるCode_matchルーチンの第2の部分のC++コード・リストである。
【図27】 本発明による周波数補正ルーチンのC++コード・リストである。
【図28】 本発明によるラウドネス追跡ルーチンのC++コード・リストである。
【図29】 本発明によるラウドネス・アタック検出ルーチンのC++コード・リストである
【図30】 本発明による周波数「適合度」推定ルーチンの第1の部分のC++コード・リスト
である。
【図31】 本発明による周波数「適合度」推定ルーチンの第2の部分のC++コード・リスト
である。
【図32】 本発明によるアタックおよび演奏条件ルーチンのC++コード・リストである。
【図33】 波形マッチの確率を決定するためのニューラル・ネット・アーキテクチャを示
す概略図である。
【手続補正書】
【提出日】平成14年1月25日(2002.1.25)
【手続補正1】
【補正対象書類名】図面
【補正対象項目名】図4
【補正方法】変更
【補正の内容】
【図4】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正の内容】
【図6】
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図13
【補正方法】変更
【補正の内容】
【図13】
【手続補正4】
【補正対象書類名】図面
【補正対象項目名】図16
【補正方法】変更
【補正の内容】
【図16】
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10H 1/46 G10H 1/46 7/00 513 7/00 513C 513L 513M (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C U,CZ,DE,DK,EE,ES,FI,GB,GD ,GE,GH,GM,HR,HU,ID,IL,IN, IS,JP,KE,KG,KP,KR,KZ,LC,L K,LR,LS,LT,LU,LV,MD,MG,MK ,MN,MW,MX,NO,NZ,PL,PT,RO, RU,SD,SE,SG,SI,SK,SL,TJ,T M,TR,TT,UA,UG,US,UZ,VN,YU ,ZA,ZW (72)発明者 リング マーク ビー アメリカ合衆国 92064 カリフォルニア アーバイン グリーンリーフ ドライブ 14 Fターム(参考) 5D378 FF11 FF22 FF24 GG04 HA08 KK02 KK17 SA08 SA16 WW05 WW13 WW14 【要約の続き】 こと、演奏者の声が入るマウスピースを有すること、サ ウンドが生成される1つまたは複数のスピーカを有する こと、電子回路とバッテリが格納されかつ指操作式制御 部を配置することができる本体を有することのみであ る。本発明の3つの主なソフトウエア構成要素は、周波 数検出モジュール、ラウドネス追跡モジュール、および ノート・アタック・モジュールである。周波数検出モジ ュール(FDM)は、演奏者の声の周波数を識別する。これ は、入ってきた音波を解析し、循環形状のパターンを発 見することによって行われる。この方法は、自己相関お よびゼロ交差あるいはピーク・べースのピッチ検出の計 算効率の高い新規の組合せである。選択された楽器は、 FDMによって決定されたピッチあるいは演奏者によって 要求されたそのピッチからのオフセットで合成される。 ラウドネス追跡構成要素は、演奏者の声のラウドネスを 測定し、次に、この情報を使用して合成サウンドのボリ ュームを設定する。ノート・アタック・モジュールは、 演奏者の声のラウドネスの急な変化を検出する。この構 成要素は、合成された楽器が、新しいノートをいつ開始 しなければならないかの決定を支援する。

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの声が入るマウスピースと、 音声ピッチ変換モジュールと、 1つまたは複数のユーザ制御部と、 前記音声ピッチ変換モジュールに結合された1つまたは複数のサウンド再生装
    置と、 電源と、 当該電子楽器が表現する実際の楽器を最もよく表現する形に形成された筐体と
    を 有する携帯型の音声制御式電子楽器であって、 当該マウスピースと、音声ピッチ変換モジュールと、1つまたは複数のユーザ
    制御部と、電源と、1つまたは複数のサウンド再生装置とが、完全に、当該筐体
    の制限の範囲内に収容されていて、 当該楽器が、独立型で軽量で完全に一体化されていて、 当該楽器が、前記実際の楽器の前記サウンドを模倣し、 当該楽器のピッチとボリュームが、当該ユーザの声に応じて変化する音声制御
    式電子楽器。
  2. 【請求項2】 当該音声ピッチ変換モジュールが、音声制御式電子楽器用の計算効率の高いピ
    ッチ検出技術を有する請求項1に記載の楽器。
  3. 【請求項3】 当該ピッチ検出技術が、 最近の時間ステップの小さいサブセットについて差を加算して、正確な基本周
    波数を求めるステップと、 ピークやゼロ交差などの波形の特徴によって制限されたウェーブ・セグメント
    のみを比較するステップとを有し、 当該ピッチ検出技術が、基本波長を検出する前により少数の波形比較を有する
    請求項2に記載の装置。
  4. 【請求項4】 当該楽器のユーザの声の操作が、当該楽器が表現する前記実際の楽器を演奏し
    ていることを最も良く暗示し、かつ当該ユーザが前記楽器を実際に演奏している
    印象を作り出す請求項1に記載の楽器。
  5. 【請求項5】 当該音声ピッチ変換モジュールが、 周波数検出モジュールと、 ラウドネス追跡モジュールと、 ノート・アタック・モジュールと、 を有する請求項1に記載の楽器。
  6. 【請求項6】 当該1つまたは複数のユーザ制御部が、ユーザ操作によって切り替わりかつ所
    定の位置に留まる制御部と、ユーザの解放によって元に戻る制御部のいずれかを
    有する請求項1に記載の楽器。
  7. 【請求項7】 前記1つまたは複数のユーザ制御部が、さらに、 連続または不連続なピッチ追跡モードにセットすることができ、かつセットさ
    れた後はそこに留まるスイッチを有する請求項6に記載の楽器。
  8. 【請求項8】 前記1つまたは複数のユーザ制御部が、さらに、 当該楽器を、反対のモードに一時的に変化させるボタンを有し、 当該ユーザが、当該楽器を連続モードにおいて操作し、かつピッチを選択、ま
    たはクイック・スケールをある階調で歌おうとすると、当該ユーザが、当該ボタ
    ンを押し、かつ押されるとすぐにそのボタンを開放することが出来る、請求項6
    に記載の楽器。
  9. 【請求項9】 当該1つまたは複数のユーザ制御部が、さらに、 前記楽器が不連続モードの間に、ユーザが、一時的に押すことによって、現在
    の音階から外れたピッチを含む別のピッチに迅速にスライドすることができるボ
    タンを有し、 当該楽器が、次いで、当該ユーザが当該ボタンを開放するとキーに素速く戻る
    請求項6に記載の楽器。
  10. 【請求項10】 当該1つまたは複数のユーザ制御部が、さらに、 オクターブを素速く変化させるボタンを有する請求項6に記載の楽器。
  11. 【請求項11】 当該筐体が、 内側容器と外側ケースとを有し、 当該内側容器が、当該音声ピッチ・モジュールと当該電源を、コンパクトなモ
    ジュール式の形態を有する単純で便利で扱いやすい独立型ユニット内に保持し、 当該外側ケースが、その視覚的および/または音響的特性に関して、任意の伝
    統的な楽器の形に似せるように製造されている請求項1に記載の楽器。
  12. 【請求項12】 当該外側ケースが、当該マウスピースおよび/または当該1つまたは複数のサ
    ウンド再生装置を内蔵する請求項11に記載の楽器。
  13. 【請求項13】 当該内側容器と当該外側ケースが、それらが容易に切り離されるように製造さ
    れている請求項11に記載の楽器。
  14. 【請求項14】 当該内側容器と当該外側ケースが、それらが適切に合わされると、当該外側ケ
    ースが、当該内側容器に、当該楽器が再生する実際の楽器音の詳細を提供する情
    報を提供するように製造されていて、 当該内側容器をある楽器の形の当該外側ケースから引き抜き、それを別の楽器
    の形の別の外側ケースに挿入することにより、当該楽器によって生成されるサウ
    ンドが、当該前者の楽器のサウンドから当該後者の楽器のサウンドに変更される
    請求項11に記載の楽器。
  15. 【請求項15】 当該外側ケースの内側面の物理キーが、当該内側容器の外側の対応するスロッ
    トにはまり、当該外側ケースによって表現される形態を有する実際の楽器と関連
    したサウンドを再生する請求項14に記載の楽器。
  16. 【請求項16】 当該ユーザが、前記聴覚的印象のみでなく、特定の楽器を演奏する触覚的およ
    び視覚的印象も得ることができるように製造されている複数の異なる外側ケース
    をさらに有する請求項14に記載の楽器。
  17. 【請求項17】 当該筐体が、トランペット、トロンボーン、サキソフォン、オーボエ、バスー
    ン、クラリネット、フルート、ピアノ、電気ギター、声または口笛のいずれかの
    形で提供される請求項1に記載の楽器。
  18. 【請求項18】 当該音声ピッチ・モジュールが、自己相関およびゼロ交差またはピーク・ベー
    スのピッチ検出の計算効率の高い組合せを実施する請求項1に記載の楽器。
  19. 【請求項19】 当該1つまたは複数のユーザ制御部が、さらに、 音階用の主音設定ボタンと音階選択ボタンのいずれかを有する請求項6に記載
    の楽器。
  20. 【請求項20】 当該1つまたは複数のユーザ制御部が、 任意に楽器をボタンに永久的または一時的に割り当てることによって、当該楽
    器の永久的または一時的変化を引き起こすための少なくとも1つの楽器選択ボタ
    ンを有し、当該ボタンを押すことによって、当該楽器によって生成されるサウン
    ドが、当該ボタンが放されるか変更されるまで、当該ボタンに割り当てられた別
    の楽器のサウンドに変化する請求項6に記載の楽器。
  21. 【請求項21】 当該筐体が、 内側容器と外側ケースとを有し、当該電源が、当該内側容器と当該外側ケース
    の1つに収容され、 当該内側容器が、当該音声ピッチ・モジュールを収容し、それにより、当該電
    源と当該音声ピッチ・モジュールが、コンパクトなモジュール式の形を有する単
    純で便利な扱い易い独立型ユニットを構成し、 当該外側ケースが、視覚的特性および/または音響的特性の両方に関して、任
    意の伝統的な楽器の形に似せるように製造されている請求項1に記載の楽器。
JP2000620617A 1999-05-20 2000-05-19 音声制御式電子楽器 Withdrawn JP2003500700A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13501499P 1999-05-20 1999-05-20
US60/135,014 1999-05-20
PCT/US2000/013721 WO2000072303A1 (en) 1999-05-20 2000-05-19 Voice-controlled electronic musical instrument

Publications (1)

Publication Number Publication Date
JP2003500700A true JP2003500700A (ja) 2003-01-07

Family

ID=22466107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000620617A Withdrawn JP2003500700A (ja) 1999-05-20 2000-05-19 音声制御式電子楽器

Country Status (6)

Country Link
EP (1) EP1183677B1 (ja)
JP (1) JP2003500700A (ja)
AT (1) ATE303645T1 (ja)
AU (1) AU5143400A (ja)
DE (1) DE60022343T2 (ja)
WO (1) WO2000072303A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6653546B2 (en) * 2001-10-03 2003-11-25 Alto Research, Llc Voice-controlled electronic musical instrument
GB2392544A (en) * 2002-08-29 2004-03-03 Morgan Computing Ltd Device for creating note data
JP2005049439A (ja) 2003-07-30 2005-02-24 Yamaha Corp 電子楽器
JP4448378B2 (ja) 2003-07-30 2010-04-07 ヤマハ株式会社 電子管楽器
US9024168B2 (en) 2013-03-05 2015-05-05 Todd A. Peterson Electronic musical instrument
DE102013014443A1 (de) * 2013-09-02 2015-03-05 Michael Kraft Vorrichtung zum Erzeugen eines elektroakustischen Schaltwandlersignals mittels der Stimme eines Benutzers

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1393542A (en) * 1972-02-24 1975-05-07 Pitt D B Voice actuated instrument
US4342244A (en) * 1977-11-21 1982-08-03 Perkins William R Musical apparatus
DE3009864A1 (de) * 1980-03-12 1981-09-24 Günter Dipl.-Ing. Dr. 2282 List Wagner Didaktisches elektronisches musikinstrument
US4633748A (en) * 1983-02-27 1987-01-06 Casio Computer Co., Ltd. Electronic musical instrument
US4757737A (en) * 1986-03-27 1988-07-19 Ugo Conti Whistle synthesizer

Also Published As

Publication number Publication date
EP1183677A1 (en) 2002-03-06
AU5143400A (en) 2000-12-12
ATE303645T1 (de) 2005-09-15
EP1183677B1 (en) 2005-08-31
DE60022343D1 (de) 2005-10-06
WO2000072303A1 (en) 2000-11-30
DE60022343T2 (de) 2006-06-22

Similar Documents

Publication Publication Date Title
US6737572B1 (en) Voice controlled electronic musical instrument
US6653546B2 (en) Voice-controlled electronic musical instrument
US6967275B2 (en) Song-matching system and method
Dittmar et al. Music information retrieval meets music education
CN112382257B (zh) 一种音频处理方法、装置、设备及介质
US20040244566A1 (en) Method and apparatus for producing acoustical guitar sounds using an electric guitar
JP7424359B2 (ja) 情報処理装置、歌唱音声の出力方法、及びプログラム
JP2023015302A (ja) 電子機器、電子楽器、方法及びプログラム
Paulus Signal processing methods for drum transcription and music structure analysis
JP2007310204A (ja) 楽曲練習支援装置、制御方法及びプログラム
Schneider Perception of timbre and sound color
EP1183677B1 (en) Voice-controlled electronic musical instrument
JP4808641B2 (ja) 似顔絵出力装置およびカラオケ装置
JP5346114B1 (ja) 音楽表現力の教育装置及び方法並びに音楽演奏評価装置
JP4038836B2 (ja) カラオケ装置
Janer Singing-driven interfaces for sound synthesizers
Loscos Spectral processing of the singing voice.
Franklin PnP maxtools: Autonomous parameter control in MaxMSP utilizing MIR algorithms
Risset et al. Sculpting sounds with computers: music, science, technology
Soszynski et al. Music games as a tool supporting music education
CN103943098A (zh) 多米索交响乐器
Pandey Encyclopaedic dictionary of music
Alexandraki Real-time machine listening and segmental re-synthesis for networked music performance
Murray-Rust Virtualatin-agent based percussive accompaniment
Jensenius How do we recognize a song in one second?: the importance of salience and sound in music perception

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070807