JP2002082668A

JP2002082668A - 音符ベース・コードの生成

Info

Publication number: JP2002082668A
Application number: JP2001200387A
Authority: JP
Inventors: Tero Tolonen; テロ．トローネン; Ville Pulkki; ビレ．プルッキ
Original assignee: Elmorex Ltd Oy
Current assignee: Elmorex Ltd Oy
Priority date: 2000-07-03
Filing date: 2001-07-02
Publication date: 2002-03-22
Also published as: US6541691B2; FI20001592A; US20020035915A1; FI20001592A0; WO2002003370A1; AU2001279826A1

Abstract

(57)【要約】（修正有）【課題】音楽情報を表わす音符ベース・コード生成方
法と音楽表現の伴奏を生成する方法を提供する。【解決手段】音符ベース・コードを提供するステップ
と、音符ベース・コードを作曲方法のための入力として
使用することにより新旋律ラインに対応するコード・シ
ーケンスを生成するステップ１３と、新旋律ラインに対
応するコード・シーケンスに基づいて伴奏を生成するス
テップ１４、１５とよりなる音楽表現の伴奏を生成する
方法。音符ベース・コードを提供するステップは、音声
信号の形の音楽情報を受け取るステップ１１と、音声信
号に音声−音符変換をかけて音楽情報を表わす音符ベー
ス・コードを生成するステップ１２とよりなり、音声−
音符変換は、基本周波数のシーケンスを得るために音声
信号の基本周波数を推定するステップと、音符ベース・
コードを得るために基本周波数のシーケンスに基づいて
音事象を検出するステップとよりなる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音楽情報を表わす
音符ベース・コードを生成する方法に関するものであ
る。さらに、本発明は、音楽表現の伴奏を生成する方法
に関する。

【０００２】

【従来の技術】一般に、電子楽器またはシンセサイザの
制御に使用される制御信号を得るための方法には様々な
先行技術がある。例えば、電子楽器を制御するためには
ＭＩＤＩが広く使用されている。ＭＩＤＩとは「楽器デ
ィジタル・インタフェース（ＭｕｓｉｃａｌＩｎｓｔ
ｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃ
ｅ）」の略語であり、音声合成装置の事実上の業界標準
でもある。ＭＩＤＩは、これを通してシンセサイザ、リ
ズム・マシン、コンピュータ等が相互にリンクすること
ができるインタフェースである。ＭＩＤＩ標準について
の情報は例えば参考文献［１］に記載されている。

【０００３】非ヒューリスティック型の自動作曲法は参
考文献［２］に開示されている。この作曲方法は、所与
の例の集合からルールを学習することによってコードの
連続シーケンスを生成するのに動的拡張性コンテキスト
（ＤＥＣ）と呼ばれる自己学習文法システムの原理を利
用する。すなわち、マルコフ過程におけるのと同様に、
この作曲法ではコード・シーケンス中のコードがそのす
ぐ前のいくつかのコードに基づいて定義される。しかし
ながら、この作曲方法は、ルールの探索引数の内容の長
さ、すなわち必要な先行コード数が、ルールがトレーニ
ング・シーケンス（ストリング）から形成される場合に
それらのトレーニング・シーケンスに生じる不一致（競
合）に基づいて定義される動的パラメータである別個の
「文法」規則を使用する。言い換えると、ルールの生成
時に２つ以上のルールが同じ探索引数を持つのに、異な
る結果すなわち新しいコードを持つ場合、それらのルー
ルは無効であることが示され、あいまいでない有効なル
ールが見つかるまで、それらのルールの探索引数の長さ
が大きくされる。コンテキストを動的に拡張するこの方
法は、この構造の利用に非常に大きく依拠している。上
記のルールは練習教材に生じる符号間の局部的一致に基
づいて機械的に生み出されるので、ルールの生成は、例
えば、練習用音楽教材についての専門知識に基づく音楽
理論的な分析を必要としない。

【０００４】これに対応して、ルールがコード・シーケ
ンスの後に新しいコードを生成するために用いられる場
合、まずそのコード・シーケンスで最後に生成されたコ
ードがメモリに記憶されている探索テーブル中のルール
と比較され、次に最後の２つのコードが比較され、この
ような操作が有効なルールとの一致が見られて、そのル
ールの結果によって示されたコードをコード・シーケン
スの最後に加えることができるまで続けられる。上記の
ツリー構造によって系統的な比較が可能になる。その結
果としてトレーニング・シーケンスに基づいて生成され
たルールに「文体的に」従う事を試みる「最適」コード
・シーケンスが得られる。

【０００５】先行技術によれば、自動伴奏装置用のキー
・シークエンス（音符ベース・コード）は、例えばコン
ピュータのＭＩＤＩポートに接続されたＭＩＤＩキーボ
ードによって得ることができ、あるいはメモリに保存さ
れたＭＩＤＩファイルからロードすることができる。Ｍ
ＩＤＩキーボードは、ユーザがキーボードを演奏するの
に伴って、音オン／音オフ事象対及び音のピッチよりな
る音事象を生じさせる。伴奏装置の場合、音事象は同じ
ピッチの一つの長さ単位（例えば八分音符）（全音符の
１／８）のシーケンスに変換される。キー・シークエン
スは他の手段によって得ることもできる。例えば、グラ
フィカル・ユーザインタフェース（ＧＵＩ）やマウスの
ようなポインティングデバイスを使用することにより、
あるいはコンピュータキーボードを使用することによっ
て得ることができる。

【０００６】

【発明が解決しようとする課題】本発明の目的は、音楽
情報を表わす音符ベース・コードを生成する方法を提供
し、さらに音楽表現の伴奏を生成する方法を提供するこ
とにある。上記及び他の本発明の目的は、特許請求の範
囲に記載する特徴を有する方法及びコンピュータソフト
ウェアによって達成される。特許請求の範囲には本発明
の好適な実施態様も記載されている。

【０００７】

【課題を解決するための手段】本発明の方法は、音声信
号の形の音楽情報を受け取るステップと、音声信号に音
声−音符変換をかけて音楽情報を表わす音符ベース・コ
ードを生成するステップとに基づいたものである。

【０００８】音声信号は、例えば歌唱、ハミング、口
笛、あるいは楽器演奏によって得られる。あるいは、音
声信号はＣＤやフロッピーディスクのようなコンピュー
タ記憶媒体から出力することも可能である。

【０００９】本発明のもう一つの方法においては、音声
信号に基づいて音声−音符変換により生成された音符ベ
ース・コードを用いて自動作曲法を制御することにより
音楽表現の伴奏が得られる。自動作曲法については、本
願の従来技術の説明の部分に記載されている。自動作曲
法は、音符ベース・コードに基づいて新旋律ラインに対
応するコード・シーケンスを生成する。このコード・シ
ーケンスは、シンセサイザあるいは可聴伴奏を提供する
ための同様の電子音楽機器を制御するために使用するこ
ともできる。好ましくは、伴奏はリアルタイムで得られ
るようにする。新旋律ラインに対応するコード・シーケ
ンスは、ＭＩＤＩファイルあるいはサウンドファイルに
保存することも可能である。本願において、「旋律ライ
ン」という用語は、音符と休止符との組合せによって形
成される音曲内容の総称である。新旋律ラインと対比し
て、音符ベース・コードは旧旋律ラインと見なすことが
可能である。

【００１０】本発明の音声−音符変換方法は、音声信号
の基本周波数を推定して基本周波数のシーケンスを得る
ステップと、該基本周波数のシーケンスに基づいて音事
象を検出することにより音符ベース・コードを得るステ
ップとよりなる。

【００１１】本発明の一実施例による音声−音符変換方
法においては、音楽情報を含む音声信号が時間のフレー
ムに分割され、各フレームの基本周波数を検出すること
によって基本周波数のシーケンスが得られる。次の段階
では、基本周波数が量子化される。すなわち、例えば基
本周波数値を効果的に半音階に量子化した形のＭＩＤＩ
音階に変換される。次に、連続する等ＭＩＤＩピッチ値
を持つセグメントが検知され、それらの各セグメントが
音楽情報を表わす音符ベース・コードを得るための音事
象（音オン／音オフ事象対）として指定さる。

【００１２】本発明のもう一つの実施例による音声−音
符変換方法においては、音楽情報を含む音声信号はフレ
ーム単位で処理される。各フレームの基本周波数が検出
され、それらの基本周波数が量子化される。前の実施例
とは異なり、フレームは音声信号が供給されるのと同時
に１フレームずつ処理される。量子化された基本周波数
は、前の基本周波数と現在の基本周波数を比較すること
により、リアルタイムで音事象の形にコード化される。
音オン事象及びその時現在の基本周波数に対応するピッ
チに０からノンゼロ値への何らかの遷移が割り当てられ
る。従って、ノンゼロ値からゼロ値への遷移は音オフ事
象を生じさせ、ノンゼロからもう一つのノンゼロ値への
変化は音オフ事象及びその音オフ事象の後に続く音オン
事象を生じさせる、またその時現在の基本周波数に対応
するピッチを生じさせ得る。それ故に、入力信号が供給
されるのと同時に音楽情報を表わす音符ベース・コード
が形成される。

【００１３】本発明のさらにもう一つの実施例の音声−
音符変換方法においては、音楽情報を含む音声信号はフ
レーム単位で処理され、入力信号が供給されるのと同時
に音楽情報を表す音符ベース・コードが形成される。ま
ず、フレームの信号レベルが測定され、所定の信号レベ
ル・スレッショルドと比較される。このレベルが信号レ
ベル・スレッショルドより高ければ、そのフレームが有
声音のフレームか無声音のフレームかを判断するための
音声判断が実行される。そのフレームが有声音フレーム
であると判断されると、フレームの基本周波数が推定さ
れ、量子化されて、その時現在の量子化基本周波数が得
られる。次に、この量子化された現在の基本周波数に基
づいて音が検出されるかどうかが判断される。音が検出
されれば、量子化された現在の基本周波数はその前のフ
レームの基本周波数と比較される。そして、前と現在の
基本周波数が異なっていれば、音オフ事象及びその音オ
フ事象の後の音オン事象が適用される。もし、前と現在
の基本周波数が同じであれば、何の処理もとられない。
信号レベルがそのスレッショルド以下の場合、またはフ
レームが無声音フレームと判断された場合、あるいは音
が検出されない場合は、音オン事象が現在有効かどうか
の判断が行われ、音が検出される場合は、音オフ事象が
適用される。この手順が、音符ベース・コードを得るた
めに音声信号を受け取るのと同時に各フレームについて
繰り返し行われる。

【００１４】本発明の方法の長所は、音楽理論の知識が
全くない人でも、例えば歌唱、ハミング、口笛、あるい
は楽器演奏によって音声信号の形で音楽情報を供給する
ことによって音楽情報を表わす音符ベース・コードを生
成するためにこれを使用することができるということで
ある。本発明のもう一つの長所は、音楽表現のリアルタ
イム伴奏を生成するための手段が得られるということで
ある。

【００１５】以下、本発明を好適な実施例により図面を
参照して詳細に説明する。

【００１６】

【発明の実施の形態】本発明の原理は、音声信号の形で
与えられる音楽情報に基づいて音符ベース・コードを生
成するというものである。本発明によれば、音声信号に
音声−音符変換をかけることにより音符ベース・コード
が生成される。音声信号は、例えば歌唱、ハミング、口
笛あるいは楽器演奏により得ることができ、あるいはフ
ロッピー（登録商標）ディスクやＣＤのような何らかの
形のコンピュータ記憶媒体より出力することも可能であ
る。

【００１７】本発明による伴奏の生成方法は、参考文献
［２］に開示されている自動作曲法を使用する。本発明
によれば、この作曲方法を用いることにより、音楽表現
を表わす音符ベース・コードに基づいてその音楽表現に
対する伴奏（新旋律ライン）が生成される。この作曲方
法においては、コード・シーケンスの最後に生成された
コードが探索テーブルに記憶されたルールと比較される
コードである。この作曲方法が自動伴奏装置用として用
いられる場合は、音符ベースの入力はルールと比較され
るが、メモリに記憶されるルールは、対応する伴奏、す
なわちその作曲方法によって生成されたコード・シーケ
ンスから作り出される。この方法によれば、音楽表現を
表す音声信号に音声−音符変換をかけて音符ベース・コ
ードが生成され、この音符ベース・コードを用いて作曲
方法が制御される。自動作曲法は、新旋律ライン、すな
わち伴奏に対応するコード・シーケンスを生成する。

【００１８】図１（Ａ）は、伴奏を生成する方法を図解
したフローチャートである。図中ステップ１１で、音楽
表現を表わす音声入力を受け取る。ステップ１２では、
音声入力に音声−音符変換をかけることにより音符ベー
ス・コードが生成される。図２を参照して詳細に説明す
る本発明の好適な一実施例においては、音声−音符変換
は基本周波数推定及び音検出よりなる。ステップ１３で
は、音声−音符変換によって得られた音符ベース・コー
ドを用いて自動伴奏が生成される。ステップ１３は、入
力に基づいて新旋律ラインに対応するコード・シーケン
スを生成する作曲方法に、好ましくは上記の作曲方法に
よって行われる。ステップ１４では、作曲方法によって
生成されたコード・シーケンスを用いて電子楽器または
シンセサイザを制御することにより合成音声が生成され
る。あるいは、伴奏はステップ１５でファイルに保存さ
れる。ファイルは、音声事象記述が保存されるＭＩＤＩ
ファイルでもよく、あるいは合成音声が記憶されるサウ
ンドファイルでもよい。サウンドファイルは、記憶空間
の節約のために圧縮してもよい。ステップ１４と１５は
互いに排他的ではなく、両方とも実行することが可能で
ある。

【００１９】図１（Ｂ）は、本発明による自動伴奏を生
成するための構成を図解したブロック図である。図示の
構成は、ユーザ端末あるいはホストコンピュータ３に接
続されたマイクロホン２、及びユーザ端末に接続された
スピーカ４を有する。マイクロホン２は、音楽表現を音
声信号の形で入力するために使用される。音楽表現は、
例えば歌唱、ハミング、口笛あるいは楽器演奏によって
生成される。マイクロホン２は、例えばホストコンピュ
ータ３にケーブルで接続された独立のマイクロホンで
も、あるいはホストコンピュータ３に組み込まれたマイ
クロホンでもよい。ホストコンピュータ３は、音声信号
に基づいて伴奏に対応するコード・シーケンスを生成す
るソフトウェアを有する。すなわち音声−音符変換及び
作曲方法の各ステップを実行する。コード・シーケンス
はホストコンピュータによってファイルに保存し、これ
を用いてスピーカ４により出力される合成音声を生成す
るための電子楽器あるいはシンセサイザを制御すること
が可能である。シンセサイザはホストコンピュータ上で
実行されるソフトウェアであってもよく、あるいはホス
トコンピュータ上の別個のハードウェア装置であっても
よい。あるいは、シンセサイザはＭＩＤＩケーブルでホ
ストコンピュータに接続された外部装置であってもよ
い。ＭＩＤＩケーブルで接続された外部装置の場合は、
ホストコンピュータがコード・シーケンスに基づいてＭ
ＩＤＩポートにＭＩＤＩ出力信号を供給する。好ましく
は、伴奏はリアルタイムで得られるようにする。例え
ば、ユーザがマイクロホン２に向かって歌を歌うと、コ
ンピュータ３がその歌唱によって生成された音曲内容を
処理してスピーカ４から伴奏を出力する。この構成は、
音楽表現を作り出す人の音楽的才能、例えば歌ったり楽
器を演じたりする才能を向上させるために使用すること
ができる。

【００２０】本発明の音声−音符変換は図２に示す２つ
のステップ、すなわち基本周波数推定ステップ２１及び
音検出ステップ２２に分けることができる。ステップ２
１では、音声入力は時間のフレームに分割され、各フレ
ームの基本周波数が推定される。信号の処理はディジタ
ルドメインで実行される。従って、音声入力がディジタ
ル形式になっていない場合、音声入力は基本周波数推定
に先だってＡＤ変換器でディジタル化される。しかしな
がら、基本周波数の推定は音符ベース・コードの生成に
とってそれだけでは十分ではない。そのために、ステッ
プ２２で、相続く基本周波数はさらに処理されて、音が
検出される。以下、本発明の好適な図示実施例によるこ
れらの２つのステップの動作についてさらに詳細に説明
する。

【００２１】会話や音曲のような音声信号の基本周波数
を推定するための技術は、従来多数存在する。自己相関
関数の使用は基本周波数の推定のために広く採用されて
来た方法である。本発明の方法においては、基本周波数
の推定のために好ましくは自己相関関数を使用する。し
かしながら、本発明の方法にとって基本周波数推定に自
己相関を用いることは必須ではなく、他の基本周波数推
定方法を使用することもできる。基本周波数推定のため
の他の技術については、例えば参考文献［３］に記載さ
れている。

【００２２】この実施例の基本周波数推定アルゴリズム
は、音声信号セグメント（フレーム）の基本周期の検出
に基づくものである。基本周期はＴ_０（サンプル数単
位）で表され、基本周波数ｆ_０との間に次の式１で表さ
れる関係を有する。

【００２３】

【式１】式中、ｆ_ｓはヘルツで表したサンプリング周波数であ
る。基本周波数は式１を用いて推定基本周期から得られ
る。

【００２４】図３は、基本周波数（あるいは周期）推定
の動作を図解したフローチャートである。入力信号は時
間のフレームに分割され、それらの各フレームが別々に
処理される。まず、ステップ３０で、入力音声信号Ａｕ
ｄｉｏＩｎはハイパスフィルタ（ＨＰＦ）でフィルタ
されてその中の直流成分が除去される。ＨＰＦの伝達関
数は、例えば次の式２で表される。

【００２５】

【式２】式中ａはフィルタ係数である。

【００２６】処理チェーン中の次のステップ３１は、信
号セグメント（フレーム）のスペクトルの任意態様の線
形予測コーディング（ＬＰＣ）白色化処理である。次に
ステップ３２で、信号は自己相関処理される。ステップ
３３では、ピーク検出法を用いることによって信号の自
己相関関数から基本周期推定値が得られる。最後にステ
ップ３４で、基本周期推定値は疑似ピークを除去するた
めにメディアンフィルタでフィルタされる。次の項で
は、ＬＰＣ白色化、自己相関及びピーク検出について詳
細に説明する。

【００２７】人声発生メカニズムは、通常音源−フィル
タ系と見なされる。すなわち、声道をモデル化した線形
系によって励振信号が作り出され、フィルタされる。有
声（倍音の）音または有声会話音では、励振信号は周期
性を有し、声門で作り出される。励振信号の周期は音の
基本周波数を決定する。声道は、周期励振信号に影響を
及ぼす線形共鳴器と見なすことができ、例えば声道の形
は認識される母音を決定する。

【００２８】実際、基本周期検出の前に信号中の声道の
影響を最小限にすることがかなり好ましいことがしばし
ばある。信号処理の面では、このことは、声道に相当す
る線形モデルの影響をなくすために逆フィルタすること
（白色化）を意味する。声道は、例えば全極モデルを使
用することによって、すなわち次の式３で表される伝達
関数を持つｎ次ディジタルフィルタとしてモデル化する
ことができる。

【００２９】

【式３】式中、ａ_ｋはフィルタ係数である。フィルタ係数は、線
形予測を使用することにより、すなわち自己相関行列及
びパラメータａ_ｋを含む線形系を解くことにより得るこ
とができる。線形系は、例えば参考文献［４］開示され
ているレヴィンソン−ダービン（Ｌｅｖｉｎｓｏｎ−Ｄ
ｕｒｂｉｎ）の漸化式（再帰方程式）を使用して最も効
果的に解かれる。パラメータａ_ｋの解を求めた後に、式
３の伝達関数の逆関数を用いることにより非白色化信号
ｘ’（ｎ）を逆フィルタするにことよって白色化信号ｘ
（ｎ）が得られる。

【００３０】図４（Ａ）及び（Ｂ）は時間ドメインのウ
ィンドウ生成を図解したものである。図４（Ａ）は矩形
ウィンドウでウィンドウ表示された信号を示し、図４
（Ｂ）はハミング・ウィンドウで表示された信号を示
す。ウィンドウ生成は図３には示されていないが、信号
はステップ３２の前にウィンドウ表示されるものと仮定
されている。

【００３１】ＬＰＣ白色化の効果の例が図５（Ａ）乃至
６（Ｂ）に図解されている。図５（Ａ）、（Ｂ）及び
（Ｃ）は、図４（Ｂ）のハミング・ウィンドウ表示され
た信号のスペクトル、ＬＰＣスペクトル及び逆フィルタ
された（白色化）スペクトルをそれぞれ示す。図６
（Ａ）及び６（Ｂ）は、自己相関関数におけるＬＰＣ白
色化の効果の例を示す。図６（Ａ）は図５（Ｃ）の白色
化信号の自己相関関数を示し、図６（Ｂ）は図５（Ａ）
の（非白色化）信号の自己相関関数を示している。図６
（Ａ）の白色化スペクトルの自己相関関数中の極大値が
比較的図６（Ｂ）の非白色化スペクトルの極大値よりも
明確に際立っていることがわかる。従って、この例は、
自己相関の最大検出の問題にＬＰＣ白色化を適用するこ
とが効果的であるということを示唆している。

【００３２】しかしながら、場合によっては、推定値の
精度がＬＰＣ白色化と共に低下するということが実験に
よって明らかになっている。このことは、特に高い音を
含む信号の場合に関係がある。従って、ＬＰＣ白色化を
使用することは必ずしも常に効果的だとは限らず、本発
明における基本周期推定はＬＰＣ白色化と共に、あるい
は白色化なしで使用することができる。

【００３３】信号の自己相関は、参考文献［５］に開示
されている短時間自己相関分析法を使用することにより
実施される。信号ｘ（ｎ）の短いセグメントに対して処
理を行う短時間自己相関関数は次の式４で定義される。

【００３４】

【式４】式中、Ｍ_ｃは分析される自己相関点の数、Ｎはサンプル
数、ｗ（ｎ）はハミング・ウィンドウのような時間ドメ
インの窓関数である。

【００３５】時間ドメイン窓関数ｗ（ｎ）の長さは分析
の時間分解能を決定する。実際には、最も低い基本周波
数の少なくとも２倍の周期であるテーパ状ウィンドウを
使用することが可能である。このことは、例えば５０ヘ
ルツを基本周波数推定値の下限に選択した場合、最小ウ
ィンドウ長さは４０ミリ秒であるということを意味す
る。２２，０５０ヘルツのサンプリング周波数では、こ
れは８８２サンプルに相当する。実際には、ウィンドウ
長さは４０ミリ秒より大きい２の最小べき乗に選ぶこと
が好ましい。これは、自己相関関数を計算するのに高速
フーリエ変換（ＦＦＴ）が用いられ、ＦＦＴはウィンド
ウ長さが２のべき乗であることを必要とするからであ
る。

【００３６】Ｎサンプルの信号の自己相関関数は長さが
２Ｎ−１サンプルであるから、そのシーケンスはＦＦＴ
計算の前に０−パディングしなければならない。０−パ
ディングとは、信号長さを必要値まで大きくするため
に、単に信号セグメントに０を追加することである。０
−パディング後、短時間自己相関関数が次の式５で計算
される。

【００３７】

【式５】式中、ｘ（ｎ）はウィンドウ表示された信号セグメント
であり、ＩＦＦＴは逆ＦＦＴを表す。

【００３８】有意な自己相関遅延ｍの範囲内で各ｋに対
するφ（ｍ）（自己相関ピーク）の極大値を探すピーク
検出によって推定基本周期Ｔ０が得られる。自己相関関
数の全域最大は位置ｍ＝０で生じ、基本周期に対応する
極大はいくつかの極大の中の１つである。

【００３９】ピーク検出は放物線補間によってさらに改
善される。放物線補間では、極大及びその極大に隣接す
る２つの値からなる３点に放物線が当てはめられる。Ａ
＝φ（Ｉ）を自己相関遅延Ｉにおける極大値、Ａ_−１＝
φ（Ｉ−１）及びＡ_＋１＝φ（Ｉ＋１）をそれぞれ遅延
Ｉ−１及びＩ＋１における最大の左側及び右側の隣接値
であるとすると、自己相関ピークの補間位置は次の式６
で表される。

【００４０】

【式６】

【００４１】本発明の方法で使用することが好ましいメ
ディアンフィルタは３タップ・メジアンフィルタであ
る。

【００４２】ＬＰＣ、自己相関分析及びＦＦＴについて
のさらに詳しい情報は、ディジタル信号処理及びスペク
トル分析に関する教科書で見ることができる。

【００４３】基本周波数を推定するための上記の方法
は、単一の顕著な倍音源（例えば倍音を発生する有声会
話音、歌唱、楽器）を持つ音声信号の基本周波数を検出
するのに極めて確かな方法である。さらに、この方法
は、音声信号の基本周波数の変化を追うような形で推定
基本周波数の時間軌跡が得られる。しかしながら、前に
述べたように、基本周波数の時間軌跡は、音符ベース・
コードを得るためにはさらに処理する必要がある。詳し
く言うと、時間軌跡は、音の始め、ピッチ及び終わりを
示す一連の事象対の形で分析する必要があり、これを音
検出と称する。言い換えると、音検出は基本周波数軌跡
から音事象を形成することを言う。音事象は、例えば音
の開始位置（音オン事象）、ピッチ及び終了位置（音オ
フ事象）よりなる。例えば、時間軌跡はユーザが決定し
たテンポにより八分音符のような一つの長さ単位のシー
ケンスに変換することが可能である。

【００４４】図７（Ａ）は、基本周波数の任意の長さの
シーケンスが一度に処理される本発明の実施例による音
検出プロセスを図解したフローチャートである。ステッ
プ７１で、基本周波数は量子化される。基本周波数は、
例えば最も近い半音へ量子化されかつ／またはＭＩＤＩ
音階等に変換される。ステップ７２ａで基本周波数中の
連続した等しい値のセグメントが検出され、ステップ７
２ｂでは、それらの各セグメントが音オン／音オフ事象
対と基本周波数に対応するピッチよりなる音事象として
指定される。

【００４５】図７（Ｂ）は、基本周波数がリアルタイム
で処理される本発明のもう一つの実施例による音検出プ
ロセスを図解したフローチャートである。基本周波数は
ステップ７６で量子化される。しかしながら、フレーム
は１つずつ処理され、実際のセグメントへの分割は行わ
れない。ステップ７７で、その時現在の基本周波数が後
で使用するためにメモリ保存される。ステップ７８で
は、現在の基本周波数がメモリに保存されている前の基
本周波数と比較される。次に、前の基本周波数がメモリ
に保存されていれば現在の基本周波数をステップ７８で
該前の基本周波数と比較し、その比較結果に基づいて、
基本周波数上でゼロからノンゼロ値への何らかの遷移が
生じた場合、ステップ７９で現在の基本周波数に対応す
るピッチを持つ音オン事象を用いることによって、量子
化された基本周波数はリアルタイムで順次音事象にコー
ド化される。基本周波数上でノンゼロ値からゼロ値への
何らかの遷移が生じた場合は、音オフ事象が適用され、
基本周波数上でノンゼロ値から別のノンゼロ値への何ら
かの遷移が生じた場合は、音オフ事象及び該音オフ事象
の後に続く量子化された現在の基本周波数に対応するピ
ッチを持つ音オン事象が適用される。基本周波数が変化
しなければ、音事象は用いられない。

【００４６】図８には、基本周波数軌跡ｆｆの一例が示
されている。半音８１〜８６の範囲内で変化する基本周
波数の値は同じピッチ値に量子化される。本発明の一実
施例においては、連続する等しい（量子化された）値８
１〜８６が検出され、音オン／音オフ対及び基本周波数
８１に対応するピッチよりなる音事象である音ｌとして
指定される。音２及び音３の音事象も同様に構成され
る。

【００４７】本発明のもう一つの実施例においては、量
子化された基本周波数８０〜８９が一度に１つずつ処理
される。休止（音なし）から音１への遷移、すなわちゼ
ロの基本周波数値８０から基本周波数値８１への遷移の
結果、基本周波数８１対応するピッチ及び音オン事象が
生じる。連続した等しい基本周波数値８２〜８６は対応
するピッチを生じさせる。音１から音２への遷移、すな
わち基本周波数値８６から別の基本周波数値８７への遷
移の結果、基本周波数８７に対応するピッチと連続する
音オフ及び音オン事象が生じる。音３から休止（音な
し）への遷移、すなわち基本周波数値８８からゼロ基本
周波数値８９への遷移は音オフ事象を生じさせる。

【００４８】図９は、本発明のさらにもう一つの実施例
による音声−音符変換プロセスを図解したフローチャー
トである。この実施例では、音声信号のフレームは一時
に１フレームずつ分析される。ステップ９０では、音声
信号のフレームの信号レベルが測定される。通常、これ
にはエネルギーベースの信号レベル測定法が用いられる
が、例えば聴覚刺激音量測定法のようなより高度な方法
を使用することも可能である。ステップ９１では、ステ
ップ９０で得られた信号レベルが所定のスレッショルド
と比較される。信号レベルがスレッショルドより低い場
合は、その時現在のフレーム中には音がないと判断され
る。従って、その分析は終了し、ステップ９６に移る。

【００４９】信号レベルがスレッショルドより高い場合
は、ステップ９２及び９３で音声（有声音か／無声音か
の）判断が行われる。この音声判断は、フレームの自己
相関関数の際立った遅延における信号レベルとフレーム
エネルギーとの比に基づいて行われる。この比はステッ
プ９２及びステップ９３で求められ、所定のスレッショ
ルドと比較される。言い換えると、そのフレーム中に元
信号に音声あるいは休止があるかどうかが判断される。
ステップ９３でフレームが無声音であると判断される
と、すなわち現在のフレーム中に際立った倍音がないと
判断されると、分析は終了し、ステップ９６が実行され
る。ステップ９３で際立った倍音が検出されると判断さ
れると、プロセスはステップ９４に進む。

【００５０】ステップ９４では、フレームの基本周波数
が推定される。通常、音声判断は基本周波数推定に組み
込まれるが、論理的にはこれらはそれぞれ独立したブロ
ックであり、そのために別個のステップとして示されて
いる。ステップ９４では、フレームの基本周波数も好ま
しくはＭＩＤＩ音階のような半音階に量子化される。ス
テップ９５では、疑似ピークを除去するため、また音が
検出されたかどうかを判断するためにメディアンフィル
タがかけられる。言い換えると、例えば、連続した３つ
の基本周波数が検出されて、その中の１つが他と大きく
異なる場合、その特定の周波数は恐らくノイズピークで
あるため、除去される。ステップ９５で音が検出されな
い場合、プロセスはステップ９６に進む。ステップ９６
では、音オン事象が現在有効かどうかが判断され、有効
ならば、音オフ事象が適用される。音オン事象が無効な
らば、何の処理も行われない。

【００５１】ステップ９５で音が検出される場合は、ス
テップ９４で推定された基本周波数が現在アクティブな
音（前のフレームの）の基本周波数と比較される。これ
らの周波数値が異なっていると、音オフ事象が適用され
て現在アクティブな音が止められ、音オン事象適用され
て新しい音事象が開始される。ステップ９４で推定され
た基本周波数が現在アクティブな音の基本周波数と同じ
ならば、何の処理も行われない。

【００５２】添付図面及び図面と関連させて行った説明
は、もっぱら本発明を例示説明するためのものである。
本発明の原理、すなわち音声信号の形で与えられる音楽
情報に基づいて音符ベース・コードを生成するという原
理は、ここで説明したものと異なる方法で実施すること
も可能である。本発明は、特許請求の範囲の記載する範
囲内においてその細部を修正、変更することが可能であ
る。

【００５３】

【発明の効果】以上述べた通り本発明によれば、音楽理
論の知識が全くない人でも、例えば歌唱、ハミング、口
笛、あるいは楽器演奏によって音声信号の形で音楽情報
を供給することによって音楽情報を表わす音符ベース・
コードを生成するためにこれを使用することができ、ま
た音楽表現のリアルタイム伴奏を生成するための手段が
得られるものである。参考文献［１］ＭＩＤＩ１．０規格、文書番号ＭＩＤＩ−１．
０、１９８３年８月、国際ＭＩＤＩ協会（Ｉｎｔｅｒｎ
ａｔｉｏｎａｌＭＩＤＩＡｓｓｏｃｉａｔｉｏｎ）［２］Ｔ．コーネン（ＫｏｈｏｎｅｎＴ）の米国特許
代５，４１８，３２３号「探索引数及びルールを用いる
ことにより電子楽器を制御してディジタルコード・シー
ケンスを生成する方法」、１９９３年［３］Ｗ．ヘス、「会話信号のピッチ測定。」、スプ
リンガー出版（Ｓｐｒｉｎｇｅｒ−Ｖｅｒｌａｇ）、ド
イツ国ベルリン、ｐ．３〜４８、１９８３年［４］Ｃ．Ｗ．テリエン（Ｔｈｅｒｒｉｅｎ）、「離散
ランダム信号と統計的信号処理」、プレンティス・ホー
ル、イングルウッド・クリフス、ニュージャージー、ｐ
ｐ．４２２〜４３０、１９９２年［５］（Ｌ．Ｒ．ラビナー（Ｒａｂｉｎｅｒ）、「自己
相関分析を利用したピッチ検出について」、音響、会話
及び信号処理に関するＩＥＥＥ会報、２５（１）、ｐ
ｐ．２４〜３３、１９７７年

【図面の簡単な説明】

【図１】（Ａ）は本発明の方法を図解したフローチャー
トである。（Ｂ）は本発明の構成を図解したブロック図
である。

【図２】本発明の音声−音符変換プロセスを図解した機
能ブロック図である。

【図３】本発明の一実施例による基本周波数推定方法を
図解したフローチャートである。

【図４】（Ａ）、（Ｂ）は時間ドメインのウィンドウ生
成を示すグラフである。

【図５】（Ａ）、（Ｂ）、（Ｃ）はＬＰＣ白色化（ホワ
イトニング）効果の例を示すグラフである。

【図６】（Ａ）、（Ｂ）はＬＰＣ白色化（ホワイトニン
グ）効果の例を示すグラフである。

【図７】（Ａ）は本発明の一実施例、（Ｂ）は本発明の
もう一つの実施例による音検出プロセスを図解したフロ
ーチャートである。

【図８】基本周波数の変化軌跡の一例を示すグラフであ
る。

【図９】本発明のもう一つの実施例による音声−音符変
換プロセスを図解したフローチャートである

Claims

【特許請求の範囲】

【請求項１】音楽情報を表わす音符ベース・コードを
生成する方法において：音声信号の形の音楽情報を受け
取るステップ（１１）と；該音声信号に音声−音符変換
をかけて音楽情報を表わす音符ベース・コードを生成す
るステップ（１２）で、該音声−音符変換が −音声信号の基本周波数を推定して（２１）基本周波数
のシーケンスを得るためのステップと； −該基本周波数のシーケンスに基づいて音事象を検出し
て（２２）音符ベース・コードを得るためのステップ
と；よりなるステップ（１２）と；よりなることを特徴
とする方法。
【請求項２】音楽表現の伴奏を生成する方法におい
て；該方法が音楽表現に対応する音楽情報を表わす音符
ベース・コードを得るステップと；該音符ベース・コー
ドを作曲方法のための入力として使用することにより新
旋律ラインに対応するコード・シーケンスを生成するス
テップ（１３）と；新旋律ラインに対応するコード・シ
ーケンスに基づいて伴奏を生成するステップ（１４、１
５）と；よりなり、該音楽情報を表わす音符ベース・コ
ードを得るステップが、ａ）音声信号の形の音楽情報を受け取るステップ（１
１）と；ｂ）該音声信号に音声−音符変換をかけて音楽情報を表
わす音符ベース・コードを生成するステップ（１２）
で、該音声−音符変換が、 −基本周波数のシーケンスを得るために音声信号の基本
周波数を推定するステップ（２１）と； −音符ベース・コードを得るために該基本周波数のシー
ケンスに基づいて音事象を検出するステップ（２２）
と；よりなるステップ（１２）と；よりなることを特徴
とする方法。
【請求項３】合成音声によって新旋律ラインに対応す
るコード・シーケンスに基づく可聴伴奏を提供するステ
ップ（１４）を設けたこと特徴とする請求項２記載の方
法。
【請求項４】新旋律ラインに対応するコード・シーケ
ンスをサウンドファイルあるいはＭＩＤＩファイルの形
で保存することによって伴奏をファイル形式で提供する
（１５）ことを特徴とする請求項２または３のいずれか
１項記載の方法。
【請求項５】上記音声−音符変換が、ａ）音声信号を時間のフレームに分割してフレームのシ
ーケンスを得るステップと；ｂ）現在の基本周波数を得るためにフレームの基本周波
数を推定するステップ（２１）と；ｃ）現在の基本周波数を好ましくはＭＩＤＩ音階のよう
な半音階に量子化して（７６）量子化された現在の基本
周波数を生成するステップと；ｄ）該量子化された現在の基本周波数を保存するステッ
プ（７７）と；ｅ）該量子化された現在の基本周波数を前のフレームの
保存された基本周波数がある場合はこれと比較し（７
８）、前のフレームの保存された基本周波数がない場合
は該量子化された現在の基本周波数を０と比較するステ
ップと；ｆ）ステップｅの比較結果に基づいて −基本周波数中にゼロからノンゼロ値への何らかの遷移
が生じた場合は、量子化された現在の基本周波数に対応
するピッチを持つ音オン事象を、 −基本周波数中にノンゼロからゼロ値への何らかの遷移
が生じた場合は、音オフ事象を、 −基本周波数中にノンゼロから別のノンゼロ値への何ら
かの遷移が生じた場合は、音オフ事象、及び該音オフ事
象の後に続く量子化された現在の基本周波数に対応する
ピッチを持つ音オン事象を、 −基本周波数の変化が生じなかった場合は、音事象なし
を、それぞれ適用するステップ（７９）と；ｇ）音声信号を受け取るのと同時に１フレームずつ上記
ステップａ乃至ｆフレームを繰り返して音符ベース・コ
ードを得るステップと；よりなることを特徴とする請求
項１乃至４のいずれか１項記載の方法。
【請求項６】上記音声−音符変換が、ａ）音声信号を時間のフレームに分割してフレームのシ
ーケンスを得るステップと；ｂ）各フレームの基本周波数を検出して（２１）該基本
周波数のシーケンスを生成するステップと；ｄ）該基本周波数のシーケンスの各値を好ましくはＭＩ
ＤＩ音階のような半音階に量子化して（７６）量子化さ
れた基本周波数のシーケンスを生成するステップと；ｅ）該量子化された基本周波数のシーケンス中で連続す
る等しい値のセグメントを検出するステップ（７２ａ）
と；ｆ）該連続する等しい値の各セグメントを対応するピッ
チを持つ音オン／音オフ事象対よりなる音事象に対応さ
せて割り当てて（７２ｂ）音符ベース・コードを得るス
テップと；よりなることを特徴とする請求項１乃至４の
いずれか１項記載の方法。
【請求項７】上記音声−音符変換が、ａ）音声信号を時間のフレームに分割してフレームのシ
ーケンスを得るステップと；ｂ）フレームの信号レベルを測定するステップ（９０）
と；ｃ）該信号レベルを所定の信号レベル・スレッショルド
と比較するステップ（９１）と；ｄ）上記ステップｃで該信号レベルが該信号レベル・ス
レッショルドを超えた場合に、そのフレームが有声音か
無声音かを判断するための音声判断を実行するステップ
（９２、９３）と；ｅ）上記ステップｄでフレームが有声音と判断された場
合に、フレームの基本周波数を推定し、量子化して（９
４）量子化された現在の基本周波数を得るステップと；ｆ）該量子化された現在の基本周波数に基づいて音が検
出されるかどうかを判断するステップ（９５）と；ｇ）上記ステップｆで音が検出される場合に、量子化さ
れた現在の基本周波数を前のフレームの基本周波数と比
較し（９７）、これらの基本周波数が異なれば、音オフ
事象及び該音オフ事象の後に続く音オン事象を適用する
ステップと；ｈ）上記ステップｃで該信号レベルが該信号レベル・ス
レッショルドを超えない場合、上記ステップｄでフレー
ムが無声音であると判断された場合、あるいは上記ステ
ップｆで音が検出されない場合に、音オン事象が現在有
効かどうかを検出して（９６）、音オン事象が現在有効
ならば音オフ事象を適用するステップと；音声信号を受
け取るのと同時に１フレームずつ上記ステップａ乃至ｈ
フレームを繰り返して音符ベース・コードを得るステッ
プと；よりなることを特徴とする請求項１乃至４のいず
れか１項記載の方法。
【請求項８】歌唱、ハミング、口笛あるいは楽器演奏
によって音声信号を生成することを特徴とする請求項１
乃至７のいずれか１項記載の方法。
【請求項９】コンピュータソフトウェアが書き込まれ
たコンピュータ可読媒体において、コンピュータ上で該
ソフトウェアを実行すると、コンピュータが請求項１乃
至７のいずれか１項記載各ステップを実行することを特
徴とするコンピュータ可読媒体。
【請求項１０】音楽情報を表わす音符ベース・コード
を生成するためのジェネレータにおいて；音声信号の形
の音楽情報を受け取る第１のルーチン（１１）と；該音
声信号に音声−音符変換をかけて音楽情報を表わす音符
ベース・コードを生成する第２のルーチン（１２）で、 −音声信号の基本周波数を推定して基本周波数のシーケ
ンスを得るための第３のルーチン（２１）と； −該基本周波数のシーケンスに基づいて音事象を検出し
て音符ベース・コードを得るための第４のルーチン（２
２）と；よりなる第２のルーチン（１２）と；よりなる
ことを特徴とするジェネレータ。
【請求項１１】音楽表現の伴奏を生成するためのジェ
ネレータにおいて：音楽表現に対応する音楽情報を表わ
す音符ベース・コードを生成する第１のルーチンと；該
音符ベース・コードを作曲方法のための入力として使用
することにより新旋律ラインに対応するコード・シーケ
ンスを生成する第２のルーチン（１３）と；新旋律ライ
ンに対応するコード・シーケンスに基づいて伴奏を生成
する第３のルーチン（１４、１５）と；よりなり、該音
楽情報を表わす音符ベース・コードを生成する該第１の
ルーチンが、さらに、ａ）音声信号の形の音楽情報を受け取る第４のルーチン
（１１）と；ｂ）該音声信号に音声−音符変換をかけて音楽情報を表
わす音符ベース・コードを生成する第５のルーチン（１
２）で、該音声−音符変換が、 −音声信号の基本周波数を推定して基本周波数のシーケ
ンスを得るための第６のルーチン（２１）と； −該基本周波数のシーケンスに基づいて音事象を検出し
て音符ベース・コードを得るための第７のルーチン（２
２）と；よりなる第５のルーチン（１２）と；よりなる
ことを特徴とするジェネレータ。