JPH07325583A

JPH07325583A - サウンドの分析及び合成方法並びに装置

Info

Publication number: JPH07325583A
Application number: JP5349245A
Authority: JP
Inventors: Sera Zabieru; セラザビエル; Uiriamusu Kurisu; ウィリアムスクリス; Gurosu Robaato; グロスロバート; Uorudo Aaringu; ウォルドアーリング
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1993-04-14
Filing date: 1993-12-28
Publication date: 1995-12-12
Anticipated expiration: 2014-06-21
Also published as: JP2906970B2; US5536902A

Abstract

(57)【要約】【目的】スペクトルモデリング合成（ＳＭＳ）技術に
基づく部分音合成その他の分析的なサウンド合成技術に
おいて、合成するサウンドの音楽的特徴を制御するため
に、分析的なアプローチを採用し、良好なサウンド制御
を行なう。【構成】オリジナルサウンド波形を構成する複数の成
分を示す分析データから所定の要素に関する特徴（フォ
ルマント、ビブラート、トレモロ、スペクトル、ピッチ
変動など）を夫々分析して、分析した該特徴を示すデー
タを音楽パラメータとして抽出する。抽出されたパラメ
ータに対応する特徴を分析データから取り除き、変更さ
れた分析データと音楽パラメータとの組合せにより、サ
ウンド波形が表現される。抽出した音楽パラメータを可
変制御し、分析パラメータに対して付加することによ
り、制御された特徴が付加された分析データに基づきサ
ウンド波形を再生合成する。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、サウンド特に楽音あ
るいは人声音などのような音楽サウンドの分析及び合成
方法並びに装置に関し、更には、スペクトル・モデリン
グ・合成（Spectral Modeling Synthesis）技術を用い
た音楽シンセサイザにおける様々な改良に関する。

【０００２】

【従来の技術】スペクトル・モデリング・合成（以下、
ＳＭＳと略称する）技術を用いた音楽シンセサイザの従
来技術は、本願の発明者の一人であるザビエル・セラ
（XavierSerra）の執筆に関わる「確定的成分とストカ
スティック成分の分解に基づくサウンドの分析／変換／
合成のためのシステム」（"A System for Sound Analys
is/Transformation/Synthesis based on a Determinist
ic plus Stochastic Decomposition"）と題する1989年1
0月発表のスタンフォード大学博士論文に示されてい
る。また、同じくザビエル・セラの発明に関わる「確定
的波形とストカスティック波形の組合せによる音楽シン
セサイザ」（"Musical Synthesizer CombiningDetermin
istic and Stochastic Waveforms"）と題する米国特許
第５，０２９，５０９号にも示されており、また、上記
米国特許に対応する国際出願公開番号WO90/13887にも開
示されている。

【０００３】ＳＭＳ技術は、サウンドが２つのタイプの
成分，すなわち確定的成分（a deterministic componen
t)とストカスティック成分 (a stochastic component;
確率的な若しくは不規則的な成分)，で構成されると考
えるモデルを使用する楽音の分析及び合成技術である。
確定的成分は、一連のシヌソイド（sinusoid; 正弦波の
形状で変化する波形) で表わされ、各シヌソイド毎に振
幅と周波数関数を持つ。つまり、確定された振幅と周波
数を持つスペクトル成分である。ストカスティック成分
は、マグニチュード・スペクトルエンベロープで表わさ
れる。例えば、オリジナル波形のスペクトルから確定的
成分のスペクトルを差し引いた結果であるところの残差
スペクトルを、スペクトルエンベロープで表現したもの
がストカスティック成分である。サウンドの分析と合成
は、一連の時間フレームにおける各時間フレーム毎に夫
々行なわれる。

【０００４】各時間フレーム毎の分析データは、夫々が
特定の周波数と振幅値を持つ１揃いの部分音（partia
l；パーシャル）と、周波数領域のエンベロープとによ
って、下記数１のように、表現される。

【０００５】

【数１】

【０００６】ここで、ｆは、特定のフレームを示す。ａ
n(ι)とｆn(ι)は、フレームιにおける各部分音の振幅
及び周波数を示し、確定的成分に対応する。Ｎは、その
フレームにおける部分音の数である。ｅm(ι)は、スト
カスティック成分に対応するスペクトルエンベロープで
あり、ｍはブレークポイント番号、Ｍはそのフレームに
おけるブレークポイント数である。

【０００７】

【発明が解決しようとする課題】このようなＳＭＳ技術
に基づく楽音合成は、圧縮された分析データを使用して
極めて高品質のサウンド波形を合成することができると
いう利点を持つ。また、サウンド合成に使用する分析デ
ータを、ユーザーが自由に制御することにより、幅広い
多様なニューサウンドを作り出すことができる可能性を
秘めているものである。そこで、ＳＭＳ技術に基づく楽
音合成技術において、様々な音楽的制御のための具体的
手法を確立することが望まれていた。

【０００８】一方、オリジナルサウンド波形をフーリエ
変換その他の技術によって分析して部分音スペクトルデ
ータを得て、これをメモリに記憶し、メモリから読み出
した部分音スペクトルデータを逆フーリエ変換すること
によりサウンド波形を合成する技術それ自体もよく知ら
れている。しかし、従来知られた部分音合成技術は、単
なる合成技術にすぎず、合成しようとするサウンドの音
楽的特徴を制御するために分析的なアプローチを採用す
るものではなかった。

【０００９】音楽シンセサイザにおける一つの技術的課
題として、人声音を如何にして合成するかというものが
ある。従来知られたボーカル音合成技術の多くは、ボー
カル・モデルに基づくものである。すなわち、振動信号
を時変動するフィルタに通すものである。このモデル
は、高品質のサウンドを生成することができず、また、
融通性に欠けているものである。また、従来のボーカル
音合成技術の大多数は、分析に基づくものではなく、単
なる合成技術である。すなわち、或る与えられたシンガ
ー（歌い手）に基づいてモデル形成できるものではな
い。また、従来の技術では、記録したシンガー音からビ
ブラートを取り除くための方法が提案されていない。

【００１０】この発明は上述の点に鑑みてなされたもの
であり、その１つの目的は、ＳＭＳ技術に基づく楽音合
成技術あるいは部分音合成技術又はその他の分析的なサ
ウンド合成技術において、合成しようとするサウンドの
音楽的特徴を制御するために分析的なアプローチを採用
することにより、良好なサウンド制御を達成しうるよう
にすることである。また、この発明の目的は、ＳＭＳ技
術を基にしたサウンドの合成及び分析において、様々な
改良を提案し、その実用性を高めることにある。

【００１１】更に、この発明の他の目的は、オリジナル
サウンド波形の分析データからフォルマントの特徴を抽
出し、制御し、サウンド波形の合成のために利用するた
めの技術を提供することにある。更に、この発明の他の
目的は、オリジナルサウンド波形の分析データからビブ
ラート又はトレモロの特徴を抽出し、制御し、サウンド
波形の合成のために利用するための技術を提供すること
にある。更に、この発明の他の目的は、オリジナルサウ
ンド波形の分析データからスペクトルチルトの特徴を抽
出し、制御し、サウンド波形の合成のために利用するた
めの技術を提供することにある。

【００１２】更に、この発明の他の目的は、オリジナル
サウンド波形の分析データからピッチを抽出し、制御
し、可変ピッチ制御したサウンド波形を合成するために
利用するための技術を提供することにある。更に、この
発明の他の目的は、オリジナルサウンド波形の分析デー
タからビブラートのような低周波域の変動を検出するこ
とにより特定の波形セグメントを抽出し、抽出した波形
セグメントを制御し、発音時間長を延長又は短縮したサ
ウンド波形を合成するために利用するための技術を提供
することにある。更に、この発明の他の目的は、ＳＭＳ
技術とデジタルウェーブガイド技術とを融合した新規な
サウンド合成技術を提供することにある。更に、この発
明の他の目的は、ＳＭＳ技術を使用した分析的な手法に
より、高品質のボーカルフレーズ音声を合成することを
提案することにある。

【００１３】

【課題を解決するための手段】上述の目的を達成するた
めに、第１の観点に従えば、この発明に係るサウンドを
分析し合成するための方法は、オリジナルサウンドを分
析することにより、該オリジナルサウンド波形を構成す
る複数の成分を示す分析データを提供する第１のステッ
プと、前記分析データから所定のサウンド要素に関する
特徴を分析して、分析した該特徴を示すデータを、前記
オリジナルサウンドにおける前記要素についての固有の
特性を示すサウンドパラメータとして抽出する第２のス
テップと、抽出されたサウンドパラメータに対応する特
徴を前記分析データから取り除く第３のステップと、前
記特徴が取り除かれた分析データに対して、サウンドパ
ラメータに対応する特徴を付加する第４のステップと、
この特徴が付加された分析データに基づき、サウンド波
形を合成する第５のステップとを備える。

【００１４】上述の目的を達成するために、第２の観点
に従えば、この発明に係るサウンドを分析するための方
法は、前記第１のステップと、前記第２のステップと、
前記第３のステップとを備え、前記特徴が取り除かれた
分析データと、前記サウンドパラメータとの組合せによ
って前記オリジナルサウンド波形を表現することを特徴
とする。

【００１５】上述の目的を達成するために、第３の観点
に従えば、この発明に係るサウンドを分析し合成するた
めの方法は、前記第１のステップと、前記第２のステッ
プとを備え、更に、前記サウンドパラメータを変更する
ための第３のステップと、前記分析データに対して、前
記サウンドパラメータに対応する特徴を付加する第４の
ステップと、この特徴が付加された分析データに基づ
き、サウンド波形を合成する第５のステップとを備えた
ことを特徴とする。

【００１６】上述の目的を達成するために、第４の観点
に従えば、この発明に係るサウンド波形合成装置は、オ
リジナルサウンドの分析に基づき該オリジナルサウンド
波形を構成する複数の成分を示す分析データを提供する
分析手段と、前記分析データから所定のサウンド要素に
関する特徴を分析して、分析した該特徴を示すデータを
サウンドパラメータとして抽出すると共に、抽出された
サウンドパラメータに対応する特徴を前記分析データか
ら取り除くデータ処理手段と、前記特徴が取り除かれた
分析データと前記サウンドパラメータとを記憶する記憶
手段と、前記分析データとサウンドパラメータを前記記
憶手段から読み出し、読み出した分析データに対して該
サウンドパラメータに対応する特徴を付加するデータ再
生手段と、データ再生手段で再生された分析データに基
づき、サウンド波形を合成するサウンド合成手段とを備
えたことを特徴とする。

【００１７】上述の目的を達成するために、第５の観点
に従えば、この発明に係るサウンド波形合成装置は、部
分音を示すデータを含む波形分析データと、オリジナル
サウンドから抽出された所定のサウンド要素に関する特
徴を示すサウンドパラメータとを記憶している記憶手段
と、前記波形分析データとサウンドパラメータを前記記
憶手段から読み出す読出し手段と、読み出されたサウン
ドパラメータを変更するための制御を行なう制御手段
と、前記読み出した波形分析データを、前記制御された
サウンドパラメータによって変更するデータ変更手段
と、データ変更手段で変更された波形分析データに基づ
き、サウンド波形を合成するサウンド合成手段とを備え
る。

【００１８】上述の目的を達成するために、第６の観点
に従えば、この発明に係るサウンド波形合成装置は、オ
リジナルサウンドをスペクトル分析したデータを提供す
る第１の手段と、前記スペクトル分析されたデータから
フォルマント構造を検出し、検出したフォルマントを記
述するパラメータを生成する第２の手段と、前記スペク
トル分析されたデータから前記検出されたフォルマント
構造を差引き、残余のスペクトルデータを生成する第３
の手段とを備え、前記残余のスペクトルデータと前記パ
ラメータとの組合せによって前記オリジナルサウンド波
形を表現することを特徴とする。このサウンド波形合成
装置は、更に、前記フォルマントを制御するために前記
パラメータを可変制御する第４の手段と、前記パラメー
タに基づきフォルマント構造を再生し、再生されたフォ
ルマント構造を前記残余のスペクトルデータに付加し、
制御されたフォルマント構造を有するスペクトルデータ
を作成する第５の手段と、前記第５の手段で作成された
スペクトルデータに基づきサウンド波形を合成するサウ
ンド合成手段とを具備していてよい。

【００１９】上述の目的を達成するために、第７の観点
に従えば、この発明に係るサウンド波形合成装置は、オ
リジナルサウンドの分析によって得た複数のサウンド部
分を示す部分音データのセットを提供するものであり、
各部分音データは周波数データを含み、前記部分音デー
タのセットを時間関数で提供する第１の手段と、前記部
分音データにおける周波数データの時間関数からオリジ
ナルサウンドにおけるビブラートを検出し、検出したビ
ブラートを記述するパラメータを生成する第２の手段
と、前記部分音データにおける周波数データの時間関数
から前記検出されたビブラートの特徴を取り除き、修正
された周波数データの時間関数を生成する第３の手段と
を備え、前記修正された周波数データの時間関数を含む
前記部分音データと前記パラメータとの組合せによって
時間的に変化する前記オリジナルサウンド波形を表現す
ることを特徴とする。このサウンド波形合成装置は、更
に、ビブラートを制御するために前記パラメータを可変
制御する第４の手段と、前記パラメータに基づきビブラ
ート関数を発生し、発生されたビブラート関数によって
前記修正された周波数データの時間関数にビブラートを
付与する第５の手段と、ビブラート付与された周波数デ
ータの時間関数を含む前記部分音データに基づきサウン
ド波形を合成するサウンド合成手段とを備えていてよ
い。

【００２０】上述の目的を達成するために、第８の観点
に従えば、このサウンド波形合成装置において、前記部
分音データにおけるマグニチュードデータの時間関数か
らオリジナルサウンドにおけるトレモロを検出し、これ
により上記ビブラートの場合と同様の処理をしてもよ
い。そうすると、トレモロの抽出と、その可変制御、及
びそれに基づくサウンド波形合成が可能である。

【００２１】上述の目的を達成するために、第９の観点
に従えば、この発明に係るサウンド波形合成装置は、オ
リジナルサウンドのスペクトル構造を示すスペクトルデ
ータを提供する第１の手段と、前記スペクトルデータに
基づき、そのスペクトルエンベロープに概ね適合してい
るただ１本のチルトラインを検出し、検出したチルトラ
インを記述するチルトパラメータを生成する第２の手段
と、スペクトルの傾きを制御するために、前記チルトパ
ラメータを可変制御する第３の手段と、制御されたチル
トパラメータに基づき前記スペクトルデータのスペクト
ル構造を制御する第４の手段と、制御されたスペクトル
データに基づきサウンド波形を合成するサウンド合成手
段とを備える。

【００２２】上述の目的を達成するために、第１０の観
点に従えば、この発明に係るサウンド波形合成装置は、
オリジナルサウンドを構成する部分音のスペクトルデー
タを複数の時間フレームに対応して提供する第１の手段
と、一連の時間フレームにおける前記部分音スペクトル
データにおける周波数データに基づき前記オリジナルサ
ウンドの平均ピッチを検出し、ピッチデータを生成する
第２の手段と、前記ピッチデータを可変制御するための
第３の手段と、制御されたピッチデータに応じて前記部
分音スペクトルデータにおける周波数データを修正する
第４の手段と、前記修正された周波数データを含む前記
部分音スペクトルデータに基づき、可変制御されたピッ
チを持つサウンド波形を合成するサウンド合成手段とを
備える。

【００２３】上述の目的を達成するために、第１１の観
点に従えば、この発明に係るサウンドを分析し合成する
方法は、オリジナル波形を構成する部分音のスペクトル
データを、複数の時間フレームに対応して順次に提供す
るステップと、前記複数の時間フレームのスペクトルデ
ータ列から前記オリジナル波形におけるビブラート変動
を検出し、この変動の少なくとも１サイクルに対応する
長さを持つ１又は複数の波形セグメントを指摘するデー
タリストを作成するステップと、前記データリストを参
照して、任意の波形セグメントを選択するステップと、
選択した波形セグメントに対応する前記スペクトルデー
タ列を前記オリジナル波形のスペクトルデータ列から抜
き出すステップと、抜き出したスペクトルデータ列を繰
り返すことにより前記波形セグメントの繰り返しに対応
するスペクトルデータ列を作成するステップと、前記繰
り返しに対応するスペクトルデータ列を使用して、延長
された長さを持つサウンド波形を合成するステップとを
備える。上記方法において、更に、前記部分音スペクト
ルデータに対応する確定的成分波形を前記オリジナル波
形から引いた残りである残差成分波形に対応するストカ
スティックデータを、複数の時間フレームに対応してシ
リーズで提供するステップと、前記選択した波形セグメ
ントに対応する前記ストカスティックデータシリーズを
前記オリジナル波形のストカスティックデータシリーズ
から抜き出すステップと、抜き出したストカスティック
データシリーズを繰り返すことにより前記波形セグメン
トの繰り返しに対応するストカスティックデータシリー
ズを作成するステップと、前記繰り返しに対応するスト
カスティックデータシリーズを使用して、延長された長
さを持つストカスティック波形を合成し、これを前記サ
ウンド波形に組み込むステップとを備えていてもよい。

【００２４】上述の目的を達成するために、第１２の観
点に従えば、この発明に係るサウンドを分析し合成する
方法は、オリジナル波形を構成する部分音のスペクトル
データを、複数の時間フレームに対応して順次に提供す
るステップと、前記複数の時間フレームのスペクトルデ
ータ列から前記オリジナル波形におけるビブラート変動
を検出し、この変動の少なくとも１サイクルに対応する
長さを持つ１又は複数の波形セグメントを指摘するデー
タリストを作成するステップと、前記データリストを参
照して、任意の波形セグメントを選択するステップと、
選択した波形セグメントに対応する前記スペクトルデー
タ列を前記オリジナル波形のスペクトルデータ列から取
り去り、その前後で残された２つのスペクトルデータ列
を接続し、短縮されたスペクトルデータ列を作成するス
テップと、前記短縮されたスペクトルデータ列を使用し
て、短縮された長さを持つサウンド波形を合成するステ
ップとを備える。上記方法において、更に、前記部分音
スペクトルデータに対応する確定的成分波形を前記オリ
ジナル波形から引いた残りである残差成分波形に対応す
るストカスティックデータを、複数の時間フレームに対
応して順次に提供するステップと、前記選択した波形セ
グメントに対応する前記ストカスティックデータ列を前
記オリジナル波形のストカスティックデータ列から取り
去り、その前後で残された２つのストカスティックデー
タ列を接続し、短縮されたストカスティックデータ列を
作成するステップと、前記短縮されたストカスティック
データ列を使用して短縮された長さを持つストカスティ
ック波形を合成し、これを前記サウンド波形に組み込む
ステップとを更に備えていてよい。

【００２５】

【作用】前記第１の観点乃至第５の観点のいずれかに従
う方法または装置によれば、オリジナルサウンドの分析
データから所定のサウンド要素に関する特徴を分析し、
分析した該特徴を示すデータをサウンドパラメータとし
て抽出するようにしたので、例えばフォルマントやビブ
ラートなどのような様々なサウンド要素に関して、オリ
ジナルの特徴を示している品質のよいサウンドパラメー
タを得ることができる。従って、このパラメータをサウ
ンド波形合成に際して利用すれば、品質のよい各種音楽
的特徴の合成を行なうことができる。しかも、サウンド
パラメータとして分析データから分離抽出されているた
め、その可変制御が容易であり、ユーザーによる自由な
音楽制御に適したものである。また、抽出されたサウン
ドパラメータに対応する特徴を前記分析データから取り
除くようにしているため、分析データの構造が簡単化さ
れ、データ圧縮が期待できるものである。このように、
サウンドパラメータを分析データから抽出分離し、該サ
ウンドパラメータに対応する特徴が取り除かれた分析デ
ータとサウンドパラメータの組み合わせによってオリジ
ナルサウンド波形を表現するデータを提供し、これに基
づきサウンド波形を合成する技術は、種々の効果が期待
できるものである。前記第６の観点乃至第１２の観点の
いずれかに従う装置または方法によれば、各種のサウン
ドパラメータ（フォルマント、ビブラート、トレモロ、
スペクトルなど）の抽出とそれに基づく波形合成・制御
が達成される。

【００２６】

【実施例】以下、この発明の実施例を添付図面を参照し
て詳細に説明しよう。〔全体説明〕図１は、この発明の一実施例に係る音楽シ
ンセサイザーの全体図である。このシンセサイザーは、
大別して、オリジナルサウンドの分析を行なう分析部１
０と、分析された表現物すなわち分析データからサウン
ドを合成する合成部１１とを含んでいる。オリジナルサ
ウンドはマイクロフォン１２によって外部からピックア
ップして、分析部１０に入力するようにしてよいし、そ
の他の適宜の方法で分析部１０に導入してもよい。この
シンセサイザーにおける分析と合成の両方が、前述の米
国特許第５，０２９，５０９号にその基本原理が示され
たようなＳＭＳ（スペクトル・モデリング・合成）技術
を基にしているものである。なお、分析されたデータが
すでにシンセサイザーのメモリ内にストアされていても
よく、その場合は分析部１０はオプショナルであってよ
い。このシンセサイザーは、シンギング・ボイス（人の
歌声）若しくはボーカル・フレーズ（人声音フレーズ）
の分析及び合成に適しているシンギング・シンセサイザ
ーとして構成してよい。しかし、本発明は、シンギング
ボイスに限らず、自然楽器音やその他の楽音／サウンド
一般の分析と合成に応用可能である。

【００２７】以下で説明する実施例においては、ＳＭＳ
分析に関して或るいくつかの改良がなされている。その
ような改良は、シンギング・ボイス若しくはボーカル・
フレーズの分析と合成に適しているものであるが、サウ
ンド一般の分析と合成にも適するものである。そのよう
な改良の１つとして、ＳＭＳ分析データから所定のサウ
ンド要素に関する特徴を分析し、分析した特徴を示すデ
ータをサウンドパラメータとして抽出するための処理が
分析部１０で行なわれる。このサウンドパラメータを以
下では音楽パラメータという。抽出された音楽パラメー
タは、合成部１１に与えられ、サウンド合成の際にユー
ザーによって操作することができるようになっている。
すなわち、ユーザーは、合成しようとするサウンドを好
みに応じて変更制御しようとする場合、特殊なＳＭＳ分
析データのフォームからなるパラメータで相互作用する
必要がなく、なじみの深い従前の音楽制御情報に対応す
るフォームからなる音楽パラメータで相互作用すればよ
いことになり、便利である。そのような音楽パラメータ
とは、例えば、トーンピッチ、ビブラート、トレモロ、
などのような音楽要素又は楽音要素に対応するパラメー
タである。そのために、相互作用的な編集機器群１３や
音楽コントローラ群１４を装備していてよい。

【００２８】編集機器群１３は、各種のコンピュータ端
末機器（入力キーボードや、ディスプレイ、マウスその
他）であってよい。音楽コントローラ群１４は、音階音
を指定するためのキーボードや、音色を選択若しくは設
定するためのパネルスイッチ群や、各種の楽音効果を選
択制御するためのスイッチ群や、ユーザーの自由な意志
に従って楽音制御を行なうための各種の操作子群などを
含んでいてよい。この音楽コントローラ群１４の中に
は、ユーザーのボイス（人の音声）で楽音を制御するも
のを含んでいてもよいし、ボディアクションやブレスで
制御するものを含んでいてもよい。ユーザーにより操作
可能なこれらの編集機器群１３及びコントローラ群１４
と、合成部１１との間には、音楽パラメータインターフ
ェース部１５が設けられ、パラメータのやり取りや情報
の翻訳が適切に行なわれる。

【００２９】以下、図２以降の図を参照して、このシン
セサイザーの詳細例を更に詳しく説明するが、提示した
各部の詳細図は機能ブロック図である。図示された各機
能を実現する手段を、ディスクリート回路によって構成
してもよいし、マイクロコンピュータを使用したソフト
ウェア処理によって構成してもよい。また、このシンセ
サイザーは、以下で説明する改良に関わる全ての機能を
併せ持っている必要はなく、任意の１つの機能のみ持っ
ているだけでもよい。

【００３０】〔分析部の説明〕図２は、分析部１０の一
例を示すブロック図である。オリジナルサウンド信号が
入力されるＳＭＳ分析器２０は、前述の米国特許第５，
０２９，５０９号に示されたようなＳＭＳ分析技術に従
ってオリジナルサウンドのＳＭＳ分析を行なうものであ
る。このＳＭＳ分析器２０の具体的構成としては、例え
ばその米国特許の第１図に示されたような構成を参照す
ることができる。しかし、便宜のために、ＳＭＳ分析器
２０の基本構成例をブロック２０内に概略的に示す。

【００３１】−ＳＭＳ分析器− ＳＭＳ分析器２０において、入力サウンド信号は、最初
に時間窓処理部２０ａで処理される。ここでは、入力サ
ウンド信号を、時間窓と言われる一連の時間フレームに
分ける処理が行なわれる。次の周波数分析部２０ｂで
は、各時間フレーム毎のサウンド信号を分析し、１組の
マグニチュードスペクトルデータを発生する。例えば、
高速フーリエ変換器（ＦＦＴ）による分析により、複素
数スペクトルを発生し、複素数-実数変換器でこれをマ
グニチュードスペクトルに変換するようにしてもよい
し、その他の周波数分析方法を使用してもよい。

【００３２】線スペクトル抽出部２０ｃでは、分析され
たオリジナルサウンドの１組のマグニチュードスペクト
ルから部分音の線スペクトルを抽出する。例えば、分析
されたオリジナルサウンドの１組のマグニチュードスペ
クトルにおけるピークを検出し、これらのピークに対応
する特定の周波数と振幅値すなわちマグニチュード値を
持つスペクトルを線スペクトルとして抽出する。これら
の抽出された線スペクトルが確定的成分に対応する。抽
出された１つの線スペクトルすなわち確定的成分は、特
定の周波数を示すデータと、その振幅値すなわちマグニ
チュード値を示すデータのペアからなっていてよいし、
更にはそのデータペアに位相を示すデータが加わってい
てもよい。これらの部分音の線スペクトルデータは、各
時間フレームに対応して時系列的に得られるものであ
り、そのような時系列的な線スペクトルデータセットを
夫々周波数トラジェクトリ（trajectory; 軌跡若しくは
遍歴）、マグニチュードトラジェクトリ、位相トラジェ
クトリと呼んでいる。

【００３３】残差スペクトル生成演算部２０ｄでは、各
時間フレーム毎に、オリジナルサウンドの１組のマグニ
チュードスペクトルから、前記抽出された線スペクトル
を引算し、残差スペクトルを生成する。この場合、前記
米国特許に示されているように、前記抽出された線スペ
クトルに基づき確定的成分の波形を合成し、これを再分
析して線スペクトルの再抽出を行ない、再抽出した線ス
ペクトルをオリジナルサウンドの１組のマグニチュード
スペクトルから引算する処理を行なってもよい。

【００３４】次の残差スペクトルエンベロープ発生器２
０ｅでは、各時間フレーム毎に、残差スペクトルをエン
ベロープによって表現する処理を行なう。この残差スペ
クトルエンベロープは、例えば、線セグメント近似物の
形でデータ表現することができるので、データ圧縮の促
進に寄与する。一連の時間フレームに対応して発生され
る残差スペクトルエンベロープは、ストカスティック成
分に対応するものである。ＳＭＳ分析器２０で得られ
る、確定的成分に対応する周波数トラジェクトリ及びマ
グニチュードトラジェクトリ（更に位相トラジェクトリ
を含んでいてもよい）と、ストカスティック成分に対応
する残差スペクトルエンベロープとを総称して、以下で
はＳＭＳデータと呼ぶ。

【００３５】−ＳＭＳデータ処理の概略− ＳＭＳデータ処理部３０では、ＳＭＳ分析器２０で得ら
れたＳＭＳデータに対して適宜の処理を施す。ここでの
処理は、大別して２種類ある。１つは、ＳＭＳデータを
適宜に処理することにより、変更されたされたＳＭＳデ
ータを得ること。もう１つは、ＳＭＳデータから各種の
音楽パラメータを抽出することである。データ処理ブロ
ック３０ａでは、確定的成分に対応する周波数トラジェ
クトリ及びマグニチュードトラジェクトリ（更に位相ト
ラジェクトリを含んでいてもよい）について上述のデー
タ処理を行なう。データ処理ブロック３０ｂでは、スト
カスティック成分に対応する残差スペクトルエンベロー
プについて上述のデータ処理を行なう。

【００３６】ＳＭＳデータ処理部３０における処理によ
って得られた、処理済みの又は変更されたＳＭＳデータ
と、各種の音楽パラメータは、データメモリ１００にお
いて各フレームに対応してストアされる。ＳＭＳデータ
処理部３０において行なう処理は、色々あるが、発明の
実施にあたってはそのすべてを行なう必要はなく、適宜
選択して実施してよい。処理が施されなかったＳＭＳデ
ータに関しては、分析器２０から与えられたものと同じ
ものがデータメモリ１００にストアされるであろう。

【００３７】ＳＭＳデータ処理部３０において行なわれ
る各種処理の概略について図３を参照して説明する。た
だし、図３は、ＳＭＳデータ処理部３０において行なわ
れるすべての処理を紹介するものではなく、いくつかの
代表的な処理について示している。前述のように、図３
に示されたすべての処理を実施する必要はなく、実施に
あたって不要なステップは適宜省略してよい。図３に示
された処理のいくつかは追って更に詳しく説明される。
また、図３に示されたなかった処理についても、追って
詳しく説明されるものがある。

【００３８】ステップ３１：スペクトルの傾き分析この処理の基本思想は、マグニチュードとスペクトルの
チルトすなわち傾きとの相関を見つけだすことである。
ここで、チルトとはスペクトルの全体的なスロープのこ
とである。すなわち、チルトとは、各ハーモニックピー
クの頂部を概ね結んだ一直線状のスロープである。典型
的には、音楽サウンドにおいて、チルトがより小さい場
合、より高いハーモニックスの振幅が相対的に高めら
れ、その結果、より明るい感じのサウンドをもたらす。
このスペクトルの傾き分析処理では、“チルトファクタ
ー”と称する単一の数値データを求める。このチルトフ
ァクターは、マグニチュードとスペクトルのチルトとの
間の相関を表わしている。このチルトファクターは、各
フレーム毎に求められる。各フレーム毎に求めたチルト
ファクターを使用して、どのフレームに対しても共通の
単一のチルトフアクターを求めるための“スペクトルチ
ルト正規化”が後のステップで行なわれる。チルトフア
クターは音楽パラメータの一種といってよいものであ
る。これによって、１つのチルトファクターをユーザー
が自由に制御することで、ＳＭＳにより合成されるサウ
ンドの特性を、ユーザーの意志を的確に反映してかつ自
由に制御できるものとなる。

【００３９】ステップ３２：周波数及びマグニチュード
のデトレンディング（de-trending;癖取り除き) 記録したオリジナルサウンドは、その安定状態におい
て、クレッセンドやデクレッセンドのような音量変化、
又はわずかなピッチ変化を持っているのが普通である。
ところで、記録した波形データの持続時間よりも長い時
間だけサウンドを再生発音することを可能にする技術と
して、ループ処理といわれる繰返し発音処理を安定状態
において行なうことが知られている。そのようなループ
処理にあたって、ループする波形データ区間において音
量やピッチの変動があると、ループポイント(繰返しの
つなぎポイント)で目立った不連続が生じたり、ルーピ
ングによる不自然な周期性が目立ったりするので好まし
くない。そこで、この問題を解決するために、このデト
レンディング処理では、ＳＭＳデータにおけるその種の
変動を取り除き、サウンドの安定状態での全体的な傾向
（トレンド）を可能な限り平坦にするよう処理する。た
だし、ビブラートやサウンドの微変動は取り除かずに残
しておく。

【００４０】ステップ３３：スペクトルチルト正規化ここでは、各フレーム毎に求めたチルトファクターを使
用して、どのフレームに対しても共通の単一のチルトフ
アクターを求める。これにより、ユーザーによる制御対
象であるチルトフアクターは、時間フレームに関係なく
単一となるので、制御性が向上する。

【００４１】ステップ３４：平均マグニチュード抽出ここでは、各フレーム毎に、全ての確定的信号のマグニ
チュード値の平均値を計算する。すなわち、１つのフレ
ームについては、全ての部分音成分のマグニチュード
値を加算し、その加算値を部分音成分の数で割る。こう
して得た各フレーム毎の平均マグニチュードをマグニチ
ュード関数と呼ぶ。このマグニチュード関数は、確定的
成分によって代表されるサウンドの音量の時変動を示し
ている。さらには、これらのフレーム毎の平均マグニチ
ュードから、全体の平均マグニチュードを計算する。全
体の平均マグニチュードは、サウンドの安定状態につい
て計算される。この全体の平均マグニチュードは、安定
状態における該サウンドの代表的音量レベルを示してい
る。

【００４２】ステップ３５：ピッチ抽出ここでは、各フレーム毎のピッチが計算される。これ
は、１つのフレームについては、ＳＭＳデータにおける
最初のいくつかの、つまり低次の、部分音成分を使用し
て、重み付けされた平均ピッチを計算することにより行
なう。この重みづけにあたっては、重み付けファクター
として、各部分音成分のマグニチュード値を使用する。
こうして求めた平均ピッチが、そのフレームにおけるサ
ウンドのピッチと呼ばれる。こうして得た各フレーム毎
の平均ピッチをピッチ関数と呼ぶ。このピッチ関数は、
確定的成分によって代表されるサウンドのピッチの時変
動を示している。さらには、これらのフレーム毎の平均
ピッチから、全体の平均ピッチを計算する。全体の平均
ピッチは、サウンドの安定状態について計算される。こ
の全体の平均ピッチは、安定状態における該サウンドの
代表的ピッチを示している。ステップ３６：フォルマント抽出及び引算この基本思想は、ＳＭＳデータからフォルマントを抽出
し、抽出したフォルマントをＳＭＳデータから引算する
ことである。その結果得られる変更されたＳＭＳデータ
における全ての部分音成分が似たようなマグニチュード
値を持つことになる。つまり、スペクトル形状が平坦に
なる。抽出したフォルマントを表現するフォルマントデ
ータは、後段の合成段階で利用される。このフォルマン
トデータは、音楽パラメータの一種といってよいもので
ある。これによって、フォルマントデータをユーザーが
自由に制御することで、ＳＭＳにより合成されるサウン
ドの特性を、ユーザーの意志を的確に反映してかつ自由
に制御できるものとなる。

【００４３】ステップ３７：ビブラート抽出及び引算ここでは、上記ステップ３５で求めたピッチ関数から、
ビブラートのかかっている部分を抽出し、抽出したビブ
ラート成分をピッチ関数から引算する。抽出したビブラ
ートを表現するビブラートデータは、後段の合成段階で
利用される。ビブラートデータも、音楽パラメータの一
種といってよく、ユーザーによるビブラートの容易な制
御を可能にする。

【００４４】ステップ３８：ピッチ正規化ここでは、上記ステップ３７から出力されるビブラート
抜きのピッチ関数における各フレームの平均ピッチから
前記全体平均ピッチを引き算することにより、正規化さ
れたピッチ関数を得る。

【００４５】ステップ３９：トレモロ抽出及び引算ここでは、上記ステップ３４で求めたマグニチュード関
数から、トレモロのかかっている部分を抽出し、抽出し
たトレモロ成分をマグニチュード関数から引算する。こ
うして、トレモロデータとトレモロ成分を除去したマグ
ニチュード関数とを得る。また、ＳＭＳデータにおける
マグニチュードトラジェクトリからもトレモロ成分を除
去し、かつ、ストカスティックゲイン（各フレーム毎の
残差スペクトルエンベロープのゲイン）からトレモロ成
分を除去してもよい。トレモロデータも、音楽パラメー
タの一種といってよく、ユーザーによるトレモロの容易
な制御を可能にする。

【００４６】ステップ４０：マグニチュード及び周波数
の正規化ここでは、ＳＭＳデータを正規化する処理を行なう。周
波数データは、ステップ３５で抽出されたピッチ関数に
よって、各部分音成分毎の周波数トラジェクトリを、そ
の部分音数分だけ、割算することによって正規化され
る。これにより、各部分音成分の演算結果は、１に近い
周波数値を持つようになる。マグニチュードデータは、
マグニチュードトラジェクトリから、上記マグニチュー
ド関数を引算することによって正規化する。ストカステ
ィックデータについては、安定状態におけるストカステ
ィックゲイン（各フレーム毎の残差スペクトルエンベロ
ープのゲイン）の平均値を求め、これを基準値として、
各フレーム毎の残差スペクトルエンベロープのゲインか
ら引算することにより正規化してよい。こうして、正規
化されたＳＭＳデータを得るようにしてよい。また、マ
グニチュード関数に関しても、全体平均マグニチュード
を基準にして正規化し、正規化されたマグニチュード関
数を得るようにしてよい。

【００４７】上述したようなＳＭＳデータ処理部３０に
おける各処理によって得られた、処理済みの、すなわち
変更された又は正規化されたＳＭＳデータと、各種の音
楽パラメータは、前述したように、データメモリ１００
において各フレームに対応してストアされる。前述した
ように、本発明の実施にあたっては、上述した各処理は
オプショナルであるため、例えば上記ステップ４０のよ
うな正規化処理を行なった場合は正規化されたＳＭＳデ
ータがデータメモリ１００にストアされるが、行なわな
かった場合は、単に変更されたＳＭＳデータがデータメ
モリ１００にストアされる。また、変更も正規化も行な
わなかった場合は、ＳＭＳ分析器２０で分析されたまま
のＳＭＳデータがデータメモリ１００にストアされるで
あろう。

【００４８】〔合成部の説明〕図４は、合成部１１の一
例を示すブロック図である。データメモリ１００は、図
２に示されたものと同じものであり、上記のように、各
フレームについての処理済みのＳＭＳデータと抽出され
た各種の音楽パラメータがストアされている。これらの
データは、１つのオリジナルサウンドに対応するものだ
けに限らず、多数の異なるオリジナルサウンドに対応す
るものをストアするようにしてもよいのは勿論である。

【００４９】再生処理部５０は、所望のサウンドを再生
するために、データメモリ１００からストアされたデー
タの読み出しを行なう処理と、読み出したＳＭＳデータ
と音楽パラメータに基づく、追って述べるような様々な
データ操作処理を行なう。また、図１に示された編集機
器群１３や音楽コントローラ群１４によって発生された
制御パラメータを含む各種の音楽パラメータがこの再生
処理部５０に与えられ、この再生処理部５０における各
種処理をユーザーの制御に従って行なえるようにしてい
る。例えば、ユーザーによって、望みのボイス若しくは
音色を選択すると、このボイス若しくは音色に対応する
１つのオリジナルサウンドに対応する一揃いのデータ
を、データメモリ１００から読み出し可能にする。それ
から、ユーザーによって、発音開始指示が与えられる
と、時間フレームのシーケンスがスタートし、上記読み
出し可能にされた一揃いのデータのうち、該シーケンス
によって指定される特定のフレームについてのＳＭＳデ
ータと各種パラメータがデータメモリ１００から読み出
される。こうして読み出されたＳＭＳデータと音楽パラ
メータとに基づき、様々なデータ操作処理を行ない、処
理済みのＳＭＳデータをＳＭＳサウンド合成器１１０に
与える。

【００５０】ＳＭＳサウンド合成器１１０は、入力され
たＳＭＳデータに基づき、前述の米国特許第５，０２
９，５０９号に示されたようなＳＭＳ合成技術に従って
サウンドの合成を行なうものである。このＳＭＳサウン
ド合成器１１０の具体的構成としては、例えばその米国
特許の第２図、第４図又は第５図に示されたような構成
を参照することができる。しかし、便宜のために、ＳＭ
Ｓサウンド合成器１１０の基本構成例をブロック１１０
内に概略的に示す。すなわち、入力されたＳＭＳデータ
のうち、確定的成分に対応する線スペクトルデータ（周
波数，マグニチュード，位相）が確定的波形発生部１１
０ａに入力され、これらに基づくフーリエ合成技術によ
って確定的成分に対応する波形が発生される。また、入
力されたＳＭＳデータのうち、ストカスティック成分に
対応する残差スペクトルエンベロープがストカスティッ
ク波形発生部１１０ｂに入力され、このスペクトルエン
ベロープに対応するスペクトル特性を持つストカスティ
ック波形が発生される。ストカスティック波形発生部１
１０ｂは、例えば、ノイズ信号を残差スペクトルエンベ
ロープに応じた特性でフィルタすることによりストカス
ティック波形を発生する。発生された確定的成分に対応
する波形とストカスティック波形が加算器１１０ｃで加
算され、望まれていたサウンドの波形信号が得られる。

【００５１】再生処理部５０では、合成すべきサウンド
のピッチを、ユーザーの所望により自由に設定すること
が可能である。すなわち、ユーザーが所望のピッチを指
定すると、これに応じて、ＳＭＳデータにおける周波数
データを変更する処理を行ない、所望ピッチでのサウン
ド合成を可能にする。勿論、再生処理部５０は、ユーザ
ーによるリアルタイムでの発音指示に応じた１つのサウ
ンドの合成に限らず、例えば編集機器群１３でプログラ
ムされたデータに従って、複数のサウンドを、同時にま
たは所定シーケンスで順番に、合成するよう処理するこ
とも可能である。ユーザーがリアルタイムで所望のボー
カルフレーズに対応する制御パラメータを順次入力す
る、又は、プログラムされたデータに基づいて所望のボ
ーカルフレーズに対応する制御パラメータを入力する、
ことによって所望のボーカルフレーズの合成が可能であ
る。

【００５２】−再生処理部における処理例− 再生処理部５０において行なわれる各種処理の一例につ
いて図５を参照して説明する。図５は、再生処理部５０
において行なわれるすべての処理を紹介するものではな
く、いくつかの代表的な処理について示している。図５
に示された処理における特徴的事項は、データの補間
と、音楽パラメータを考慮したＳＭＳデータの再生であ
る。データ補間を行なわない場合は、補間に関連する処
理ステップを省略してよいのは勿論である。まず、デー
タ補間を行なわない場合について説明する。その場合
は、図５のステップ５１〜５９が有効とされると考えて
よい。すなわち、現在発音すべきことが選択されている
１つの音についてのみ処理が行なわれる。

【００５３】ステップ５１：フレーム選択ここでは、シンセサイザークロックに従って、現在のフ
レームが指定され、この現在フレームに対応するデータ
（ＳＭＳデータと各種パラメータ）をデータメモリ１０
０から取り出す。このフレーム選択処理のアルゴリズム
は、シンセサイザークロックに従ってフレームを単純に
進めることのみならず、前述のループ処理のために、ル
ープエンドのフレームの次にループスタートのフレーム
に戻ることも行なうようにしてよい。

【００５４】ステップ５２：データ変換ここでは、データメモリ１００から取り出された当該フ
レームの分析データ（ＳＭＳデータと音楽パラメータ）
を、ユーザーによる制御に従って、変更する処理を行な
う。例えば、所望のピッチがユーザーによって指示され
ると、それに応じて周波数データを変更する。あるい
は、ユーザーによって所望のビブラートやトレモロが指
示されると、それに応じて所定の音楽パラメータを変更
する。こうして、ユーザーは、全ての分析データに関し
て、かつ全てのフレームにわたって、所望の制御を及ぼ
すことができる。このステップ５２による変換を経由し
て各ステップ５３〜５９に与えられるデータ名が例示的
に図５に示されている。

【００５５】ステップ５３：ここでは、前記正規化され
たピッチ関数を、全体平均ピッチによって演算し、正規
化を解除したピッチ関数を得る。ステップ５４：ここでは、前記正規化されたマグニチュ
ード関数を、全体平均マグニチュードによって演算し、
正規化を解除したマグニチュード関数を得る。ステップ５５：周波数付加ここでは、正規化されたＳＭＳデータのうち、周波数デ
ータの値を、ピッチ関数を使用して正規化解除する。

【００５６】ステップ５６：マグニチュード付加ここでは、正規化されたＳＭＳデータのうち、マグニチ
ュードデータの値を、マグニチュード関数とチルトデー
タを使用して正規化解除する。ＳＭＳデータにおいて残
差スペクトルエンベロープが正規化されている場合も、
その正規化解除をここで行なう。ステップ５７：ビブラート及びトレモロ付加ここでは、ビブラートデータ及びトレモロデータを使用
して、ＳＭＳデータにビブラート及びトレモロを付加す
る。ステップ５８：フォルマント付加ここでは、フォルマントデータを使用して、ＳＭＳデー
タにフォルマントを付加する。ステップ５９：アーティキュレーション付加ここでは、発生すべきサウンドにアーティキュレーショ
ンをつけるために、ＳＭＳデータに対して適宜のデータ
処理を施す。

【００５７】次に、データ補間について説明する。これ
は、発生すべきサウンドが、或る音（これを前音とい
う) から別の音（これを現在音という) に移行するとき
に、スムーズな移行を可能にするための処理である。例
えば、シンギング・ボイスを合成するときに有効であ
る。このために、現在音の発生の始まりの適当な期間の
間、前音の分析データ(ＳＭＳデータ及び各種パラメー
タ）もデータメモリ１００から取り出すようにする。

【００５８】ステップ６１：フレーム選択ここでは、前音に関して適当なフレームのデータ（ＳＭ
Ｓデータと各種パラメータ）をデータメモリ１００から
取り出す。ステップ６２：データ変換ここでは、ステップ５２と同様に、当該フレームの分析
データ（ＳＭＳデータと音楽パラメータ）を、ユーザー
による制御に従って、変更する。ステップ６５〜７１：補間ここでは、ＳＭＳデータ及び各パラメータ毎に、前音の
データと現在音のデータとの間で、所定の補間特性に従
って補間を行なう。この補間特性としては、例えば、ク
ロスフェード補間のように前音のデータから現在音のデ
ータへと時間的に滑らかに変化してゆくような特性を使
用することができるが、その他の適宜の特性を使用して
もよい。補間ステップ６５〜７１における様々な補間演
算パラメータを、ユーザーの制御に従って変更すること
ができるようになっている。

【００５９】〔各種のデータ処理機能の詳細〕次に、各
種のデータ処理機能の詳細について説明する。以下で
は、各機能別に、分析から合成に至る処理が説明され
る。分析段階での処理は、ＳＭＳデータ処理部３０（図
２，図３）で実行され、合成段階での処理は再生処理部
５０（図４，図５）で実行される。以下の説明では、各
データ処理機能はＳＭＳデータを対象にして施される
が、個別の各処理機能それ自体はＳＭＳデータに限ら
ず、その他のデータフォームからなる楽音データに適用
可能であり、すべてのデータフォーム種類の楽音データ
に対する適用がクレームされた本願発明の範囲に含まれ
る。

【００６０】−フォルマント抽出及び操作− この機能は、図３のステップ３６及び図５のステップ５
８における処理に対応するものである。この機能に関わ
る発明の目的は、サウンドの線スペクトル（すなわちＳ
ＭＳデータにおける確定的表現物である周波数とマグニ
チュードつまり振幅のペアからなる１組の部分音成分)
から、フォルマント構造（全体的なスペクトル特性）を
抽出し、該サウンドの線スペクトルをフォルマント抽出
物と残余のスペクトルに分離することにより、分析デー
タの圧縮化を図ると共に、サウンド合成の際にフォルマ
ントの変更等の制御を極めて容易にできるようにするこ
とである。周知のように、ボーカルサウンドにおいて
は、そのボイスを特徴づけているフォルマントが存在す
るので、この機能はボーカルサウンドの分析及び合成に
おいて極めて有利である。

【００６１】この機能に従うフォルマント抽出及び操作
システムの全体的なブロック図を図６に示す。入力側に
示されたＳＭＳ分析のステップと出力側に示されたＳＭ
Ｓ合成のステップは、前述のＳＭＳ分析器２０とＳＭＳ
サウンド合成器１１０による処理ステップに夫々対応し
ている。前述のようにＳＭＳ分析によって得られるＳＭ
Ｓデータは、周波数トラジェクトリ及びマグニチュード
トラジェクトリと、ストカスティックエンベロープ（残
差スペクトルエンベロープ）とを含む。このうち、スト
カスティックエンベロープについてはこの機能に従う処
理が施されず、確定的部分の分析結果つまり線スペクト
ルデータ即ち周波数トラジェクトリ及びマグニチュード
トラジェクトリに対してこの機能に従う処理が施され
る。参考のために、フォルマントの特性を示している１
フレーム分の確定的部分の分析結果つまり線スペクトル
データの一例を図７に示し、それに対応する１フレーム
分のストカスティックエンベロープの一例を図８に示
す。

【００６２】図６において、ステップ８０と８１の処理
は、図３のステップ３６の処理に対応するものである。
ステップ８０では、１フレーム分の線スペクトルデータ
からフォルマントを抽出するための処理を行なう。すな
わち、１セットの線スペクトルデータからフォルマント
の山を検出することと、検出したフォルマントの山を適
切な表現からなるパラメータで表現することとを行な
う。このパラメータ表現は、前述したフォルマントデー
タに対応するものである。そして、各フレーム毎に、こ
のフォルマント抽出を行ない、フレーム毎のパラメータ
表現つまりフォルマントデータを得る。こうして、フレ
ーム毎に時変動可能である一連のフォルマントデータ
（これをフォルマントトラジェクトリと呼ぶ）を得る。
１セットの線スペクトルの中に複数のフォルマントがあ
る場合、各フォルマント毎の連続的なフォルマントトラ
ジェクトリがある。フォルマントデータのパラメータ表
現の仕方として、指数近似を、ここではまず提案する。

【００６３】通常、フォルマントは、パワースペクトル
における三角形関数又はデシベルスペクトルにおける指
数関数で記述することができる。デシベルスペクトルは
人間の感覚に近いので、これを使用することは有益であ
る。そこで、フォルマントの両側を夫々指数関数で近似
することにする。そのために、フォルマントの各側毎
に、そのスロープにフィットする最適の指数関数を見つ
け出し、見つけ出した指数関数により該フォルマントを
表現する。この最適の指数関数の見つけ出し方や、表現
法には様々なバリエーションがあるであろう。その一例
を、図９を参照して説明する。

【００６４】この例では、次の４つの値によって１つの
フォルマントを表現する。ιは或る１つの時間フレーム
を特定するフレーム番号、ｉは或る１つのフォルマント
を特定するフォルマント番号である。 (1) 中心周波数Ｆｉ（ι）：ｉ番目のフォルマントの中
心周波数を示すパラメータ (2) ピークレベルＡｉ（ι）：ｉ番目のフォルマントの
中心周波数位置における振幅値を示すパラメータ (3) バンド幅Ｂｉ（ι）：ｉ番目のフォルマントのバン
ド幅を示すパラメータ (4) インターセクションＥｉ（ι）：ｉ番目のフォルマ
ントとその隣のｉ＋１番目のフォルマントとの交点を示
すパラメータ

【００６５】上記のうち最初の３つのパラメータは従来
より知られたフォルマント表現であるが、最後のインタ
ーセクションパラメータは従来知られていなかったもの
である。これは、例えば、ｉ番目のフォルマントとその
隣のｉ＋１番目のフォルマントとの交点に位置する１つ
の部分音成分すなわちスペクトラムの周波数を示すもの
である。ただし、最初の３つのパラメータに関しても、
その求め方は、後述するように指数近似によって求める
新規なものである。

【００６６】ステップ８０における処理手順を更に詳し
く説明すると次の通りである。 (1) フレームιの各線スペクトルつまり部分音成分に対
応するマグニチュードデータａn（ι）の中からいくつ
かのローカル最大値を見つけ出す。ここで、前記式１の
ように、ｎは、ｎ＝０，１，２，．．．，Ｎ−１の夫々
の値をとる変数であり、Ｎは、そのフレームにおいて分
析された線スペクトルつまり部分音成分の数である。 (2) 見つけ出した個々のローカル最大値毎に、そのロー
カル最大値を取り囲んでいる２つのローカル最小値を、
夫々見つけ出す。こうして見つけ出された１つのローカ
ル最大値と、その両側の２つのローカル最小値は、１つ
の山を提示するものである。

【００６７】(3) 各ローカル最大値とその両側の２つの
ローカル最小値とによって提示される各山から、前記パ
ラメータＦｉ，Ａｉ，Ｂｉ，Ｅｉを夫々算出する。こう
して、フレームιについての各フォルマントｉに対応す
るフォルマントデータＦｉ，Ａｉ，Ｂｉ，Ｅｉが得られ
る。 (4) 上記で求めたフレームιについての各フォルマント
ｉに対応するフォルマントデータを、個別のフォルマン
トトラジェクトリに割当てる。どのフォルマントトラジ
ェクトリに割当てるかは、中心周波数が最も近いものを
探し出して決定する。これによりフォルマントの連続性
が確保される。過去のフォルマントトラジェクトリにお
いて、所定の誤差範囲内で中心周波数が近いものがない
場合は、そのフォルマントのために新たなフォルマント
トラジェクトリを割当ててもよい。

【００６８】上記(3)のステップにおける各パラメータ
Ｆｉ，Ａｉ，Ｂｉ，Ｅｉの算出アルゴリズムにつき、次
に、説明する。上記(2)のステップにおいて１つのロー
カル最大値とその両側の２つのローカル最小値により１
つの山が特定されると、それから、これに合う２つの側
の指数関数を見つけ出さねばならない。この問題は、下
記数２に示すような式によって数学的に公式化すること
ができる。

【００６９】

【数２】

【００７０】ここで、ＦとＡは未知数であり、求めるべ
きこのフォルマントにおける中心周波数とピークレベル
振幅値である。ＬlとＬrは、２つのローカル最小値に対
応する部分音成分の次数である。ｆnとａnは、この山の
内側にある部分音成分ｉの周波数と振幅（つまりマグニ
チュード）である。ｘは、近似に使用する指数関数の底
である。−｜Ｆ−ｆn｜が、この指数関数の指数部であ
る。ｅは、この指数関数と部分音成分との間の適合の誤
差である。すなわち、上記式２は最小自乗近似法による
誤差関数である。これにより、誤差ｅが最小となるよう
なＦ，Ａ，ｘを見つけ出す。これは最小限に見積もって
も解くことが大変困難な問題である。しかし、本件での
適用にあたっては、それほど厳密な適合が要求されない
ので、別の簡単な解決策を講じてもよい。そこで、Ｆ，
Ａ，ｘを見つけ出すための、次のような、簡単なアルゴ
リズムを提案する。

【００７１】その簡単なアルゴリズムとは、フォルマン
ト周波数（Ｆ）とフォルマント振幅（Ａ）を、ローカル
最大値を精製することにより、得るものである。これ
は、その山における３つの最も高い振幅値について放物
線的補間を行なうことによって行なう。その補間の結果
得られる最大値の位置がフォルマント周波数（Ｆ）に相
当し、その高さがフォルマント振幅（Ａ）に相当する。
フォルマントバンド幅Ｂは、慣行的には、フォルマント
の先端から−３ｄＢ下がったところの帯域幅がそれに相
当する。そのような値は指数関数の底ｘを記述する。そ
れらは、下記式のような関係にある。

【００７２】

【数３】

【００７３】すべての部分音成分について最も良く適合
するバンド幅を持つフォルマント（指数関数）は次のよ
うにして見つけ出される。まず、個々の部分音成分ｎに
ついて下記式による指数関数の値ｘnを夫々求める。

【００７４】

【数４】

【００７５】それから、各ｎに対応する上記指数関数値
ｘnを上記数３の式のｘに代入して、夫々に対応する仮
のバンド幅Ｂnを夫々求める。こうして求めたそのフォ
ルマントの各仮のバンド幅Ｂnを下記式のように平均化
する。

【００７６】

【数５】

【００７７】この平均バンド幅Ｂが、そのフォルマント
のバンド幅として使用され、フォルマントとして使用さ
れた指数関数を記述するものとなる。ｉ番目のフォルマ
ントとその隣のｉ＋１番目のフォルマントとの交点を示
すインターセクションパラメータＥｉは、そのフォルマ
ントｉにおける右側のローカル最小値の周波数を用い
る。

【００７８】図６に戻ると、ステップ８１では、上記の
ように抽出した１フレームのフォルマントデータを使用
して、そのフレームについての１組の部分音成分からフ
ォルマント構造を引算する。フォルマント構造は、フォ
ルマントの形状を示す相対値であると考えてよい。１組
の部分音成分つまり線スペクトルからフォルマント構造
を引算することは、フォルマントによる変化分を差し引
いて、１組の部分音成分つまり確定的成分の線スペクト
ルを平坦化することである。従って、このステップ８１
の処理の結果得られる、確定的成分の線スペクトルデー
タは、例えば図１０のように、平坦化されたスペクトル
構造を持つものとなる。

【００７９】この手法の一例を示すと、１フレームのす
べてのフォルマントデータに基づき、該フレームのすべ
てのフォルマントを記述する関数を発生し、この関数が
０平均を持つようにその振幅値を正規化する。このよう
に正規化されたフォルマント関数は、フォルマント構造
を示している。そして、そのフレームについての１組の
部分音成分における個々の部分音成分毎に、そのマグニ
チュード値からその周波数位置に対応する正規化フォル
マント関数の振幅値を引算する。勿論、その他の手法も
可能である。

【００８０】ステップ８２の処理は、図５のステップ５
２，６２，７１の処理に対応するものである。すなわ
ち、上記のように抽出されたフォルマントデータをユー
ザーの制御によって自由に変更する処理が行なわれる。
ステップ８３の処理は、図５のステップ５８の処理に対
応するものである。すなわち、上記のように変更が適宜
加えられたフォルマントデータを確定的成分の線スペク
トルデータに付加し、確定的成分の線スペクトルデータ
にフォルマント特性を持たせる。

【００８１】このフォルマント操作によれば、ユーザー
は４つのパラメータＦ，Ａ，Ｂ，Ｅを望みに応じて制御
することにより、フォルマントを自由に制御することが
できる。これらの４つのパラメータＦ，Ａ，Ｂ，Ｅは、
フォルマントの特性／形状に直接対応しているので、フ
ォルマント操作／制御が非常にし易いものとなる、とい
う利点がある。また、フォルマントの分析／抽出につい
ても、上記で提案した方法は、従来知られたＬＰＣのよ
うな自乗近似法に比べて簡単であり、計算も能率的に行
なうことができる、という利点がある。

【００８２】−フォルマント抽出及び操作の別の例− 図１１は、フォルマント抽出及び操作システムの別の例
を示す全体的なブロック図である。ここでは、フォルマ
ントを抽出するためのステップ８０ａが図６のステップ
８０と相違しており、他は同じであってよい。このシス
テムでは、フォルマントは、デシベルスペクトルにおけ
る二等辺三角形関数で近似される。デシベルスペクトル
は人間の感覚に近いので、これを使用することは有益で
ある。フォルマントのスロープにフィットする最適の二
等辺三角形関数を見つけ出し、見つけ出した二等辺三角
形関数により該フォルマントを表現する。この最適の二
等辺三角形関数の見つけ出し方や、表現法には様々なバ
リエーションがあるであろう。その一例を、図１２を参
照して説明する。

【００８３】この例では、次の３つの値によって１つの
フォルマントを表現する。ιは或る１つの時間フレーム
を特定するフレーム番号、ｉは或る１つのフォルマント
を特定するフォルマント番号である。 (1) 中心周波数Ｆｉ（ι）：ｉ番目のフォルマントの中
心周波数を示すパラメータ (2) ピークレベルＡｉ（ι）：ｉ番目のフォルマントの
中心周波数位置における振幅値を示すパラメータ (3) スロープＳｉ（ι）：ｉ番目のフォルマントのスロ
ープ（二等辺三角形の辺の傾き）を示すパラメータ上記のうち最初の２つのパラメータは従来より知られた
フォルマント表現であるが、最後のスロープパラメータ
は従来知られていなかったものであり、これは、従来よ
り知られたバンド幅に置き換わる新規なものである。こ
のスロープをバンド幅に変換することは容易に行なえ
る。

【００８４】ステップ８０ａにおける処理手順を更に詳
しく説明すると次の通りである。 (1) 山の検出：フレームιの各線スペクトルつまり部分
音成分に対応するマグニチュードデータａn（ι）の中
からいくつかのローカル最大値つまりピークを見つけ出
す。また、見つけ出した個々のローカル最大値毎に、そ
のローカル最大値を取り囲んでいる２つのローカル最小
値つまり谷を、夫々見つけ出す。こうして見つけ出され
た１つのローカル最大値と、その両側の２つのローカル
最小値は、１つの山を提示するものである。このような
山検出の一例を図１３に示す。 (2) 三角形適合：各ローカル最大値とその両側の２つの
ローカル最小値とによって提示される各山から、三角形
近似によって、前記パラメータＦｉ，Ａｉ，Ｓｉを夫々
算出する。こうして、フレームιについての各フォルマ
ントｉに対応するフォルマントデータＦｉ，Ａｉ，Ｓｉ
が得られる。

【００８５】(3) 上記で求めたフレームιについての各
フォルマントｉに対応するフォルマントデータを、個別
のフォルマントトラジェクトリに割当てる。どのフォル
マントトラジェクトリに割当てるかは、中心周波数が最
も近いものを探し出して決定する。これによりフォルマ
ントの連続性が確保される。前述と同様に、過去のフォ
ルマントトラジェクトリにおいて、所定の誤差範囲内で
中心周波数が近いものがない場合は、そのフォルマント
のために新たなフォルマントトラジェクトリを割当てて
もよい。図１６は、フォルマントトラジェクトリの様子
を模式的に示すマップである。

【００８６】上記(1)のステップにおける山検出につい
て更に説明する。一例として、隣接する３つの部分音成
分のマグニチュードつまり振幅値ａ-1，ａ0，ａ1が下記
式を満足するとき、その中央のマグニチュードａ0に対
応する部分音成分をローカル最大値として検出するよう
にしてよい。

【００８７】

【数６】

【００８８】そして、ローカル最大値の両隣の谷を同じ
様な手法でローカル最小値として検出する。次に、上記
(2)のステップにおける各パラメータＦｉ，Ａｉ，Ｓｉ
の算出アルゴリズムにつき、説明する。まず、中心周波
数Ｆｉは、前述と同様に、その山における３つの最も高
い振幅値について放物線的補間を行なうことによって見
つけ出す。このためのアルゴリズムとしては、下記式を
用いることができる。

【００８９】

【数７】

【数８】

【００９０】ここで、ｆ-1，ｆ0，ｆ1は、前述の各マグ
ニチュードａ-1，ａ0，ａ1に対応する隣接する３つの部
分音成分の周波数である。ｄは、そのうち中央の周波数
ｆ0からの中心周波数Ｆｉの距離である。まず数７の式
によりｄを求め、求めたｄを数８の式に適用してＦｉを
求める。

【００９１】次に、各部分音成分ｎを中心周波数Ｆｉか
らの隔たりに応じた相対値（ｘn，ｙn）に置き換えたデ
ータセットを作成する。ｘnは周波数の相対値であり、
下記式で得られる。

【数９】ｘn ＝｜Ｆｉ−ｆｎ｜ｆnは各部分音成分ｎの周波数である。数９の式では差
の絶対値が周波数の相対値ｘnとなっているため、図１
４に模式的に示すように、すべてのｘnがＦｉの片側に
くるように折り返されることになる。ｙnは、各相対周
波数ｘnに対応する部分音成分ｎの振幅であり、これは
下記のように各部分音成分ｎのマグニチュードａnにそ
のまま対応している。

【００９２】

【数１０】ｙn ＝ａn

【００９３】こうして、三角形適合プログラムを、単純
な線適合プログラムに変換することができる。すなわ
ち、下記のような１次関数ｙを用いてＡｉとＳｉを見つ
け出すことができる。

【数１１】ｙ＝Ａｉ＋Ｓｉ・ｘこの数１１の式のｘとｙに、上記データセット（ｘn，
ｙn）を夫々代入し、下記の最小自乗近似式に従い、誤
差ｅを最小にするようなＡｉとＳｉを見つけ出す。

【００９４】

【数１２】

【００９５】ＬlとＬrは、２つのローカル最小値つまり
谷に対応する部分音成分の次数である。この解Ａｉ，Ｓ
ｉは下記式のように得られる。

【００９６】

【数１３】

【００９７】ここで、各導関数Ｄx，Ｄy，Ｄxx，Ｄxyは
次の通りである。

【００９８】

【数１４】

【００９９】こうして得られた上記関数の傾きＳｉは、
三角形の右側のスロープに対応するものである。その左
側のスロープは、−Ｓｉである。また、関数のオフセッ
ト値Ａｉは、フォルマントのピークレベルに対応する。
以上により、フォルマントに最も適合する二等辺三角形
近似を定義する３つのパラメータＦｉ，Ａｉ，Ｓｉを得
ることができる。図１５はそのようなフォルマントの二
等辺三角形近似を示すものである。

【０１００】前述のように、フォルマントのバンド幅Ｂ
ｉは、慣行的には、フォルマントの先端から−３ｄＢ下
がったところの帯域幅がそれに相当するので、フォルマ
ント中心周波数ＦｉとスロープＳｉとに基づき、下記式
により容易に求めることができる。

【０１０１】

【数１５】

【０１０２】スロープパラメータＳｉはそのままフォル
マント変更ステップ８３に与えてもよいし、バンド幅パ
ラメータに変換してからフォルマント変更ステップ８３
に与えるようにしてもよい。なお、変形例として、二等
辺三角形近似に限らず、その他の不等辺三角形近似によ
り各側のスロープを別々に近似することにより、フォル
マントの三角形近似を行なうようにすることができる。

【０１０３】このフォルマント操作によれば、ユーザー
は３つのパラメータＦ，Ａ，Ｓを望みに応じて制御する
ことにより、フォルマントを自由に制御することができ
る。これらの３つのパラメータＦ，Ａ，Ｓは、フォルマ
ントの特性／形状に直接対応しているので、フォルマン
ト操作／制御が非常にし易いものとなる、という利点が
ある。また、フォルマントの分析／抽出についても、上
記で提案した方法は、従来知られたＬＰＣのような自乗
近似法に比べて簡単であり、計算も能率的に行なうこと
ができる、という利点がある。また、三角形近似により
フォルマントデータを抽出するので、抽出のための計算
のアルゴリズムが非常に簡単であるという利点がある。
更に、二等辺三角形近似によりフォルマントの分析／抽
出を行なうことにより、片側のスロープのみを計算すれ
ばよいことになるので、アルゴリズムを更に簡単化する
ことができるという利点を持つ。

【０１０４】−ビブラート分析及び操作− ビブラートは、各部分音成分毎に、その周波数トラジェ
クトリの時間関数を分析することによって検出する。図
１７は、ビブラート分析システムの一例を示す全体的な
ブロック図である。これは、図３のステップ３７の処理
に対応している。ビブラート分析は各部分音成分毎に行
なうので、この分析システムの入力は、或る１つの部分
音成分の周波数トラジェクトリであり、これは、各時間
フレーム毎の周波数を示す時間関数である。容易に理解
できるように、この周波数の時間関数が、ビブラートと
みなすことができる周期で時変動していれば、その時変
動成分をビブラートとして検出することができる。従っ
て、周波数トラジェクトリの時間関数における低周波数
の時変動成分を検出することによってビブラートの検出
を行なうことができる。そのために、図１７では、高速
フーリエ変換技術を使用してビブラート分析を行なうよ
うにしている。

【０１０５】まず、ゲート９０では、分析対象である１
つの周波数トラジェクトリの時間関数を入力し、ビブラ
ート分析用の所定の時間窓信号によってゲートする。こ
の時間窓信号は、隣接するフレームにおいてそのフレー
ムサイズが所定割合で（例えば３／４づつ）オーバラッ
プするように、周波数トラジェクトリの時間関数をゲー
トする。なお、ここでいうフレームとは、前述のＳＭＳ
データにおける時間フレームとは異なるものであり、そ
れよりもかなり長い時間に対応している。例えば、時間
窓信号によって設定する１つのフレームが０．４秒の時
間長を持つとすると、オーバラップ割合が３／４である
とすると、隣接するフレーム間では、０．１秒の時間差
を持つ。つまり０．１秒ごとの時間レートでビブラート
分析がなされることになる。

【０１０６】ゲートされた信号は、直流除去器９１に入
力され、直流分を除去する。これは、例えば、そのフレ
ーム内の関数値の平均値を求め、この平均値を直流分と
して除去する、すなわち各関数値から平均値を引算す
る、ことによって行なうことができる。それから、高速
フーリエ変換器（ＦＦＴ）９２に入力され、そのスペク
トル分析がなされる。こうして周波数トラジェクトリの
時間関数が時間窓信号によって複数のフレームに分割さ
れ、各フレーム毎にその交流的成分についてのＦＦＴ分
析が行なわれる。ＦＦＴ９２による分析出力は複素スペ
クトルであるから、次の直交−極座標変換器９３でマグ
ニチュードスペクトル及び位相スペクトルに変換する。
こうして得られたマグニチュードスペクトルがピーク検
出及び補間部９４に与えられる。

【０１０７】上記マグニチュードスペクトルの一例をエ
ンベロープによって示すと図１８のようである。オリジ
ナルサウンドにビブラートがある場合は、ビブラートの
可能性のある所定の周波数領域、例えば４Ｈｚ乃至１２
Ｈｚの領域に、図示のようなピークが生じる。そこで、
この領域におけるピークを検出し、その周波数位置をビ
ブラートレートとして検出する。そのための処理をピー
ク検出及び補間のためのステップ９４で行なう。このピ
ーク検出及び補間のためのステップ９４における処理例
は次の通りである。

【０１０８】(1) まず、与えられたマグニチュードスペ
クトルのうち、ビブラートの可能性のある所定の周波数
領域において振幅の最大値，つまりローカル最大値を検
出する。図２０は、ビブラートの可能性のある所定の周
波数領域を拡大して示しており、ｋがローカル最大値の
スペクトルに相当し、ｋ-1とｋ+1がその両隣のスペクト
ルに相当する。 (2) 次に、上記ローカル最大値とその両隣のスペクトル
の振幅値を通る放物線を補間する。図２０におけるカー
ブＰＩは、この補間によって得た放物線を示す。 (3) 次に、補間によって得た放物線カーブＰＩにおける
最大値を特定し、この最大値に対応する周波数位置をビ
ブラートレートとして検出すると共に、この補間された
最大値をビブラート幅として検出する。音楽パラメータ
として抽出されるビブラートデータは、これらのビブラ
ートレートとビブラート幅とからなっている。このビブ
ラートデータの抽出が各フレーム毎に行なわれるので、
時変動するビブラートデータの抽出が可能であることが
理解できるであろう。

【０１０９】図１７に戻ると、ステップ９５では、直交
−極座標変換器９３で得たマグニチュードスペクトルか
ら、ステップ９４で検出したビブラート成分を引算する
処理を行なう。ここでは、検出したビブラートの山の両
側の境界つまり２つの谷を見つけ出し、図１９に示すよ
うに、この間を直線補間してビブラート成分の山を取り
除く。図１９は、このステップ９５で処理されたマグニ
チュードスペクトルの一例を模式的に示している。

【０１１０】次に、ビブラート成分が除去されたマグニ
チュードスペクトルデータと、直交−極座標変換器９３
で得た位相スペクトルデータとを、極−直交座標変換器
９６に入力し、これらを複素スペクトルデータに変換す
る。それから、この複素スペクトルデータを逆ＦＦＴ９
７に入力し、時間関数を発生する。この出力を直流加算
部９８に与え、前記直流除去器９１で除去した直流分を
再加算し、ビブラート成分が除去された１フレーム分の
周波数トラジェクトリの時間関数を生成する。こうし
て、ビブラート成分が除去された１フレーム分の周波数
トラジェクトリを各フレーム毎に連結して、その部分音
成分に対応する一連の周波数トラジェクトリを作成す
る。その際に、前述のようにオーバラップしたフレーム
の時間だけ、データを重複して連結するものとする。デ
ータ重複部分の連結の仕方としては、平均値を採用する
のがよいと思われるが、その他の適宜の補間であっても
よい。また、オーバラップ部分において或る１つのフレ
ームのデータのみ選択し、他を切り捨ててもよい。この
ようなオーバラップ部分についての処理は、前記検出し
たビブラートレート及びビブラート幅のデータについて
も適宜行なってよい。

【０１１１】図２１は、ビブラート合成アルゴリズムの
一例を示す全体的なブロック図である。ステップ８５，
８６の処理は、図５のステップ５２，６２，６９の処理
に対応するものである。すなわち、上記のように抽出さ
れたビブラートレート及びビブラート幅のデータを、ユ
ーザーの制御によって自由に変更する処理が行なわれ
る。ステップ８７及び８８の処理は、図５のステップ５
７の処理に対応するものである。ステップ８７では、上
記のように変更が適宜加えられたビブラートレート及び
ビブラート幅のデータに基づき、ビブラート信号を例え
ば正弦波関数で発生する。ステップ８８では、このビブ
ラートレートとビブラート幅に対応する正弦波関数によ
って、ＳＭＳデータにおける対応する周波数トラジェク
トリにおける周波数値を変調する演算を行なう。これに
より、ビブラート付与された周波数トラジェクトリが得
られる。

【０１１２】以上の説明では、各部分音成分毎に別々
に、ビブラートデータを抽出し、制御若しくは変更し、
かつ、ビブラート合成を行なうようにしている。しか
し、各部分音成分毎にビブラートレートを異ならせる必
要はないので、基本波成分から抽出したビブラートレー
ト、あるいは低次のいくつかの部分音成分から抽出した
ビブラートレートの平均値、を各部分音成分に共通に使
用するようにしてもよい。ビブラート幅についても同様
に所定のものを各部分音成分に共通に使用するようにし
てよい。

【０１１３】−トレモロの抽出及び操作− トレモロは、各部分音成分毎に、そのマグニチュードト
ラジェクトリの時間関数を分析することによって検出す
る。トレモロは振幅のビブラートであるといえるので、
前述したビブラートの分析及び合成のアルゴリズムと同
じものをそっくり利用することができる。ビブラートと
の違いは、トレモロにおいては分析及び合成の対象がＳ
ＭＳデータにおけるマグニチュードトラジェクトリであ
る、という点だけである。すなわち、図１７乃至図２１
を参照して説明したのと同様の分析及び合成のアルゴリ
ズムをマグニチュードトラジェクトリに対して適用する
ことにより、トレモロの分析及び合成を行なうことがで
きる。従って、図１７乃至図２１における“周波数トラ
ジェクトリ”を“マグニチュードトラジェクトリ”と読
み変えることにより、トレモロの分析及び合成のための
実施例を提示することができる。トレモロデータとして
は、トレモロレートとトレモロ幅とからなるパラメータ
が得られることになる。

【０１１４】同様に、ＳＭＳデータにおけるストカステ
ィック成分に関しても、トレモロと同様の振幅の周期的
変動を分析し、これを制御若しくは変更し、かつ、合成
するようにすることができる。ＳＭＳデータにおけるス
トカスティック成分に対応する残差スペクトルエンベロ
ープデータの１つとして、該スペクトルエンベロープの
全体的ゲインを示すデータがあり、これをストカスティ
ックゲインと呼ぶ。各時間フレーム毎の一連のストカス
ティックゲインをストカスティックゲイントラジェクト
リと呼ぶ。ストカスティックゲイントラジェクトリはス
トカスティックゲインの時間関数である。従って、この
ストカスティックゲインの時間関数を前記ビブラート又
はトレモロの場合と同様のアルゴリズムによって分析
し、その分析結果を利用した制御と合成が可能である。
また、分析を省略し、確定的成分のマグニチュードトラ
ジェクトリの分析によって得たトレモロデータを使用し
てストカスティックゲインの制御と合成を行なってもよ
い。上述のようなビブラートあるいはトレモロの分析と
制御及び合成の手法は、ＳＭＳ合成技術に限らず、他の
加算的楽音合成技術にも応用可能である。

【０１１５】−音楽サウンドにおけるスペクトルチルト
制御− 図２２は、この実施例に従うスペクトルチルト制御のた
めの分析及び合成のアルゴリズムを示す。ステップ１２
０〜１２３は分析アルゴリズムに対応しており、ＳＭＳ
データ処理部３０（図２）で実行される。ステップ１２
４，１２５は合成アルゴリズムに対応しており、再生処
理部５０（図４）で実行される。

【０１１６】スペクトルチルトの分析：まず、スペクト
ルチルトの分析について説明する。スペクトルチルト分
析は、確定的成分に関して行なう。図２３は、確定的成
分の線スペクトル例と、そこから分析した１直線状のス
ロープからなるスペクトルチルトラインの一例を示して
いる。分析したスペクトルチルトラインは太い実線で示
している。このスペクトルチルトラインの原点は、確定
的成分の線スペクトルにおける最も低い周波数を持つ第
１の部分音成分のマグニチュードレベル値である。そし
て、残りの全ての部分音成分のマグニチュード値を概ね
近似することのできるような最適の傾きラインを見つけ
出す（ステップ１２０）。これはライン−フィッティン
グの問題であるから、スペクトルチルトのスロープｂは
次式によって計算できる。

【０１１７】

【数１６】

【０１１８】ここで、ｉは部分音番号、Ｎは部分音の合
計数、ｘは各部分音の周波数、ｙは各部分音のマグニチ
ュード値である。特定のＳＭＳ時間フレームについての
平均マグニチュードｍａｇは次式により計算できる。

【０１１９】

【数１７】

【０１２０】これらの計算により、スペクトルチルト
（ｂ）と平均マグニチュードｍａｇのデータペアを各Ｓ
ＭＳ時間フレーム毎に得ることができる。次に、各フレ
ーム毎の平均マグニチュードｍａｇの平均値すなわち全
体平均マグニチュードＡｖｇＭａｇを計算する。そし
て、次式によってこれらの値の相関を求める（ステップ
１２１）。

【０１２１】

【数１８】

【０１２２】ここで、ｉはＳＭＳ時間フレーム番号、Ｍ
はＳＭＳ時間フレームの合計数である。この相関データ
ｃｏｒｒは、各フレームｉ毎の平均マグニチュードｍａ
ｇ iに対する全体平均マグニチュードＡｖｇＭａｇの差
（ｍａｇ i −ＡｖｇＭａｇ）と、各フレームｉ毎のス
ペクトルチルトｂiとの相関を示すものである。すなわ
ち、相関データｃｏｒｒは、各フレーム毎のスペクトル
チルトデータｂを、そのフレームの平均マグニチュード
ｍａｇに対する全体平均マグニチュードＡｖｇＭａｇの
差（ｍａｇ−ＡｖｇＭａｇ）に相関するデータとして正
規化したものである。式１８から容易に理解できるよう
に、仮に、全フレームｉのスペクトルチルトｂｉが等し
いとすると、個別サンプルｍａｇ iとそれらの平均値Ａ
ｖｇＭａｇとの差（ｍａｇ i −ＡｖｇＭａｇ）の合計
は０に収束するので、相関データｃｏｒｒは０である。
ここから理解できることは、相関データｃｏｒｒは、各
フレームのスペクトルチルトｂｉの相互関係を、そのフ
レームｉ毎の平均マグニチュードｍａｇ iに対する全体
平均マグニチュードＡｖｇＭａｇの差（ｍａｇ i −Ａ
ｖｇＭａｇ）をパラメータとして、示している基準値若
しくは正規化値である、ということである。

【０１２３】以上によって求められた相関データｃｏｒ
ｒが、スペクトルチルトに関する唯一の音楽パラメー
タ、つまりチルトファクターである。ユーザーは、この
チルトファクターつまり相関データｃｏｒｒを変更制御
することにより、合成するサウンドの明るさ等の表情を
自由に制御することができる。なお、チルト分析にあた
っては、確定的成分における全ての部分音を考慮にいれ
る必要はなく、適宜省略してよい。例えば、上記式１６
の分析式に算入する部分音成分を定義するために、或る
スレショルド値を設定し、このスレショルド値以上のマ
グニチュードを持つ部分音成分を算入して分析を行なう
ようにしてよい。また、所定の高い周波数（例えば８０
００Ｈｚ）以上の高い周波数の部分音成分も上記式１６
の分析式に算入しないようにし、チルト分析にあたって
の不安定要素を排除してよい。勿論、上記分析の結果得
たスロープと実際の各部分音のマグニチュードとを照合
し、あまりにもかけ離れているものがある場合は、それ
を除外して、もう一度分析をやり直すようにしてもよ
い。

【０１２４】スペクトルチルトによる正規化：次に、上
記のように求めたスペクトルチルト分析データを使用し
て、ＳＭＳデータの確定的成分のマグニチュード値を正
規化する処理を行なう。ここでは、各フレーム毎の確定
的成分の線スペクトルが、見掛け上共通のスペクトルチ
ルトを持つかのように、かつ、全体平均マグニチュード
ＡｖｇＭａｇに関して、夫々の部分音のマグニチュード
値を正規化する。そのために、下記式に従って、各部分
音成分毎に差分値ｄｉｆｆを計算する（ステップ１２
２）。

【０１２５】

【数１９】

【０１２６】ここで、ｍａｇはそのフレームの平均マグ
ニチュード、ｘ0はそのフレームにおける第１の部分音
の周波数、ｘiはこの計算の対象となっている部分音ｉ
の周波数である。それから、各部分音毎に計算した上記
差分値ｄｉｆｆを、対応する部分音のマグニチュード値
に加算し、正規化したマグニチュード値を求める（ステ
ップ１２３）。

【０１２７】スペクトルチルト合成：前述のように、ユ
ーザーは、分析されたチルトファクターつまり相関デー
タｃｏｒｒを自由に変更制御することができる（ステッ
プ１２４）。サウンド合成に際しては、各部分音成分の
マグニチュード値をチルトファクターによって制御する
処理を行なう。そのために、下記式に従って、各部分音
毎に合成用の差分値ｄｉｆｆを計算する。

【数２０】

【０１２８】ここで、ｃｏｒｒ'はユーザーによる変更
制御処理を経たチルトファクターつまり相関データ、ne
wmagはそのフレームの平均マグニチュードであり、合成
の際に適宜の処理が施されているかもしれないもの、ｘ
0はそのフレームにおける第１の部分音の周波数、ｘiは
この計算の対象となっている部分音ｉの周波数である。
これにより、チルトファクターｃｏｒｒ'を考慮に入れ
た合成用の差分値ｄｉｆｆが各部分音毎に求められる。
この合成用の差分値ｄｉｆｆを対応する部分音のマグニ
チュード値に加算することにより、望みの修正されたス
ペクトルチルトによって制御された線スペクトルデータ
を得る（ステップ１２５）。この修正された線スペクト
ルデータを含むＳＭＳデータに基づき、後に、ＳＭＳサ
ウンド合成器１１０（図４）でサウンド合成がなされ
る。従って、ユーザーによるチルトファクターつまり相
関データｃｏｒｒの変更制御に応じて、明るさ等の表情
が自由に制御されたサウンドが合成される。

【０１２９】容易に理解できるように、もし、スペクト
ルチルトが時変動しない簡略化された制御を行なう場合
は、相関ｃｏｒｒの算出等の面倒な演算は省略できるで
あろう。つまり、分析されたスペクトルチルトデータｂ
をそのままユーザーによって自由に制御し、制御された
スペクトルチルトデータに基づきサウンド合成の際に線
スペクトルのチルトを制御するようにしてもよい。発明
の本質は、スペクトルのチルトを抽出し、これを制御す
ることにより合成すべきサウンドの制御を行なう点にあ
るのであるから、そのような簡略化されたチルト分析と
合成も、本発明の範囲に含まれると理解すべきである。
このスペクトルチルト制御もまた、他の制御と同様に、
ＳＭＳ技術に限らず、他の部分音加算合成技術において
も適用可能である。

【０１３０】−サウンドの時間変更− この技術の目的は、ＳＭＳ技術によって表現されたサウ
ンドの発音時間長を長くしたり又は短くしたりする制御
を行なうことである。発音時間長を長くすることは、サ
ンプラーにおけるルーピング技術で知られているよう
に、サウンドの或る部分を切り出し、これを繰返しつな
ぎ合わせることによって行なう。発音時間を短くするこ
とは、サウンドから適切に選んだセグメントを取り除く
ことによって行なう。以下で述べる例では、ループポイ
ントを設定するために、ビブラートサイクルの境界を見
つけ出すようにしたことを特徴としている。

【０１３１】図２４は、この実施例に従う時間変更のた
めの分析及び合成のアルゴリズムを示す。ステップ１３
０，１３１，１３２は分析アルゴリズムに対応してお
り、ＳＭＳデータ処理部３０（図２）で実行される。ス
テップ１３３，１３４，１３５は合成アルゴリズムに対
応しており、再生処理部５０（図４）で実行される。ス
テップ１３０，１３１，１３２による分析アルゴリズム
によれば、オリジナルサウンドのビブラートサイクルの
境界を見つけ出す処理を行なう。そのために、ビブラー
トの特徴が現われやすい低次の部分音成分のいくつかの
周波数トラジェクトリを対象にして分析を行なう。この
例では、第１の部分音成分すなわち基本波と第２の部分
音成分すなわち第１ハーモニックの２つの周波数トラジ
ェクトリに関して、夫々分析を行なう。

【０１３２】まず、ステップ１３０では、分析しようと
する音の中央当たりにおいて、基本波の周波数トラジェ
クトリと第１ハーモニックの周波数トラジェクトリか
ら、その周波数が最も高いローカル最大値を探し出す。
これを最初のローカル最大値とする。具体的には、分析
しようとする音の中央当たりの所定時間範囲内におい
て、基本波の周波数トラジェクトリと第１ハーモニック
の周波数トラジェクトリの夫々につき、７フレーム分の
周波数の平均値を順次に作成し、そのファイルを作成す
る（７ポイント平均値ファイルの作成）。こうして、作
成した各トラジェクトリの７ポイント平均値ファイルを
比較参照して、基本波と第１ハーモニックの両方に関し
て生じている最も高いローカル最大値を探し出す。こう
して、探し出したローカル最大値の位置と値を、最初の
ローカル最大値としてリストに入れる（最初のローカル
最大値の検出）。仮にオリジナルサウンドにビブラート
がなかったとしても、このようなローカル最大値の検出
は可能である。なお、ＳＭＳ時間フレームのレートを１
００Ｈｚとすると、そのような７ポイントつまり７フレ
ームの長さは０．０７秒である。

【０１３３】次に、ステップ１３１では、上記のように
見つけ出した最初のローカル最大値の位置を基に、さら
にサーチを進め、その両側において周波数が最小である
２つのローカル最小値を探し出して、上記最初のローカ
ル最大値のリストに加える。それから、更に時間進行方
向にサーチを進め、音の終了近くまでに、いくつかのロ
ーカル最大値とローカル最小値のペアを探し出し、上記
リストに時間順に加える。こうして、探し出したすべて
のローカル最大値とローカル最小値つまり極値の値と位
置が上記リスト（つまり極値リスト）に時間順に記憶さ
れる。

【０１３４】具体的には、まず、上記各トラジェクトリ
の７ポイント平均値ファイルにおいて最初のローカル最
大値の位置から時間進行方向にサーチを進め、基本波と
第１ハーモニックの両方に関して生じている周波数が最
も低いローカル最小値（右のローカル最小値）を探し出
す。このとき、必要に応じて、分析対象範囲を時間進行
方向に広げて、前記７ポイント平均値ファイルにファイ
ルする各トラジェクトリの７ポイント平均値データを追
加作成する。こうして、探し出した右のローカル最小値
の位置と値を、上記極値リストにおいて最初のローカル
最大値の右隣に記憶する（右ローカル最小値検出）。

【０１３５】次に、上記各トラジェクトリの７ポイント
平均値ファイルにおいて最初のローカル最大値の位置か
ら時間逆行方向にサーチを進め、基本波と第１ハーモニ
ックの両方に関して生じている周波数が最も低いローカ
ル最小値（左のローカル最小値）を探し出す。このとき
も、必要に応じて、分析対象範囲を時間逆行方向に広げ
て、前記７ポイント平均値ファイルにファイルする各ト
ラジェクトリの７ポイント平均値データを追加作成す
る。こうして、探し出した左のローカル最小値の位置と
値を、上記極値リストにおいて最初のローカル最大値の
左隣に記憶する（左ローカル最小値検出）。

【０１３６】次に、分析対象範囲を時間進行方向に、音
の終了近くまで、広げて、前記７ポイント平均値ファイ
ルにファイルする各トラジェクトリの７ポイント平均値
データを追加作成する。それから、前述と同様に、各ト
ラジェクトリの７ポイント平均値ファイルにおいて時間
進行方向にサーチを進め、基本波と第１ハーモニックの
両方に関して生じている周波数の極値（ローカル最大値
又はローカル最小値）を順次検出し、これらの位置と値
を上記極値リストに時間順に記憶する。こうして作成さ
れた極値リストにリストされた各極値のいくつかは、ビ
ブラートサイクルのピークと谷であると推定することが
できる。なお、極値の位置データとは、時間に対応する
データである。次のステップ１３２では、上記ステップ
１３１でリストした極値データを検討し、ビブラートサ
イクルのピークと谷であると推定される極値データを残
し、他を削除するための編集処理を行なう。

【０１３７】具体的には、次のように処理する。まず、
リストした極値データにおいて見られるビブラートサイ
クルが、所定のビブラートレートの範囲内に納まってい
るかを調べる。すなわち、極値リストにおける或る最大
値と或る最小値の時間差が所定の時間範囲内に納まるか
を、全ての最大値と最小値のペアにつき、夫々調べる。
所定の時間範囲の一例を示すと、最大で０．１５秒、最
小で０．０５秒である。こうして、所定の時間範囲に納
まっていない最大値と最小値のいくつかのペアを見つけ
出すことができるであろう。これらの各ペアのうち少な
くとも一方は、ビブラートの最大値又は最小値に対応し
ていないものである。こうして、調べた結果、その時間
差が所定の時間範囲に納まっている各極値ペアを、保存
すべきものとして、マークする。ところで、上記所定時
間範囲はむしろ広めに設定してあるので、有効なビブラ
ート極値がマークされないことは有りえない。しかし、
そのために、実際のビブラートを示している極値よりも
多くの極値がマークされてしまう可能性がでてくる。な
お、ここでマークされなかった極値は、以後の処理では
全て無視される。

【０１３８】次に、リストに保存された各極値ペアにお
いて、最小値から最大値に向かうアップスロープの時間
間隔と、最大値から最小値に向かうダウンスロープの時
間間隔を夫々算出する（図２５参照）。そして、夫々の
アップスロープ時間間隔の平均値と、夫々のダウンスロ
ープ時間間隔の平均値を計算する。それから、各極値ペ
ア毎のアップスロープ時間間隔と上記アップスロープ平
均値との関係、及び各極値ペア毎のダウンスロープ時間
間隔と上記ダウンスロープ平均値との関係、を夫々調
べ、夫々の時間間隔が平均値に対して所定の誤差限界内
に収まっているかを調べる。例えば、この誤差限界とし
ては、平均値の２０％としてよい。この誤差限界内に収
まっている各極値ペアを、保存すべきものとして、マー
クする。最初と最後の極値を除く各極値は、アップスロ
ープとダウンスロープに関して合計２回の検査を受ける
ことになる。どちらかの検査が合格であれば、その極値
を保存すべきことがマークされることになる。

【０１３９】以上の処理を経た結果として極値リストに
保存された極値がビブラートの最大値及び最小値として
推定できるものである。ルーピングのためにつなぎ波形
として使用するセグメントは、２つの最大値又は２つの
最小値の間の波形とする。そのために、少なくとも３つ
の極値がリストに保存されていなければならない。も
し、２以下の極値しか保存されていない場合は、処理エ
ラーとして、このステップ１３２の極値編集処理を再実
行するようにしてもよい。その場合は、各検査における
基準値を緩和して再実行するようにしてもよい。

【０１４０】サウンド合成に際しては、以上のように編
集処理済みの極値リストを利用して、発音時間を長くす
る制御を行なう。図２４のステップ１３３，１３４，１
３５に示された合成アルゴリズムにおいて、ステップ１
３３，１３４では発音時間を長くするためのアルゴリズ
ム、ステップ１３５では発音時間を短くするためのアル
ゴリズムを行なう。まず、発音時間を長くするためのア
ルゴリズムについて説明する。

【０１４１】ステップ１３３では、極値リストを参照し
て、ルーピングのためにつなぎ波形として使用するセグ
メントに対応する波形データを波形メモリから取り出
す。このセグメントは、２つの最大値又は２つの最小値
の間の波形データである。記録したオリジナルサウンド
のどの部分からルーピング用セグメント波形を取り出す
べきかは、極値リストが用意されているが故に、全く任
意に選択できる。この所望のセグメント波形の選択は、
サウンド合成プログラム内に任意にプログラムしておく
ことによってもできるし、ユーザーがマニュアル操作に
よって任意に選択するようにもできる。例えば、発生し
ようとする音の性質によって、音の中間部分に対応する
波形をループさせるのが好ましい場合や、音の終わりの
方の部分の波形をループさせた方が好ましい場合があ
る。それに限らず、どの部分をループさせるかはユーザ
ーの好みもあるであろうし、サウンド合成プログラムを
作成するものの好みもあるであろう。一般的に言って、
繰返しは音を単調にするので、サウンドの余り重要でな
い（そのサウンドをそれほど特徴づけていない）部分の
セグメントをループ用のセグメントとして取り出すのが
よいであろう。勿論、それに限らず、サウンドを特徴づ
ける部分のセグメントをループ用のセグメントとして取
り出すようにしてもよい。なお、ルーピングのために取
り出されるセグメント波形データは、ＳＭＳデータの全
ての種類、つまり周波数トラジェクトリとマグニチュー
ドトラジェクトリ及びストカスティック波形データであ
る。

【０１４２】ステップ１３４では、上記のように取り出
したセグメント波形を、合成すべきサウンド波形に挿入
するための処理を行なう。例えば、オリジナルサウンド
波形におけるルーピングを開始するまでの望みの波形
（例えばアタック部の波形、又はアタック部とそれに続
く適当な部分の波形）のＳＭＳデータをデータメモリ１
００から取り出し、これを新しい波形データファイルと
してデータメモリ１００の別の記憶位置若しくはその他
の適宜のメモリに書き込む。そして、書き込まれた先行
波形データに続いて、上記のように取り出したセグメン
ト波形のＳＭＳデータを所望回数だけ繰返して書き込
む。セグメント波形を挿入若しくは繰り返すときに、デ
ータのスムーズな接続が行なわれるように、適当なスム
ーズ化演算を施すものとする。このスムーズ化演算は、
例えば接続部分での補間演算であってもよいし、あるい
は、先行する波形の終わりのデータと後続する波形の先
頭のデータの値が一致するようにする演算であってもよ
い。ＳＭＳデータにおいてスムーズ化演算の対象とする
のは確定的成分のデータであり、ストカスティック成分
のデータはスムーズ化演算不要である。延長したい望み
の時間分だけ、セグメント波形を繰返し挿入した後は、
オリジナル波形の残りのＳＭＳデータを最後の部分とし
て挿入し、メモリに書き込む。この場合も、上記スムー
ズ化演算を施して、先行するデータと後続するデータの
接続がスムーズになされるようにする。

【０１４３】上述したステップ１３４の挿入処理は、サ
ウンド発生に関して非実時間的に行なうようにしてい
る。すなわち、発音時間を望みの分だけ延長した波形を
作成し、この波形データを新しい波形データファイルと
してデータメモリ１００の新たな記憶位置又はその他適
宜のメモリに書き込むようにしている。このようにした
場合、サウンドを再生発音するときに、メモリからの波
形データの順次読み出しを１回だけ行なうことで、延長
した発音時間を持つサウンドを合成できる。しかし、こ
れに限らず、シンセサイザー等におけるルーピング処理
として知られているような手法で、上述したステップ１
３４の挿入処理と同様な処理を、サウンド発生時に実時
間的に行なうようにしてもよい。その場合は、セグメン
ト波形を繰り返して書き込む処理は不要であり、ルーピ
ングすべきセグメント波形を指示するデータをステップ
１３３の処理から受け取り、オリジナルサウンド波形を
記憶したデータベースの中からこのセグメント波形のデ
ータを繰返し読み出すようにすればよい。変形例として
は、発音時間延長のために追加的に繰り返されるセグメ
ント波形は、単一のセグメントに限らず、複数セグメン
トであってもよい。また、１セグメントがビブラートの
複数サイクルに対応していてもよい。

【０１４４】次に、発音時間を短くするためのアルゴリ
ズムについて説明する。発音時間を短くするためのアル
ゴリズムは、サウンドのいくつかのセグメントを取り除
くことを基にしているものである。そのためにステップ
１３５の短縮処理において実行されるアルゴリズムは、
周波数トラジェクトリにおける２つのローカル最大値の
ペアまたは２つのローカル最小値のペアの時間間隔を夫
々調べ、取り除きたい時間に適したペアを見つけ出すこ
とからなっている。そのために、周波数トラジェクトリ
におけるローカル最大値とローカル最小値のリストを作
成し、このリストを参照して、所望の取り除きたい時間
に適した極値ペアを見つけ出すようにしてよい。このリ
ストとしては、前述の７ポイント平均値ファイルに基づ
いて作成した極値リストを用いてよく、その場合、この
極値リストは、ステップ１３１による編集処理を施す前
のものであってもよいし、又は施した後のものであって
もよい。

【０１４５】具体的には、音の中央当たりから時間進行
方向に沿って極値リストのサーチを開始し、所望の取り
除きたい時間に適した２つのローカル最大値のペアまた
は２つのローカル最小値のペアを探し出す。こうして、
取り除きたい時間に最適の極値ペアを選択する。もし、
最大の時間間隔を持つ極値ペアの時間間隔が、所望の取
り除きたい時間よりも短い場合は、その最大の時間間隔
を持つ極値ペアを、取り除くべき極値ペアとして選択す
る。次に、図２６に示すように、取り除くべきことが選
択された極値ペアの間にあるＳＭＳデータのトラジェク
トリ部分Ｂを、オリジナルのＳＭＳデータトラジェクト
リＡ，Ｂ，Ｃ…から削除する処理を行なう。すなわち、
取り除くべきことが選択された極値ペアのうちの最初の
極値よりも前にあるＳＭＳデータトラジェクトリ部分Ａ
をデータメモリ１００から取り出して、これを新しい波
形データファイルとしてデータメモリ１００の新たな記
憶位置又はその他適宜のメモリに書き込む。それから、
取り除くべきことが選択された極値ペアのうちの２番目
の極値よりも後にあるＳＭＳデータトラジェクトリ部分
Ｃをデータメモリ１００から取り出して、これを新しい
波形データファイルにおけるトラジェクトリ部分Ａの次
に書き込む。ＳＭＳデータトラジェクトリ部分ＡとＣの
接続に際しては、前述と同様のスムーズ化演算を行なう
ものとする。こうして、図２７に示すように、トラジェ
クトリ部分Ｂを除いた新しいＳＭＳデータファイルが作
成される。勿論、削除はＳＭＳデータの全て（周波数、
マグニチュード、位相、ストカスティック成分）につい
て行なう。また、波形を短縮すべき時間はユーザーによ
って任意に選択可能にしてよい。

【０１４６】上述したステップ１３５の短縮処理は、サ
ウンド発生に関して非実時間的に行なうようにしてい
る。すなわち、発音時間を望みの分だけ短縮した波形を
作成し、この波形データを新しい波形データファイルと
してデータメモリ１００の新たな記憶位置又はその他適
宜のメモリに書き込むようにしている。しかし、これに
限らず、上述したステップ１３５の短縮処理と同様な処
理を、サウンド発生時に実時間的に行なうようにしても
よい。その場合は、取り除くべきセグメントは予めサー
チしておき、発音時において、トラジェクトリ部分Ａの
読み出しが終了した後、取り除くべきセグメントに対応
するトラジェクトリ部分Ｂの読み出しを行なわずに、ト
ラジェクトリ部分Ｃにジャンプして読み出しを行なうよ
うにすればよい。その場合も、トラジェクトリ部分Ａの
終わりとトラジェクトリ部分Ｃの始まりのデータのつな
がりをスムーズにするための演算処理を行なうのがよ
い。

【０１４７】以上述べた例では、発音時間延長用又は短
縮用の波形セグメントのサーチは、周波数トラジェクト
リにおける極値（すなわちビブラート）を利用して行な
っているが、これに限らず、マグニチュードトラジェク
トリにおける極値を利用して行なうようにしてもよい。
また、発音時間延長用又は短縮用の波形セグメントを見
つけ出すための指標としては、極値に限らず、他のもの
を使用してもよい。この時間変更制御もまた、他の制御
と同様に、ＳＭＳ技術に限らず、他の類似の部分音加算
合成技術においても適用可能である。

【０１４８】−ピッチ分析及び合成− オリジナルのＳＭＳデータからそのピッチを分析するこ
とは、任意の可変ピッチでサウンド合成が行なえるよう
にするために、極めて重要である。すなわち、オリジナ
ルのＳＭＳデータのピッチが判明していれば、所望の再
生ピッチを指定し、該所望再生ピッチとオリジナルピッ
チとの比に応じてオリジナルのＳＭＳデータの各周波数
データを制御することにより、これらのＳＭＳ周波数デ
ータを該所望の再生ピッチに対応するものに変更するこ
とができる。こうして、変更されたＳＭＳデータは、オ
リジナルＳＭＳデータの特徴を持つサウンドをそっくり
再生できるものでありながら、そのピッチだけがオリジ
ナルとは異なる任意の希望のピッチを持つものとなる。
従って、このことを実現可能にするピッチ分析及び合成
アルゴリズムは、ＳＭＳ技術を用いた音楽シンセサイザ
ーにとって極めて重要である。以下、ピッチ分析及び合
成アルゴリズムの具体例について説明する。ピッチ分析
アルゴリズムはＳＭＳデータ処理器３０（図２）で実行
され、ピッチ合成アルゴリズムは再生処理器５０（図
４）で実行される。

【０１４９】ピッチ分析アルゴリズム：図２８はピッチ
分析アルゴリズムの一例を示すものである。まず、オリ
ジナルＳＭＳデータの周波数トラジェクトリから各フレ
ーム毎のピッチＰf（ι）を下記式に従い求める（ステ
ップ１４０）。

【０１５０】

【数２１】

【０１５１】ここで、ιは特定のフレームを示すフレー
ム番号、Ｎpはピッチ分析に使用する部分音の数、ｎは
部分音の次数を示す変数であり、ｎ＝０，１，…，Ｎp
である。ａn(ι)とｆn(ι)は、フレームιにおける確定
的成分中のｎ番目の部分音の振幅マグニチュード及び周
波数である。式２１は、低次のＮp個の部分音の周波数
ｆnを、夫々の周波数順位の逆数１／（ｎ＋１）と振幅
マグニチュードａnとで重みづけし、それらの加重平均
を算出するものである。この加重平均により、ピッチＰ
fを比較的精度良く検出することができる。例えば、Ｎp
＝６として、低次の６部分音につき上記加重平均を計算
すると、良い結果が得られる。しかし、これに限らず、
Ｎp＝３程度であってもよい。なお、単純には、最低周
波数の部分音の周波数ｆ0(ι)をそのフレームのピッチ
Ｐf(ι)として検出するようにすることも可能である。
しかし、そのような単純な方法よりも、上記のように加
重平均によってピッチを検出するようにした方がより聴
覚に合っている。

【０１５２】図３０は、上記の加重平均演算に従うフレ
ームピッチＰf(ι)の検出状態を模式的に示す図であ
る。横軸周波数に示された数字１は、検出したフレーム
ピッチＰf(ι)の周波数位置、２，３，４，…は、その
２倍、３倍、４倍、…の周波数位置であり、これらは正
確な整数倍関係にある。図に示された線スペクトルは、
オリジナル周波数データｆn(ι)の線スペクトル例であ
る。オリジナルサウンドの線スペクトルｆn(ι)は、必
ずしも正確な整数倍の周波数関係にはなっていない。図
では、加重平均によって求めたピッチの周波数位置は、
第１部分音の周波数ｆ0(ι)とはいくぶん相違している
ことを示している。

【０１５３】次に、所定のフレーム範囲にわたる各フレ
ーム毎のピッチＰf（ι）の平均を下記式によって計算
し、全体平均ピッチＰaを得る（ステップ１４１）。Ｌ
は該所定のフレーム範囲におけるフレーム数である。こ
の所定のフレーム範囲としては、オリジナルサウンドの
ピッチが安定する適当な期間を選ぶのがよい。

【０１５４】

【数２２】

【０１５５】次に、下記式のように、オリジナルＳＭＳ
データにおける各フレーム毎の周波数データｆn（ι）
を、そのフレームのピッチＰf（ι）に対する比で表わ
したデータｆ'n（ι）に変換する（ステップ１４２）。

【数２３】ｆ'n（ι）＝ｆn（ι）／Ｐf（ι）ここで、ｎ＝０，１，２，…，Ｎ−１である。次に、下
記式のように、各フレーム毎のピッチＰf（ι）を全体
平均ピッチＰaに対する比で表わしたデータＰ'f（ι）
に変換する（ステップ１４３）。

【数２４】Ｐ'f（ι）＝Ｐf（ι）／Ｐa

【０１５６】上記数２３，２４の式によるデータ変換処
理によって、ＳＭＳ周波数データの圧縮化を図ることが
できると共に、後段での変更制御にあたって処理しやす
いデータ表現に変換されることになる。こうして、オリ
ジナルＳＭＳデータにおける絶対的な周波数データｆn
（ι）が、相対的な周波数データ群つまり部分音ごとの
相対周波数トラジェクトリｆ'n（ι）及びフレームピッ
チトラジェクトリＰ'f（ι）と、１つの全体平均ピッチ
データＰaとに変換される。これらの変換された周波数
データ群ｆ'n（ι）、Ｐ'f（ι）、Ｐaが、ＳＭＳ周波
数データとして、データメモリ１００に記憶される。

【０１５７】ピッチ合成アルゴリズム：図２９はピッチ
合成アルゴリズムの一例を示すものであり、サウンド合
成のためにデータメモリ１００から読み出した上記変更
されたＳＭＳ周波数データ群ｆ'n（ι）、Ｐ'f（ι）、
Ｐaを入力し、これに関して下記のような処理を行な
う。まず、ステップ１５０では、合成しようとするサウ
ンドのピッチを制御するためのユーザーの操作に応じた
処理を行なう。例えば、ユーザーの操作に応じてピッチ
制御パラメータＣｐを発生し、このピッチ制御パラメー
タＣｐによって全体平均ピッチデータＰaを変更制御す
る（例えば乗算する）ことによって、再生サウンドの全
体ピッチを指定するデータＰｄを生成する。あるいは、
再生サウンドの全体ピッチを指定するデータＰｄを、ユ
ーザーの操作に応じて直接的に発生するようにしてもよ
い。周知のように、ユーザーの操作に応じたピッチ指定
ファクタ又はピッチ制御ファクタには、鍵盤等による音
階音指定やピッチベンド等の制御ファクタを含んでいて
よい。

【０１５８】次に、ステップ１５１では、上記のように
確定された所望ピッチＰｄを分析された全体平均ピッチ
Ｐａに置換して、下記式のように相対フレームピッチ
Ｐ'f（ι）と演算することにより、上記式２４の逆算を
行ない、該所望ピッチＰｄに対応して決定される各フレ
ーム毎の新たなピッチＰf（ι）を求める。

【数２５】Ｐf（ι）＝Ｐ'f（ι）＊Ｐd

【０１５９】次に、ステップ１５２では、上記のように
求められた新たなフレームピッチＰf（ι）とそのフレ
ームに関する各部分音の相対周波数データｆ'n（ι）と
を下記式のように夫々演算することにより、上記式２３
の逆算を行ない、該所望ピッチＰｄに対応して決定され
る各フレーム毎の各部分音の絶対周波数データｆn
（ι）を求める。ここで、ｎ＝０，１，２，…，Ｎ−１
である。

【数２６】ｆn（ι）＝ｆ'n（ι）＊Ｐｆ（ι）

【０１６０】以上により、ユーザーの所望するピッチＰ
ｄに対応する絶対周波数で表わされた周波数トラジェク
トリｆn（ι）が得られる。このピッチ修正された周波
数トラジェクトリｆn（ι）を含むＳＭＳデータに基づ
きＳＭＳサウンド合成器１１０でサウンド合成を行なう
ことにより、所望のピッチ制御がなされたサウンドが得
られる。この再生サウンドにおける倍音構成は、その倍
音構成に何の制御も加えられない限り、例えば図３０に
示したようなオリジナルサウンドの倍音構成ｆ0(ι)，
ｆ1(ι)，ｆ2(ι)，…を忠実に模倣する（自然音特有の
微妙な周波数ずれも模倣している）高品質のものであ
る。また、各データを相対値で表現しているため、倍音
構成等を変更するための加工操作も比較的容易に行なえ
るようになっている。

【０１６１】なお、所望ピッチＰｄに応じた確定的成分
の上記制御と同時に、ＳＭＳサウンド合成に使用するス
トカスティックエンベロープを所望ピッチＰｄに応じて
周波数方向に圧縮又は伸長する制御を行なってもよい。
このピッチ分析及び合成技術もまた、他の制御と同様
に、ＳＭＳ技術に限らず、他の類似の部分音加算合成技
術においても適用可能である。

【０１６２】−位相分析及び合成− ＳＭＳ技術において確定的成分の位相データは必須では
ないが、位相データを考慮したサウンド合成を行なえ
ば、サウンドの品質をより一層良くすることができる。
特に、音のサステイン状態において、適正な位相制御を
行なうことは、音の品質を上げるので、望ましい。ま
た、位相を考慮しなかったとすると、ピッチの変更や時
間伸長などの変換を位相を含んで行なうことが困難であ
る。そこで、ここでは、確定的成分の位相データの新し
い分析及び合成アルゴリズムを提案する。ＳＭＳ分析さ
れたデータにおける位相トラジェクトリをφn(ι)で示
す。ιはフレーム番号、ｎは部分音の次数である。この
位相トラジェクトリφn(ι)における位相値φnは、各部
分音ｎ毎の初期位相の絶対値である。新しい位相分析ア
ルゴリズムにおいては、下記式に示すように、この位相
値φnを第１部分音つまり基本成分に対する相対値θn
(ι)で表現する。この演算は、ＳＭＳデータ処理部３０
で行なわれる。

【０１６３】

【数２７】

【０１６４】すなわち、或る部分音の相対位相値θn
(ι) は、その絶対位相値φn(ι) を、第１部分音周波
数ｆ0(ι)に対するその部分音周波数ｆn(ι)の比で割っ
たものから、第１部分音の絶対位相値φ0(ι) を引いた
ものである。すなわち、高次の部分音ほどその位相の重
要度が少なくなるため、それに応じた重み付けを行なっ
てから、第１部分音の位相に対する相対値で表現するよ
うにしている。こうして、位相トラジェクトリφn(ι)
は、より小さな値からなる相対位相トラジェクトリθn
(ι)に変換され、この状態でデータメモリ１００に記憶
される。従って、データ圧縮がなされた状態で位相デー
タを記憶することができる。また、第１部分音の相対位
相θ0(ι)は常に０であるから、これは特に記憶してお
く必要がない。

【０１６５】上記相対位相トラジェクトリθn(ι) に基
づき絶対位相トラジェクトリφn(ι)を再合成する処理
は、下記式に従って行なう。この演算は再生処理部５０
で行なわれる。

【０１６６】

【数２８】

【０１６７】基本的には、上記数式２８は、数式２７の
逆算式である。ただし、φ'0(ι)は第１部分音の絶対位
相値に相当し、ユーザー操作又は適宜の再生プログラム
によって制御可能である。例えば、φ'0(ι)＝φ0(ι)
とすれば、得られる位相トラジェクトリφ'n(ι)はオリ
ジナルの位相トラジェクトリφn(ι)と同じとなる。φ'
0(ι)＝０とすれば、合成されるサウンドにおける基本
成分（第１部分音）の初期位相が０となる。

【０１６８】この位相トラジェクトリφ'n(ι)は、ＳＭ
Ｓサウンド合成器１１０において、ＳＭＳデータの確定
的成分をシヌソイド合成するときに、各部分音に対応す
るシヌソイド波形の初期位相を設定するために利用され
る。例えば、ｎの各値（ｎ＝０，１，２，…，Ｎ−１）
に対応するシヌソイド波形を、ａn sin [２πｆn(ι)ｔ＋φ'n(ι)］と表現し、これらを加算合計してサウンドを合成するよ
うにしてよい。

【０１６９】なお、正確な位相の再合成計算は、３次多
項式を各部分音の各サンプル毎に計算する必要がある。
しかし、そのような計算は、時間がかかり、面倒である
という問題がある。そこで、これを簡略化し、時間のか
からない方法で比較的正確な位相の再合成計算を行なえ
るようにした手法を次に提案する。それは、位相トラジ
ェクトリを使用して周波数トラジェクトリを修正する一
種の補間演算からなる。フレームの始まりの周波数をｆ
s，終わりの周波数をｆeとし、フレームの始まりの位相
をφs，終わりの位相をφeとする。ここで、もし、単純
に、周波数を直線補間したならば、フレームの最後での
位相φiは、次のように表わせる。

【０１７０】

【数２９】φi ＝［（ｆs＋ｆe）／２］＊Δｔ＋φs ここで、Δｔは合成フレームの時間サイズである。（ｆ
s＋ｆe）／２は、始まりの周波数ｆsと，終わりの周波
数ｆeの単純平均であり、これにΔｔを掛けたものは、
Δｔにおける周期数を示し、位相に対応している。すな
わち、時間Δｔからなる１フレームにおいて進行した総
位相量に対応している。従って、φiは単純補間による
終わりの位相を示す。次に、φeとφiの単純平均を次の
ように求め、これを目標位相φtとする。

【０１７１】

【数３０】φt ＝（φe＋φi）／２この目標位相φtから、下記式のように目標周波数ｆtを
求める。

【数３１】ｆt ＝２（φt−φs）／Δｔ−ｆs ここで、φt−φsは、目標位相φtを終わりの位相とし
たときの時間Δｔからなる１フレームにおいて進行する
総位相量に対応しており、（φt−φs）／Δｔは、その
フレームでの周波数に相当する。この周波数が、始まり
の周波数ｆsと目標周波数ｆtとの単純平均に相当するも
のとして、ｆtを求めた式が上記式３１である。

【０１７２】以上の手法で各部分音ごとの位相データを
考慮して夫々の周波数データを補間演算し、こうして求
めた補間修正済み周波数データを使用してシヌソイド合
成を行なえば、望みの位相合成を比較的正確に行なうこ
とができる。この位相分析及び合成技術もまた、他の制
御と同様に、ＳＭＳ技術に限らず、他の類似の部分音加
算合成技術においても適用可能である。

【０１７３】−周波数及びマグニチュードのデトレンド
処理− デトレンド処理の概略は図３のステップ３２に関連して
前述した通りである。ここでは、この処理についてその
一例につき更に詳しく説明する。ここで述べる例では、
周波数トラジェクトリについては各フレーム毎の基本周
波数（これは第１部分音の周波数ｆ0(ι)若しくは前述
のようなピッチ分析によって分析したフレームピッチＰ
f(ι)のどちらでもよい）を対象にし、マグニチュード
トラジェクトリについては各フレーム毎の平均マグニチ
ュード（そのフレームについての確定的全部分音のマグ
ニチュードの平均値）を対象にし、ストカスティックト
ラジェクトリについては各フレーム毎のストカスティッ
クゲイン（残差スペクトルエンベロープの全体レベルを
示すゲインデータ）を対象にして、夫々処理を行なう。
これらの処理対象を以下では要素と呼ぶ。

【０１７４】まず、サウンドの安定状態に関して、下記
式によって、各要素についての時間的変化傾向を示すス
ロープｂを夫々計算し、各要素についてその変化傾向を
見つけ出す。

【数３２】ｂ＝（ｙe−ｙ0）／（ｘe−ｘ0）ここで、ｙはこの式によってその時間的変化傾向を分析
しようとする要素の値を示し、ｙ0は安定状態の始まり
での要素の値、ｙeは安定状態の終わりでの要素の値で
ある。ｘはフレーム番号（つまり時間）を示し、ｘ0は
安定状態の始まりのフレーム番号、ｘeは安定状態の終
わりのフレーム番号である。明らかなように、スロープ
ｂは、変化傾向を示す１次関数の傾き係数に相当する。

【０１７５】次に、上記スロープｂから、安定状態にお
ける各フレームｘ0，ｘ1，ｘ2，…ｘeに対応してフレー
ム単位のデトレンド値ｄiを下記式により計算する。

【数３３】ｄi ＝（ｘi−ｘ0）＊ｂここで、ｘiは現在フレーム番号であり、ｉ＝０，１，
２，…，ｅについての変数である。

【０１７６】こうして求めたフレーム単位のデトレンド
値ｄiを各要素に対応するＳＭＳデータから引算するこ
とにより、デトレンド処理を施す。つまり、スロープｂ
による癖を取り除いた平坦化されたＳＭＳデータが得ら
れる（ただし、ビブラートやトレモロあるいはその他の
微変動は残されている）。周波数要素についてのデトレ
ンド値ｄiの引算は、次のように行なう。このデトレン
ド値ｄiは基本周波数を基準にしているものであるか
ら、そのフレームにおける各部分音の番号ｎ（または正
確には第１部分音周波数すなわち基本周波数に対する各
部分音周波数の比でもよい）をデトレンド値ｄiに掛け
たものｎ＊ｄi（ここでｎ＝１，２，…Ｎ）を夫々求
め、これを対応する部分音周波数から引算する。マグニ
チュード要素についてのデトレンド値ｄiの引算は、そ
のフレームにおける各部分音のマグニチュード値からそ
の値ｄiを夫々引算する。ストカスティックゲインにつ
いてのデトレンド値ｄiの引算は、そのフレームにおけ
るストカスティックゲインの値からその値ｄiを引算す
る。

【０１７７】デトレンド処理済みのＳＭＳデータは、そ
のままデータメモリ１００に記憶し、サウンド合成のた
めにこれが読み出されるようになっていてよい。通常
は、デトレンドしたＳＭＳデータからサウンドを合成す
る際に、オリジナルのトレンドを再合成して付与する必
要はない。すなわち、デトレンドしたままでサウンドを
合成してよい。しかし、オリジナルのトレンドをそっく
り具備するサウンドを合成したい場合は、トレンド再合
成を適宜行なってよい。あるいは、デトレンド処理済み
のＳＭＳデータを前述したフォルマント分析やビブラー
ト分析等の各種分析処理の対象として使用するようにし
てもよい。

【０１７８】このデトレンド処理は、ＳＭＳ分析及び合
成にとって必須ではなく、適宜省略できる。しかし、発
音時間延長のためにルーピング処理を行なうような場
合、ＳＭＳデータにデトレンド処理を施しておくことは
不自然さのないルーピング（セグメント波形の繰返し）
を実現するので、有効である。すなわち、ルーピング用
のセグメント波形のＳＭＳデータを作成する目的での
み、補助的にこのデトレンド処理を行なうようにしても
よい。このデトレンド処理技術もまた、ＳＭＳ技術に限
らず、他のサウンド合成技術においても適用可能であ
る。

【０１７９】−シンギング・シンセサイザのための改良
− この実施例で説明しているシンセサイザは、既に述べ
た、フォルマントの分析及び合成（制御を含む）技術
や、ビブラートの分析及び合成（制御を含む）技術、あ
るいはノートの転移の際にデータ再生／合成ステップに
おいて行なう各種データの補間技術など、その他色々な
点で、人声音やボーカルフレーズの合成に適しているも
のである。以下では、シンギング・シンセサイザとして
の応用のために工夫した更なる改良点について説明す
る。以下で述べる改良点は、ＳＭＳ分析器２０（図２）
にて行なうＳＭＳ分析処理に関するものである。

【０１８０】ピッチに同期した分析：ＳＭＳ技術を使用
したシンギング・シンセサイザの特徴の１つは、外部か
らオリジナルサウンドとして実際のシンギングボイス
（人の歌声）を入力し、これをＳＭＳ分析することによ
り、ＳＭＳデータを作成し、このＳＭＳデータを自由に
加工してからＳＭＳ合成を行なうことにより、制御性に
富んだ自由なシンギングボイスの合成が行なえることで
ある。ここでは、オリジナルサウンドとして実際のシン
ギングボイスを入力した場合に有効な、ＳＭＳ分析の改
良を提案する。

【０１８１】シンギングボイスの特徴の１つは、そのピ
ッチがすばやくかつ連続的に変化することである。その
ような場合に分析の精度を上げるために、ＳＭＳ分析の
時間フレームサイズを入力オリジナルサウンドの現在ピ
ッチに従って変化させるようにするとよい。なお、フレ
ームレートは変化させないものとする。フレームサイズ
を変化させることは、１回のＳＭＳ分析のために取り込
む信号の時間長を変えることを意味する。そのために、
次のようなステップでＳＭＳ分析の或る部分の処理を行
なう。この或る部分の処理とは、例えばストカスティッ
ク分析のための処理である。

【０１８２】第１ステップ：過去のフレームの分析結果
から入力オリジナルサウンドの基本周波数を得る。第２ステップ：最後のフレームの基本周波数に応じて現
在のフレームサイズを設定する（例えば、周期の４倍の
時間とする）。第３ステップ：時間領域の引算によって残差信号を得
る。第４ステップ：時間領域の残差信号からストカスティッ
ク分析を行なう。

【０１８３】まず、第１ステップであるが、これはＳＭ
Ｓ分析においては容易に求まる。例えば、これは第１部
分音の周波数ｆ0(ι)若しくは前述のようなピッチ分析
によって分析したフレームピッチＰf(ι)のどちらを基
本周波数として用いてもよい。第２ステップのためは、
各フレーム毎に異なるフレームサイズを設定することが
できるようにフレキシブルな分析バッファを用意する。
こうして用意した各フレームサイズを使用して第３及び
第４ステップのストカスティック分析を行なう。第３ス
テップでは、確定的成分の信号を再生し、これをオリジ
ナル信号から引算して残差信号を得る。第４ステップで
は、この残差信号からストカスティック成分のデータを
求める。このようなストカスティック分析は、ストカス
ティック分析用のフレームサイズを、確定的成分分析用
のフレームサイズとは異ならせることができるのでよ
い。例えば、ストカスティック分析用のフレームサイズ
を、確定的成分分析用のフレームサイズよりも小さくす
ると、ストカスティック分析結果の時間分解能が良くな
り、するどい立上りにおける時間分解能がより良くな
る。

【０１８４】プリエンファシス処理：ＳＭＳ分析の精度
を上げるために、ＳＭＳ分析を行なう前に、入力音声信
号に対してプリエンファシス処理を施すとよい。それか
ら、ＳＭＳ分析の最後に、プリエンファシスに対応した
デエンファシス処理を施す。このようなプリエンファシ
ス処理は、より高い周波数の部分音まで分析できるよう
にするので、好ましい。

【０１８５】残差信号に対するハイパスフィルタ処理：
通常、シンギングボイスのストカスティック成分は高周
波数である。２００Ｈｚ以下のストカスティック信号は
極めて少ない。従って、ＳＭＳ分析において、ＳＭＳ分
析された確定的成分信号をオリジナルサウンド信号から
引算することによって求めた残差信号に基づきストカス
ティック分析を行なう前に、この残差信号に対してハイ
パスフィルタ処理を施すのがよい。それとは別に、オリ
ジナルサウンド信号からの確定的成分信号の引算は、音
声によくみられる早いピッチ変化のために低周波数にお
いていくつかの問題を持っている。そのためにハイパス
フィルタを使用するとよい。例えばハイパスのカットオ
フ周波数を８００Ｈｚ程度に設定するとよい。このフィ
ルタリングが実際のストカスティック信号を差し引かな
いようにするための妥協策は、分析しようとするサウン
ドの部分に従属してそのカットオフ周波数を変化させる
ことである。例えば、多くの確定的成分を持つが、スト
カスティック成分は僅かしか持たないサウンドの部分に
おいては、カットオフ周波数をより高くすることができ
る。その逆に、多くのストカスティック成分を持つサウ
ンドの部分においては、カットオフ周波数をより低くし
なければならない。

【０１８６】−ボーカルフレーズ合成の具体例− 以上に述べたこの発明のシンセサイザを使用してボーカ
ルフレーズを合成するためには、まず、複数の音素（ph
oneme) 及び重なり音（diphone）のデータベースを作成
する。そのため、各音素及び重なり音のサウンドを入力
してＳＭＳ分析を夫々行ない、それらのＳＭＳデータを
作成し、データメモリ１００に夫々記憶することにより
それらのデータベースを作成する。こうして、作成され
たデータベースから、ユーザーの制御に基づき、所望の
ボーカルフレーズを構成するに必要な複数の音素及び／
又は重なり音のＳＭＳデータを読み出し、これらを時系
列的に組合せて該ボーカルフレーズに対応するＳＭＳデ
ータを作成する。作成された所望のボーカルフレーズに
対応するＳＭＳデータの組合せは、メモリに記憶してお
き、望みのときにこれを読み出すことによりボーカルフ
レーズのサウンド合成を行なうようにしてよい。あるい
は、作成された所望のボーカルフレーズに対応するＳＭ
Ｓデータの組合せに対応するサウンドを実時間的にＳＭ
Ｓ合成することにより、該ボーカルフレーズのサウンド
合成を行なうようにしてもよい。

【０１８７】入力サウンドの分析にあたっては、例え
ば、入力サウンドが、単一の音素又は重なり音であると
みなしてＳＭＳ分析を行なうようにしてよい。単一の音
素又は重なり音における周波数成分は、そのサウンドの
安定状態においては、あまり変化しないので、分析がし
やすい。従って、例えば、望みの或る音素を分析しよう
とする場合、サウンドの安定状態においてその音素の特
徴が現われるサウンドを入力してやればよい。このよう
な音素又は重なり音の分析つまり人声音の分析のため
に、従来知られたＳＭＳ分析を行なうのみならず、この
明細書で説明した様々な改良（フォルマント分析やビブ
ラート分析など、その他）を併せて行なうことは、人声
音の分析及びその自由な可変的合成にとって、きわめて
有益である。

【０１８８】−ＳＭＳデータの対数表現− ＳＭＳデータにおける周波数データは、従来はＨｚまた
はラジアンに対応するリニア表現からなるものであっ
た。しかし、これに限らず、この周波数データを対数表
現で表わしてもよい。そうすると、前述した様々な演
算、例えばピッチ変更のための演算など、における周波
数データの乗算を、簡単な加算によって置き換えること
ができる。

【０１８９】−ストカスティックエンベロープのスムー
ズ化− 与えられたサウンドのストカスティック表現データを計
算するための方法の１つは、残差スペクトルエンベロー
プについてのラインセグメント近似によるものである。
ストカスティックデータの周波数エンベロープを一旦計
算したら、このエンベロープをローパスフィルタで処理
してスムーズにするのが良い。この処理によって、合成
されるノイズ信号はスムーズなものとなる。

【０１９０】−デジタルウェーブガイド技術への応用− デジタルウェーブガイド理論に従って音を合成する技術
が知られている（例えば米国特許第4,984,276号）。こ
れを極めてシンプルに示すと図３１のようであり、閉鎖
されたウェーブガイドネットワーク１６０に、励振関数
発生器１６１から発生した励振関数信号を入力し、ウェ
ーブガイドネットワーク１６０において設定されている
パラメータに従って信号処理を行なうことにより、該パ
ラメータによって設定した所望音色の出力サウンドを得
るものである。このようなデジタルウェーブガイド理論
に従う楽音合成技術にＳＭＳ技術を応用することを考え
ると、励振関数発生器１６１をＳＭＳサウンド合成シス
テムによって構成し、ＳＭＳ合成したサウンド信号をウ
ェーブガイドネットワーク１６０に対する励振関数信号
として使用する方法が考えられる。

【０１９１】更に具体的に考察すると、一例として、図
３２のような処理手順で、ウェーブガイドネットワーク
１６０に対する励振関数信号をＳＭＳ合成する方法が考
えられる。まず、ウェーブガイドネットワーク１６０か
ら出力したい望みのサウンドに対応するオリジナルサウ
ンドの信号を、ウェーブガイドネットワーク１６０で設
定するフィルタ特性とは反対の特性に設定した逆フィル
タ回路で処理する（ステップ１６２）。この出力が望み
の励振関数信号に対応する。次に、この望みの励振関数
信号をＳＭＳ分析器で分析し（ステップ１６３）、これ
に対応するＳＭＳデータを得る。このＳＭＳデータをデ
ータメモリに適宜記憶しておく。それから、このＳＭＳ
データをデータメモリから読み出し、ユーザーの制御に
応じて適宜変更を施し（ステップ１６４）、ＳＭＳ合成
器でサウンド合成する（ステップ１６５）。こうして合
成されたサウンド信号を励振関数信号としてウェーブガ
イドネットワーク１６０に入力する。

【０１９２】このような方法の利点は、ウェーブガイド
ネットワーク１６０のパラメータを変えずに、ＳＭＳ合
成による励振関数信号を変えることにより、望みのサウ
ンドを合成できる点であり、ウェーブガイドネットワー
クのパラメータ解析を簡単化することができる。すなわ
ち、サウンドを合成する際の所望の可変制御は、ＳＭＳ
データの変更制御によってかなり実現できることにな
り、その分、ウェーブガイドネットワーク側での可変制
御のためのパラメータ解析を簡単化することができる、
ということが期待できる点である。

【０１９３】以上の実施例に基づき抽出されるこの出願
の発明若しくは実施態様のいくつかを要約して列挙する
と次のようである。１．オリジナルサウンドを分析することにより、該オリ
ジナルサウンド波形を構成する複数の成分を示す分析デ
ータを提供する第１のステップと、前記分析データから
所定のサウンド要素に関する特徴を分析して、分析した
該特徴を示すデータを、前記オリジナルサウンドにおけ
る前記要素についての固有の特性を示すサウンドパラメ
ータとして抽出する第２のステップと、抽出されたサウ
ンドパラメータに対応する特徴を前記分析データから取
り除く第３のステップと、前記特徴が取り除かれた分析
データに対して、サウンドパラメータに対応する特徴を
付加する第４のステップと、この特徴が付加された分析
データに基づき、サウンド波形を合成する第５のステッ
プとを備えたサウンドを分析し合成するための方法。２．前記第４のステップは、前記サウンドパラメータを
変更するためのステップを含み、変更されたサウンドパ
ラメータに対応する特徴を前記分析データに付加するこ
とを特徴とする前記１項の方法。３．前記特徴が取り除かれた分析データと、前記サウン
ドパラメータとをメモリに記憶するステップを更に具え
ることを特徴とする前記１項の方法。４．前記サウンドパラメータは、前記分析データとは異
なるデータ表現で表現されたものであることを特徴とす
る前記１項の方法。５．前記第４のステップは、前記サウンドパラメータか
ら前記分析データのデータ表現に対応するデータ表現か
らなる付加データを再生するステップを含み、この付加
データを前記分析データに付加することを特徴とする前
記１項の方法。

【０１９４】６．前記第４のステップの前に、少なくと
も２つの異なるサウンド又はサウンド部分に関する前記
分析データを補間すると共に、該異なるサウンド又はサ
ウンド部分に関する前記サウンドパラメータを補間する
ステップを更に含み、前記第４のステップでは、補間さ
れた前記分析データに対して、補間された前記サウンド
パラメータに対応する特徴を付加することを特徴とする
前記１項の方法。７．前記分析データは、オリジナルサウンド波形を構成
する部分音の周波数及びマグニチュードを示すデータを
含むことを特徴とする前記１項の方法。８．前記分析データは、オリジナルサウンド波形を構成
する部分音の周波数及びマグニチュードを示す確定的成
分のデータと、前記オリジナルサウンド波形の前記確定
的成分に対する残差成分に対応するストカスティックデ
ータとを含むことを特徴とする前記１項の方法。９．前記第１のステップでは、前記オリジナルサウンド
を異なる時間フレームで分析することによって得られる
各時間フレーム毎の分析データを提供し、前記第２のス
テップでは、各時間フレーム毎の分析データに基づき、
各時間フレーム毎に前記サウンドパラメータを抽出する
ことを特徴とする前記１項の方法。１０．前記第１のステップでは、前記オリジナルサウン
ドを異なる時間フレームで分析することによって得られ
る各時間フレーム毎の分析データを提供し、前記第２の
ステップでは、各時間フレーム毎の分析データに基づ
き、複数の時間フレームに共通の前記サウンドパラメー
タを抽出することを特徴とする前記１項の方法。１１．前記サウンドパラメータに対応する特徴は周波数
成分に関するものであり、前記第３のステップにおける
分析データからの該特徴の取り除きは、分析データにお
ける周波数データを変更することからなることを特徴と
する前記１項の方法。１２．前記サウンドパラメータに対応する特徴はマグニ
チュード成分に関するものであり、前記第３のステップ
における分析データからの該特徴の取り除きは、分析デ
ータにおけるマグニチュードデータを変更することから
なることを特徴とする前記１項の方法。

【０１９５】１３．オリジナルサウンドを分析すること
により、該オリジナルサウンド波形を構成する複数の成
分を示す分析データを提供する第１のステップと、前記
分析データから所定のサウンド要素に関する特徴を分析
して、分析した該特徴を示すデータを、前記オリジナル
サウンドにおける前記要素についての固有の特性を示す
サウンドパラメータとして抽出する第２のステップと、
抽出されたサウンドパラメータに対応する特徴を前記分
析データから取り除く第３のステップとを備え、前記特
徴が取り除かれた分析データと、前記サウンドパラメー
タとの組合せによって前記オリジナルサウンド波形を表
現することを特徴とするサウンドを分析するための方
法。１４．前記特徴が取り除かれた分析データと、前記サウ
ンドパラメータとをメモリに記憶するステップを更に具
えることを特徴とする前記１３項の方法。１５．前記分析データは、オリジナルサウンド波形を構
成する部分音の周波数及びマグニチュードを示す確定的
成分のデータと、前記オリジナルサウンド波形の前記確
定的成分に対する残差成分に対応するストカスティック
データとを含むことを特徴とする前記１３項の方法。

【０１９６】１６．オリジナルサウンドを分析すること
により、該オリジナルサウンド波形を構成する複数の成
分を示す分析データを提供する第１のステップと、前記
分析データから所定のサウンド要素に関する特徴を分析
して、分析した該特徴を示すデータを、前記オリジナル
サウンドにおける前記要素についての固有の特性を示す
サウンドパラメータとして抽出する第２のステップと、
前記サウンドパラメータを変更するための第３のステッ
プと、前記分析データに対して、前記サウンドパラメー
タに対応する特徴を付加する第４のステップと、この特
徴が付加された分析データに基づき、サウンド波形を合
成する第５のステップとを備えたサウンドを分析し合成
するための方法。１７．前記分析データは、オリジナルサウンド波形を構
成する部分音の周波数及びマグニチュードを示す確定的
成分のデータと、前記オリジナルサウンド波形の前記確
定的成分に対する残差成分に対応するストカスティック
データとを含むことを特徴とする前記１６項の方法。

【０１９７】１８．オリジナルサウンドの分析に基づき
該オリジナルサウンド波形を構成する複数の成分を示す
分析データを提供する分析手段と、前記分析データから
所定のサウンド要素に関する特徴を分析して、分析した
該特徴を示すデータをサウンドパラメータとして抽出す
ると共に、抽出されたサウンドパラメータに対応する特
徴を前記分析データから取り除くデータ処理手段と、前
記特徴が取り除かれた分析データと前記サウンドパラメ
ータとを記憶する記憶手段と、前記分析データとサウン
ドパラメータを前記記憶手段から読み出し、読み出した
分析データに対して該サウンドパラメータに対応する特
徴を付加するデータ再生手段と、データ再生手段で再生
された分析データに基づき、サウンド波形を合成するサ
ウンド合成手段とを備えたサウンド波形合成装置。１９．前記サウンドパラメータを変更するための変更手
段を更に具え、前記データ再生手段では変更されたサウ
ンドパラメータに対応する特徴を前記分析データに対し
て付加し、これにより、合成するサウンドを制御するこ
とができることを特徴とする前記１８項のサウンド波形
合成装置。２０．前記変更手段は、ユーザーの操作に応じて前記サ
ウンドパラメータを変更できるものであることを特徴と
する前記１９項のサウンド波形合成装置。２１．前記データ再生手段は、少なくとも２つの異なる
サウンド又はサウンド部分に関する前記分析データを補
間すると共に、該異なるサウンド又はサウンド部分に関
する前記サウンドパラメータを補間する補間手段を含
み、補間された分析データに対して補間されたサウンド
パラメータに対応する特徴を付加することを特徴とする
前記１８項のサウンド波形合成装置。２２．前記分析データは、オリジナルサウンド波形を構
成する部分音の周波数及びマグニチュードを示す確定的
成分のデータと、前記オリジナルサウンドの前記確定的
成分に対する残差成分に対応するストカスティックデー
タとを含むことを特徴とする前記１８項のサウンド波形
合成装置。

【０１９８】２３．部分音を示すデータを含む波形分析
データと、オリジナルサウンドから抽出された所定のサ
ウンド要素に関する特徴を示すサウンドパラメータとを
記憶している記憶手段と、前記波形分析データとサウン
ドパラメータを前記記憶手段から読み出す読出し手段
と、読み出されたサウンドパラメータを変更するための
制御を行なう制御手段と、前記読み出した波形分析デー
タを、前記制御されたサウンドパラメータによって変更
するデータ変更手段と、データ変更手段で変更された波
形分析データに基づき、サウンド波形を合成するサウン
ド合成手段とを備えたサウンド波形合成装置。２４．前記記憶手段に記憶される前記波形分析データ
は、更にスペクトルエンベロープデータを含んでおり、
前記サウンド合成手段は、前記波形分析データに含まれ
る前記部分音を示すデータに基づき各部分音の波形を発
生する確定的波形発生手段と、前記波形分析データに含
まれるスペクトルエンベロープデータに基づいて定まる
スペクトルマグニチュードを持つストカスティックなス
ペクトル構成からなるストカスティック波形を発生する
ストカスティック波形発生手段と、前記各部分音の波形
とストカスティック波形とを組み合わせることによりサ
ウンド波形を合成する手段とを具えることを特徴とする
前記２３項のサウンド波形合成装置。

【０１９９】２５．オリジナルサウンドをスペクトル分
析したデータを提供する第１の手段と、前記スペクトル
分析されたデータからフォルマント構造を検出し、検出
したフォルマントを記述するパラメータを生成する第２
の手段と、前記スペクトル分析されたデータから前記検
出されたフォルマント構造を差引き、残余のスペクトル
データを生成する第３の手段とを備え、前記残余のスペ
クトルデータと前記パラメータとの組合せによって前記
オリジナルサウンド波形を表現することを特徴とするサ
ウンド波形合成装置。２６．前記フォルマントを制御するために前記パラメー
タを可変制御する第４の手段と、前記パラメータに基づ
きフォルマント構造を再生し、再生されたフォルマント
構造を前記残余のスペクトルデータに付加し、制御され
たフォルマント構造を有するスペクトルデータを作成す
る第５の手段とを更に備えたことを特徴とする前記２５
項のサウンド波形合成装置２７．前記第５の手段で作成されたスペクトルデータに
基づきサウンド波形を合成するサウンド合成手段を更に
備えたことを特徴とする前記２６項のサウンド波形合成
装置。

【０２００】２８．前記第１の手段は、前記オリジナル
サウンドを異なる時間フレームで分析することによって
得られた各時間フレーム毎のスペクトル分析データを提
供するものであり、前記第２の手段は、各時間フレーム
毎のスペクトル分析データに基づき、各時間フレーム毎
にフォルマント構造をそれぞれ検出し、検出したフォル
マントを記述するパラメータを生成するものであり、前
記第３の手段は、各時間フレーム毎のスペクトル分析デ
ータから前記各時間フレーム毎に検出されたフォルマン
ト構造を差引き、残余のスペクトルデータを各時間フレ
ーム毎に生成することを特徴とする前記２５項のサウン
ド波形合成装置。２９．前記第２の手段は、前記スペクトル分析データに
おける各線スペクトルのマグニチュードに基づき、２つ
のローカル最小値とそれによって囲まれた１つのローカ
ル最大値とからフォルマントと推定される１又は複数の
山を検出する手段と、検出した各山毎に所定の関数近似
によりフォルマントエンベロープを近似し、この近似に
より少なくともフォルマント中心周波数とそのピークレ
ベルを記述するデータを含むフォルマントパラメータを
求める手段とを有することを特徴とする前記２５項のサ
ウンド波形合成装置。３０．前記フォルマントエンベロープの近似は、指数関
数近似によって行なうことを特徴とする前記２９項のサ
ウンド波形合成装置。３１．前記フォルマントエンベロープの近似は、二等辺
三角形関数近似によって行なうことを特徴とする前記２
９項のサウンド波形合成装置。

【０２０１】３２．オリジナルサウンドの分析によって
得た複数のサウンド部分を示す部分音データのセットを
提供するものであり、各部分音データは周波数データを
含み、前記部分音データのセットを時間関数で提供する
第１の手段と、前記部分音データにおける周波数データ
の時間関数からオリジナルサウンドにおけるビブラート
を検出し、検出したビブラートを記述するパラメータを
生成する第２の手段と、前記部分音データにおける周波
数データの時間関数から前記検出されたビブラートの特
徴を取り除き、修正された周波数データの時間関数を生
成する第３の手段とを備え、前記修正された周波数デー
タの時間関数を含む前記部分音データと前記パラメータ
との組合せによって時間的に変化する前記オリジナルサ
ウンド波形を表現することを特徴とするサウンド波形合
成装置。３３．ビブラートを制御するために前記パラメータを可
変制御する第４の手段と、前記パラメータに基づきビブ
ラート関数を発生し、発生されたビブラート関数によっ
て前記修正された周波数データの時間関数にビブラート
を付与する第５の手段と、ビブラート付与された周波数
データの時間関数を含む前記部分音データに基づきサウ
ンド波形を合成するサウンド合成手段とを更に備えたこ
とを特徴とする前記３２項のサウンド波形合成装置。３４．前記第２の手段は、前記周波数データの時間関数
をスペクトル解析することにより、ビブラートを検出す
るものであり、前記第３の手段は、解析された前記周波
数データの時間関数のスペクトルデータから、検出され
たビブラートの成分を除去し、その結果たる時間関数の
スペクトルデータを逆フーリエ変換することにより、修
正された周波数データの時間関数を生成することを特徴
とする前記３２項のサウンド波形合成装置。３５．前記第２の手段は、所定の１又は複数の低次の部
分音の周波数データの時間関数について前記スペクトル
解析を行なうことにより、ビブラートを検出することを
特徴とする前記３４項のサウンド波形合成装置。

【０２０２】３６．オリジナルサウンドの分析によって
得た複数のサウンド部分を示す部分音データのセットを
提供するものであり、各部分音データはマグニチュード
データを含み、前記部分音データのセットを時間関数で
提供する第１の手段と、前記部分音データにおけるマグ
ニチュードデータの時間関数からオリジナルサウンドに
おけるトレモロを検出し、検出したトレモロを記述する
パラメータを生成する第２の手段と、前記部分音データ
におけるマグニチュードデータの時間関数から前記検出
されたトレモロの特徴を取り除き、修正されたマグニチ
ュードデータの時間関数を生成する第３の手段とを備
え、前記修正されたマグニチュードデータの時間関数を
含む前記部分音データと前記パラメータとの組合せによ
って時間的に変化する前記オリジナルサウンド波形を表
現することを特徴とするサウンド波形合成装置。３７．トレモロを制御するために前記パラメータを可変
制御する第４の手段と、前記パラメータに基づきトレモ
ロ関数を発生し、発生されたトレモロ関数によって前記
修正されたマグニチュードデータの時間関数にトレモロ
を付与する第５の手段と、トレモロ付与されたマグニチ
ュードデータの時間関数を含む前記部分音データに基づ
きサウンド波形を合成するサウンド合成手段とを更に備
えたことを特徴とする前記３６項のサウンド波形合成装
置。

【０２０３】３８．オリジナルサウンドのスペクトル構
造を示すスペクトルデータを提供する第１の手段と、前
記スペクトルデータに基づき、そのスペクトルエンベロ
ープに概ね適合しているただ１本のチルトラインを検出
し、検出したチルトラインを記述するチルトパラメータ
を生成する第２の手段と、スペクトルの傾きを制御する
ために、前記チルトパラメータを可変制御する第３の手
段と、制御されたチルトパラメータに基づき前記スペク
トルデータのスペクトル構造を制御する第４の手段と、
制御されたスペクトルデータに基づきサウンド波形を合
成するサウンド合成手段とを備えたサウンド波形合成装
置。３９．前記第１の手段は、前記オリジナルサウンドを異
なる時間フレームで分析することによって得られた各時
間フレーム毎のスペクトルデータを提供するものであ
り、前記第２の手段は、各時間フレーム毎のスペクトル
データに基づき、各時間フレーム毎のチルトラインを検
出し、これらのチルトラインを示すデータに基づきこれ
らの相関を示すただ１つの前記チルトパラメータを生成
するものであり、更に、前記各時間フレーム毎のスペク
トルデータを、前記チルトパラメータを使用して正規化
する第５の手段を具備し、かつ、前記第４の手段は、制
御されたチルトパラメータに基づき前記正規化されたス
ペクトルデータの正規化を解除することを特徴とする前
記３８項のサウンド波形合成装置。

【０２０４】４０．オリジナルサウンドを構成する部分
音のスペクトルデータを複数の時間フレームに対応して
提供する第１の手段と、一連の時間フレームにおける前
記部分音スペクトルデータにおける周波数データに基づ
き前記オリジナルサウンドの平均ピッチを検出し、ピッ
チデータを生成する第２の手段と、前記ピッチデータを
可変制御するための第３の手段と、制御されたピッチデ
ータに応じて前記部分音スペクトルデータにおける周波
数データを修正する第４の手段と、前記修正された周波
数データを含む前記部分音スペクトルデータに基づき、
可変制御されたピッチを持つサウンド波形を合成するサ
ウンド合成手段とを備えたサウンド波形合成装置。４１．前記第１の手段は、更に、前記部分音スペクトル
データに対応する確定的成分波形を前記オリジナルサウ
ンドから引いた残りである残差成分波形に対応するスト
カスティックデータを提供するものであり，前記第４の
手段は、更に、制御されたピッチデータに応じて前記ス
トカスティックデータの周波数特性を制御することを特
徴とする前記４０項のサウンド波形合成装置。４２．前記部分音スペクトルデータにおける周波数デー
タを前記検出した平均ピッチを基にした相対値に変換す
る手段を更に備え、前記第４の手段は、制御されたピッ
チデータに応じて前記相対値を絶対値に変換し、前記修
正された周波数データを得ることを特徴とする前記４０
項のサウンド波形合成装置。４３．前記第２の手段は、各時間フレーム毎に、所定の
複数の低次の部分音の周波数をそのマグニチュードに応
じて重みづけして平均化することによりフレームピッチ
をそれぞれ求め、各フレームピッチを平均化することに
より平均ピッチを検出することを特徴とする前記４０項
のサウンド波形合成装置。

【０２０５】４４．オリジナルサウンドを構成する部分
音のスペクトルデータと、前記部分音スペクトルデータ
に対応する確定的成分波形を前記オリジナルサウンドか
ら引いた残りである残差成分波形に対応するストカステ
ィックデータと、前記オリジナルサウンドの特定された
ピッチを示すピッチデータとを記憶するものであり、前
記部分音スペクトルデータにおける各周波数データを、
前記ピッチデータが示す特定の周波数を基にした相対値
で表わしたデータで記憶している記憶手段と、前記記憶
手段に記憶したデータを読み出すための手段と、前記記
憶手段から読み出された前記ピッチデータを可変制御す
るための制御手段と、前記記憶手段から読み出された前
記部分音スペクトルデータにおける周波数データの相対
値を、前記制御されたピッチデータに応じて絶対値に変
換する演算手段と、変換された周波数データと前記記憶
手段から読み出された前記部分音スペクトルデータにお
けるマグニチュードデータとに基づき部分音波形を合成
し、かつ、前記記憶手段から読み出された前記ストカス
ティックデータに基づき前記残差成分波形を合成し、前
記部分音波形と前記残差成分波形を組み合わせたサウン
ド波形を合成するサウンド合成手段とを備えたサウンド
波形合成装置。４５．前記記憶手段に記憶する前記部分音スペクトルデ
ータには位相データが含まれており、この位相データ
は、各部分音の位相を基本の部分音の位相を基準にした
相対値で表わされており、更に、前記記憶手段から読み
出された前記部分音スペクトルデータにおける位相デー
タの相対値を絶対値に変換する手段を具備し、前記サウ
ンド合成手段では、変換された位相データと前記周波数
データ及びマグニチュードデータとに基づき前記部分音
波形を合成することを特徴とする前記４４項のサウンド
波形合成装置。

【０２０６】４６．ウェーブガイドをモデルした閉鎖ネ
ットワークであって、振動関数信号を該閉鎖ネットワー
ク内に導入し、前記ウェーブガイドにおける信号の遅延
と散乱をシミュレートするパラメータによって決定され
る処理を該信号に対して施すことにより、サウンド信号
を合成する閉鎖型ウェーブガイドネットワーク手段と、
前記振動関数信号を発生するための振動関数発生手段と
を具備し、前記振動関数発生手段は、オリジナル信号波
形を構成する部分音のスペクトルデータと、前記部分音
スペクトルデータに対応する確定的成分波形を前記オリ
ジナル信号波形から引いた残りである残差成分波形に対
応するストカスティックデータとを記憶している記憶手
段と、前記記憶手段に記憶したデータを読み出すための
手段と、前記記憶手段から読み出されたデータを可変制
御するための制御手段と、前記部分音スペクトルデータ
に基づき部分音波形を合成し、かつ、前記ストカスティ
ックデータに基づき前記残差成分波形を合成し、前記部
分音波形と前記残差成分波形を組み合わせた波形信号を
合成する波形合成手段とを有しており、合成された波形
信号を前記振動関数信号として前記ウェーブガイドネッ
トワークに与えるようにしたことを特徴とするサウンド
波形合成装置。４７．前記記憶手段は、所定の音楽要素に関する特徴を
示すパラメータを更に記憶しており、前記制御手段は、
前記パラメータを可変制御すると共に、制御されたパラ
メータによって前記部分音スペクトルデータ及びストカ
スティックデータを可変制御することを特徴とする前記
４６項のサウンド波形合成装置

【０２０７】４８．オリジナル波形を構成する部分音の
スペクトルデータを、複数の時間フレームに対応して順
次に提供するステップと、前記複数の時間フレームのス
ペクトルデータ列から前記オリジナル波形におけるビブ
ラート変動を検出し、この変動の少なくとも１サイクル
に対応する長さを持つ１又は複数の波形セグメントを指
摘するデータリストを作成するステップと、前記データ
リストを参照して、任意の波形セグメントを選択するス
テップと、選択した波形セグメントに対応する前記スペ
クトルデータ列を前記オリジナル波形のスペクトルデー
タ列から抜き出すステップと、抜き出したスペクトルデ
ータ列を繰り返すことにより前記波形セグメントの繰り
返しに対応するスペクトルデータ列を作成するステップ
と、前記繰り返しに対応するスペクトルデータ列を使用
して、延長された長さを持つサウンド波形を合成するス
テップとを備えたサウンドを分析し合成する方法。４９．前記部分音スペクトルデータに対応する確定的成
分波形を前記オリジナル波形から引いた残りである残差
成分波形に対応するストカスティックデータを、複数の
時間フレームに対応して順次に提供するステップと、前
記選択した波形セグメントに対応する前記ストカスティ
ックデータ列を前記オリジナル波形のストカスティック
データ列から抜き出すステップと、抜き出したストカス
ティックデータ列を繰り返すことにより前記波形セグメ
ントの繰り返しに対応するストカスティックデータ列を
作成するステップと、前記繰り返しに対応するストカス
ティックデータ列を使用して、延長された長さを持つス
トカスティック波形を合成し、これを前記サウンド波形
に組み込むステップとを更に備えたことを特徴とする前
記４８項の方法。

【０２０８】５０．オリジナル波形を構成する部分音の
スペクトルデータを、複数の時間フレームに対応して順
次に提供するステップと、前記複数の時間フレームのス
ペクトルデータ列から前記オリジナル波形におけるビブ
ラート変動を検出し、この変動の少なくとも１サイクル
に対応する長さを持つ１又は複数の波形セグメントを指
摘するデータリストを作成するステップと、前記データ
リストを参照して、任意の波形セグメントを選択するス
テップと、選択した波形セグメントに対応する前記スペ
クトルデータ列を前記オリジナル波形のスペクトルデー
タ列から取り去り、その前後で残された２つのスペクト
ルデータ列を接続し、短縮されたスペクトルデータ列を
作成するステップと、前記短縮されたスペクトルデータ
列を使用して、短縮された長さを持つサウンド波形を合
成するステップとを備えたサウンドを分析し合成する方
法。５１．前記部分音スペクトルデータに対応する確定的成
分波形を前記オリジナル波形から引いた残りである残差
成分波形に対応するストカスティックデータを、複数の
時間フレームに対応して順次に提供するステップと、前
記選択した波形セグメントに対応する前記ストカスティ
ックデータ列を前記オリジナル波形のストカスティック
データ列から取り去り、その前後で残された２つのスト
カスティックデータ列を接続し、短縮されたストカステ
ィックデータ列を作成するステップと、前記短縮された
ストカスティックデータ列を使用して短縮された長さを
持つストカスティック波形を合成し、これを前記サウン
ド波形に組み込むステップとを更に備えた前記５０項の
方法。

【０２０９】

【発明の効果】以上の通り、この発明によれば、オリジ
ナルサウンドの分析データから所定のサウンド要素に関
する特徴を分析し、分析した該特徴を示すデータをサウ
ンドパラメータとして抽出するようにしたので、例えば
フォルマントやビブラートなどのような様々なサウンド
要素に関して、オリジナルの特徴を示している品質のよ
いサウンドパラメータを得ることができる。従って、こ
のパラメータをサウンド波形合成に際して利用すれば、
品質のよい各種音楽的特徴の合成を行なうことができ
る。しかも、サウンドパラメータとして分析データから
分離抽出されているため、その可変制御が容易であり、
ユーザーによる自由な音楽制御に適したものである。ま
た、抽出されたサウンドパラメータに対応する特徴を前
記分析データから取り除くようにしているため、分析デ
ータの構造が簡単化され、データ圧縮が期待できるもの
である。このように、サウンドパラメータを分析データ
から抽出分離し、該サウンドパラメータに対応する特徴
が取り除かれた分析データとサウンドパラメータの組み
合わせによってオリジナルサウンド波形を表現するデー
タを提供し、これに基づきサウンド波形を合成する技術
は、種々の効果が期待できるものである。

【図面の簡単な説明】

【図１】この発明の一実施例に係る音楽シンセサイザの
全体を示すブロック図。

【図２】図１における分析部の一実施例を示すブロック
図。

【図３】図２におけるＳＭＳデータ処理部の一実施例を
示すブロック図。

【図４】図１における合成部の一実施例を示すブロック
図。

【図５】図４における再生処理部の一実施例を示すブロ
ック図。

【図６】この発明に従うフォルマント抽出及び操作シス
テムの一実施例を示すブロック図。

【図７】図６に入力されるＳＭＳ分析されたデータのう
ち１フレーム分の確定的部分のデータすなわち線スペク
トルデータの一例を示す線スペクトル図。

【図８】図６に入力されるＳＭＳ分析されたデータのう
ち１フレーム分のストカスティックエンベロープの一例
を示すスペクトルエンベロープ図。

【図９】図６の実施例に従って、線スペクトルにおける
フォルマントを指数関数近似によって検出する状態を説
明するための図。

【図１０】検出したフォルマントの特徴を差し引いて平
坦化された線スペクトル構造の一例を示す図。

【図１１】この発明に従うフォルマント抽出及び操作シ
ステムの別の実施例を示すブロック図。

【図１２】図１１の実施例に従って、線スペクトルにお
けるフォルマントを三角形関数近似によって検出する状
態を説明するための図。

【図１３】フォルマントの三角形関数近似の第１ステッ
プとして、フォルマントの山を検出する状態を説明する
ための図。

【図１４】フォルマントの三角形関数近似の第２ステッ
プとして、二等辺三角形近似のために、フォルマント中
心周波数の位置で線スペクトルを折り返した状態を模式
的に示す図。

【図１５】フォルマントの三角形関数近似の第３ステッ
プとして、二等辺三角形近似が達成できた状態を示す
図。

【図１６】検出したフォルマントをトラジェクトリに割
当てる様子を模式的に示す図。

【図１７】この発明に従うビブラート分析システムの一
実施例を示すブロック図。

【図１８】図１７の実施例において、周波数トラジェク
トリの時間関数をフーリエ変換することにより求められ
るスペクトルエンベロープの一例を示す図。

【図１９】図１８のスペクトルからビブラート成分を取
り除いた状態を示すスペクトルエンベロープの一例を示
す図。

【図２０】図１７の実施例において、図１８のようなス
ペクトル特性からビブラートレートを放物線近似によっ
て計算する一例を拡大して示す図。

【図２１】この発明に従うビブラート合成アルゴリズム
の一実施例を示すブロック図。

【図２２】この発明に従うスペクトルチルトの分析及び
合成アルゴリズムの一実施例を示すブロック図。

【図２３】図２２の実施例に従って、ＳＭＳ分析された
データのうち１フレーム分の確定的部分のデータすなわ
ち線スペクトルから分析されるチルトの一例を示す図。

【図２４】この発明に従う発音時間変更アルゴリズムの
一実施例を示すブロック図。

【図２５】図２４の実施例に従って分析されるビブラー
ト極値とスロープの一例を示す図。。

【図２６】図２４の実施例における、発音時間短縮のた
めの取り除き部分の分析例を示す図。

【図２７】図２５の例において、分析した取り除き部分
を波形データから取り除いて発音時間を短縮したデータ
の例を示す図。

【図２８】この発明に従うピッチ分析アルゴリズムの一
実施例を示すブロック図。

【図２９】この発明に従うピッチ合成アルゴリズムの一
実施例を示すブロック図。

【図３０】図２８のピッチ分析アルゴリズムにおける１
フレームについてのピッチ検出を説明するためのスペク
トル図。

【図３１】この発明に従うＳＭＳ技術をデジタルウェー
ブガイド理論による楽音合成技術に適用する一実施例を
示すブロック図。

【図３２】図３１における励振関数発生器に対するＳＭ
Ｓ分析及び合成技術の適用例を示すブロック図。

【符号の説明】

１０分析部１１合成部１３編集機器群１４音楽コントローラ群１５音楽パラメータインターフェース部２０ＳＭＳ分析器３０ＳＭＳデータ処理部５０再生処理部１００データメモリ１１０ＳＭＳサウンド合成器

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 9/14 Ｎ (72)発明者ロバートグロスアメリカ合衆国，ノースカロライナ 27615，ローリー，サウスフィールドドライブ 8509 (72)発明者アーリングウォルドアメリカ合衆国，カリフォルニア 94530, エルサーリト，ルドウィグアベニュー 5618

Claims

【特許請求の範囲】

【請求項１】オリジナルサウンドを分析することによ
り、該オリジナルサウンド波形を構成する複数の成分を
示す分析データを提供する第１のステップと、前記分析データから所定のサウンド要素に関する特徴を
分析して、分析した該特徴を示すデータを、前記オリジ
ナルサウンドにおける前記要素についての固有の特性を
示すサウンドパラメータとして抽出する第２のステップ
と、抽出されたサウンドパラメータに対応する特徴を前記分
析データから取り除く第３のステップと、前記特徴が取り除かれた分析データに対して、サウンド
パラメータに対応する特徴を付加する第４のステップ
と、この特徴が付加された分析データに基づき、サウンド波
形を合成する第５のステップとを備えたサウンドを分析
し合成するための方法。
【請求項２】オリジナルサウンドを分析することによ
り、該オリジナルサウンド波形を構成する複数の成分を
示す分析データを提供する第１のステップと、前記分析データから所定のサウンド要素に関する特徴を
分析して、分析した該特徴を示すデータを、前記オリジ
ナルサウンドにおける前記要素についての固有の特性を
示すサウンドパラメータとして抽出する第２のステップ
と、抽出されたサウンドパラメータに対応する特徴を前記分
析データから取り除く第３のステップとを備え、前記特
徴が取り除かれた分析データと、前記サウンドパラメー
タとの組合せによって前記オリジナルサウンド波形を表
現することを特徴とするサウンドを分析するための方
法。
【請求項３】オリジナルサウンドを分析することによ
り、該オリジナルサウンド波形を構成する複数の成分を
示す分析データを提供する第１のステップと、前記分析データから所定のサウンド要素に関する特徴を
分析して、分析した該特徴を示すデータを、前記オリジ
ナルサウンドにおける前記要素についての固有の特性を
示すサウンドパラメータとして抽出する第２のステップ
と、前記サウンドパラメータを変更するための第３のステッ
プと、前記分析データに対して、前記サウンドパラメータに対
応する特徴を付加する第４のステップと、この特徴が付加された分析データに基づき、サウンド波
形を合成する第５のステップとを備えたサウンドを分析
し合成するための方法。
【請求項４】オリジナルサウンドの分析に基づき該オ
リジナルサウンド波形を構成する複数の成分を示す分析
データを提供する分析手段と、前記分析データから所定のサウンド要素に関する特徴を
分析して、分析した該特徴を示すデータをサウンドパラ
メータとして抽出すると共に、抽出されたサウンドパラ
メータに対応する特徴を前記分析データから取り除くデ
ータ処理手段と、前記特徴が取り除かれた分析データと前記サウンドパラ
メータとを記憶する記憶手段と、前記分析データとサウンドパラメータを前記記憶手段か
ら読み出し、読み出した分析データに対して該サウンド
パラメータに対応する特徴を付加するデータ再生手段
と、データ再生手段で再生された分析データに基づき、サウ
ンド波形を合成するサウンド合成手段とを備えたサウン
ド波形合成装置。
【請求項５】部分音を示すデータを含む波形分析デー
タと、オリジナルサウンドから抽出された所定のサウン
ド要素に関する特徴を示すサウンドパラメータとを記憶
している記憶手段と、前記波形分析データとサウンドパラメータを前記記憶手
段から読み出す読出し手段と、読み出されたサウンドパラメータを変更するための制御
を行なう制御手段と、前記読み出した波形分析データを、前記制御されたサウ
ンドパラメータによって変更するデータ変更手段と、データ変更手段で変更された波形分析データに基づき、
サウンド波形を合成するサウンド合成手段とを備えたサ
ウンド波形合成装置。
【請求項６】オリジナルサウンドをスペクトル分析し
たデータを提供する第１の手段と、前記スペクトル分析されたデータからフォルマント構造
を検出し、検出したフォルマントを記述するパラメータ
を生成する第２の手段と、前記スペクトル分析されたデータから前記検出されたフ
ォルマント構造を差引き、残余のスペクトルデータを生
成する第３の手段とを備え、前記残余のスペクトルデー
タと前記パラメータとの組合せによって前記オリジナル
サウンド波形を表現することを特徴とするサウンド波形
合成装置。
【請求項７】オリジナルサウンドの分析によって得た
複数のサウンド部分を示す部分音データのセットを提供
するものであり、各部分音データは周波数データを含
み、前記部分音データのセットを時間関数で提供する第
１の手段と、前記部分音データにおける周波数データの時間関数から
オリジナルサウンドにおけるビブラートを検出し、検出
したビブラートを記述するパラメータを生成する第２の
手段と、前記部分音データにおける周波数データの時間関数から
前記検出されたビブラートの特徴を取り除き、修正され
た周波数データの時間関数を生成する第３の手段とを備
え、前記修正された周波数データの時間関数を含む前記
部分音データと前記パラメータとの組合せによって時間
的に変化する前記オリジナルサウンド波形を表現するこ
とを特徴とするサウンド波形合成装置。
【請求項８】オリジナルサウンドの分析によって得た
複数のサウンド部分を示す部分音データのセットを提供
するものであり、各部分音データはマグニチュードデー
タを含み、前記部分音データのセットを時間関数で提供
する第１の手段と、前記部分音データにおけるマグニチュードデータの時間
関数からオリジナルサウンドにおけるトレモロを検出
し、検出したトレモロを記述するパラメータを生成する
第２の手段と、前記部分音データにおけるマグニチュードデータの時間
関数から前記検出されたトレモロの特徴を取り除き、修
正されたマグニチュードデータの時間関数を生成する第
３の手段とを備え、前記修正されたマグニチュードデー
タの時間関数を含む前記部分音データと前記パラメータ
との組合せによって時間的に変化する前記オリジナルサ
ウンド波形を表現することを特徴とするサウンド波形合
成装置。
【請求項９】オリジナルサウンドのスペクトル構造を
示すスペクトルデータを提供する第１の手段と、前記スペクトルデータに基づき、そのスペクトルエンベ
ロープに概ね適合しているただ１本のチルトラインを検
出し、検出したチルトラインを記述するチルトパラメー
タを生成する第２の手段と、スペクトルの傾きを制御するために、前記チルトパラメ
ータを可変制御する第３の手段と、制御されたチルトパラメータに基づき前記スペクトルデ
ータのスペクトル構造を制御する第４の手段と、制御されたスペクトルデータに基づきサウンド波形を合
成するサウンド合成手段とを備えたサウンド波形合成装
置。
【請求項１０】オリジナルサウンドを構成する部分音
のスペクトルデータを複数の時間フレームに対応して提
供する第１の手段と、一連の時間フレームにおける前記部分音スペクトルデー
タにおける周波数データに基づき前記オリジナルサウン
ドの平均ピッチを検出し、ピッチデータを生成する第２
の手段と、前記ピッチデータを可変制御するための第３の手段と、制御されたピッチデータに応じて前記部分音スペクトル
データにおける周波数データを修正する第４の手段と、前記修正された周波数データを含む前記部分音スペクト
ルデータに基づき、可変制御されたピッチを持つサウン
ド波形を合成するサウンド合成手段とを備えたサウンド
波形合成装置。
【請求項１１】オリジナル波形を構成する部分音のス
ペクトルデータを、複数の時間フレームに対応して順次
に提供するステップと、前記複数の時間フレームのスペクトルデータ列から前記
オリジナル波形におけるビブラート変動を検出し、この
変動の少なくとも１サイクルに対応する長さを持つ１又
は複数の波形セグメントを指摘するデータリストを作成
するステップと、前記データリストを参照して、任意の波形セグメントを
選択するステップと、選択した波形セグメントに対応する前記スペクトルデー
タ列を前記オリジナル波形のスペクトルデータ列から抜
き出すステップと、抜き出したスペクトルデータ列を繰り返すことにより前
記波形セグメントの繰り返しに対応するスペクトルデー
タ列を作成するステップと、前記繰り返しに対応するスペクトルデータ列を使用し
て、延長された長さを持つサウンド波形を合成するステ
ップとを備えたサウンドを分析し合成する方法。
【請求項１２】オリジナル波形を構成する部分音のス
ペクトルデータを、複数の時間フレームに対応して順次
に提供するステップと、前記複数の時間フレームのスペクトルデータ列から前記
オリジナル波形におけるビブラート変動を検出し、この
変動の少なくとも１サイクルに対応する長さを持つ１又
は複数の波形セグメントを指摘するデータリストを作成
するステップと、前記データリストを参照して、任意の波形セグメントを
選択するステップと、選択した波形セグメントに対応する前記スペクトルデー
タ列を前記オリジナル波形のスペクトルデータ列から取
り去り、その前後で残された２つのスペクトルデータ列
を接続し、短縮されたスペクトルデータ列を作成するス
テップと、前記短縮されたスペクトルデータ列を使用して、短縮さ
れた長さを持つサウンド波形を合成するステップとを備
えたサウンドを分析し合成する方法。