JP3903975B2

JP3903975B2 - 楽音処理装置、楽音処理方法及び楽音処理プログラム

Info

Publication number: JP3903975B2
Application number: JP2003342254A
Authority: JP
Inventors: 靖雄吉岡; ロスコスアレックス
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2003-09-30
Filing date: 2003-09-30
Publication date: 2007-04-11
Anticipated expiration: 2023-09-30
Also published as: JP2005107315A

Description

本発明は、楽音処理装置に関し、特に、複数の人が同じメロディを歌唱しているような効果（斉唱効果）等を得るのに好適な楽音処理装置、楽音処理方法及び楽音処理プログラムに関する。

入力される楽音にコーラス効果（単一の音源の音を複数の音源の音が同時に鳴っているように変える効果）を付与する装置が広く知られており、このような装置が上記斉唱効果を得るために利用されている。このようなコーラス効果を付与する装置として、下記特許文献１には、入力される楽音信号を低域成分、中域成分、高域成分の３つに帯域分割し、帯域分割した各信号成分に異なる変調処理（周期的なピッチ変化や遅延等を与えるための処理）を施し、これらを入力された楽音信号とミックスしてコーラス効果を付与する装置が開示されている。また、下記特許文献２には、予めメモリ等に格納されている楽譜情報からピッチ、音量、出音タイミング等を抽出し、これらに変調処理を施して合成した合唱音声を得る歌唱合成装置が開示されている。さらに、下記特許文献３には、入力される音声信号をキー変更回路、フィルタ、残響付加回路を通して変換する際に、これら各パラメータを揺らぎコントローラによって揺らがせてやることにより、入力音声信号とは異なる音声信号を生成し、これらを合成することにより斉唱効果を得る斉唱効果装置が開示されている。

特開２００３−１２２３６１号公報特開平７−１４６６９５号公報特開平９−２８１９６６号公報

しかしながら、上記各特許文献に開示された変調処理においては、ＬＦＯ（Low Frequency Oscillator）にて発生された三角波等の変調信号が用いられていたため、その変化の仕方は単調かつ不自然であり、実際に複数の人が歌唱しているような効果は得られなかった。なぜなら、実際に複数の人が歌唱した場合には、声質、歌い方、音程のずれ方等は各人毎に微妙に異なるものであり、この微妙なずれによって味わい深い音の艶や揺らぎが生み出されるからである。

本発明は、以上説明した事情を鑑みてなされたものであり、自然な斉唱効果等の付与を可能とする楽音処理装置、楽音処理方法及び楽音処理制御プログラムを提供することを目的とする。

上述した課題を解決するため、本発明に係る楽音処理装置は、ノイズ信号を発生するノイズ発生手段と、設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、入力される楽音のアタック時刻を検出する検出手段と、前記アタック時刻が検出されてからある時間が経過するまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を前記疑似ランダム信号を用いて算出する変化量算出手段と、前記算出された変化量を前記抽出された楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段とを具備することを特徴とする。
また、本発明に係る楽音処理装置は、ノイズ信号を発生するノイズ発生手段と、設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、前記抽出された楽音のピッチ若しくは音量の変化の仕方がある条件を満たすとき、当該部分を前記楽音のピッチ若しくは音量の遷移部として検出する遷移部検出手段と、前記遷移部の開始時刻及び終了時刻を検出する遷移部時刻検出手段と、少なくとも前記遷移部の開始時刻が検出されてから終了時刻が検出されるまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を、前記疑似ランダム信号を用いて算出する算出手段と、前記算出された変化量を、対応する前記楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段とを具備することを特徴とする。
また、本発明に係る楽音処理装置は、ノイズ信号を発生するノイズ発生手段と、設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、入力される楽音を分析することにより、該楽音のピッチを含むパラメータを抽出する分析・抽出手段と、前記楽音のピッチの変化の仕方がある条件を満たす部分を音程遷移部、その他の部分を音程安定部として検出する検出手段と、前記音程安定部として検出された部分のピッチをあるずらし量によって変化させるパラメータ変化手段であって、前記音程遷移部から前記音程安定部への移行が検出される毎に、前記ずらし量を前記疑似ランダム信号に基づいて変化させるパラメータ変化手段とを具備することを特徴とする。
また、本発明に係る楽音処理装置は、ノイズ信号を発生するノイズ発生手段と、設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、入力される楽音であって、音声を含む楽音を前記疑似ランダム信号に基づいて変調する変調手段と、前記音声の有声、無声を判定する判定手段と、前記音声が無声であると判定された場合、該音声を構成する各周波数成分の振幅値若しくは位相値をランダムに変更する変更手段とを具備することを特徴とする。
また、本発明に係る楽音処理装置は、ノイズ信号を発生するノイズ発生手段と、設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、入力される楽音のスペクトルエンベロープを抽出し、該スペクトルエンベロープを前記疑似ランダム信号に基づいて時間的に連続して変化させる変調手段とを具備することを特徴とする。

かかる構成によれば、入力される楽音を変調するための変調信号として、特定周波数成分の信号が取り除かれた疑似ランダム信号が用いられる。このような疑似ランダム信号を変調信号として用いることにより、三角波等を変調信号として用いる場合と比較して、より自然な斉唱効果等を付与することが可能となる。

ここで、上記構成にあっては、前記カットオフ周波数を設定する手段であり、該カットオフ周波数を一定の周波数範囲内で変更するカットオフ周波数設定手段をさらに具備する態様が望ましい。このように、カットオフ周波数を固定するのではなく、一定の周波数範囲内（例えば、２Ｈｚ前後）で揺らすことにより、人が歌唱したときの自然な変化、揺れ方により合致させることが可能となる。

以上説明したように、本発明によれば、自然な斉唱効果等の付与が可能となる。

以下、本発明に係る実施の形態について図面を参照しながら説明する。
Ａ．本実施形態
Ａ−１．全体構成
図１は、本実施形態に係る音声処理装置（楽音処理装置）１００の構成を示す図である。
音声信号入力部２００は、マイクロホン等によって構成され、利用者が発した音声を入力音声信号として音声処理装置１００の内部に入力する。
音声信号分析部（分析・抽出手段）３００は、音声信号入力部２００から供給される入力音声信号を入力音声をフレーム単位（５〜１０ｍｓ程度）でＦＦＴ（Fast Fourier Transform）分析等を行い、有声、無声の判定、ピッチ、音量、スペクトルの抽出を行う。そして、音声信号分析部３００は、かかる分析等によって得た該音声の特徴をあらわすパラメータ、すなわち有声、無声の判定結果、ピッチ、音量、スペクトルをフレーム情報として各クローン信号生成部４１０−ｋ（１≦ｋ≦ｎ）等に供給する。なお、入力音声信号が有声であるか、あるいは無声であるかについては、該音声信号のエネルギーや周波数成分を分析することで判定すれば良い。

クローン信号生成ユニット４００は、音色、ピッチ、音量、出力タイミング等が入力音声信号と微妙に異なる変換音声信号（以下、クローン信号という）を生成する手段であり、複数のクローン信号生成部４１０−ｋによって構成されている。各クローン信号生成部（変調手段）４１０−ｋは、音声信号分析部３００から供給されるフレーム情報を、疑似ランダム信号発生部５１０−ｋ（１≦ｋ≦ｎ）から供給される疑似ランダム信号（後述）に基づいて変化させることにより上記クローン信号を生成する。

疑似ランダム信号発生ユニット５００は、クローン信号生成時に用いられる疑似ランダム信号を発生する手段であり、複数の疑似ランダム信号発生部５１０−ｋ（１≦ｋ≦ｎ）によって構成されている。各疑似ランダム信号発生部５１０−ｋは、振幅の仕方等がそれぞれ異なる疑似ランダム信号を発生し、これら各疑似ランダム信号をそれぞれ対応するクローン信号生成部４１０−ｋに供給する。図２は、疑似ランダム信号発生部５１０−ｋの構成を示す図であり、図３は、疑似ランダム信号発生部５１０−ｋにおいて発生される疑似ランダム信号の波形を例示した図である。なお、以下の説明において、各疑似ランダム信号発生部５１０−ｋ及び各クローン信号生成部４１０−ｋを特に区別する必要がない場合には、単に疑似ランダム信号発生部５１０及びクローン信号生成部４１０と略称する。また、図３に示すような疑似ランダム信号を表す関数を疑似ランダム関数rand(t)と略称する。

図２に示すホワイトノイズ発生器（ノイズ発生手段）５１１は、図示せぬ制御部による制御のもと、一定レベル内のノイズ信号をランダムに発生し、ＬＰＦ（フィルタ手段）５１２に供給する。ＬＰＦ５１２は、供給されるノイズ信号からカットオフ周波数設定手段５１３によって設定されるカットオフ周波数Ｆｃよりも高い周波数成分の信号を取り除き、これを正規化手段５１４に出力する。カットオフ周波数設定手段５１３は、２Ｈｚ前後の一定の周波数範囲内で揺れるようなカットオフ周波数Ｆｃを発生し、これをＬＰＦ５１２に設定する。このように、カットオフ周波数Ｆｃを２Ｈｚ前後で揺らすように設定するのは、人が歌唱したときの自然な変化、揺れ方に最も合致するから（２Ｈｚ前後で揺れるから）である。なお、カットオフ周波数Ｆｃを２Ｈｚ前後で揺らすタイミングについては、任意に設定可能である。また、カットオフ周波数Ｆｃを２Ｈｚ前後で揺らすことなく、固定しても良いのはもちろんである。

正規化手段５１４は、ＬＰＦ５１２から高周波成分が取り除かれたノイズ信号を受け取ると、これを図３に示すように−１〜０〜１の範囲になるように正規化し、疑似ランダム信号として出力手段５１５に出力する。この結果、各疑似ランダム信号発生部５１０からは、人が歌唱したときの自然な変化、揺れ方に最も合致する疑似ランダム信号（ただし、振幅の仕方等は各疑似ランダム信号毎に異なる）が出力されることになる。

図１に戻り、各クローン信号生成部４１０は、対応する各疑似ランダム信号発生部５１０から疑似ランダム信号を受け取ると、受け取った疑似ランダム信号に基づきフレーム情報を変化させることにより、それぞれ異なったクローン信号（すなわち、音色、ピッチ等のずれ量がそれぞれ異なる変換音声信号）を生成する。

制御情報入力部（入力手段）６００は、操作ボタン、操作スイッチ等によって構成され、外部から操作ボタン等を介して入力される各種効果（ビブラート効果等；詳細は後述）に関するコントロール指示を受け付ける。
信号合成部（合成手段）７００は、クローン信号生成ユニット４００において生成される各クローン信号と入力音声信号とを合成する手段であり、第１加算器７１０と、第２加算器７２０と、変換器７３０とを備えている。

第１加算器７１０は、各クローン信号生成部４１０から供給される各クローン信号のスペクトルを加算し、加算結果を第２加算器７２０に出力する。第２加算器７２０は、第１加算器７１０から出力されるスペクトルの加算結果と、音声信号分析部３００から供給される入力音声信号のスペクトルとを加算し、加算結果を変換器７３０に出力する。変換器７３０は、第２加算器７２０から出力される加算結果（すなわち、全てのスペクトルの加算結果）に逆ＦＦＴ等を施し、入力音声信号と各クローン信号とを合成した合成音声信号を得る。そして、信号合成部７００は、この逆ＦＦＴ等によって得られた合成音声信号（すなわち、音色、ピッチ等が微妙にずれた複数の音声信号を合成したもの）を音声出力部８００に供給する。

音声出力部８００は、スピーカ等によって構成され、信号合成部７００から供給される合成音声信号を外部に出力する。かかる構成を有する音声処理装置１００を利用することで、実際に複数の人が斉唱しているかのような効果を得ることが可能となる。
以下、各クローン信号生成部４１０によって実現される各種機能について詳細に説明する。

Ａ−２．出力タイミング変更機能
出力タイミング変更機能は、入力音声信号に対するクローン信号の出力タイミングを変更する機能であり、図１に示すタイミング変更手段４１１によって実現される。
図４は、タイミング変更手段４１１によってフレーム情報の出力タイミングが変更されたときの様子を示す図である。なお、図４においては、フレーム情報に含まれるピッチを例示し、出力タイミング変更前のピッチを実線で示し、出力タイミング変更後のピッチを破線で示している。図４に示すように、フレーズの切り替わり部分において、ピッチの出力タイミング（すなわち、ピッチの時間的な遅れ量）は変更されている。図５は、かかる出力タイミングを変更するための処理（タイミング変更処理）を示すフローチャートであり、図６は、タイミング変更処理を説明するための図である。なお、以下の説明では、初期条件としてstate値＝２、Delay値＝０がメモリ（図示略）に予め設定されているものとする。

タイミング変更手段（検出手段）４１１は、音声信号分析部３００からフレーム情報を受け取ると、該フレーム情報から入力音声信号の音量値を取得し、これを音量値ＡＭＰとしてレジスタ（図示略）に格納する（ステップＳ１）。そして、タイミング変更手段４１１は、メモリを参照し、当該時点におけるstate値を判断する（ステップＳ２）。タイミング変更手段４１１は、state値が「２」であると判断すると、ステップＳ３に進み、現在の音量値ＡＭＰが予め設定されている第２の音量閾値Ｇ２（＞Ｇ１）よりも大きいか否かを判断する。タイミング変更手段４１１は、現在の音量値ＡＭＰが第２の音量閾値Ｇ２以下であると判断すると（ステップＳ３；ＮＯ）、そのまま処理を終了する一方、現在の音量値ＡＭＰが第２の音量閾値Ｇ２よりも大きいと判断すると（ステップＳ３；ＹＥＳ）、ステップＳ４に進み、state値を「２」から「１」に切り換え（図６に示すＰ１参照）、処理を終了する。

また、タイミング変更手段４１１は、ステップＳ２においてstate値が「１」であると判断すると、ステップＳ５に進み、現在の音量値ＡＭＰが予め設定されている第１の音量閾値Ｇ１よりも小さいか否かを判断する。タイミング変更手段４１１は、現在の音量値ＡＭＰが第１の音量閾値Ｇ１以上であると判断すると（ステップＳ５；ＮＯ）、そのまま処理を終了する一方、現在の音量値ＡＭＰが第１の音量閾値Ｇ１よりも小さいと判断すると（ステップＳ５；ＹＥＳ）、ステップＳ６に進み、下記式（１）を利用してNEW Delay値を生成し、Delay値の書き換えを行う（Delay←New Delay）とともに、state値を「１」から「２」に切り換え（図６に示すＰ２参照）、処理を終了する。なお、下記式（１）に示す変化量ｚ１は、外部から制御情報入力部６００を介して入力される制御情報であり、この変化量ｚ１を変更することで出力タイミングの調整が可能となっている（この点については、以下に説明する変化量ｚ２等も同様）。
New Delay［s］＝｛１＋rand(t)｝＊ｋ１＊ｚ１・・・（１）
ｋ１；定数
ｚ１；変化量（０〜１）

このように、タイミング変更手段４１１は、入力音声信号の音量が減少し、かつ、該音量が第１の閾値Ｇ１（＜Ｇ２）を下回ったときに、新たなDelay値を求める。タイミング変更手段４１１は、新たなDelay値を求めると、この新たなDelay値に従ってフレーム情報の出力タイミングを適宜変更してゆく。ここで、Delayの値を変更することにより、音声波形は不連続になり、異音が発生するといった問題が生ずるが、上記条件（すなわち、入力音声信号の音量の減少が検出され、かつ、該音量が第１の閾値Ｇ１を下回るといった条件）によれば該異音はマスクされるため、聴感上不自然な異音が聞こえてしまうといった問題も未然に防ぐことができる。

このようにしてタイミング変更手段４１１から出力されたフレーム情報は、図１に示す供給制御手段４１２に供給される。供給制御手段４１２は、フレーム情報を受け取ると、該フレーム情報を参照して入力音声が有声であるか、あるいは無声であるかを判断する。入力音声が有声であると判断すると、供給制御手段４１２は、ピッチ、音量をトレンド変化手段４１３に出力するとともに、スペクトルを第１スペクトル変化手段４１８に出力し、さらに、出力切換手段４２０に有声である旨の判定結果を出力する（図１に示す有声系統参照）。一方、入力音声が無声であると判断すると、供給制御手段４１２は、スペクトルを第２スペクトル変化手段４１９に出力し、さらに、出力切換手段４２０に無声である旨の判定結果を出力する（図１に示す無声系統参照）。

Ａ−３．トレンド変化機能
トレンド変化機能は、供給されるピッチ、音量に比較的大きな変化（以下、トレンド変化という）をつける機能であり、図１に示すトレンド変化手段４１３によって実現される。
図７は、ピッチのトレンド変化の様子を示す図であり、トレンド変化前のピッチを実線で示し、トレンド変化後のピッチを破線で示している。
トレンド変化手段（パラメータ制御手段）４１３は、タイミング変更手段４１１からピッチ、音量を受け取ると、これらを下記式（２）、（３）にそれぞれ代入することにより、ピッチ、音量にトレンド変化を与える。なお、下記式（２）、（３）に示す入力ピッチ(t)［Hz］、入力音量(t)［dB］は、それぞれ供給制御手段４１２から供給されるピッチ、音量を指す。

出力ピッチ(t)［Hz］＝入力ピッチ(t)［Hz］＊｛１＋rand(t)＊ｋ２＊ｚ２｝・・・（２）
出力音量(t)［dB］＝入力音量(t)［dB］＋rand(t)＊ｋ３＊ｚ３｝・・・（３）
ｋ２、ｋ３；定数
ｚ２、ｚ３；変化量（０〜１）
このように、ピッチ、音量にトレンド変化を与えるための信号として疑似ランダム信号を用いることにより、正弦波信号などを用いる場合に比べ、より自然な変化を与えることができる。

Ａ−４．しゃくり効果付与機能
しゃくり効果付与機能は、入力音声信号のアタック検出時にピッチ、音量軌跡を変える機能であり、図１に示すしゃくり効果付与手段４１４によって実現される。
図８は、しゃくり効果が付与されたときのピッチ変化の様子を示す図であり、しゃくり効果付与前のピッチを実線で示し、しゃくり効果付与後のピッチを破線で示している。周知の通り、人は歌唱するときに、音の出始め部分（アタック）において「しゃくる」ことがある。この「しゃくり」は、各人毎に、また歌唱する状況等によって異なる場合がある。この「しゃくり」をシュミレートして自然なしゃくり効果を付与するのが、しゃくり効果付与手段４１４である。

図９は、しゃくり効果の制御方法を説明するための図である。しゃくり効果付与手段（検出手段）４１４は、まず、与えられる音量と予め設定されている閾値とを比較等することにより、アタック時刻（図９に示すＰ１参照）の検出を行う。しゃくり効果付与手段（変化量算出手段）４１４は、アタック時刻を検出すると、疑似ランダム関数rand(t)を用いてピッチの変化量ΔPitchを求める。具体的には、しゃくり効果付与手段４１４は、アタック時刻から所定の入り時間（ある時間）が経過したときに上記変化量ΔPitchが最大値に到達し（図９に示すＰ２参照）、アタック時刻から所定の収束時間（ある時間）が経過したときに上記変化量ΔPitchが「０」に収束するように変化量ΔPitchを求める（図９に示すＰ３参照）。

この際、しゃくり効果付与手段（時間算出手段）４１４は、変化量ΔPitchのみならず、入り時間、収束時間についても疑似ランダム関数rand(t)を用いて算出する。なお、疑似ランダム関数rand(t)をどのように用いるかは、利用者が所望するしゃくり効果の大きさ、長さ等に応じて適宜決定すれば良い。そして、しゃくり効果付与手段（パラメータ変化手段）４１４は、上記の如く求めた変化量ΔPitchを下記式（４）に代入し、出力ピッチ［cent］を求める。なお、下記式（４）に示す入力ピッチ［cent］は、トレンド変化手段４１３から供給されるピッチを指す。
出力ピッチ［cent］＝入力ピッチ［cent］＋ΔPitch［cent］・・・（４）

しゃくり効果付与手段４１４は、このように疑似ランダム関数rand(t)に基づいて変化量ΔPitchを求め、求めた変化量ΔPitchを入力ピッチに加算することで、図８に破線で示すようなしゃくり効果が付与された出力ピッチを得る。なお、しゃくり効果が付与されたときの音量変化については、以上説明したピッチ変化とほぼ同様の論理によって説明することができるため、割愛する。

Ａ−５．ビブラート効果付与機能
ビブラート効果付与機能は、音を伸ばす部分等にビブラートを付ける機能であり、図１に示すビブラート効果付与手段４１５によって実現される。
図１０は、ビブラート効果が付与されたときのピッチ変化の様子を示す図であり、ビブラート効果付与前のピッチを実線で示し、ビブラート効果付与後のピッチを破線で示している。

このようなビブラート効果を付与する前提として、利用者は、制御情報入力部６００の操作ボタン等を操作して平均ビブラートディレイ、平均ビブラートデプス、平均ビブラートスピード（＝レート）といったビブラート効果に関するコントロール指示（ビブラート制御情報）を入力する。入力されたビブラート制御情報は、制御情報入力部６００からビブラート効果付与手段４１５に供給される。ビブラート効果付与手段（変調手段）４１５は、該ビブラート制御情報を受け取ると、ビブラート効果を付与すべきか否かを判断すべく、しゃくり効果付与手段４１４から供給される音量と予め設定されている閾値とを比較する。ビブラート効果付与手段４１５は、該音量が予め設定されている閾値を越えたと判断すると、下記式（５）、（６）、（７）に上記平均ビブラートディレイ、平均ビブラートデプス、平均ビブラートスピードを代入し、新たなビブラートディレイ、ビブラートデプス、ビブラートスピードを求める。

ビブラートディレイ＝平均ビブラートディレイ＊｛１＋rand(t)＊ｋ４｝・・・（５）
ビブラートデプス＝平均ビブラートデプス＊｛１＋rand(t)＊ｋ５｝・・・（６）
ビブラートスピード＝平均ビブラートスピード＊｛１＋rand(t)＊ｋ６｝・・・（７）
ｋ４、ｋ５、ｋ６；定数

このように、ビブラート効果付与手段４１５は、平均ビブラートディレイ、平均ビブラートデプス、平均ビブラートディレイといったビブラート制御情報を疑似ランダム関数rand(t)に基づいて変更し、新たなビブラート制御情報を求める。そして、ビブラート効果付与手段４１５は、新たなビブラートディレイ時間が経過した後、この計算で求めたビブラートデプス、ビブラートスピードにてビブラートをかける。この結果、各クローン信号毎にそれぞれ異なる位相、異なる開始時刻、異なるデプス、異なるスピードを有するビブラートがかけられることになり（図１０参照）、よりばらけた感じを与えることが可能となる。なお、ブラート効果が付与されたときの音量変化については、以上説明したピッチ変化とほぼ同様に説明することができるため、割愛する。

Ａ−６．遷移部変化機能
遷移部変化手段４１６は、音程や音量が大きく変化するところ（遷移部）において、その変化の仕方を変更する機能であり、図１に示す遷移部変化手段４１６によって実現される。
図１１は、遷移部前後におけるピッチ変化の様子を示す図であり、変化させる前のピッチを実線（ただし、遷移部は太い実線）で示し、変化させた後のピッチを破線で示している。周知の通り、歌唱するメロディ等が同一であったとしても、歌唱する人が異なれば、音程や音量が大きく変わるところ（すなわち遷移部）でのピッチや音量の変化の仕方は異なる。このようなピッチ、音量の変化をシュミレートして遷移部における自然な変化を実現するのが、遷移部変化手段４１６である。

ここで、ピッチの遷移部の検出について説明すると、まず、遷移部変化手段（遷移部検出手段）４１６は、ビブラート効果付与手段４１５から与えられるピッチの短時間平均値（例えば５０［ms］間隔のピッチの平均値等）を求める。次に、遷移部変化手段４１６は、このようにして求めた短時間平均値について、前回求めた短時間平均値と今回求めた短時間平均値との差分（すなわち微分）をとる。そして、遷移部変化手段４１６は、この微分の絶対値（すなわちピッチの絶対的な変化量）が予め設定されている第１の閾値を越えてから、該ピッチの変化量が予め設定されている第２の閾値（＜第１の閾値）を下回るまでを遷移部として検出する（図１１に太い実線で示す遷移部参照）。より詳細には、遷移部変化手段（遷移部時刻検出手段）４１６は、ピッチの変化量が予め設定されている第１の閾値を越えた時刻を遷移部の開始時刻として検出し（図１２に示すＰ１参照）、該開始時刻の後の時刻であってピッチの変化量が第２の閾値を下回った時刻を遷移部の終了時刻として検出する（図１２に示すＰ２参照）。

図１２は、このように検出した遷移部におけるピッチの制御方法を説明するための図である。
まず、遷移部変化手段（算出手段）４１６は、下記式（８）を用いることにより、疑似ランダム関数に基づき単位時間当たり（例えば１フレーム時間）のピッチ変化量、すなわち単位時間毎にどれだけピッチを変化させるかを求める。
ピッチ変化量［cent］＝rand(t)＊ｋ７・・・（８）
ｋ７；定数

次に、遷移部変化手段４１６は、下記式（９）にピッチ変化量を代入することにより、ピッチ変位量ΔPitchを求める。ただし、あまりに大きくピッチが変化してしまうと音痴に聞こえてしまうため、ピッチ変化関数f(t)は、図１２に示すようにある量（限界値）以上は変化しないように規定する。また、遷移終了後は、遷移終了時刻（図１２に示すＰ２）からある時間をかけてピッチ変位量ΔPitchを「０」に収束させる。ただし、遷移終了時刻後におけるピッチ変位量ΔPitchをどのように収束させるかは任意に設定可能である。
ΔPitch［cent］＝ピッチ変化量［cent］＊f(t) ・・・（９）
f(t)；ピッチの変化関数（図１２参照）

そして、遷移部変化手段（パラメータ変化手段）４１６は、このようにして求めたピッチ変位量ΔPitchを下記式（１０）に代入することにより、出力ピッチ［cent］を求める。なお、下記式（１０）に示す入力ピッチ［cent］は、ビブラート効果付与手段４１５から供給されるピッチを指す。
出力ピッチ［cent］＝入力ピッチ［cent］＋ΔPitch［cent］・・・（１０）
遷移部変化手段４１６は、このように疑似ランダム関数rand(t)に基づいてピッチ変化量、ピッチ変位量ΔPitchを求め、求めたピッチ変位量ΔPitchを入力ピッチに加算することで、図１１に破線で示すような遷移部にてその変化の仕方が異なる出力ピッチを得る。なお、遷移部前後における音量変化については、上記ピッチ変化とほぼ同様に説明することができるため、割愛する。

Ａ−７．スモール変化機能
スモール変化機能は、供給されるピッチ、音量に細かな変化（以下、スモール変化という）をつける機能であり、図１に示すスモール変化手段４１７によって実現される。
図１３は、ピッチのスモール変化の様子を示す図であり、スモール変化前のピッチを実線で示し、スモール変化後のピッチを破線で示している。上述したトレンド変化においては、ピッチ、音量に比較的大きな変化を与えたが、ここではさらに短い時間間隔で、ピッチ、音量に細かな変化を与える。かりに、このようなスモール変化を与えずに音声合成等を行った場合には、一定のピッチ、音量で音声が合成されるため、機械的な音（例えばブザーのような音）に聞こえてしまう。

これに対し、短い時間間隔でピッチ、音量に細かな変化を与えた場合には、音声として自然に聞こえるといった効果を享受できる。このように、音声が音声として聞こえるためには、微少なピッチ、音量の変化が必要であるが、この変化の仕方は、当然ながら各人毎に異なる。これをシュミレートするために、スモール変化手段（パラメータ制御手段）４１７は、供給されるピッチ、音量を純粋なランダム信号を用いて変化させことにより、微少なランダム変化を与える。なお、この純粋なランダム信号にかえて疑似ランダム関数rand(t)を用いても良い。

Ａ−８．音色変化機能
Ａ−８−１．第１音色変化機能
第１音色変化機能は、クローン信号毎に異なる音色変化を与える機能であり、図１に示す第１スペクトル変化手段４１８によって実現される。
図１４は、入力音声信号のあるフレームのスペクトルを例示した図である。なお、図１４では、周波数f[Hz]を横軸にとり、振幅値magnitude[dB]を縦軸にとっている。また、図１４では、スペクトルエンベロープを実線で示し、スロープを表すカーブ（以下、ECurveと称する）を破線で示している。ここでまず、ECurveの振幅値であるECurveMag(f)は、下記式（１'）で表すことができる。
ECurveMag(f)＝Gain＋１００＊（ｅ^−slope＊f−１）・・・（１'）
Gain；当該フレームのゲイン
slope；当該フレームのスロープ

第１スペクトル変化手段４１８は、供給制御手段４１２から入力音声信号のスペクトルを受け取ると、上記のようにあらわされるECurveのslopeを各クローン信号毎に変化させる。図１５及び図１６は、ECurveのslopeを変えたときのスペクトルエンベロープの変化の様子を示す図であり、図１５は、slopeを大きくしたときのスペクトルエンベロープの変化を示し、図１６は、slopeを小さくしたときのスペクトルエンベロープの変化を示している。なお、図１５及び図１６に示すスペクトルエンベロープ及びECurveは、いずれも図１４に示すスペクトルエンベロープ及びECurveを基準にしている。

図１５と図１４、図１６と図１４をそれぞれ比較して明らかなように、slopeを変化させると、全体の音量を表すGain（各図ではECurveの切片）は変わらないが、ECurveのslopeの変化に伴ってスペクトルエンベロープの形状が変化し、これにより音色が変化する。より具体的には、図１５に示すようにslopeを大きくすると、高域側のスペクトルが出なくなるため、こもった音色になる。一方、図１６に示すようにslopeを小さくすると、低域から高域まで均等にスペクトルが出るため、明るい音色になる。第１スペクトル変化手段４１８は、このようにクローン信号毎にスペクトルエンベロープのslopeを変えることにより、クローン信号毎に異なる音色変化を与えることが可能となる。なお、スペクトルエンベロープのslopeを各クローン信号毎に変える方法は、適宜設定可能である。

Ａ−８−２．第２音色変化機能
第２音色変化機能は、音色を時間とともに（すなわち、時間的に連続して）変化させる機能であり、上記第１音色変化機能と同様、図１に示す第１スペクトル変化手段４１８によって実現される。例えば入力音声信号のアタック部分等において、スペクトルエンベロープの変化のさせ方を時間とともに変えていくと、ゴスペル的斉唱効果等が得られるといった効果がある。なお、ゴスペル的斉唱効果とは、音色の時間変化が歌唱者毎に異なるために、例えば各歌唱者による歌唱表現がさまざまであるかのような状況を与える効果をいう。ここで、上記の如く音色を時間とともに変化させる方法としては、例えば第１フォルマント周波数（スペクトルのピークが最初に現れる周波数）の変化値を時間とともに変化させる方法がある。図１７は、第１フォルマント周波数の変化の様子を示す図であり、音色変化前の第１フォルマント周波数を実線で示し、音色変化後の第１フォルマント周波数を破線で示している。また、図１８は、このような音色変化を実現するための第１フォルマント周波数の制御方法を説明するための図である。

まず、第１スペクトル変化手段（変調手段）４１８は、タイミング変更手段４１１から入力音声信号のスペクトルを受け取ると、該スペクトルからスペクトルエンベロープを抽出するとともに、該スペクトルを分析してアタック開始時刻の検出を行う。第１スペクトル変化手段４１８は、アタック時刻を検出すると（図１８に示すＰ１参照）、疑似ランダム関数rand(t)を用いて第１フォルマント周波数の変化目標値（第１フォルマント変化値という）を求める。具体的には、第１スペクトル変化手段４１８は、アタック時刻から所定の入り時間が経過したときに上記第１フォルマント変化値が予め設定されている変化目標値に到達し（図１８に示すＰ２参照）、アタック時刻から所定の収束時間が経過したときに「０」に収束するように第１フォルマント変化値を求める（図１８に示すＰ３参照）。

この際、第１スペクトル変化手段４１８は、第１フォルマント変化値のみならず、入り時間、収束時間についても疑似ランダム関数rand(t)を用いて算出する。なお、疑似ランダム関数rand(t)をどのように用いるかは、利用者が所望するゴスペル的斉唱効果の大きさ、長さ等に応じて適宜決定すれば良い。そして、第１スペクトル変化手段４１８は、上記の如く求めた第１フォルマント変化値を下記式（１１）に代入し、出力第１フォルマント周波数［Hz］を求める。なお、下記式（１１）に示す入力第１フォルマント周波数［Hz］は、供給制御手段４１２から供給される入力音声信号の第１フォルマント周波数を指す。
出力第１フォルマント周波数［Hz］＝入力第１フォルマント周波数［Hz］＋第１フォルマント変化値［Hz］・・・（１１）

このように、第１フォルマント周波数を時間とともに変化させることで、上述したスペクトルエンベロープ（図１４等参照）は時間とともに変化する。これに伴って該スペクトルエンベロープのslopeが変化するため、最終的には、音色が時間とともに変化することになる。なお、上記説明では、第１フォルマント周波数を時間とともに変化させる態様を例示したが、例えば第ｍフォルマント周波数（２≦ｍ）を時間とともに変化させる、あるいは第ｍフォルマントの振幅値を時間とともに変化させるなど、何れの態様によって時間とともに音色を変化させるかは適宜選択可能である。また、第１スペクトル変化手段４１８は、以上説明した第１音色変化機能及び第２音色変化機能を実現するほか、スモール変化手段４１７から供給されるピッチ、音量に基づいてスペクトルを変化させる機能も実現する。よって、入力音声が有声音である場合には、有声系統の各手段によって様々な効果が付与されたクローン信号のスペクトルが第１スペクトル変化手段４１８から出力されることになる。

Ａ−９．無声音質変化機能
無声音質変化機能は、入力音声が無声である場合にこの無声音の音質を変化させる機能であり、図１に示す第２スペクトル変化手段４１９によって実現される。
第２スペクトル変化手段（変更手段）４１９は、供給制御手段（判定手段）４１２から入力音声信号（無声音）のスペクトルを受け取ると、図示せぬランダム信号発生器から供給されるランダム信号（この場合のランダム信号は純粋なランダム信号とする）に基づき、該スペクトルの各周波数f[Hz]における振幅値magnitude[dB]（図１４参照）、位相値をランダムに変更する。この結果、例えば「ｓ」などピッチのない無声音について、違うニュアンスの音質を有する「ｓ」といった無声音を出力することが可能となる。このように、入力音声が無声音である場合には、無声系統の第２スペクトル変化手段４１９によって上記の振幅値magnitude[dB]、位相値が変更されたクローン信号のスペクトルが出力されることになる。なお、上記純粋なランダム信号の代わりに、疑似ランダム信号を用いても良いのはもちろんである。

Ａ−１０．出力切換機能
出力切換機能は、有声系統、無声系統との間で出力スペクトルの切り換えを行う機能であり、図１に示す出力切換手段４２０によって実現される。出力切換手段４２０は、供給制御手段４１２から供給される判定結果が「有声」である場合、有声系統側に切り換えることで、有声系統から出力されるスペクトル（有声スペクトル）を信号合成部７００に供給する一方、該判定結果が「無声」である場合には、無声系統側に切り換えることで、無声系統から出力されるスペクトル（無声スペクトル）を信号合成部７００に出力する。

信号合成部７００は、各クローン信号生成部４１０から供給される全ての有声スペクトル若しくは無声スペクトル、及び入力音声信号のスペクトルを加算し、逆ＦＦＴ等を施す等して合成音声信号を得る。この合成音声信号は、上記の如く疑似ランダム関数rand(t)に基づいて種々の効果等が付与された合成音声信号である。よって、利用者等は、この合成音声信号から生成される合成音声を音声出力部８００を介して受聴することで、実際に複数の人が斉唱しているかのような効果を享受することが可能となる。

以上説明したように、本実施形態に係る音声処理装置によれば、音声変換時に用いる変調信号として、ホワイトノイズにＬＰＦをかけた疑似ランダム信号を用いているため、自然な変化（すなわち、実際に複数の人が斉唱しているかのような変化）を与えることが可能となる。また、上記ＬＰＦにあっては、２Ｈｚ前後で揺れるといった人声の特徴を考慮し、そのカットオフ周波数Ｆｃが２Ｈｚ前後で揺れるように設定される。この結果、カットオフ周波数Ｆｃを固定した場合と比較して、より人間の自然な変化、揺れ方に合致させることが可能となる。なお、上記各処理で用いる疑似ランダム関数rand(t)について、各処理毎にそれぞれ異なるものを用いても良いのはもちろんである。

Ｂ．変形例
＜変形例１＞
図１９は、変形例１に係る遷移部変化機能を説明するための図であり、前掲図１１に対応する図である。なお、図１９においても、前掲図１１と同様、変化させる前のピッチを実線（ただし、音程遷移部は太い実線）で示し、変化させた後のピッチを破線で示している。
変形例１に係る遷移部変化機能は、音程が大きく変化する音程遷移部から該音程が安定する音程安定部に移行する度に、該音程安定部のデチューン量（ピッチの僅かなずらし量）を決定し、音程安定部毎にデチューン量を変える機能であり、図１に示す遷移部変化手段４１６’によって実現される。この変形例１に係る遷移部変化機能は、本実施形態に係る遷移部変化機能のように人間の声の自然な変化をシュミレートするものではなく、例えばバイオリンのような楽器から発せられる楽音の変化をシュミレートするものである。周知の通り、バイオリン等の弦楽器は、ピアノ等の鍵盤楽器とは異なり、ある鍵を押下すれば必ずその鍵に対応したジャストピッチ（例えば「Ａ」＝４４０［Hz］）の楽音が発せられるものではなく、弦を押さえる箇所等によって微妙に音が変わるものである。いいかえると、バイオリン等の楽器は、音程を変えるたびに、ジャストピッチ（例えば「Ａ」＝４４０［Hz］）から微妙に音程がずれる一方、その音程の音を出している間はそのピッチでほぼ安定しているといった特徴を有する。このような変化をシュミレートするのが、遷移部変化手段４１６’である（図１９に示す各デチューン量ｄｔ１〜ｄｔ３参照）。

図２０は、変形例１に係る遷移部変化手段４１６’によるピッチの制御方法を説明するための図であり、図１９に示すα部分を模式的に示した図である。遷移部変化手段（検出手段）４１６’は、上述した遷移部変化手段４１６と同様に音程遷移部を検出する一方、他の部分を音程安定部として検出する。遷移部変化手段４１６’は、音程安定部から音程遷移部への移行を検出すると（図２０に示すＰ１参照）、後述の如く求めた該音程安定部におけるデチューン量ｄｔ２（＞０）をある時間ｔ１をかけて「０」に収束させる。その後、遷移部変化手段（パラメータ変化手段）４１６’は、音程遷移部から音程安定部への移行を検出すると（図２０に示すＰ２参照）、疑似ランダム関数rand(t)に基づいて新たなデチューン量ｄｔ３（＜０）を求める。そして、遷移部変化手段４１６’は、ある時間ｔ２をかけて新たなデチューン量ｄｔ３となるように制御し、以後、音程安定部から音程遷移部への移行が検出されるまでの間、このデチューン量ｄｔ３を維持する。

遷移部変化手段４１６’は、このようにして求めた各デチューン量ｄｔ［cent］を下記式（１２）に代入することにより、出力ピッチ［cent］を求める。なお、下記式（１２）に示す入力ピッチは、ビブラート効果付与手段４１５から供給されるピッチを指す。
出力ピッチ［cent］＝入力ピッチ［cent］＋ｄｔ［cent］・・・（１２）
遷移部変化手段４１６’は、このように疑似ランダム関数rand(t)に基づいてデチューン量ｄｔを求め、求めたデチューン量ｄｔを入力ピッチに加算等することで、図１９に破線で示すような音程安定部毎にデチューン量ｄｔが異なる出力ピッチを得る。

以上説明した本変形例に係る方法を入力されるバイオリン等の楽音に適用すれば、利用者等は、ストリングスセクションによる演奏の如く臨場感ある楽音を聴取することが可能となる。なお、上記例では、疑似ランダム信号に基づいてデチューン量ｄｔを決定する場合について説明したが、デチューン量を「０」に収束させる時間（ある時間ｔ１）や、デチューン量をある値まで増加させる時間（ある時間ｔ２）を疑似ランダム信号に基づいて決定しても良い。また、本変形例１に係る遷移部変化手段４１６’と本実施形態に係る遷移部変化手段４１６の両者を音声処理装置１００に搭載しても良く、また、何れか一方の遷移部変化手段を該装置１００に搭載しても良い。

＜変形例２＞
また、上述した本実施形態では、斉唱効果（基本ピッチはいずれのクローン信号も同じ）を得る場合について説明したが、例えば基本ピッチが各クローン信号毎に異なっており、これらが合成されることにより音楽的なハーモニーが構成されるようなハーモナイザ効果を得る場合にも適用可能である。ハーモナイザ効果を得る場合には、例えば図１に示す各タイミング変更手段４１１から出力されるピッチを、所望の量（音楽的なハーモニーが構成されるようなピッチの変化量）だけ変化させれば良い。例えば、Ｃ４の音が装置内部に入力された場合、タイミング変更手段４１１−１からはＣ４→Ｃ３に変更されたピッチが出力され、タイミング変更手段４１１−２からはＣ４→Ａ４に変更されたピッチが出力され、・・・、タイミング変更手段４１１−ｎからはＣ４→Ｇ４に変更されたピッチが出力される。このようにしてハーモナイザ効果を得るようにしても良い。

＜変形例３＞
また、上述した本実施形態では、入力される楽音として音声を例示したが、楽器音（例えばストリングス）等が入力される場合にも適用可能である。また、図１に示す各クローン信号生成部４１０から出力されるクローン信号について、音の定位を制御するためのパンパラメータを適宜変更し、これを合成するようにしても良いのはもちろんである。かかる態様によれば、ステレオ空間内に適切に拡がるような斉唱効果等を得ることが可能となる。また、上述した本実施形態においては、カットオフ周波数Ｆｃを２Ｈｚ前後で揺らすようなＬＰＦを例示したが、ＬＰＦに限らずＢＰＦ（Band Pass Filter）等を用いても良いのはもちろんである。また、カットオフ周波数Ｆｃを２Ｈｚ前後で揺らす（すなわち、カットオフ周波数Ｆｃを一定の周波数範囲内で変更する）態様に限らず、各々の変化項目等に応じて適宜変更可能である。

＜変形例４＞
また、以上説明した音声処理装置１００の各部の機能は、ＲＯＭ等に格納されているプログラムによって実現されるため、かかるプログラムについてＣＤ−ＲＯＭ等の記録媒体に記録して頒布したり、インターネット等の通信ネットワークを介して頒布しても良い。もちろん、音声処理装置１００の各部の機能をハードウェアによって実現しても良い。

本実施形態に係る音声処理装置の構成を示す図である。同実施形態に係る疑似ランダム信号発生部の構成を示す図である。同実施形態に係る疑似ランダム信号の波形を例示した図である。同実施形態に係るフレーム情報の出力タイミングが変更されたときの様子を示す図である。同実施形態に係るタイミング変更処理を示すフローチャートである。同実施形態に係るタイミング変更処理を説明するための図である。同実施形態に係るピッチのトレンド変化の様子を示す図である。同実施形態に係るしゃくり効果が付与されたときのピッチ変化の様子を示す図である。同実施形態に係るしゃくり効果の制御方法を説明するための図である。同実施形態に係るビブラート効果が付与されたときのピッチ変化の様子を示す図である。同実施形態に係る遷移部前後におけるピッチ変化の様子を示す図である。同実施形態に係る遷移部におけるピッチの制御方法を説明するための図である。同実施形態に係るピッチのスモール変化の様子を示す図である。同実施形態に係る入力音声信号のあるフレームのスペクトルを例示した図である。同実施形態に係るECurveのslopeを大きくしたときのスペクトルエンベロープの変化を示す図である。同実施形態に係るECurveのslopeを小さくしたときのスペクトルエンベロープの変化を示す図である。同実施形態に係る第１フォルマント周波数の変化の様子を示す図である。同実施形態に係る第１フォルマント周波数の制御方法を説明するための図である。変形例１に係る遷移部変化機能を説明するための図である。同変形例に係るピッチの制御方法を説明するための図である。

符号の説明

１００・・・音声処理装置、２００・・・音声信号入力部、３００・・・音声信号分析部、４００・・・クローン信号生成ユニット、４１０・・・クローン信号生成部、４１１・・・タイミング変更手段、４１２・・・供給制御手段、４１３・・・トレンド変化手段、４１４・・・しゃくり効果付与手段、４１５・・・ビブラート効果付与手段、４１６、４１６’・・・遷移部変化手段、４１７・・・スモール変化手段、４１８・・・第１スペクトル変化手段、４１９・・・第２スペクトル変化手段、４２０・・・出力切換手段、５００・・・疑似ランダム信号発生ユニット、５１０・・・疑似ランダム信号発生部、５１１・・・ホワイトノイズ発生器、５１２・・・ＬＰＦ、５１３・・・カットオフ周波数設定手段、５１４・・・正規化手段、５１５・・・出力手段、６００・・・制御情報入力部、７００・・・信号合成部、７１０・・・第１加算器、７２０・・・第２加算器、７３０・・・変換部、８００・・・音声出力部。

Claims

ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、
入力される楽音のアタック時刻を検出する検出手段と、
前記アタック時刻が検出されてからある時間が経過するまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を前記疑似ランダム信号を用いて算出する変化量算出手段と、
前記算出された変化量を前記抽出された楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段と
を具備することを特徴とする楽音処理装置。
前記ある時間を前記疑似ランダム信号を用いて算出する時間算出手段をさらに具備することを特徴とする請求項１に記載の楽音処理装置。
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、
前記抽出された楽音のピッチ若しくは音量の変化の仕方がある条件を満たすとき、当該部分を前記楽音のピッチ若しくは音量の遷移部として検出する遷移部検出手段と、
前記遷移部の開始時刻及び終了時刻を検出する遷移部時刻検出手段と、
少なくとも前記遷移部の開始時刻が検出されてから終了時刻が検出されるまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を、前記疑似ランダム信号を用いて算出する算出手段と、
前記算出された変化量を、対応する前記楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段と
を具備することを特徴とする楽音処理装置。
前記検出手段は、一定時間毎の前記楽音のピッチ若しくは音量の平均値を求め、前回求めた平均値と今回求めた平均値との差分が閾値を越えたとき、当該部分を前記楽音のピッチ若しくは音量の遷移部として検出することを特徴とする請求項３に記載の楽音処理装置。
前記算出手段は、前記遷移部の開始時刻が検出されてから終了時刻が検出されるまでの前記変化量を算出するほか、前記終了時刻が検出されてからある時間経過するまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を、前記疑似ランダム信号を用いて算出することを特徴とする請求項４に記載の楽音処理装置。
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチを含むパラメータを抽出する分析・抽出手段と、
前記楽音のピッチの変化の仕方がある条件を満たす部分を音程遷移部、その他の部分を音程安定部として検出する検出手段と、
前記音程安定部として検出された部分のピッチをあるずらし量によって変化させるパラメータ変化手段であって、前記音程遷移部から前記音程安定部への移行が検出される毎に、前記ずらし量を前記疑似ランダム信号に基づいて変化させるパラメータ変化手段と
を具備することを特徴とする楽音処理装置。
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音であって、音声を含む楽音を前記疑似ランダム信号に基づいて変調する変調手段と、
前記音声の有声、無声を判定する判定手段と、
前記音声が無声であると判定された場合、該音声を構成する各周波数成分の振幅値若しくは位相値をランダムに変更する変更手段と
を具備することを特徴とする楽音処理装置。
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音のスペクトルエンベロープを抽出し、該スペクトルエンベロープを前記疑似ランダム信号に基づいて時間的に連続して変化させる変調手段と
を具備することを特徴とする楽音処理装置。
前記カットオフ周波数を設定する手段であり、該カットオフ周波数を一定の周波数範囲内で変更するカットオフ周波数設定手段をさらに具備することを特徴とする請求項１乃至８のいずれかに記載の楽音処理装置。
前記フィルタ手段は、前記カットオフ周波数よりも高い周波数成分の信号を取り除くローパスフィルタであり、前記カットオフ周波数設定手段は、２Hz前後の一定の周波数範囲内で前記カットオフ周波数を変更することを特徴とする請求項９に記載の楽音処理装置。
ノイズ発生器によって発生されるノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段に対し、カットオフ周波数を設定するカットオフ周波数設定過程と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出過程と、
入力される楽音のアタック時刻を検出する検出過程と、
前記アタック時刻が検出されてからある時間が経過するまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を前記疑似ランダム信号を用いて算出する変化量算出過程と、
前記算出された変化量を前記抽出された楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化過程と
を具備することを特徴とする楽音処理方法。
ノイズ信号を発生するノイズ発生過程と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ過程と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出過程と、
前記抽出された楽音のピッチ若しくは音量の変化の仕方がある条件を満たすとき、当該部分を前記楽音のピッチ若しくは音量の遷移部として検出する遷移部検出過程と、
前記遷移部の開始時刻及び終了時刻を検出する遷移部時刻検出過程と、
少なくとも前記遷移部の開始時刻が検出されてから終了時刻が検出されるまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を、前記疑似ランダム信号を用いて算出する算出過程と、
前記算出された変化量を、対応する前記楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化過程と
を具備することを特徴とする楽音処理方法。
ノイズ信号を発生するノイズ発生過程と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ過程と、
入力される楽音を分析することにより、該楽音のピッチを含むパラメータを抽出する分析・抽出過程と、
前記楽音のピッチの変化の仕方がある条件を満たす部分を音程遷移部、その他の部分を音程安定部として検出する検出過程と、
前記音程安定部として検出された部分のピッチをあるずらし量によって変化させるパラメータ変化過程であって、前記音程遷移部から前記音程安定部への移行が検出される毎に、前記ずらし量を前記疑似ランダム信号に基づいて変化させるパラメータ変化過程と
を具備することを特徴とする楽音処理方法。
ノイズ信号を発生するノイズ発生過程と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ過程と、
入力される楽音であって、音声を含む楽音を前記疑似ランダム信号に基づいて変調する変調過程と、
前記音声の有声、無声を判定する判定過程と、
前記音声が無声であると判定された場合、該音声を構成する各周波数成分の振幅値若しくは位相値をランダムに変更する変更過程と
を具備することを特徴とする楽音処理方法。
ノイズ信号を発生するノイズ発生過程と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ過程と、
入力される楽音のスペクトルエンベロープを抽出し、該スペクトルエンベロープを前記疑似ランダム信号に基づいて時間的に連続して変化させる変調過程と
を具備することを特徴とする楽音処理方法。
コンピュータを、
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、
入力される楽音のアタック時刻を検出する検出手段と、
前記アタック時刻が検出されてからある時間が経過するまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を前記疑似ランダム信号を用いて算出する変化量算出手段と、
前記算出された変化量を前記抽出された楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段として機能させるための楽音処理プログラム。
コンピュータを、
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチ若しくは音量を含むパラメータを抽出する分析・抽出手段と、
前記抽出された楽音のピッチ若しくは音量の変化の仕方がある条件を満たすとき、当該部分を前記楽音のピッチ若しくは音量の遷移部として検出する遷移部検出手段と、
前記遷移部の開始時刻及び終了時刻を検出する遷移部時刻検出手段と、
少なくとも前記遷移部の開始時刻が検出されてから終了時刻が検出されるまでの前記楽音のピッチ若しくは音量の単位時間当たりの変化量を、前記疑似ランダム信号を用いて算出する算出手段と、
前記算出された変化量を、対応する前記楽音のピッチ若しくは音量に加算することにより、該楽音のピッチ若しくは音量を変化させるパラメータ変化手段として機能させるための楽音処理プログラム。
コンピュータを、
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音を分析することにより、該楽音のピッチを含むパラメータを抽出する分析・抽出手段と、
前記抽出された楽音のピッチの変化の仕方がある条件を満たす部分を音程遷移部、その他の部分を音程安定部として検出する検出手段と、
前記音程安定部として検出された部分のピッチをあるずらし量によって変化させるパラメータ変化手段であって、前記音程遷移部から前記音程安定部への移行が検出される毎に、前記ずらし量を前記疑似ランダム信号に基づいて変化させるパラメータ変化手段として機能させるための楽音処理プログラム。
コンピュータを、
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音であって、音声を含む楽音を前記疑似ランダム信号に基づいて変調する変調手段と、
前記音声の有声、無声を判定する判定手段と、
前記音声が無声であると判定された場合、該音声を構成する各周波数成分の振幅値若しくは位相値をランダムに変更する変更手段として機能させるための楽音処理プログラム。
コンピュータを、
ノイズ信号を発生するノイズ発生手段と、
設定されるカットオフ周波数に従って前記ノイズ信号から特定周波数成分の信号を取り除き、疑似ランダム信号として出力するフィルタ手段と、
入力される楽音のスペクトルエンベロープを抽出し、該スペクトルエンベロープを前記疑似ランダム信号に基づいて時間的に連続して変化させる変調手段として機能させるための楽音処理プログラム。