JP3540609B2

JP3540609B2 - 音声変換装置及び音声変換方法

Info

Publication number: JP3540609B2
Application number: JP18333898A
Authority: JP
Inventors: 靖雄吉岡; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-15
Filing date: 1998-06-15
Publication date: 2004-07-07
Anticipated expiration: 2018-06-15
Also published as: JP2000003199A

Description

【０００１】
【発明の属する技術分野】
この発明は、処理対象となる音声を目標とする他の音声に近似させる音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置及び音声変換方法に関する。
【０００２】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある（例えば、特表平８−５０８５８１号）。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換（例えば、男声→女声、女声→男声など）は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者（例えば、プロの歌手）の声に似せるように変換するということはできなかった。
【０００４】
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であった。
そこで、本発明の目的は、声質を目標（ターゲット）とする歌唱者の声に似させることができる音声変換装置及び音声変換方法を提供することにある。
また、本発明の他の目的は、入力された歌唱者の音声を目標とする歌唱者の歌い方に似せることができる音声変換装置及び音声変換方法を提供することにある。
【０００５】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、を備えたことを特徴としている。
また、請求項２記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータとにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、を備えたことを特徴としている。
【０００６】
請求項３記載の構成は、請求項１または２記載の構成において、前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択する選択手段を有し、前記変換音声信号生成手段は、前記選択手段によって選択された成分と前記新規属性データとを混合して新たな信号を生成することを特徴としている。
【００１５】
請求項４記載の構成は、請求項１または２記載の構成において、前記元属性データ抽出手段および前記新規属性データ生成手段は、所定時間長のフレーム単位で処理するとともに、前記新規属性データ生成手段は、一のフレームについての前記元属性データに対応する前記ターゲット属性データが存在するか否かを入力音声信号の無声有声検出信号とターゲット音声信号の無声有声検出信号とに基づいて判別し、存在しないと判別した場合に、当該フレームに対し時間的に前に位置するフレームあるいは当該フレームに対し時間的に後ろに位置するフレームについての前記ターゲット属性データを用いて、前記新規属性データを生成することを特徴としている。
【００１６】
請求項５記載の構成は、請求項１または２記載の構成において、前記変換音声信号生成手段は、前記新規属性データに変形処理を施し変形新規属性データを生成する新規属性データ変形手段を有し、前記変形新規属性データに基づいて前記変換音声信号を生成し出力することを特徴としている。
【００１７】
請求項６記載の構成は、請求項１または２記載の構成において、前記変換音声信号生成手段は、前記新規属性データに含まれるピッチデータに相当するピッチとは異なるピッチに相当するピッチデータを含む追加属性データを出力する追加属性データ生成手段を有し、前記新規属性データおよび前記追加属性データに基づいて前記変換音声信号を生成し出力することを特徴としている。
【００１８】
請求項７記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、を備えたことを特徴としている。
また、請求項８記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、を備えたことを特徴としている。
【００１９】
請求項９記載の構成は、請求項７または８記載の構成において、前記変換音声信号生成工程において、前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択し、選択した成分と、前記新規属性データとを混合して新たな信号を生成することを特徴としている。
【００２０】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
［１］実施形態の概要処理
始めに、実施形態の概要処理について説明する。
［１．１］ステップＳ１
まず、ものまねをしようとする歌唱者（me）の音声（入力音声信号）をリアルタイムでＦＦＴ（Fast Fourie Transform）を含むＳＭＳ（Spectral Modeling Synthesis）分析を行い、フレーム単位で正弦波成分（Sine成分）を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分（Residual成分）を生成する。これと並行して入力音声信号が無声音（含む無音）か否かを判別し、無声音である場合には、以下のステップＳ２〜ステップＳ６の処理は行わず、入力音声信号をそのまま出力することとなる。
この場合において、ＳＭＳ分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
【００２１】
［１．２］ステップＳ２
次に入力音声信号が有声音である場合には、抽出した正弦波成分からさらに元属性（Attribute）データであるピッチ（Pitch）、アンプ（Amplitude）及びスペクトラル・シェイプ（Spectral Shape）を抽出する。さらに抽出したピッチ及びアンプについては、ビブラート成分及びビブラート成分以外の他の成分に分離する。
【００２２】
［１．３］ステップＳ３
予め記憶（保存）してあるものまねの対象（Target）となる歌唱者の属性データ（ターゲット属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）から、ものまねをしようとする歌唱者（me）の入力音声信号のフレームに対応するフレームのターゲット属性データ（＝ピッチ、アンプ及びスペクトラル・シェイプ）を取り出す。この場合において、ものまねをしようとする歌唱者（me）の入力音声信号のフレームに対応するフレームのターゲット属性データが存在しない場合には、後に詳述するように、予め定めたイージーシンクロナイゼーション規則（Easy Synchronization Rule）に従って、ターゲット属性データを生成し、同様の処理を行う。
【００２３】
［１．４］ステップＳ４
次にものまねをしようとする歌唱者（me）に対応する元属性データ及びものまねの対象となる歌唱者に対応するターゲット属性データを適宜選択して組み合わせることにより、新しい属性データ（新属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）を得る。なお、ものまねではなく、単なる音声変換として用いる場合には、元属性データ及びターゲット属性データの加算平均として新属性データを得るなどの元属性データ及びターゲット属性データの双方に基づいて計算により新属性データを得るようにすることも可能である。
【００２４】
［１．５］ステップＳ５
つづいて得られた新属性データに基づいて、当該フレームの正弦波成分を求める。
［１．６］ステップＳ６
そして求めた正弦波成分と、ステップＳ１で求めた残差成分あるいは予め記憶（保存）してあるものまねの対象（Target）となる歌唱者の残差成分のいずれか一方と、に基づいて逆ＦＦＴを行い、変換音声信号を得る。
［１．７］まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、物まねをしようとする歌唱者の歌声が、あたかも、別の歌唱者（ターゲットの歌唱者）が歌った歌声のようになる。
【００２５】
［２］実施形態の詳細構成
図１及び図２に、実施形態の詳細構成図を示す。なお、本実施形態は、本発明による音声変換装置（音声変換方法）をカラオケ装置に適用し、ものまねを行うことができるカラオケ装置として構成した場合の例である。
図１において、マイク１は、ものまねをしようとする歌唱者（me）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
これと並行して、分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
【００２６】
これらにより入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓvとを掛け合わせ、入力音声信号Ｓvをフレーム単位で切り出し、フレーム音声信号ＦＳvとして高速フーリエ変換部４に出力される。
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図３に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
そして、高速フーリエ変換部４においてフレーム音声信号ＦＳvは、解析処理されるとともに、図４に示すように、高速フーリエ変換部４の出力である周波数スペクトルからピーク検出部５によりローカルピークが検出される。
【００２７】
より具体的には、図４に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
すなわち、図４に示すように、（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各フレームについてローカルピークが検出され、表されることとなる。
【００２８】
そして、図３に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）として無声／有声検出部６及びピーク連携部８に出力される。無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（‘ｔ’、‘ｋ’等）し、無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（‘ｓ’等）し、元無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。
【００２９】
さらに無声／有声検出部６は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰmeを検出する。
より具体的なフレームのピッチＰmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"（Journal of Acounstical Society of America95(4):2254-2263）に開示されているような方法で行う。
【００３０】
次に、ピーク検出部５から出力されたローカルピーク組は、ピーク連携部８において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図５を参照して説明する。
今、図５（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図５（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
【００３１】
この場合、ピーク連携部８は、前回のフレームで検出された各ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図５の例では、ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ＦＫ、ＡＫ）については（図５（Ａ）参照）、対応するローカルピーク（図５（Ｂ）参照）は検出されていない。
【００３２】
ピーク連携部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図６は、複数のフレームにわたるローカルピークの周波数Ｆ０及び周波数Ｆ１の変化の一例を示している。
このような変化は、アンプ（振幅）Ａ０、Ａ１、Ａ２、……についても同様に認められる。この場合、ピーク連携部８から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
【００３３】
なお、ピーク連携部８から出力されるピーク値を、以後において、確定成分という。これは、元の信号（すなわち、音声信号Ｓｖ）のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波（厳密には、正弦波のパラメータである周波数及びアンプ（振幅））の各々については、正弦波成分と呼ぶことにする。
【００３４】
次に、補間合成部９は、ピーク連携部８から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部３４が出力する最終出力信号のサンプリングレート（例えば、４４．１ＫＨｚ）に対応した間隔で行われる。前述した図６に示す実線は、正弦波成分の周波数Ｆ０、Ｆ１について補間処理が行われた場合のイメージを示している。
【００３５】
［２．１］補間合成部の構成
ここで、補間合成部９の構成を図７に示す。
補間合成部９は、複数の部分波形発生部９ａを備えて構成されており、各部分波形発生部９ａは、指定された正弦波成分の周波数（Ｆ０、Ｆ１、…）およびアンプ（振幅）に応じた正弦波を発生する。ただし、本第１実施形態における正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部９ａから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部８からは正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部９ａは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部９ａから出力された波形は、加算部９ｂにおいて加算合成される。したがって、補間合成部９の出力信号は、入力音声信号Ｓｖから確定成分を抽出した正弦波成分合成信号ＳSSになる。
【００３６】
［２．２］残差成分検出部の動作
次に、残差成分検出部１０は、補間合成部９から出力された正弦波成分合成信号ＳSSと入力音声信号Ｓｖとの偏差である残差成分信号ＳRD（時間波形）を生成する。この残差成分信号ＳRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号ＳSSは有声成分に対応するものである。
ところで、目標（Target）となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
そこで、本実施形態においては、有声成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号ＳRDについては、高速フーリエ変換部１１で、周波数波形に変換し、得られた残差成分信号（周波数波形）をＲme(f)として残差成分保持部１２に保持しておく。
【００３７】
［２．３］平均アンプ演算部の動作
一方、図８（Ａ）に示すように、ピーク検出部５からピーク連携部８を介して出力された正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（Ｆ(N-1)、Ａ(N-1)）のＮ個の正弦波成分（以下、これらをまとめてＦｎ、Ａｎと表記する。ｎ＝０〜（Ｎ−１）。）は、正弦波成分保持部１３に保持されるとともに、アンプＡｎは平均アンプ演算部１４に入力され、各フレーム毎に次式により平均アンプＡmeが算出される。
Ａme＝Σ（Ａｎ）／Ｎ
【００３８】
［２．４］アンプ正規化部の動作
次にアンプ正規化部１５において、次式により各アンプＡｎを平均アンプＡmeで正規化し、正規化アンプＡ’ｎを求める。
Ａ’ｎ＝Ａｎ／Ａme
［２．５］スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部１６において、図８（Ｂ）に示すように、周波数Ｆｎ及び正規化アンプＡ’ｎにより得られる正弦波成分（Ｆｎ、Ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳme(f)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【００３９】
［２．６］ピッチ正規化部の動作
続いてピッチ正規化部１７においては、各周波数Ｆｎをピッチ検出部７において検出したピッチＰmeで正規化し、正規化周波数Ｆ’ｎを求める。
Ｆ’ｎ＝Ｆｎ／Ｐme
これらの結果、元フレーム情報保持部１８は、入力音声信号Ｓvに含まれる正弦波成分に対応する元属性データである平均アンプＡme、ピッチＰme、スペクトラル・シェイプＳme(f)、正規化周波数Ｆ’ｎを保持することとなる。
なお、この場合において、正規化周波数Ｆ’ｎは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【００４０】
この場合において、男声／女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声／女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部１８に保持している元属性データのうち、平均アンプＡmeおよびピッチＰmeについては、さらに静的変化／ビブラート的変化分離部１９により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【００４１】
より具体的には、平均アンプＡmeを平均アンプ静的成分Ａme-sta及び平均アンプビブラート的成分Ａme-vibとに分離して保持する。
また、ピッチＰmeをピッチ静的成分Ｐme-sta及びピッチビブラート的成分Ｐme-vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データＩＮＦmeは、図８（Ｃ）に示すように、入力音声信号Ｓvの正弦波成分に対応する元属性データである平均アンプ静的成分Ａme-sta、平均アンプビブラート的成分Ａme-vib、ピッチ静的成分Ｐme-sta、ピッチビブラート的成分Ｐme-vib、スペクトラル・シェイプＳme(f)、正規化周波数Ｆ’ｎ及び残差成分Ｒme（ｆ）の形で保持されることとなる。
【００４２】
一方、ものまねの対象（target）となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データＩＮＦtarは、予め分析されてターゲットフレーム情報保持部２０を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データＩＮＦtarのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Ａtar-sta、平均アンプビブラート的成分Ａtar-vib、ピッチ静的成分Ｐtar-sta、ピッチビブラート的成分Ｐtar-vib、スペクトラル・シェイプＳtar(f)がある。
また、ターゲットフレーム情報データＩＮＦtarのうち、残差成分に対応するターゲット属性データとしては、残差成分Ｒtar(f)がある。
【００４３】
［２．７］キーコントロール／テンポチェンジ部の動作
次にキーコントロール／テンポチェンジ部２１は、シーケンサ３１からの同期信号ＳSYNCに基づいて、ターゲットフレーム情報保持部２０から同期信号ＳSYNCに対応するフレームのターゲットフレーム情報ＩＮＦtarの読出処理及び読み出したターゲットフレーム情報データＩＮＦtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報ＩＮＦtarおよび当該フレームが無声であるか有声であるかを表すターゲット無声／有声検出信号Ｕ／Ｖtarを出力する。
より具体的には、キーコントロール／テンポチェンジ部２１の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、５０［cent］だけキーを上げた場合には、ピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても５０［cent］だけ上げなければならない。
【００４４】
また、キーコントロール／テンポチェンジ部２１の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データＩＮＦtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データＩＮＦtarを読み出し、これら二つのターゲットフレーム情報データＩＮＦtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データＩＮＦtar、ひいては、ターゲット属性データを生成する。
【００４５】
この場合において、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００４６】
［２．８］イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部２２は、ものまねをしようとする歌唱者のフレーム（以下、元フレームという。）に元フレーム情報データＩＮＦmeが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム（以下、ターゲットフレームという。）にターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データＩＮＦtarを当該ターゲットフレームのターゲットフレーム情報データＩＮＦtarとするイージーシンクロナイゼーション処理を行う。
【００４７】
そして、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）を正弦波成分属性データ選択部２３に出力する。
また、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒtar-sync(f)）を残差成分選択部２５に出力する。
【００４８】
このイージーシンクロナイゼーション処理部２２における処理においても、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００４９】
［２．８．１］イージーシンクロナイゼーション処理の詳細
ここで、図９及び図１０を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図９は、イージーシンクロナイゼーション処理のタイミングチャートであり、図１０はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部２２は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード＝“０”とする（ステップＳ１１）。このシンクロナイゼーションモード＝“０”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtarが存在する通常処理の場合に相当する。
【００５０】
そしてあるタイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化したか否かを判別する（ステップＳ１２）。
例えば、図９に示すように、タイミングｔ＝ｔ1においては、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している。
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）であるか否かを判別する（ステップＳ１８）。
【００５１】
例えば、図９に示すように、タイミングｔ＝ｔ0（＝ｔ1-1）においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている。
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている場合には（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向（Backward）に存在するフレームのターゲットフレーム情報とする。
【００５２】
例えば、図９に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データbackwardとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別する（ステップＳ１５）。
【００５３】
ステップＳ１５の判別において、シンクロナイゼーションモード＝“０”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncをターゲットフレーム情報データＩＮＦtar(t)とする。
ＩＮＦtar-sync＝ＩＮＦtar(t)
例えば、図９に示すようにタイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、
ＩＮＦtar-sync＝ＩＮＦtar(t)
とする。
【００５４】
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)）は実質的には、以下の内容となる（ステップＳ１６）。
Ａtar-sync-sta＝Ａtar-sta
Ａtar-sync-vib＝Ａtar-vib
Ｐtar-sync-sta＝Ｐtar-sta
Ｐtar-sync-vib＝Ｐtar-vib
Ｓtar-sync(f)＝Ｓtar(f)
Ｒtar-sync(f)＝Ｒtar(f)
【００５５】
ステップＳ１５の判別において、シンクロナイゼーションモード＝“１”またはシンクロナイゼーションモード＝“２”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncを置換用ターゲットフレーム情報データＩＮＦholdとする。
ＩＮＦtar-sync＝ＩＮＦhold
例えば、図９に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝“１”となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ１を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)となる（ステップＳ１６）。
【００５６】
また、図９に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝“２”となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ２を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)となる（ステップＳ１６）。
【００５７】
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１２；Ｎｏ）、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化しているか否かを判別する（ステップＳ１３）。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化している場合には（ステップＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）であるか否かを判別する（ステップＳ１９）。
例えば、図９に示すように、タイミングｔ3においてターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ-1＝ｔ2〜ｔ3においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）となっている。
【００５８】
ステップＳ１９の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）となっている場合には（ステップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向（forward）に存在するフレームのターゲットフレーム情報とする（ステップＳ２１）。
例えば、図９に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データforwardとする。
【００５９】
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別して（ステップＳ１５）、以下、同様の処理を行う。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化していない場合には（ステップＳ１３；Ｎｏ）、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判別する（ステップＳ１４）。
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、かつ、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅｓ）、シンクロナイゼーションモード＝“０”とし、置換用ターゲットフレーム情報データＩＮＦholdを初期化（clear）し（ステップＳ１７）、処理をステップＳ１５に移行して、以下、同様の処理を行う。
【００６０】
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化せず、かつ、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に移行し、以下同様の処理を行う。
【００６１】
［２．９］正弦波成分属性データ選択部の動作
続いて、正弦波成分属性データ選択部２３は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）及びコントローラ２９から入力される正弦波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)を生成する。
【００６２】
すなわち、新規アンプ成分Ａnewについては、次式により生成する。
Ａnew＝Ａ*-sta＋Ａ*-vib（ただし、*は、me又はtar-sync）
より具体的には、図８（Ｄ）に示すように、新規アンプ成分Ａnewを元属性データの平均アンプ静的成分Ａme-staあるいはターゲット属性データの平均アンプ静的成分Ａtar-sync-staのいずれか一方及び元属性データの平均アンプビブラート的成分Ａme-vibあるいはターゲット属性データの平均アンプビブラート的成分Ａtar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規ピッチ成分Ｐnewについては、次式により生成する。
Ｐnew＝Ｐ*-sta＋Ｐ*-vib（ただし、*は、me又はtar-sync）
より具体的には、図８（Ｄ）に示すように、新規ピッチ成分Ｐnewを元属性データのピッチ静的成分Ｐme-staあるいはターゲット属性データのピッチ静的成分Ｐtar-sync-staのいずれか一方及び元属性データのピッチビブラート的成分Ｐme-vibあるいはターゲット属性データのピッチビブラート的成分Ｐtar-sync-vibのいずれか一方の組み合わせとして生成する。
【００６３】
また、新規スペクトラル・シェイプＳnew(f)については、次式により生成する。
Ｓnew(f)＝Ｓ*(f)（ただし、*は、me又はtar-sync）
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの明るい音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプＳnew(f)に関しては、このような状態をシミュレートすべく、図１１に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Ａnewの大きさに応じて補償するスペクトラルチルト補償（spectral tilt correction）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【００６４】
続いて、生成された新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)について、必要に応じてコントローラ２９から入力される正弦波成分属性データ変形情報に基づいて、属性データ変形部２４によりさらなる変形を行う。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変形を行う。
【００６５】
［２．１０］残差成分選択部の動作
一方、残差成分選択部２５は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒtar-sync(f)）、残差成分保持部１２に保持されている残差成分信号（周波数波形）Ｒme(f)及びコントローラ２９から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Ｒnew(f)を生成する。
【００６６】
すなわち、新規残差成分Ｒnew(f)については、次式により生成する。
Ｒnew(f)＝Ｒ*(f)（ただし、*は、me又はtar-sync）
この場合においては、me又はtar-syncのいずれを選択するかは、新規スペクトラル・シェイプＳnew(f)と同一のものを選択するのがより好ましい。
さらに、新規残差成分Ｒnew(f)に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図１１に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Ａnewの大きさに応じて補償するスペクトラルチルト補償（spectral tilt correction）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【００６７】
［２．１１］正弦波成分生成部の動作
続いて、正弦波成分生成部２６は、属性データ変形部２４から出力された変形を伴わない、あるいは、変形を伴う新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)に基づいて、当該フレームにおける新たな正弦波成分（Ｆ"０、Ａ"０）、（Ｆ"１、Ａ"１）、（Ｆ"２、Ａ"２）、……、（Ｆ"(N-1)、Ａ"(N-1)）のＮ個の正弦波成分（以下、これらをまとめてＦ"ｎ、Ａ"ｎと表記する。ｎ＝０〜（Ｎ−１）。）を求める。
【００６８】
より具体的には、次式により新規周波数Ｆ"ｎおよび新規アンプＡ"ｎを求める。
Ｆ"ｎ＝Ｆ'ｎ×Ｐnew
Ａ"ｎ＝Ｓnew(Ｆ"ｎ)×Ａ new
なお、完全倍音構造のモデルとして捉えるのであれば、
Ｆ"ｎ＝（ｎ＋１）×Ｐnew
となる。
【００６９】
［２．１２］正弦波成分変形部の動作
さらに、求めた新規周波数Ｆ"ｎおよび新規アンプＡ"ｎについて、必要に応じてコントローラ２９から入力される正弦波成分変形情報に基づいて、正弦波成分変形部２７によりさらなる変形を行う。例えば、偶数次成分の新規アンプＡ"ｎ（＝Ａ"０、Ａ"２、Ａ"４、……）だけを大きく（例えば、２倍する）等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【００７０】
［２．１３］逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部２８は、求めた新規周波数Ｆ"'ｎおよび新規アンプＡ"'ｎ（＝新規正弦波成分）並びに新規残差成分Ｒnew(f)をＦＦＴバッファに格納し、順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ２９から入力される正弦波成分／残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【００７１】
この場合において、ＦＦＴバッファに新規周波数Ｆ"'ｎおよび新規アンプＡ"'ｎ（＝新規正弦波成分）並びに新規残差成分Ｒnew(f)を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ３１により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【００７２】
［２．１４］クロスフェーダの動作
次にクロスフェーダ３０は、元無声／有声検出信号Ｕ／Ｖme(t)に基づいて、入力音声信号Ｓvが無声（Ｕ）である場合には、入力音声信号Ｓvをそのままミキサ３３に出力する。
また、入力音声信号Ｓvが有声（Ｖ）である場合には、逆高速フーリエ変換変換部２８が出力した変換音声信号をミキサ３３に出力する。
この場合において、切替スイッチとしてクロスフェーダ３０を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００７３】
［２．１５］シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ３１は、カラオケの伴奏音を発生するための音源制御情報を例えば、ＭＩＤＩ（Musical Instrument Digital Interface）データなどとして音源部３２に出力する。
これにより音源部３２は、音源制御情報に基づいて伴奏信号を生成し、ミキサ３３に出力する。
ミキサ３３は、入力音声信号Ｓvあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部３４に出力する。
出力部３４は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００７４】
［３］実施形態の変形例
［３．１］第１変形例
以上の説明においては、属性データとしては、元属性データあるいはターゲット属性データのいずれかを選択的に用いる構成としていたが、元属性データ及びターゲット属性データの双方を用い、補間処理を行うことにより中間的な属性を有する変換音声信号を得るように構成することも可能である。
しかしながら、このような構成によれば、ものまねをしようとする歌唱者及びものまねの対象（target）となる歌唱者のいずれにも似ていない変換音声が得られる場合もある。
また、特にスペクトラル・シェイプを補間処理によって求めた場合には、ものまねをしようとする歌唱者が「あ」を発音し、ものまねの対象となる歌唱者が「い」を発音している場合などには、「あ」でも「い」でもない音が変換音声として出力される可能性があり、その取扱には注意が必要である。
【００７５】
［３．２］第２変形例
正弦波成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
［３．３］第３変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
【００７６】
［３．４］第４変形例
本実施形態においては、属性データとして、ピッチ、アンプ、スペクトラル・シェイプの全てを取り扱ったが、少なくともいずれか一つを扱うようにすることも可能である。
［４］実施形態の効果
以上の結果、カラオケの伴奏とともに、シンガーの歌が出力されるが、その声質および歌い方などは、ターゲットの影響を大きく受け、ターゲットそのものの声質および歌い方となる。このようにして、あたかもターゲットの物まねをしているような歌が出力される。
【００７７】
【発明の効果】
以上説明したように、この発明によれば、ものまねしようとする歌唱者の音声からものまねの対象（ターゲット）となる歌唱者の声質や歌い方が反映された変換音声を得ることが容易にできる。
【図面の簡単な説明】
【図１】本発明の一実施形態の構成を示すブロック図（その１）である。
【図２】本発明の一実施形態の構成を示すブロック図（その２）である。
【図３】実施形態におけるフレームの状態を示す図である。
【図４】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図５】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図６】実施形態における周波数値の変化状態を示す図である。
【図７】実施形態における処理過程における確定成分の変化状態を示す図である。
【図８】実施形態における信号処理の説明図である。
【図９】イージーシンクロナイゼーション処理のタイミングチャートである。
【図１０】イージーシンクロナイゼーション処理フローチャートである。
【図１１】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【符号の説明】
１…マイク、２…分析窓生成部、３…入力音声信号切出部、４…高速フーリエ変換部、５…ピーク検出部、６…無声／有声検出部、７…ピッチ抽出部、８…ピーク連携部、９…補間合成部、１０…残差成分検出部、１１…高速フーリエ変換部、１２…残差成分保持部、１３…正弦波成分保持部、１４…平均アンプ演算部、１５…アンプ正規化部、１６…スペクトラル・シェイプ演算部、１７…ピッチ正規化部、１８…元フレーム情報保持部、１９…静的変化／ビブラート的変化分離部、２０…ターゲットフレーム情報保持部、２１…キーコントロール／テンポチェンジ部、２２…イージーシンクロナイゼーション処理部、２３…正弦波成分属性データ選択部、２４…属性データ変形部、２５…残差成分選択部、
２６…正弦波成分生成部、２７…正弦波成分変形部、２８…逆高速フーリエ変換部、２９…コントローラ、３０…クロスフェーダ、３１…シーケンサ、３２…音源部、３３…ミキサ、３４…出力部

Claims

入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、
対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、
前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、
を備えたことを特徴とする音声変換装置。
入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、
対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、
前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、
を備えたことを特徴とする音声変換装置。
前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択する選択手段を有し、
前記変換音声信号生成手段は、前記選択手段によって選択された成分と前記新規属性データとを混合して新たな信号を生成する
ことを特徴とする請求項１または２記載の音声変換装置。
前記元属性データ抽出手段および前記新規属性データ生成手段は、所定時間長のフレーム単位で処理するとともに、
前記新規属性データ生成手段は、一のフレームについての前記元属性データに対応する前記ターゲット属性データが存在するか否かを入力音声信号の無声有声検出信号とターゲット音声信号の無声有声検出信号とに基づいて判別し、存在しないと判別した場合に、当該フレームに対し時間的に前に位置するフレームあるいは当該フレームに対し時間的に後ろに位置するフレームについての前記ターゲット属性データを用いて、前記新規属性データを生成する
ことを特徴とする請求項１または２記載の音声変換装置。
前記変換音声信号生成手段は、前記新規属性データに変形処理を施し変形新規属性データを生成する新規属性データ変形手段を有し、前記変形新規属性データに基づいて前記変換音声信号を生成し出力する
ことを特徴とする請求項１または２記載の音声変換装置。
前記変換音声信号生成手段は、前記新規属性データに含まれるピッチデータに相当するピッチとは異なるピッチに相当するピッチデータを含む追加属性データを出力する追加属性データ生成手段を有し、前記新規属性データおよび前記追加属性データに基づいて前記変換音声信号を生成し出力する
ことを特徴とする請求項１または２記載の音声変換装置。
入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、
対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、
前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、
を備えたことを特徴とする音声変換方法。
入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、
対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、
前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、
を備えたことを特徴とする音声変換方法。
前記変換音声信号生成工程において、
前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択し、選択した成分と、前記新規属性データとを混合して新たな信号を生成する
ことを特徴とする請求項７または８記載の音声変換方法。