JP3907027B2

JP3907027B2 - 音声変換装置および音声変換方法

Info

Publication number: JP3907027B2
Application number: JP17644398A
Authority: JP
Inventors: 啓嘉山; サビエル・セラ
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-23
Filing date: 1998-06-23
Publication date: 2007-04-18
Anticipated expiration: 2018-06-23
Also published as: JP2000010600A

Description

【０００１】
【発明の属する技術分野】
この発明は、カラオケ等で歌唱者の歌声が、音声変換の対象となる特定の歌唱者の歌声になるように、また歌声を別人が歌っているように変換する音声変換装置および音声変換方法に関する。
【０００２】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある（例えば、特表平８−５０８５８１号）。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換（例えば、男声→女声、女声→男声など）は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者（例えば、プロの歌手）の声に似せるように変換するということはできなかった。
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であるか、必要なデータ量が膨大になるという問題があった。
【０００４】
そこで、本発明の目的は、音声変換に用いるデータの取り扱いを容易にするとともに、情報量を削減しつつ、声質を目標（ターゲット）とする歌唱者の声や歌い方に似させることができる音声変換装置および音声変換方法を提供することにある。
【０００５】
【課題を解決するための手段】
上述した問題点を解決するために、請求項１に記載の発明は、入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピーク毎に周波数と振幅を抽出するピーク検出手段と、前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出手段と、前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する調波成分抽出手段と、前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する非調波成分抽出手段と、前記調波成分に該当するローカルピークの周波数と振幅を変形する調波成分変形手段と、前記非調波成分に該当するローカルピークの周波数と振幅を変形する非調波成分変形手段と、前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する合成手段とを具備することを特徴とする。
また、請求項２に記載の発明は、請求項１に記載の音声変換装置において、音声変換の対象となる変換用音声信号の成分である変換対象調波成分および変換対象非調波成分を保持する保持手段を具備し、前記調波成分変形手段は、前記変換対象調波成分に基づいて前記調波成分に該当するローカルピークの周波数と振幅を変形し、前記非調波成分変形手段は、前記変換対象非調波成分に基づいて前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする。
また、請求項３に記載の発明は、請求項１または２に記載の音声変換装置において、前記非調波成分変形手段は、前記非調波成分から抽出された属性データを変形することによって前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする。
また、請求項４に記載の発明は、請求項２に記載の音声変換装置において、前記非調波成分変形手段は、前記非調波成分あるいは前記変換対象非調波成分のいずれか一方を前記変形された非調波成分とすることを特徴とする。
また、請求項５に記載の発明は、請求項１または２に記載の音声変換装置において、前記非調波成分変形手段により変形された非調波成分のピッチ成分およびその倍音成分を除去する除去手段を具備することを特徴とする。
また、請求項６に記載の発明は、請求項１または２に記載の音声変換装置において、前記調波成分変形手段により変形された調波成分と、前記非調波成分変形手段により変形された非調波成分とを畳み込み演算する畳み込み処理手段を具備することを特徴とする。
また、請求項７に記載の発明は、入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピークごとに周波数と振幅を抽出するピーク検出する段階と、前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出する段階と、前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する段階と、前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する段階と、前記調波成分に該当するローカルピークの周波数と振幅を変形する段階と、前記非調波成分に該当するローカルピークの周波数と振幅を変形する段階と、前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する段階とを備えることを特徴とする。
この発明によれば、調波成分抽出手段により、入力音声信号のピッチおよびその倍音成分を正弦波で表す調波成分を抽出するとともに、非調波成分抽出手段により、前記調波成分以外の成分を正弦波で表す非調波成分を、前記入力音声信号から抽出し、音声信号の正弦波の合成で表すことができる調波成分以外の非調波なピーク成分も正弦波の合成で表すようにしたので、信号処理におけるその取り扱いを容易にすることが可能となり、情報量を削減することが可能となる。
【０００６】
【発明の実施の形態】
次に図面を参照してこの発明の実施形態について説明する。
【０００７】
Ａ．実施形態の概要処理
は、本実施形態の構成を示すブロック図である。本実施形態は、本発明による音声変換装置（音声変換方法）を適用したカラオケ装置であり、歌唱者(me)の入力音声信号Ｓｖを、ものまねの対象（Target）となる歌唱者の音声に似せた音声信号に変換して出力するものである。
まず、構成の詳細を説明するに先だって、本実施形態の概要処理について説明する。
【０００８】
［１］ステップＳ１（ＳＭＳ分析）
まず、ものまねをしようとする歌唱者（me）の音声（入力音声信号）をリアルタイムでＦＦＴ（Fast Fourie Transform）を含むＳＭＳ（Spectral Modeling Synthesis）分析を行い、フレーム単位で、歌唱者（me）の正弦波調波成分ＳＩＮhar-me（SINharmonic成分）および正弦波非調波成分ＳＩＮinhar-me（SINinharmonic成分）を生成する。
具体的には、本実施形態では、音声信号をＦＦＴ変換することにより、周波数スペクトルを検出し、該周波数スペクトルからピーク値を検出してピッチを求め、ピッチとその倍音成分から構成される正弦波調波成分ＳＩＮhar-meおよび、正弦波調波成分ＳＩＮhar-me以外の成分である正弦波非調波成分ＳＩＮinhar-meとに分離して音声変換処理を行う。
ここで、正弦波調波成分ＳＩＮhar-me以外の成分としては、音声信号Ｓｖの波形成分から正弦波調波成分ＳＩＮhar-meを除いた残差成分を用いる処理も考えられる。
【０００９】
しかしながら、このような残差成分を用いる場合は、ＳＭＳ分析によってピーク値が検出されても、その周波数が倍音付近になければ、残差成分として分離されてしまう。したがって、残差成分は、音声に含まれる調波成分（ピッチおよびその倍音）以外で音声を構成するために、その重要性の高い周波数成分（情報）を多く含むことになり、取り扱いが難しくなるという問題がある。また、データとしての情報量が多く、残差成分のデータ保持の仕方次第により、正弦波成分との合成において統一的な処理を施すことができないという問題がある。
そこで、本実施形態においては、後に詳しく説明するように、正弦波非調波成分ＳＩＮinhar-meを用いた処理を行っている。
一方、これと並行して入力音声信号が無声音（含む無音）か否かを判別し、判別結果である無声／有声検出信号Ｕ／Ｖmeを出力する。なお、無声音である場合には（U/Vme＝U）、以下のステップＳ２〜ステップＳ４の処理は行わず、入力音声信号をそのまま出力することとなる。
【００１０】
［２］ステップＳ２（正弦波調波成分処理）
次に入力音声信号が有声音である場合には、歌唱者（me）の正弦波調波成分ＳＩＮhar-meからさらに元属性（Attribute）データであるピッチ（Pitch）、平均アンプ（Amplitude）及びスペクトラル・シェイプ（Spectral Shape）を抽出し、歌唱者（me）の元属性データINFmeとして保持する。
さらに抽出したピッチ及び平均アンプについては、ビブラート成分及びビブラート成分以外の他の成分に分離する（後述するAme-sta,Ame-vib,Pme-sta,Pme-vib）。
そして、予め記憶（保存）してあるものまねの対象（Target）となる歌唱者の属性データINFtar（ターゲット属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）から、ものまねをしようとする歌唱者（me）の入力音声信号のフレームに対応するフレームのターゲット属性データINFtar（＝ピッチ、アンプ及びスペクトラル・シェイプ）を取り出す。この場合において、ものまねをしようとする歌唱者（me）の入力音声信号のフレームに対応するフレームのターゲット属性データが存在しない場合には、後に詳述するように、予め定めたイージーシンクロナイゼーション規則（Easy Synchronization Rule）に従って、ターゲット属性データを生成し、同様の処理を行う。
【００１１】
次に、ものまねをしようとする歌唱者（me）に対応する元属性データINFme及びものまねの対象となる歌唱者に対応するターゲット属性データINFtarを適宜選択して組み合わせることにより、新しい属性データINFnew（新属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）を得る。なお、ものまねではなく、単なる音声変換として用いる場合には、元属性データ及びターゲット属性データの加算平均として新属性データを得るなどの元属性データ及びターゲット属性データの双方に基づいて計算により新属性データを得るようにすることも可能である。
つづいて、得られた新属性データに基づいて、当該フレームの新正弦波調波成分ＳＩＮhar-newを求める。
【００１２】
すなわち、正弦波調波成分ＳＩＮhar-meは、正弦波調波成分処理部９において、ターゲットフレーム情報保持部１１に保持されている、ものまねの対象（Target）となる歌唱者の音声信号の正弦波調波成分ＳＩＮhar-tarに基づいて変形された新たな正弦波調波成分として属性変換部１０に供給され、属性変換部１０において、振幅を変更するなどの属性変形が施されて当該フレームの新正弦波調波成分ＳＩＮhar-newを取得する。
【００１３】
［３］ステップＳ３（正弦波非調波成分処理）
次に、歌唱者（me）の正弦波非調波成分ＳＩＮinhar-me、ものまねの対象（Target）の正弦波非調波成分ＳＩＮinhar-tar、およびステップＳ２において出力される音声変換処理に関する情報ＳＩＮhar-infおよび属性変換処理に関する情報ATRinfに基づいて、新正弦波非調波成分ＳＩＮinhar-newを求める。
【００１４】
［４］ステップＳ４
そして、ステップＳ２で求めた新正弦波調波成分ＳＩＮhar-newと、ステップＳ３で求めた新正弦波非調波成分ＳＩＮinhar-newとを加算し逆ＦＦＴを行い、変換音声信号を得る。
【００１５】
［５］まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、物まねをしようとする歌唱者の歌声が、あたかも、別の歌唱者（ターゲットの歌唱者）が歌った歌声のようになる。
【００１６】
Ｂ．実施形態の詳細構成および動作
次に、本発明の実施形態の詳細構成および動作について説明する。
まず、図１において、マイク１は、ものまねをしようとする歌唱者（me）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓvとを掛け合わせ、入力音声信号Ｓvをフレーム単位で切り出し、フレーム音声信号ＦＳvとして高速フーリエ変換部４に出力される。
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図２に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
【００１７】
高速フーリエ変換部４は、フレーム音声信号ＦＳvを解析処理するとともに、図３に示すように、高速フーリエ変換部４の出力である周波数スペクトルからピーク検出部５によりローカルピークを検出する。
より具体的には、図３に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
すなわち、図３に示すように、（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各フレームについてローカルピークが検出され、表されることとなる。
そして、図２に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）として無声／有声検出部６及び分析部８に出力される。
無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（'ｔ'、'ｋ'等）し、無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部１３及びクロスフェーダ１７に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（'ｓ'等）し、元無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部１３及びクロスフェーダ１７に出力する。
【００１８】
さらに無声／有声検出部６は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰmeを検出する。
より具体的なフレームのピッチＰmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"（Journal of Acounstical Society of America95(4):2254-2263）に開示されているような方法で行う。
【００１９】
次に、分析部８は、ピーク検出部５から出力されたローカルピーク組に基づいて、前後のフレームについて連携を判断し、連携すると認められるローカルピークについて、一連のデータ列となるようにローカルピークをつなげる連携処理を行い、歌唱者（me）の正弦波調波成分ＳＩＮhar-meおよび正弦波非調波成分ＳＩＮinhar-meを抽出する。
【００２０】
ここで、この連携処理について、図４を参照して説明する。
今、図４（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図４（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、分析部８は、前回のフレームで検出された各ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
【００２１】
より具体的には、図４の例では、ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ＦＫ、ＡＫ）については（図４（Ａ）参照）、対応するローカルピーク（図４（Ｂ）参照）は検出されていない。
分析部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列とする。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
なお、分析部８から出力されるピーク値を、以後において、ピーク成分という。ピーク成分は、入力された音声信号Ｓｖのうち正弦波の要素として確定的に置き換えられる成分であり、各フレーム毎に正弦波のパラメータである周波数及びアンプ（Ｆｎ、Ａｎ）で与えられる。
【００２２】
次に、図５を参照して、正弦波調波成分ＳＩＮhar-meを取得する処理について説明する。
図５（ａ）は、歌唱者(me)の音声信号Ｓｖのピーク成分を示す周波数スペクトル図である。図中ピッチＦｐは、ピッチ検出部７において検出された歌唱者(me)のピッチＰmeの周波数を示している。
また、図５（ｂ）は、ピッチＦｐおよびその倍音（２Ｆｐ、３Ｆｐ、……、ｎＦｐ）に対応するピーク成分（Ｆｈ０、Ａｈ０）、（Ｆｈ１、Ａｈ１）、（Ｆｈ２、Ａｈ２）、……、（Ｆｈｎ、Ａｈｎ）を示す周波数スペクトル図である。本実施形態では、この（Ｆｈ０、Ａｈ０）、（Ｆｈ１、Ａｈ１）、（Ｆｈ２、Ａｈ２）、……、（Ｆｈｎ、Ａｈｎ）を正弦波調波成分ＳＩＮhar-meとする。
【００２３】
次に、図５（ｃ）は、図５（ａ）に示したピーク成分から、図５（ｂ）に示した（Ｆｈ０、Ａｈ０）、（Ｆｈ１、Ａｈ１）、（Ｆｈ２、Ａｈ２）、……、（Ｆｈｎ、Ａｈｎ）を除いたピーク成分を示す周波数スペクトル図であり、本実施形態では、このような正弦波調波成分ＳＩＮhar-meに含まれなかった成分を正弦波非調波成分ＳＩＮinhar-meとする。
すなわち、ピッチＰmeおよびその倍音成分を、正弦波の合成を用いて正弦波調波成分ＳＩＮhar-meとして表わし、音声信号Ｓｖのうち上記正弦波調波成分ＳＩＮhar-meに含まれなかったピーク成分を、正弦波の合成を用いて正弦波非調波成分ＳＩＮinhar-meと表す。
分析部８は、このようにして取得した正弦波調波成分ＳＩＮhar-meを正弦波調波成分処理部９に出力し、正弦波非調波成分ＳＩＮinhar-meを正弦波非調波成分処理部１０に出力する。
【００２４】
このように、正弦波調波成分ＳＩＮhar-meおよび正弦波非調波成分ＳＩＮinhar-meとに分離して取り扱うことにより、正弦波非調波成分ＳＩＮinhar-meに対して正弦波調波成分ＳＩＮhar-meと同様の処理を施すことが可能となるとともに、既述の残差成分と同様の音声変換処理を施すことも可能となる。また、いずれの成分も正弦波の合成であるために、後述する音声変換処理後の合成においても統一的な合成ができる。
また、正弦波非調波成分ＳＩＮinhar-meは、正弦波の合成であるため、入力音声から正弦波調波成分を引いて残る従来の残差成分に比べ、その処理の自由度が高くなる。また、残差成分に比べ、正弦波非調波成分は、その情報量が少ないため、予め保持されているターゲットの情報量を含め、取り扱うデータの情報量を削減することが可能となる。
次に、正弦波調波成分処理部９は、ピッチ検出部７から出力されたピッチＰmeおよび、分析部８から出力された正弦波調波成分ＳＩＮhar-meに基づいて、歌唱者（me）の元属性データINFme（平均アンプＡme、スペクトラル・シェイプＳme(f)）を生成する。
【００２５】
そして、ものまねの対象（Target）となる歌唱者の音声信号の正弦波調波成分ＳＩＮhar-tarに基づいて生成された歌唱者の属性データINFtarを、歌唱者（me）の元属性データINFmeに基づいて変形させて、新属性データINFnewを生成する。
ここで、図６は、正弦波調波成分処理部９における処理を示すフローチャートである。
【００２６】
まず、正弦波調波成分処理部９は、図７（Ａ）に示すように、分析部８から出力された正弦波調波成分ＳＩＮhar-me（（Ｆｈ０、Ａｈ０）、（Ｆｈ１、Ａｈ１）、（Ｆｈ２、Ａｈ２）、……、（Ｆｈｎ、Ａｈｎ)）のＮ個のピーク成分（以下、これらをまとめてＦｈｎ、Ａｈｎと表記する。）を保持する（Ｓ２０１）。そして、保持したアンプＡｈｎに基づいて、次式により平均アンプＡmeを算出する（Ｓ２０２）。
Ａme＝Σ（Ａｈｎ）／Ｎ
次に、次式により各アンプＡｈｎを平均アンプＡmeで正規化し、正規化アンプＡｈ'ｎを求める（Ｓ２０３）。
Ａｈ'ｎ＝Ａｈｎ／Ａme
【００２７】
そして、図７（Ｂ）に示すように、周波数Ｆｈｎ及び正規化アンプＡｈ'ｎにより得られる正弦波成分（Ｆｈｎ、Ａｈ'ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳme(f)として生成する（Ｓ２０４）。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
これらの結果、正弦波調波成分処理部９は、元属性データINFmeである平均アンプＡme、ピッチＰme、スペクトラル・シェイプＳme(f)を保持することとなる（Ｓ２０５）。
【００２８】
つづいて、元属性データINFmeのうち、平均アンプＡmeおよびピッチＰmeについては、さらに静的変化／ビブラート的変化分離部１９により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する（Ｓ２０６）。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【００２９】
より具体的には、平均アンプＡmeを平均アンプ静的成分Ａme-sta及び平均アンプビブラート的成分Ａme-vibとに分離して保持する。
また、ピッチＰmeをピッチ静的成分Ｐme-sta及びピッチビブラート的成分Ｐme-vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データＩＮＦmeは、入力音声信号Ｓvの正弦波成分に対応する元属性データである平均アンプ静的成分Ａme-sta、平均アンプビブラート的成分Ａme-vib、ピッチ静的成分Ｐme-sta、ピッチビブラート的成分Ｐme-vib、及びスペクトラル・シェイプＳme(f)の形で保持されることとなる。
【００３０】
そして、保持された元属性データINFmeと、ものまねの対象（Target）となる歌唱者の属性データINFtarに基づいてイージーシンクロナイゼーション処理部１３から入力される置換済ターゲットフレーム情報データＩＮＦtar-syncとから、新属性データINFnewを生成して（Ｓ２０７）、属性変換部１０に出力する。
そして、正弦波調波成分ＳＩＮhar-meに対する音声変換処理に関する情報ＳＩＮhar-infを正弦波非調波成分処理部１４へ出力する。
【００３１】
ここで、新属性データINFnewの生成処理についてさらに詳しく説明する。まず、正弦波調波成分処理部９に入力される置換済ターゲットフレーム情報データＩＮＦtar-syncについて説明する。
再び図１を参照すると、ターゲットフレーム情報保持部１１は、予めＳＭＳ分析した、ものまねの対象（Target）となる歌唱者のデータ（正弦波調波成分ＳＩＮhar-tarに基づく属性データINFtar、正弦波非調波成分ＳＩＮinhar-tar）を格納している。この場合において、ターゲット属性データＩＮＦtarとしては、平均アンプ静的成分Ａtar-sta、平均アンプビブラート的成分Ａtar-vib、ピッチ静的成分Ｐtar-sta、ピッチビブラート的成分Ｐtar-vib、スペクトラル・シェイプＳtar(f)がある。
【００３２】
次にキーコントロール／テンポチェンジ部１２は、シーケンサ１８からの同期信号ＳSYNCに基づいて、正弦波調波成分処理部９から同期信号ＳSYNCに対応するフレームのターゲットフレーム情報ＩＮＦtarの読出処理及び読み出したターゲットフレーム情報データＩＮＦtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報ＩＮＦtarおよび当該フレームが無声であるか有声であるかを表すターゲット無声／有声検出信号Ｕ／Ｖtarを出力する。
【００３３】
より具体的には、キーコントロール／テンポチェンジ部１２の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、５０［cent］だけキーを上げた場合には、ピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても５０［cent］だけ上げなければならない。
また、キーコントロール／テンポチェンジ部１２の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データＩＮＦtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データＩＮＦtarを読み出し、これら二つのターゲットフレーム情報データＩＮＦtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データＩＮＦtar、ひいては、ターゲット属性データを生成する。
【００３４】
また、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３５】
次にイージーシンクロナイゼーション処理部１３は、歌唱者(me)のフレーム（以下、元フレームという。）に元フレーム情報データＩＮＦmeが存在するにもかかわらず、対応するものまねの対象（Target）となる歌唱者のフレーム（以下、ターゲットフレームという。）にターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データＩＮＦtarを当該ターゲットフレームのターゲットフレーム情報データＩＮＦtarとするイージーシンクロナイゼーション処理を行う。
【００３６】
そして、イージーシンクロナイゼーション処理部１３は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）を正弦波調波成分処理部９に出力する。
【００３７】
また、イージーシンクロナイゼーション処理部１３は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれる正弦波非調波成分ＳＩＮinhar-tarを正弦波非調波成分処理部１４に出力する。
このイージーシンクロナイゼーション処理部１３における処理においても、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。
又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
ここで、図８及び図９を参照してイージーシンクロナイゼーション処理について詳細に説明する。
【００３８】
図８は、イージーシンクロナイゼーション処理のタイミングチャートであり、図９はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部１３は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード＝"０"とする（ステップＳ１１）。このシンクロナイゼーションモード＝"０"は、元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtarが存在する通常処理の場合に相当する。
そしてあるタイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化したか否かを判別する（ステップＳ１２）。
【００３９】
例えば、図８に示すように、タイミングｔ＝ｔ1においては、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している。
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）であるか否かを判別する（ステップＳ１８）。
【００４０】
例えば、図８に示すように、タイミングｔ＝ｔ0（＝ｔ1-1）においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている。
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている場合には（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝"１"とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向（Backward）に存在するフレームのターゲットフレーム情報とする。
例えば、図８に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝"１"とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データbackwardとする。
【００４１】
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝"０"であるか否かを判別する（ステップＳ１５）。
ステップＳ１５の判別において、シンクロナイゼーションモード＝"０"である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncをターゲットフレーム情報データＩＮＦtar(t)とする。
ＩＮＦtar-sync＝ＩＮＦtar(t)
【００４２】
例えば、図８に示すようにタイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、
ＩＮＦtar-sync＝ＩＮＦtar(t)
とする。
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び正弦波非調波成分ＳＩＮtsr-sync）は実質的には、以下の内容となる（ステップＳ１６）。
Ａtar-sync-sta＝Ａtar-sta
Ａtar-sync-vib＝Ａtar-vib
Ｐtar-sync-sta＝Ｐtar-sta
Ｐtar-sync-vib＝Ｐtar-vib
Ｓtar-sync(f)＝Ｓtar(f)
ＳＩＮtar-sync＝ＳＩＮtar
【００４３】
ステップＳ１５の判別において、シンクロナイゼーションモード＝"１"またはシンクロナイゼーションモード＝"２"である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncを置換用ターゲットフレーム情報データＩＮＦholdとする。
ＩＮＦtar-sync＝ＩＮＦhold
【００４４】
例えば、図８に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝"１"となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ１を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び正弦波非調波成分ＳＩＮtsr-syncとなる（ステップＳ１６）。
【００４５】
また、図８に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝"２"となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ２を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び正弦波非調波成分ＳＩＮtsr-syncとなる（ステップＳ１６）。
【００４６】
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１２；Ｎｏ）、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化しているか否かを判別する（ステップＳ１３）。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化している場合には（ステップＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）であるか否かを判別する（ステップＳ１９）。
例えば、図８に示すように、タイミングｔ3においてターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ-1＝ｔ2〜ｔ3においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｕ）となっている。
【００４７】
ステップＳ１９の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）となっている場合には（ステップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝"２"とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向（forward）に存在するフレームのターゲットフレーム情報とする。
例えば、図８に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝"２"とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データforwardとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝"０"であるか否かを判別して（ステップＳ１５）、以下、同様の処理を行う。
【００４８】
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化していない場合には（ステップＳ１３；Ｎｏ）、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判別する（ステップＳ１４）。
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、かつ、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅｓ）、シンクロナイゼーションモード＝"０"とし、置換用ターゲットフレーム情報データＩＮＦholdを初期化（clear）し、処理をステップＳ１５に移行して、以下、同様の処理を行う。
【００４９】
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化せず、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に移行し、以下同様の処理を行う。
【００５０】
このようにして、正弦波調波成分処理部９は、イージーシンクロナイゼーション処理部１２から入力された置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波調波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）及び図示せぬコントローラから入力される正弦波調波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)を生成する。
【００５１】
すなわち、新規アンプ成分Ａnewについては、次式により生成する。
Ａnew＝Ａ*-sta＋Ａ*-vib（ただし、*は、me又はtar-sync）
より具体的には、新規アンプ成分Ａnewを元属性データの平均アンプ静的成分Ａme-staあるいはターゲット属性データの平均アンプ静的成分Ａtar-sync-staのいずれか一方及び元属性データの平均アンプビブラート的成分Ａme-vibあるいはターゲット属性データの平均アンプビブラート的成分Ａtar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規ピッチ成分Ｐnewについては、次式により生成する。
Ｐnew＝Ｐ*-sta＋Ｐ*-vib（ただし、*は、me又はtar-sync）
【００５２】
より具体的には、図８（Ｄ）に示すように、新規ピッチ成分Ｐnewを元属性データのピッチ静的成分Ｐme-staあるいはターゲット属性データのピッチ静的成分Ｐtar-sync-staのいずれか一方及び元属性データのピッチビブラート的成分Ｐme-vibあるいはターゲット属性データのピッチビブラート的成分Ｐtar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規スペクトラル・シェイプＳnew(f)については、次式により生成する。
Ｓnew(f)＝Ｓ*(f)（ただし、*は、me又はtar-sync）
【００５３】
さて、属性変換部１０は、このようにして正弦波調波成分処理部９において生成された新属性データINFnewに基づいて、必要に応じて振幅やピッチ、スペクトラル・シェープを変更するなどの属性変形を施し、新たな正弦波調波成分ＳＩＮhar-newを生成し、逆ＦＦＴ処理部１６へ供給するとともに、属性変換情報ＡＴＲinfを正弦波非調波成分処理部１４へ供給する。
【００５４】
ここで、正弦波非調波成分処理部１４について説明する。正弦波非調波成分処理部１４には、前述のように、歌唱者(me)の音声信号Ｓｖの正弦波非調波成分ＳＩＮinhar-me、正弦波調波処理部９における音声変換処理に関する情報ＳＩＮhar-inf、属性変換部１０から属性変換に関する情報ＡＴＲinf、およびイージーシンクロナイゼーション処理部１３から出力される置換済ターゲットフレーム情報データINFtar-syncが入力されている。
【００５５】
正弦波非調波成分処理部１４は、正弦波調波成分に施した処理と同様の処理、あるいは従来の残差成分に対して施した処理と同様の処理を行うことによって、歌唱者(me)の音声信号の正弦波非調波成分ＳＩＮinhar-meを、置換済ターゲットフレーム情報データINFtar-syncに基づいて変形した新たな正弦波非調波成分ＳＩＮinhar-newを生成して信号処理部１５に供給する。
【００５６】
すなわち、正弦波非調波成分ＳＩＮinhar-meを構成するピーク成分（図５（ｃ）参照）から生成された平均アンプやスペクトラル・シェイプなどの属性データを、置換済ターゲットフレーム情報データINFtar-syncから生成された属性データに基づいて変形した新たな属性データを生成し、さらに、生成した属性データを変形することによって新たな正弦波非調波成分ＳＩＮinhar-newを生成する（図６に示すＳ２０７、Ｓ２０８参照）。
【００５７】
また、正弦波非調波成分ＳＩＮinhar-meを、正弦波の合成であるピーク成分としてではなく残差成分として処理する場合は、正弦波調波処理部９における音声変換処理に関する情報ＳＩＮhar-infに基づいて、歌唱者(me)の正弦波非調波成分ＳＩＮinhar-meあるいは置換済ターゲットフレーム情報データINFtar-syncのいずれを残差成分として使用するかについてを決定し、新正弦波非調波成分ＳＩＮinhar-newとする。
【００５８】
次に、信号処理部１５について説明する。信号処理部１５は、最終的に正弦波調波成分と正弦波非調波成分とを合成して出力される音声の自然性が損なわれることを減少するために、信号処理情報INFproに従って、新正弦波非調波成分ＳＩＮinhar-newに信号処理を施のもである。
すなわち、正弦波非調波成分処理部１４から入力される新正弦波非調波成分ＳＩＮinhar-newにもピッチおよび倍音成分（ピッチ成分）が含まれる場合があり、新正弦波調波成分ＳＩＮhar-newのピッチＰnewと当該ピッチ成分が異なる場合には、合成して出力される音声信号には異なる複数のピッチが混在することになる。
そこで、本実施形態においては、正弦波調波成分処理部９、属性変換部１０、および正弦波非調波成分処理部１４における処理（以下、これらの処理の結果を示す情報を信号処理情報INFproとする）に応じて不要なピッチ成分を信号処理部１５において取り除くものとしている。
不要なピッチ成分を取り除くためには、具体的には、図１０に示すように変換処理後の新正弦波調波成分ＳＩＮhar-newと新正弦波非調波成分ＳＩＮinhar-newとを畳み込む処理、あるいは、図１１に示すように新正弦波非調波成分ＳＩＮinhar-newに含まれるピッチ成分をくし形フィルタによってフィルタリングする処理を行う。
【００５９】
ここで、図１２は信号処理部１５の詳細構成を示す図である。図１２に示すように、入力選択部１５１、畳み込み処理部１５２、くし形フィルタ処理部１５３、および出力選択部１５４を備えて構成されている。
【００６０】
入力選択部１５１は、正弦波非調波成分処理部１４から出力された新正弦波非調波成分ＳＩＮinhar-newの入力先を、畳み込み処理部１５２、くし形フィルタ処理部１５３、および出力選択部１５４のいずれかから選択するものである。
ここでは、信号処理情報INFproに基づいて、不要なピッチ成分を取り除く必要がないと判別した場合は、新正弦波非調波成分ＳＩＮinhar-newに対して信号処理を施す必要がないので、新正弦波非調波成分ＳＩＮinhar-newを出力選択部１５４にそのまま入力するように選択する。
一方、不要なピッチ成分を取り除く必要があると判別した場合は、畳み込み処理部１５２あるいはくし形フィルタ処理部１５３のいずれかを選択する。
出力選択部１５４は、信号処理情報INFproに基づいて、畳み込み処理部１５２あるいはくし形フィルタ処理部１５３によって処理された信号、あるいは、処理されなかった信号のいずれを出力正弦波非調波成分ＳＩＮinhar-new'として出力するかを選択するものである。
【００６１】
次に、図１０および図１２を参照して、畳み込み処理について説明する。畳み込み処理とは、図１０に示すように、新正弦波調波成分ＳＩＮhar-newの成分（ピッチ及び倍音成分あるいはスペクトラル・シェイプ）をパラメータとし、該パラメータと新正弦波非調波成分ＳＩＮinhar-newとを畳み込み演算することによって、新正弦波非調波成分ＳＩＮinhar-newを出力正弦波非調波成分ＳＩＮinhar-new'に変換する処理である。
【００６２】
まず、図１０（ａ）は、新正弦波調波成分ＳＩＮhar-newおよびそのスペクトラル・シェイプＳnew(f)を示しており、（ｂ）は、新正弦波非調波成分ＳＩＮinhar-newを示している。
本実施形態では、まず、畳み込み処理のパラメータに用いる成分として、新正弦波調波成分ＳＩＮhar-newのピッチＰnewおよびその倍音成分、あるいは、スペクトラル・シェイプＳnew(f)のいずれかから選択することができる。
畳み込み成分処理部１５２は、まず、畳み込み処理のパラメータに用いる成分を決定し、（１５２ａ）、次に、新正弦波調波成分ＳＩＮhar-newの各周波数をその周波数軸上における最大値で正規化する（１５２ｂ）。
そして、正規化されて得られたパラメータと新正弦波非調波成分ＳＩＮinhar-newとで畳み込み演算を行う（１５２ｃ）。
【００６３】
図１０（ｃ）は、ピッチＰnewおよび倍音成分の各周波数をその周波数軸上における最大値で正規化して得られたパラメータを示しており、（ｅ）は、（ｂ）に示す新正弦波非調波成分ＳＩＮinhar-newと（ｃ）に示すパラメータとを畳み込み演算して得られる成分を示している。
また、図１０（ｄ）は、スペクトラル・シェイプＳnew(f)のブレークポイントとなる各周波数をその周波数軸上における最大値で正規化して得られたパラメータを示しており、（ｆ）は、（ｂ）に示す新正弦波非調波成分ＳＩＮinhar-newと（ｄ）に示すパラメータとを畳み込み演算して得られる成分を示している。
【００６４】
このようにして生成された出力正弦波非調波成分ＳＩＮinhar-new'は、新正弦波調波成分ＳＩＮhar-newに応じたピッチ及び倍音成分、あるいは、スペクトラル・シェイプＳnew(f)に応じた、周波数エンベロープを有するものとなる。
【００６５】
次に、図１１および図１２を参照して、くし形フィルタ処理について説明する。くし形フィルタ処理とは、図１１に示すように、新正弦波非調波成分ＳＩＮinhar-newに含まれるピッチ成分を取り除くために、当該ピッチをパラメータ（くし形フィルタピッチ）とし、新正弦波非調波成分ＳＩＮinhar-newをフィルタリングする処理である。なお、図１１は、新正弦波調波成分ＳＩＮhar-newのピッチＰnewをパラメータとした場合のくし形フィルタの特性を示す１例である。
くし形フィルタ処理部１５３は、まずくし形フィルタピッチを決定する（１５３ａ）。ここでは、例えば、新正弦波非調波成分ＳＩＮinhar-newとして歌唱者（me）の正弦非波調波成分ＳＩＮinhar-meが選択されている場合は、新正弦波調波成分ＳＩＮhar-newのピッチＰnewとは異なるピッチＰmeが含まれているので、くし形フィルタピッチはＰmeとする。逆に、ものまねの対象（Target）の正弦非波調波成分ＳＩＮinhar-tarが選択されている場合にはＰtarとなる。歌唱者（me）とものまねの対象（Target）の正弦非波調波成分を任意の比率で補完した場合には、同じ比率で補完してできるピッチとなる。
あるいは、正弦波調波成分と同様の変換処理がなされた場合には、変換処理後のピッチとなる。
そして、決定したくし形フィルタピッチの整数倍の周波数を取り除く処理を行う（１５３ｂ）。
このようにして生成された出力正弦波非調波成分ＳＩＮinhar-new'は、新正弦波調波成分ＳＩＮhar-newとは異なるピッチ成分が取り除かれるので、新正弦波調波成分ＳＩＮhar-newと合成した場合でも音声の自然性は損なわれなくなる。
【００６６】
そして、信号処理部１５の出力選択部１５４からは、上記信号処理された（または未処理の）出力正弦波非調波成分ＳＩＮinhar-new'が逆ＦＦＴ処理部１６に出力される。
逆ＦＦＴ処理部１６は、属性変換部１０から出力された新正弦波調波成分ＳＩＮhar-newおよび出力正弦波非調波成分ＳＩＮinhar-new'を周波数軸上で加算した後、逆ＦＦＴ変換し、クロスフェーダ１７へ供給する。
【００６７】
次にクロスフェーダ１７は、元無声／有声検出信号Ｕ／Ｖme(t)に基づいて、入力音声信号Ｓvが無声（Ｕ）である場合には、入力音声信号Ｓvをそのままミキサ２０に出力する。
また、入力音声信号Ｓvが有声（Ｖ）である場合には、逆ＦＦＴ処理部１６が出力した変換音声信号をミキサ２０に出力する。
この場合において、切替スイッチとしてクロスフェーダ１７を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００６８】
一方、シーケンサ１８は、カラオケの伴奏音を発生するための音源制御情報を例えば、ＭＩＤＩ（Musical Instrument Digital Interface）データなどとして音源部１９に出力する。
これにより音源部１９は、音源制御情報に基づいて伴奏信号を生成し、ミキサ２０に出力する。
ミキサ２０は、入力音声信号Ｓvあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部２１に出力する。
出力部２１は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００６９】
Ｃ．変形例
なお、本発明は既述した実施形態に限定されるものではなく、以下のような各種の変形が可能である。
【００７０】
以上の説明においては、属性データとしては、元属性データINFmeあるいはターゲット属性データ（置換済ターゲットフレーム情報データINFtar-sync）のいずれかを選択的に用いる構成としていたが、元属性データ及びターゲット属性データの双方を用い、補間処理を行うことにより中間的な属性を有する変換音声信号を得るように構成することも可能である。
しかしながら、このような構成によれば、ものまねをしようとする歌唱者及びものまねの対象（target）となる歌唱者のいずれにも似ていない変換音声が得られる場合もある。
また、特にスペクトラル・シェイプを補間処理によって求めた場合には、ものまねをしようとする歌唱者が「あ」を発音し、ものまねの対象となる歌唱者が「い」を発音している場合などには、「あ」でも「い」でもない音が変換音声として出力される可能性があり、その取扱には注意が必要である。
【００７１】
また、ピーク成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
本実施形態においては、ターゲットの正弦波調波成分及び正弦波非調波成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波調波成分及び正弦波非調波成分を抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
【００７２】
本実施形態においては、属性データとして、ピッチ、アンプ、スペクトラル・シェイプの全てを取り扱ったが、少なくともいずれか一つを扱うようにすることも可能である。
【００７３】
また、上記実施形態においては、属性変換部１０から出力される新正弦波調波成分ＳＩＮhar-newと、信号処理部１５から出力される出力正弦波非調波成分ＳＩＮinhar-new'とを合成するものとしているが、これに限らず、合成するか否かを選択できるようにしてもよい。
また、コントローラを設けて、選択に関する設定など各種設定をユーザが行うようにしてもよい。
【００７４】
【発明の効果】
以上、説明したように、この発明によれば、音声変換に用いるデータの取り扱いを容易にするとともに、情報量を削減しつつ、声質を目標（ターゲット）とする歌唱者の声や歌い方に似させることができる。
【図面の簡単な説明】
【図１】本発明の実施形態の構成を示すブロック図である。
【図２】実施形態におけるフレームの状態を示す図である。
【図３】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図４】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図５】本実施形態の概念を説明する図である。
【図６】正弦波調波成分処理部における処理を示すフローチャートである。
【図７】正弦波調波成分を示す図である。
【図８】イージーシンクロナイゼーション処理のタイミングチャートである。
【図９】イージーシンクロナイゼーション処理フローチャートである。
【図１０】畳み込み処理を説明する図である。
【図１１】基本周波数２００Ｈｚとした場合のくし形フィルタ処理を説明する図である。
【図１２】信号処理部の構成を示すブロック図である。
【符号の説明】
１……マイク
２……分析窓生成部
３……入力音声信号切出部
４……高速フーリエ変換部
５……ピーク検出部
６……無声／有声検出部
７……ピッチ検出部
８……分析部
９……正弦波調波成分処理部
１０……属性変換部
１１……ターゲットフレーム情報保持部
１２……キーコントロール／テンポチェンジ部
１３……イージーシンクロナイゼーション処理部
１４……正弦波非調波成分処理部
１６……逆ＦＦＴ処理部
１７……クロスフェーダ
１８……シーケンサ
１９……音源部
２０……ミキサ
１５１……入力選択部
１５２……畳み込み処理部
１５３……くし形フィルタ処理部
１５４……出力選択部

Claims

入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピーク毎に周波数と振幅を抽出するピーク検出手段と、
前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出手段と、
前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する調波成分抽出手段と、
前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する非調波成分抽出手段と、
前記調波成分に該当するローカルピークの周波数と振幅を変形する調波成分変形手段と、
前記非調波成分に該当するローカルピークの周波数と振幅を変形する非調波成分変形手段と、
前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する合成手段と
を具備することを特徴とする音声変換装置。
請求項１に記載の音声変換装置において、
音声変換の対象となる変換用音声信号の成分である変換対象調波成分および変換対象非調波成分を保持する保持手段を具備し、
前記調波成分変形手段は、前記変換対象調波成分に基づいて前記調波成分に該当するローカルピークの周波数と振幅を変形し、
前記非調波成分変形手段は、前記変換対象非調波成分に基づいて前記非調波成分に該当するローカルピークの周波数と振幅を変形すること
を特徴とする音声変換装置。
請求項１または２に記載の音声変換装置において、
前記非調波成分変形手段は、前記非調波成分から抽出された属性データを変形することによって前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする音声変換装置。
請求項２に記載の音声変換装置において、
前記非調波成分変形手段は、前記非調波成分あるいは前記変換対象非調波成分のいずれか一方を前記変形された非調波成分とすること
を特徴とする音声変換装置。
請求項１または２に記載の音声変換装置において、
前記非調波成分変形手段により変形された非調波成分のピッチ成分およびその倍音成分を除去する除去手段
を具備することを特徴とする音声変換装置。
請求項１または２に記載の音声変換装置において、
前記調波成分変形手段により変形された調波成分と、前記非調波成分変形手段により変形された非調波成分とを畳み込み演算する畳み込み処理手段
を具備することを特徴とする音声変換装置。
入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピークごとに周波数と振幅を抽出するピーク検出する段階と、
前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出する段階と、
前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する段階と、
前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する段階と、
前記調波成分に該当するローカルピークの周波数と振幅を変形する段階と、
前記非調波成分に該当するローカルピークの周波数と振幅を変形する段階と、
前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する段階と
を備えることを特徴とする音声変換方法。