JP3934793B2

JP3934793B2 - 音声変換装置及び音声変換方法

Info

Publication number: JP3934793B2
Application number: JP17191098A
Authority: JP
Inventors: 啓嘉山; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-18
Filing date: 1998-06-18
Publication date: 2007-06-20
Anticipated expiration: 2018-06-18
Also published as: JP2000010596A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声変換装置及び音声変換方法に係り、特にカラオケ等で歌唱者の歌声が、音声変換の対象となる特定の歌唱者の歌声になるように、また歌声を別人が歌っているように変換する音声変換装置及び音声変換方法に関する。
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある（例えば、特表平８−５０８５８１号公報参照）。
【０００２】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換（例えば、男声→女声、女声→男声など）は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者（例えば、プロの歌手）の声に似せるように変換するということはできなかった。
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であった。
【０００３】
これらを解決するための手法として、音声信号を正弦波の合成で表す正弦波（ＳＩＮ）成分と、それ以外の正弦波成分で表すことができない残差（ＲＥＳＩＤＵＡＬ）成分とで表す信号処理により、歌唱者の音声信号（正弦波成分、残差成分）に、音声変換の対象となる特定の歌唱者の音声信号（正弦波成分、残差成分）に基づいて変形させ、ものまね対象となる声質や歌い方が反映された音声信号を作成し、伴奏とともに出力する音声変換装置が考えられる。
【０００４】
このような音声変換装置を構成した場合、残差成分には、ピッチ成分が含まれるため、正弦波成分と残差成分とをそれぞれ音声変換処理して合成すると、聴取者は、正弦波成分及び残差成分の各々に含まれるピッチ成分を聴取することとなる。
従って、正弦波成分及び残差成分の各々に含まれるピッチ成分が異なる周波数の場合には、音声変換処理された音声の自然性が損なわれてしまうと可能性がある。
そこで、本発明の目的は、音声の自然性を損なうことなく、音声変換することができる音声変換装置及び音声変換方法を提供することにある。
【０００５】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の音声変換装置の構成は、入力された音声信号から正弦波成分を抽出する正弦波成分抽出手段と、前記正弦波成分抽出手段により抽出された前記正弦波成分以外の残差成分を前記音声信号から抽出する残差成分抽出手段と、音声変換の対象となる変換用音声信号の正弦波成分及び残差成分を保持する保持手段と、前記正弦波成分抽出手段により抽出された正弦波成分を、前記保持手段に保持されている前記変換用音声信号の正弦波成分に基づいて変形し、新規正弦波成分を生成する新規正弦波成分生成手段と、前記残差成分抽出手段により抽出された残差成分を、前記保持手段に保持されている変換用音声信号の残差成分に基づいて変形し、新規残差成分を生成する新規残差成分生成手段と、前記新規残差成分生成手段により生成された新規残差成分に、前記新規正弦波成分生成手段により生成された新規正弦波成分を畳み込み処理する畳み込み処理手段と、前記新規正弦波成分生成手段により生成された新規正弦波成分と、前記畳み込み処理手段により畳み込み処理された新規残差成分とを合成する合成手段とを具備することを特徴としている。
【０００６】
請求項２記載の音声変換装置の構成は、請求項１記載の構成において、正弦波成分のピッチ及び倍音成分、または正弦波成分の周波数エンベロープのいずれかを、前記新規残差成分に畳み込む前記新規正弦波成分の要素として選択的に決定する畳み込み成分決定手段を具備することを特徴としている。
【０００７】
請求項３記載の音声変換装置の構成は、請求項２記載の構成において、前記畳み込み成分決定手段により決定された前記新規正弦波成分の要素を正規化する正規化手段を具備することを特徴としている。
【０００８】
請求項４記載の音声変換装置の構成は、請求項１記載の構成において、前記畳み込み処理手段は、前記新規残差成分を時間軸上で保持する場合には、前記新規正弦波成分生成手段により生成された新規正弦波成分の畳み込み処理に用いる要素を前記正規化手段により正規化し、そのインパルス応答を算出するインパルス応答算出手段を具備し、前記新規残差成分生成手段により生成された新規残差成分と前記インパルス応答算出手段により算出されたインパルス応答とを畳み込み演算することを特徴としている。
【０００９】
請求項５記載の音声変換方法は、入力された音声から正弦波成分を抽出する正弦波成分抽出工程と、前記正弦波成分抽出工程において抽出された前記正弦波成分以外の残差成分を、前記音声から抽出する残差成分抽出工程と、音声変換の対象となる変換用音声の正弦波成分及び残差成分を保持する保持工程と、前記正弦波成分抽出工程において抽出された正弦波成分を、前記保持されている前記変換用音声の正弦波成分に基づいて変形し、新規正弦波成分を生成する新規正弦波成分生成工程と、前記残差成分抽出工程において抽出された残差成分を、前記保持されている変換用音声信号の残差成分に基づいて変形し、新規残差成分を生成する新規残差成分生成工程と、前記新規残差成分生成工程において生成された新規残差成分に前記新規正弦波成分生成工程において生成された新規正弦波成分を畳み込み演算する畳み込み処理工程と、前記新規正弦波成分生成工程において生成された新規正弦波成分と、前記畳み込み処理工程において畳み込み処理された新規残差成分とを合成する合成工程と、を具備することを特徴としている。
【００１０】
本発明によれば、入力された音声信号から抽出した正弦波成分と、残差成分を、保持されている変換用音声信号の正弦波成分または残差成分に基づいて各々変形する。
次いで、変形された残差成分及び変形された正弦波成分を畳み込み演算した後、変形された正弦波成分と、畳み込み処理された残差成分とを合成する。
したがって、合成される残差成分は、正弦波成分のピッチ及び倍音成分に応じたピッチ及び倍音成分を有するか、あるいは、正弦波成分の周波数エンベロープに応じた周波数エンベロープを有するものとなり、最終的には、正弦波成分のピッチ成分のみが聴取されることになり、音声の自然性を向上させることが可能となる。
【００１１】
【発明の実施の形態】
次に図面を参照してこの発明の実施形態について説明する。
［１］実施形態の概要処理
始めに、実施形態の概要処理について説明する。
図１は、本実施形態による音声変換装置の要部の概要処理を説明するための図である。
［１．１］ステップＳ１
まず、ものまねをしようとする歌唱者（me）の音声（入力音声信号）をリアルタイムでＦＦＴ（Fast Fourie Transform）を含むＳＭＳ（Spectral Modeling Synthesis）分析を行い、フレーム単位で正弦波成分（Sine成分）を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分（Residual成分）を生成する。この場合において、ＳＭＳ分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
抽出された正弦波成分は、図１（ａ）に示すようなスペクトル特性となり、抽出された残差成分Ｒme(f)は、図１（ｂ）に示すようなスペクトル特性となる。
【００１２】
［１．２］ステップＳ２
続いて歌唱者の音声信号の正弦波成分は、予め格納されているものまねの対象となる歌唱者（target）の音声信号の正弦波成分に基づいて変形され、新たな正弦波成分が生成される。
［１．３］ステップＳ３
音声変換処理を施された正弦波成分は、必要に応じて振幅を変更するなどの属性変形が施される。こうして出力正弦波成分が生成される。
【００１３】
［１．４］ステップＳ４
さらに、歌唱者の音声信号の残差成分は、音声変換の対象となる歌唱者（target）の音声信号の残差成分に基づいて変形され、新たな残差成分が生成される。
［１．５］ステップＳ５
これらと並行して、ステップＳ４の処理により得られた新たな残差成分の（以下、新規残差成分という）との畳み込みを行うための出力正弦波成分の要素（ピッチ及び倍音成分、またはその周波数エンベロープ）のうち、どの要素を畳み込みに用いるかを決定する。
【００１４】
［１．６］ステップＳ６
そして、決定された畳み込みに用いる正弦波成分の要素を、その周波数軸上における最大値で正規化する。
例えば、ピッチ及び倍音成分を畳み込みに用いる場合には、畳み込み正弦波成分は、図１（ｃ）に示すように正規化される。また、周波数エンベロープを畳み込みに用いる場合には、畳み込み正弦波成分は、図１（ｄ）に示すように正規化される。
【００１５】
［１．７］ステップＳ７
次に、正規化された畳み込み正弦波成分及び新規残差成分が畳み込まれ、正弦波成分の周波数特性に応じた周波数特性を有する畳み込み処理された残差成分が生成される。
例えば、ピッチ及び倍音成分と新規残差成分とが畳み込まれた場合には、図１（ｅ）に示すように、正弦波成分のピッチ及び倍音成分に応じた、ピッチ及び倍音成分を有する出力残差成分となる。
また、周波数エンベロープと新規残差成分とが畳み込まれた場合には、図１（ｆ）に示すように、正弦波成分の周波数エンベロープに応じた、周波数エンベロープを有する出力残差成分となる。
【００１６】
［１．８］ステップＳ８
属性変形が施された出力正弦波成分と、畳み込み処理が施された出力残差成分とを加算して逆高速フーリエ変換を行い、変換音声信号を得る。
［１．９］まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、物まねをしようとする歌唱者の歌声が、あたかも、別の歌唱者（ターゲットの歌唱者）が歌った歌声のようになる。
この場合において、出力残差成分のピッチ成分及びその倍音成分、または周波数エンベロープが正弦波成分と同様のものになるので、最終的には、正弦波成分のピッチ成分のみが聴取されることになり、音声の自然性を損なうことがない。
【００１７】
［２］実施形態の詳細構成
図２及び図３に、実施形態の構成図を示す。なお、本実施形態は、本発明による音声変換装置（音声変換方法）をカラオケ装置に適用し、ものまねを行うことができるカラオケ装置として構成した場合の例である。
図２において、マイク１は、ものまねをしようとする歌唱者（me）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
これと並行して、分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
これらにより入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓvとを掛け合わせ、入力音声信号Ｓvをフレーム単位で切り出し、フレーム音声信号ＦＳvとして高速フーリエ変換部４に出力される。
【００１８】
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図４に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
そして、高速フーリエ変換部４においてフレーム音声信号ＦＳvは、解析処理されるとともに、図５に示すように、高速フーリエ変換部４の出力である周波数スペクトルからピーク検出部５によりローカルピークが検出される。
より具体的には、図５に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
すなわち、図５に示すように、（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各フレームについてローカルピークが検出され、表されることとなる。
【００１９】
そして、図４に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）として無声／有声検出部６及びピーク連携部８に出力される。
無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（‘ｔ’、‘ｋ’等）し、無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（‘ｓ’等）し、元無声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ３０に出力する。
【００２０】
さらに無声／有声検出部６は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰmeを検出する。
より具体的なフレームのピッチＰmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"（Journal of Acounstical Society of America95(4):2254-2263）に開示されているような方法で行う。
【００２１】
次に、ピーク検出部５から出力されたローカルピーク組は、ピーク連携部８において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図６を参照して説明する。
今、図６（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図６（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
【００２２】
この場合、ピーク連携部８は、前回のフレームで検出された各ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図６の例では、ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ＦＫ、ＡＫ）については（図６（Ａ）参照）、対応するローカルピーク（図６（Ｂ）参照）は検出されていない。
【００２３】
ピーク連携部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図７は、複数のフレームにわたるローカルピークの周波数Ｆ０及び周波数Ｆ１の変化の一例を示している。
このような変化は、アンプ（振幅）Ａ０、Ａ１、Ａ２、……についても同様に認められる。この場合、ピーク連携部８から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
【００２４】
なお、ピーク連携部８から出力されるピーク値を、以後において、確定成分という。これは、元の信号（すなわち、音声信号Ｓｖ）のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波（厳密には、正弦波のパラメータである周波数及びアンプ（振幅））の各々については、正弦波成分と呼ぶことにする。
次に、補間合成部９は、ピーク連携部８から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部３４が出力する最終出力信号のサンプリングレート（例えば、４４．１ＫＨｚ）に対応した間隔で行われる。前述した図７に示す実線は、正弦波成分の周波数Ｆ０、Ｆ１について補間処理が行われた場合のイメージを示している。
【００２５】
［２．１］補間合成部の構成
ここで、補間合成部９の構成を図８に示す。
補間合成部９は、複数の部分波形発生部９ａを備えて構成されており、各部分波形発生部９ａは、指定された正弦波成分の周波数（Ｆ０、Ｆ１、…）及びアンプ（振幅）に応じた正弦波を発生する。ただし、本第１実施形態における正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部９ａから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部８からは正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部９ａは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部９ａから出力された波形は、加算部９ｂにおいて加算合成される。したがって、補間合成部９の出力信号は、入力音声信号Ｓｖから確定成分を抽出した正弦波成分合成信号ＳSSになる。
【００２６】
［２．２］残差成分検出部の動作
次に、残差成分検出部１０は、補間合成部９から出力された正弦波成分合成信号ＳSSと入力音声信号Ｓｖとの偏差である残差成分信号ＳRD（時間波形）を生成する。この残差成分信号ＳRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号ＳSSは有声成分に対応するものである。
ところで、目標（Target）となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
そこで、本実施形態においては、有声母音成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号ＳRDについては、高速フーリエ変換部１１で、周波数波形に変換し、得られた残差成分信号（周波数波形）をＲme(f)として残差成分保持部１２に保持しておく。
【００２７】
［２．３］平均アンプ演算部の動作
一方、図９（Ａ）に示すように、ピーク検出部５からピーク連携部８を介して出力された正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（Ｆ(N-1)、Ａ(N-1)）のＮ個の正弦波成分（以下、これらをまとめてＦｎ、Ａｎと表記する。ｎ＝０〜（Ｎ−１）。）は、正弦波成分保持部１３に保持されるとともに、アンプＡｎは平均アンプ演算部１４に入力され、各フレーム毎に次式により平均アンプＡmeが算出される。
Ａme＝Σ（Ａｎ）／Ｎ
［２．４］アンプ正規化部の動作
次にアンプ正規化部１５において、次式により各アンプＡｎを平均アンプＡmeで正規化し、正規化アンプＡ’ｎを求める。
Ａ’ｎ＝Ａｎ／Ａme
【００２８】
［２．５］スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部１６において、図９（Ｂ）に示すように、周波数Ｆｎ及び正規化アンプＡ’ｎにより得られる正弦波成分（Ｆｎ、Ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳme(f)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
［２．６］ピッチ正規化部の動作
続いてピッチ正規化部１７においては、各周波数Ｆｎをピッチ検出部７において検出したピッチＰmeで正規化し、正規化周波数Ｆ’ｎを求める。
Ｆ’ｎ＝Ｆｎ／Ｐme
これらの結果、元フレーム情報保持部１８は、入力音声信号Ｓvに含まれる正弦波成分に対応する元属性データである平均アンプＡme、ピッチＰme、スペクトラル・シェイプＳme(f)、正規化周波数Ｆ’ｎを保持することとなる。
なお、この場合において、正規化周波数Ｆ’ｎは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
この場合において、男声／女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声／女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部１８に保持している元属性データのうち、平均アンプＡme及びピッチＰmeについては、さらに静的変化／ビブラート的変化分離部１９により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
より具体的には、平均アンプＡmeを平均アンプ静的成分Ａme-sta及び平均アンプビブラート的成分Ａme-vibとに分離して保持する。
また、ピッチＰmeをピッチ静的成分Ｐme-sta及びピッチビブラート的成分Ｐme-vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データＩＮＦmeは、図９（Ｃ）に示すように、入力音声信号Ｓvの正弦波成分に対応する元属性データである平均アンプ静的成分Ａme-sta、平均アンプビブラート的成分Ａme-vib、ピッチ静的成分Ｐme-sta、ピッチビブラート的成分Ｐme-vib、スペクトラル・シェイプＳme(f)、正規化周波数Ｆ’ｎ及び残差成分Ｒme（ｆ）の形で保持されることとなる。
【００２９】
一方、ものまねの対象（target）となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データＩＮＦtarは、予め分析されてターゲットフレーム情報保持部２０を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データＩＮＦtarのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Ａtar-sta、平均アンプビブラート的成分Ａtar-vib、ピッチ静的成分Ｐtar-sta、ピッチビブラート的成分Ｐtar-vib、スペクトラル・シェイプＳtar(f)がある。
また、ターゲットフレーム情報データＩＮＦtarのうち、残差成分に対応するターゲット属性データとしては、残差成分Ｒtar(f)がある。
【００３０】
［２．７］キーコントロール／テンポチェンジ部の動作
次にキーコントロール／テンポチェンジ部２１は、シーケンサ３１からの同期信号ＳSYNCに基づいて、ターゲットフレーム情報保持部２０から同期信号ＳSYNCに対応するフレームのターゲットフレーム情報ＩＮＦtarの読出処理及び読み出したターゲットフレーム情報データＩＮＦtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報ＩＮＦtar及び当該フレームが無声であるか有声であるかを表すターゲット無声／有声検出信号Ｕ／Ｖtarを出力する。
より具体的には、キーコントロール／テンポチェンジ部２１の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、５０［cent］だけキーを上げた場合には、ピッチ静的成分Ｐtar-sta及びピッチビブラート的成分Ｐtar-vibについても５０［cent］だけ上げなければならない。
【００３１】
また、キーコントロール／テンポチェンジ部２１の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データＩＮＦtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データＩＮＦtarを読み出し、これら二つのターゲットフレーム情報データＩＮＦtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データＩＮＦtar、ひいては、ターゲット属性データを生成する。
【００３２】
この場合において、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３３】
［２．８］イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部２２は、ものまねをしようとする歌唱者のフレーム（以下、元フレームという。）に元フレーム情報データＩＮＦmeが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム（以下、ターゲットフレームという。）にターゲットフレーム情報データＩＮＦtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データＩＮＦtarを当該ターゲットフレームのターゲットフレーム情報データＩＮＦtarとするイージーシンクロナイゼーション処理を行う。
【００３４】
そして、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）を正弦波成分属性データ選択部２３に出力する。
また、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒtar-sync(f)）を残差成分選択部２５に出力する。
【００３５】
このイージーシンクロナイゼーション処理部２２における処理においても、ビブラート的成分（平均アンプビブラート的成分Ａtar-vib及びピッチビブラート的成分Ｐtar-vib）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３６】
［２．８．１］イージーシンクロナイゼーション処理の詳細
ここで、図１０及び図１１を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図１０は、イージーシンクロナイゼーション処理のタイミングチャートであり、図１１はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部２２は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード＝“０”とする（ステップＳ１１）。このシンクロナイゼーションモード＝“０”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtarが存在する通常処理の場合に相当する。
【００３７】
そしてあるタイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化したか否かを判別する（ステップＳ１２）。
例えば、図１０に示すように、タイミングｔ＝ｔ1においては、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している。
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）であるか否かを判別する（ステップＳ１８）。
例えば、図１０に示すように、タイミングｔ＝ｔ0（＝ｔ1-1）においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている。
【００３８】
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている場合には（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向（Backward）に存在するフレームのターゲットフレーム情報とする。
【００３９】
例えば、図１０に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの後方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データbackwardとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別する（ステップＳ１５）。
【００４０】
ステップＳ１５の判別において、シンクロナイゼーションモード＝“０”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncをターゲットフレーム情報データＩＮＦtar(t)とする。
ＩＮＦtar-sync＝ＩＮＦtar(t)
例えば、図１０に示すようにタイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、
ＩＮＦtar-sync＝ＩＮＦtar(t)
とする。
【００４１】
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)）は実質的には、以下の内容となる（ステップＳ１６）。
Ａtar-sync-sta＝Ａtar-sta
Ａtar-sync-vib＝Ａtar-vib
Ｐtar-sync-sta＝Ｐtar-sta
Ｐtar-sync-vib＝Ｐtar-vib
Ｓtar-sync(f)＝Ｓtar(f)
Ｒtar-sync(f)＝Ｒtar(f)
【００４２】
ステップＳ１５の判別において、シンクロナイゼーションモード＝“１”またはシンクロナイゼーションモード＝“２”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データＩＮＦtar-syncを置換用ターゲットフレーム情報データＩＮＦholdとする。
ＩＮＦtar-sync＝ＩＮＦhold
例えば、図１０に示すように、タイミングｔ＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝“１”となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ１を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)となる（ステップＳ１６）。
【００４３】
また、図１０に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在せず、シンクロナイゼーションモード＝“２”となるが、タイミングｔ＝ｔ2〜ｔ3のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在するので、置換済ターゲットフレーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦholdとする処理Ｐ２を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳtar-sync(f)及び残差成分Ｒtar-sync(f)となる（ステップＳ１６）。
【００４４】
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１２；Ｎｏ）、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化しているか否かを判別する（ステップＳ１３）。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化している場合には（ステップＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミングｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）であるか否かを判別する（ステップＳ１９）。
【００４５】
例えば、図１０に示すように、タイミングｔ3においてターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ-1＝ｔ2〜ｔ3においては、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｕ）となっている。
【００４６】
ステップＳ１９の判別において、元無声／有声検出信号Ｕ／Ｖme(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar(t-1)が有声（Ｖ）となっている場合には（ステップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用のターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向（forward）に存在するフレームのターゲットフレーム情報とする。
【００４７】
例えば、図１０に示すように、タイミングｔ＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレーム情報データＩＮＦtarが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用ターゲットフレーム情報データＩＮＦholdを当該ターゲットフレームの前方向に存在するフレーム（すなわち、タイミングｔ＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム情報データforwardとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別して（ステップＳ１５）、以下、同様の処理を行う。
【００４８】
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から無声（Ｕ）に変化していない場合には（ステップＳ１３；Ｎｏ）、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判別する（ステップＳ１４）。
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、かつ、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅｓ）、シンクロナイゼーションモード＝“０”とし、置換用ターゲットフレーム情報データＩＮＦholdを初期化（clear）し、処理をステップＳ１５に移行して、以下、同様の処理を行う。
【００４９】
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化せず、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に移行し、以下同様の処理を行う。
【００５０】
［２．９］正弦波成分属性データ選択部の動作
続いて、正弦波成分属性データ選択部２３は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐtar-sync-vib及びスペクトラル・シェイプＳtar-sync(f)）及びコントローラ２９から入力される正弦波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)を生成する。
【００５１】
すなわち、新規アンプ成分Ａnewについては、以下のように生成する。図９（Ｄ）に示すように、新規アンプ成分Ａnewを、元属性データの平均アンプ静的成分Ａ me-sta とターゲット属性データの平均アンプビブラート的成分Ａ tar-sync-vib の組み合わせ、あるいはターゲット属性データの平均アンプ静的成分Ａ tar-sync-sta と元属性データの平均アンプビブラート的成分Ａ me-vib の組み合わせとして生成する。
【００５２】
また、新規ピッチ成分Ｐnewについては、以下のように生成する。図９（Ｄ）に示すように、新規ピッチ成分Ｐnewを、元属性データのピッチ静的成分Ｐ me-sta とターゲット属性データのピッチビブラート的成分Ｐ tar-sync-vib の組み合わせ、あるいはターゲット属性データのピッチ静的成分Ｐ tar-sync-sta と元属性データのピッチビブラート的成分Ｐ me-vib の組み合わせとして生成する。また、新規スペクトラル・シェイプＳnew(f)については、次式により生成する。
Ｓnew(f)＝Ｓ*(f)（ただし、*は、me又はtar-sync）
【００５３】
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの明るい音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプＳnew(f)に関しては、このような状態をシミュレートすべく、図１２に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Ａnewの大きさに応じて補償するスペクトラルチルト補償（spectral tilt correction）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【００５４】
続いて、生成された新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)について、必要に応じてコントローラ２９から入力される正弦波成分属性データ変形情報に基づいて、属性データ変形部２４によりさらなる変形を行う。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変形を行う。
【００５５】
［２．１０］残差成分選択部の動作
一方、残差成分選択部２５は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒtar-sync(f)）、残差成分保持部１２に保持されている残差成分信号（周波数波形）Ｒme(f)及びコントローラ２９から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Ｒnew(f)を生成し、後述の畳み込み処理部３８に出力する。
【００５６】
すなわち、新規残差成分Ｒnew(f)については、次式により生成し、後述の畳み込み処理部３８に出力する。
Ｒnew(f)＝Ｒ*(f)（ただし、*は、me又はtar-sync）
この場合においては、me又はtar-syncのいずれを選択するかは、新規スペクトラル・シェイプＳnew(f)と同一のものを選択するのがより好ましい。
さらに、新規残差成分Ｒnew(f)に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図１２に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Ａnewの大きさに応じて補償するスペクトラルチルト補償（spectral tilt correction）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【００５７】
［２．１１］正弦波成分生成部の動作
続いて、正弦波成分生成部２６は、属性データ変形部２４から出力された変形を伴わない、あるいは、変形を伴う新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規スペクトラル・シェイプＳnew(f)に基づいて、当該フレームにおける新たな正弦波成分（Ｆ”０、Ａ”０）、（Ｆ”１、Ａ”１）、（Ｆ”２、Ａ”２）、……、（Ｆ”(N-1)、Ａ”(N-1)）のＮ個の正弦波成分（以下、これらをまとめてＦ”ｎ、Ａ”ｎと表記する。ｎ＝０〜（Ｎ−１）。）を求める。
より具体的には、次式により新規周波数Ｆ”ｎ及び新規アンプＡ”ｎを求める。
Ｆ”ｎ＝Ｆ’ｎ×Ｐnew
Ａ”ｎ＝Ｓnew(Ｆ”ｎ）×Ａnew
なお、完全倍音構造のモデルとして捉えるのであれば、
Ｆ”ｎ＝（ｎ＋１）×Ｐnew
となる。
【００５８】
［２．１２］正弦波成分変形部の動作
さらに、求めた新規周波数Ｆ”ｎ及び新規アンプＡ”ｎについて、必要に応じてコントローラ２９から入力される正弦波成分変形情報に基づいて、正弦波成分変形部２７によりさらなる変形を行う。例えば、偶数次成分の新規アンプＡ”ｎ（＝Ａ”０、Ａ”２、Ａ”４、……）だけを大きく（例えば、２倍する）等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【００５９】
そして、新規正弦波成分（Ｆ”’ｎ及びＡ”’ｎ）を逆高速フーリエ変換部２８に出力するとともに、新規正弦波成分（Ｆ”’ｎ及びＡ”’ｎ）のうち、残差成分との畳み込みを行うための正弦波成分ＳＩＮ（ピッチ及び倍音成分並びにその周波数エンベロープ）を畳み込み正弦波成分決定部３６へ出力する。ここで「ピッチ及び倍音成分」は新規周波数Ｆ”’ｎ及び新規アンプＡ”’によって構成され、「周波数エンベロープ」は新規スペクトラル・シェイプＳnew（ｆ）によって構成される。
【００６０】
［２．１３］畳み込み正弦波成分決定部、畳み込み正弦波成分正規化部及び畳み込み処理部の動作
畳み込み正弦波成分決定部３６は、新規残差成分Ｒnew(f)との畳み込みを行うための正弦波成分ＳＩＮのうち、どの要素を畳み込みに用いるかを決定し、畳み込み正弦波成分ＳＩＮconとして畳み込み正弦波成分正規化部３７に出力する。
畳み込み正弦波成分正規化部３７は、上記畳み込み正弦波成分ＳＩＮconをその周波数軸上における最大値で正規化し、正規化畳み込み正弦波成分ＳＩＮcon-norを生成し、畳み込み処理部３８に出力する。
なお、上記正規化方法は、一例であり、これに限定されるものではない。例えば、任意の値（データ上持つことができる最大値等）により正規化を行うようにすればよい。
これらにより畳み込み処理部３８は、上記正規化畳み込み正弦波成分ＳＩＮcon-nor及び残差成分Ｒnew(f)を畳み込み、新規正弦波成分のピッチ及び倍音成分に応じた、ピッチ及び倍音成分を有する残差成分Ｒnew’(f)または新規正弦波成分の周波数エンベロープに応じた、周波数エンベロープを有する残差成分Ｒnew’(f)を生成し、逆高速フーリエ変換部２８に出力する。
【００６１】
［２．１４］逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部２８は、求めた新規周波数Ｆ”’ｎ及び新規アンプＡ”’ｎ（＝新規正弦波成分）並びに新規残差成分Ｒnew’(f)をＦＦＴバッファに格納し、順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ２９から入力される正弦波成分／残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【００６２】
この場合において、ＦＦＴバッファに新規周波数Ｆ”ｎ及び新規アンプＡ”ｎ（＝新規正弦波成分）並びに新規残差成分Ｒnew’(f)を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ３１により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【００６３】
［２．１５］クロスフェーダの動作
次にクロスフェーダ３０は、元無声／有声検出信号Ｕ／Ｖme(t)に基づいて、入力音声信号Ｓvが無声（Ｕ）である場合には、入力音声信号Ｓvをそのままミキサ３０に出力する。
また、入力音声信号Ｓvが有声（Ｖ）である場合には、逆高速フーリエ変換変換部２８が出力した変換音声信号をミキサ３３に出力する。
この場合において、切替スイッチとしてクロスフェーダ３０を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００６４】
［２．１６］シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ３１は、カラオケの伴奏音を発生するための音源制御情報を例えば、ＭＩＤＩ（Musical Instrument Digital Interface）データなどとして音源部３２に出力する。
ｊｐ２７これにより音源部３２は、音源制御情報に基づいて伴奏信号を生成し、ミキサ３３に出力する。
ミキサ３３は、入力音声信号Ｓvあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部３４に出力する。
出力部３４は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００６５】
［３］変形例
本変形例は、残差成分を時間軸上で保持している場合を想定した音声変換装置に関する。図１３は、上述した実施形態の変形例の構成を示すブロック図である。なお、図３に対応する部分には同一の符号を付し、その詳細な説明を省略する。図１３において、インパルス応答算出部４０は、畳み込み正弦波成分正規化部３７により取得された正規化畳み込み正弦波成分ＳＩＮcon-norのインパルス応答ＳＩＮinpを求め、畳み込み処理部３８へ供給する。畳み込み処理部３８は、上記インパルス応答ＳＩＮinp及び残差成分Ｒnew(ｔ)を畳み込み、正弦波成分のピッチ及び倍音成分に応じた、ピッチ及び倍音成分を有する残差成分Ｒnew’(ｔ)、または正弦波成分の周波数エンベロープに応じた周波数エンベロープを有する残差成分Ｒnew’(ｔ)を取得し、クロスフェーダ３０へ出力する。
【００６６】
このように、残差成分を時間軸上で処理する場合であっても、上述した実施形態と同様に、正弦波成分のピッチ及び倍音成分に応じた、ピッチ及び倍音成分を有する残差成分Ｒnew’(ｔ)、または正弦波成分の周波数エンベロープに応じた周波数エンベロープを有する残差成分Ｒnew’(ｔ)を取得することが可能となる。したがって、最終的に出力される音声には、正弦波成分のピッチ成分のみが聴取されることになり、音声の自然性を向上させることができる。
【００６７】
【発明の効果】
以上、説明したように、この発明によれば、残差成分が、正弦波成分のピッチ及び倍音成分に応じたピッチ及び倍音成分を有するか、あるいは正弦波成分の周波数エンベロープに応じた周波数エンベロープを有することにより、音声の自然性を損なうことなく、音声変換することができるという利点が得られる。
【図面の簡単な説明】
【図１】本実施形態による音声変換装置の概要処理を説明するための図である。
【図２】本発明の一実施形態の構成を示すブロック図（その１）である。
【図３】本発明の一実施形態の構成を示すブロック図（その２）である。
【図４】実施形態におけるフレームの状態を示す図である。
【図５】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図６】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図７】実施形態における周波数値の変化状態を示す図である。
【図８】実施形態における処理過程における確定成分の変化状態を示す図である。
【図９】実施形態における信号処理の説明図である。
【図１０】イージーシンクロナイゼーション処理のタイミングチャートである。
【図１１】イージーシンクロナイゼーション処理フローチャートである。
【図１２】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【図１３】変形例の構成を示すブロック図である。
【符号の説明】
１…マイク、２…分析窓生成部、３…入力音声信号切出部、４…高速フーリエ変換部、５…ピーク検出部、６…無声／有声検出部、７…ピッチ抽出部、８…ピーク連携部、９…補間合成部、１０…残差成分検出部、１１…高速フーリエ変換部、１２…残差成分保持部、１３…正弦波成分保持部、１４…平均アンプ演算部、１５…アンプ正規化部、１６…スペクトラル・シェイプ演算部、１７…ピッチ正規化部、１８…元フレーム情報保持部、１９…静的変化／ビブラート的変化分離部、２０…ターゲットフレーム情報保持部、２１…キーコントロール／テンポチェンジ部、２２…イージーシンクロナイゼーション処理部、２３…正弦波成分属性データ選択部、２４…属性データ変形部、２５…残差成分選択部、
２６…正弦波成分生成部、２７…正弦波成分変形部、２８…逆高速フーリエ変換部、２９…コントローラ、３０…クロスフェーダ、３１…シーケンサ、３２…音源部、３３…ミキサ、３４…出力部、３６…畳み込み正弦波成分決定部、３７…畳み込み正弦波成分正規化部、３８…畳み込み処理部、４０…インパルス応答算出部（インパルス応答算出手段）

Claims

入力された音声信号から正弦波成分を抽出する正弦波成分抽出手段と、
前記正弦波成分抽出手段により抽出された前記正弦波成分以外の残差成分を前記音声信号から抽出する残差成分抽出手段と、
音声変換の対象となる変換用音声信号の正弦波成分及び残差成分を保持する保持手段と、
前記正弦波成分抽出手段により抽出された正弦波成分を、前記保持手段に保持されている前記変換用音声信号の正弦波成分に基づいて変形し、新規正弦波成分を生成する新規正弦波成分生成手段と、
前記残差成分抽出手段により抽出された残差成分を、前記保持手段に保持されている変換用音声信号の残差成分に基づいて変形し、新規残差成分を生成する新規残差成分生成手段と、
前記新規残差成分生成手段により生成された新規残差成分に、前記新規正弦波成分生成手段により生成された新規正弦波成分を畳み込み処理する畳み込み処理手段と、
前記新規正弦波成分生成手段により生成された新規正弦波成分と、前記畳み込み処理手段により畳み込み処理された新規残差成分とを合成する合成手段と
を具備することを特徴とする音声変換装置。
正弦波成分のピッチ及び倍音成分、または正弦波成分の周波数エンベロープのいずれかを、前記新規残差成分に畳み込む前記新規正弦波成分の要素として選択的に決定する畳み込み成分決定手段を具備することを特徴とする請求項１記載の音声変換装置。
前記畳み込み成分決定手段により決定された前記新規正弦波成分の要素を正規化する正規化手段を具備することを特徴とする請求項２記載の音声変換装置。
前記畳み込み処理手段は、前記新規残差成分を時間軸上で保持する場合には、前記新規正弦波成分生成手段により生成された新規正弦波成分の畳み込み処理に用いる要素を前記正規化手段により正規化し、そのインパルス応答を算出するインパルス応答算出手段を具備し、前記新規残差成分生成手段により生成された新規残差成分と前記インパルス応答算出手段により算出されたインパルス応答とを畳み込み演算することを特徴とする請求項１記載の音声変換装置。
入力された音声から正弦波成分を抽出する正弦波成分抽出工程と、
前記正弦波成分抽出工程において抽出された前記正弦波成分以外の残差成分を、前記音声から抽出する残差成分抽出工程と、
音声変換の対象となる変換用音声の正弦波成分及び残差成分を保持する保持工程と、
前記正弦波成分抽出工程において抽出された正弦波成分を、前記保持されている前記変換用音声の正弦波成分に基づいて変形し、新規正弦波成分を生成する新規正弦波成分生成工程と、
前記残差成分抽出工程において抽出された残差成分を、前記保持されている変換用音声信号の残差成分に基づいて変形し、新規残差成分を生成する新規残差成分生成工程と、
前記新規残差成分生成工程において生成された新規残差成分に前記新規正弦波成分生成工程において生成された新規正弦波成分を畳み込み演算する畳み込み処理工程と、
前記新規正弦波成分生成工程において生成された新規正弦波成分と、前記畳み込み処理工程において畳み込み処理された新規残差成分とを合成する合成工程と、
を具備することを特徴とする音声変換方法。