JP3540160B2

JP3540160B2 - 音声変換装置及び音声変換方法

Info

Publication number: JP3540160B2
Application number: JP17191298A
Authority: JP
Inventors: 竜児中川; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-06-18
Filing date: 1998-06-18
Publication date: 2004-07-07
Anticipated expiration: 2018-06-18
Also published as: JP2000010598A

Description

【０００１】
【発明の属する技術分野】
この発明は、入力音声を他の音声に変換して出力する音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置及び音声変換方法に関する。
【０００２】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものがある（例えば、特表平８−５０８５８１号公報参照）。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、単に歌声のピッチを変換しているだけであるため、聴感上自然な音声が得られないという問題点があった。
そこで、本発明の目的は、音声変換を行うに際し、聴感上自然な音声を容易に得ることが可能な音声変換装置及び音声変換方法を提供することにある。
【０００４】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の構成は、入力音声信号の正弦波成分を抽出する正弦波成分抽出手段と、前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記ターゲット音声信号から予め抽出した周波数軸上におけるターゲットスペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形ターゲットスペクトラル・シェイプを生成するターゲットスペクトラル・シェイプ変形手段と、前記正弦波成分の周波数に対応する周波数であって前記変形ターゲットスペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形ターゲットスペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【０００５】
また、請求項２記載の構成は、入力音声信号から周波数軸上におけるスペクトラル・シェイプを抽出するスペクトラル・シェイプ抽出手段と、前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記スペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、前記ターゲット音声信号から抽出した正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【０００６】
【課題を解決するための手段】
上記課題を解決するため、請求項１記載の構成は、入力音声信号の正弦波成分を抽出する正弦波成分抽出手段と、前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記ターゲット音声信号から予め抽出した周波数軸上におけるターゲットスペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形ターゲットスペクトラル・シェイプを生成するターゲットスペクトラル・シェイプ変形手段と、前記正弦波成分の周波数を定数倍した周波数であって前記変形ターゲットスペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形ターゲットスペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、前記正弦波成分情報から変換音声信号を生成する音声生成手段とを備えたことを特徴としている。
【０００７】
また、請求項６記載の構成は、入力音声信号の正弦波成分を抽出する正弦波成分抽出工程と、前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記ターゲット音声信号から予め抽出した周波数軸上におけるターゲットスペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形ターゲットスペクトラル・シェイプを生成するターゲットスペクトラル・シェイプ変形工程と、前記正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形ターゲットスペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【０００８】
また、請求項７記載の構成は、入力音声信号から周波数軸上におけるスペクトラル・シェイプを抽出するスペクトラル・シェイプ抽出工程と、前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記スペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、前記ターゲット音声信号から抽出した正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、前記正弦波成分情報から変換音声信号を生成する音声生成工程とを備えたことを特徴としている。
【０００９】
請求項８記載の構成は、請求項６または７のいずれかに記載の構成において、
予め定めたシフト係数をβとし、前記入力音声信号のピッチをf orgとし、前記ターゲット音声信号のピッチをf tarとした場合に、前記αを次式により算出することを特徴としている。
α＝βk
ただし、ｋ＝ｌｏｇ2（f org／f tar）
請求項９記載の構成は、請求項６に記載の構成において、前記音声生成工程において、前記入力音声信号と当該入力音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成することを特徴としている。
請求項１０記載の構成は、請求項７に記載の構成において、前記音声生成工程において、前記ターゲット音声信号と当該ターゲット音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成することを特徴としている。
【００１０】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
［１］実施形態の概要処理
始めに、実施形態の概要処理について説明する。
［１．１］ステップＳ１
まず、歌唱者（以下、元歌唱者（ｍｅ）という）の音声（入力音声信号）をリアルタイムでＦＦＴ（ＦａｓｔＦｏｕｒｉｅＴｒａｎｓｆｏｒｍ）を含むＳＭＳ（ＳｐｅｃｔｒａｌＭｏｄｅｌｉｎｇＳｙｎｔｈｅｓｉｓ）分析を行い、フレーム単位で正弦波成分（Ｓｉｎｅ成分）を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分（Ｒｅｓｉｄｕａｌ成分）を生成する。これと並行して入力音声信号が無声音（含む無音）か否かを判別し、無声音である場合には、以下のステップＳ２〜ステップＳ５の処理は行わず、入力音声信号をそのまま出力することとなる。
この場合において、ＳＭＳ分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
【００１１】
［１．２］ステップＳ２
次に入力音声信号が有声音である場合には、抽出した正弦波成分からさらに元属性（Ａｔｔｒｉｂｕｔｅ）データであるピッチ（Ｐｉｔｃｈ）、アンプ（Ａｍｐｌｉｔｕｄｅ）及びスペクトラル・シェイプ（ＳｐｅｃｔｒａｌＳｈａｐｅ）を抽出する。
［１．３］ステップＳ３
予め記憶（保存）してある音声変換処理に用いる対象（Ｔａｒｇｅｔ）となる歌唱者（以下、ターゲット歌唱者という。）の属性データ（ターゲット属性データ＝ピッチ、アンプ及びスペクトラル・シェイプ）から、元歌唱者（ｍｅ）の入力音声信号のフレームに対応するフレームのターゲット属性データ（＝ピッチ、アンプ及びターゲットスペクトラル・シェイプ）を取り出す。
【００１２】
［１．４］ステップＳ４
次に元歌唱者（ｍｅ）に対応する元属性データ及びターゲット歌唱者に対応するターゲット属性データに基づいて、元歌唱者のスペクトラル・シェイプ（あるいは、ターゲット歌唱者のターゲットスペクトラル・シェイプ）に基づいて変換スペクトラル・シェイプ（あるいは、変換ターゲットスペクトラル・シェイプ）を生成し、この生成した変換スペクトラル・シェイプ（あるいは変換ターゲットスペクトラル・シェイプ）及びターゲット音声信号から予め抽出した正弦波成分に含まれる周波数成分（あるいは、入力音声信号から抽出した正弦波成分に含まれる周波数成分）に基づいて新たな正弦波成分情報を生成する。
【００１３】
［１．５］ステップＳ５
つづいて得られた新たな正弦波成分情報の逆ＦＦＴを行い、変換音声信号を得る。
［１．６］まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、元歌唱者の歌声が、あたかも、別の歌唱者が歌った自然な歌声のようになる。
【００１４】
［２］実施形態の詳細構成
図１及び図２に、実施形態の詳細構成図を示す。なお、本実施形態は、本発明による音声変換装置（音声変換方法）をカラオケ装置に適用し、より自然な音声変換を行うことができるカラオケ装置として構成した場合の例である。
図１において、マイク１は、元歌唱者（ｍｅ）の声を収集し、入力音声信号Ｓｖとして入力音声信号切出部３に出力する。
これと並行して、分析窓生成部２は、前回のフレームで検出したピッチの周期の固定倍（例えば、３．５倍など）の周期を有する分析窓（例えば、ハミング窓）ＡＷを生成し、入力音声信号切出部３に出力する。なお、初期状態あるいは前回のフレームが無声音（含む無音）の場合には、予め設定した固定周期の分析窓を分析窓ＡＷとして入力音声信号切出部３に出力する。
【００１５】
これらにより入力音声信号切出部３は、入力された分析窓ＡＷと入力音声信号Ｓｖとを掛け合わせ、入力音声信号Ｓｖをフレーム単位で切り出し、フレーム音声信号ＦＳｖとして高速フーリエ変換部４に出力される。
より具体的には、入力音声信号Ｓｖとフレームとの関係は、図３に示すようになっており、各フレームＦＬは、前のフレームＦＬと一部重なるように設定されている。
そして、高速フーリエ変換部４においてフレーム音声信号ＦＳｖは、解析処理されるとともに、図４に示すように、高速フーリエ変換部４の出力である周波数スペクトルからピーク検出部５によりローカルピークが検出される。
より具体的には、図４に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ（振幅）値の組み合わせとして表される。
【００１６】
すなわち、図４に示すように、（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各フレームについてローカルピークが検出され、表されることとなる。
そして、図３に模式的に示すように、各フレーム毎に一組（以下、ローカルピーク組という。）として無声／有声検出部６及びピーク連携部８に出力される。無声／有声検出部６は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出（‘ｔ’、‘ｋ’等）し、無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ部３０に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出（‘ｓ’等）し、元無声／有声検出信号Ｕ／Ｖｍｅをピッチ検出部７、イージーシンクロナイゼーション処理部２２及びクロスフェーダ部３０に出力する。
【００１７】
さらに無声／有声検出部６は、入力されたフレームが無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部７に出力する。
ピッチ検出部７は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチＰｍｅを検出する。
より具体的なフレームのピッチＰｍｅの検出方法としては、例えば、Ｍａｈｅｒ，Ｒ．Ｃ．ａｎｄＪ．Ｗ．Ｂｅａｕｃｈａｍｐ：”ＦｕｎｄａｍｅｎｔａｌＦｒｅｑｕｅｎｃｙＥｓｔｉｍａｔｉｏｎｏｆＭｕｓｉｃａｌＳｉｇｎａｌｕｓｉｎｇａｔｗｏ−ｗａｙＭｉｓｍａｔｃｈＰｒｏｃｅｄｕｒｅ”（ＪｏｕｒｎａｌｏｆＡｃｏｕｎｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ９５（４）：２２５４−２２６３）に開示されているような方法で行う。
【００１８】
次に、ピーク検出部５から出力されたローカルピーク組は、ピーク連携部８において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図５を参照して説明する。
今、図５（Ａ）に示すようなローカルピークが前回のフレームにおいて検出され、図５（Ｂ）に示すようなローカルピークが今回のフレームにおいて検出されたとする。
【００１９】
この場合、ピーク連携部８は、前回のフレームで検出された各ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図５の例では、ローカルピーク（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）……については、対応するローカルピークが検出されているが、ローカルピーク（ＦＫ、ＡＫ）については（図５（Ａ）参照）、対応するローカルピーク（図５（Ｂ）参照）は検出されていない。
【００２０】
ピーク連携部８は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図６は、複数のフレームにわたるローカルピークの周波数Ｆ０及び周波数Ｆ１の変化の一例を示している。
このような変化は、アンプ（振幅）Ａ０、Ａ１、Ａ２、……についても同様に認められる。この場合、ピーク連携部８から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
【００２１】
なお、ピーク連携部８から出力されるピーク値を、以後において、確定成分という。これは、元の信号（すなわち、音声信号Ｓｖ）のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波（厳密には、正弦波のパラメータである周波数及びアンプ（振幅））の各々については、部分成分と呼ぶことにする。
次に、補間合成部９は、ピーク連携部８から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部３４が出力する最終出力信号のサンプリングレート（例えば、４４．１ＫＨｚ）に対応した間隔で行われる。前述した図６に示す実線は、正弦波成分の周波数Ｆ０、Ｆ１について補間処理が行われた場合のイメージを示している。
【００２２】
［２．１］補間合成部の構成
ここで、補間合成部９の構成を図８に示す。
補間合成部９は、複数の部分波形発生部９ａを備えて構成されており、各部分波形発生部９ａは、指定された正弦波成分の周波数（Ｆ０、Ｆ１、…）およびアンプ（振幅）に応じた正弦波を発生する。ただし、本第１実施形態における正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部９ａから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部８からは正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部９ａは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部９ａから出力された波形は、加算部９ｂにおいて加算合成される。したがって、補間合成部９の出力信号は、入力音声信号Ｓｖから確定成分を抽出した正弦波成分合成信号ＳＳＳになる。
【００２３】
［２．２］残差成分検出部の動作
次に、残差成分検出部１０は、補間合成部９から出力された正弦波成分合成信号ＳＳＳと入力音声信号Ｓｖとの偏差である残差成分信号ＳＲＤ（時間波形）を生成する。この残差成分信号ＳＲＤは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号ＳＳＳは有声成分に対応するものである。
ところで、目標（Ｔａｒｇｅｔ）となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
そこで、本実施形態においては、有声母音成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号ＳＲＤについては、高速フーリエ変換部１１で、周波数波形に変換し、得られた残差成分信号（周波数波形）をＲｍｅ（ｆ）として残差成分保持部１２に保持しておく。
【００２４】
［２．３］平均アンプ演算部の動作
一方、図７（Ａ）に示すように、ピーク検出部５からピーク連携部８を介して出力された正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（Ｆ（Ｎ−１）、Ａ（Ｎ−１））のＮ個の正弦波成分（以下、これらをまとめてＦｎ、Ａｎと表記する。ｎ＝０〜（Ｎ−１）。）は、正弦波成分保持部１３に保持されるとともに、アンプＡｎは平均アンプ演算部１４に入力され、各フレーム毎に次式により平均アンプＡｍｅが算出される。
Ａｍｅ＝Σ（Ａｎ）／Ｎ
【００２５】
［２．４］アンプ正規化部の動作
次にアンプ正規化部１５において、次式により各アンプＡｎを平均アンプＡｍｅで正規化し、正規化アンプＡ’ｎを求める。
Ａ’ｎ＝Ａｎ／Ａｍｅ
［２．５］スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部１６において、図７（Ｂ）に示すように、周波数Ｆｎ及び正規化アンプＡ’ｎにより得られる正弦波成分（Ｆｎ、Ａ’ｎ）をブレークポイントとするエンベロープ（包絡線）をスペクトラル・シェイプＳｍｅ（ｆ）として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【００２６】
［２．６］ピッチ正規化部の動作
続いてピッチ正規化部１７においては、各周波数Ｆｎをピッチ検出部７において検出したピッチＰｍｅで正規化し、正規化周波数Ｆ’ｎを求める。
Ｆ’ｎ＝Ｆｎ／Ｐｍｅ
これらの結果、元フレーム情報保持部１８は、入力音声信号Ｓｖに含まれる正弦波成分に対応する元属性データである平均アンプＡｍｅ、ピッチＰｍｅ、スペクトラル・シェイプＳｍｅ（ｆ）、正規化周波数Ｆ’ｎを保持することとなる。
なお、この場合において、正規化周波数Ｆ’ｎは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【００２７】
この場合において、男声／女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声／女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部１８に保持している元属性データのうち、平均アンプＡｍｅおよびピッチＰｍｅについては、さらに静的変化／ビブラート的変化分離部１９により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【００２８】
より具体的には、平均アンプＡｍｅを平均アンプ静的成分Ａｍｅ−ｓｔａ及び平均アンプビブラート的成分Ａｍｅ−ｖｉｂとに分離して保持する。
また、ピッチＰｍｅをピッチ静的成分Ｐｍｅ−ｓｔａ及びピッチビブラート的成分Ｐｍｅ−ｖｉｂとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データＩＮＦｍｅは、図７（Ｃ）に示すように、入力音声信号Ｓｖの正弦波成分に対応する元属性データである平均アンプ静的成分Ａｍｅ−ｓｔａ、平均アンプビブラート的成分Ａｍｅ−ｖｉｂ、ピッチ静的成分Ｐｍｅ−ｓｔａ、ピッチビブラート的成分Ｐｍｅ−ｖｉｂ、スペクトラル・シェイプＳｍｅ（ｆ）、正規化周波数Ｆ’ｎ及び残差成分Ｒｍｅ（ｆ）の形で保持されることとなる。
【００２９】
一方、ものまねの対象（ｔａｒｇｅｔ）となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データＩＮＦｔａｒは、予め分析されてターゲットフレーム情報保持部２０を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データＩＮＦｔａｒのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Ａｔａｒ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ（ｆ）がある。
また、ターゲットフレーム情報データＩＮＦｔａｒのうち、残差成分に対応するターゲット属性データとしては、残差成分Ｒｔａｒ（ｆ）がある。
【００３０】
［２．７］キーコントロール／テンポチェンジ部の動作
次にキーコントロール／テンポチェンジ部２１は、シーケンサ３１からの同期信号ＳＳＹＮＣに基づいて、ターゲットフレーム情報保持部２０から同期信号ＳＳＹＮＣに対応するフレームのターゲットフレーム情報ＩＮＦｔａｒの読出処理及び読み出したターゲットフレーム情報データＩＮＦｔａｒを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報ＩＮＦｔａｒおよび当該フレームが無声であるか有声であるかを表すターゲット無声／有声検出信号Ｕ／Ｖｔａｒを出力する。
より具体的には、キーコントロール／テンポチェンジ部２１の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ｐｔａｒ−ｓｔａ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂについても、同じだけ上げ下げする補正処理を行う。例えば、５０［ｃｅｎｔ］だけキーを上げた場合には、ピッチ静的成分Ｐｔａｒ−ｓｔａ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂについても５０［ｃｅｎｔ］だけ上げなければならない。
【００３１】
また、キーコントロール／テンポチェンジ部２１の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データＩＮＦｔａｒの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データＩＮＦｔａｒが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データＩＮＦｔａｒを読み出し、これら二つのターゲットフレーム情報データＩＮＦｔａｒにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データＩＮＦｔａｒ、ひいては、ターゲット属性データを生成する。
【００３２】
この場合において、ビブラート的成分（平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂ）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３３】
［２．８］イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部２２は、ものまねをしようとする歌唱者のフレーム（以下、元フレームという。）に元フレーム情報データＩＮＦｍｅが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム（以下、ターゲットフレームという。）にターゲットフレーム情報データＩＮＦｔａｒが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データＩＮＦｔａｒを当該ターゲットフレームのターゲットフレーム情報データＩＮＦｔａｒとするイージーシンクロナイゼーション処理を行う。
そして、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ及びスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ））を変形スペクトラルシェイプ生成部２３に出力する。
【００３４】
また、イージーシンクロナイゼーション処理部２２は、後述する置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））を残差成分選択部２５に出力する。
このイージーシンクロナイゼーション処理部２２における処理においても、ビブラート的成分（平均アンプビブラート的成分Ａｔａｒ−ｖｉｂ及びピッチビブラート的成分Ｐｔａｒ−ｖｉｂ）に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【００３５】
［２．８．１］イージーシンクロナイゼーション処理の詳細
ここで、図９及び図１０を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図９は、イージーシンクロナイゼーション処理のタイミングチャートであり、図１０はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部２２は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード＝“０”とする（ステップＳ１１）。このシンクロナイゼーションモード＝“０”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒが存在する通常処理の場合に相当する。
そしてあるタイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化したか否かを判別する（ステップＳ１２）。
【００３６】
例えば、図９に示すように、タイミングｔ＝ｔ１においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している。
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミングｔ−１における元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）であるか否かを判別する（ステップＳ１８）。
例えば、図９に示すように、タイミングｔ＝ｔ０（＝ｔ１−１）においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）となっている。
ステップＳ１８の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が無声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が無声（Ｕ）となっている場合には（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用のターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの後方向（Ｂａｃｋｗａｒｄ）に存在するフレームのターゲットフレーム情報とする。
【００３７】
例えば、図９に示すように、タイミングｔ＝ｔ１〜ｔ２のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“１”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの後方向に存在するフレーム（すなわち、タイミングｔ＝ｔ２〜ｔ３に存在するフレーム）のターゲットフレーム情報データｂａｃｋｗａｒｄとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別する（ステップＳ１５）。
ステップＳ１５の判別において、シンクロナイゼーションモード＝“０”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒ（ｔ）が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをターゲットフレーム情報データＩＮＦｔａｒ（ｔ）とする。
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｔａｒ（ｔ）
【００３８】
例えば、図９に示すようにタイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｔａｒ（ｔ）
とする。
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））は実質的には、以下の内容となる（ステップＳ１６）。
Ａｔａｒ−ｓｙｎｃ−ｓｔａ＝Ａｔａｒ−ｓｔａ
Ａｔａｒ−ｓｙｎｃ−ｖｉｂ＝Ａｔａｒ−ｖｉｂ
Ｐｔａｒ−ｓｙｎｃ−ｓｔａ＝Ｐｔａｒ−ｓｔａ
Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ＝Ｐｔａｒ−ｖｉｂ
Ｓｔａｒ−ｓｙｎｃ（ｆ）＝Ｓｔａｒ（ｆ）
Ｒｔａｒ−ｓｙｎｃ（ｆ）＝Ｒｔａｒ（ｆ）
【００３９】
ステップＳ１５の判別において、シンクロナイゼーションモード＝”１”である場合には、タイミングｔにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データＩＮＦｔａｒ（ｔ）が存在しない場合であるので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃを置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする。
ＩＮＦｔａｒ−ｓｙｎｃ＝ＩＮＦｈｏｌｄ
例えば、図９に示すように、タイミングｔ＝ｔ１〜ｔ２のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在せず、シンクロナイゼーションモード＝”１”となるが、タイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをタイミングｔ＝ｔ２〜ｔ３のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする処理Ｐ１を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データは、平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ）となる（ステップＳ１６）。
【００４０】
また、図９に示すように、タイミングｔ＝ｔ３〜ｔ４のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在せず、シンクロナイゼーションモード＝“２”となるが、タイミングｔ＝ｔ２〜ｔ３のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在するので、置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃをタイミングｔ＝ｔ２〜ｔ３のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データＩＮＦｈｏｌｄとする処理Ｐ２を行い、以降の処理に用いられる置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データは、平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ、スペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ）及び残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ）となる（ステップＳ１６）。
【００４１】
ステップＳ１２の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１２；Ｎｏ）、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化しているか否かを判別する（ステップＳ１３）。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化している場合には（ステップＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミングｔ−１における元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｖ）であるか否かを判別する（ステップＳ１９）。
【００４２】
例えば、図９に示すように、タイミングｔ３においてターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ−１＝ｔ２〜ｔ３においては、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｕ）となっている。
ステップＳ１９の判別において、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ−１）が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ−１）が有声（Ｖ）となっている場合には（ステップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用のターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの前方向（ｆｏｒｗａｒｄ）に存在するフレームのターゲットフレーム情報とする。
【００４３】
例えば、図９に示すように、タイミングｔ＝ｔ３〜ｔ４のターゲットフレームには、ターゲットフレーム情報データＩＮＦｔａｒが存在しないので、シンクロナイゼーションモード＝“２”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを当該ターゲットフレームの前方向に存在するフレーム（すなわち、タイミングｔ＝ｔ２〜ｔ３に存在するフレーム）のターゲットフレーム情報データｆｏｒｗａｒｄとする。
そして、処理をステップＳ１５に移行し、シンクロナイゼーションモード＝“０”であるか否かを判別して（ステップＳ１５）、以下、同様の処理を行う。
ステップＳ１３の判別において、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化していない場合には（ステップＳ１３；Ｎｏ）、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判別する（ステップＳ１４）。
【００４４】
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化し、あるいは、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅｓ）、シンクロナイゼーションモード＝“０”とし、置換用ターゲットフレーム情報データＩＮＦｈｏｌｄを初期化（ｃｌｅａｒ）し、処理をステップＳ１５に移行して、以下、同様の処理を行う。
ステップＳ１４の判別において、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）が有声（Ｖ）から無声（Ｕ）に変化せず、かつ、ターゲット無声／有声検出信号Ｕ／Ｖｔａｒ（ｔ）が無声（Ｕ）から有声（Ｖ）に変化していない場合には（ステップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に移行し、以下同様の処理を行う。
【００４５】
［２．９］変形スペクトラルシェイプ生成部の動作
続いて、変形スペクトラルシェイプ生成部２３は、静的変化／ビブラート的変化分離部１９から入力された入力音声信号Ｓｖの正弦波成分に対応する元属性データである平均アンプ静的成分Ａｍｅ−ｓｔａ、平均アンプビブラート的成分Ａｍｅ−ｖｉｂ、ピッチ静的成分Ｐｍｅ−ｓｔａ、ピッチビブラート的成分Ｐｍｅ−ｖｉｂ、スペクトラル・シェイプＳｍｅ（ｆ）、正規化周波数Ｆ’ｎ、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ（平均アンプ静的成分Ａｔａｒ−ｓｙｎｃ−ｓｔａ、平均アンプビブラート的成分Ａｔａｒ−ｓｙｎｃ−ｖｉｂ、ピッチ静的成分Ｐｔａｒ−ｓｙｎｃ−ｓｔａ、ピッチビブラート的成分Ｐｔａｒ−ｓｙｎｃ−ｖｉｂ及びスペクトラル・シェイプＳｔａｒ−ｓｙｎｃ（ｆ））及びコントローラ２９から入力される変形スペクトラル・シェイプ生成情報に基づいて、新しいスペクトラル・シェイプである変形スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。
変形スペクトラルシェイプの生成は、元歌唱者に対応するスペクトラル・シェイプ（あるいは、ターゲット歌唱者に対応するターゲットスペクトラル・シェイプ）を周波数軸方向に定数αでシフトすることにより行う。
【００４６】
この場合において、定数αは、以下のようにして求める。
予め実験的に定めたシフト係数β（β＝１．２〜１．３／ｏｃｔ程度）とすると、
α＝βｋ
ｋ＝ｌｏｇ２（ｆｏｒｇ／ｆｔａｒ）
ただし、
ｆｏｒｇ：元歌唱者に対応するピッチ
ｆｔａｒ：ターゲット歌唱者に対応するピッチ
であり、実際には、ｋの小数点以下は四捨五入する。
ここで、より具体的に、変形スペクトラルシェイプＳｎｅｗ（ｆ）の生成について説明する。
【００４７】
［２．９．１］男声→女声変換の場合
まず、ターゲット歌唱者が女性であり、元歌唱者が男性である場合について説明する。
図１１にターゲット歌唱者である女性のスペクトラル・シェイプを示す。
図１１に示すように、ターゲット歌唱者の正弦波成分に含まれる周波数成分は、ｆｆ０〜ｆｆｎで表されている。
図１２に元歌唱者である男性のスペクトラル・シェイプを示す。
図１２に示すように、元歌唱者の正弦波成分に含まれる周波数成分は、ｆｍ０〜ｆｍｎで表されている。また、各周波数成分ｆｍ０〜ｆｍｎに対応するアンプは、Ａｆｍ０〜Ａｆｍｎで表されている。
この場合において、ターゲット歌唱者のアンプＡ（ｆｆ）＝Ａｆｆ０、Ａｆｆ１、…、Ａｆｆｎは元のままで、周波数成分ｆｆ０〜ｆｆｎのみをα倍して、すなわち、定数αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って低域側にシフトすることにより変形スペクトラル・シェイプＳｎｅｗ（ｆ）を生成する。
まず、定数αについて算出する。この場合において、シフト係数β＝１．２／ｏｃｔとする。この場合において、図１１及び図１２に示すように、
ｆｏｒｇ＝ｆｍ０
ｆｔａｒ＝ｆｆ０
であるので、

となる。これにより

すなわち、変形スペクトラル・シェイプに対応する周波数成分をｆｈ０〜ｆｈｎと表すとすると、
ｆｈ０＝α・ｆｆ０
ｆｈ１＝α・ｆｆ１
ｆｈ２＝α・ｆｆ２
……
ｆｈｎ＝α・ｆｆｎ
とし、図１３及び以下に示す変形正弦波成分群（＝周波数成分及びアンプで表される正弦波成分の一群）により特定される変形スペクトラルシェイプＳｎｅｗ（ｆ）を得る。
（ｆｈ０、Ａｆｆ０）
（ｆｈ１、Ａｆｆ１）
（ｆｈ２、Ａｆｆ２）
……
（ｆｈ０、Ａｆｆ０）
【００４８】
［２．９．２］女声→男声変換の場合
次に、ターゲット歌唱者が男性であり、元歌唱者が女性である場合について説明する。
図１２に示した男性のスペクトラル・シェイプをターゲット歌唱者のスペクトラルシェイプとする。
この場合において、ターゲット歌唱者のアンプＡ（ｆｍ）＝Ａｆｍ０、Ａｆｍ１、…、Ａｆｍｎは元のままで、周波数成分ｆｍ０〜ｆｍｎのみをα倍して、すなわち、αの値に相当するだけスペクトラル・シェイプを周波数軸に沿って高域側にシフトすることにより変形スペクトラル・シェイプを生成する。
まず、定数αについて算出する。この場合において、シフト係数β＝１．２／ｏｃｔとする。この場合において、図１１及び図１２に示すように、
ｆｏｒｇ＝ｆｆ０
ｆｔａｒ＝ｆｍ０
であるので、

となる。これにより

となる。
【００４９】
すなわち、変形スペクトラル・シェイプに対応する周波数成分をｆｈ０〜ｆｈｎと表すとすると、
ｆｈ０＝α・ｆｍ０
ｆｈ１＝α・ｆｍ１
ｆｈ２＝α・ｆｍ２
……
ｆｈｎ＝α・ｆｍｎ
とし、図１４及び以下に示す変形正弦波成分群により特定される変形スペクトラルシェイプＳｎｅｗ（ｆ）を得る。
（ｆｈ０、Ａｆｍ０）
（ｆｈ１、Ａｆｍ１）
（ｆｈ２、Ａｆｍ２）
……
（ｆｈ０、Ａｆｍ０）
【００５０】
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの明るい音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプＳｎｅｗ（ｆ）に関しては、このような状態をシミュレートすべく、図１５に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Ａｎｅｗの大きさに応じて補償するスペクトラルチルト補償（ｓｐｅｃｔｒａｌｔｉｌｔｃｏｒｒｅｃｔｉｏｎ）を行って、コントロールすることにより、よりリアルな音声を再生することができる。続いて、生成された変形スペクトラル・シェイプＳｎｅｗ（ｆ）について、必要に応じてコントローラ２９から入力される変形スペクトラル・シェイプ加工情報に基づいて、変形スペクトラル・シェイプ加工部２４によりさらなる波形の加工を行う。例えば、変形スペクトラル・シェイプＳｎｅｗ（ｆ）を全体的に間延びさせる等の波形加工を行う。
【００５１】
［２．１０］残差成分選択部の動作
一方、残差成分選択部２５は、イージーシンクロナイゼーション処理部２２から入力された置換済ターゲットフレーム情報データＩＮＦｔａｒ−ｓｙｎｃに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ（残差成分Ｒｔａｒ−ｓｙｎｃ（ｆ））、残差成分保持部１２に保持されている残差成分信号（周波数波形）Ｒｍｅ（ｆ）及びコントローラ２９から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Ｒｎｅｗ（ｆ）を生成する。すなわち、新規残差成分Ｒｎｅｗ（ｆ）については、次式により生成する。
Ｒｎｅｗ（ｆ）＝Ｒ＊（ｆ）（ただし、＊は、ｍｅ又はｔａｒ−ｓｙｎｃ）
この場合においては、ｍｅ又はｔａｒ−ｓｙｎｃのいずれを選択するかは、新規スペクトラル・シェイプＳｎｅｗ（ｆ）と同一のものを選択するのがより好ましい。
さらに、新規残差成分Ｒｎｅｗ（ｆ）に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図１５に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Ａｎｅｗの大きさに応じて補償するスペクトラルチルト補償（ｓｐｅｃｔｒａｌｔｉｌｔｃｏｒｒｅｃｔｉｏｎ）を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【００５２】
［２．１１］正弦波成分生成部の動作
続いて、正弦波成分生成部２６は、変形スペクトラル・シェイプ加工部２４から出力された波形加工を伴わない、あるいは、波形加工を伴う変形スペクトラル・シェイプＳｎｅｗ（ｆ）に基づいて、当該フレームにおける新たな正弦波成分（Ｆ”０、Ａ”０）、（Ｆ”１、Ａ”１）、（Ｆ”２、Ａ”２）、……、（Ｆ”（Ｎ−１）、Ａ”（Ｎ−１））のＮ個の正弦波成分（以下、これらをまとめてＦ”ｎ、Ａ”ｎと表記する。ｎ＝０〜（Ｎ−１）。）を求める。
より具体的には、次式により新規周波数Ｆ ” ｎおよび新規アンプＡ ” ｎを求める。
Ｆ”ｎ＝Ｆ’ｎ×Ｐｎｅｗ
Ａ”ｎ＝Ｓｎｅｗ（Ｆ ” ｎ）×Ａｎｅｗ
ここで、Ｐｎｅｗは、変形スペクトラル・シェイプのピッチを示す。
なお、完全倍音構造のモデルとして捉えるのであれば、
Ｆ”ｎ＝（ｎ＋１）×Ｐｎｅｗ
となる。
【００５３】
［２．１２］正弦波成分変形部の動作
さらに、求めた新規周波数Ｆ”ｎおよび新規アンプＡ”ｎについて、必要に応じてコントローラ２９から入力される正弦波成分変形情報に基づいて、正弦波成分変形部２７によりさらなる変形を行ない、新規周波数Ｆ”’ｎおよび新規アンプＡ”’ｎとして出力する。例えば、偶数次成分の新規アンプＡ”ｎ（＝Ａ”０、Ａ”２、Ａ”４、……）だけを大きく（例えば、２倍する）等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【００５４】
［２．１３］逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部２８は、求めた新規周波数Ｆ”’ｎおよび新規アンプＡ”’ｎ（＝新規正弦波成分）並びに新規残差成分Ｒｎｅｗ（ｆ）をＦＦＴバッファに格納し、順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ２９から入力される正弦波成分／残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【００５５】
この場合において、ＦＦＴバッファに新規周波数Ｆ ” ｎおよび新規アンプＡ ” ｎ（＝新規正弦波成分）並びに新規残差成分Ｒｎｅｗ（ｆ）を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ３１により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【００５６】
［２．１４］クロスフェーダの動作
次にクロスフェーダ３０は、元無声／有声検出信号Ｕ／Ｖｍｅ（ｔ）に基づいて、入力音声信号Ｓｖが無声（Ｕ）である場合には、入力音声信号Ｓｖをそのままミキサ３３に出力する。
また、入力音声信号Ｓｖが有声（Ｖ）である場合には、逆ＦＦＴ変換部２８が出力した変換音声信号をミキサ３３に出力する。
この場合において、切替スイッチとしてクロスフェーダ３０を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【００５７】
［２．１５］シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ３１は、カラオケの伴奏音を発生するための音源制御情報を例えば、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）データなどとして音源部３２に出力する。
これにより音源部３２は、音源制御情報に基づいて伴奏信号を生成し、ミキサ３３に出力する。
ミキサ３３は、入力音声信号Ｓｖあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部３４に出力する。
出力部３４は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【００５８】
［３］実施形態の変形例
［３．１］第１変形例
上記実施形態の説明においては、ターゲット歌唱者のスペクトラル・シェイプをシフトするように構成していたが、同様にして元歌唱者のスペクトラル・シェイプをシフトするように構成することも可能である。
［３．２］第２変形例
上記実施形態の説明においては、元歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及びターゲット歌唱者のターゲット音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成としていたが、ターゲット歌唱者のスペクトラル・シェイプに基づいて生成した変形スペクトラル・シェイプ及び元歌唱者の入力音声信号の正弦波成分に含まれる周波数成分に基づいて正弦波成分群を算出し、変換音声を得る構成とすることも可能である。
【００５９】
［３．３］第３変形例
正弦波成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波成分を抽出できればよい。
［３．４］第４変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
【００６０】
［４］実施形態の効果
以上の結果、カラオケの伴奏とともに、元歌唱者の歌が出力され、その声質および歌い方などは、ターゲット歌唱者の影響を大きく受けた変換音声として出力されるが、得られる変換音声は、歌唱者及び楽曲依存の固定効果パラメータを用いる場合と異なり、元歌唱者の生の音声成分に基づく（動的）効果パラメータを用いた音声変換となり、聴感上自然なものとなる。
【００６１】
【発明の効果】
以上説明したように、この発明によれば、聴感上自然な変換音声を容易に得ることが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態の構成を示すブロック図（その１）である。
【図２】本発明の一実施形態の構成を示すブロック図（その２）である。
【図３】実施形態におけるフレームの状態を示す図である。
【図４】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図５】実施形態におけるフレーム毎のピーク値の連携を示す図である
。
【図６】実施形態における周波数値の変化状態を示す図である。
【図７】実施形態における処理過程における確定成分の変化状態を示す図である。
【図８】実施形態における信号処理の説明図である。
【図９】イージーシンクロナイゼーション処理のタイミングチャートである。
【図１０】イージーシンクロナイゼーション処理フローチャートである。
【図１１】女性のスペクトラル・シェイプを説明する図である。
【図１２】男性のスペクトラル・シェイプを説明する図である。
【図１３】男声→女声変換の処理説明図である。
【図１４】女声→男声変換の処理説明図である。
【図１５】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【符号の説明】
１…マイク、２…分析窓生成部、３…入力音声信号切出部、４…高速フーリエ変換部、５…ピーク検出部、６…無声／有声検出部、７…ピッチ抽出部、８…ピーク連携部、９…補間合成部、１０…残差成分検出部、１１…高速フーリエ変換部、１２…残差成分保持部、１３…正弦波成分保持部、１４…平均アンプ演算部、１５…アンプ正規化部、１６…スペクトラル・シェイプ演算部、１７…ピッチ正規化部、１８…元フレーム情報保持部、１９…静的変化／ビブラート的変化分離部、２０…ターゲットフレーム情報保持部、２１…キーコントロール／テンポチェンジ部、２２…イージーシンクロナイゼーション処理部、２３…変形スペクトラル・シェイプ生成部、２４…変形スペクトラル・シェイプ加工部、２５…残差成分選択部、２６…正弦波成分生成部、２７…正弦波成分変形部、２８…逆高速フーリエ変換部、２９…コントローラ、３０…クロスフェーダ部、３１…シーケンサ、３２…音源部、３３…ミキサ、３４…出力部

Claims

入力音声信号の正弦波成分を抽出する正弦波成分抽出手段と、
前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記ターゲット音声信号から予め抽出した周波数軸上におけるターゲットスペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形ターゲットスペクトラル・シェイプを生成するターゲットスペクトラル・シェイプ変形手段と、
前記正弦波成分の周波数を定数倍した周波数であって前記変形ターゲットスペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形ターゲットスペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。
入力音声信号から周波数軸上におけるスペクトラル・シェイプを抽出するスペクトラル・シェイプ抽出手段と、
前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記スペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形手段と、
前記ターゲット音声信号から抽出した正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成手段と、
前記正弦波成分情報から変換音声信号を生成する音声生成手段と
を備えたことを特徴とする音声変換装置。
請求項１または２のいずれかに記載の音声変換装置において、
予め定めたシフト係数をβとし、前記入力音声信号のピッチをf orgとし、前記ターゲット音声信号のピッチをf tarとした場合に、前記αを次式により算出することを特徴とする音声変換装置。
α＝βk
ただし、ｋ＝ｌｏｇ2（f org／f tar）
請求項１に記載の音声変換装置において、
前記音声生成手段は、
前記入力音声信号と当該入力音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成することを特徴とする音声変換装置。
請求項２に記載の音声変換装置において、
前記音声生成手段は、
前記ターゲット音声信号と当該ターゲット音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成する
ことを特徴とする音声変換装置。
入力音声信号の正弦波成分を抽出する正弦波成分抽出工程と、
前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記ターゲット音声信号から予め抽出した周波数軸上におけるターゲットスペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形ターゲットスペクトラル・シェイプを生成するターゲットスペクトラル・シェイプ変形工程と、
前記正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形ターゲットスペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。
入力音声信号から周波数軸上におけるスペクトラル・シェイプを抽出するスペクトラル・シェイプ抽出工程と、
前記入力音声信号のピッチ及びターゲット音声信号のピッチに基づいて定数αを算出し、前記スペクトラル・シェイプを周波数軸方向にα倍シフトすることにより変形スペクトラル・シェイプを生成するスペクトラル・シェイプ変形工程と、
前記ターゲット音声信号から抽出した正弦波成分の周波数を定数倍した周波数であって前記変形スペクトラル・シェイプのブレークポイントの周波数とは異なる新規周波数と、当該新規周波数における前記変形スペクトラル・シェイプの振幅である新規振幅値との各々を含む正弦波成分情報を生成する正弦波成分情報生成工程と、
前記正弦波成分情報から変換音声信号を生成する音声生成工程と
を備えたことを特徴とする音声変換方法。
請求項６または７のいずれかに記載の音声変換方法において、
予め定めたシフト係数をβとし、前記入力音声信号のピッチをf orgとし、前記ターゲット音声信号のピッチをf tarとした場合に、前記αを次式により算出することを特徴とする音声変換方法。
α＝βk
ただし、ｋ＝ｌｏｇ2（f org／f tar）
前記音声生成工程において、
前記入力音声信号と当該入力音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成することを特徴とする請求項６に記載の音声変換方法。
前記音声生成工程において、
前記ターゲット音声信号と当該ターゲット音声信号から抽出した正弦波成分との差分に対応する残差成分、および、前記正弦波成分情報に基づいて変換音声信号を生成する
ことを特徴とする請求項７に記載の音声変換方法。