JP2000122699A

JP2000122699A - 音声変換装置及び音声変換方法

Info

Publication number: JP2000122699A
Application number: JP10293844A
Authority: JP
Inventors: Hiroshi Kayama; 啓嘉山; Sera Xavier; セラザビエル
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 1998-10-15
Filing date: 1998-10-15
Publication date: 2000-04-28
Anticipated expiration: 2018-10-15
Also published as: JP3949828B2

Abstract

(57)【要約】【課題】音声の自然性を損なうことなく、音声変換す
る。【解決手段】ものまねをしようとする歌唱者の音声に
対応する入力音声信号Ｓvを分析して、正弦波成分およ
び残差成分Ｒme(f)を抽出する。正弦波成分は、ターゲ
ット音声信号（ものまね対象となる音声信号）の正弦波
成分に基づいて音声変換処理が施される。また、残差成
分Ｒme(f)は、ターゲット音声信号の残差成分に基づい
て音声変換処理が施され、さらに得られた残差成分は、
くし形フィルタ処理部４１により、そのピッチ成分およ
びその倍音成分が付加される。逆ＦＦＴ処理部２８で
は、属性変換された正弦波成分ＳＩＮnew'と上記フィル
タ処理された残差成分Ｒnew'(f)とを合成した後、逆Ｆ
ＦＴ変換することにより変換音声信号を得る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声変換装置及び
音声変換方法に係り、特にカラオケ等で歌唱者の歌声
が、音声変換の対象となる特定の歌唱者の歌声になるよ
うに、また歌声を別人が歌っているように変換する音声
変換装置及び音声変換方法に関する。

【０００２】

【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある（例えば、特表平８−５０８５
８１号公報参照）。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、音声の変換（例えば、男声→
女声、女声→男声など）は行われるものの、単に声質を
変えるだけに止まっていたので、例えば、特定の歌唱者
（例えば、プロの歌手）の声に似せるように変換すると
いうことはできなかった。また、声質だけでなく、歌い
方までも特定の歌唱者に似させるという、ものまねのよ
うな機能があれば、カラオケ装置などにおいては大変に
面白いが、従来の音声変換装置ではこのような処理は不
可能であった。

【０００４】これらを解決するための手法として、音声
信号を正弦波の合成で表す正弦波（ＳＩＮ）成分と、そ
れ以外の正弦波成分で表すことができない残差（ＲＥＳ
ＩＤＵＡＬ）成分とで表す信号処理により、歌唱者の音
声信号（正弦波成分、残差成分）を、音声変換の対象と
なる特定の歌唱者の音声信号（正弦波成分、残差成分）
に基づいて変形させ、ものまね対象となる声質や歌い方
が反映された音声信号を生成し、伴奏とともに出力する
音声変換装置が考えられる。

【０００５】このような音声変換装置を構成した場合、
残差成分には、ピッチ成分が含まれるため、正弦波成分
と残差成分とをそれぞれ音声変換処理して合成すると、
聴取者は、正弦波成分及び残差成分の各々に含まれるピ
ッチ成分を聴取することとなる。また、残差成分に含ま
れるピッチ及びその倍音声分を除去し、正弦波成分と合
成した場合、残差成分がピッチ成分を持たないことによ
り、その音程が保たれず、正弦波成分、残差成分の各々
を聴取することとなる。従って、上述したいずれの場合
も音声変換処理された音声の自然性が損なわれてしまう
可能性がある。そこで、本発明の目的は、音声の自然性
を損なうことなく、音声変換することができる音声変換
装置及び音声変換方法を提供することにある。

【０００６】

【課題を解決するための手段】上述した問題点を解決す
るために、請求項１記載の構成は、入力音声信号から正
弦波成分を抽出する正弦波成分抽出手段と、前記正弦波
成分抽出手段により抽出された正弦波成分以外の残差成
分を、前記入力音声信号から抽出する残差成分抽出手段
と、前記正弦波成分抽出手段により抽出された正弦波成
分を、ターゲット音声信号の正弦波成分に基づいて変形
する正弦波成分変形手段と、前記残差成分抽出手段によ
り抽出された残差成分を、前記ターゲット音声信号の残
差成分に基づいて変形する残差成分変形手段と、前記残
差成分変形手段により得られた残差成分のピッチ成分お
よびその倍音成分を付加する付加手段と、前記正弦波成
分変形手段により変形された正弦波成分と、前記付加手
段によりピッチ成分およびその倍音成分が付加された残
差成分とを合成する合成手段と、を具備することを特徴
としている。

【０００７】請求項２記載の構成は、請求項１記載の構
成において、前記正弦波成分変形手段により得られた正
弦波成分のピッチを、前記付加手段における通過域のピ
ークのピッチとするピッチ決定手段を具備することを特
徴としている。

【０００８】請求項３記載の構成は、請求項１記載の構
成において、前記付加手段は、前記残差成分を周波数軸
上で保持する場合には、前記ピッチ決定手段により決定
された通過域のピークのピッチを有するくし形フィルタ
であることを特徴としている。

【０００９】請求項４記載の構成は、請求項１記載の構
成において、前記付加手段は、前記残差成分を時間軸上
で保持する場合には、前記ピッチ決定手段により決定さ
れた通過域のピークのピッチの逆数を遅延時間とする遅
延フィルタを有するくし形フィルタであることを特徴と
している。

【００１０】請求項５記載の構成は、入力音声から正弦
波成分及び前記正弦波成分以外の成分である残差成分を
抽出する成分抽出工程と、前記抽出された正弦波成分
を、ターゲット音声の正弦波成分に基づいて変形する正
弦波成分変形工程と、前記抽出された残差成分を、前記
ターゲット音声の残差成分に基づいて変形する残差成分
変形工程と、前記残差成分変形工程において得られた残
差成分にピッチ成分およびその倍音成分を付加する付加
工程と、前記正弦波成分変形工程において変形された正
弦波成分と、前記付加工程において得られたピッチ成分
およびその倍音成分が付加された残差成分とを合成する
合成工程とを具備することを特徴としている。

【００１１】請求項６記載の構成は、請求項５記載の構
成において、前記正弦波成分変形手段により得られた正
弦波成分のピッチを、前記付加手段における減衰ピーク
のピッチとするピッチ決定工程を具備することを特徴と
している。

【００１２】本発明によれば、入力された音声信号から
抽出した正弦波成分及び残差成分とを、ターゲット音声
信号の正弦波成分または残差成分に基づいて各々変形す
る。次いで、変形された正弦波成分と残差成分とを合成
する前に、残差成分にピッチ成分およびその倍音成分を
付加する。したがって、最終的には、正弦波成分のピッ
チ成分のみが聴取されることになり、音声の自然性を向
上させることが可能となる。

【００１３】

【発明の実施の形態】［１］実施形態の概要処理始めに、実施形態の概要処理について説明する。［１．１］ステップＳ１まず、ものまねをしようとする歌唱者（me）の音声（入
力音声信号）をリアルタイムでＦＦＴ（Fast Fourie Tr
ansform）を含むＳＭＳ（Spectral Modeling Synthesi
s）分析を行い、フレーム単位で正弦波成分（Sine成
分）を抽出するとともに、入力音声信号及び正弦波成分
からフレーム単位で残差成分（Residual成分）Ｒmeを生
成する。これと並行して入力音声信号が無声音（含む無
音）か否かを判別し、無声音である場合には、以下のス
テップＳ２〜ステップＳ６の処理は行わず、入力音声信
号をそのまま出力することとなる。この場合において、
ＳＭＳ分析としては、前回のフレームにおけるピッチに
応じて分析窓幅を変更するピッチ同期分析を採用してい
る。

【００１４】［１．２］ステップＳ２次に入力音声信号が有声音である場合には、抽出した正
弦波成分からさらに元属性（Attribute）データである
ピッチ（Pitch）、アンプ（Amplitude）及びスペクトラ
ル・シェイプ（Spectral Shape）を抽出する。さらに抽
出したピッチ及びアンプについては、ビブラート成分及
びビブラート成分以外の他の成分に分離する。

【００１５】［１．３］ステップＳ３予め記憶（保存）してあるものまねの対象（Target）と
なる歌唱者の属性データ（ターゲット属性データ＝ピッ
チ、アンプ及びスペクトラル・シェイプ）から、ものま
ねをしようとする歌唱者（me）の入力音声信号のフレー
ムに対応するフレームのターゲット属性データ（＝ピッ
チ、アンプ及びスペクトラル・シェイプ）を取り出す。
この場合において、ものまねをしようとする歌唱者（m
e）の入力音声信号のフレームに対応するフレームのタ
ーゲット属性データが存在しない場合には、後に詳述す
るように、予め定めたイージーシンクロナイゼーション
規則（Easy Synchronization Rule）に従って、ターゲ
ット属性データを生成し、同様の処理を行う。

【００１６】［１．４］ステップＳ４次にものまねをしようとする歌唱者（me）に対応する元
属性データ及びものまねの対象となる歌唱者に対応する
ターゲット属性データを適宜選択して組み合わせること
により、新しい属性データ（新属性データ＝ピッチ、ア
ンプ及びスペクトラル・シェイプ）を得る。なお、もの
まねではなく、単なる音声変換として用いる場合には、
元属性データ及びターゲット属性データの加算平均とし
て新属性データを得るなどの元属性データ及びターゲッ
ト属性データの双方に基づいて計算により新属性データ
を得るようにすることも可能である。

【００１７】［１．５］ステップＳ５つづいて得られた新属性データに基づいて、当該フレー
ムの正弦波成分ＳＩＮnewを求める。さらに、該正弦波
成分ＳＩＮnewのアンプ、スペクトラル・シェープ等を
変形し、正弦波成分ＳＩＮnew'を生成する。［１．６］ステップＳ６また、ステップＳ１で求めた入力音声信号の残差成分Ｒ
me(f)を、ターゲットの残差成分Ｒtar(f)に基づいて変
形し、新たな残差成分Ｒnew(f)を求める。

【００１８】［１．７］ステップＳ７また、変形した正弦波成分ＳＩＮnew'のピッチＰattを
くし形フィルタのピッチ（Ｐcomb）とする。［１．８］ステップＳ８つづいて、得られたピッチＰcombに基づいて、くし形フ
ィルタを構成し、ステップＳ６で求めた残差成分Ｒnew
(f)をフィルタリングすることで、残差成分Ｒnew(f)に
ピッチ成分およびその倍音成分を付加し、新たな残差成
分Ｒnew'(f)を取得する。

【００１９】［１．９］ステップＳ９そして、ステップＳ５で求めた正弦波成分ＳＩＮnew'
と、ステップＳ８で求めた新たな残差成分Ｒnew'(f)と
を合成した後、逆ＦＦＴを行い、変換音声信号を得る。［１．１０］まとめこれらの処理の結果得られる変換音声信号によれば、再
生される音声は、物まねをしようとする歌唱者の歌声
が、あたかも、別の歌唱者（ターゲットの歌唱者）が歌
った歌声のようになる。さらに、残差成分Ｒnew(f)にピ
ッチ成分およびその倍音成分が付加されるので、最終的
には、正弦波成分のピッチ成分のみが聴取されることに
なり、音声の自然性を損なうことがない。

【００２０】［２］実施形態の詳細構成次に図面を参照してこの発明の実施形態について説明す
る。図１及び図２に、実施形態の詳細構成図を示す。な
お、本実施形態は、本発明による音声変換装置（音声変
換方法）をカラオケ装置に適用し、ものまねを行うこと
ができるカラオケ装置として構成した場合の例である。
図１において、マイク１は、ものまねをしようとする歌
唱者（me）の声を収集し、入力音声信号Ｓｖとして入力
音声信号切出部３に出力する。

【００２１】これと並行して、分析窓生成部２は、前回
のフレームで検出したピッチの周期の固定倍（例えば、
３．５倍など）の周期を有する分析窓（例えば、ハミン
グ窓）ＡＷを生成し、入力音声信号切出部３に出力す
る。なお、初期状態あるいは前回のフレームが無声音
（含む無音）の場合には、予め設定した固定周期の分析
窓を分析窓ＡＷとして入力音声信号切出部３に出力す
る。これらにより入力音声信号切出部３は、入力された
分析窓ＡＷと入力音声信号Ｓvとを掛け合わせ、入力音
声信号Ｓvをフレーム単位で切り出し、フレーム音声信
号ＦＳvとして高速フーリエ変換部４に出力する。より
具体的には、入力音声信号Ｓｖとフレームとの関係は、
図３に示すようになっており、各フレームＦＬは、前の
フレームＦＬと一部重なるように設定されている。

【００２２】そして、高速フーリエ変換部４においてフ
レーム音声信号ＦＳvは、解析処理されるとともに、図
４に示すように、高速フーリエ変換部４の出力である周
波数スペクトルからピーク検出部５によりローカルピー
クが検出される。より具体的には、図４に示すような周
波数スペクトルに対して、×印を付けたローカルピーク
を検出する。このローカルピークは、周波数値とアンプ
（振幅）値の組み合わせとして表される。すなわち、図
４に示すように、（Ｆ０、Ａ０）、（Ｆ１、A１）、
（Ｆ２、Ａ２）、……、（ＦＮ、ＡＮ）というように各
フレームについてローカルピークが検出され、表される
こととなる。

【００２３】そして、図３に模式的に示すように、各フ
レーム毎に一組（以下、ローカルピーク組という。）と
して無声／有声検出部６及びピーク連携部８に出力され
る。無声／有声検出部６は、入力されたフレーム毎のロ
ーカルピークに基づいて、高周波成分の大きさに応じて
無声であることを検出（'ｔ'、'ｋ'等）し、無声／有声
検出信号Ｕ／Ｖmeをピッチ検出部７、イージーシンクロ
ナイゼーション処理部２２及びクロスフェーダ３０に出
力する。あるいは、時間軸上で単位時間あたりの零クロ
ス数に応じて無声であることを検出（'ｓ'等）し、元無
声／有声検出信号Ｕ／Ｖmeをピッチ検出部７、イージー
シンクロナイゼーション処理部２２及びクロスフェーダ
３０に出力する。

【００２４】さらに無声／有声検出部６は、入力された
フレームについて無声であると検出されなかった場合に
は、入力されたローカルピーク組をそのまま、ピッチ検
出部７に出力する。ピッチ検出部７は、入力されたロー
カルピーク組に基づいて、当該ローカルピーク組が対応
するフレームのピッチＰmeを検出する。より具体的なフ
レームのピッチＰmeの検出方法としては、例えば、Mahe
r,R.C.andJ.W.Beauchamp:"Fundamental Frequency Esti
mation of Musical Signal using a two-way Mismatch
Procedure"（Journal of Acounstical Society of Amer
ica95(4):2254-2263）に開示されているような方法で行
う。

【００２５】次に、ピーク検出部５から出力されたロー
カルピーク組は、ピーク連携部８において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図５を参照して説明する。
今、図５（Ａ）に示すようなローカルピークが前回のフ
レームにおいて検出され、図５（Ｂ）に示すようなロー
カルピークが今回のフレームにおいて検出されたとす
る。

【００２６】この場合、ピーク連携部８は、前回のフレ
ームで検出された各ローカルピーク（Ｆ０、Ａ０）、
（Ｆ１、A１）、（Ｆ２、Ａ２）、……、（ＦＮ、Ａ
Ｎ）に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。より具体的には、図５の例では、ローカルピーク
（Ｆ０、Ａ０）、（Ｆ１、A１）、（Ｆ２、Ａ２）……
については、対応するローカルピークが検出されている
が、ローカルピーク（ＦＫ、ＡＫ）については（図５
（Ａ）参照）、対応するローカルピーク（図５（Ｂ）参
照）は検出されていない。

【００２７】ピーク連携部８は、対応するローカルピー
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図６は、複数のフレームにわたるローカ
ルピークの周波数Ｆ０及び周波数Ｆ１の変化の一例を示
している。このような変化は、アンプ（振幅）Ａ０、Ａ
１、Ａ２、……についても同様に認められる。この場
合、ピーク連携部８から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。

【００２８】なお、ピーク連携部８から出力されるピー
ク値を、以後において、確定成分という。これは、元の
信号（すなわち、音声信号Ｓｖ）のうち正弦波の要素と
して確定的に置き換えられる成分という意味である。ま
た、置き換えられた各正弦波（厳密には、正弦波のパラ
メータである周波数及びアンプ（振幅））の各々につい
ては、正弦波成分と呼ぶことにする。次に、補間合成部
９は、ピーク連携部８から出力される確定成分について
補間処理を行い、補間後の確定成分に基づいていわゆる
オシレータ方式で波形合成を行う。この場合の補間の間
隔は、後述する出力部３４が出力する最終出力信号のサ
ンプリングレート（例えば、４４．１ＫＨｚ）に対応し
た間隔で行われる。前述した図６に示す実線は、正弦波
成分の周波数Ｆ０、Ｆ１について補間処理が行われた場
合のイメージを示している。

【００２９】［２．１］補間合成部の構成ここで、補間合成部９の構成を図７に示す。補間合成部
９は、複数の部分波形発生部９ａを備えて構成されてお
り、各部分波形発生部９ａは、指定された正弦波成分の
周波数（Ｆ０、Ｆ１、…）およびアンプ（振幅）に応じ
た正弦波を発生する。ただし、本第１実施形態における
正弦波成分（Ｆ０、Ａ０）、（Ｆ１、Ａ１）、（Ｆ２、
Ａ２）、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部９ａから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部８からは正弦波成分（Ｆ０、Ａ０）、
（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部９ａは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部９ａから出力された波形は、加算部９ｂにお
いて加算合成される。したがって、補間合成部９の出力
信号は、入力音声信号Ｓｖから確定成分を抽出した正弦
波成分合成信号ＳSSになる。

【００３０】［２．２］残差成分検出部の動作次に、残差成分検出部１０は、補間合成部９から出力さ
れた正弦波成分合成信号ＳSSと入力音声信号Ｓｖとの偏
差である残差成分信号ＳRD（時間波形）を生成する。こ
の残差成分信号ＳRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号ＳSSは有声成分
に対応するものである。ところで、目標（Target）とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号ＳRDについては、
高速フーリエ変換部１１で、周波数波形に変換し、得ら
れた残差成分信号（周波数波形）をＲme(f)として残差
成分保持部１２に保持しておく。

【００３１】［２．３］平均アンプ演算部の動作一方、図８（Ａ）に示すように、ピーク検出部５からピ
ーク連携部８を介して出力された正弦波成分（Ｆ０、Ａ
０）、（Ｆ１、Ａ１）、（Ｆ２、Ａ２）、……、（Ｆ(N
-1)、Ａ(N-1)）のＮ個の正弦波成分（以下、これらをま
とめてＦｎ、Ａｎと表記する。ｎ＝０〜（Ｎ−１）。）
は、正弦波成分保持部１３に保持されるとともに、アン
プＡｎは平均アンプ演算部１４に入力され、各フレーム
毎に次式により平均アンプＡmeが算出される。Ａme＝Σ（Ａｎ）／Ｎ

【００３２】［２．４］アンプ正規化部の動作次にアンプ正規化部１５において、次式により各アンプ
Ａｎを平均アンプＡmeで正規化し、正規化アンプＡ'ｎ
を求める。Ａ'ｎ＝Ａｎ／Ａme ［２．５］スペクトラル・シェイプ演算部の動作そして、スペクトラル・シェイプ演算部１６において、
図８（Ｂ）に示すように、周波数Ｆｎ及び正規化アンプ
Ａ'ｎにより得られる正弦波成分（Ｆｎ、Ａ'ｎ）をブレ
ークポイントとするエンベロープ（包絡線）をスペクト
ラル・シェイプＳme(f)として生成する。この場合にお
いて、二つのブレークポイント間の周波数におけるアン
プの値は、当該二つのブレークポイントを、例えば、直
線補間することにより算出する。なお、補間の方法は直
線補間に限られるものではない。

【００３３】［２．６］ピッチ正規化部の動作続いてピッチ正規化部１７においては、各周波数Ｆｎを
ピッチ検出部７において検出したピッチＰmeで正規化
し、正規化周波数Ｆ'ｎを求める。Ｆ'ｎ＝Ｆｎ／Ｐme これらの結果、元フレーム情報保持部１８は、入力音声
信号Ｓvに含まれる正弦波成分に対応する元属性データ
である平均アンプＡme、ピッチＰme、スペクトラル・シ
ェイプＳme(f)、正規化周波数Ｆ'ｎを保持することとな
る。なお、この場合において、正規化周波数Ｆ'ｎは、
倍音列の周波数の相対値を表しており、もし、フレーム
の倍音構造を完全倍音構造であるとして取り扱うなら
ば、保持する必要はない。この場合において、男声／女
声変換を行おうとしている場合には、この段階におい
て、男声→女声変換を行う場合には、ピッチをオクター
ブ上げ、女声→男声変換を行う場合にはピッチをオクタ
ーブ下げる男声／女声ピッチ制御処理を行うようにする
のが好ましい。

【００３４】つづいて、元フレーム情報保持部１８に保
持している元属性データのうち、平均アンプＡmeおよび
ピッチＰmeについては、さらに静的変化／ビブラート的
変化分離部１９により、フィルタリング処理などを行っ
て、静的変化成分とビブラート変化的成分とに分離して
保持する。なお、さらにビブラート変化的成分からより
高周波変化成分であるジッタ変化的成分を分離するよう
に構成することも可能である。より具体的には、平均ア
ンプＡmeを平均アンプ静的成分Ａme-sta及び平均アンプ
ビブラート的成分Ａme-vibとに分離して保持する。ま
た、ピッチＰmeをピッチ静的成分Ｐme-sta及びピッチビ
ブラート的成分Ｐme-vibとに分離して保持する。

【００３５】これらの結果、対応するフレームの元フレ
ーム情報データＩＮＦmeは、図８（Ｃ）に示すように、
入力音声信号Ｓvの正弦波成分に対応する元属性データ
である平均アンプ静的成分Ａme-sta、平均アンプビブラ
ート的成分Ａme-vib、ピッチ静的成分Ｐme-sta、ピッチ
ビブラート的成分Ｐme-vib、スペクトラル・シェイプＳ
me(f)、正規化周波数Ｆ'ｎ及び残差成分Ｒme（ｆ）の形
で保持されることとなる。

【００３６】一方、ものまねの対象（target）となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データＩＮＦtarは、予め分析さ
れてターゲットフレーム情報保持部２０を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データＩＮＦtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Ａtar-sta、平均アンプビブラート
的成分Ａtar-vib、ピッチ静的成分Ｐtar-sta、ピッチビ
ブラート的成分Ｐtar-vib、スペクトラル・シェイプＳt
ar(f)がある。また、ターゲットフレーム情報データＩ
ＮＦtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Ｒtar(f)がある。

【００３７】［２．７］キーコントロール／テンポチ
ェンジ部の動作次にキーコントロール／テンポチェンジ部２１は、シー
ケンサ３１からの同期信号ＳSYNCに基づいて、ターゲッ
トフレーム情報保持部２０から同期信号ＳSYNCに対応す
るフレームのターゲットフレーム情報ＩＮＦtarの読出
処理及び読み出したターゲットフレーム情報データＩＮ
Ｆtarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報ＩＮＦ
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声／有声検出信号Ｕ／Ｖtarを出力す
る。

【００３８】より具体的には、キーコントロール／テン
ポチェンジ部２１の図示しないキーコントロールユニッ
トは、カラオケ装置のキーを基準より上げ下げした場
合、ターゲット属性データであるピッチ静的成分Ｐtar-
sta及びピッチビブラート的成分Ｐtar-vibについても、
同じだけ上げ下げする補正処理を行う。例えば、５０
［cent］だけキーを上げた場合には、ピッチ静的成分Ｐ
tar-sta及びピッチビブラート的成分Ｐtar-vibについて
も５０［cent］だけ上げなければならない。また、キー
コントロール／テンポチェンジ部２１の図示しないテン
ポチェンジユニットは、カラオケ装置のテンポを上げ下
げした場合には、変更後のテンポに相当するタイミング
で、ターゲットフレーム情報データＩＮＦtarの読み出
し処理を行う必要がある。

【００３９】この場合において、必要なフレームに対応
するタイミングに相当するターゲットフレーム情報デー
タＩＮＦtarが存在しない場合には、当該必要なフレー
ムのタイミングの前後のタイミングに存在する二つのフ
レームのターゲットフレーム情報データＩＮＦtarを読
み出し、これら二つのターゲットフレーム情報データＩ
ＮＦtarにより補間処理を行い、当該必要なタイミング
におけるフレームのターゲットフレーム情報データＩＮ
Ｆtar、ひいては、ターゲット属性データを生成する。
この場合において、ビブラート的成分（平均アンプビブ
ラート的成分Ａtar-vib及びピッチビブラート的成分Ｐt
ar-vib）に関しては、そのままでは、ビブラートの周期
自体が変化してしまい、不適当であるので、周期が変動
しないような補間処理を行う必要がある。又は、ターゲ
ット属性データとして、ビブラートの軌跡そのものを表
すデータではなく、ビブラート周期及びビブラート深さ
のパラメータを保持し、実際の軌跡を演算により求める
ようにすれば、この不具合を回避することができる。

【００４０】［２．８］イージーシンクロナイゼーシ
ョン処理部の動作次にイージーシンクロナイゼーション処理部２２は、も
のまねをしようとする歌唱者のフレーム（以下、元フレ
ームという。）に元フレーム情報データＩＮＦmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム（以下、ターゲットフレームという。）
にターゲットフレーム情報データＩＮＦtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データＩＮＦta
rを当該ターゲットフレームのターゲットフレーム情報
データＩＮＦtarとするイージーシンクロナイゼーショ
ン処理を行う。

【００４１】そして、イージーシンクロナイゼーション
処理部２２は、後述する置換済ターゲットフレーム情報
データＩＮＦtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ（平均
アンプ静的成分Ａtar-sync-sta、平均アンプビブラート
的成分Ａtar-sync-vib、ピッチ静的成分Ｐtar-sync-st
a、ピッチビブラート的成分Ｐtar-sync-vib及びスペク
トラル・シェイプＳtar-sync(f)）を正弦波成分属性デ
ータ選択部２３に出力する。また、イージーシンクロナ
イゼーション処理部２２は、後述する置換済ターゲット
フレーム情報データＩＮＦtar-syncに含まれるターゲッ
ト属性データのうち残差成分に関するターゲット属性デ
ータ（残差成分Ｒtar-sync(f)）を残差成分選択部２５
に出力する。

【００４２】このイージーシンクロナイゼーション処理
部２２における処理においても、ビブラート的成分（平
均アンプビブラート的成分Ａtar-vib及びピッチビブラ
ート的成分Ｐtar-vib）に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。

【００４３】［２．８．１］イージーシンクロナイゼ
ーション処理の詳細ここで、図９及び図１０を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図９は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図１０はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション処理部２２は、シンクロナイゼーション処理
の方法を表すシンクロナイゼーションモード＝"０"とす
る（ステップＳ１１）。このシンクロナイゼーションモ
ード＝"０"は、元フレームに対応するターゲットフレー
ムにターゲットフレーム情報データＩＮＦtarが存在す
る通常処理の場合に相当する。

【００４４】そしてあるタイミングｔにおける元無声／
有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）
に変化したか否かを判別する（ステップＳ１２）。例え
ば、図９に示すように、タイミングｔ＝ｔ1において
は、元無声／有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）か
ら有声（Ｖ）に変化している。ステップＳ１２の判別に
おいて、元無声／有声検出信号Ｕ／Ｖme(t)が無声
（Ｕ）から有声（Ｖ）に変化している場合には（ステッ
プＳ１２；Ｙｅｓ）、タイミングｔの前回のタイミング
ｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が無
声（Ｕ）かつターゲット無声／有声検出信号Ｕ／Ｖtar
(t-1)が無声（Ｕ）であるか否かを判別する（ステップ
Ｓ１８）。

【００４５】例えば、図９に示すように、タイミングｔ
＝ｔ0（＝ｔ1-1）においては、元無声／有声検出信号Ｕ
／Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検
出信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている。ステ
ップＳ１８の判別において、元無声／有声検出信号Ｕ／
Ｖme(t-1)が無声（Ｕ）かつターゲット無声／有声検出
信号Ｕ／Ｖtar(t-1)が無声（Ｕ）となっている場合には
（ステップＳ１８；Ｙｅｓ）、当該ターゲットフレーム
には、ターゲットフレーム情報データＩＮＦtarが存在
しないので、シンクロナイゼーションモード＝"１"と
し、置換用のターゲットフレーム情報データＩＮＦhold
を当該ターゲットフレームの後方向（Backward）に存在
するフレームのターゲットフレーム情報とする。

【００４６】例えば、図９に示すように、タイミングｔ
＝ｔ1〜ｔ2のターゲットフレームには、ターゲットフレ
ーム情報データＩＮＦtarが存在しないので、シンクロ
ナイゼーションモード＝"１"とし、置換用ターゲットフ
レーム情報データＩＮＦholdを当該ターゲットフレーム
の後方向に存在するフレーム（すなわち、タイミングｔ
＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム
情報データbackwardとする。そして、処理をステップＳ
１５に移行し、シンクロナイゼーションモード＝"0"で
あるか否かを判別する（ステップＳ１５）。

【００４７】ステップＳ１５の判別において、シンクロ
ナイゼーションモード＝"０"である場合には、タイミン
グｔにおける元フレームに対応するターゲットフレーム
にターゲットフレーム情報データＩＮＦtar(t)が存在す
る場合、すなわち、通常処理であるので、置換済ターゲ
ットフレーム情報データＩＮＦtar-syncをターゲットフ
レーム情報データＩＮＦtar(t)とする。ＩＮＦtar-sync＝ＩＮＦtar(t) 例えば、図９に示すようにタイミングｔ＝ｔ2〜ｔ3のタ
ーゲットフレームには、ターゲットフレーム情報データ
ＩＮＦtarが存在するので、ＩＮＦtar-sync＝ＩＮＦtar(t) とする。

【００４８】この場合において、以降の処理に用いられ
る置換済ターゲットフレーム情報データＩＮＦtar-sync
に含まれるターゲット属性データ（平均アンプ静的成分
Ａtar-sync-sta、平均アンプビブラート的成分Ａtar-sy
nc-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラ
ート的成分Ｐtar-sync-vib、スペクトラル・シェイプＳ
tar-sync(f)及び残差成分Ｒtar-sync(f)）は実質的に
は、以下の内容となる（ステップＳ１６）。Ａtar-sync-sta＝Ａtar-sta Ａtar-sync-vib＝Ａtar-vib Ｐtar-sync-sta＝Ｐtar-sta Ｐtar-sync-vib＝Ｐtar-vib Ｓtar-sync(f)＝Ｓtar(f) Ｒtar-sync(f)＝Ｒtar(f)

【００４９】ステップＳ１５の判別において、シンクロ
ナイゼーションモード＝"１"またはシンクロナイゼーシ
ョンモード＝"２"である場合には、タイミングｔにおけ
る元フレームに対応するターゲットフレームにターゲッ
トフレーム情報データＩＮＦtar(t)が存在しない場合で
あるので、置換済ターゲットフレーム情報データＩＮＦ
tar-syncを置換用ターゲットフレーム情報データＩＮＦ
holdとする。ＩＮＦtar-sync＝ＩＮＦhold 例えば、図９に示すように、タイミングｔ＝ｔ1〜ｔ2の
ターゲットフレームには、ターゲットフレーム情報デー
タＩＮＦtarが存在せず、シンクロナイゼーションモー
ド＝"１"となるが、タイミングｔ＝ｔ2〜ｔ3のターゲッ
トフレームには、ターゲットフレーム情報データＩＮＦ
tarが存在するので、置換済ターゲットフレーム情報デ
ータＩＮＦtar-syncをタイミングｔ＝ｔ2〜ｔ3のターゲ
ットフレームのターゲットフレーム情報データである置
換用ターゲットフレーム情報データＩＮＦholdとする処
理Ｐ１を行い、以降の処理に用いられる置換済ターゲッ
トフレーム情報データＩＮＦtar-syncに含まれるターゲ
ット属性データは、平均アンプ静的成分Ａtar-sync-st
a、平均アンプビブラート的成分Ａtar-sync-vib、ピッ
チ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐ
tar-sync-vib、スペクトラル・シェイプＳtar-sync(f)
及び残差成分Ｒtar-sync(f)となる（ステップＳ１
６）。

【００５０】また、図９に示すように、タイミングｔ＝
ｔ3〜ｔ4のターゲットフレームには、ターゲットフレー
ム情報データＩＮＦtarが存在せず、シンクロナイゼー
ションモード＝"２"となるが、タイミングｔ＝ｔ2〜ｔ3
のターゲットフレームには、ターゲットフレーム情報デ
ータＩＮＦtarが存在するので、置換済ターゲットフレ
ーム情報データＩＮＦtar-syncをタイミングｔ＝ｔ2〜
ｔ3のターゲットフレームのターゲットフレーム情報デ
ータである置換用ターゲットフレーム情報データＩＮＦ
holdとする処理Ｐ２を行い、以降の処理に用いられる置
換済ターゲットフレーム情報データＩＮＦtar-syncに含
まれるターゲット属性データは、平均アンプ静的成分Ａ
tar-sync-sta、平均アンプビブラート的成分Ａtar-sync
-vib、ピッチ静的成分Ｐtar-sync-sta、ピッチビブラー
ト的成分Ｐtar-sync-vib、スペクトラル・シェイプＳta
r-sync(f)及び残差成分Ｒtar-sync(f)となる（ステップ
Ｓ１６）。

【００５１】ステップＳ１２の判別において、元無声／
有声検出信号Ｕ／Ｖme(t)が無声（Ｕ）から有声（Ｖ）
に変化していない場合には（ステップＳ１２；Ｎｏ）、
ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声
（Ｖ）から無声（Ｕ）に変化しているか否かを判別する
（ステップＳ１３）。ステップＳ１３の判別において、
ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が有声
（Ｖ）から無声（Ｕ）に変化している場合には（ステッ
プＳ１３；Ｙｅｓ）、タイミングｔの前回のタイミング
ｔ-1における元無声／有声検出信号Ｕ／Ｖme(t-1)が有
声（Ｖ）かつターゲット無声／有声検出信号Ｕ／Ｖtar
(t-1)が有声（Ｖ）であるか否かを判別する（ステップ
Ｓ１９）。

【００５２】例えば、図９に示すように、タイミングｔ
3においてターゲット無声／有声検出信号Ｕ／Ｖtar(t)
が有声（Ｖ）から無声（Ｕ）に変化し、タイミングｔ-1
＝ｔ2〜ｔ3においては、元無声／有声検出信号Ｕ／Ｖme
(t-1)が有声（Ｖ）かつターゲット無声／有声検出信号
Ｕ／Ｖtar(t-1)が有声（Ｕ）となっている。ステップＳ
１９の判別において、元無声／有声検出信号Ｕ／Ｖme(t
-1)が有声（Ｖ）かつターゲット無声／有声検出信号Ｕ
／Ｖtar(t-1)が有声（Ｖ）となっている場合には（ステ
ップＳ１９；Ｙｅｓ）、当該ターゲットフレームには、
ターゲットフレーム情報データＩＮＦtarが存在しない
ので、シンクロナイゼーションモード＝"２"とし、置換
用のターゲットフレーム情報データＩＮＦholdを当該タ
ーゲットフレームの前方向（forward）に存在するフレ
ームのターゲットフレーム情報とする。

【００５３】例えば、図９に示すように、タイミングｔ
＝ｔ3〜ｔ4のターゲットフレームには、ターゲットフレ
ーム情報データＩＮＦtarが存在しないので、シンクロ
ナイゼーションモード＝"２"とし、置換用ターゲットフ
レーム情報データＩＮＦholdを当該ターゲットフレーム
の前方向に存在するフレーム（すなわち、タイミングｔ
＝ｔ2〜ｔ3に存在するフレーム）のターゲットフレーム
情報データforwardとする。そして、処理をステップＳ
１５に移行し、シンクロナイゼーションモード＝"０"で
あるか否かを判別して（ステップＳ１５）、以下、同様
の処理を行う。ステップＳ１３の判別において、ターゲ
ット無声／有声検出信号Ｕ／Ｖtar(t)が有声（Ｖ）から
無声（Ｕ）に変化していない場合には（ステップＳ１
３；Ｎｏ）、タイミングｔにおける元無声／有声検出信
号Ｕ／Ｖme(t)が有声（Ｖ）から無声（Ｕ）に変化し、
あるいは、ターゲット無声／有声検出信号Ｕ／Ｖtar(t)
が無声（Ｕ）から有声（Ｖ）に変化しているか否かを判
別する（ステップＳ１４）。

【００５４】ステップＳ１４の判別において、タイミン
グｔにおける元無声／有声検出信号Ｕ／Ｖme(t)が有声
（Ｖ）から無声（Ｕ）に変化し、かつ、ターゲット無声
／有声検出信号Ｕ／Ｖtar(t)が無声（Ｕ）から有声
（Ｖ）に変化している場合には（ステップＳ１４；Ｙｅ
ｓ）、シンクロナイゼーションモード＝"０"とし、置換
用ターゲットフレーム情報データＩＮＦholdを初期化
（clear）し、処理をステップＳ１５に移行して、以
下、同様の処理を行う。ステップＳ１４の判別におい
て、タイミングｔにおける元無声／有声検出信号Ｕ／Ｖ
me(t)が有声（Ｖ）から無声（Ｕ）に変化せず、かつ、
ターゲット無声／有声検出信号Ｕ／Ｖtar(t)が無声
（Ｕ）から有声（Ｖ）に変化していない場合には（ステ
ップＳ１４；Ｎｏ）、そのまま処理をステップＳ１５に
移行し、以下同様の処理を行う。

【００５５】［２．９］正弦波成分属性データ選択部
の動作続いて、正弦波成分属性データ選択部２３は、イージー
シンクロナイゼーション処理部２２から入力された置換
済ターゲットフレーム情報データＩＮＦtar-syncに含ま
れるターゲット属性データのうち正弦波成分に関するタ
ーゲット属性データ（平均アンプ静的成分Ａtar-sync-s
ta、平均アンプビブラート的成分Ａtar-sync-vib、ピッ
チ静的成分Ｐtar-sync-sta、ピッチビブラート的成分Ｐ
tar-sync-vib及びスペクトラル・シェイプＳtar-sync
(f)）及びコントローラ２９から入力される正弦波成分
属性データ選択情報に基づいて、新しい正弦波成分属性
データである新規アンプ成分Ａnew、新規ピッチ成分Ｐn
ew及び新規スペクトラル・シェイプＳnew(f)を生成す
る。

【００５６】すなわち、新規アンプ成分Ａnewについて
は、次式により生成する。Ａnew＝Ａ*-sta＋Ａ*-vib（ただし、*は、me又はtar-sy
nc）より具体的には、図８（Ｄ）に示すように、新規アンプ
成分Ａnewを元属性データの平均アンプ静的成分Ａme-st
aあるいはターゲット属性データの平均アンプ静的成分
Ａtar-sync-staのいずれか一方及び元属性データの平均
アンプビブラート的成分Ａme-vibあるいはターゲット属
性データの平均アンプビブラート的成分Ａtar-sync-vib
のいずれか一方の組み合わせとして生成する。また、新
規ピッチ成分Ｐnewについては、次式により生成する。Ｐnew＝Ｐ*-sta＋Ｐ*-vib（ただし、*は、me又はtar-sy
nc）

【００５７】より具体的には、図８（Ｄ）に示すよう
に、新規ピッチ成分Ｐnewを元属性データのピッチ静的
成分Ｐme-staあるいはターゲット属性データのピッチ静
的成分Ｐtar-sync-staのいずれか一方及び元属性データ
のピッチビブラート的成分Ｐme-vibあるいはターゲット
属性データのピッチビブラート的成分Ｐtar-sync-vibの
いずれか一方の組み合わせとして生成する。また、新規
スペクトラル・シェイプＳnew(f)については、次式によ
り生成する。Ｓnew(f)＝Ｓ*(f)（ただし、*は、me又はtar-sync）

【００５８】ところで、一般的にアンプ成分が大きい場
合には、高域まで伸びた抜けの明るい音となり、アンプ
成分が小さい場合には、逆にこもった音になる。そこ
で、新規スペクトラル・シェイプＳnew(f)に関しては、
このような状態をシミュレートすべく、図１１に示すよ
うに、スペクトラル・シェイプの高域成分、すなわち、
高域成分部分のスペクトラル・シェイプの傾きを新規ア
ンプ成分Ａnewの大きさに応じて補償するスペクトラル
チルト補償（spectral tilt correction）を行って、コ
ントロールすることにより、よりリアルな音声を再生す
ることができる。続いて、生成された新規アンプ成分Ａ
new、新規ピッチ成分Ｐnew及び新規スペクトラル・シェ
イプＳnew(f)について、必要に応じてコントローラ２９
から入力される正弦波成分属性データ変形情報に基づい
て、属性データ変形部２４によりさらなる変形を行う。
例えば、スペクトラル・シェイプを全体的に間延びさせ
る等の変形を行う。属性データ変形部２４は、変形後の
正弦波成分のピッチＰattをピッチ決定部４０へ供給す
る。

【００５９】［２．１０］残差成分選択部の動作一方、残差成分選択部２５は、イージーシンクロナイゼ
ーション処理部２２から入力された置換済ターゲットフ
レーム情報データＩＮＦtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ（残差成分Ｒtar-sync(f)）、残差成分保持部１２に
保持されている残差成分信号（周波数波形）Ｒme(f)及
びコントローラ２９から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Ｒnew(f)を生成する。すなわち、新規残差成
分Ｒnew(f)については、次式により生成する。Ｒnew(f)＝Ｒ*(f)（ただし、*は、me又はtar-sync）

【００６０】この場合においては、me又はtar-syncのい
ずれを選択するかは、新規スペクトラル・シェイプＳne
w(f)と同一のものを選択するのがより好ましい。さら
に、新規残差成分Ｒnew(f)に関しても、新規スペクトラ
ル・シェイプと同様な状態をシミュレートすべく、図１
１に示したように、残差成分の高域成分、すなわち、高
域成分部分の残差成分の傾きを新規アンプ成分Ａnewの
大きさに応じて補償するスペクトラルチルト補償（spec
tral tilt correction）を行って、コントロールするこ
とにより、よりリアルな音声を再生することができる。

【００６１】［２．１１］正弦波成分生成部の動作続いて、正弦波成分生成部２６は、属性データ変形部２
４から出力された変形を伴わない、あるいは、変形を伴
う新規アンプ成分Ａnew、新規ピッチ成分Ｐnew及び新規
スペクトラル・シェイプＳnew(f)に基づいて、当該フレ
ームにおける新たな正弦波成分（Ｆ"０、Ａ"０）、
（Ｆ"１、Ａ"１）、（Ｆ"２、Ａ"２）、……、（Ｆ"(N-
1)、Ａ"(N-1)）のＮ個の正弦波成分（以下、これらをま
とめてＦ"ｎ、Ａ"ｎと表記する。ｎ＝０〜（Ｎ−
１）。）を求める。より具体的には、次式により新規周
波数Ｆ"ｎおよび新規アンプＡ"ｎを求める。Ｆ"ｎ＝Ｆ'ｎ×Ｐnew Ａ"ｎ＝Ｓnew(Ｆ"ｎ）×Ａnew なお、完全倍音構造のモデルとして捉えるのであれば、Ｆ"ｎ＝（ｎ＋１）×Ｐnew となる。

【００６２】［２．１２］正弦波成分変形部の動作さらに、求めた新規周波数Ｆ"ｎおよび新規アンプＡ"ｎ
について、必要に応じてコントローラ２９から入力され
る正弦波成分変形情報に基づいて、正弦波成分変形部２
７によりさらなる変形を行う。例えば、偶数次成分の新
規アンプＡ"ｎ（＝Ａ"０、Ａ"２、Ａ"４、……）だけを
大きく（例えば、２倍する）等の変形を行う。これによ
って得られる変換音声にさらにバラエティーを持たせる
ことが可能となる。

【００６３】［２．１３］ピッチ決定部の動作くし形フィルタのピッチ決定部４０は、属性データ変形
部２４からのピッチＰattをくし形フィルタのピッチ
（Ｐcomb）とし、くし形フィルタ処理部４１へ供給す
る。

【００６４】［２．１４］くし形フィルタ処理部の動
作くし形フィルタ処理部４１は、ピッチＰcombを用いて、
くし形フィルタを構成し、該くし形フィルタで残差成分
Ｒnew(f)をフィルタリングすることで、残差成分Ｒnew
(f)からピッチ成分およびその倍音成分を取り除き、新
たな残差成分Ｒnew'(f)として、逆高速フーリエ変換部
２８へ供給する。ここで、図１２は、ピッチＰcombを２
００Ｈｚとした場合のくし形フィルタの特性例を示す概
念図である。このように、残差成分を周波数軸上で保持
している場合には、ピッチＰcombに基づいて周波数軸上
でくし形フィルタを構成する。

【００６５】［２．１５］逆高速フーリエ変換部の動
作次に逆高速フーリエ変換部２８は、求めた新規周波数
Ｆ"ｎおよび新規アンプＡ"ｎ（＝新規正弦波成分）並び
に新規残差成分Ｒnew'(f)をＦＦＴバッファに格納し、
順次逆ＦＦＴを行い、さらに得られた時間軸信号を一部
重複するようにオーバーラップ処理し、それらを加算す
る加算処理を行うことにより新しい有声音の時間軸信号
である変換音声信号を生成する。

【００６６】このとき、コントローラ２９から入力され
る正弦波成分／残差成分バランス制御信号に基づいて、
正弦波成分及び残差成分の混合比率を制御し、よりリア
ルな有声信号を得る。この場合において、一般的には、
残差成分の混合比率を大きくするとざらついた声が得ら
れる。この場合において、ＦＦＴバッファに新規周波数
Ｆ"ｎおよび新規アンプＡ"ｎ（＝新規正弦波成分）並び
に新規残差成分Ｒnew(f)を格納するに際し、異なるピッ
チ、かつ、適当なピッチで変換された正弦波成分をさら
に加えることにより変換音声信号としてハーモニーを得
ることができる。さらにシーケンサ３１により伴奏音に
適合したハーモニーピッチを与えることにより、伴奏に
適合した音楽的ハーモニーを得ることができる。

【００６７】［２．１６］クロスフェーダの動作次にクロスフェーダ３０は、元無声／有声検出信号Ｕ／
Ｖme(t)に基づいて、入力音声信号Ｓvが無声（Ｕ）であ
る場合には、入力音声信号Ｓvをそのままミキサ３０に
出力する。また、入力音声信号Ｓvが有声（Ｖ）である
場合には、逆高速フーリエ変換変換部２８が出力した変
換音声信号をミキサ３３に出力する。この場合におい
て、切替スイッチとしてクロスフェーダ３０を用いてい
るのは、クロスフェード動作を行わせることによりスイ
ッチ切替時のクリック音の発生を防止するためである。

【００６８】［２．１７］シーケンサ、音源部、ミキ
サ及び出力部の動作一方、シーケンサ３１は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、ＭＩＤＩ（Musical Inst
rument Digital Interface）データなどとして音源部３
２に出力する。これにより音源部３２は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ３３に出力する。
ミキサ３３は、入力音声信号Ｓvあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部３４に出力する。出力部３４は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。

【００６９】［３］実施形態の変形例［３．１］第１変形例以上の説明においては、属性データとしては、元属性デ
ータあるいはターゲット属性データのいずれかを選択的
に用いる構成としていたが、元属性データ及びターゲッ
ト属性データの双方を用い、補間処理を行うことにより
中間的な属性を有する変換音声信号を得るように構成す
ることも可能である。しかしながら、このような構成に
よれば、ものまねをしようとする歌唱者及びものまねの
対象（target）となる歌唱者のいずれにも似ていない変
換音声が得られる場合もある。また、特にスペクトラル
・シェイプを補間処理によって求めた場合には、ものま
ねをしようとする歌唱者が「あ」を発音し、ものまねの
対象となる歌唱者が「い」を発音している場合などに
は、「あ」でも「い」でもない音が変換音声として出力
される可能性があり、その取扱には注意が必要である。

【００７０】［３．２］第２変形例正弦波成分の抽出は、この実施形態で用いた方法に限ら
ない。要は、音声信号に含まれる正弦波を抽出できれば
よい。［３．３］第３変形例本実施形態においては、ターゲットの正弦波成分及び残
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。

【００７１】［３．４］第４変形例本実施形態においては、属性データとして、ピッチ、ア
ンプ、スペクトラル・シェイプの全てを取り扱ったが、
少なくともいずれか一つを扱うようにすることも可能で
ある。［３．５］第５変形例本実施形態では、残差成分を周波数軸上で保持していた
が、これに限らず、残差成分を時間軸上で保持するよう
にしてもよい。図１３は、上述した実施形態の変形例の
構成（一部）を示すブロック図である。また、図１４
は、くし形フィルタ（遅延フィルタ）の構成の一例を示
すブロック図である。なお、図１に対応する部分には同
一の符号を付けて説明を省略する。図において、くし形
フィルタ処理部４２は、ピッチ決定部４０で決定された
ピッチＰcombの逆数をディレイタイムとする、くし形フ
ィルタ（遅延フィルタ）を構成し、該くし形フィルタで
残差成分Ｒnew(t)をフィルタリングし、残差成分Ｒne
w''(t)として加算器４３に供給する。加算器４３は、残
差成分Ｒnew(t)に上記フィルタリングされた残差成分Ｒ
new''(t)を加算することで、残差成分Ｒnew(t)にピッチ
成分およびその倍音成分を付加し、新たな残差成分Ｒne
w'(t)として、ＩＦＦＴ処理部８へ供給する。このよう
に、残差成分を時間軸上で処理する場合であっても、上
述した実施形態と同様に、残差成分Ｒnew(t)にピッチ成
分およびその倍音成分を付加することが可能となる。し
たがって、最終的に出力される音声には、正弦波成分の
ピッチ成分のみが聴取されることになり、音声の自然性
を向上させることができる。

【００７２】［４］実施形態の効果以上の結果、カラオケの伴奏とともに、歌唱者の歌が出
力されるが、その声質および歌い方などは、ターゲット
の影響を大きく受け、ターゲットそのものの声質および
歌い方となる。このようにして、あたかもターゲットの
物まねをしているような歌が出力される。また、残差成
分Ｒnew(f)にピッチ成分およびその倍音成分が付加され
ることにより残差成分は正弦波成分と等しいピッチ成分
を有することとなるので、正弦波成分と合成することに
より合成された音声は音程が保たれ、音声の自然性を損
なうことがない。

【００７３】

【発明の効果】以上、説明したように、本発明によれ
ば、入力音声信号から抽出した正弦波成分と、残差成分
とを、ターゲット音声の正弦波成分または残差成分に基
づいて各々変形し、次いで、正弦波成分と残差成分とを
合成する前に、変形した残差成分にピッチ成分およびそ
の倍音成分を付加するようにしたので、合成することに
より得られる音声は音程が保たれ、自然性を損なうこと
なく、ものまねしようとする歌唱者の音声（入力された
音声）からものまねの対象となるターゲット歌唱者の声
質や歌い方が反映された変換音声を得ることが容易にで
きる。

【図面の簡単な説明】

【図１】本発明の一実施形態の構成を示すブロック図
（その１）である。

【図２】本発明の一実施形態の構成を示すブロック図
（その２）である。

【図３】実施形態におけるフレームの状態を示す図で
ある。

【図４】実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。

【図５】実施形態におけるフレーム毎のピーク値の連
携を示す図である。

【図６】実施形態における周波数値の変化状態を示す
図である。

【図７】実施形態における処理過程における確定成分
の変化状態を示す図である。

【図８】実施形態における信号処理の説明図である。

【図９】イージーシンクロナイゼーション処理のタイ
ミングチャートである。

【図１０】イージーシンクロナイゼーション処理フロ
ーチャートである。

【図１１】スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。

【図１２】くし形フィルタの特性（ピッチＰcombを２
００Ｈｚとした場合）を説明するための概念図である。

【図１３】本発明の変形例による音声変換装置の構成
（一部）を示すブロック図である。

【図１４】くし形フィルタ（遅延フィルタ）の構成の
一例を示すブロック図である。

【符号の説明】

１…マイク、２…分析窓生成部、３…入力音声信号切出
部、４…高速フーリエ変換部、５…ピーク検出部、６…
無声／有声検出部、７…ピッチ抽出部、８…ピーク連携
部、９…補間合成部、１０…残差成分検出部、１１…高
速フーリエ変換部、１２…残差成分保持部、１３…正弦
波成分保持部、１４…平均アンプ演算部、１５…アンプ
正規化部、１６…スペクトラル・シェイプ演算部、１７
…ピッチ正規化部、１８…元フレーム情報保持部、１９
…静的変化／ビブラート的変化分離部、２０…ターゲッ
トフレーム情報保持部、２１…キーコントロール／テン
ポチェンジ部、２２…イージーシンクロナイゼーション
処理部、２３…正弦波成分属性データ選択部、２４…属
性データ変形部、２５…残差成分選択部、２６…正弦波
成分生成部、２７…正弦波成分変形部、２８…逆高速フ
ーリエ変換部、２９…コントローラ、３０…クロスフェ
ーダ、３１…シーケンサ、３２…音源部、３３…ミキ
サ、３４…出力部、４０…ピッチ決定部、４１，４２…
くし形フィルタ処理部、４３…加算器

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5D108 BA39 BD01 BD20 9A001 BB02 BB04 DD12 DD15 EE02 FF05 GG13 HH16 HH18 JZ76 KK45 KK60 KZ11 KZ31

Claims

【特許請求の範囲】

【請求項１】入力音声信号から正弦波成分を抽出する
正弦波成分抽出手段と、前記正弦波成分抽出手段により抽出された正弦波成分以
外の残差成分を、前記入力音声信号から抽出する残差成
分抽出手段と、前記正弦波成分抽出手段により抽出された正弦波成分
を、ターゲット音声信号の正弦波成分に基づいて変形す
る正弦波成分変形手段と、前記残差成分抽出手段により抽出された残差成分を、前
記ターゲット音声信号の残差成分に基づいて変形する残
差成分変形手段と、前記残差成分変形手段により得られた残差成分にピッチ
成分およびその倍音成分を付加する付加手段と、前記正弦波成分変形手段により変形された正弦波成分
と、前記付加手段によりピッチ成分およびその倍音成分
が付加された残差成分とを合成する合成手段とを具備す
ることを特徴とする音声変換装置。
【請求項２】請求項１記載の音声変換装置において、前記正弦波成分変形手段により得られた正弦波成分のピ
ッチを、前記付加手段における通過域のピークのピッチ
とするピッチ決定手段を具備することを特徴とする音声
変換装置。
【請求項３】請求項１記載の音声変換装置において、前記付加手段は、前記残差成分を周波数軸上で保持する
場合には、前記ピッチ決定手段により決定された通過域
のピークのピッチを有するくし形フィルタであることを
特徴とする音声変換装置。
【請求項４】請求項１記載の音声変換装置において、前記付加手段は、前記残差成分を時間軸上で保持する場
合には、前記ピッチ決定手段により決定された通過域の
ピークのピッチの逆数を遅延時間とする遅延フィルタを
有するくし形フィルタであることを特徴とする音声変換
装置。
【請求項５】入力音声から正弦波成分及び前記正弦波
成分以外の成分である残差成分を抽出する成分抽出工程
と、前記抽出された正弦波成分を、ターゲット音声の正弦波
成分に基づいて変形する正弦波成分変形工程と、前記抽出された残差成分を、前記ターゲット音声の残差
成分に基づいて変形する残差成分変形工程と、前記残差成分変形工程において得られた残差成分にピッ
チ成分およびその倍音成分を付加する付加工程と、前記正弦波成分変形工程において変形された正弦波成分
と、前記付加工程において得られたピッチ成分およびそ
の倍音成分が付加された残差成分とを合成する合成工程
とを具備することを特徴とする音声変換方法。
【請求項６】請求項５記載の音声変換方法において、前記正弦波成分変形手段により得られた正弦波成分のピ
ッチを、前記付加手段における通過域のピークのピッチ
とするピッチ決定工程を具備することを特徴とする音声
変換方法。