JP2000122699A - 音声変換装置及び音声変換方法 - Google Patents

音声変換装置及び音声変換方法

Info

Publication number
JP2000122699A
JP2000122699A JP10293844A JP29384498A JP2000122699A JP 2000122699 A JP2000122699 A JP 2000122699A JP 10293844 A JP10293844 A JP 10293844A JP 29384498 A JP29384498 A JP 29384498A JP 2000122699 A JP2000122699 A JP 2000122699A
Authority
JP
Japan
Prior art keywords
component
sine wave
pitch
unit
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10293844A
Other languages
English (en)
Other versions
JP3949828B2 (ja
Inventor
Hiroshi Kayama
啓 嘉山
Sera Xavier
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP29384498A priority Critical patent/JP3949828B2/ja
Priority to TW088108973A priority patent/TW430778B/zh
Priority to EP12000670A priority patent/EP2450887A1/en
Priority to EP99110936A priority patent/EP0982713A3/en
Priority to EP10009510A priority patent/EP2264696B1/en
Publication of JP2000122699A publication Critical patent/JP2000122699A/ja
Priority to US10/282,754 priority patent/US7149682B2/en
Priority to US10/282,536 priority patent/US7606709B2/en
Priority to US10/282,992 priority patent/US20030055647A1/en
Application granted granted Critical
Publication of JP3949828B2 publication Critical patent/JP3949828B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

(57)【要約】 【課題】 音声の自然性を損なうことなく、音声変換す
る。 【解決手段】 ものまねをしようとする歌唱者の音声に
対応する入力音声信号Svを分析して、正弦波成分およ
び残差成分Rme(f)を抽出する。正弦波成分は、ターゲ
ット音声信号(ものまね対象となる音声信号)の正弦波
成分に基づいて音声変換処理が施される。また、残差成
分Rme(f)は、ターゲット音声信号の残差成分に基づい
て音声変換処理が施され、さらに得られた残差成分は、
くし形フィルタ処理部41により、そのピッチ成分およ
びその倍音成分が付加される。逆FFT処理部28で
は、属性変換された正弦波成分SINnew'と上記フィル
タ処理された残差成分Rnew'(f)とを合成した後、逆F
FT変換することにより変換音声信号を得る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声変換装置及び
音声変換方法に係り、特にカラオケ等で歌唱者の歌声
が、音声変換の対象となる特定の歌唱者の歌声になるよ
うに、また歌声を別人が歌っているように変換する音声
変換装置及び音声変換方法に関する。
【0002】
【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある(例えば、特表平8−5085
81号公報参照)。
【0003】
【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、音声の変換(例えば、男声→
女声、女声→男声など)は行われるものの、単に声質を
変えるだけに止まっていたので、例えば、特定の歌唱者
(例えば、プロの歌手)の声に似せるように変換すると
いうことはできなかった。また、声質だけでなく、歌い
方までも特定の歌唱者に似させるという、ものまねのよ
うな機能があれば、カラオケ装置などにおいては大変に
面白いが、従来の音声変換装置ではこのような処理は不
可能であった。
【0004】これらを解決するための手法として、音声
信号を正弦波の合成で表す正弦波(SIN)成分と、そ
れ以外の正弦波成分で表すことができない残差(RES
IDUAL)成分とで表す信号処理により、歌唱者の音
声信号(正弦波成分、残差成分)を、音声変換の対象と
なる特定の歌唱者の音声信号(正弦波成分、残差成分)
に基づいて変形させ、ものまね対象となる声質や歌い方
が反映された音声信号を生成し、伴奏とともに出力する
音声変換装置が考えられる。
【0005】このような音声変換装置を構成した場合、
残差成分には、ピッチ成分が含まれるため、正弦波成分
と残差成分とをそれぞれ音声変換処理して合成すると、
聴取者は、正弦波成分及び残差成分の各々に含まれるピ
ッチ成分を聴取することとなる。また、残差成分に含ま
れるピッチ及びその倍音声分を除去し、正弦波成分と合
成した場合、残差成分がピッチ成分を持たないことによ
り、その音程が保たれず、正弦波成分、残差成分の各々
を聴取することとなる。従って、上述したいずれの場合
も音声変換処理された音声の自然性が損なわれてしまう
可能性がある。そこで、本発明の目的は、音声の自然性
を損なうことなく、音声変換することができる音声変換
装置及び音声変換方法を提供することにある。
【0006】
【課題を解決するための手段】上述した問題点を解決す
るために、請求項1記載の構成は、入力音声信号から正
弦波成分を抽出する正弦波成分抽出手段と、前記正弦波
成分抽出手段により抽出された正弦波成分以外の残差成
分を、前記入力音声信号から抽出する残差成分抽出手段
と、前記正弦波成分抽出手段により抽出された正弦波成
分を、ターゲット音声信号の正弦波成分に基づいて変形
する正弦波成分変形手段と、前記残差成分抽出手段によ
り抽出された残差成分を、前記ターゲット音声信号の残
差成分に基づいて変形する残差成分変形手段と、前記残
差成分変形手段により得られた残差成分のピッチ成分お
よびその倍音成分を付加する付加手段と、前記正弦波成
分変形手段により変形された正弦波成分と、前記付加手
段によりピッチ成分およびその倍音成分が付加された残
差成分とを合成する合成手段と、を具備することを特徴
としている。
【0007】請求項2記載の構成は、請求項1記載の構
成において、前記正弦波成分変形手段により得られた正
弦波成分のピッチを、前記付加手段における通過域のピ
ークのピッチとするピッチ決定手段を具備することを特
徴としている。
【0008】請求項3記載の構成は、請求項1記載の構
成において、前記付加手段は、前記残差成分を周波数軸
上で保持する場合には、前記ピッチ決定手段により決定
された通過域のピークのピッチを有するくし形フィルタ
であることを特徴としている。
【0009】請求項4記載の構成は、請求項1記載の構
成において、前記付加手段は、前記残差成分を時間軸上
で保持する場合には、前記ピッチ決定手段により決定さ
れた通過域のピークのピッチの逆数を遅延時間とする遅
延フィルタを有するくし形フィルタであることを特徴と
している。
【0010】請求項5記載の構成は、入力音声から正弦
波成分及び前記正弦波成分以外の成分である残差成分を
抽出する成分抽出工程と、前記抽出された正弦波成分
を、ターゲット音声の正弦波成分に基づいて変形する正
弦波成分変形工程と、前記抽出された残差成分を、前記
ターゲット音声の残差成分に基づいて変形する残差成分
変形工程と、前記残差成分変形工程において得られた残
差成分にピッチ成分およびその倍音成分を付加する付加
工程と、前記正弦波成分変形工程において変形された正
弦波成分と、前記付加工程において得られたピッチ成分
およびその倍音成分が付加された残差成分とを合成する
合成工程とを具備することを特徴としている。
【0011】請求項6記載の構成は、請求項5記載の構
成において、前記正弦波成分変形手段により得られた正
弦波成分のピッチを、前記付加手段における減衰ピーク
のピッチとするピッチ決定工程を具備することを特徴と
している。
【0012】本発明によれば、入力された音声信号から
抽出した正弦波成分及び残差成分とを、ターゲット音声
信号の正弦波成分または残差成分に基づいて各々変形す
る。次いで、変形された正弦波成分と残差成分とを合成
する前に、残差成分にピッチ成分およびその倍音成分を
付加する。したがって、最終的には、正弦波成分のピッ
チ成分のみが聴取されることになり、音声の自然性を向
上させることが可能となる。
【0013】
【発明の実施の形態】[1] 実施形態の概要処理 始めに、実施形態の概要処理について説明する。 [1.1] ステップS1 まず、ものまねをしようとする歌唱者(me)の音声(入
力音声信号)をリアルタイムでFFT(Fast Fourie Tr
ansform)を含むSMS(Spectral Modeling Synthesi
s)分析を行い、フレーム単位で正弦波成分(Sine成
分)を抽出するとともに、入力音声信号及び正弦波成分
からフレーム単位で残差成分(Residual成分)Rmeを生
成する。これと並行して入力音声信号が無声音(含む無
音)か否かを判別し、無声音である場合には、以下のス
テップS2〜ステップS6の処理は行わず、入力音声信
号をそのまま出力することとなる。この場合において、
SMS分析としては、前回のフレームにおけるピッチに
応じて分析窓幅を変更するピッチ同期分析を採用してい
る。
【0014】[1.2] ステップS2 次に入力音声信号が有声音である場合には、抽出した正
弦波成分からさらに元属性(Attribute)データである
ピッチ(Pitch)、アンプ(Amplitude)及びスペクトラ
ル・シェイプ(Spectral Shape)を抽出する。さらに抽
出したピッチ及びアンプについては、ビブラート成分及
びビブラート成分以外の他の成分に分離する。
【0015】[1.3] ステップS3 予め記憶(保存)してあるものまねの対象(Target)と
なる歌唱者の属性データ(ターゲット属性データ=ピッ
チ、アンプ及びスペクトラル・シェイプ)から、ものま
ねをしようとする歌唱者(me)の入力音声信号のフレー
ムに対応するフレームのターゲット属性データ(=ピッ
チ、アンプ及びスペクトラル・シェイプ)を取り出す。
この場合において、ものまねをしようとする歌唱者(m
e)の入力音声信号のフレームに対応するフレームのタ
ーゲット属性データが存在しない場合には、後に詳述す
るように、予め定めたイージーシンクロナイゼーション
規則(Easy Synchronization Rule)に従って、ターゲ
ット属性データを生成し、同様の処理を行う。
【0016】[1.4] ステップS4 次にものまねをしようとする歌唱者(me)に対応する元
属性データ及びものまねの対象となる歌唱者に対応する
ターゲット属性データを適宜選択して組み合わせること
により、新しい属性データ(新属性データ=ピッチ、ア
ンプ及びスペクトラル・シェイプ)を得る。なお、もの
まねではなく、単なる音声変換として用いる場合には、
元属性データ及びターゲット属性データの加算平均とし
て新属性データを得るなどの元属性データ及びターゲッ
ト属性データの双方に基づいて計算により新属性データ
を得るようにすることも可能である。
【0017】[1.5] ステップS5 つづいて得られた新属性データに基づいて、当該フレー
ムの正弦波成分SINnewを求める。さらに、該正弦波
成分SINnewのアンプ、スペクトラル・シェープ等を
変形し、正弦波成分SINnew'を生成する。 [1.6] ステップS6 また、ステップS1で求めた入力音声信号の残差成分R
me(f)を、ターゲットの残差成分Rtar(f)に基づいて変
形し、新たな残差成分Rnew(f)を求める。
【0018】[1.7] ステップS7 また、変形した正弦波成分SINnew'のピッチPattを
くし形フィルタのピッチ(Pcomb)とする。 [1.8] ステップS8 つづいて、得られたピッチPcombに基づいて、くし形フ
ィルタを構成し、ステップS6で求めた残差成分Rnew
(f)をフィルタリングすることで、残差成分Rnew(f)に
ピッチ成分およびその倍音成分を付加し、新たな残差成
分Rnew'(f)を取得する。
【0019】[1.9] ステップS9 そして、ステップS5で求めた正弦波成分SINnew'
と、ステップS8で求めた新たな残差成分Rnew'(f)と
を合成した後、逆FFTを行い、変換音声信号を得る。 [1.10] まとめ これらの処理の結果得られる変換音声信号によれば、再
生される音声は、物まねをしようとする歌唱者の歌声
が、あたかも、別の歌唱者(ターゲットの歌唱者)が歌
った歌声のようになる。さらに、残差成分Rnew(f)にピ
ッチ成分およびその倍音成分が付加されるので、最終的
には、正弦波成分のピッチ成分のみが聴取されることに
なり、音声の自然性を損なうことがない。
【0020】[2] 実施形態の詳細構成 次に図面を参照してこの発明の実施形態について説明す
る。図1及び図2に、実施形態の詳細構成図を示す。な
お、本実施形態は、本発明による音声変換装置(音声変
換方法)をカラオケ装置に適用し、ものまねを行うこと
ができるカラオケ装置として構成した場合の例である。
図1において、マイク1は、ものまねをしようとする歌
唱者(me)の声を収集し、入力音声信号Svとして入力
音声信号切出部3に出力する。
【0021】これと並行して、分析窓生成部2は、前回
のフレームで検出したピッチの周期の固定倍(例えば、
3.5倍など)の周期を有する分析窓(例えば、ハミン
グ窓)AWを生成し、入力音声信号切出部3に出力す
る。なお、初期状態あるいは前回のフレームが無声音
(含む無音)の場合には、予め設定した固定周期の分析
窓を分析窓AWとして入力音声信号切出部3に出力す
る。これらにより入力音声信号切出部3は、入力された
分析窓AWと入力音声信号Svとを掛け合わせ、入力音
声信号Svをフレーム単位で切り出し、フレーム音声信
号FSvとして高速フーリエ変換部4に出力する。より
具体的には、入力音声信号Svとフレームとの関係は、
図3に示すようになっており、各フレームFLは、前の
フレームFLと一部重なるように設定されている。
【0022】そして、高速フーリエ変換部4においてフ
レーム音声信号FSvは、解析処理されるとともに、図
4に示すように、高速フーリエ変換部4の出力である周
波数スペクトルからピーク検出部5によりローカルピー
クが検出される。より具体的には、図4に示すような周
波数スペクトルに対して、×印を付けたローカルピーク
を検出する。このローカルピークは、周波数値とアンプ
(振幅)値の組み合わせとして表される。すなわち、図
4に示すように、(F0、A0)、(F1、A1)、
(F2、A2)、……、(FN、AN)というように各
フレームについてローカルピークが検出され、表される
こととなる。
【0023】そして、図3に模式的に示すように、各フ
レーム毎に一組(以下、ローカルピーク組という。)と
して無声/有声検出部6及びピーク連携部8に出力され
る。無声/有声検出部6は、入力されたフレーム毎のロ
ーカルピークに基づいて、高周波成分の大きさに応じて
無声であることを検出('t'、'k'等)し、無声/有声
検出信号U/Vmeをピッチ検出部7、イージーシンクロ
ナイゼーション処理部22及びクロスフェーダ30に出
力する。あるいは、時間軸上で単位時間あたりの零クロ
ス数に応じて無声であることを検出('s'等)し、元無
声/有声検出信号U/Vmeをピッチ検出部7、イージー
シンクロナイゼーション処理部22及びクロスフェーダ
30に出力する。
【0024】さらに無声/有声検出部6は、入力された
フレームについて無声であると検出されなかった場合に
は、入力されたローカルピーク組をそのまま、ピッチ検
出部7に出力する。ピッチ検出部7は、入力されたロー
カルピーク組に基づいて、当該ローカルピーク組が対応
するフレームのピッチPmeを検出する。より具体的なフ
レームのピッチPmeの検出方法としては、例えば、Mahe
r,R.C.andJ.W.Beauchamp:"Fundamental Frequency Esti
mation of Musical Signal using a two-way Mismatch
Procedure"(Journal of Acounstical Society of Amer
ica95(4):2254-2263)に開示されているような方法で行
う。
【0025】次に、ピーク検出部5から出力されたロー
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフ
レームにおいて検出され、図5(B)に示すようなロー
カルピークが今回のフレームにおいて検出されたとす
る。
【0026】この場合、ピーク連携部8は、前回のフレ
ームで検出された各ローカルピーク(F0、A0)、
(F1、A1)、(F2、A2)、……、(FN、A
N)に対応するローカルピークが今回のフレームでも検
出されたか否かを調べる。対応するローカルピークがあ
るか否かの判断は、前回のフレームで検出されたローカ
ルピークの周波数を中心にした所定範囲内に今回のフレ
ームのローカルピークが検出されるか否かによって行わ
れる。より具体的には、図5の例では、ローカルピーク
(F0、A0)、(F1、A1)、(F2、A2)……
については、対応するローカルピークが検出されている
が、ローカルピーク(FK、AK)については(図5
(A)参照)、対応するローカルピーク(図5(B)参
照)は検出されていない。
【0027】ピーク連携部8は、対応するローカルピー
クを検出した場合は、それらを時系列順に繋げて一組の
データ列として出力する。なお、対応するローカルピー
クが検出されない場合は、当該フレームについての対応
ローカルピークは無しということを示すデータに置き換
える。ここで、図6は、複数のフレームにわたるローカ
ルピークの周波数F0及び周波数F1の変化の一例を示
している。このような変化は、アンプ(振幅)A0、A
1、A2、……についても同様に認められる。この場
合、ピーク連携部8から出力されるデータ列は、フレー
ムの間隔おきに出力される離散的な値である。
【0028】なお、ピーク連携部8から出力されるピー
ク値を、以後において、確定成分という。これは、元の
信号(すなわち、音声信号Sv)のうち正弦波の要素と
して確定的に置き換えられる成分という意味である。ま
た、置き換えられた各正弦波(厳密には、正弦波のパラ
メータである周波数及びアンプ(振幅))の各々につい
ては、正弦波成分と呼ぶことにする。次に、補間合成部
9は、ピーク連携部8から出力される確定成分について
補間処理を行い、補間後の確定成分に基づいていわゆる
オシレータ方式で波形合成を行う。この場合の補間の間
隔は、後述する出力部34が出力する最終出力信号のサ
ンプリングレート(例えば、44.1KHz)に対応し
た間隔で行われる。前述した図6に示す実線は、正弦波
成分の周波数F0、F1について補間処理が行われた場
合のイメージを示している。
【0029】[2.1] 補間合成部の構成 ここで、補間合成部9の構成を図7に示す。補間合成部
9は、複数の部分波形発生部9aを備えて構成されてお
り、各部分波形発生部9aは、指定された正弦波成分の
周波数(F0、F1、…)およびアンプ(振幅)に応じ
た正弦波を発生する。ただし、本第1実施形態における
正弦波成分(F0、A0)、(F1、A1)、(F2、
A2)、……は、各々補間の間隔に従って時事刻々変化
していくものであるから、各部分波形発生部9aから出
力される波形は、その変化に従った波形になる。すなわ
ち、ピーク連携部8からは正弦波成分(F0、A0)、
(F1、A1)、(F2、A2)、……が順次出力さ
れ、各正弦波成分の各々について補間処理が行われるか
ら、各部分波形発生部9aは、所定の周波数領域内で周
波数と振幅が変動する波形を出力する。そして、各部分
波形発生部9aから出力された波形は、加算部9bにお
いて加算合成される。したがって、補間合成部9の出力
信号は、入力音声信号Svから確定成分を抽出した正弦
波成分合成信号SSSになる。
【0030】[2.2] 残差成分検出部の動作 次に、残差成分検出部10は、補間合成部9から出力さ
れた正弦波成分合成信号SSSと入力音声信号Svとの偏
差である残差成分信号SRD(時間波形)を生成する。こ
の残差成分信号SRDは、音声に含まれる無声成分を多く
含む。一方、前述の正弦波成分合成信号SSSは有声成分
に対応するものである。ところで、目標(Target)とな
る歌唱者の声に似せるには、有声音についてだけ処理を
行えば、無声音については処理を施す必要はあまりな
い。そこで、本実施形態においては、有声母音成分に対
応する確定成分について音声変換処理を行うようにして
いる。より具体的には、残差成分信号SRDについては、
高速フーリエ変換部11で、周波数波形に変換し、得ら
れた残差成分信号(周波数波形)をRme(f)として残差
成分保持部12に保持しておく。
【0031】[2.3] 平均アンプ演算部の動作 一方、図8(A)に示すように、ピーク検出部5からピ
ーク連携部8を介して出力された正弦波成分(F0、A
0)、(F1、A1)、(F2、A2)、……、(F(N
-1)、A(N-1))のN個の正弦波成分(以下、これらをま
とめてFn、Anと表記する。n=0〜(N−1)。)
は、正弦波成分保持部13に保持されるとともに、アン
プAnは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(An)/N
【0032】[2.4] アンプ正規化部の動作 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプA'n
を求める。 A'n=An/Ame [2.5] スペクトラル・シェイプ演算部の動作 そして、スペクトラル・シェイプ演算部16において、
図8(B)に示すように、周波数Fn及び正規化アンプ
A'nにより得られる正弦波成分(Fn、A'n)をブレ
ークポイントとするエンベロープ(包絡線)をスペクト
ラル・シェイプSme(f)として生成する。この場合にお
いて、二つのブレークポイント間の周波数におけるアン
プの値は、当該二つのブレークポイントを、例えば、直
線補間することにより算出する。なお、補間の方法は直
線補間に限られるものではない。
【0033】[2.6] ピッチ正規化部の動作 続いてピッチ正規化部17においては、各周波数Fnを
ピッチ検出部7において検出したピッチPmeで正規化
し、正規化周波数F'nを求める。 F'n=Fn/Pme これらの結果、元フレーム情報保持部18は、入力音声
信号Svに含まれる正弦波成分に対応する元属性データ
である平均アンプAme、ピッチPme、スペクトラル・シ
ェイプSme(f)、正規化周波数F'nを保持することとな
る。なお、この場合において、正規化周波数F'nは、
倍音列の周波数の相対値を表しており、もし、フレーム
の倍音構造を完全倍音構造であるとして取り扱うなら
ば、保持する必要はない。この場合において、男声/女
声変換を行おうとしている場合には、この段階におい
て、男声→女声変換を行う場合には、ピッチをオクター
ブ上げ、女声→男声変換を行う場合にはピッチをオクタ
ーブ下げる男声/女声ピッチ制御処理を行うようにする
のが好ましい。
【0034】つづいて、元フレーム情報保持部18に保
持している元属性データのうち、平均アンプAmeおよび
ピッチPmeについては、さらに静的変化/ビブラート的
変化分離部19により、フィルタリング処理などを行っ
て、静的変化成分とビブラート変化的成分とに分離して
保持する。なお、さらにビブラート変化的成分からより
高周波変化成分であるジッタ変化的成分を分離するよう
に構成することも可能である。より具体的には、平均ア
ンプAmeを平均アンプ静的成分Ame-sta及び平均アンプ
ビブラート的成分Ame-vibとに分離して保持する。ま
た、ピッチPmeをピッチ静的成分Pme-sta及びピッチビ
ブラート的成分Pme-vibとに分離して保持する。
【0035】これらの結果、対応するフレームの元フレ
ーム情報データINFmeは、図8(C)に示すように、
入力音声信号Svの正弦波成分に対応する元属性データ
である平均アンプ静的成分Ame-sta、平均アンプビブラ
ート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチ
ビブラート的成分Pme-vib、スペクトラル・シェイプS
me(f)、正規化周波数F'n及び残差成分Rme(f)の形
で保持されることとなる。
【0036】一方、ものまねの対象(target)となる歌
唱者に対応するターゲット属性データから構成されるタ
ーゲットフレーム情報データINFtarは、予め分析さ
れてターゲットフレーム情報保持部20を構成するハー
ドディスクなどに予め保持されている。この場合におい
て、ターゲットフレーム情報データINFtarのうち、
正弦波成分に対応するターゲット属性データとしては、
平均アンプ静的成分Atar-sta、平均アンプビブラート
的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビ
ブラート的成分Ptar-vib、スペクトラル・シェイプSt
ar(f)がある。また、ターゲットフレーム情報データI
NFtarのうち、残差成分に対応するターゲット属性デ
ータとしては、残差成分Rtar(f)がある。
【0037】[2.7] キーコントロール/テンポチ
ェンジ部の動作 次にキーコントロール/テンポチェンジ部21は、シー
ケンサ31からの同期信号SSYNCに基づいて、ターゲッ
トフレーム情報保持部20から同期信号SSYNCに対応す
るフレームのターゲットフレーム情報INFtarの読出
処理及び読み出したターゲットフレーム情報データIN
Ftarを構成するターゲット属性データの補正処理を行
うとともに、読み出したターゲットフレーム情報INF
tarおよび当該フレームが無声であるか有声であるかを
表すターゲット無声/有声検出信号U/Vtarを出力す
る。
【0038】より具体的には、キーコントロール/テン
ポチェンジ部21の図示しないキーコントロールユニッ
トは、カラオケ装置のキーを基準より上げ下げした場
合、ターゲット属性データであるピッチ静的成分Ptar-
sta及びピッチビブラート的成分Ptar-vibについても、
同じだけ上げ下げする補正処理を行う。例えば、50
[cent]だけキーを上げた場合には、ピッチ静的成分P
tar-sta及びピッチビブラート的成分Ptar-vibについて
も50[cent]だけ上げなければならない。また、キー
コントロール/テンポチェンジ部21の図示しないテン
ポチェンジユニットは、カラオケ装置のテンポを上げ下
げした場合には、変更後のテンポに相当するタイミング
で、ターゲットフレーム情報データINFtarの読み出
し処理を行う必要がある。
【0039】この場合において、必要なフレームに対応
するタイミングに相当するターゲットフレーム情報デー
タINFtarが存在しない場合には、当該必要なフレー
ムのタイミングの前後のタイミングに存在する二つのフ
レームのターゲットフレーム情報データINFtarを読
み出し、これら二つのターゲットフレーム情報データI
NFtarにより補間処理を行い、当該必要なタイミング
におけるフレームのターゲットフレーム情報データIN
Ftar、ひいては、ターゲット属性データを生成する。
この場合において、ビブラート的成分(平均アンプビブ
ラート的成分Atar-vib及びピッチビブラート的成分Pt
ar-vib)に関しては、そのままでは、ビブラートの周期
自体が変化してしまい、不適当であるので、周期が変動
しないような補間処理を行う必要がある。又は、ターゲ
ット属性データとして、ビブラートの軌跡そのものを表
すデータではなく、ビブラート周期及びビブラート深さ
のパラメータを保持し、実際の軌跡を演算により求める
ようにすれば、この不具合を回避することができる。
【0040】[2.8] イージーシンクロナイゼーシ
ョン処理部の動作 次にイージーシンクロナイゼーション処理部22は、も
のまねをしようとする歌唱者のフレーム(以下、元フレ
ームという。)に元フレーム情報データINFmeが存在
するにもかかわらず、対応するものまねの対象となる歌
唱者のフレーム(以下、ターゲットフレームという。)
にターゲットフレーム情報データINFtarが存在しな
い場合には、当該ターゲットフレームの前後方向に存在
するフレームのターゲットフレーム情報データINFta
rを当該ターゲットフレームのターゲットフレーム情報
データINFtarとするイージーシンクロナイゼーショ
ン処理を行う。
【0041】そして、イージーシンクロナイゼーション
処理部22は、後述する置換済ターゲットフレーム情報
データINFtar-syncに含まれるターゲット属性データ
のうち正弦波成分に関するターゲット属性データ(平均
アンプ静的成分Atar-sync-sta、平均アンプビブラート
的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-st
a、ピッチビブラート的成分Ptar-sync-vib及びスペク
トラル・シェイプStar-sync(f))を正弦波成分属性デ
ータ選択部23に出力する。また、イージーシンクロナ
イゼーション処理部22は、後述する置換済ターゲット
フレーム情報データINFtar-syncに含まれるターゲッ
ト属性データのうち残差成分に関するターゲット属性デ
ータ(残差成分Rtar-sync(f))を残差成分選択部25
に出力する。
【0042】このイージーシンクロナイゼーション処理
部22における処理においても、ビブラート的成分(平
均アンプビブラート的成分Atar-vib及びピッチビブラ
ート的成分Ptar-vib)に関しては、そのままでは、ビ
ブラートの周期自体が変化してしまい、不適当であるの
で、周期が変動しないような補間処理を行う必要があ
る。又は、ターゲット属性データとして、ビブラートの
軌跡そのものを表すデータではなく、ビブラート周期及
びビブラート深さのパラメータを保持し、実際の軌跡を
演算により求めるようにすれば、この不具合を回避する
ことができる。
【0043】[2.8.1] イージーシンクロナイゼ
ーション処理の詳細 ここで、図9及び図10を参照してイージーシンクロナ
イゼーション処理について詳細に説明する。図9は、イ
ージーシンクロナイゼーション処理のタイミングチャー
トであり、図10はイージーシンクロナイゼーション処
理フローチャートである。まず、イージーシンクロナイ
ゼーション処理部22は、シンクロナイゼーション処理
の方法を表すシンクロナイゼーションモード="0"とす
る(ステップS11)。このシンクロナイゼーションモ
ード="0"は、元フレームに対応するターゲットフレー
ムにターゲットフレーム情報データINFtarが存在す
る通常処理の場合に相当する。
【0044】そしてあるタイミングtにおける元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化したか否かを判別する(ステップS12)。例え
ば、図9に示すように、タイミングt=t1において
は、元無声/有声検出信号U/Vme(t)が無声(U)か
ら有声(V)に変化している。ステップS12の判別に
おいて、元無声/有声検出信号U/Vme(t)が無声
(U)から有声(V)に変化している場合には(ステッ
プS12;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が無
声(U)かつターゲット無声/有声検出信号U/Vtar
(t-1)が無声(U)であるか否かを判別する(ステップ
S18)。
【0045】例えば、図9に示すように、タイミングt
=t0(=t1-1)においては、元無声/有声検出信号U
/Vme(t-1)が無声(U)かつターゲット無声/有声検
出信号U/Vtar(t-1)が無声(U)となっている。ステ
ップS18の判別において、元無声/有声検出信号U/
Vme(t-1)が無声(U)かつターゲット無声/有声検出
信号U/Vtar(t-1)が無声(U)となっている場合には
(ステップS18;Yes)、当該ターゲットフレーム
には、ターゲットフレーム情報データINFtarが存在
しないので、シンクロナイゼーションモード="1"と
し、置換用のターゲットフレーム情報データINFhold
を当該ターゲットフレームの後方向(Backward)に存在
するフレームのターゲットフレーム情報とする。
【0046】例えば、図9に示すように、タイミングt
=t1〜t2のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード="1"とし、置換用ターゲットフ
レーム情報データINFholdを当該ターゲットフレーム
の後方向に存在するフレーム(すなわち、タイミングt
=t2〜t3に存在するフレーム)のターゲットフレーム
情報データbackwardとする。そして、処理をステップS
15に移行し、シンクロナイゼーションモード="0"で
あるか否かを判別する(ステップS15)。
【0047】ステップS15の判別において、シンクロ
ナイゼーションモード="0"である場合には、タイミン
グtにおける元フレームに対応するターゲットフレーム
にターゲットフレーム情報データINFtar(t)が存在す
る場合、すなわち、通常処理であるので、置換済ターゲ
ットフレーム情報データINFtar-syncをターゲットフ
レーム情報データINFtar(t)とする。 INFtar-sync=INFtar(t) 例えば、図9に示すようにタイミングt=t2〜t3のタ
ーゲットフレームには、ターゲットフレーム情報データ
INFtarが存在するので、 INFtar-sync=INFtar(t) とする。
【0048】この場合において、以降の処理に用いられ
る置換済ターゲットフレーム情報データINFtar-sync
に含まれるターゲット属性データ(平均アンプ静的成分
Atar-sync-sta、平均アンプビブラート的成分Atar-sy
nc-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラ
ート的成分Ptar-sync-vib、スペクトラル・シェイプS
tar-sync(f)及び残差成分Rtar-sync(f))は実質的に
は、以下の内容となる(ステップS16)。 Atar-sync-sta=Atar-sta Atar-sync-vib=Atar-vib Ptar-sync-sta=Ptar-sta Ptar-sync-vib=Ptar-vib Star-sync(f)=Star(f) Rtar-sync(f)=Rtar(f)
【0049】ステップS15の判別において、シンクロ
ナイゼーションモード="1"またはシンクロナイゼーシ
ョンモード="2"である場合には、タイミングtにおけ
る元フレームに対応するターゲットフレームにターゲッ
トフレーム情報データINFtar(t)が存在しない場合で
あるので、置換済ターゲットフレーム情報データINF
tar-syncを置換用ターゲットフレーム情報データINF
holdとする。 INFtar-sync=INFhold 例えば、図9に示すように、タイミングt=t1〜t2の
ターゲットフレームには、ターゲットフレーム情報デー
タINFtarが存在せず、シンクロナイゼーションモー
ド="1"となるが、タイミングt=t2〜t3のターゲッ
トフレームには、ターゲットフレーム情報データINF
tarが存在するので、置換済ターゲットフレーム情報デ
ータINFtar-syncをタイミングt=t2〜t3のターゲ
ットフレームのターゲットフレーム情報データである置
換用ターゲットフレーム情報データINFholdとする処
理P1を行い、以降の処理に用いられる置換済ターゲッ
トフレーム情報データINFtar-syncに含まれるターゲ
ット属性データは、平均アンプ静的成分Atar-sync-st
a、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib、スペクトラル・シェイプStar-sync(f)
及び残差成分Rtar-sync(f)となる(ステップS1
6)。
【0050】また、図9に示すように、タイミングt=
t3〜t4のターゲットフレームには、ターゲットフレー
ム情報データINFtarが存在せず、シンクロナイゼー
ションモード="2"となるが、タイミングt=t2〜t3
のターゲットフレームには、ターゲットフレーム情報デ
ータINFtarが存在するので、置換済ターゲットフレ
ーム情報データINFtar-syncをタイミングt=t2〜
t3のターゲットフレームのターゲットフレーム情報デ
ータである置換用ターゲットフレーム情報データINF
holdとする処理P2を行い、以降の処理に用いられる置
換済ターゲットフレーム情報データINFtar-syncに含
まれるターゲット属性データは、平均アンプ静的成分A
tar-sync-sta、平均アンプビブラート的成分Atar-sync
-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラー
ト的成分Ptar-sync-vib、スペクトラル・シェイプSta
r-sync(f)及び残差成分Rtar-sync(f)となる(ステップ
S16)。
【0051】ステップS12の判別において、元無声/
有声検出信号U/Vme(t)が無声(U)から有声(V)
に変化していない場合には(ステップS12;No)、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化しているか否かを判別する
(ステップS13)。ステップS13の判別において、
ターゲット無声/有声検出信号U/Vtar(t)が有声
(V)から無声(U)に変化している場合には(ステッ
プS13;Yes)、タイミングtの前回のタイミング
t-1における元無声/有声検出信号U/Vme(t-1)が有
声(V)かつターゲット無声/有声検出信号U/Vtar
(t-1)が有声(V)であるか否かを判別する(ステップ
S19)。
【0052】例えば、図9に示すように、タイミングt
3においてターゲット無声/有声検出信号U/Vtar(t)
が有声(V)から無声(U)に変化し、タイミングt-1
=t2〜t3においては、元無声/有声検出信号U/Vme
(t-1)が有声(V)かつターゲット無声/有声検出信号
U/Vtar(t-1)が有声(U)となっている。ステップS
19の判別において、元無声/有声検出信号U/Vme(t
-1)が有声(V)かつターゲット無声/有声検出信号U
/Vtar(t-1)が有声(V)となっている場合には(ステ
ップS19;Yes)、当該ターゲットフレームには、
ターゲットフレーム情報データINFtarが存在しない
ので、シンクロナイゼーションモード="2"とし、置換
用のターゲットフレーム情報データINFholdを当該タ
ーゲットフレームの前方向(forward)に存在するフレ
ームのターゲットフレーム情報とする。
【0053】例えば、図9に示すように、タイミングt
=t3〜t4のターゲットフレームには、ターゲットフレ
ーム情報データINFtarが存在しないので、シンクロ
ナイゼーションモード="2"とし、置換用ターゲットフ
レーム情報データINFholdを当該ターゲットフレーム
の前方向に存在するフレーム(すなわち、タイミングt
=t2〜t3に存在するフレーム)のターゲットフレーム
情報データforwardとする。そして、処理をステップS
15に移行し、シンクロナイゼーションモード="0"で
あるか否かを判別して(ステップS15)、以下、同様
の処理を行う。ステップS13の判別において、ターゲ
ット無声/有声検出信号U/Vtar(t)が有声(V)から
無声(U)に変化していない場合には(ステップS1
3;No)、タイミングtにおける元無声/有声検出信
号U/Vme(t)が有声(V)から無声(U)に変化し、
あるいは、ターゲット無声/有声検出信号U/Vtar(t)
が無声(U)から有声(V)に変化しているか否かを判
別する(ステップS14)。
【0054】ステップS14の判別において、タイミン
グtにおける元無声/有声検出信号U/Vme(t)が有声
(V)から無声(U)に変化し、かつ、ターゲット無声
/有声検出信号U/Vtar(t)が無声(U)から有声
(V)に変化している場合には(ステップS14;Ye
s)、シンクロナイゼーションモード="0"とし、置換
用ターゲットフレーム情報データINFholdを初期化
(clear)し、処理をステップS15に移行して、以
下、同様の処理を行う。ステップS14の判別におい
て、タイミングtにおける元無声/有声検出信号U/V
me(t)が有声(V)から無声(U)に変化せず、かつ、
ターゲット無声/有声検出信号U/Vtar(t)が無声
(U)から有声(V)に変化していない場合には(ステ
ップS14;No)、そのまま処理をステップS15に
移行し、以下同様の処理を行う。
【0055】[2.9] 正弦波成分属性データ選択部
の動作 続いて、正弦波成分属性データ選択部23は、イージー
シンクロナイゼーション処理部22から入力された置換
済ターゲットフレーム情報データINFtar-syncに含ま
れるターゲット属性データのうち正弦波成分に関するタ
ーゲット属性データ(平均アンプ静的成分Atar-sync-s
ta、平均アンプビブラート的成分Atar-sync-vib、ピッ
チ静的成分Ptar-sync-sta、ピッチビブラート的成分P
tar-sync-vib及びスペクトラル・シェイプStar-sync
(f))及びコントローラ29から入力される正弦波成分
属性データ選択情報に基づいて、新しい正弦波成分属性
データである新規アンプ成分Anew、新規ピッチ成分Pn
ew及び新規スペクトラル・シェイプSnew(f)を生成す
る。
【0056】すなわち、新規アンプ成分Anewについて
は、次式により生成する。 Anew=A*-sta+A*-vib(ただし、*は、me又はtar-sy
nc) より具体的には、図8(D)に示すように、新規アンプ
成分Anewを元属性データの平均アンプ静的成分Ame-st
aあるいはターゲット属性データの平均アンプ静的成分
Atar-sync-staのいずれか一方及び元属性データの平均
アンプビブラート的成分Ame-vibあるいはターゲット属
性データの平均アンプビブラート的成分Atar-sync-vib
のいずれか一方の組み合わせとして生成する。また、新
規ピッチ成分Pnewについては、次式により生成する。 Pnew=P*-sta+P*-vib(ただし、*は、me又はtar-sy
nc)
【0057】より具体的には、図8(D)に示すよう
に、新規ピッチ成分Pnewを元属性データのピッチ静的
成分Pme-staあるいはターゲット属性データのピッチ静
的成分Ptar-sync-staのいずれか一方及び元属性データ
のピッチビブラート的成分Pme-vibあるいはターゲット
属性データのピッチビブラート的成分Ptar-sync-vibの
いずれか一方の組み合わせとして生成する。また、新規
スペクトラル・シェイプSnew(f)については、次式によ
り生成する。 Snew(f)=S*(f)(ただし、*は、me又はtar-sync)
【0058】ところで、一般的にアンプ成分が大きい場
合には、高域まで伸びた抜けの明るい音となり、アンプ
成分が小さい場合には、逆にこもった音になる。そこ
で、新規スペクトラル・シェイプSnew(f)に関しては、
このような状態をシミュレートすべく、図11に示すよ
うに、スペクトラル・シェイプの高域成分、すなわち、
高域成分部分のスペクトラル・シェイプの傾きを新規ア
ンプ成分Anewの大きさに応じて補償するスペクトラル
チルト補償(spectral tilt correction)を行って、コ
ントロールすることにより、よりリアルな音声を再生す
ることができる。続いて、生成された新規アンプ成分A
new、新規ピッチ成分Pnew及び新規スペクトラル・シェ
イプSnew(f)について、必要に応じてコントローラ29
から入力される正弦波成分属性データ変形情報に基づい
て、属性データ変形部24によりさらなる変形を行う。
例えば、スペクトラル・シェイプを全体的に間延びさせ
る等の変形を行う。属性データ変形部24は、変形後の
正弦波成分のピッチPattをピッチ決定部40へ供給す
る。
【0059】[2.10] 残差成分選択部の動作 一方、残差成分選択部25は、イージーシンクロナイゼ
ーション処理部22から入力された置換済ターゲットフ
レーム情報データINFtar-syncに含まれるターゲット
属性データのうち残差成分に関するターゲット属性デー
タ(残差成分Rtar-sync(f))、残差成分保持部12に
保持されている残差成分信号(周波数波形)Rme(f)及
びコントローラ29から入力される残差成分属性データ
選択情報に基づいて新しい残差成分属性データである新
規残差成分Rnew(f)を生成する。すなわち、新規残差成
分Rnew(f)については、次式により生成する。 Rnew(f)=R*(f)(ただし、*は、me又はtar-sync)
【0060】この場合においては、me又はtar-syncのい
ずれを選択するかは、新規スペクトラル・シェイプSne
w(f)と同一のものを選択するのがより好ましい。さら
に、新規残差成分Rnew(f)に関しても、新規スペクトラ
ル・シェイプと同様な状態をシミュレートすべく、図1
1に示したように、残差成分の高域成分、すなわち、高
域成分部分の残差成分の傾きを新規アンプ成分Anewの
大きさに応じて補償するスペクトラルチルト補償(spec
tral tilt correction)を行って、コントロールするこ
とにより、よりリアルな音声を再生することができる。
【0061】[2.11] 正弦波成分生成部の動作 続いて、正弦波成分生成部26は、属性データ変形部2
4から出力された変形を伴わない、あるいは、変形を伴
う新規アンプ成分Anew、新規ピッチ成分Pnew及び新規
スペクトラル・シェイプSnew(f)に基づいて、当該フレ
ームにおける新たな正弦波成分(F"0、A"0)、
(F"1、A"1)、(F"2、A"2)、……、(F"(N-
1)、A"(N-1))のN個の正弦波成分(以下、これらをま
とめてF"n、A"nと表記する。n=0〜(N−
1)。)を求める。より具体的には、次式により新規周
波数F"nおよび新規アンプA"nを求める。 F"n=F'n×Pnew A"n=Snew(F"n)×Anew なお、完全倍音構造のモデルとして捉えるのであれば、 F"n=(n+1)×Pnew となる。
【0062】[2.12] 正弦波成分変形部の動作 さらに、求めた新規周波数F"nおよび新規アンプA"n
について、必要に応じてコントローラ29から入力され
る正弦波成分変形情報に基づいて、正弦波成分変形部2
7によりさらなる変形を行う。例えば、偶数次成分の新
規アンプA"n(=A"0、A"2、A"4、……)だけを
大きく(例えば、2倍する)等の変形を行う。これによ
って得られる変換音声にさらにバラエティーを持たせる
ことが可能となる。
【0063】[2.13] ピッチ決定部の動作 くし形フィルタのピッチ決定部40は、属性データ変形
部24からのピッチPattをくし形フィルタのピッチ
(Pcomb)とし、くし形フィルタ処理部41へ供給す
る。
【0064】[2.14] くし形フィルタ処理部の動
作 くし形フィルタ処理部41は、ピッチPcombを用いて、
くし形フィルタを構成し、該くし形フィルタで残差成分
Rnew(f)をフィルタリングすることで、残差成分Rnew
(f)からピッチ成分およびその倍音成分を取り除き、新
たな残差成分Rnew'(f)として、逆高速フーリエ変換部
28へ供給する。ここで、図12は、ピッチPcombを2
00Hzとした場合のくし形フィルタの特性例を示す概
念図である。このように、残差成分を周波数軸上で保持
している場合には、ピッチPcombに基づいて周波数軸上
でくし形フィルタを構成する。
【0065】[2.15] 逆高速フーリエ変換部の動
作 次に逆高速フーリエ変換部28は、求めた新規周波数
F"nおよび新規アンプA"n(=新規正弦波成分)並び
に新規残差成分Rnew'(f)をFFTバッファに格納し、
順次逆FFTを行い、さらに得られた時間軸信号を一部
重複するようにオーバーラップ処理し、それらを加算す
る加算処理を行うことにより新しい有声音の時間軸信号
である変換音声信号を生成する。
【0066】このとき、コントローラ29から入力され
る正弦波成分/残差成分バランス制御信号に基づいて、
正弦波成分及び残差成分の混合比率を制御し、よりリア
ルな有声信号を得る。この場合において、一般的には、
残差成分の混合比率を大きくするとざらついた声が得ら
れる。この場合において、FFTバッファに新規周波数
F"nおよび新規アンプA"n(=新規正弦波成分)並び
に新規残差成分Rnew(f)を格納するに際し、異なるピッ
チ、かつ、適当なピッチで変換された正弦波成分をさら
に加えることにより変換音声信号としてハーモニーを得
ることができる。さらにシーケンサ31により伴奏音に
適合したハーモニーピッチを与えることにより、伴奏に
適合した音楽的ハーモニーを得ることができる。
【0067】[2.16] クロスフェーダの動作 次にクロスフェーダ30は、元無声/有声検出信号U/
Vme(t)に基づいて、入力音声信号Svが無声(U)であ
る場合には、入力音声信号Svをそのままミキサ30に
出力する。また、入力音声信号Svが有声(V)である
場合には、逆高速フーリエ変換変換部28が出力した変
換音声信号をミキサ33に出力する。この場合におい
て、切替スイッチとしてクロスフェーダ30を用いてい
るのは、クロスフェード動作を行わせることによりスイ
ッチ切替時のクリック音の発生を防止するためである。
【0068】[2.17] シーケンサ、音源部、ミキ
サ及び出力部の動作 一方、シーケンサ31は、カラオケの伴奏音を発生する
ための音源制御情報を例えば、MIDI(Musical Inst
rument Digital Interface)データなどとして音源部3
2に出力する。これにより音源部32は、音源制御情報
に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号
のいずれか一方及び伴奏信号を混合し、混合信号を出力
部34に出力する。出力部34は、図示しない増幅器を
有し混合信号を増幅して音響信号として出力することと
なる。
【0069】[3] 実施形態の変形例 [3.1] 第1変形例 以上の説明においては、属性データとしては、元属性デ
ータあるいはターゲット属性データのいずれかを選択的
に用いる構成としていたが、元属性データ及びターゲッ
ト属性データの双方を用い、補間処理を行うことにより
中間的な属性を有する変換音声信号を得るように構成す
ることも可能である。しかしながら、このような構成に
よれば、ものまねをしようとする歌唱者及びものまねの
対象(target)となる歌唱者のいずれにも似ていない変
換音声が得られる場合もある。また、特にスペクトラル
・シェイプを補間処理によって求めた場合には、ものま
ねをしようとする歌唱者が「あ」を発音し、ものまねの
対象となる歌唱者が「い」を発音している場合などに
は、「あ」でも「い」でもない音が変換音声として出力
される可能性があり、その取扱には注意が必要である。
【0070】[3.2] 第2変形例 正弦波成分の抽出は、この実施形態で用いた方法に限ら
ない。要は、音声信号に含まれる正弦波を抽出できれば
よい。 [3.3] 第3変形例 本実施形態においては、ターゲットの正弦波成分及び残
差成分を記憶したが、これに換えて、ターゲットの音声
そのものを記憶し、それを読み出してリアルタイム処理
によって正弦波成分と残差成分とを抽出してもよい。す
なわち、本実施形態でものまねをしようとする歌唱者の
音声に対して行った処理と同様の処理をターゲットの歌
唱者の音声に対して行ってもよい。
【0071】[3.4] 第4変形例 本実施形態においては、属性データとして、ピッチ、ア
ンプ、スペクトラル・シェイプの全てを取り扱ったが、
少なくともいずれか一つを扱うようにすることも可能で
ある。 [3.5] 第5変形例 本実施形態では、残差成分を周波数軸上で保持していた
が、これに限らず、残差成分を時間軸上で保持するよう
にしてもよい。図13は、上述した実施形態の変形例の
構成(一部)を示すブロック図である。また、図14
は、くし形フィルタ(遅延フィルタ)の構成の一例を示
すブロック図である。なお、図1に対応する部分には同
一の符号を付けて説明を省略する。図において、くし形
フィルタ処理部42は、ピッチ決定部40で決定された
ピッチPcombの逆数をディレイタイムとする、くし形フ
ィルタ(遅延フィルタ)を構成し、該くし形フィルタで
残差成分Rnew(t)をフィルタリングし、残差成分Rne
w''(t)として加算器43に供給する。加算器43は、残
差成分Rnew(t)に上記フィルタリングされた残差成分R
new''(t)を加算することで、残差成分Rnew(t)にピッチ
成分およびその倍音成分を付加し、新たな残差成分Rne
w'(t)として、IFFT処理部8へ供給する。このよう
に、残差成分を時間軸上で処理する場合であっても、上
述した実施形態と同様に、残差成分Rnew(t)にピッチ成
分およびその倍音成分を付加することが可能となる。し
たがって、最終的に出力される音声には、正弦波成分の
ピッチ成分のみが聴取されることになり、音声の自然性
を向上させることができる。
【0072】[4] 実施形態の効果 以上の結果、カラオケの伴奏とともに、歌唱者の歌が出
力されるが、その声質および歌い方などは、ターゲット
の影響を大きく受け、ターゲットそのものの声質および
歌い方となる。このようにして、あたかもターゲットの
物まねをしているような歌が出力される。また、残差成
分Rnew(f)にピッチ成分およびその倍音成分が付加され
ることにより残差成分は正弦波成分と等しいピッチ成分
を有することとなるので、正弦波成分と合成することに
より合成された音声は音程が保たれ、音声の自然性を損
なうことがない。
【0073】
【発明の効果】以上、説明したように、本発明によれ
ば、入力音声信号から抽出した正弦波成分と、残差成分
とを、ターゲット音声の正弦波成分または残差成分に基
づいて各々変形し、次いで、正弦波成分と残差成分とを
合成する前に、変形した残差成分にピッチ成分およびそ
の倍音成分を付加するようにしたので、合成することに
より得られる音声は音程が保たれ、自然性を損なうこと
なく、ものまねしようとする歌唱者の音声(入力された
音声)からものまねの対象となるターゲット歌唱者の声
質や歌い方が反映された変換音声を得ることが容易にで
きる。
【図面の簡単な説明】
【図1】 本発明の一実施形態の構成を示すブロック図
(その1)である。
【図2】 本発明の一実施形態の構成を示すブロック図
(その2)である。
【図3】 実施形態におけるフレームの状態を示す図で
ある。
【図4】 実施形態における周波数スペクトルのピーク
検出を説明するための説明図である。
【図5】 実施形態におけるフレーム毎のピーク値の連
携を示す図である。
【図6】 実施形態における周波数値の変化状態を示す
図である。
【図7】 実施形態における処理過程における確定成分
の変化状態を示す図である。
【図8】 実施形態における信号処理の説明図である。
【図9】 イージーシンクロナイゼーション処理のタイ
ミングチャートである。
【図10】 イージーシンクロナイゼーション処理フロ
ーチャートである。
【図11】 スペクトラル・シェイプのスペクトラルチ
ルト補償について説明する図である。
【図12】 くし形フィルタの特性(ピッチPcombを2
00Hzとした場合)を説明するための概念図である。
【図13】 本発明の変形例による音声変換装置の構成
(一部)を示すブロック図である。
【図14】 くし形フィルタ(遅延フィルタ)の構成の
一例を示すブロック図である。
【符号の説明】
1…マイク、2…分析窓生成部、3…入力音声信号切出
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ演算部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…静的変化/ビブラート的変化分離部、20…ターゲッ
トフレーム情報保持部、21…キーコントロール/テン
ポチェンジ部、22…イージーシンクロナイゼーション
処理部、23…正弦波成分属性データ選択部、24…属
性データ変形部、25…残差成分選択部、26…正弦波
成分生成部、27…正弦波成分変形部、28…逆高速フ
ーリエ変換部、29…コントローラ、30…クロスフェ
ーダ、31…シーケンサ、32…音源部、33…ミキ
サ、34…出力部、40…ピッチ決定部、41,42…
くし形フィルタ処理部、43…加算器
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D108 BA39 BD01 BD20 9A001 BB02 BB04 DD12 DD15 EE02 FF05 GG13 HH16 HH18 JZ76 KK45 KK60 KZ11 KZ31

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号から正弦波成分を抽出する
    正弦波成分抽出手段と、 前記正弦波成分抽出手段により抽出された正弦波成分以
    外の残差成分を、前記入力音声信号から抽出する残差成
    分抽出手段と、 前記正弦波成分抽出手段により抽出された正弦波成分
    を、ターゲット音声信号の正弦波成分に基づいて変形す
    る正弦波成分変形手段と、 前記残差成分抽出手段により抽出された残差成分を、前
    記ターゲット音声信号の残差成分に基づいて変形する残
    差成分変形手段と、 前記残差成分変形手段により得られた残差成分にピッチ
    成分およびその倍音成分を付加する付加手段と、 前記正弦波成分変形手段により変形された正弦波成分
    と、前記付加手段によりピッチ成分およびその倍音成分
    が付加された残差成分とを合成する合成手段とを具備す
    ることを特徴とする音声変換装置。
  2. 【請求項2】 請求項1記載の音声変換装置において、 前記正弦波成分変形手段により得られた正弦波成分のピ
    ッチを、前記付加手段における通過域のピークのピッチ
    とするピッチ決定手段を具備することを特徴とする音声
    変換装置。
  3. 【請求項3】 請求項1記載の音声変換装置において、 前記付加手段は、前記残差成分を周波数軸上で保持する
    場合には、前記ピッチ決定手段により決定された通過域
    のピークのピッチを有するくし形フィルタであることを
    特徴とする音声変換装置。
  4. 【請求項4】 請求項1記載の音声変換装置において、 前記付加手段は、前記残差成分を時間軸上で保持する場
    合には、前記ピッチ決定手段により決定された通過域の
    ピークのピッチの逆数を遅延時間とする遅延フィルタを
    有するくし形フィルタであることを特徴とする音声変換
    装置。
  5. 【請求項5】 入力音声から正弦波成分及び前記正弦波
    成分以外の成分である残差成分を抽出する成分抽出工程
    と、 前記抽出された正弦波成分を、ターゲット音声の正弦波
    成分に基づいて変形する正弦波成分変形工程と、 前記抽出された残差成分を、前記ターゲット音声の残差
    成分に基づいて変形する残差成分変形工程と、 前記残差成分変形工程において得られた残差成分にピッ
    チ成分およびその倍音成分を付加する付加工程と、 前記正弦波成分変形工程において変形された正弦波成分
    と、前記付加工程において得られたピッチ成分およびそ
    の倍音成分が付加された残差成分とを合成する合成工程
    とを具備することを特徴とする音声変換方法。
  6. 【請求項6】 請求項5記載の音声変換方法において、 前記正弦波成分変形手段により得られた正弦波成分のピ
    ッチを、前記付加手段における通過域のピークのピッチ
    とするピッチ決定工程を具備することを特徴とする音声
    変換方法。
JP29384498A 1998-06-15 1998-10-15 音声変換装置及び音声変換方法 Expired - Fee Related JP3949828B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP29384498A JP3949828B2 (ja) 1998-10-15 1998-10-15 音声変換装置及び音声変換方法
TW088108973A TW430778B (en) 1998-06-15 1999-05-31 Voice converter with extraction and modification of attribute data
EP99110936A EP0982713A3 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP10009510A EP2264696B1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP12000670A EP2450887A1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
US10/282,754 US7149682B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,536 US7606709B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,992 US20030055647A1 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29384498A JP3949828B2 (ja) 1998-10-15 1998-10-15 音声変換装置及び音声変換方法

Publications (2)

Publication Number Publication Date
JP2000122699A true JP2000122699A (ja) 2000-04-28
JP3949828B2 JP3949828B2 (ja) 2007-07-25

Family

ID=17799897

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29384498A Expired - Fee Related JP3949828B2 (ja) 1998-06-15 1998-10-15 音声変換装置及び音声変換方法

Country Status (1)

Country Link
JP (1) JP3949828B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
US8296143B2 (en) 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010906A (ja) * 2004-06-24 2006-01-12 Yamaha Corp 音声効果付与装置及び音声効果付与プログラム
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
US8296143B2 (en) 2004-12-27 2012-10-23 P Softhouse Co., Ltd. Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer

Also Published As

Publication number Publication date
JP3949828B2 (ja) 2007-07-25

Similar Documents

Publication Publication Date Title
US7606709B2 (en) Voice converter with extraction and modification of attribute data
JP3502247B2 (ja) 音声変換装置
WO2018084305A1 (ja) 音声合成方法
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
EP1239463B1 (en) Voice analyzing and synthesizing apparatus and method, and program
Bonada et al. Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
JP3540159B2 (ja) 音声変換装置及び音声変換方法
JP3502268B2 (ja) 音声信号処理装置及び音声信号処理方法
JP3294192B2 (ja) 音声変換装置及び音声変換方法
JP3447221B2 (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP3706249B2 (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP3949828B2 (ja) 音声変換装置及び音声変換方法
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP6834370B2 (ja) 音声合成方法
JP3934793B2 (ja) 音声変換装置及び音声変換方法
JP2000003187A (ja) 音声特徴情報記憶方法および音声特徴情報記憶装置
JP3540160B2 (ja) 音声変換装置及び音声変換方法
JP3447220B2 (ja) 音声変換装置及び音声変換方法
JP3907838B2 (ja) 音声変換装置及び音声変換方法
JP3907027B2 (ja) 音声変換装置および音声変換方法
JP6822075B2 (ja) 音声合成方法
JPH1031496A (ja) 楽音発生装置
Rajan Singing Voice Synthesis System for Carnatic Music

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20061114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070419

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110427

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120427

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130427

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140427

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees