JP3907027B2 - 音声変換装置および音声変換方法 - Google Patents
音声変換装置および音声変換方法 Download PDFInfo
- Publication number
- JP3907027B2 JP3907027B2 JP17644398A JP17644398A JP3907027B2 JP 3907027 B2 JP3907027 B2 JP 3907027B2 JP 17644398 A JP17644398 A JP 17644398A JP 17644398 A JP17644398 A JP 17644398A JP 3907027 B2 JP3907027 B2 JP 3907027B2
- Authority
- JP
- Japan
- Prior art keywords
- harmonic component
- component
- frequency
- pitch
- local peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
この発明は、カラオケ等で歌唱者の歌声が、音声変換の対象となる特定の歌唱者の歌声になるように、また歌声を別人が歌っているように変換する音声変換装置および音声変換方法に関する。
【0002】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある(例えば、特表平8−508581号)。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換(例えば、男声→女声、女声→男声など)は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者(例えば、プロの歌手)の声に似せるように変換するということはできなかった。
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であるか、必要なデータ量が膨大になるという問題があった。
【0004】
そこで、本発明の目的は、音声変換に用いるデータの取り扱いを容易にするとともに、情報量を削減しつつ、声質を目標(ターゲット)とする歌唱者の声や歌い方に似させることができる音声変換装置および音声変換方法を提供することにある。
【0005】
【課題を解決するための手段】
上述した問題点を解決するために、請求項1に記載の発明は、入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピーク毎に周波数と振幅を抽出するピーク検出手段と、前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出手段と、前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する調波成分抽出手段と、前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する非調波成分抽出手段と、前記調波成分に該当するローカルピークの周波数と振幅を変形する調波成分変形手段と、前記非調波成分に該当するローカルピークの周波数と振幅を変形する非調波成分変形手段と、前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する合成手段とを具備することを特徴とする。
また、請求項2に記載の発明は、請求項1に記載の音声変換装置において、音声変換の対象となる変換用音声信号の成分である変換対象調波成分および変換対象非調波成分を保持する保持手段を具備し、前記調波成分変形手段は、前記変換対象調波成分に基づいて前記調波成分に該当するローカルピークの周波数と振幅を変形し、前記非調波成分変形手段は、前記変換対象非調波成分に基づいて前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする。
また、請求項3に記載の発明は、請求項1または2に記載の音声変換装置において、前記非調波成分変形手段は、前記非調波成分から抽出された属性データを変形することによって前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする。
また、請求項4に記載の発明は、請求項2に記載の音声変換装置において、前記非調波成分変形手段は、前記非調波成分あるいは前記変換対象非調波成分のいずれか一方を前記変形された非調波成分とすることを特徴とする。
また、請求項5に記載の発明は、請求項1または2に記載の音声変換装置において、前記非調波成分変形手段により変形された非調波成分のピッチ成分およびその倍音成分を除去する除去手段を具備することを特徴とする。
また、請求項6に記載の発明は、請求項1または2に記載の音声変換装置において、前記調波成分変形手段により変形された調波成分と、前記非調波成分変形手段により変形された非調波成分とを畳み込み演算する畳み込み処理手段を具備することを特徴とする。
また、請求項7に記載の発明は、入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピークごとに周波数と振幅を抽出するピーク検出する段階と、前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出する段階と、前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する段階と、前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する段階と、前記調波成分に該当するローカルピークの周波数と振幅を変形する段階と、前記非調波成分に該当するローカルピークの周波数と振幅を変形する段階と、前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する段階とを備えることを特徴とする。
この発明によれば、調波成分抽出手段により、入力音声信号のピッチおよびその倍音成分を正弦波で表す調波成分を抽出するとともに、非調波成分抽出手段により、前記調波成分以外の成分を正弦波で表す非調波成分を、前記入力音声信号から抽出し、音声信号の正弦波の合成で表すことができる調波成分以外の非調波なピーク成分も正弦波の合成で表すようにしたので、信号処理におけるその取り扱いを容易にすることが可能となり、情報量を削減することが可能となる。
【0006】
【発明の実施の形態】
次に図面を参照してこの発明の実施形態について説明する。
【0007】
A.実施形態の概要処理
は、本実施形態の構成を示すブロック図である。本実施形態は、本発明による音声変換装置(音声変換方法)を適用したカラオケ装置であり、歌唱者(me)の入力音声信号Svを、ものまねの対象(Target)となる歌唱者の音声に似せた音声信号に変換して出力するものである。
まず、構成の詳細を説明するに先だって、本実施形態の概要処理について説明する。
【0008】
[1] ステップS1(SMS分析)
まず、ものまねをしようとする歌唱者(me)の音声(入力音声信号)をリアルタイムでFFT(Fast Fourie Transform)を含むSMS(Spectral Modeling Synthesis)分析を行い、フレーム単位で、歌唱者(me)の正弦波調波成分SINhar-me(SINharmonic成分)および正弦波非調波成分SINinhar-me(SINinharmonic成分)を生成する。
具体的には、本実施形態では、音声信号をFFT変換することにより、周波数スペクトルを検出し、該周波数スペクトルからピーク値を検出してピッチを求め、ピッチとその倍音成分から構成される正弦波調波成分SINhar-meおよび、正弦波調波成分SINhar-me以外の成分である正弦波非調波成分SINinhar-meとに分離して音声変換処理を行う。
ここで、正弦波調波成分SINhar-me以外の成分としては、音声信号Svの波形成分から正弦波調波成分SINhar-meを除いた残差成分を用いる処理も考えられる。
【0009】
しかしながら、このような残差成分を用いる場合は、SMS分析によってピーク値が検出されても、その周波数が倍音付近になければ、残差成分として分離されてしまう。したがって、残差成分は、音声に含まれる調波成分(ピッチおよびその倍音)以外で音声を構成するために、その重要性の高い周波数成分(情報)を多く含むことになり、取り扱いが難しくなるという問題がある。また、データとしての情報量が多く、残差成分のデータ保持の仕方次第により、正弦波成分との合成において統一的な処理を施すことができないという問題がある。
そこで、本実施形態においては、後に詳しく説明するように、正弦波非調波成分SINinhar-meを用いた処理を行っている。
一方、これと並行して入力音声信号が無声音(含む無音)か否かを判別し、判別結果である無声/有声検出信号U/Vmeを出力する。なお、無声音である場合には(U/Vme=U)、以下のステップS2〜ステップS4の処理は行わず、入力音声信号をそのまま出力することとなる。
【0010】
[2] ステップS2(正弦波調波成分処理)
次に入力音声信号が有声音である場合には、歌唱者(me)の正弦波調波成分SINhar-meからさらに元属性(Attribute)データであるピッチ(Pitch)、平均アンプ(Amplitude)及びスペクトラル・シェイプ(Spectral Shape)を抽出し、歌唱者(me)の元属性データINFmeとして保持する。
さらに抽出したピッチ及び平均アンプについては、ビブラート成分及びビブラート成分以外の他の成分に分離する(後述するAme-sta,Ame-vib,Pme-sta,Pme-vib)。
そして、予め記憶(保存)してあるものまねの対象(Target)となる歌唱者の属性データINFtar(ターゲット属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)から、ものまねをしようとする歌唱者(me)の入力音声信号のフレームに対応するフレームのターゲット属性データINFtar(=ピッチ、アンプ及びスペクトラル・シェイプ)を取り出す。この場合において、ものまねをしようとする歌唱者(me)の入力音声信号のフレームに対応するフレームのターゲット属性データが存在しない場合には、後に詳述するように、予め定めたイージーシンクロナイゼーション規則(Easy Synchronization Rule)に従って、ターゲット属性データを生成し、同様の処理を行う。
【0011】
次に、ものまねをしようとする歌唱者(me)に対応する元属性データINFme及びものまねの対象となる歌唱者に対応するターゲット属性データINFtarを適宜選択して組み合わせることにより、新しい属性データINFnew(新属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)を得る。なお、ものまねではなく、単なる音声変換として用いる場合には、元属性データ及びターゲット属性データの加算平均として新属性データを得るなどの元属性データ及びターゲット属性データの双方に基づいて計算により新属性データを得るようにすることも可能である。
つづいて、得られた新属性データに基づいて、当該フレームの新正弦波調波成分SINhar-newを求める。
【0012】
すなわち、正弦波調波成分SINhar-meは、正弦波調波成分処理部9において、ターゲットフレーム情報保持部11に保持されている、ものまねの対象(Target)となる歌唱者の音声信号の正弦波調波成分SINhar-tarに基づいて変形された新たな正弦波調波成分として属性変換部10に供給され、属性変換部10において、振幅を変更するなどの属性変形が施されて当該フレームの新正弦波調波成分SINhar-newを取得する。
【0013】
[3] ステップS3(正弦波非調波成分処理)
次に、歌唱者(me)の正弦波非調波成分SINinhar-me、ものまねの対象(Target)の正弦波非調波成分SINinhar-tar、およびステップS2において出力される音声変換処理に関する情報SINhar-infおよび属性変換処理に関する情報ATRinfに基づいて、新正弦波非調波成分SINinhar-newを求める。
【0014】
[4] ステップS4
そして、ステップS2で求めた新正弦波調波成分SINhar-newと、ステップS3で求めた新正弦波非調波成分SINinhar-newとを加算し逆FFTを行い、変換音声信号を得る。
【0015】
[5] まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、物まねをしようとする歌唱者の歌声が、あたかも、別の歌唱者(ターゲットの歌唱者)が歌った歌声のようになる。
【0016】
B.実施形態の詳細構成および動作
次に、本発明の実施形態の詳細構成および動作について説明する。
まず、図1において、マイク1は、ものまねをしようとする歌唱者(me)の声を収集し、入力音声信号Svとして入力音声信号切出部3に出力する。
分析窓生成部2は、前回のフレームで検出したピッチの周期の固定倍(例えば、3.5倍など)の周期を有する分析窓(例えば、ハミング窓)AWを生成し、入力音声信号切出部3に出力する。なお、初期状態あるいは前回のフレームが無声音(含む無音)の場合には、予め設定した固定周期の分析窓を分析窓AWとして入力音声信号切出部3に出力する。
入力音声信号切出部3は、入力された分析窓AWと入力音声信号Svとを掛け合わせ、入力音声信号Svをフレーム単位で切り出し、フレーム音声信号FSvとして高速フーリエ変換部4に出力される。
より具体的には、入力音声信号Svとフレームとの関係は、図2に示すようになっており、各フレームFLは、前のフレームFLと一部重なるように設定されている。
【0017】
高速フーリエ変換部4は、フレーム音声信号FSvを解析処理するとともに、図3に示すように、高速フーリエ変換部4の出力である周波数スペクトルからピーク検出部5によりローカルピークを検出する。
より具体的には、図3に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ(振幅)値の組み合わせとして表される。
すなわち、図3に示すように、(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)というように各フレームについてローカルピークが検出され、表されることとなる。
そして、図2に模式的に示すように、各フレーム毎に一組(以下、ローカルピーク組という。)として無声/有声検出部6及び分析部8に出力される。
無声/有声検出部6は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出('t'、'k'等)し、無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部13及びクロスフェーダ17に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出('s'等)し、元無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部13及びクロスフェーダ17に出力する。
【0018】
さらに無声/有声検出部6は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部7に出力する。
ピッチ検出部7は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチPmeを検出する。
より具体的なフレームのピッチPmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"(Journal of Acounstical Society of America95(4):2254-2263)に開示されているような方法で行う。
【0019】
次に、分析部8は、ピーク検出部5から出力されたローカルピーク組に基づいて、前後のフレームについて連携を判断し、連携すると認められるローカルピークについて、一連のデータ列となるようにローカルピークをつなげる連携処理を行い、歌唱者(me)の正弦波調波成分SINhar-meおよび正弦波非調波成分SINinhar-meを抽出する。
【0020】
ここで、この連携処理について、図4を参照して説明する。
今、図4(A)に示すようなローカルピークが前回のフレームにおいて検出され、図4(B)に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、分析部8は、前回のフレームで検出された各ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
【0021】
より具体的には、図4の例では、ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)……については、対応するローカルピークが検出されているが、ローカルピーク(FK、AK)については(図4(A)参照)、対応するローカルピーク(図4(B)参照)は検出されていない。
分析部8は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列とする。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
なお、分析部8から出力されるピーク値を、以後において、ピーク成分という。ピーク成分は、入力された音声信号Svのうち正弦波の要素として確定的に置き換えられる成分であり、各フレーム毎に正弦波のパラメータである周波数及びアンプ(Fn、An)で与えられる。
【0022】
次に、図5を参照して、正弦波調波成分SINhar-meを取得する処理について説明する。
図5(a)は、歌唱者(me)の音声信号Svのピーク成分を示す周波数スペクトル図である。図中ピッチFpは、ピッチ検出部7において検出された歌唱者(me)のピッチPmeの周波数を示している。
また、図5(b)は、ピッチFpおよびその倍音(2Fp、3Fp、……、nFp)に対応するピーク成分(Fh0、Ah0)、(Fh1、Ah1)、(Fh2、Ah2)、……、(Fhn、Ahn)を示す周波数スペクトル図である。本実施形態では、この(Fh0、Ah0)、(Fh1、Ah1)、(Fh2、Ah2)、……、(Fhn、Ahn)を正弦波調波成分SINhar-meとする。
【0023】
次に、図5(c)は、図5(a)に示したピーク成分から、図5(b)に示した(Fh0、Ah0)、(Fh1、Ah1)、(Fh2、Ah2)、……、(Fhn、Ahn)を除いたピーク成分を示す周波数スペクトル図であり、本実施形態では、このような正弦波調波成分SINhar-meに含まれなかった成分を正弦波非調波成分SINinhar-meとする。
すなわち、ピッチPmeおよびその倍音成分を、正弦波の合成を用いて正弦波調波成分SINhar-meとして表わし、音声信号Svのうち上記正弦波調波成分SINhar-meに含まれなかったピーク成分を、正弦波の合成を用いて正弦波非調波成分SINinhar-meと表す。
分析部8は、このようにして取得した正弦波調波成分SINhar-meを正弦波調波成分処理部9に出力し、正弦波非調波成分SINinhar-meを正弦波非調波成分処理部10に出力する。
【0024】
このように、正弦波調波成分SINhar-meおよび正弦波非調波成分SINinhar-meとに分離して取り扱うことにより、正弦波非調波成分SINinhar-meに対して正弦波調波成分SINhar-meと同様の処理を施すことが可能となるとともに、既述の残差成分と同様の音声変換処理を施すことも可能となる。また、いずれの成分も正弦波の合成であるために、後述する音声変換処理後の合成においても統一的な合成ができる。
また、正弦波非調波成分SINinhar-meは、正弦波の合成であるため、入力音声から正弦波調波成分を引いて残る従来の残差成分に比べ、その処理の自由度が高くなる。また、残差成分に比べ、正弦波非調波成分は、その情報量が少ないため、予め保持されているターゲットの情報量を含め、取り扱うデータの情報量を削減することが可能となる。
次に、正弦波調波成分処理部9は、ピッチ検出部7から出力されたピッチPmeおよび、分析部8から出力された正弦波調波成分SINhar-meに基づいて、歌唱者(me)の元属性データINFme(平均アンプAme、スペクトラル・シェイプSme(f))を生成する。
【0025】
そして、ものまねの対象(Target)となる歌唱者の音声信号の正弦波調波成分SINhar-tarに基づいて生成された歌唱者の属性データINFtarを、歌唱者(me)の元属性データINFmeに基づいて変形させて、新属性データINFnewを生成する。
ここで、図6は、正弦波調波成分処理部9における処理を示すフローチャートである。
【0026】
まず、正弦波調波成分処理部9は、図7(A)に示すように、分析部8から出力された正弦波調波成分SINhar-me((Fh0、Ah0)、(Fh1、Ah1)、(Fh2、Ah2)、……、(Fhn、Ahn))のN個のピーク成分(以下、これらをまとめてFhn、Ahnと表記する。)を保持する(S201)。そして、保持したアンプAhnに基づいて、次式により平均アンプAmeを算出する(S202)。
Ame=Σ(Ahn)/N
次に、次式により各アンプAhnを平均アンプAmeで正規化し、正規化アンプAh'nを求める(S203)。
Ah'n=Ahn/Ame
【0027】
そして、図7(B)に示すように、周波数Fhn及び正規化アンプAh'nにより得られる正弦波成分(Fhn、Ah'n)をブレークポイントとするエンベロープ(包絡線)をスペクトラル・シェイプSme(f)として生成する(S204)。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
これらの結果、正弦波調波成分処理部9は、元属性データINFmeである平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)を保持することとなる(S205)。
【0028】
つづいて、元属性データINFmeのうち、平均アンプAmeおよびピッチPmeについては、さらに静的変化/ビブラート的変化分離部19により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する(S206)。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【0029】
より具体的には、平均アンプAmeを平均アンプ静的成分Ame-sta及び平均アンプビブラート的成分Ame-vibとに分離して保持する。
また、ピッチPmeをピッチ静的成分Pme-sta及びピッチビブラート的成分Pme-vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データINFmeは、入力音声信号Svの正弦波成分に対応する元属性データである平均アンプ静的成分Ame-sta、平均アンプビブラート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブラート的成分Pme-vib、及びスペクトラル・シェイプSme(f)の形で保持されることとなる。
【0030】
そして、保持された元属性データINFmeと、ものまねの対象(Target)となる歌唱者の属性データINFtarに基づいてイージーシンクロナイゼーション処理部13から入力される置換済ターゲットフレーム情報データINFtar-syncとから、新属性データINFnewを生成して(S207)、属性変換部10に出力する。
そして、正弦波調波成分SINhar-meに対する音声変換処理に関する情報SINhar-infを正弦波非調波成分処理部14へ出力する。
【0031】
ここで、新属性データINFnewの生成処理についてさらに詳しく説明する。まず、正弦波調波成分処理部9に入力される置換済ターゲットフレーム情報データINFtar-syncについて説明する。
再び図1を参照すると、ターゲットフレーム情報保持部11は、予めSMS分析した、ものまねの対象(Target)となる歌唱者のデータ(正弦波調波成分SINhar-tarに基づく属性データINFtar、正弦波非調波成分SINinhar-tar)を格納している。この場合において、ターゲット属性データINFtarとしては、平均アンプ静的成分Atar-sta、平均アンプビブラート的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビブラート的成分Ptar-vib、スペクトラル・シェイプStar(f)がある。
【0032】
次にキーコントロール/テンポチェンジ部12は、シーケンサ18からの同期信号SSYNCに基づいて、正弦波調波成分処理部9から同期信号SSYNCに対応するフレームのターゲットフレーム情報INFtarの読出処理及び読み出したターゲットフレーム情報データINFtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報INFtarおよび当該フレームが無声であるか有声であるかを表すターゲット無声/有声検出信号U/Vtarを出力する。
【0033】
より具体的には、キーコントロール/テンポチェンジ部12の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、50[cent]だけキーを上げた場合には、ピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても50[cent]だけ上げなければならない。
また、キーコントロール/テンポチェンジ部12の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データINFtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データINFtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データINFtarを読み出し、これら二つのターゲットフレーム情報データINFtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データINFtar、ひいては、ターゲット属性データを生成する。
【0034】
また、ビブラート的成分(平均アンプビブラート的成分Atar-vib及びピッチビブラート的成分Ptar-vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【0035】
次にイージーシンクロナイゼーション処理部13は、歌唱者(me)のフレーム(以下、元フレームという。)に元フレーム情報データINFmeが存在するにもかかわらず、対応するものまねの対象(Target)となる歌唱者のフレーム(以下、ターゲットフレームという。)にターゲットフレーム情報データINFtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データINFtarを当該ターゲットフレームのターゲットフレーム情報データINFtarとするイージーシンクロナイゼーション処理を行う。
【0036】
そして、イージーシンクロナイゼーション処理部13は、後述する置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib及びスペクトラル・シェイプStar-sync(f))を正弦波調波成分処理部9に出力する。
【0037】
また、イージーシンクロナイゼーション処理部13は、後述する置換済ターゲットフレーム情報データINFtar-syncに含まれる正弦波非調波成分SINinhar-tarを正弦波非調波成分処理部14に出力する。
このイージーシンクロナイゼーション処理部13における処理においても、ビブラート的成分(平均アンプビブラート的成分Atar-vib及びピッチビブラート的成分Ptar-vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。
又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
ここで、図8及び図9を参照してイージーシンクロナイゼーション処理について詳細に説明する。
【0038】
図8は、イージーシンクロナイゼーション処理のタイミングチャートであり、図9はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部13は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード="0"とする(ステップS11)。このシンクロナイゼーションモード="0"は、元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtarが存在する通常処理の場合に相当する。
そしてあるタイミングtにおける元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化したか否かを判別する(ステップS12)。
【0039】
例えば、図8に示すように、タイミングt=t1においては、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している。
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している場合には(ステップS12;Yes)、タイミングtの前回のタイミングt-1における元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)であるか否かを判別する(ステップS18)。
【0040】
例えば、図8に示すように、タイミングt=t0(=t1-1)においては、元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)となっている。
ステップS18の判別において、元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)となっている場合には(ステップS18;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード="1"とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向(Backward)に存在するフレームのターゲットフレーム情報とする。
例えば、図8に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード="1"とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データbackwardとする。
【0041】
そして、処理をステップS15に移行し、シンクロナイゼーションモード="0"であるか否かを判別する(ステップS15)。
ステップS15の判別において、シンクロナイゼーションモード="0"である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データINFtar-syncをターゲットフレーム情報データINFtar(t)とする。
INFtar-sync=INFtar(t)
【0042】
例えば、図8に示すようにタイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、
INFtar-sync=INFtar(t)
とする。
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び正弦波非調波成分SINtsr-sync)は実質的には、以下の内容となる(ステップS16)。
Atar-sync-sta=Atar-sta
Atar-sync-vib=Atar-vib
Ptar-sync-sta=Ptar-sta
Ptar-sync-vib=Ptar-vib
Star-sync(f)=Star(f)
SINtar-sync=SINtar
【0043】
ステップS15の判別において、シンクロナイゼーションモード="1"またはシンクロナイゼーションモード="2"である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データINFtar-syncを置換用ターゲットフレーム情報データINFholdとする。
INFtar-sync=INFhold
【0044】
例えば、図8に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード="1"となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar-syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P1を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び正弦波非調波成分SINtsr-syncとなる(ステップS16)。
【0045】
また、図8に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード="2"となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar-syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P2を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び正弦波非調波成分SINtsr-syncとなる(ステップS16)。
【0046】
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化していない場合には(ステップS12;No)、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化しているか否かを判別する(ステップS13)。
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化している場合には(ステップS13;Yes)、タイミングtの前回のタイミングt-1における元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(V)であるか否かを判別する(ステップS19)。
例えば、図8に示すように、タイミングt3においてターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化し、タイミングt-1=t2〜t3においては、元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(U)となっている。
【0047】
ステップS19の判別において、元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(V)となっている場合には(ステップS19;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード="2"とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向(forward)に存在するフレームのターゲットフレーム情報とする。
例えば、図8に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード="2"とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データforwardとする。
そして、処理をステップS15に移行し、シンクロナイゼーションモード="0"であるか否かを判別して(ステップS15)、以下、同様の処理を行う。
【0048】
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化していない場合には(ステップS13;No)、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、あるいは、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化しているか否かを判別する(ステップS14)。
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、かつ、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化している場合には(ステップS14;Yes)、シンクロナイゼーションモード="0"とし、置換用ターゲットフレーム情報データINFholdを初期化(clear)し、処理をステップS15に移行して、以下、同様の処理を行う。
【0049】
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化せず、あるいは、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化していない場合には(ステップS14;No)、そのまま処理をステップS15に移行し、以下同様の処理を行う。
【0050】
このようにして、正弦波調波成分処理部9は、イージーシンクロナイゼーション処理部12から入力された置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち正弦波調波成分に関するターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib及びスペクトラル・シェイプStar-sync(f))及び図示せぬコントローラから入力される正弦波調波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)を生成する。
【0051】
すなわち、新規アンプ成分Anewについては、次式により生成する。
Anew=A*-sta+A*-vib(ただし、*は、me又はtar-sync)
より具体的には、新規アンプ成分Anewを元属性データの平均アンプ静的成分Ame-staあるいはターゲット属性データの平均アンプ静的成分Atar-sync-staのいずれか一方及び元属性データの平均アンプビブラート的成分Ame-vibあるいはターゲット属性データの平均アンプビブラート的成分Atar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規ピッチ成分Pnewについては、次式により生成する。
Pnew=P*-sta+P*-vib(ただし、*は、me又はtar-sync)
【0052】
より具体的には、図8(D)に示すように、新規ピッチ成分Pnewを元属性データのピッチ静的成分Pme-staあるいはターゲット属性データのピッチ静的成分Ptar-sync-staのいずれか一方及び元属性データのピッチビブラート的成分Pme-vibあるいはターゲット属性データのピッチビブラート的成分Ptar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規スペクトラル・シェイプSnew(f)については、次式により生成する。
Snew(f)=S*(f)(ただし、*は、me又はtar-sync)
【0053】
さて、属性変換部10は、このようにして正弦波調波成分処理部9において生成された新属性データINFnewに基づいて、必要に応じて振幅やピッチ、スペクトラル・シェープを変更するなどの属性変形を施し、新たな正弦波調波成分SINhar-newを生成し、逆FFT処理部16へ供給するとともに、属性変換情報ATRinfを正弦波非調波成分処理部14へ供給する。
【0054】
ここで、正弦波非調波成分処理部14について説明する。正弦波非調波成分処理部14には、前述のように、歌唱者(me)の音声信号Svの正弦波非調波成分SINinhar-me、正弦波調波処理部9における音声変換処理に関する情報SINhar-inf、属性変換部10から属性変換に関する情報ATRinf、およびイージーシンクロナイゼーション処理部13から出力される置換済ターゲットフレーム情報データINFtar-syncが入力されている。
【0055】
正弦波非調波成分処理部14は、正弦波調波成分に施した処理と同様の処理、あるいは従来の残差成分に対して施した処理と同様の処理を行うことによって、歌唱者(me)の音声信号の正弦波非調波成分SINinhar-meを、置換済ターゲットフレーム情報データINFtar-syncに基づいて変形した新たな正弦波非調波成分SINinhar-newを生成して信号処理部15に供給する。
【0056】
すなわち、正弦波非調波成分SINinhar-meを構成するピーク成分(図5(c)参照)から生成された平均アンプやスペクトラル・シェイプなどの属性データを、置換済ターゲットフレーム情報データINFtar-syncから生成された属性データに基づいて変形した新たな属性データを生成し、さらに、生成した属性データを変形することによって新たな正弦波非調波成分SINinhar-newを生成する(図6に示すS207、S208参照)。
【0057】
また、正弦波非調波成分SINinhar-meを、正弦波の合成であるピーク成分としてではなく残差成分として処理する場合は、正弦波調波処理部9における音声変換処理に関する情報SINhar-infに基づいて、歌唱者(me)の正弦波非調波成分SINinhar-meあるいは置換済ターゲットフレーム情報データINFtar-syncのいずれを残差成分として使用するかについてを決定し、新正弦波非調波成分SINinhar-newとする。
【0058】
次に、信号処理部15について説明する。信号処理部15は、最終的に正弦波調波成分と正弦波非調波成分とを合成して出力される音声の自然性が損なわれることを減少するために、信号処理情報INFproに従って、新正弦波非調波成分SINinhar-newに信号処理を施のもである。
すなわち、正弦波非調波成分処理部14から入力される新正弦波非調波成分SINinhar-newにもピッチおよび倍音成分(ピッチ成分)が含まれる場合があり、新正弦波調波成分SINhar-newのピッチPnewと当該ピッチ成分が異なる場合には、合成して出力される音声信号には異なる複数のピッチが混在することになる。
そこで、本実施形態においては、正弦波調波成分処理部9、属性変換部10、および正弦波非調波成分処理部14における処理(以下、これらの処理の結果を示す情報を信号処理情報INFproとする)に応じて不要なピッチ成分を信号処理部15において取り除くものとしている。
不要なピッチ成分を取り除くためには、具体的には、図10に示すように変換処理後の新正弦波調波成分SINhar-newと新正弦波非調波成分SINinhar-newとを畳み込む処理、あるいは、図11に示すように新正弦波非調波成分SINinhar-newに含まれるピッチ成分をくし形フィルタによってフィルタリングする処理を行う。
【0059】
ここで、図12は信号処理部15の詳細構成を示す図である。図12に示すように、入力選択部151、畳み込み処理部152、くし形フィルタ処理部153、および出力選択部154を備えて構成されている。
【0060】
入力選択部151は、正弦波非調波成分処理部14から出力された新正弦波非調波成分SINinhar-newの入力先を、畳み込み処理部152、くし形フィルタ処理部153、および出力選択部154のいずれかから選択するものである。
ここでは、信号処理情報INFproに基づいて、不要なピッチ成分を取り除く必要がないと判別した場合は、新正弦波非調波成分SINinhar-newに対して信号処理を施す必要がないので、新正弦波非調波成分SINinhar-newを出力選択部154にそのまま入力するように選択する。
一方、不要なピッチ成分を取り除く必要があると判別した場合は、畳み込み処理部152あるいはくし形フィルタ処理部153のいずれかを選択する。
出力選択部154は、信号処理情報INFproに基づいて、畳み込み処理部152あるいはくし形フィルタ処理部153によって処理された信号、あるいは、処理されなかった信号のいずれを出力正弦波非調波成分SINinhar-new'として出力するかを選択するものである。
【0061】
次に、図10および図12を参照して、畳み込み処理について説明する。畳み込み処理とは、図10に示すように、新正弦波調波成分SINhar-newの成分(ピッチ及び倍音成分あるいはスペクトラル・シェイプ)をパラメータとし、該パラメータと新正弦波非調波成分SINinhar-newとを畳み込み演算することによって、新正弦波非調波成分SINinhar-newを出力正弦波非調波成分SINinhar-new'に変換する処理である。
【0062】
まず、図10(a)は、新正弦波調波成分SINhar-newおよびそのスペクトラル・シェイプSnew(f)を示しており、(b)は、新正弦波非調波成分SINinhar-newを示している。
本実施形態では、まず、畳み込み処理のパラメータに用いる成分として、新正弦波調波成分SINhar-newのピッチPnewおよびその倍音成分、あるいは、スペクトラル・シェイプSnew(f)のいずれかから選択することができる。
畳み込み成分処理部152は、まず、畳み込み処理のパラメータに用いる成分を決定し、(152a)、次に、新正弦波調波成分SINhar-newの各周波数をその周波数軸上における最大値で正規化する(152b)。
そして、正規化されて得られたパラメータと新正弦波非調波成分SINinhar-newとで畳み込み演算を行う(152c)。
【0063】
図10(c)は、ピッチPnewおよび倍音成分の各周波数をその周波数軸上における最大値で正規化して得られたパラメータを示しており、(e)は、(b)に示す新正弦波非調波成分SINinhar-newと(c)に示すパラメータとを畳み込み演算して得られる成分を示している。
また、図10(d)は、スペクトラル・シェイプSnew(f)のブレークポイントとなる各周波数をその周波数軸上における最大値で正規化して得られたパラメータを示しており、(f)は、(b)に示す新正弦波非調波成分SINinhar-newと(d)に示すパラメータとを畳み込み演算して得られる成分を示している。
【0064】
このようにして生成された出力正弦波非調波成分SINinhar-new'は、新正弦波調波成分SINhar-newに応じたピッチ及び倍音成分、あるいは、スペクトラル・シェイプSnew(f)に応じた、周波数エンベロープを有するものとなる。
【0065】
次に、図11および図12を参照して、くし形フィルタ処理について説明する。くし形フィルタ処理とは、図11に示すように、新正弦波非調波成分SINinhar-newに含まれるピッチ成分を取り除くために、当該ピッチをパラメータ(くし形フィルタピッチ)とし、新正弦波非調波成分SINinhar-newをフィルタリングする処理である。なお、図11は、新正弦波調波成分SINhar-newのピッチPnewをパラメータとした場合のくし形フィルタの特性を示す1例である。
くし形フィルタ処理部153は、まずくし形フィルタピッチを決定する(153a)。ここでは、例えば、新正弦波非調波成分SINinhar-newとして歌唱者(me)の正弦非波調波成分SINinhar-meが選択されている場合は、新正弦波調波成分SINhar-newのピッチPnewとは異なるピッチPmeが含まれているので、くし形フィルタピッチはPmeとする。逆に、ものまねの対象(Target)の正弦非波調波成分SINinhar-tarが選択されている場合にはPtarとなる。歌唱者(me)とものまねの対象(Target)の正弦非波調波成分を任意の比率で補完した場合には、同じ比率で補完してできるピッチとなる。
あるいは、正弦波調波成分と同様の変換処理がなされた場合には、変換処理後のピッチとなる。
そして、決定したくし形フィルタピッチの整数倍の周波数を取り除く処理を行う(153b)。
このようにして生成された出力正弦波非調波成分SINinhar-new'は、新正弦波調波成分SINhar-newとは異なるピッチ成分が取り除かれるので、新正弦波調波成分SINhar-newと合成した場合でも音声の自然性は損なわれなくなる。
【0066】
そして、信号処理部15の出力選択部154からは、上記信号処理された(または未処理の)出力正弦波非調波成分SINinhar-new'が逆FFT処理部16に出力される。
逆FFT処理部16は、属性変換部10から出力された新正弦波調波成分SINhar-newおよび出力正弦波非調波成分SINinhar-new'を周波数軸上で加算した後、逆FFT変換し、クロスフェーダ17へ供給する。
【0067】
次にクロスフェーダ17は、元無声/有声検出信号U/Vme(t)に基づいて、入力音声信号Svが無声(U)である場合には、入力音声信号Svをそのままミキサ20に出力する。
また、入力音声信号Svが有声(V)である場合には、逆FFT処理部16が出力した変換音声信号をミキサ20に出力する。
この場合において、切替スイッチとしてクロスフェーダ17を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【0068】
一方、シーケンサ18は、カラオケの伴奏音を発生するための音源制御情報を例えば、MIDI(Musical Instrument Digital Interface)データなどとして音源部19に出力する。
これにより音源部19は、音源制御情報に基づいて伴奏信号を生成し、ミキサ20に出力する。
ミキサ20は、入力音声信号Svあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部21に出力する。
出力部21は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【0069】
C.変形例
なお、本発明は既述した実施形態に限定されるものではなく、以下のような各種の変形が可能である。
【0070】
以上の説明においては、属性データとしては、元属性データINFmeあるいはターゲット属性データ(置換済ターゲットフレーム情報データINFtar-sync)のいずれかを選択的に用いる構成としていたが、元属性データ及びターゲット属性データの双方を用い、補間処理を行うことにより中間的な属性を有する変換音声信号を得るように構成することも可能である。
しかしながら、このような構成によれば、ものまねをしようとする歌唱者及びものまねの対象(target)となる歌唱者のいずれにも似ていない変換音声が得られる場合もある。
また、特にスペクトラル・シェイプを補間処理によって求めた場合には、ものまねをしようとする歌唱者が「あ」を発音し、ものまねの対象となる歌唱者が「い」を発音している場合などには、「あ」でも「い」でもない音が変換音声として出力される可能性があり、その取扱には注意が必要である。
【0071】
また、ピーク成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
本実施形態においては、ターゲットの正弦波調波成分及び正弦波非調波成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波調波成分及び正弦波非調波成分を抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
【0072】
本実施形態においては、属性データとして、ピッチ、アンプ、スペクトラル・シェイプの全てを取り扱ったが、少なくともいずれか一つを扱うようにすることも可能である。
【0073】
また、上記実施形態においては、属性変換部10から出力される新正弦波調波成分SINhar-newと、信号処理部15から出力される出力正弦波非調波成分SINinhar-new'とを合成するものとしているが、これに限らず、合成するか否かを選択できるようにしてもよい。
また、コントローラを設けて、選択に関する設定など各種設定をユーザが行うようにしてもよい。
【0074】
【発明の効果】
以上、説明したように、この発明によれば、音声変換に用いるデータの取り扱いを容易にするとともに、情報量を削減しつつ、声質を目標(ターゲット)とする歌唱者の声や歌い方に似させることができる。
【図面の簡単な説明】
【図1】 本発明の実施形態の構成を示すブロック図である。
【図2】 実施形態におけるフレームの状態を示す図である。
【図3】 実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図4】 実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図5】 本実施形態の概念を説明する図である。
【図6】 正弦波調波成分処理部における処理を示すフローチャートである。
【図7】 正弦波調波成分を示す図である。
【図8】 イージーシンクロナイゼーション処理のタイミングチャートである。
【図9】 イージーシンクロナイゼーション処理フローチャートである。
【図10】 畳み込み処理を説明する図である。
【図11】 基本周波数200Hzとした場合のくし形フィルタ処理を説明する図である。
【図12】 信号処理部の構成を示すブロック図である。
【符号の説明】
1……マイク
2……分析窓生成部
3……入力音声信号切出部
4……高速フーリエ変換部
5……ピーク検出部
6……無声/有声検出部
7……ピッチ検出部
8……分析部
9……正弦波調波成分処理部
10……属性変換部
11……ターゲットフレーム情報保持部
12……キーコントロール/テンポチェンジ部
13……イージーシンクロナイゼーション処理部
14……正弦波非調波成分処理部
16……逆FFT処理部
17……クロスフェーダ
18……シーケンサ
19……音源部
20……ミキサ
151……入力選択部
152……畳み込み処理部
153……くし形フィルタ処理部
154……出力選択部
Claims (7)
- 入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピーク毎に周波数と振幅を抽出するピーク検出手段と、
前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出手段と、
前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する調波成分抽出手段と、
前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外のローカルピークを非調波成分として抽出する非調波成分抽出手段と、
前記調波成分に該当するローカルピークの周波数と振幅を変形する調波成分変形手段と、
前記非調波成分に該当するローカルピークの周波数と振幅を変形する非調波成分変形手段と、
前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する合成手段と
を具備することを特徴とする音声変換装置。 - 請求項1に記載の音声変換装置において、
音声変換の対象となる変換用音声信号の成分である変換対象調波成分および変換対象非調波成分を保持する保持手段を具備し、
前記調波成分変形手段は、前記変換対象調波成分に基づいて前記調波成分に該当するローカルピークの周波数と振幅を変形し、
前記非調波成分変形手段は、前記変換対象非調波成分に基づいて前記非調波成分に該当するローカルピークの周波数と振幅を変形すること
を特徴とする音声変換装置。 - 請求項1または2に記載の音声変換装置において、
前記非調波成分変形手段は、前記非調波成分から抽出された属性データを変形することによって前記非調波成分に該当するローカルピークの周波数と振幅を変形することを特徴とする音声変換装置。 - 請求項2に記載の音声変換装置において、
前記非調波成分変形手段は、前記非調波成分あるいは前記変換対象非調波成分のいずれか一方を前記変形された非調波成分とすること
を特徴とする音声変換装置。 - 請求項1または2に記載の音声変換装置において、
前記非調波成分変形手段により変形された非調波成分のピッチ成分およびその倍音成分を除去する除去手段
を具備することを特徴とする音声変換装置。 - 請求項1または2に記載の音声変換装置において、
前記調波成分変形手段により変形された調波成分と、前記非調波成分変形手段により変形された非調波成分とを畳み込み演算する畳み込み処理手段
を具備することを特徴とする音声変換装置。 - 入力音声信号を所定のフレーム毎に周波数分析することにより得られたスペクトルから複数のローカルピークを検出し、前記ローカルピークごとに周波数と振幅を抽出するピーク検出する段階と、
前記複数のローカルピークに基づいて、前記入力音声信号のピッチを検出するピッチ検出する段階と、
前記複数のローカルピークのうち、前記ピッチの周波数およびその倍数の周波数を表す周波数のローカルピークを調波成分として抽出する段階と、
前記複数のローカルピークのうち、前記調波成分として抽出されたローカルピーク以外 のローカルピークを非調波成分として抽出する段階と、
前記調波成分に該当するローカルピークの周波数と振幅を変形する段階と、
前記非調波成分に該当するローカルピークの周波数と振幅を変形する段階と、
前記調波成分変形手段により変形された調波成分に該当するローカルピークと、前記非調波成分変形手段により変形された非調波成分に該当するローカルピークとを合成する段階と
を備えることを特徴とする音声変換方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17644398A JP3907027B2 (ja) | 1998-06-23 | 1998-06-23 | 音声変換装置および音声変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17644398A JP3907027B2 (ja) | 1998-06-23 | 1998-06-23 | 音声変換装置および音声変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010600A JP2000010600A (ja) | 2000-01-14 |
JP3907027B2 true JP3907027B2 (ja) | 2007-04-18 |
Family
ID=16013802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17644398A Expired - Fee Related JP3907027B2 (ja) | 1998-06-23 | 1998-06-23 | 音声変換装置および音声変換方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3907027B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6428256B2 (ja) * | 2014-12-25 | 2018-11-28 | ヤマハ株式会社 | 音声処理装置 |
-
1998
- 1998-06-23 JP JP17644398A patent/JP3907027B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010600A (ja) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2264696B1 (en) | Voice converter with extraction and modification of attribute data | |
JP3502247B2 (ja) | 音声変換装置 | |
WO2018084305A1 (ja) | 音声合成方法 | |
JPH07325583A (ja) | サウンドの分析及び合成方法並びに装置 | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3511360B2 (ja) | 音楽音響信号分離方法、その装置およびそのプログラム記録媒体 | |
JP3907027B2 (ja) | 音声変換装置および音声変換方法 | |
JP4455701B2 (ja) | 音声信号処理装置および音声信号処理方法 | |
KR20230006629A (ko) | 이미지를 통한 학습을 이용하여 합성 음원을 생성하는 장치, 방법 및 컴퓨터 프로그램 | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
Arroabarren et al. | Instantaneous frequency and amplitude of vibrato in singing voice | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP6834370B2 (ja) | 音声合成方法 | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3934793B2 (ja) | 音声変換装置及び音声変換方法 | |
Roebel | Between physics and perception: Signal models for high level audio processing | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
Sasindran et al. | Modeling Ornaments in Carnatic Music Signals via Wavelets | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041116 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110126 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120126 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130126 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140126 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |