JP3540609B2 - 音声変換装置及び音声変換方法 - Google Patents

音声変換装置及び音声変換方法 Download PDF

Info

Publication number
JP3540609B2
JP3540609B2 JP18333898A JP18333898A JP3540609B2 JP 3540609 B2 JP3540609 B2 JP 3540609B2 JP 18333898 A JP18333898 A JP 18333898A JP 18333898 A JP18333898 A JP 18333898A JP 3540609 B2 JP3540609 B2 JP 3540609B2
Authority
JP
Japan
Prior art keywords
data
component
target
audio signal
attribute data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18333898A
Other languages
English (en)
Other versions
JP2000003199A (ja
Inventor
靖雄 吉岡
セラ ザビエル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP18333898A priority Critical patent/JP3540609B2/ja
Priority to TW088108973A priority patent/TW430778B/zh
Priority to EP10009510A priority patent/EP2264696B1/en
Priority to EP12000670A priority patent/EP2450887A1/en
Priority to EP99110936A priority patent/EP0982713A3/en
Publication of JP2000003199A publication Critical patent/JP2000003199A/ja
Priority to US10/282,536 priority patent/US7606709B2/en
Priority to US10/282,754 priority patent/US7149682B2/en
Priority to US10/282,992 priority patent/US20030055647A1/en
Application granted granted Critical
Publication of JP3540609B2 publication Critical patent/JP3540609B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、処理対象となる音声を目標とする他の音声に近似させる音声変換装置及び音声変換方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置及び音声変換方法に関する。
【0002】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある(例えば、特表平8−508581号)。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換(例えば、男声→女声、女声→男声など)は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者(例えば、プロの歌手)の声に似せるように変換するということはできなかった。
【0004】
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であった。
そこで、本発明の目的は、声質を目標(ターゲット)とする歌唱者の声に似させることができる音声変換装置及び音声変換方法を提供することにある。
また、本発明の他の目的は、入力された歌唱者の音声を目標とする歌唱者の歌い方に似せることができる音声変換装置及び音声変換方法を提供することにある。
【0005】
【課題を解決するための手段】
上記課題を解決するため、請求項1記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、を備えたことを特徴としている。
また、請求項2記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータとにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、を備えたことを特徴としている。
【0006】
請求項記載の構成は、請求項1または2記載の構成において、前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択する選択手段を有し、前記変換音声信号生成手段は、前記選択手段によって選択された成分と前記新規属性データとを混合して新たな信号を生成することを特徴としている。
【0015】
請求項記載の構成は、請求項1または2記載の構成において、前記元属性データ抽出手段および前記新規属性データ生成手段は、所定時間長のフレーム単位で処理するとともに、前記新規属性データ生成手段は、一のフレームについての前記元属性データに対応する前記ターゲット属性データが存在するか否かを入力音声信号の無声有声検出信号とターゲット音声信号の無声有声検出信号とに基づいて判別し、存在しないと判別した場合に、当該フレームに対し時間的に前に位置するフレームあるいは当該フレームに対し時間的に後ろに位置するフレームについての前記ターゲット属性データを用いて、前記新規属性データを生成することを特徴としている。
【0016】
請求項記載の構成は、請求項1または2記載の構成において、前記変換音声信号生成手段は、前記新規属性データに変形処理を施し変形新規属性データを生成する新規属性データ変形手段を有し、前記変形新規属性データに基づいて前記変換音声信号を生成し出力することを特徴としている。
【0017】
請求項記載の構成は、請求項1または2記載の構成において、前記変換音声信号生成手段は、前記新規属性データに含まれるピッチデータに相当するピッチとは異なるピッチに相当するピッチデータを含む追加属性データを出力する追加属性データ生成手段を有し、前記新規属性データおよび前記追加属性データに基づいて前記変換音声信号を生成し出力することを特徴としている。
【0018】
請求項記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、を備えたことを特徴としている。
また、請求項8記載の構成は、入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、対象となるターゲット音声信号の属性を、アンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータ、およびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、を備えたことを特徴としている。
【0019】
請求項9記載の構成は、請求項7または8記載の構成において、前記変換音声信号生成工程において、前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択し、選択した成分と、前記新規属性データとを混合して新たな信号を生成することを特徴としている。
【0020】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
[1] 実施形態の概要処理
始めに、実施形態の概要処理について説明する。
[1.1] ステップS1
まず、ものまねをしようとする歌唱者(me)の音声(入力音声信号)をリアルタイムでFFT(Fast Fourie Transform)を含むSMS(Spectral Modeling Synthesis)分析を行い、フレーム単位で正弦波成分(Sine成分)を抽出するとともに、入力音声信号及び正弦波成分からフレーム単位で残差成分(Residual成分)を生成する。これと並行して入力音声信号が無声音(含む無音)か否かを判別し、無声音である場合には、以下のステップS2〜ステップS6の処理は行わず、入力音声信号をそのまま出力することとなる。
この場合において、SMS分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
【0021】
[1.2] ステップS2
次に入力音声信号が有声音である場合には、抽出した正弦波成分からさらに元属性(Attribute)データであるピッチ(Pitch)、アンプ(Amplitude)及びスペクトラル・シェイプ(Spectral Shape)を抽出する。さらに抽出したピッチ及びアンプについては、ビブラート成分及びビブラート成分以外の他の成分に分離する。
【0022】
[1.3] ステップS3
予め記憶(保存)してあるものまねの対象(Target)となる歌唱者の属性データ(ターゲット属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)から、ものまねをしようとする歌唱者(me)の入力音声信号のフレームに対応するフレームのターゲット属性データ(=ピッチ、アンプ及びスペクトラル・シェイプ)を取り出す。この場合において、ものまねをしようとする歌唱者(me)の入力音声信号のフレームに対応するフレームのターゲット属性データが存在しない場合には、後に詳述するように、予め定めたイージーシンクロナイゼーション規則(Easy Synchronization Rule)に従って、ターゲット属性データを生成し、同様の処理を行う。
【0023】
[1.4] ステップS4
次にものまねをしようとする歌唱者(me)に対応する元属性データ及びものまねの対象となる歌唱者に対応するターゲット属性データを適宜選択して組み合わせることにより、新しい属性データ(新属性データ=ピッチ、アンプ及びスペクトラル・シェイプ)を得る。なお、ものまねではなく、単なる音声変換として用いる場合には、元属性データ及びターゲット属性データの加算平均として新属性データを得るなどの元属性データ及びターゲット属性データの双方に基づいて計算により新属性データを得るようにすることも可能である。
【0024】
[1.5] ステップS5
つづいて得られた新属性データに基づいて、当該フレームの正弦波成分を求める。
[1.6] ステップS6
そして求めた正弦波成分と、ステップS1で求めた残差成分あるいは予め記憶(保存)してあるものまねの対象(Target)となる歌唱者の残差成分のいずれか一方と、に基づいて逆FFTを行い、変換音声信号を得る。
[1.7] まとめ
これらの処理の結果得られる変換音声信号によれば、再生される音声は、物まねをしようとする歌唱者の歌声が、あたかも、別の歌唱者(ターゲットの歌唱者)が歌った歌声のようになる。
【0025】
[2] 実施形態の詳細構成
図1及び図2に、実施形態の詳細構成図を示す。なお、本実施形態は、本発明による音声変換装置(音声変換方法)をカラオケ装置に適用し、ものまねを行うことができるカラオケ装置として構成した場合の例である。
図1において、マイク1は、ものまねをしようとする歌唱者(me)の声を収集し、入力音声信号Svとして入力音声信号切出部3に出力する。
これと並行して、分析窓生成部2は、前回のフレームで検出したピッチの周期の固定倍(例えば、3.5倍など)の周期を有する分析窓(例えば、ハミング窓)AWを生成し、入力音声信号切出部3に出力する。なお、初期状態あるいは前回のフレームが無声音(含む無音)の場合には、予め設定した固定周期の分析窓を分析窓AWとして入力音声信号切出部3に出力する。
【0026】
これらにより入力音声信号切出部3は、入力された分析窓AWと入力音声信号Svとを掛け合わせ、入力音声信号Svをフレーム単位で切り出し、フレーム音声信号FSvとして高速フーリエ変換部4に出力される。
より具体的には、入力音声信号Svとフレームとの関係は、図3に示すようになっており、各フレームFLは、前のフレームFLと一部重なるように設定されている。
そして、高速フーリエ変換部4においてフレーム音声信号FSvは、解析処理されるとともに、図4に示すように、高速フーリエ変換部4の出力である周波数スペクトルからピーク検出部5によりローカルピークが検出される。
【0027】
より具体的には、図4に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ(振幅)値の組み合わせとして表される。
すなわち、図4に示すように、(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)というように各フレームについてローカルピークが検出され、表されることとなる。
【0028】
そして、図3に模式的に示すように、各フレーム毎に一組(以下、ローカルピーク組という。)として無声/有声検出部6及びピーク連携部8に出力される。無声/有声検出部6は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出(‘t’、‘k’等)し、無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部22及びクロスフェーダ30に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出(‘s’等)し、元無声/有声検出信号U/Vmeをピッチ検出部7、イージーシンクロナイゼーション処理部22及びクロスフェーダ30に出力する。
【0029】
さらに無声/有声検出部6は、入力されたフレームについて無声であると検出されなかった場合には、入力されたローカルピーク組をそのまま、ピッチ検出部7に出力する。
ピッチ検出部7は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチPmeを検出する。
より具体的なフレームのピッチPmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"(Journal of Acounstical Society of America95(4):2254-2263)に開示されているような方法で行う。
【0030】
次に、ピーク検出部5から出力されたローカルピーク組は、ピーク連携部8において、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図5を参照して説明する。
今、図5(A)に示すようなローカルピークが前回のフレームにおいて検出され、図5(B)に示すようなローカルピークが今回のフレームにおいて検出されたとする。
【0031】
この場合、ピーク連携部8は、前回のフレームで検出された各ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)、……、(FN、AN)に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図5の例では、ローカルピーク(F0、A0)、(F1、A1)、(F2、A2)……については、対応するローカルピークが検出されているが、ローカルピーク(FK、AK)については(図5(A)参照)、対応するローカルピーク(図5(B)参照)は検出されていない。
【0032】
ピーク連携部8は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
ここで、図6は、複数のフレームにわたるローカルピークの周波数F0及び周波数F1の変化の一例を示している。
このような変化は、アンプ(振幅)A0、A1、A2、……についても同様に認められる。この場合、ピーク連携部8から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
【0033】
なお、ピーク連携部8から出力されるピーク値を、以後において、確定成分という。これは、元の信号(すなわち、音声信号Sv)のうち正弦波の要素として確定的に置き換えられる成分という意味である。また、置き換えられた各正弦波(厳密には、正弦波のパラメータである周波数及びアンプ(振幅))の各々については、正弦波成分と呼ぶことにする。
【0034】
次に、補間合成部9は、ピーク連携部8から出力される確定成分について補間処理を行い、補間後の確定成分に基づいていわゆるオシレータ方式で波形合成を行う。この場合の補間の間隔は、後述する出力部34が出力する最終出力信号のサンプリングレート(例えば、44.1KHz)に対応した間隔で行われる。前述した図6に示す実線は、正弦波成分の周波数F0、F1について補間処理が行われた場合のイメージを示している。
【0035】
[2.1] 補間合成部の構成
ここで、補間合成部9の構成を図7に示す。
補間合成部9は、複数の部分波形発生部9aを備えて構成されており、各部分波形発生部9aは、指定された正弦波成分の周波数(F0、F1、…)およびアンプ(振幅)に応じた正弦波を発生する。ただし、本第1実施形態における正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……は、各々補間の間隔に従って時事刻々変化していくものであるから、各部分波形発生部9aから出力される波形は、その変化に従った波形になる。すなわち、ピーク連携部8からは正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……が順次出力され、各正弦波成分の各々について補間処理が行われるから、各部分波形発生部9aは、所定の周波数領域内で周波数と振幅が変動する波形を出力する。そして、各部分波形発生部9aから出力された波形は、加算部9bにおいて加算合成される。したがって、補間合成部9の出力信号は、入力音声信号Svから確定成分を抽出した正弦波成分合成信号SSSになる。
【0036】
[2.2] 残差成分検出部の動作
次に、残差成分検出部10は、補間合成部9から出力された正弦波成分合成信号SSSと入力音声信号Svとの偏差である残差成分信号SRD(時間波形)を生成する。この残差成分信号SRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号SSSは有声成分に対応するものである。
ところで、目標(Target)となる歌唱者の声に似せるには、有声音についてだけ処理を行えば、無声音については処理を施す必要はあまりない。
そこで、本実施形態においては、有声成分に対応する確定成分について音声変換処理を行うようにしている。
より具体的には、残差成分信号SRDについては、高速フーリエ変換部11で、周波数波形に変換し、得られた残差成分信号(周波数波形)をRme(f)として残差成分保持部12に保持しておく。
【0037】
[2.3] 平均アンプ演算部の動作
一方、図8(A)に示すように、ピーク検出部5からピーク連携部8を介して出力された正弦波成分(F0、A0)、(F1、A1)、(F2、A2)、……、(F(N-1)、A(N-1))のN個の正弦波成分(以下、これらをまとめてFn、Anと表記する。n=0〜(N−1)。)は、正弦波成分保持部13に保持されるとともに、アンプAnは平均アンプ演算部14に入力され、各フレーム毎に次式により平均アンプAmeが算出される。
Ame=Σ(An)/N
【0038】
[2.4] アンプ正規化部の動作
次にアンプ正規化部15において、次式により各アンプAnを平均アンプAmeで正規化し、正規化アンプA’nを求める。
A’n=An/Ame
[2.5] スペクトラル・シェイプ演算部の動作
そして、スペクトラル・シェイプ演算部16において、図8(B)に示すように、周波数Fn及び正規化アンプA’nにより得られる正弦波成分(Fn、A’n)をブレークポイントとするエンベロープ(包絡線)をスペクトラル・シェイプSme(f)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【0039】
[2.6] ピッチ正規化部の動作
続いてピッチ正規化部17においては、各周波数Fnをピッチ検出部7において検出したピッチPmeで正規化し、正規化周波数F’nを求める。
F’n=Fn/Pme
これらの結果、元フレーム情報保持部18は、入力音声信号Svに含まれる正弦波成分に対応する元属性データである平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)、正規化周波数F’nを保持することとなる。
なお、この場合において、正規化周波数F’nは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【0040】
この場合において、男声/女声変換を行おうとしている場合には、この段階において、男声→女声変換を行う場合には、ピッチをオクターブ上げ、女声→男声変換を行う場合にはピッチをオクターブ下げる男声/女声ピッチ制御処理を行うようにするのが好ましい。
つづいて、元フレーム情報保持部18に保持している元属性データのうち、平均アンプAmeおよびピッチPmeについては、さらに静的変化/ビブラート的変化分離部19により、フィルタリング処理などを行って、静的変化成分とビブラート変化的成分とに分離して保持する。なお、さらにビブラート変化的成分からより高周波変化成分であるジッタ変化的成分を分離するように構成することも可能である。
【0041】
より具体的には、平均アンプAmeを平均アンプ静的成分Ame-sta及び平均アンプビブラート的成分Ame-vibとに分離して保持する。
また、ピッチPmeをピッチ静的成分Pme-sta及びピッチビブラート的成分Pme-vibとに分離して保持する。
これらの結果、対応するフレームの元フレーム情報データINFmeは、図8(C)に示すように、入力音声信号Svの正弦波成分に対応する元属性データである平均アンプ静的成分Ame-sta、平均アンプビブラート的成分Ame-vib、ピッチ静的成分Pme-sta、ピッチビブラート的成分Pme-vib、スペクトラル・シェイプSme(f)、正規化周波数F’n及び残差成分Rme(f)の形で保持されることとなる。
【0042】
一方、ものまねの対象(target)となる歌唱者に対応するターゲット属性データから構成されるターゲットフレーム情報データINFtarは、予め分析されてターゲットフレーム情報保持部20を構成するハードディスクなどに予め保持されている。
この場合において、ターゲットフレーム情報データINFtarのうち、正弦波成分に対応するターゲット属性データとしては、平均アンプ静的成分Atar-sta、平均アンプビブラート的成分Atar-vib、ピッチ静的成分Ptar-sta、ピッチビブラート的成分Ptar-vib、スペクトラル・シェイプStar(f)がある。
また、ターゲットフレーム情報データINFtarのうち、残差成分に対応するターゲット属性データとしては、残差成分Rtar(f)がある。
【0043】
[2.7] キーコントロール/テンポチェンジ部の動作
次にキーコントロール/テンポチェンジ部21は、シーケンサ31からの同期信号SSYNCに基づいて、ターゲットフレーム情報保持部20から同期信号SSYNCに対応するフレームのターゲットフレーム情報INFtarの読出処理及び読み出したターゲットフレーム情報データINFtarを構成するターゲット属性データの補正処理を行うとともに、読み出したターゲットフレーム情報INFtarおよび当該フレームが無声であるか有声であるかを表すターゲット無声/有声検出信号U/Vtarを出力する。
より具体的には、キーコントロール/テンポチェンジ部21の図示しないキーコントロールユニットは、カラオケ装置のキーを基準より上げ下げした場合、ターゲット属性データであるピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても、同じだけ上げ下げする補正処理を行う。例えば、50[cent]だけキーを上げた場合には、ピッチ静的成分Ptar-sta及びピッチビブラート的成分Ptar-vibについても50[cent]だけ上げなければならない。
【0044】
また、キーコントロール/テンポチェンジ部21の図示しないテンポチェンジユニットは、カラオケ装置のテンポを上げ下げした場合には、変更後のテンポに相当するタイミングで、ターゲットフレーム情報データINFtarの読み出し処理を行う必要がある。
この場合において、必要なフレームに対応するタイミングに相当するターゲットフレーム情報データINFtarが存在しない場合には、当該必要なフレームのタイミングの前後のタイミングに存在する二つのフレームのターゲットフレーム情報データINFtarを読み出し、これら二つのターゲットフレーム情報データINFtarにより補間処理を行い、当該必要なタイミングにおけるフレームのターゲットフレーム情報データINFtar、ひいては、ターゲット属性データを生成する。
【0045】
この場合において、ビブラート的成分(平均アンプビブラート的成分Atar-vib及びピッチビブラート的成分Ptar-vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【0046】
[2.8] イージーシンクロナイゼーション処理部の動作
次にイージーシンクロナイゼーション処理部22は、ものまねをしようとする歌唱者のフレーム(以下、元フレームという。)に元フレーム情報データINFmeが存在するにもかかわらず、対応するものまねの対象となる歌唱者のフレーム(以下、ターゲットフレームという。)にターゲットフレーム情報データINFtarが存在しない場合には、当該ターゲットフレームの前後方向に存在するフレームのターゲットフレーム情報データINFtarを当該ターゲットフレームのターゲットフレーム情報データINFtarとするイージーシンクロナイゼーション処理を行う。
【0047】
そして、イージーシンクロナイゼーション処理部22は、後述する置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib及びスペクトラル・シェイプStar-sync(f))を正弦波成分属性データ選択部23に出力する。
また、イージーシンクロナイゼーション処理部22は、後述する置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ(残差成分Rtar-sync(f))を残差成分選択部25に出力する。
【0048】
このイージーシンクロナイゼーション処理部22における処理においても、ビブラート的成分(平均アンプビブラート的成分Atar-vib及びピッチビブラート的成分Ptar-vib)に関しては、そのままでは、ビブラートの周期自体が変化してしまい、不適当であるので、周期が変動しないような補間処理を行う必要がある。又は、ターゲット属性データとして、ビブラートの軌跡そのものを表すデータではなく、ビブラート周期及びビブラート深さのパラメータを保持し、実際の軌跡を演算により求めるようにすれば、この不具合を回避することができる。
【0049】
[2.8.1] イージーシンクロナイゼーション処理の詳細
ここで、図9及び図10を参照してイージーシンクロナイゼーション処理について詳細に説明する。
図9は、イージーシンクロナイゼーション処理のタイミングチャートであり、図10はイージーシンクロナイゼーション処理フローチャートである。
まず、イージーシンクロナイゼーション処理部22は、シンクロナイゼーション処理の方法を表すシンクロナイゼーションモード=“0”とする(ステップS11)。このシンクロナイゼーションモード=“0”は、元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtarが存在する通常処理の場合に相当する。
【0050】
そしてあるタイミングtにおける元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化したか否かを判別する(ステップS12)。
例えば、図9に示すように、タイミングt=t1においては、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している。
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化している場合には(ステップS12;Yes)、タイミングtの前回のタイミングt-1における元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)であるか否かを判別する(ステップS18)。
【0051】
例えば、図9に示すように、タイミングt=t0(=t1-1)においては、元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)となっている。
ステップS18の判別において、元無声/有声検出信号U/Vme(t-1)が無声(U)かつターゲット無声/有声検出信号U/Vtar(t-1)が無声(U)となっている場合には(ステップS18;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“1”とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向(Backward)に存在するフレームのターゲットフレーム情報とする。
【0052】
例えば、図9に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“1”とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの後方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データbackwardとする。
そして、処理をステップS15に移行し、シンクロナイゼーションモード=“0”であるか否かを判別する(ステップS15)。
【0053】
ステップS15の判別において、シンクロナイゼーションモード=“0”である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在する場合、すなわち、通常処理であるので、置換済ターゲットフレーム情報データINFtar-syncをターゲットフレーム情報データINFtar(t)とする。
INFtar-sync=INFtar(t)
例えば、図9に示すようにタイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、
INFtar-sync=INFtar(t)
とする。
【0054】
この場合において、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び残差成分Rtar-sync(f))は実質的には、以下の内容となる(ステップS16)。
Atar-sync-sta=Atar-sta
Atar-sync-vib=Atar-vib
Ptar-sync-sta=Ptar-sta
Ptar-sync-vib=Ptar-vib
Star-sync(f)=Star(f)
Rtar-sync(f)=Rtar(f)
【0055】
ステップS15の判別において、シンクロナイゼーションモード=“1”またはシンクロナイゼーションモード=“2”である場合には、タイミングtにおける元フレームに対応するターゲットフレームにターゲットフレーム情報データINFtar(t)が存在しない場合であるので、置換済ターゲットフレーム情報データINFtar-syncを置換用ターゲットフレーム情報データINFholdとする。
INFtar-sync=INFhold
例えば、図9に示すように、タイミングt=t1〜t2のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード=“1”となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar-syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P1を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び残差成分Rtar-sync(f)となる(ステップS16)。
【0056】
また、図9に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在せず、シンクロナイゼーションモード=“2”となるが、タイミングt=t2〜t3のターゲットフレームには、ターゲットフレーム情報データINFtarが存在するので、置換済ターゲットフレーム情報データINFtar-syncをタイミングt=t2〜t3のターゲットフレームのターゲットフレーム情報データである置換用ターゲットフレーム情報データINFholdとする処理P2を行い、以降の処理に用いられる置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データは、平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib、スペクトラル・シェイプStar-sync(f)及び残差成分Rtar-sync(f)となる(ステップS16)。
【0057】
ステップS12の判別において、元無声/有声検出信号U/Vme(t)が無声(U)から有声(V)に変化していない場合には(ステップS12;No)、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化しているか否かを判別する(ステップS13)。
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化している場合には(ステップS13;Yes)、タイミングtの前回のタイミングt-1における元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(V)であるか否かを判別する(ステップS19)。
例えば、図9に示すように、タイミングt3においてターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化し、タイミングt-1=t2〜t3においては、元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(V)となっている。
【0058】
ステップS19の判別において、元無声/有声検出信号U/Vme(t-1)が有声(V)かつターゲット無声/有声検出信号U/Vtar(t-1)が有声(V)となっている場合には(ステップS19;Yes)、当該ターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“2”とし、置換用のターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向(forward)に存在するフレームのターゲットフレーム情報とする(ステップS21)。
例えば、図9に示すように、タイミングt=t3〜t4のターゲットフレームには、ターゲットフレーム情報データINFtarが存在しないので、シンクロナイゼーションモード=“2”とし、置換用ターゲットフレーム情報データINFholdを当該ターゲットフレームの前方向に存在するフレーム(すなわち、タイミングt=t2〜t3に存在するフレーム)のターゲットフレーム情報データforwardとする。
【0059】
そして、処理をステップS15に移行し、シンクロナイゼーションモード=“0”であるか否かを判別して(ステップS15)、以下、同様の処理を行う。
ステップS13の判別において、ターゲット無声/有声検出信号U/Vtar(t)が有声(V)から無声(U)に変化していない場合には(ステップS13;No)、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、あるいは、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化しているか否かを判別する(ステップS14)。
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化し、かつ、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化している場合には(ステップS14;Yes)、シンクロナイゼーションモード=“0”とし、置換用ターゲットフレーム情報データINFholdを初期化(clear)し(ステップS17)、処理をステップS15に移行して、以下、同様の処理を行う。
【0060】
ステップS14の判別において、タイミングtにおける元無声/有声検出信号U/Vme(t)が有声(V)から無声(U)に変化せず、かつ、ターゲット無声/有声検出信号U/Vtar(t)が無声(U)から有声(V)に変化していない場合には(ステップS14;No)、そのまま処理をステップS15に移行し、以下同様の処理を行う。
【0061】
[2.9] 正弦波成分属性データ選択部の動作
続いて、正弦波成分属性データ選択部23は、イージーシンクロナイゼーション処理部22から入力された置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち正弦波成分に関するターゲット属性データ(平均アンプ静的成分Atar-sync-sta、平均アンプビブラート的成分Atar-sync-vib、ピッチ静的成分Ptar-sync-sta、ピッチビブラート的成分Ptar-sync-vib及びスペクトラル・シェイプStar-sync(f))及びコントローラ29から入力される正弦波成分属性データ選択情報に基づいて、新しい正弦波成分属性データである新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)を生成する。
【0062】
すなわち、新規アンプ成分Anewについては、次式により生成する。
Anew=A*-sta+A*-vib(ただし、*は、me又はtar-sync)
より具体的には、図8(D)に示すように、新規アンプ成分Anewを元属性データの平均アンプ静的成分Ame-staあるいはターゲット属性データの平均アンプ静的成分Atar-sync-staのいずれか一方及び元属性データの平均アンプビブラート的成分Ame-vibあるいはターゲット属性データの平均アンプビブラート的成分Atar-sync-vibのいずれか一方の組み合わせとして生成する。
また、新規ピッチ成分Pnewについては、次式により生成する。
Pnew=P*-sta+P*-vib(ただし、*は、me又はtar-sync)
より具体的には、図8(D)に示すように、新規ピッチ成分Pnewを元属性データのピッチ静的成分Pme-staあるいはターゲット属性データのピッチ静的成分Ptar-sync-staのいずれか一方及び元属性データのピッチビブラート的成分Pme-vibあるいはターゲット属性データのピッチビブラート的成分Ptar-sync-vibのいずれか一方の組み合わせとして生成する。
【0063】
また、新規スペクトラル・シェイプSnew(f)については、次式により生成する。
Snew(f)=S*(f)(ただし、*は、me又はtar-sync)
ところで、一般的にアンプ成分が大きい場合には、高域まで伸びた抜けの明るい音となり、アンプ成分が小さい場合には、逆にこもった音になる。そこで、新規スペクトラル・シェイプSnew(f)に関しては、このような状態をシミュレートすべく、図11に示すように、スペクトラル・シェイプの高域成分、すなわち、高域成分部分のスペクトラル・シェイプの傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【0064】
続いて、生成された新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)について、必要に応じてコントローラ29から入力される正弦波成分属性データ変形情報に基づいて、属性データ変形部24によりさらなる変形を行う。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変形を行う。
【0065】
[2.10] 残差成分選択部の動作
一方、残差成分選択部25は、イージーシンクロナイゼーション処理部22から入力された置換済ターゲットフレーム情報データINFtar-syncに含まれるターゲット属性データのうち残差成分に関するターゲット属性データ(残差成分Rtar-sync(f))、残差成分保持部12に保持されている残差成分信号(周波数波形)Rme(f)及びコントローラ29から入力される残差成分属性データ選択情報に基づいて新しい残差成分属性データである新規残差成分Rnew(f)を生成する。
【0066】
すなわち、新規残差成分Rnew(f)については、次式により生成する。
Rnew(f)=R*(f)(ただし、*は、me又はtar-sync)
この場合においては、me又はtar-syncのいずれを選択するかは、新規スペクトラル・シェイプSnew(f)と同一のものを選択するのがより好ましい。
さらに、新規残差成分Rnew(f)に関しても、新規スペクトラル・シェイプと同様な状態をシミュレートすべく、図11に示したように、残差成分の高域成分、すなわち、高域成分部分の残差成分の傾きを新規アンプ成分Anewの大きさに応じて補償するスペクトラルチルト補償(spectral tilt correction)を行って、コントロールすることにより、よりリアルな音声を再生することができる。
【0067】
[2.11] 正弦波成分生成部の動作
続いて、正弦波成分生成部26は、属性データ変形部24から出力された変形を伴わない、あるいは、変形を伴う新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)に基づいて、当該フレームにおける新たな正弦波成分("0、"0)、("1、"1)、("2、"2)、……、("(N-1)、"(N-1))のN個の正弦波成分(以下、これらをまとめて"n、"nと表記する。n=0〜(N−1)。)を求める。
【0068】
より具体的には、次式により新規周波数"nおよび新規アンプ"nを求める。
"n='n×Pnew
"n=Snew("n)× new
なお、完全倍音構造のモデルとして捉えるのであれば、
"n=(n+1)×Pnew
となる。
【0069】
[2.12] 正弦波成分変形部の動作
さらに、求めた新規周波数"nおよび新規アンプ"nについて、必要に応じてコントローラ29から入力される正弦波成分変形情報に基づいて、正弦波成分変形部27によりさらなる変形を行う。例えば、偶数次成分の新規アンプ"n(="0、"2、"4、……)だけを大きく(例えば、2倍する)等の変形を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【0070】
[2.13] 逆高速フーリエ変換部の動作
次に逆高速フーリエ変換部28は、求めた新規周波数"'nおよび新規アンプ"'n(=新規正弦波成分)並びに新規残差成分Rnew(f)をFFTバッファに格納し、順次逆FFTを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。
このとき、コントローラ29から入力される正弦波成分/残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【0071】
この場合において、FFTバッファに新規周波数"'nおよび新規アンプ"'n(=新規正弦波成分)並びに新規残差成分Rnew(f)を格納するに際し、異なるピッチ、かつ、適当なピッチで変換された正弦波成分をさらに加えることにより変換音声信号としてハーモニーを得ることができる。さらにシーケンサ31により伴奏音に適合したハーモニーピッチを与えることにより、伴奏に適合した音楽的ハーモニーを得ることができる。
【0072】
[2.14] クロスフェーダの動作
次にクロスフェーダ30は、元無声/有声検出信号U/Vme(t)に基づいて、入力音声信号Svが無声(U)である場合には、入力音声信号Svをそのままミキサ33に出力する。
また、入力音声信号Svが有声(V)である場合には、逆高速フーリエ変換変換部28が出力した変換音声信号をミキサ33に出力する。
この場合において、切替スイッチとしてクロスフェーダ30を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【0073】
[2.15] シーケンサ、音源部、ミキサ及び出力部の動作
一方、シーケンサ31は、カラオケの伴奏音を発生するための音源制御情報を例えば、MIDI(Musical Instrument Digital Interface)データなどとして音源部32に出力する。
これにより音源部32は、音源制御情報に基づいて伴奏信号を生成し、ミキサ33に出力する。
ミキサ33は、入力音声信号Svあるいは変換音声信号のいずれか一方及び伴奏信号を混合し、混合信号を出力部34に出力する。
出力部34は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【0074】
[3] 実施形態の変形例
[3.1] 第1変形例
以上の説明においては、属性データとしては、元属性データあるいはターゲット属性データのいずれかを選択的に用いる構成としていたが、元属性データ及びターゲット属性データの双方を用い、補間処理を行うことにより中間的な属性を有する変換音声信号を得るように構成することも可能である。
しかしながら、このような構成によれば、ものまねをしようとする歌唱者及びものまねの対象(target)となる歌唱者のいずれにも似ていない変換音声が得られる場合もある。
また、特にスペクトラル・シェイプを補間処理によって求めた場合には、ものまねをしようとする歌唱者が「あ」を発音し、ものまねの対象となる歌唱者が「い」を発音している場合などには、「あ」でも「い」でもない音が変換音声として出力される可能性があり、その取扱には注意が必要である。
【0075】
[3.2] 第2変形例
正弦波成分の抽出は、この実施形態で用いた方法に限らない。要は、音声信号に含まれる正弦波を抽出できればよい。
[3.3] 第3変形例
本実施形態においては、ターゲットの正弦波成分及び残差成分を記憶したが、これに換えて、ターゲットの音声そのものを記憶し、それを読み出してリアルタイム処理によって正弦波成分と残差成分とを抽出してもよい。すなわち、本実施形態でものまねをしようとする歌唱者の音声に対して行った処理と同様の処理をターゲットの歌唱者の音声に対して行ってもよい。
【0076】
[3.4] 第4変形例
本実施形態においては、属性データとして、ピッチ、アンプ、スペクトラル・シェイプの全てを取り扱ったが、少なくともいずれか一つを扱うようにすることも可能である。
[4] 実施形態の効果
以上の結果、カラオケの伴奏とともに、シンガーの歌が出力されるが、その声質および歌い方などは、ターゲットの影響を大きく受け、ターゲットそのものの声質および歌い方となる。このようにして、あたかもターゲットの物まねをしているような歌が出力される。
【0077】
【発明の効果】
以上説明したように、この発明によれば、ものまねしようとする歌唱者の音声からものまねの対象(ターゲット)となる歌唱者の声質や歌い方が反映された変換音声を得ることが容易にできる。
【図面の簡単な説明】
【図1】本発明の一実施形態の構成を示すブロック図(その1)である。
【図2】本発明の一実施形態の構成を示すブロック図(その2)である。
【図3】実施形態におけるフレームの状態を示す図である。
【図4】実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図5】実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図6】実施形態における周波数値の変化状態を示す図である。
【図7】実施形態における処理過程における確定成分の変化状態を示す図である。
【図8】実施形態における信号処理の説明図である。
【図9】イージーシンクロナイゼーション処理のタイミングチャートである。
【図10】イージーシンクロナイゼーション処理フローチャートである。
【図11】スペクトラル・シェイプのスペクトラルチルト補償について説明する図である。
【符号の説明】
1…マイク、2…分析窓生成部、3…入力音声信号切出部、4…高速フーリエ変換部、5…ピーク検出部、6…無声/有声検出部、7…ピッチ抽出部、8…ピーク連携部、9…補間合成部、10…残差成分検出部、11…高速フーリエ変換部、12…残差成分保持部、13…正弦波成分保持部、14…平均アンプ演算部、15…アンプ正規化部、16…スペクトラル・シェイプ演算部、17…ピッチ正規化部、18…元フレーム情報保持部、19…静的変化/ビブラート的変化分離部、20…ターゲットフレーム情報保持部、21…キーコントロール/テンポチェンジ部、22…イージーシンクロナイゼーション処理部、23…正弦波成分属性データ選択部、24…属性データ変形部、25…残差成分選択部、
26…正弦波成分生成部、27…正弦波成分変形部、28…逆高速フーリエ変換部、29…コントローラ、30…クロスフェーダ、31…シーケンサ、32…音源部、33…ミキサ、34…出力部

Claims (9)

  1. 入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、
    対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、
    前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、
    を備えたことを特徴とする音声変換装置。
  2. 入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性をアンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出手段と、
    対象となるターゲット音声信号の属性をアンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いた新規属性データを生成する新規属性データ生成手段と、
    前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成手段と、
    を備えたことを特徴とする音声変換装置。
  3. 前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択する選択手段を有し、
    前記変換音声信号生成手段は、前記選択手段によって選択された成分と前記新規属性データとを混合して新たな信号を生成する
    ことを特徴とする請求項1または2記載の音声変換装置。
  4. 前記元属性データ抽出手段および前記新規属性データ生成手段は、所定時間長のフレーム単位で処理するとともに、
    前記新規属性データ生成手段は、一のフレームについての前記元属性データに対応する前記ターゲット属性データが存在するか否かを入力音声信号の無声有声検出信号とターゲット音声信号の無声有声検出信号とに基づいて判別し、存在しないと判別した場合に、当該フレームに対し時間的に前に位置するフレームあるいは当該フレームに対し時間的に後ろに位置するフレームについての前記ターゲット属性データを用いて、前記新規属性データを生成する
    ことを特徴とする請求項1または2記載の音声変換装置。
  5. 前記変換音声信号生成手段は、前記新規属性データに変形処理を施し変形新規属性データを生成する新規属性データ変形手段を有し、前記変形新規属性データに基づいて前記変換音声信号を生成し出力する
    ことを特徴とする請求項1または2記載の音声変換装置。
  6. 前記変換音声信号生成手段は、前記新規属性データに含まれるピッチデータに相当するピッチとは異なるピッチに相当するピッチデータを含む追加属性データを出力する追加属性データ生成手段を有し、前記新規属性データおよび前記追加属性データに基づいて前記変換音声信号を生成し出力する
    ことを特徴とする請求項1または2記載の音声変換装置。
  7. 入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、
    対象となるターゲット音声信号の属性を、静的成分アンプデータとビブラート的成分アンプデータとからなるアンプデータ、ピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいて静的成分アンプデータ、ビブラート的成分アンプデータ、ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、
    前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、
    を備えたことを特徴とする音声変換方法。
  8. 入力音声信号から当該入力音声信号の確定成分に対応する複数の正弦波成分を抽出し、これらの正弦波成分から、前記入力音声信号の属性をアンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータおよびスペクトラル・シェイプデータにより示す元属性データを抽出する元属性データ抽出工程と、
    対象となるターゲット音声信号の属性をアンプデータ、静的成分ピッチデータとビブラート的成分ピッチデータとからなるピッチデータおよびスペクトラル・シェイプデータにより示すデータであり、当該ターゲット音声信号の確定成分に対応する複数の正弦波成分から抽出されたターゲット属性データ、および、前記元属性データから、入力された選択情報に基づいてアンプデータ、静的成分ピッチデータ、ビブラート的成分ピッチデータおよびスペクトラル・シェイプデータをそれぞれ選択し、選択したデータを用いて新規属性データを生成する新規属性データ生成工程と、
    前記新規属性データに基づいて変換音声信号を生成する変換音声信号生成工程と、
    を備えたことを特徴とする音声変換方法。
  9. 前記変換音声信号生成工程において、
    前記入力音声信号の確定成分に対応する複数の正弦波成分と前記入力音声信号との差である元残差成分、および、前記ターゲット音声信号の確定成分に対応する複数の正弦波成分と前記ターゲット音声信号との差であるターゲット残差成分のいずれかを、入力された選択情報に基づいて選択し、選択した成分と、前記新規属性データとを混合して新たな信号を生成する
    ことを特徴とする請求項7または8記載の音声変換方法。
JP18333898A 1998-06-15 1998-06-15 音声変換装置及び音声変換方法 Expired - Fee Related JP3540609B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP18333898A JP3540609B2 (ja) 1998-06-15 1998-06-15 音声変換装置及び音声変換方法
TW088108973A TW430778B (en) 1998-06-15 1999-05-31 Voice converter with extraction and modification of attribute data
EP12000670A EP2450887A1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP99110936A EP0982713A3 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
EP10009510A EP2264696B1 (en) 1998-06-15 1999-06-07 Voice converter with extraction and modification of attribute data
US10/282,536 US7606709B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,754 US7149682B2 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data
US10/282,992 US20030055647A1 (en) 1998-06-15 2002-10-29 Voice converter with extraction and modification of attribute data

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18333898A JP3540609B2 (ja) 1998-06-15 1998-06-15 音声変換装置及び音声変換方法

Publications (2)

Publication Number Publication Date
JP2000003199A JP2000003199A (ja) 2000-01-07
JP3540609B2 true JP3540609B2 (ja) 2004-07-07

Family

ID=16133983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18333898A Expired - Fee Related JP3540609B2 (ja) 1998-06-15 1998-06-15 音声変換装置及び音声変換方法

Country Status (1)

Country Link
JP (1) JP3540609B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3871657B2 (ja) 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
KR101286168B1 (ko) * 2004-12-27 2013-07-15 가부시키가이샤 피 소프트하우스 오디오 신호처리장치, 방법 및 그 방법을 기록한 기록매체

Also Published As

Publication number Publication date
JP2000003199A (ja) 2000-01-07

Similar Documents

Publication Publication Date Title
US7606709B2 (en) Voice converter with extraction and modification of attribute data
JP3985814B2 (ja) 歌唱合成装置
JP3502247B2 (ja) 音声変換装置
JP2006215204A (ja) 音声合成装置およびプログラム
Bonada et al. Sample-based singing voice synthesizer by spectral concatenation
JP3711880B2 (ja) 音声分析及び合成装置、方法、プログラム
JP3540159B2 (ja) 音声変換装置及び音声変換方法
JP2003345400A (ja) ピッチ変換装置、ピッチ変換方法及びプログラム
JP3540609B2 (ja) 音声変換装置及び音声変換方法
JP3447221B2 (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP3502268B2 (ja) 音声信号処理装置及び音声信号処理方法
JP3706249B2 (ja) 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP3949828B2 (ja) 音声変換装置及び音声変換方法
JP3294192B2 (ja) 音声変換装置及び音声変換方法
JP3540160B2 (ja) 音声変換装置及び音声変換方法
JP2000003187A (ja) 音声特徴情報記憶方法および音声特徴情報記憶装置
JP3934793B2 (ja) 音声変換装置及び音声変換方法
JP3447220B2 (ja) 音声変換装置及び音声変換方法
JP3907838B2 (ja) 音声変換装置及び音声変換方法
US20230260493A1 (en) Sound synthesizing method and program
JP3907027B2 (ja) 音声変換装置および音声変換方法
JP6822075B2 (ja) 音声合成方法
RU2591640C1 (ru) Способ модификации голоса и устройство для его осуществления (варианты)

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040126

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20040206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040323

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040325

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090402

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100402

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110402

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120402

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees