JP4430174B2 - Voice conversion device and voice conversion method - Google Patents
Voice conversion device and voice conversion method Download PDFInfo
- Publication number
- JP4430174B2 JP4430174B2 JP30026899A JP30026899A JP4430174B2 JP 4430174 B2 JP4430174 B2 JP 4430174B2 JP 30026899 A JP30026899 A JP 30026899A JP 30026899 A JP30026899 A JP 30026899A JP 4430174 B2 JP4430174 B2 JP 4430174B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- phoneme
- target
- shape
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は、処理対象となる音声を目標とする他の音声に近似させる音声変換装置、音声変換方法ならびに音声変換を行うに際し用いる他の音声に対応する音声変換用辞書を生成する音声変換用辞書の生成方法に係り、特にカラオケ装置に用いるのに好適な音声変換装置、音声変換方法及び音声変換用辞書の生成方法に関する。
【0002】
【従来の技術】
入力された音声の周波数特性などを変えて出力する音声変換装置は種々開発されており、例えば、カラオケ装置の中には、歌い手の歌った歌声のピッチを変換して、男性の声を女性の声に、あるいはその逆に変換させるものもある(例えば、特表平8−508581号)。
【0003】
【発明が解決しようとする課題】
しかしながら、従来の音声変換装置においては、音声の変換(例えば、男声→女声、女声→男声など)は行われるものの、単に声質を変えるだけに止まっていたので、例えば、特定の歌唱者(例えば、プロの歌手)の声に似せるように変換するということはできなかった。
また、声質だけでなく、歌い方までも特定の歌唱者に似させるという、ものまねのような機能があれば、カラオケ装置などにおいては大変に面白いが、従来の音声変換装置ではこのような処理は不可能であった。
【0004】
そこで、発明者らは、声質を目標(ターゲット)とする歌唱者(ターゲット歌唱者)の声に似させるために、ターゲット歌唱者の音声を分析し、得られた分析データである正弦波成分属性ピッチ、アンプリチュード、スペクトル・シェイプ及び残差成分を1曲分全てのフレームについてターゲットフレームデータとして保持し、入力音声を分析して得られる入力ターゲットフレームデータとの同期をとって、変換処理を行うことによりターゲット歌唱者の声に似せるように変換を行う音声変換装置を提案している(特願平10−183338号等参照)。
上記音声変換装置は、声質だけでなく、歌い方までも特定の歌唱者に似させることができるが、ターゲット歌唱者の分析データが一曲毎に必要となり、複数の曲の分析データを記憶させるような場合には、データ量が膨大になってしまうという不具合があった。
【0005】
そこで、本発明の目的は、入力された歌唱者の音声を目標とする歌唱者の歌い方に似せることができるとともに、ターゲット歌唱者の分析データの容量を低減することが可能な音声変換装置、音声変換方法および音声変換用辞書の生成方法を提供することにある。
【0006】
【課題を解決するための手段】
上記課題を解決するため、請求項1に記載の構成は、入力音声信号から周波数スペクトルに関する入力フレームデータを抽出する入力フレームデータ抽出手段と、前記入力音声信号から特徴ベクトルを抽出する特徴分析手段と、前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理手段と、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別手段と、前記状態判別手段によって前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間手段と、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成手段とを備えたことを特徴としている。
【0007】
請求項2に記載の構成は、入力音声信号から周波数スペクトルに関する入力フレームデータを抽出する入力フレームデータ抽出手段と、前記入力音声信号から特徴ベクトルを抽出する特徴分析手段と、前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理手段と、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別手段と、前記状態判別手段によって前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間手段と、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成手段とを備えたことを特徴としている。
【0013】
請求項3に記載の構成は、請求項1または請求項2に記載の音声変換装置において、前記スペクトル・シェイプ補間手段は、二つのスペクトル・シェイプを用いて補間を行うに際し、前記二つのスペクトル・シェイプ間における遷移関数を用いて補間処理を行うことを特徴としている。
【0014】
請求項4に記載の構成は、請求項3に記載の音声変換装置において、前記遷移関数は、線形関数あるいは非線形関数として予め定義されていることを特徴としている。
【0015】
請求項5に記載の構成は、請求項3に記載の音声変換装置において、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷移関数を定めることを特徴としている。
【0016】
請求項6に記載の構成は、請求項3に記載の音声変換装置において、前記スペクトル・シェイプ補間手段は、前記第2の音素に対応させて前記遷移関数を定めることを特徴としている。
【0018】
請求項7に記載の構成は、請求項3記載の音声変換装置において、前記スペクトル・シェイプ補間手段は、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域に属する前記二つのスペクトル・シェイプ上の実在の周波数およびマグニチュードの組に対し、前記遷移関数としての線形関数を用いた補間処理を前記複数の領域にわたって行うことを特徴としている。
【0019】
請求項8に記載の構成は、請求項7に記載の音声変換装置において、前記スペクトル・シェイプ補間手段は、前記各領域に属する一方のスペクトル・シェイプの周波数である第1周波数及び当該第1周波数に対応する他方のスペクトル・シェイプの周波数である第2周波数を前記線形関数を用いて補間することにより補間周波数を算出する周波数補間手段と、前記各領域に属する一方のスペクトル・シェイプのマグニチュードである第1マグニチュードおよび当該第1マグニチュードに対応する他方のスペクトル・シェイプのマグニチュードである第2マグニチュードを前記線形関数を用いて補間するマグニチュード補間手段とを備えたことを特徴としている。
【0020】
請求項9に記載の構成は、請求項1に記載の音声変換装置において、前記ターゲット挙動データには、さらにターゲット音声のアンプリチュードの時間的変化が規定され、前記アライメント処理手段によって判別された前記ターゲット挙動データにおける時間的位置のアンプリチュードに応じて、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正手段を備え、前記変換音声信号生成手段は、前記スペクトル傾き補正手段によってスペクトルの傾きが補正されたスペクトル・シェイプに基づいて変換音声信号を生成し出力することを特徴としている。
【0021】
請求項10に記載の構成は、請求項2に記載の音声変換装置において、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きと、前記入力フレームデータから得られるスペクトル・シェイプのスペクトル傾きとの比較結果に応じて、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正手段を備えたことを特徴としている。
【0022】
請求項11の構成は、入力音声信号から周波数スペクトルに関する入力フレームデータを抽出する入力フレームデータ抽出過程と、前記入力音声信号から特徴ベクトルを抽出する特徴分析過程と、前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理過程と、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別過程と、前記状態判別過程において前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間過程と、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成過程とを備えたことを特徴としている。
【0023】
請求項12に記載の構成は、入力音声信号から周波数スペクトルに関する入力フレームデータを抽出する入力フレームデータ抽出過程と、前記入力音声信号から特徴ベクトルを抽出する特徴分析過程と、前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理過程と、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別過程と、前記状態判別過程において前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行い、うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間過程と、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成過程とを備えたことを特徴としている。
【0027】
請求項13に記載の構成は、請求項11または請求項12に記載の音声変換方法において、前記スペクトル・シェイプ補間過程は、二つのスペクトル・シェイプを用いて補間を行うに際し、前記二つのスペクトル・シェイプ間における遷移関数を用いて補間処理を行うことを特徴としている。
【0028】
請求項14に記載の構成は、請求項13に記載の音声変換方法において、前記遷移関数は、線形関数あるいは非線形関数として予め定義されていることを特徴としている。
【0029】
請求項15に記載の構成は、請求項13に記載の音声変換方法において、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷移関数を定めることを特徴としている。
【0030】
請求項16に記載の構成は、請求項13に記載の音声変換方法において、前記スペクトル・シェイプ補間過程は、前記第2の音素に対応させて前記遷移関数を定めることを特徴としている。
【0032】
請求項17に記載の構成は、請求項13に記載の音声変換方法において、前記スペクトル・シェイプ補間過程は、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域に属する前記二つのスペクトル・シェイプ上の実在の周波数およびマグニチュードの組に対し、前記遷移関数としての線形関数を用いた補間処理を前記複数の領域にわたって行うことを特徴としている。
【0033】
請求項18に記載の構成は、請求項17に記載の音声変換方法において、前記スペクトル・シェイプ補間過程は、前記各領域に属する一方のスペクトル・シェイプの周波数である第1周波数及び当該第1周波数に対応する他方のスペクトル・シェイプの周波数である第2周波数を前記線形関数を用いて補間することにより補間周波数を算出する周波数補間過程と、前記各領域に属する一方のスペクトル・シェイプのマグニチュードである第1マグニチュードおよび当該第1マグニチュードに対応する他方のスペクトル・シェイプのマグニチュードである第2マグニチュードを前記線形関数を用いて補間するマグニチュード補間過程とを備えたことを特徴としている。
【0034】
請求項19に記載の構成は、請求項11に記載の音声変換方法において、前記ターゲット挙動データには、さらにターゲット音声のアンプリチュードの時間的変化が規定され、前記アライメント処理過程において判別された前記ターゲット挙動データにおける時間的位置のアンプリチュードに応じて、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正過程を備え、前記変換音声信号生成過程は、前記スペクトル傾き補正過程においてスペクトルの傾きが補正されたスペクトル・シェイプに基づいて変換音声信号を生成し出力することを特徴としている。
【0035】
請求項20に記載の構成は、請求項12に記載の音声変換方法において、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きと、前記入力フレームデータから得られるスペクトル・シェイプのスペクトル傾きとの比較結果に応じて、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正過程を備えたことを特徴としている。
【0037】
【発明の実施の形態】
次に図面を参照して本発明の好適な実施形態について説明する。
[A] 第1実施形態
まず、本発明の第1実施形態について説明する。
[1] 音声変換装置の全体構成
図1に実施形態の音声変換装置(音声変換方法)をカラオケ装置に適用し、ものまねを行うことができるカラオケ装置として構成した場合の例である。
音声変換装置10は、歌唱者の音声が入力され、歌唱信号を出力する歌唱信号入力部11と、予め定めたコードブックに基づいて歌唱信号から各種特徴ベクトルを抽出する認識特徴分析部12と、歌唱信号のSMS(Spectral Modeling Synthesis)分析を行って入力SMSフレームデータおよび有声/無声情報を出力するSMS分析部13と、各種コードブックおよび各音素の隠れマルコフモデル(HMM)を予め記憶した認識用音素辞書記憶部14と、曲に依存したターゲット挙動データを記憶するターゲット挙動データ記憶部15と、キー情報、テンポ情報、似具合パラメータ、変換パラメータなどの各種パラメータを制御するためのパラメータコントロール部16と、ターゲット挙動データ記憶部に記憶されたターゲット挙動データ、キー情報およびテンポ情報に基づいてデータ変換を行い、変換された持続時間付音素表記情報、ピッチ情報およびアンプリチュード(振幅)情報を生成し出力するデータ変換部17と、を備えて構成されている。
【0038】
また、音声変換装置10は、抽出された特徴ベクトル、各音素のHMMおよび持続時間付音素表記情報に基づいて歌唱者が対象としている曲中のどの部分を歌っているかをビタビアルゴリズムを用いて求め、アライメント情報(=ターゲット歌手が歌うべき曲中の歌唱位置および音素)を検出するアライメント処理部18と、ターゲット歌手に依存するスペクトル・シェイプ情報を記憶するターゲット音素辞書記憶部19と、アライメント情報、ターゲット挙動データのピッチ情報、ターゲット挙動データのアンプリチュード情報、入力SMSフレームデータおよびターゲット音素辞書のスペクトル・シェイプ情報に基づいてターゲットのフレームデータ(以下、ターゲットフレームデータという。)TGFLを生成し出力するターゲット・デコーダ部20と、パラメータコントロール部16から入力される似具合パラメータ、ターゲットフレームデータTGFLおよびSMSフレームデータFSMSに基づいてモーフィング処理を行い、モーフィングフレームデータMFLを出力するモーフィング処理部21と、モーフィングフレームデータMFLおよびパラメータコントロール部16より入力された変換パラメータに基づいて変換処理を行い、変換フレームデータMMFLを出力する変換処理部22と、を備えて構成されている。
【0039】
さらに、音声変換装置10は、変換フレームデータMMFLのSMS合成を行い、変換音声信号である波形信号SWAVを出力するSMS合成部23と、SMS分析部13からの有声/無声情報に基づいて波形信号SWAVあるいは入力された歌唱信号SVのいずれかを選択的に出力する選択部24と、パラメータコントロール部16からのキー情報およびテンポ情報に基づいて音源部25を駆動するシーケンサ26と、選択部24から出力された波形信号SWAVあるいは歌唱信号SVと音源部25からの出力信号であるミュージック信号SMSCを加算して出力する加算部27と、加算部27の出力信号を増幅等行ってカラオケ信号として出力する出力部28と、を備えて構成されている。
【0040】
ここで、音声変換装置の各部の構成の説明に先立ち、SMS分析について説明する。
SMS分析では、まず標本化された音声波形に窓関数を乗じた音声波形(Frame)を切り出し、高速フーリエ変換(FFT)を行って得られる周波数スペクトルから、正弦波成分と残差成分とを抽出する。
この場合において、正弦波成分とは、基本周波数(Pitch)および基本周波数の倍数にあたる周波数(倍音)の成分をいう。
そして、正弦波成分として本実施形態では、基本周波数、各成分の平均アンプリチュードおよびスペクトル包絡をエンベロープとして保持する。
また、残差成分とは、入力信号から正弦波成分を除いた成分であり、本実施形態では周波数領域のデータとして保持する。
さらに得られた正弦波成分および残差成分で示される周波数分析データは、フレーム単位で記憶されることとなる。このとき、フレーム間の時間間隔は固定(例えば、5ms)となっているので、フレームをカウントすることによって時間を特定することができるようになっている。さらに各フレームには曲の冒頭からの経過時間に相当するタイムスタンプが付されている。
【0041】
[2] 音声変換装置の各部の構成
[2.1] 認識用音素辞書記憶部
認識用音素辞書記憶部14は、コードブック及び音素の隠れマルコフモデルを記憶している。
記憶しているコードブックは、歌唱信号を各種特徴ベクトル(より具体的には、メルケプストラム、差分メルケプストラム、エネルギー、差分エネルギー、ボイスネス(有声音尤度))にベクトル量子化するために用いられる。
また、本音声変換装置においては、アライメント処理を行うために音声認識の一手法である隠れマルコフモデル(HMM)を用いており、HMMパラメータ(初期状態分布、状態遷移確率行列、観測シンボル確率行列)を各音素(/a/、/i/等)について求めたものが記憶されている。
【0042】
[2.2] ターゲット挙動データ記憶部
ターゲット挙動データ記憶部15はターゲット挙動データを記憶しており、このターゲット挙動データは、音声変換を行う曲それぞれに対応した曲依存のデータである。
具体的には、対象となる曲を物まねの対象となるターゲット歌手が歌ったものから、ピッチ、アンプリチュードの時間的変化を抽出したもの(なお、これらを静的変化成分、ビブラート的変化成分に分離して抽出しておくと、後処理の自由度がより高くなる)および対象となる曲の歌詞に基づいて歌詞を音素列の並びに置き換えた音素表記に持続時間を含めた持続時間付音素表記が含まれる。
例えば、持続時間付音素表記は、音素表記/n//a//k//i/……に対し、各々の持続時間、すなわち、/n/の持続時間、/a/の持続時間、/k/の持続時間、/i/の持続時間、……が含められる。
【0043】
[2.3] ターゲット音素辞書記憶部
ターゲット音素辞書記憶部は、物まね対象となるターゲット歌手の各音素に対応したスペクトル情報であるターゲット音素辞書を記憶しており、ターゲット音素辞書には、何種類かのピッチに対応したスペクトル・シェイプおよびスペクトル補間を行うためのアンカーポイント情報が含まれている。
ここで、ターゲット音素辞書記憶部19に記憶されている音声変換用辞書としてのターゲット音素辞書の作成について図2及び図3を参照して説明する。
[2.3.1] ターゲット音素辞書
ターゲット音素辞書は、各音素毎にいくつかのピッチに対応してスペクトル・シェイプと、アンカーポイント情報を有している。
図2にターゲット音素辞書の説明図を示す。
図2(b)、(c)、(d)は、ある音素におけるピッチf0i+1、f0i、f0i-1にそれぞれ対応するスペクトル・シェイプを示したものであり、一つの音素に対して複数の(上述の例の場合、3個)スペクトル・シェイプがターゲット音素辞書には含まれる。このように複数のピッチに対応したスペクトル・シェイプをターゲット音素辞書として持つ理由は、一般的に同一人物が同一の音素を発声したとしても、ピッチに応じてスペクトル・シェイプの形状は多少変化するものだからである。
また、図2(b)、(c)、(d)中、点線は周波数軸上で複数の領域に分ける際の境界線であり、各領域の境界の周波数がアンカーポイントであり、アンカーポイント情報として当該周波数がターゲット音素辞書に含まれている。
【0044】
[2.3.2] ターゲット音素辞書の作成
次にターゲット音素辞書の作成について説明する。
まず、ターゲット歌手がそれぞれの音素について出しうる一番低いピッチから一番高いピッチまで、連続して発生したものを録音する。
より具体的には図2(a)のように、時間とともにピッチをあげていくように発声する。
このように録音を行う理由は、より正確なスペクトル・シェイプを算出するためである。
すなわち、ある固定ピッチで発生したサンプルから分析して求めたスペクトル・シェイプには、実際に存在するフォルマントが必ずしも現れるとは限らないからである。従って、求めるスペクトル・シェイプに正確にフォルマントが現れるようにするために、あるピッチの前後で同じスペクトル・シェイプとみなせる範囲内の分析結果の全てを用いる必要がある。
【0045】
同じスペクトル・シェイプと見なせるピッチの周波数範囲を同じセグメントであるとすると、i番目のセグメントの中心周波数f0iは、
【数1】
ここで、fi (low)、fi (high)は、ある音素のi番目のセグメントの境界のピッチ周波数であり、fi (low)が低ピッチ側のピッチ周波数を表し、fi (high)が高ピッチ側のピッチ周波数を表す。
同じセグメントとみなせるピッチにおけるスペクトル・シェイプの全ての値(周波数及びマグニチュードの組)を一つにまとめる。
より具体的には、例えば、図3(a)に示すように、同じセグメントとみなせるピッチにおけるスペクトル・シェイプを同一の周波数軸/マグニチュード軸上にプロットする。
次に周波数軸上で周波数範囲[0,fS/2]を等間隔(例えば30[Hz])に分割する。ここで、fSは、サンプリング周波数である。
【0046】
このときの分割幅をBW[Hz]、分割数をB(バンド番号b∈[0,B−1])とし、各分割範囲内に含まれる実際の周波数及びマグニチュードの組を
(xn、yn)
ここで、n=0、……、N−1である。
とすると、当該バンドbの中心周波数fb及び平均マグニチュードMbは、それぞれ、
【数2】
と計算される。
このようにして求めた
(fb、Mb)
ここで、b=0、……、B−1である。
の組が最終的なあるピッチにおけるスペクトル・シェイプである。
【0047】
より具体的には、図3(a)に示した周波数及びマグニチュードの組を用いてスペクトル・シェイプを算出した場合には、図3(c)に示すようにターゲット音素辞書に格納すべき、フォルマントがはっきりと現れた良好なスペクトル・シェイプが得られる。
これに対し図3(b)に示すように、同じセグメントとみなすことができないようなピッチにおけるスペクトル・シェイプの全ての値(周波数及びマグニチュードの組)を一つにまとめ、まとめた周波数及びマグニチュードの組を用いてスペクトル・シェイプを算出した場合には、図3(d)に示すように、図3(c)の場合と比較してフォルマントがあまりはっきりしないスペクトル・シェイプが得られることとなる。
【0048】
[2.4] ターゲット・デコーダ部
[2.4.1] ターゲット・デコーダ部の構成
図4にターゲット・デコーダ部の構成ブロック図を示す。
ターゲット・デコーダ部20は、歌唱者及びターゲット歌唱者のピッチ、アライメントおよび既に処理済みのデコードフレームからデコードされるべきフレームに対応する音素が安定状態にあるかあるいは他の音素に移行する遷移状態にあるかを決定する安定状態/遷移状態決定部31と、スムーズなフレームデータの生成のために既に処理済みのデコードフレームを格納するフレームメモリ部32と、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が安定状態にある場合には現在の音素のスペクトル・シェイプを現在のターゲットのピッチ付近の二つのスペクトル・シェイプから後述のスペクトル補間の方法を用いて第1補間スペクトル・シェイプSS1として生成し、デコードされるべきフレームに対応する音素が遷移状態にある場合には遷移元の音素のスペクトル・シェイプを現在のターゲットのピッチ付近の二つのスペクトル・シェイプから後述のスペクトル補間の方法を用いて第2補間スペクトル・シェイプSS2として生成する第1スペクトル補間部33と、を備えて構成されている。
【0049】
また、ターゲット・デコーダ部20は、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が遷移状態にある場合に遷移先の音素のスペクトル・シェイプを現在のターゲットのピッチ付近の二つのスペクトル・シェイプから後述のスペクトル補間の方法を用いて第3補間スペクトル・シェイプSS3として生成する第2スペクトル補間部34と、遷移元の音素及び遷移先の音素並びに歌唱者のピッチ、ターゲット歌唱者のピッチ及びスペクトル・シェイプなどを考慮に入れて遷移元の音素から遷移先の音素に遷移させる場合の遷移のさせかたを規定する遷移関数を発生する遷移関数発生部35と、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が遷移状態にある場合に遷移関数発生部35において発生された遷移関数並びに第2補間スペクトル・シェイプSS2及び第3補間スペクトル・シェイプSS3の二つのスペクトル・シェイプから後述のスペクトル補間の方法を用いて第4スペクトル・シェイプSS4として生成する第3スペクトル補間部36と、を備えて構成されている。
【0050】
さらに、ターゲット・デコーダ部20は、出力されるデコードフレームがよりリアルであるようにターゲットのピッチ及びフレームメモリ部32に格納されている処理済みのデコードフレームに基づいてスペクトル・シェイプの微細構造を時間軸に沿って変化させ(例えば、マグニチュードを時間とともに少しずつ変化させる)、時間的変化が付加されたスペクトル・シェイプSStを出力する時間的変化付加部37と、時間的変化付加部37により時間的変化が付加されたスペクトル・シェイプSStをさらにリアルにするためにターゲットのアンプリチュードに対応させてスペクトル・シェイプSStのスペクトル傾きを補正してターゲットスペクトル・シェイプSSTGとして出力するスペクトル傾き補正部38と、アライメント情報、ターゲットのピッチ及びアンプリチュードに基づいて出力するデコードフレームに対応するターゲットのピッチおよびアンプリチュードを算出するターゲットピッチ/アンプリチュード算出部39と、を備えて構成されている。
【0051】
[2.4.2] ターゲット・デコーダ部の詳細動作
ここで、ターゲット・デコーダ部20の詳細動作について説明する。
この場合において、よりスムーズなフレームデータの生成の為、ターゲット・デコーダ部20が出力すべきフレームデータ(デコードフレーム;ターゲットスペクトル・シェイプ)はフレームメモリ部に記憶される。
ターゲット・デコーダ部20への入力情報としては、歌唱音声の情報(ピッチ、アンプリチュード、スペクトル・シェイプ、アライメント)、ターゲット挙動データ(ピッチ、アンプリチュード、持続時間付音素表記)、ターゲット音素辞書(スペクトル・シェイプ)が含まれている。
【0052】
そして、安定状態/遷移状態決定部31は、歌唱者、ターゲット歌手のピッチ、アライメント情報、過去のデコード・フレームからデコードされるべきフレームが安定状態(ある音素からある音素への遷移(変化)途中ではなく、ある音素であることが特定できる状態にあるか否かを決定し、決定結果を第1スペクトル補間部33及び第2スペクトル補間部34に通知する。
第1スペクトル補間部33は、安定状態/遷移状態決定部31の通知に基づいて、デコードされるべきフレームが安定状態である場合には、現在の音素のスペクトル・シェイプを現在のターゲットのピッチ付近の2つのスペクトル・シェイプから、後述するスペクトル補間の方法を用いて補間されたスペクトル・シェイプである第1補間スペクトル・シェイプSS1を算出し時間的変化付加部37に出力する。
【0053】
また、第1スペクトル補間部33は、安定状態/遷移状態決定部31の通知に基づいて、デコードされるべきフレームが遷移状態である場合には、遷移元の音素(第1の音素から第2の音素に遷移途中の場合における、第1の音素)のスペクトル・シェイプを現在のターゲットのピッチ付近の2つのスペクトル・シェイプから、後述するスペクトル補間の方法を用いて補間されたスペクトル・シェイプである第2補間スペクトル・シェイプSS2を算出し、第3スペクトル補間部36に出力する。
一方、第2スペクトル補間部34は、安定状態/遷移状態決定部31の通知に基づいて、デコードされるべきフレームが遷移状態である場合に、遷移先の音素(第1の音素から第2の音素に遷移途中の場合における、第2の音素)のスペクトル・シェイプを現在のターゲットのピッチ付近の2つのスペクトル・シェイプから、後述するスペクトル補間の方法を用いて補間されたスペクトル・シェイプである第3補間スペクトル・シェイプを算出し、第3スペクトル補間部36に出力する。
【0054】
これらの結果、第3スペクトル補間部36は、安定状態/遷移状態決定部31の通知に基づいて、デコードされるべきフレームが遷移状態である場合に、第2補間スペクトル・シェイプおよび第2スペクトル補間処理において算出された第3補間スペクトル・シェイプに基づいて後述するスペクトル補間の方法を用いて補間し、第4スペクトル・シェイプSS4を算出し、時間的変化付加部37に出力する。この第4スペクトル・シェイプSS4は、二つの異なる音素の中間的な音素のスペクトル・シェイプに相当するものとなる。この場合において、第4スペクトル・シェイプSS4を求めるべく補間を行う際には、単純にある時間に亘って対応する領域(その境界点はアンカー・ポイントで示される。)内で線形に補間を行うのではなく、遷移関数発生部35において生成される遷移関数に従ってスペクトル補間を行うことにより、より現実に近いスペクトル補間を行うことができる。
【0055】
例えば、遷移関数発生部35は、音素/a/から音素/e/に変化する際には、10フレームかけて対応する領域内(後述するアンカー・ポイント間)のスペクトルを時間的に線形に変化させ、また、音素/a/から音素/u/に変化する際には、5フレームかけて変化するが、ある周波数帯域内(後述するアンカー・ポイント間)のスペクトルについては、線形に変化させ、他の周波数帯域内(後述するアンカー・ポイント間)のスペクトルについては、指数関数的に変化させることにより、自然な音素間の移動をスムーズに実現することができる。
このため、遷移関数発生処理においては、音素、ピッチに基づくとともに、歌唱者、ターゲットのピッチやスペクトル・シェイプ等を考慮に入れて、遷移関数を発生させる。
この場合において、後述するようにターゲット音素辞書の中にこれらの情報を含めてしまうように構成することも可能である。
次に時間的変化付加部37は、入力された第1補間スペクトル・シェイプSS1または第4補間スペクトル・シェイプSS4に対し、ターゲット・デコーダ部20より出力されるターゲットスペクトル・シェイプ(=デコードフレーム)がより実在するフレームと近似するようにターゲットのピッチおよび過去のデコードフレームに基づいて、スペクトル・シェイプの微細構造を変化させ、時間的変化付加スペクトル・シェイプSStとしてスペクトル傾き補正部38に出力する。
【0056】
例えば、スペクトル・シェイプの微細構造としてのマグニチュードを時間的に少しづつ変化させるようにする。
スペクトル傾き補正部38は、入力された時間的変化付加スペクトル・シェイプSStに対し、出力されるターゲットスペクトル・シェイプ(=デコードフレーム)SSTGがより実在するフレームと近似するようにターゲットのアンプリチュードに応じたスペクトル傾きを有するように補正を行い、補正後のスペクトル・シェイプをターゲットスペクトル・シェイプSSTGとして出力する。
スペクトル傾き補正処理としては、出力する音量が大きいときは一般的にスペクトル・シェイプの高域が豊か(リッチ)であり、音量が小さいときはスペクトル・シェイプの高域が乏しい(=こもったような音)ことをシミュレートするために、スペクトル・シェイプの高域部の形状を音量に応じて変化させてやるのである。
そして、スペクトル傾き補正して得られるターゲットスペクトル・シェイプSSTGをフレームメモリ部32に格納することとなる。
一方、ターゲットピッチ/アンプリチュード算出部39は、出力するターゲットスペクトル・シェイプSSTGに対応するピッチTGP、アンプリチュードTGAを算出し出力する。
【0057】
[2.4.3] スペクトル補間処理
ここで、図5を参照してターゲット・デコーダ部のスペクトル補間処理について説明する。
[2.4.3.1] スペクトル補間処理の概要
まず、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が安定状態にある場合には、ターゲットデコーダ部20は、当該音素に対応する二つのスペクトル・シェイプをターゲットの音素辞書から取り出し、また、デコードされるべきフレームに対応する音素が遷移状態にある場合には、遷移元の音素に対応する二つのスペクトル・シェイプをターゲットの音素辞書から取り出す。
図5(a)及び図5(b)は、安定状態にある音素あるいは遷移元の音素に対応させてターゲット音素辞書から取り出された二つのスペクトル・シェイプであり、この二つのスペクトル・シェイプのピッチは異なっている。
例えば、求めたいスペクトル・シェイプがピッチ140[Hz]、音素/a/のものだとすると、図5(a)のスペクトル・シェイプは、ピッチ100[Hz]の音素/a/に対応するものであり、図5(b)のスペクトル・シェイプは、ピッチ200[Hz]の音素/a/に対応するものである。すなわち、求めたいスペクトル・シェイプのピッチを挟むような前後のピッチでそれぞれ最も近いピッチを有する二つのスペクトル・シェイプであって、かつ、求めたいスペクトル・シェイプと同一の音素に対応する二つのスペクトル・シェイプを用いる。
【0058】
得られた二つのスペクトル・シェイプを第1スペクトル補間部33でスペクトル補間の方法で補間することにより、図5(e)に示すような所望のスペクトル・シェイプ(第1スペクトル・シェイプSS1あるいは第2スペクトル・シェイプSS2に相当)を得る。得られたスペクトル・シェイプは、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が安定状態にある場合には、そのまま得られたスペクトル・シェイプを時間的変化付加部37に出力する。、
さらに安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が遷移状態にある場合には、遷移先の音素に対応する二つのスペクトル・シェイプをターゲットの音素辞書から取り出す。
図5(c)及び図5(d)は、遷移先の音素に対応させてターゲット音素辞書から取り出された二つのスペクトル・シェイプであり、この二つのスペクトル・シェイプのピッチも図5(a)及び図5(b)の場合と同様に異なっている。
そして得られた二つのスペクトル・シェイプを第2スペクトル補間部34で補間することにより、図5(f)に示すような所望のスペクトル・シェイプ(第3スペクトル・シェイプSS3に相当)を得る。
さらにまた、安定状態/遷移状態決定部31における決定結果に基づいてデコードされるべきフレームに対応する音素が遷移状態にある場合には、図5(e)及び図5(f)に示したスペクトル・シェイプを第3スペクトル補間部36でスペクトル補間の方法で補間することにより、図5(g)に示すような所望のスペクトル・シェイプ(第4スペクトル・シェイプSS4に相当)を得る。
【0059】
[2.4.3.2] スペクトル補間手法
ここで、スペクトル補間の手法について詳細に説明する。
スペクトル補間を用いる目的は、以下の二つに大別される。
(1) 二つの時間的に連続するフレームのスペクトル・シェイプを補間し、時間的に二つのフレームの間にあるフレームのスペクトル・シェイプを求める。
(2) 二つの異なる音のスペクトル・シェイプを補間し、中間的な音のスペクトル・シェイプを求める。
図6(a)に示すように、補間のもととなる二つのスペクトル・シェイプ(以下、便宜上、第1スペクトル・シェイプSS11および第2スペクトル・シェイプSS12とする。なお、これらは、上述の第1スペクトル・シェイプS1および第2スペクトル・シェイプS2とは全く別個のものである。)を各々周波数軸上で複数の領域Z1、Z2、……に分割する。
そして、各領域を区切る境界の周波数を各スペクトル・シェイプ毎にそれぞれ以下のように設定する。この設定した境界の周波数をアンカー・ポイントと呼んでいる。
第1スペクトル・シェイプSS11:RB1,1、RB2,1、……、RBN,1
第2スペクトル・シェイプSS12:RB1,2、RB2,2、……、RBM,2
【0060】
図6(b)に線形スペクトル補間の説明図を示す。
線形スペクトル補間は、補間位置により定義され、補間位置Xは、0から1までの範囲である。この場合において、補間位置X=0は、第1スペクトル・シェイプSS11そのもの、補間位置X=1は第2スペクトル・シェイプSS12そのものに相当する。
図6(b)は、補間位置X=0.35の場合である。
また、図6(b)において、縦軸上の白丸(○)は、スペクトル・シェイプを構成する周波数およびマグニチュードの組のそれぞれを示す。従って、紙面垂直方向にマグニチュード軸が存在すると考えるのが適当である。
補間位置X=0の軸上の第1スペクトル・シェイプSS11の注目するある領域Ziに対応するアンカー・ポイントが、
RBi,1およびRBi+1,1
であり、当該領域Ziに属する具体的な周波数およびマグニチュードの組のうちいずれかの組の周波数=fi1であり、マグニチュード=S1(fi1)であるものとする。
補間位置X=1の軸上の第2スペクトル・シェイプSS12の注目するある領域Ziに対応するアンカー・ポイントが、
RBi,2およびRBi+1,2
であり、当該領域Ziに属する具体的な周波数およびマグニチュードの組のうちいずれかの組の周波数=fi2であり、マグニチュード=S2(fi2)であるものとする。
ここで、スペクトル遷移関数ftrans1(x)及びスペクトル遷移関数ftrans2(x)を求める。
【0061】
例えば、これらを最も簡単な線形関数で表すとすると、以下のようになる。
ftrans1(x)=m1・x+b1
ftrans2(x)=m2・x+b2
ここで、
m1=RBi,2−RBi,1
b1=RBi,1
m2=RBi+1,2−RBi+1,1
b2=RBi+1,2
である。
次に第1スペクトル・シェイプSS11上に実在する周波数およびマグニチュードの組に対応する補間スペクトル・シェイプ上の周波数およびマグニチュードの組を求める。
【0062】
まず、第1スペクトル・シェイプSS11上に実在する周波数およびマグニチュードの組、具体的には、周波数fi1、マグニチュードS1(fi1)に対応する第2スペクトル・シェイプ上の周波数=fi1,2、マグニチュード=S2(fi1,2)を以下のように算出する。
【数3】
ここで、
W1 =RBi+1,1−RBi,1
W2 =RBi+1,2−RBi,2
である。
マグニチュード=S2(fi1,2)を算出するにあたり、第2スペクトル・シェイプSS12上に実在する周波数およびマグニチュードの組のうちで周波数=fi1,2をはさむように最も近い周波数をそれぞれ、(+)、(-)のサフィックスを付して表すとすると、
【数4】
となる。
【0063】
以上から、補間位置=xとすると、第1スペクトル・シェイプSS11上に実在する周波数およびマグニチュードの組に対応する補間スペクトル・シェイプ上の周波数fi1,xおよびマグニチュードSx(fi1,x)は以下の式で求められる。
【数5】
Sx(fi1,x)=S1 (fi1)+{S2(fi1,2)−S1(fi1)}・x同様にして、第1スペクトル・シェイプSS11上の全ての周波数およびマグニチュードの組に対して算出する。
続いて、第2スペクトル・シェイプSS12上に実在する周波数およびマグニチュードの組に対応する補間スペクトル・シェイプ上の周波数およびマグニチュードの組を求める。
【0064】
まず、第2スペクトル・シェイプSS12上に実在する周波数およびマグニチュードの組、具体的には、周波数fi2、マグニチュードS2(fi2)に対応する第1スペクトル・シェイプ上の周波数=fi1,1、マグニチュード=S1(fi1,1)を以下のように算出する。
【数6】
ここで、
W1 =RBi+1,1−RBi,1
W2 =RBi+1,2−RBi,2
である。
マグニチュード=S1(fi1,1 2)を算出するにあたり、第1スペクトル・シェイプSS11上に実在する周波数およびマグニチュードの組のうちで周波数=fi2,1をはさむように最も近い周波数をそれぞれ、(+)、(-)のサフィックスを付して表すとすると、
【数7】
となる。
以上から、補間位置=xとすると、第2スペクトル・シェイプSS12上に実在する周波数およびマグニチュードの組に対応する補間スペクトル・シェイプ上の周波数fi2,xおよびマグニチュードSx(fi2,x)は以下の式で求められる。
【数8】
Sx(fi2,x)=S2(fi2)+{S2(fi1,2)−S1(fi2)}・(x−1)
【0065】
同様にして、第2スペクトル・シェイプSS12上の全ての周波数およびマグニチュードの組に対して算出する。
上述したように第1スペクトル・シェイプSS11上に実在する周波数fi1およびマグニチュードS1(fi1)の組に対応する補間スペクトル・シェイプ上の周波数=fi1,x、マグニチュード=Sx(fi1,x)並びに第2スペクトル・シェイプ上に実在する周波数fi2およびマグニチュードS2(fi2)の組に対応する補間スペクトル・シェイプ上の周波数fi2,xおよびマグニチュードSx(fi2,x)の全ての算出結果を周波数順に並び替えることにより、補間スペクトル・シェイプを求める。
これらを全ての領域Z1 、Z2、……について行い、全周波数帯域の補間スペクトル・シェイプを算出する。
上述の例においては、スペクトル遷移関数ftrans1(x)、ftrans2(x)を線形な関数としたが、二次関数、指数関数など非線形な関数として定義あるいは関数に対応する変化をテーブルとして用意するように構成することも可能である。
【0066】
また、アンカー・ポイントに応じてそれらの遷移関数を変更してやることによりより現実に近いスペクトル補間を行うことが可能である。
この場合、ターゲット音素辞書の内容は、アンカー・ポイントに付随した遷移関数情報を含めるように構成すればよい。
さらに遷移関数情報としては、遷移先の音素に応じて設定するようにすればよい。すなわち、遷移先の音素が音素Bの場合には、遷移関数Yを用い、遷移先の音素が音素Cの場合には、遷移関数Zを用いる等のように設定し、設定状態を音素辞書に組み込むようにすればよい。
さらに歌唱者、ターゲット歌手のピッチやスペクトル・シェイプ等を考慮に入れ、リアルタイムに最適な遷移関数を設定するようにしても良い。
【0067】
[3] 全体動作
次に音声変換装置10の全体動作を順を追って説明する。
まず、歌唱信号入力部11により、信号入力処理が行われ、歌唱者の歌った信号を入力する。
続いて認識特徴分析部12により認識特徴分析処理が行われ、歌唱信号入力部11を介して入力された歌唱信号SVを以降のアライメント処理部18へ入力すべく、認識用音素辞書に含まれるコードブックに基づいてベクトル量子化を行い、各特徴ベクトルVC(メルケプストラム、差分メルケプストラム、エネルギー、差分エネルギー、ボイスネス(有声音尤度)など)を算出する。
なお、差分メルケプストラムとは、前フレームと現在のフレームのメルケプストラムの差分値を示す。差分エネルギーとは、前フレームと現在のフレームの信号エネルギーの差分値を示す。ボイスネスとは、ゼロ交差数、ピッチ検出を行うときに求まる検出誤差等から総合的に求められる値、あるいは、総合的に重み付けして求められる値であり、有声音らしさを表す数値である。
【0068】
一方、SMS分析部13は、歌唱信号入力部11を介して入力された歌唱信号SVをSMS分析して、SMSフレームデータFSMSを得て、ターゲット・デコーダ部20およびモーフィング処理部21に出力する。具体的には、ピッチに応じた窓幅で切り出した波形に対して、
(1) 高速フーリエ変換(FFT)処理
(2) ピーク検出処理
(3) 有声/無声判別処理およびピッチ検出処理
(4) ピーク連携処理
(5) 正弦波成分属性ピッチ、アンプリチュード、スペクトル・シェイプの計算処理
(6) 残差成分算出処理
が行われる。
アライメント処理部18は、認識特徴分析部12により出力された各種特徴ベクトルVC、認識用音素辞書14からの各音素のHMMおよびターゲット挙動データに含まれる持続時間付音素表記情報より、歌唱者が対象としている曲中のどの部分を歌っているかをビタビアルゴリズムを用いて求める。
これにより、アライメント情報が求まり、この結果、ターゲット歌手が歌うべきピッチ、アンプリチュード、音素を検出することができる。
【0069】
この処理のなかで、歌唱者がある音素をターゲット歌唱者に比較して長く歌った場合には、持続時間付音素表記情報の持続時間を超えてある音素を歌っていると判断し、ループ処理に入る旨をアライメント情報に含めて出力することとなる。
これらの結果、ターゲット・デコーダ部20は、アライメント処理部18により出力されたアライメント情報およびターゲット音素辞書19に含まれるスペクトル情報よりターゲット歌手のフレーム情報(ピッチ、アンプリチュード、スペクトル・シェイプ)であるターゲットスペクトル・シェイプSSTG、ピッチTGP、アンプリチュードTGAを算出し、ターゲットフレームデータTGFLとしてモーフィング処理部21に出力する。
モーフィング処理部21は、ターゲット・デコーダ部20から出力されたターゲットフレームデータTGFLおよび歌唱信号SVに対応するSMSフレームデータFSMS並びにパラメータコントロール部16から入力された似具合パラメータに基づいてモーフィング処理を行い、似具合パラメータに応じた所望のスペクトル・シェイプ、ピッチ、アンプリチュードを有するモーフィングフレームデータMFLを生成し、変換処理部22に出力する。
【0070】
変換処理部22は、パラメータコントロール部16からの変換パラメータに従って、モーフィングフレームデータMFLを変形し、変換フレームデータMMFLとしてSMS合成部23に出力する。この場合において、出力アンプリチュードに応じたスペクトル傾き補正を行うことにより、よりリアルな出力音声を得ることが可能となる。
また、変換処理部22で行う処理としては、例えば偶数倍音をなくす等の処理があげられる。
SMS合成部23は、変換フレームデータMMFLをフレームスペクトルに変換し、逆高速フーリエ変換(IFFT)、オーバーラップ処理および加算処理を行い、波形信号SWAVとして選択部24に出力する。
選択部24は、SMS分析部13からの有声/無声情報に基づいて歌唱信号SVに対応する歌唱者の音声が無声音である場合には、歌唱信号SVをそのまま加算部27に出力し、歌唱信号SVに対応する歌唱者の音声が有声音である場合には、
波形信号SWAVを加算部27に出力する。
【0071】
これらの動作と並行して、シーケンサ26は、パラメータコントロール部16の制御下で音源25を駆動してミュージック信号SMSCを生成して加算部27に出力する。
加算部27は、選択部24から出力された波形信号SWAVあるいは歌唱信号Svと音源25から出力されたミュージック信号SMSCとを適当な割合で混合して加算し、出力部28に出力する。
出力部28は、加算部27の出力信号に基づいてカラオケ信号(音声+ミュージック)を出力することとなる。
【0072】
[B] 第2実施形態
次に、本発明の第2実施形態について説明する。本第2実施形態が第1実施形態と異なる点は、第1実施形態のターゲット・デコーダ部においては、モーフィング処理部に出力されるスペクトル・シェイプは、ターゲット挙動データに含まれるターゲットのピッチ、アンプリチュードに基づいて算出していたが、本第2実施形態においては、歌唱者のピッチ及びスペクトル傾き情報に基づいて算出している点である。
これに伴い、本第2実施形態のSMS分析部では、正弦波成分属性として、ピッチアンプリチュード、スペクトル・シェイプに加えて、スペクトル傾きも算出しておく必要があるが、ターゲット・デコーダ部を除く各部の構成は第1実施形態と同様である。
【0073】
[1] ターゲット・デコーダ部
図7に第2実施形態のターゲット・デコーダ部の構成ブロック図を示す。図7において図4の第1実施形態と同様の部分には同一の符号を付し、その詳細な説明を省略する。
ターゲット・デコーダ部50は、安定状態/遷移状態決定部31と、フレームメモリ部32と、第1スペクトル補間部33と、第2スペクトル補間部34と、遷移関数発生部35と、第3スペクトル補間部36と、出力されるデコードフレームがよりリアルであるように歌唱者のピッチ及びフレームメモリ部32に格納されている処理済みのデコードフレームに基づいてスペクトル・シェイプの微細構造を時間軸に沿って変化させる(例えば、マグニチュードを時間とともに少しずつ変化させる)時間的変化付加部57と、時間的変化付加部57により時間的変化が付加されたスペクトル・シェイプをさらにリアルにするために歌唱者のスペクトル傾きと既に生成されたスペクトル・シェイプの傾きを比較し、スペクトル・シェイプのスペクトル傾きを補正して補正後のスペクトル・シェイプをターゲットスペクトル・シェイプSSTGとして出力し、フレームメモリ部32にターゲットスペクトル・シェイプSSTGを格納するスペクトル傾き補正部58と、ターゲットピッチ/アンプリチュード算出部39と、を備えて構成されている。
【0074】
[2] 第2実施形態の動作
本第2実施形態の動作は全体としては、第1実施形態と同様であるので、主要部の動作のみを説明する。
ターゲット・デコーダ部50の時間的変化付加部57は、出力されるデコードフレームであるターゲットフレームがよりリアルであるように歌唱者のピッチ及びフレームメモリ部32に格納されている処理済みのデコードフレームに基づいてスペクトル・シェイプ(第1スペクトル・シェイプSS1あるいは第4スペクトル・シェイプSS4)の微細構造を時間軸に沿って変化させて(例えば、マグニチュードを時間とともに少しずつ変化させて)、スペクトル傾き補正部58に出力する。
スペクトル傾き補正部58は、ターゲット・デコーダ部50から出力するターゲットスペクトル・シェイプSSTGをさらにリアルにするために歌唱者のスペクトル傾きと既に生成されたスペクトル・シェイプの傾きを比較し、スペクトル・シェイプのスペクトル傾きを補正して補正後のスペクトル・シェイプをターゲットスペクトル・シェイプSSTGとして出力し、フレームメモリ部32にターゲットスペクトル・シェイプSSTGを格納する。
より具体的には、歌唱者のスペクトル傾きと生成されたターゲットのスペクトル・シェイプのスペクトル傾きの差であるスペクトル傾き補正値(Tilt Correction値)を算出し、図8に示すように、スペクトル傾き補正値に応じた特性を有するスペクトル傾き補正フィルタを生成されたターゲットのスペクトル・シェイプに対してかける。
これにより、より自然なスペクトル・シェイプを得ることが可能となる。
【0075】
[C] 実施形態の変形例
[1] 第1変形例
ピッチ、アンプリチュードに関して、前もって静的変化成分と、ビブラート的変化成分(ビブラートを早さ、深さのパラメータとして有する)に分けた情報として持っていれば、例えば、同じ音素を歌唱者がターゲットに比較して長く歌った場合でも、適切なビブラートを付加したピッチ、アンプリチュードを生成することができるので、自然な音の伸びを得ることができる。
このような処理を行う理由としては、このような処理を行わない場合には、歌唱者がターゲット歌手と比較して長く音をのばした場合などには、途中でビブラートがかからなくなるなどの現象が生じ、不自然なものとなり、また、歌唱者がターゲット歌手と比較してテンポを変更した場合については、ビブラート成分を持っていない場合には、テンポを挙げるとビブラートが早くなってしまい同様に不自然なものとなるからである。
【0076】
[2] 第2変形例
以上の説明においては、ターゲット歌唱者の残差成分については、考慮していないものであったが、ターゲット歌唱者の残差成分を考慮する場合に、全てのフレームについて残差成分を保持することは、情報圧縮の観点からいっても本音声変換装置のシステムには適合しない。
そこで、残差について予め代表的なスペクトルエンベロープを用意し、これらのスペクトルエンベロープを特定するためのインデックス情報を持つようにすればよい。
より具体的には、ターゲット挙動データとして残差スペクトルエンベロープ情報インデックスを持たせ、例えば、歌唱経過時間0秒〜2秒の間は、残差スペクトルエンベロープ情報インデックス=1のスペクトルエンベロープを使用し、歌唱経過時間2秒〜3秒までは残差スペクトルエンベロープ情報インデックス=3のスペクトルエンベロープを使用する。
そして、残差スペクトルエンベロープ情報インデックスに対応するスペクトルエンベロープから実際の残差スペクトルを生成して、モーフィング処理において用いるようにすれば、残差についてもモーフィングを可能とすることができる。
【0077】
【発明の効果】
本発明によれば、入力された歌唱者の音声を目標とするターゲット歌唱者の歌い方に似せることができるとともに、ターゲット歌唱者の分析データの容量を低減して、リアルタイムに処理を行うことが可能となる。
【図面の簡単な説明】
【図1】実施形態にかかる音声変換装置の概要構成ブロック図である。
【図2】ターゲット音素辞書の説明図(その1)である。
【図3】ターゲット音素辞書の説明図(その2)である。
【図4】第1実施形態のターゲット・デコーダ部の概要構成ブロック図である。
【図5】ターゲット・デコーダ部のスペクトル補間処理の説明図(その1)である。
【図6】ターゲット・デコーダ部のスペクトル補間処理の説明図(その2)である。
【図7】第2実施形態のターゲット・デコーダ部の概要構成ブロック図である。
【図8】第2実施形態のスペクトル傾き補正フィルタの特性説明図である。
【符号の説明】
10…音声変換装置、11…歌唱信号入力部、12…認識特徴分析部、13…SMS分析部、14…認識用音素辞書、15…ターゲット挙動データ、16…パラメータコントロール部、17…データ変換部、18…アライメント処理部、19…ターゲット音素辞書、20…ターゲット・デコーダ部、21…モーフィング処理部、22…変換処理部、23…SMS合成部、24…選択部、25…音源、26…シーケンサ、27…加算部、28…出力部、31…安定状態/遷移状態決定部、32…フレームメモリ部、33…第1スペクトル補間部、34…第2スペクトル補間部、35…遷移関数発生部、36…第3スペクトル補間部、37…時間的変化付加部、38…スペクトル傾き補正部、39…ターゲットピッチ/アンプリチュード算出部、50…ターゲット・デコーダ部、57…時間的変化付加部、58…スペクトル傾き補正部、SS1…第1スペクトル・シェイプ、SS2…第2スペクトル・シェイプ、SS3…第3スペクトル・シェイプ、SS4…第4スペクトル・シェイプ、SSt…時間的変化付加スペクトル・シェイプ、SSTG…ターゲットスペクトル・シェイプ。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice conversion device that approximates a target voice to another target voice, a voice conversion method, and a voice conversion dictionary that generates a voice conversion dictionary corresponding to another voice used when performing voice conversion. In particular, the present invention relates to a voice conversion apparatus, a voice conversion method, and a voice conversion dictionary generation method suitable for use in a karaoke apparatus.
[0002]
[Prior art]
Various voice conversion devices that change the frequency characteristics of the input voice and the like have been developed. For example, in a karaoke device, the pitch of a singer's singing voice is converted to convert a male voice into a female voice. Some are converted to voice or vice versa (for example, Japanese translation of Japanese translation of PCT publication No. 8-508581).
[0003]
[Problems to be solved by the invention]
However, in the conventional voice conversion device, although voice conversion (for example, male voice → female voice, female voice → male voice, etc.) is performed, it has only stopped changing the voice quality. For example, a specific singer (for example, It couldn't be converted to resemble the voice of a professional singer.
Also, if you have a function that imitates a specific singer, not only the voice quality, but also the way you sing, it will be very interesting in a karaoke device etc., but such processing is not possible with conventional speech conversion devices It was impossible.
[0004]
Therefore, the inventors analyzed the voice of the target singer in order to resemble the voice of a singer (target singer) whose voice quality is the target (target), and the sine wave component attribute that is the obtained analysis data Pitch, amplitude, spectrum shape, and residual components are held as target frame data for all frames of one song, and conversion processing is performed in synchronization with input target frame data obtained by analyzing input speech. Therefore, a voice conversion device that performs conversion to resemble the voice of the target singer has been proposed (see Japanese Patent Application No. 10-183338, etc.)
The voice conversion device can resemble not only the voice quality but also a specific singer to the way of singing, but the analysis data of the target singer is required for each song, and the analysis data of a plurality of songs are stored. In such a case, there is a problem that the data amount becomes enormous.
[0005]
Therefore, an object of the present invention is to provide a voice conversion device that can resemble a target singer's singing method with respect to the input singer's voice and reduce the capacity of analysis data of the target singer, An object of the present invention is to provide a speech conversion method and a speech conversion dictionary generation method.
[0006]
[Means for Solving the Problems]
In order to solve the above-described problem, the configuration according to
[0007]
According to a second aspect of the present invention, input frame data extracting means for extracting input frame data relating to a frequency spectrum from an input voice signal, feature analysis means for extracting a feature vector from the input voice signal, and the feature vector are determined in advance. The time position in the target behavior data corresponding to the input frame data is correlated with the target behavior data in which the temporal change of the pitch and phoneme of the target speech to be converted into speech is analyzed Alignment processing means for determiningWhether the phoneme of the target speech in the target behavior data at the temporal position determined by the alignment processing means is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme When it is determined that the phoneme is in the transition state by the state determining unit for determining and the state determining unit,Among the spectrum shapes of the target phoneme dictionary having spectrum shapes corresponding to a plurality of pitches for each phoneme, for the phonemes of the target speech in the target behavior data at the temporal position determined by the alignment processing means,Two spectral shapes corresponding to the first phoneme,Corresponds to two pitches close to the pitch obtained from the input frame datatwoInterpolate using spectrum shapesBy calculating the spectrum shape of the first phoneme, two spectrum shapes corresponding to the second phoneme and corresponding to two pitches close to the pitch obtained from the input frame data are obtained. The spectrum shape of the second phoneme is calculated by performing an interpolation process using the spectrum shape.,Using the spectrum shape of the first phoneme and the spectrum shape of the second phonemeSpectrum shape interpolation means for calculating a spectrum shape corresponding to the input frame data, and converted voice signal generation means for generating and outputting a converted voice signal based on the spectrum shape calculated by the spectrum shape interpolation means; It is characterized by having.
[0013]
Claim3In the speech conversion device according to
[0014]
Claim4The configuration described in claim3In the speech conversion device described in (1), the transition function is previously defined as a linear function or a nonlinear function.
[0015]
Claim5The configuration described in claim3In the sound conversion device described in 1), the two spectrum shapes are divided into a plurality of regions on the frequency axis, and the transition function is defined for each region.
[0016]
Claim6The configuration described in claim3In the sound conversion device according to
[0018]
Claim7The configuration described in claim3In the audio conversion device described above, the spectrum shape interpolation unit divides the two spectrum shapes into a plurality of regions on the frequency axis, and the actual frequency and magnitude on the two spectrum shapes belonging to each region. An interpolation process using a linear function as the transition function is performed over the plurality of regions.
[0019]
Claim8The configuration described in claim7In the speech conversion device according to
[0020]
Claim9The structure according to
[0021]
Claim10According to the configuration described in claim 2, in the speech conversion device according to claim 2, the spectrum inclination of the spectrum shape calculated by the spectrum shape interpolation means and the spectrum inclination of the spectrum shape obtained from the input frame data are calculated. According to the comparison result, there is provided a spectrum inclination correction means for correcting the spectrum inclination of the spectrum shape calculated by the spectrum shape interpolation means.
[0022]
Claim11The configuration includes: an input frame data extraction process for extracting input frame data related to a frequency spectrum from an input speech signal; a feature analysis process for extracting a feature vector from the input speech signal; and the feature vector is analyzed by a predetermined algorithm. Alignment processing for determining the temporal position in the target behavior data corresponding to the input frame data in association with the target behavior data in which the temporal change of the pitch and phoneme of the target speech to be converted into speech is defined Process,Whether the phoneme of the target speech in the target behavior data at the temporal position determined in the alignment process is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme When it is determined that the phoneme is in a transition state in the state determination process for determining and the state determination process,Among the spectrum shapes of the target phoneme dictionary having spectrum shapes corresponding to a plurality of pitches for each phoneme, regarding the phonemes of the target speech in the target behavior data at the temporal position determined in the alignment process,Two spectral shapes corresponding to the first phoneme,Corresponds to two pitches close to the pitch of the target speech in the target behavior data at the temporal positiontwoInterpolate using spectrum shapesBy calculating the spectrum shape of the first phoneme, two spectrum shapes corresponding to the second phoneme, which are close to the pitch of the target speech in the target behavior data at the temporal position. A spectrum shape of the second phoneme is calculated by performing an interpolation process using two spectrum shapes corresponding to the pitch, and the spectrum shape of the first phoneme and the spectrum shape of the second phoneme And withA spectrum shape interpolation process for calculating a spectrum shape corresponding to the input frame data; and a converted sound signal generation process for generating and outputting a converted sound signal based on the spectrum shape calculated in the spectrum shape interpolation process; It is characterized by having.
[0023]
Claim12In the configuration described in the above, an input frame data extraction process for extracting input frame data related to a frequency spectrum from an input speech signal, a feature analysis process for extracting a feature vector from the input speech signal, and a predetermined algorithm for the feature vector To determine the temporal position in the target behavior data corresponding to the input frame data by associating with the target behavior data in which the pitch of the target speech to be converted into speech and the temporal change of the phoneme are defined. Alignment process,Whether the phoneme of the target speech in the target behavior data at the temporal position determined in the alignment process is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme When it is determined that the phoneme is in a transition state in the state determination process for determining and the state determination process,Among the spectrum shapes of the target phoneme dictionary having spectrum shapes corresponding to a plurality of pitches for each phoneme, regarding the phonemes of the target speech in the target behavior data at the temporal position determined in the alignment process,Two spectral shapes corresponding to the first phoneme,Corresponds to two pitches close to the pitch obtained from the input frame datatwoInterpolate using spectrum shapes,By calculating the spectrum shape of the first phoneme, two spectrum shapes corresponding to the second phoneme and corresponding to two pitches close to the pitch obtained from the input frame data are obtained. The spectrum shape of the second phoneme is calculated by performing an interpolation process using the spectrum shape.,Using the spectrum shape of the first phoneme and the spectrum shape of the second phonemeA spectrum shape interpolation process for calculating a spectrum shape corresponding to the input frame data; and a converted sound signal generation process for generating and outputting a converted sound signal based on the spectrum shape calculated in the spectrum shape interpolation process; It is characterized by having.
[0027]
Claim13The configuration described in claim11Or claims12In the speech conversion method according to
[0028]
Claim14The configuration described in claim13In the speech conversion method described in (1), the transition function is previously defined as a linear function or a nonlinear function.
[0029]
Claim15The configuration described in claim13In the speech conversion method described in 1), the two spectrum shapes are divided into a plurality of regions on the frequency axis, and the transition function is defined for each region.
[0030]
Claim16The configuration described in claim13In the speech conversion method according to
[0032]
Claim17The configuration described in claim13In the speech conversion method according to
[0033]
Claim18The configuration described in claim17In the speech conversion method according to
[0034]
Claim19The configuration described in claim11In the voice conversion method according to
[0035]
Claim20The configuration described in claim12In the speech conversion method according to
[0037]
DETAILED DESCRIPTION OF THE INVENTION
Next, preferred embodiments of the present invention will be described with reference to the drawings.
[A] First embodiment
First, a first embodiment of the present invention will be described.
[1] Overall configuration of voice conversion device
FIG. 1 shows an example in which the speech conversion device (speech conversion method) of the embodiment is applied to a karaoke device and configured as a karaoke device capable of imitation.
The
[0038]
Also, the
[0039]
Further, the
[0040]
Here, prior to the description of the configuration of each part of the speech conversion apparatus, the SMS analysis will be described.
In SMS analysis, a speech waveform (Frame) obtained by multiplying a sampled speech waveform by a window function is extracted, and a sine wave component and a residual component are extracted from the frequency spectrum obtained by performing fast Fourier transform (FFT). To do.
In this case, the sine wave component means a component of a fundamental frequency (Pitch) and a frequency (overtone) that is a multiple of the fundamental frequency.
In the present embodiment, as a sine wave component, the fundamental frequency, the average amplitude of each component, and the spectrum envelope are held as an envelope.
The residual component is a component obtained by removing the sine wave component from the input signal, and is retained as frequency domain data in this embodiment.
Further, the frequency analysis data indicated by the obtained sine wave component and residual component is stored in units of frames. At this time, since the time interval between frames is fixed (for example, 5 ms), the time can be specified by counting the frames. Furthermore, each frame has a time stamp corresponding to the elapsed time from the beginning of the song.
[0041]
[2] Configuration of each part of the voice conversion device
[2.1] Phoneme dictionary storage for recognition
The recognition phoneme
The stored codebook is used for vector quantization of the singing signal into various feature vectors (more specifically, mel cepstrum, differential mel cepstrum, energy, differential energy, voiceness (voiced sound likelihood)). .
In addition, in this speech conversion apparatus, a hidden Markov model (HMM), which is a speech recognition method, is used to perform alignment processing, and HMM parameters (initial state distribution, state transition probability matrix, observation symbol probability matrix) Is obtained for each phoneme (/ a /, / i /, etc.).
[0042]
[2.2] Target behavior data storage unit
The target behavior
Specifically, the target singer who sang the target song sang the pitch and amplitude over time (note that these are static change components and vibrato change components) Extracting and separating them will increase the degree of freedom in post-processing) and phoneme notation with duration including the duration in the phoneme notation in which the lyrics are replaced by phoneme sequences based on the lyrics of the target song Is included.
For example, the phoneme notation with duration is different from the phoneme notation / n // a // k // i / ... for each duration, ie the duration of / n /, the duration of / a /, The duration of k /, the duration of / i /, and so on are included.
[0043]
[2.3] Target phoneme dictionary storage unit
The target phoneme dictionary storage unit stores a target phoneme dictionary that is spectrum information corresponding to each phoneme of the target singer to be imitated, and the target phoneme dictionary includes a spectrum shape corresponding to several types of pitches and Anchor point information for performing spectral interpolation is included.
Here, creation of a target phoneme dictionary as a speech conversion dictionary stored in the target phoneme
[2.3.1] Target phoneme dictionary
The target phoneme dictionary has a spectrum shape and anchor point information corresponding to several pitches for each phoneme.
FIG. 2 is an explanatory diagram of the target phoneme dictionary.
FIGS. 2B, 2C, and 2D show spectrum shapes respectively corresponding to pitches f0i + 1, f0i, and f0i-1 in a certain phoneme. (Three in the above example) Spectrum shapes are included in the target phoneme dictionary. The reason for having spectrum shapes corresponding to multiple pitches as the target phoneme dictionary is that, in general, even if the same person utters the same phoneme, the shape of the spectrum shape changes slightly according to the pitch. That's why.
2 (b), (c), and (d), the dotted line is a boundary line when dividing into a plurality of regions on the frequency axis, and the frequency at the boundary of each region is an anchor point, and anchor point information Is included in the target phoneme dictionary.
[0044]
[2.3.2] Creation of target phoneme dictionary
Next, creation of a target phoneme dictionary will be described.
First, what is continuously generated from the lowest pitch that the target singer can produce for each phoneme to the highest pitch is recorded.
More specifically, as shown in FIG. 2 (a), utterance is performed so that the pitch is increased with time.
The reason for recording in this way is to calculate a more accurate spectrum shape.
That is, the formant that actually exists does not always appear in the spectrum shape obtained by analyzing from a sample generated at a certain fixed pitch. Therefore, it is necessary to use all of the analysis results within a range that can be regarded as the same spectrum shape before and after a certain pitch in order to make the formant appear accurately in the desired spectrum shape.
[0045]
If the frequency range of the pitch that can be regarded as the same spectrum shape is the same segment, the center frequency f0i of the i-th segment is
[Expression 1]
Where fi (low), Fi (high)Is the pitch frequency of the boundary of the i-th segment of a phoneme, and fi (low)Represents the pitch frequency on the low pitch side, and fi (high)Represents the pitch frequency on the high pitch side.
All spectral shape values (frequency and magnitude pairs) at a pitch that can be regarded as the same segment are combined into one.
More specifically, for example, as shown in FIG. 3A, spectrum shapes at a pitch that can be regarded as the same segment are plotted on the same frequency axis / magnitude axis.
Next, the frequency range [0, f on the frequency axisS/ 2] is divided into equal intervals (for example, 30 [Hz]). Where fSIs the sampling frequency.
[0046]
The division width at this time is BW [Hz], the number of divisions is B (band number bε [0, B-1]), and the actual frequency and magnitude pairs included in each division range are
(Xn, yn)
Here, n = 0,..., N-1.
Then, the center frequency fb and the average magnitude Mb of the band b are respectively
[Expression 2]
Is calculated.
Obtained in this way
(Fb, Mb)
Here, b = 0,..., B-1.
Is the final spectral shape at a certain pitch.
[0047]
More specifically, when the spectrum shape is calculated using the combination of frequency and magnitude shown in FIG. 3 (a), the formant to be stored in the target phoneme dictionary as shown in FIG. 3 (c). A good spectral shape is obtained with a clear appearance of.
On the other hand, as shown in FIG. 3 (b), all values of spectrum shapes (a set of frequency and magnitude) at a pitch that cannot be regarded as the same segment are combined into one, and the combined frequency and magnitude are combined. When the spectrum shape is calculated using the set, as shown in FIG. 3D, a spectrum shape whose formant is not so clear as compared with the case of FIG. 3C is obtained.
[0048]
[2.4] Target decoder section
[2.4.1] Configuration of target decoder unit
FIG. 4 is a block diagram showing the configuration of the target decoder unit.
The
[0049]
Further, the
[0050]
Furthermore, the
[0051]
[2.4.2] Detailed operation of target decoder
Here, the detailed operation of the
In this case, in order to generate frame data more smoothly, frame data (decoded frame; target spectrum shape) to be output by the
As input information to the
[0052]
Then, the stable state / transition
If the frame to be decoded is in a stable state based on the notification from the stable state / transition
[0053]
Further, based on the notification from the stable state / transition
On the other hand, when the frame to be decoded is in the transition state based on the notification from the stable state / transition
[0054]
As a result, when the frame to be decoded is in the transition state based on the notification from the stable state / transition
[0055]
For example, when changing from phoneme / a / to phoneme / e /, the
For this reason, in the transition function generation process, the transition function is generated in consideration of the singer, the target pitch, spectrum shape, and the like, based on the phoneme and pitch.
In this case, as described later, it is also possible to configure such that these pieces of information are included in the target phoneme dictionary.
Next, the temporal
[0056]
For example, the magnitude of the fine structure of the spectrum shape is changed little by little over time.
The spectrum
Spectral tilt correction is generally performed when the output volume is high and the high frequency range is rich (rich), and when the output volume is low, the high frequency of the spectrum shape is low. In order to simulate that, the shape of the high-frequency part of the spectrum shape is changed according to the volume.
Then, the target spectrum shape SSTG obtained by correcting the spectrum tilt is stored in the
On the other hand, the target pitch /
[0057]
[2.4.3] Spectral interpolation processing
Here, the spectrum interpolation processing of the target decoder unit will be described with reference to FIG.
[2.4.3.1] Overview of spectral interpolation processing
First, when a phoneme corresponding to a frame to be decoded based on the determination result in the stable state / transition
FIGS. 5A and 5B show two spectrum shapes extracted from the target phoneme dictionary in correspondence with phonemes in a stable state or transition source phonemes, and the pitches of the two spectrum shapes. Is different.
For example, if the spectrum shape to be obtained has a pitch of 140 [Hz] and phoneme / a /, the spectrum shape of FIG. 5A corresponds to the phoneme / a / with a pitch of 100 [Hz]. The spectrum shape in FIG. 5B corresponds to a phoneme / a / with a pitch of 200 [Hz]. That is, two spectrum shapes each having the closest pitch between the front and back pitches sandwiching the pitch of the spectrum shape to be obtained, and corresponding to the same phoneme as the spectrum shape to be obtained. Use shapes.
[0058]
The obtained two spectrum shapes are interpolated by the spectrum interpolation method by the first
Further, when the phoneme corresponding to the frame to be decoded based on the determination result in the stable state / transition
FIGS. 5C and 5D show two spectrum shapes extracted from the target phoneme dictionary in correspondence with the transition destination phoneme, and the pitches of these two spectrum shapes are also shown in FIG. And the same as in the case of FIG.
Then, the obtained two spectrum shapes are interpolated by the second
Furthermore, when the phoneme corresponding to the frame to be decoded based on the determination result in the stable state / transition
[0059]
[2.4.3.2] Spectral interpolation method
Here, the method of spectrum interpolation will be described in detail.
The purpose of using spectral interpolation is roughly divided into the following two.
(1) Interpolate the spectrum shape of two temporally continuous frames, and obtain the spectrum shape of a frame between the two temporally frames.
(2) Interpolate the spectrum shape of two different sounds to obtain the spectrum shape of an intermediate sound.
As shown in FIG. 6 (a), two spectrum shapes (hereinafter referred to as a first spectrum shape SS11 and a second spectrum shape SS12 for convenience) are used as the basis of interpolation. 1 spectrum shape S1 and 2nd spectrum shape S2 are completely separate from each other.) Is divided into a plurality of regions Z1, Z2,... On the frequency axis.
And the frequency of the boundary which divides each area | region is set as follows for every spectrum shape, respectively. This set boundary frequency is called an anchor point.
First spectrum shape SS11: RB1,1, RB2,1, ..., RBN, 1
Second spectrum shape SS12: RB1,2, RB2,2, ..., RBM, 2
[0060]
FIG. 6B shows an explanatory diagram of linear spectrum interpolation.
Linear spectral interpolation is defined by the interpolation position, and the interpolation position X ranges from 0 to 1. In this case, the interpolation position X = 0 corresponds to the first spectrum shape SS11 itself, and the interpolation position X = 1 corresponds to the second spectrum shape SS12 itself.
FIG. 6B shows the case where the interpolation position X = 0.35.
In FIG. 6B, the white circles (◯) on the vertical axis indicate each of the frequency and magnitude sets that make up the spectrum shape. Therefore, it is appropriate to consider that the magnitude axis exists in the direction perpendicular to the paper surface.
An anchor point corresponding to a region Zi of interest of the first spectrum shape SS11 on the axis at the interpolation position X = 0 is
RBi, 1 and RBi + 1,1
It is assumed that either one of the specific frequency and magnitude sets belonging to the region Zi has frequency = fi1 and magnitude = S1 (fi1).
An anchor point corresponding to a certain area Zi of interest of the second spectrum shape SS12 on the axis of the interpolation position X = 1 is
RBi, 2 and RBi + 1,2
It is assumed that either one of the specific frequency and magnitude sets belonging to the region Zi has frequency = fi2 and magnitude = S2 (fi2).
Here, the spectrum transition function ftrans1 (x) and the spectrum transition function ftrans2 (x) are obtained.
[0061]
For example, if these are expressed by the simplest linear function, the following is obtained.
ftrans1 (x) = m1 · x + b1
ftrans2 (x) = m2 · x + b2
here,
m1 = RBi, 2-RBi, 1
b1 = RBi, 1
m2 = RBi + 1,2-RBi + 1,1
b2 = RBi + 1,2
It is.
Next, a set of frequency and magnitude on the interpolated spectrum shape corresponding to the set of frequency and magnitude actually existing on the first spectrum shape SS11 is obtained.
[0062]
First, a set of frequencies and magnitudes existing on the first spectrum shape SS11, specifically, frequencies fi1, frequency on the second spectrum shape corresponding to magnitude S1 (fi1) = fi1,2, magnitude = S2. (Fi1,2) is calculated as follows.
[Equation 3]
here,
W1 = RBi + 1,1-RBi, 1
W2 = RBi + 1,2-RBi, 2
It is.
In calculating magnitude = S2 (fi1,2), the frequency closest to the frequency = fi1,2 in the set of frequencies and magnitudes existing on the second spectrum shape SS12 is (+), If it is expressed with a (-) suffix,
[Expression 4]
It becomes.
[0063]
From the above, assuming that the interpolation position = x, the frequency fi1, x and the magnitude Sx (fi1, x) on the interpolated spectrum shape corresponding to the set of frequencies and magnitudes existing on the first spectrum shape SS11 are as follows: Is required.
[Equation 5]
Sx (fi1, x) = S1 (fi1) + {S2 (fi1,2) −S1 (fi1)} · Similar to all frequencies and magnitude pairs on the first spectrum shape SS11. To do.
Subsequently, a set of frequency and magnitude on the interpolated spectrum shape corresponding to the set of frequency and magnitude actually existing on the second spectrum shape SS12 is obtained.
[0064]
First, a set of frequencies and magnitudes existing on the second spectrum shape SS12, specifically, the frequency on the first spectrum shape corresponding to the frequency fi2 and the magnitude S2 (fi2) = fi1,1, and the magnitude = S1. (Fi1,1) is calculated as follows.
[Formula 6]
here,
W1 = RBi + 1,1-RBi, 1
W2 = RBi + 1,2-RBi, 2
It is.
In calculating magnitude = S1 (fi1,1 2), the frequency closest to the frequency = fi2,1 in the set of frequencies and magnitudes existing on the first spectrum shape SS11 is (+) , (-) Suffix,
[Expression 7]
It becomes.
From the above, assuming that the interpolation position = x, the frequency fi2, x and the magnitude Sx (fi2, x) on the interpolated spectrum shape corresponding to the set of frequency and magnitude actually existing on the second spectrum shape SS12 are as follows: Is required.
[Equation 8]
Sx (fi2, x) = S2 (fi2) + {S2 (fi1,2) -S1 (fi2)}. (X-1)
[0065]
Similarly, calculation is performed for all frequency and magnitude sets on the second spectrum shape SS12.
As described above, the frequency on the interpolated spectrum shape corresponding to the set of the frequency fi1 and the magnitude S1 (fi1) existing on the first spectrum shape SS11 = fi1, x, the magnitude = Sx (fi1, x), and the second By rearranging all the calculation results of the frequency fi2, x and the magnitude Sx (fi2, x) on the interpolated spectrum shape corresponding to the set of the frequency fi2 and the magnitude S2 (fi2) that exist on the spectrum shape in order of frequency. Find the interpolated spectrum shape.
These are performed for all the regions Z1, Z2,... To calculate the interpolated spectrum shape for all frequency bands.
In the above example, the spectral transition functions ftrans1 (x) and ftrans2 (x) are linear functions. However, it is defined as a nonlinear function such as a quadratic function or an exponential function, or a change corresponding to the function is prepared as a table. It is also possible to configure.
[0066]
Further, it is possible to perform spectrum interpolation closer to reality by changing the transition function according to the anchor point.
In this case, the contents of the target phoneme dictionary may be configured to include transition function information associated with the anchor point.
Furthermore, the transition function information may be set according to the phoneme of the transition destination. That is, when the transition destination phoneme is the phoneme B, the transition function Y is used, and when the transition destination phoneme is the phoneme C, the transition function Z is set. It should be built in.
Furthermore, an optimum transition function may be set in real time in consideration of the pitch and spectrum shape of the singer and the target singer.
[0067]
[3] Overall operation
Next, the overall operation of the
First, a signal input process is performed by the singing signal input unit 11, and a signal sung by the singer is input.
Subsequently, a recognition feature analysis process is performed by the recognition
The difference mel cepstrum indicates a difference value between the mel cepstrum of the previous frame and the current frame. The difference energy indicates a difference value between the signal energy of the previous frame and the current frame. The voiceness is a value obtained comprehensively from the number of zero crossings, a detection error obtained when performing pitch detection, or a value obtained by weighting comprehensively, and is a numerical value representing the likelihood of voiced sound.
[0068]
On the other hand, the
(1) Fast Fourier transform (FFT) processing
(2) Peak detection processing
(3) Voiced / unvoiced discrimination processing and pitch detection processing
(4) Peak cooperation processing
(5) Calculation processing of sine wave component attribute pitch, amplitude, spectrum shape
(6) Residual component calculation processing
Is done.
The
As a result, alignment information is obtained, and as a result, the pitch, amplitude, and phoneme to be sung by the target singer can be detected.
[0069]
During this process, if a singer sings a phoneme longer than the target singer, the singer determines that he is singing a phoneme that exceeds the duration of the phoneme notation information with duration, and loop processing Is included in the alignment information and output.
As a result, the
The morphing
[0070]
The
Examples of the process performed by the
The
When the voice of the singer corresponding to the singing signal SV is an unvoiced sound based on the voiced / unvoiced information from the
The waveform signal SWAV is output to the
[0071]
In parallel with these operations, the
The
The
[0072]
[B] Second Embodiment
Next, a second embodiment of the present invention will be described. The second embodiment is different from the first embodiment in that, in the target decoder unit of the first embodiment, the spectrum shape output to the morphing processing unit includes the target pitch and the amplification included in the target behavior data. The calculation is based on the tude, but in the second embodiment, the calculation is based on the pitch and spectrum inclination information of the singer.
Accordingly, in the SMS analysis unit of the second embodiment, in addition to the pitch amplitude and the spectrum shape, it is necessary to calculate the spectrum inclination as the sine wave component attribute, but the target decoder unit is excluded. The configuration of each part is the same as in the first embodiment.
[0073]
[1] Target decoder section
FIG. 7 shows a block diagram of the configuration of the target decoder unit of the second embodiment. In FIG. 7, the same parts as those in the first embodiment shown in FIG. 4 are denoted by the same reference numerals, and detailed description thereof is omitted.
The
[0074]
[2] Operation of the second embodiment
Since the operation of the second embodiment is generally the same as that of the first embodiment, only the operation of the main part will be described.
The temporal
The spectrum
More specifically, a spectrum tilt correction value (Tilt Correction value) that is the difference between the spectrum tilt of the singer and the spectrum tilt of the generated target spectrum shape is calculated, and the spectrum tilt correction is performed as shown in FIG. A spectral tilt correction filter having a characteristic according to the value is applied to the generated spectral shape of the target.
This makes it possible to obtain a more natural spectrum shape.
[0075]
[C] Modification of Embodiment
[1] First modification
For pitch and amplitude, if you have information that is divided into static change component and vibrato change component (having vibrato as a parameter of speed and depth) in advance, for example, the singer can target the same phoneme Even when singing for a long time, it is possible to generate a pitch and an amplitude to which an appropriate vibrato is added, so that natural sound growth can be obtained.
The reason for performing such processing is that if such processing is not performed, vibrato will not be applied in the middle if the singer extends the sound longer than the target singer, etc. If the singer changes the tempo compared to the target singer, if the singer does not have a vibrato component, the vibrato will be faster if the tempo is raised. This is because it becomes unnatural.
[0076]
[2] Second modification
In the above description, the residual component of the target singer is not considered, but when the residual component of the target singer is considered, the residual component is retained for all frames. Is not compatible with the system of the speech conversion apparatus from the viewpoint of information compression.
Therefore, representative spectral envelopes may be prepared in advance for the residual, and index information for specifying these spectral envelopes may be provided.
More specifically, a residual spectrum envelope information index is provided as target behavior data. For example, during the singing elapsed time of 0 second to 2 seconds, the spectral envelope of the residual spectral envelope information index = 1 is used to sing. A spectrum envelope with a residual spectrum envelope information index = 3 is used for an elapsed time of 2 to 3 seconds.
If an actual residual spectrum is generated from the spectrum envelope corresponding to the residual spectrum envelope information index and used in the morphing process, the residual can be morphed.
[0077]
【The invention's effect】
According to the present invention, it is possible to resemble the target singer's way of singing the target singer's voice, and to reduce the capacity of the target singer's analysis data and perform processing in real time. It becomes possible.
[Brief description of the drawings]
FIG. 1 is a schematic configuration block diagram of a speech conversion apparatus according to an embodiment.
FIG. 2 is an explanatory diagram (part 1) of a target phoneme dictionary;
FIG. 3 is an explanatory diagram (part 2) of the target phoneme dictionary;
FIG. 4 is a schematic configuration block diagram of a target decoder unit of the first embodiment.
FIG. 5 is an explanatory diagram (part 1) of spectrum interpolation processing of a target decoder unit;
FIG. 6 is an explanatory diagram (part 2) of the spectrum interpolation process of the target decoder unit;
FIG. 7 is a schematic configuration block diagram of a target decoder unit according to a second embodiment.
FIG. 8 is a characteristic explanatory diagram of a spectral tilt correction filter according to a second embodiment.
[Explanation of symbols]
DESCRIPTION OF
Claims (20)
前記入力音声信号から特徴ベクトルを抽出する特徴分析手段と、
前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理手段と、
前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別手段と、
前記状態判別手段によって前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間手段と、
前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成手段と
を備えたことを特徴とする音声変換装置。Input frame data extraction means for extracting input frame data related to a frequency spectrum from an input audio signal;
Feature analysis means for extracting a feature vector from the input speech signal;
The target corresponding to the input frame data is analyzed by analyzing the feature vector with a predetermined algorithm and associated with the target behavior data in which the pitch of the target speech to be converted into speech and the temporal change of phonemes are defined. An alignment processing means for determining a temporal position in the behavior data;
Whether the phoneme of the target speech in the target behavior data at the temporal position determined by the alignment processing means is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme State determination means for determining;
When the state determining unit determines that the phoneme is in the transition state, the alignment processing unit determines the spectrum shape of the target phoneme dictionary having the spectrum shape corresponding to a plurality of pitches for each phoneme. For the phoneme of the target speech in the target behavior data at a different temporal position, two spectrum shapes corresponding to the first phoneme, which are close to the pitch of the target speech in the target behavior data at the temporal location an interpolation process using two spectral shape to calculate the spectral shape of the first phoneme by the row Ukoto corresponding to the pitch, the time a two spectrum shapes corresponding to the second phoneme Target in the target behavior data at the target position A spectrum shape of the second phoneme is calculated by performing interpolation using two spectrum shapes corresponding to two pitches close to the pitch of the speech, and the first phoneme spectrum shape and the first phoneme spectrum shape are calculated. Spectrum shape interpolation means for calculating a spectrum shape corresponding to the input frame data using a spectrum shape of two phonemes ;
A voice conversion apparatus comprising: a converted voice signal generating means for generating and outputting a converted voice signal based on the spectrum shape calculated by the spectrum shape interpolation means.
前記入力音声信号から特徴ベクトルを抽出する特徴分析手段と、
前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理手段と、
前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別手段と、
前記状態判別手段によって前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理手段によって判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間手段と、
前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成手段と
を備えたことを特徴とする音声変換装置。Input frame data extraction means for extracting input frame data related to a frequency spectrum from an input audio signal;
Feature analysis means for extracting a feature vector from the input speech signal;
The target corresponding to the input frame data is analyzed by analyzing the feature vector with a predetermined algorithm and associated with the target behavior data in which the pitch of the target speech to be converted into speech and the temporal change of phonemes are defined. An alignment processing means for determining a temporal position in the behavior data;
Whether the phoneme of the target speech in the target behavior data at the temporal position determined by the alignment processing means is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme State determination means for determining;
When the state determining unit determines that the phoneme is in the transition state, the alignment processing unit determines the spectrum shape of the target phoneme dictionary having the spectrum shape corresponding to a plurality of pitches for each phoneme. said the phonemes of the target speech in the target behavior data of temporal position, two corresponding to two pitches near the pitch obtained from the input frame data to a two spectrum shapes corresponding to the first phoneme calculating a spectrum shape of the first phoneme interpolation processing by row Ukoto using spectral-shape, the second of the two spectral shape in a by pitch obtained from the input frame data corresponding to the phoneme Two spectra corresponding to two pitches close to Calculating a spectrum shape of the second phoneme by performing interpolation processing using Eipu, the input frame data by using the spectral shape of said spectrum-shape of the first phoneme second phoneme Spectrum shape interpolation means for calculating a spectrum shape corresponding to
A voice conversion apparatus comprising: a converted voice signal generating means for generating and outputting a converted voice signal based on the spectrum shape calculated by the spectrum shape interpolation means.
前記スペクトル・シェイプ補間手段は、二つのスペクトル・シェイプを用いて補間を行うに際し、前記二つのスペクトル・シェイプ間における遷移関数を用いて補間処理を行う
ことを特徴とする音声変換装置。In the voice converter according to claim 1 or 2,
The speech conversion apparatus, wherein the spectrum shape interpolation means performs an interpolation process using a transition function between the two spectrum shapes when performing the interpolation using the two spectrum shapes.
前記遷移関数は、線形関数あるいは非線形関数として予め定義されている
ことを特徴とする音声変換装置。The voice conversion device according to claim 3 ,
The transition function is defined in advance as a linear function or a nonlinear function.
前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換装置。The voice conversion device according to claim 3 ,
The speech conversion apparatus, wherein the two spectrum shapes are divided into a plurality of regions on the frequency axis, and the transition function is defined for each region.
前記スペクトル・シェイプ補間手段は、前記第2の音素に対応させて前記遷移関数を定める
ことを特徴とする音声変換装置。The voice conversion device according to claim 3 ,
The spectrum conversion means defines the transition function in correspondence with the second phoneme.
前記スペクトル・シェイプ補間手段は、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域に属する前記二つのスペクトル・シェイプ上の実在の周波数およびマグニチュードの組に対し、前記遷移関数としての線形関数を用いた補間処理を前記複数の領域にわたって行う
ことを特徴とする音声変換装置。The voice conversion device according to claim 3 ,
The spectrum shape interpolating means divides the two spectrum shapes into a plurality of regions on the frequency axis, and performs the transition with respect to a set of real frequencies and magnitudes on the two spectrum shapes belonging to each region. An audio conversion device, wherein interpolation processing using a linear function as a function is performed over the plurality of regions.
前記スペクトル・シェイプ補間手段は、
前記各領域に属する一方のスペクトル・シェイプの周波数である第1周波数及び当該第1周波数に対応する他方のスペクトル・シェイプの周波数である第2周波数を前記線形関数を用いて補間することにより補間周波数を算出する周波数補間手段と、
前記各領域に属する一方のスペクトル・シェイプのマグニチュードである第1マグニチュードおよび当該第1マグニチュードに対応する他方のスペクトル・シェイプのマグニチュードである第2マグニチュードを前記線形関数を用いて補間するマグニチュード補間手段と
を備えた
ことを特徴とする音声変換装置。The voice conversion device according to claim 7 ,
The spectrum shape interpolation means includes:
An interpolation frequency is obtained by interpolating, using the linear function, a first frequency that is a frequency of one spectrum shape belonging to each region and a second frequency that is the frequency of the other spectrum shape corresponding to the first frequency. Frequency interpolation means for calculating
Magnitude interpolation means for interpolating, using the linear function, a first magnitude that is a magnitude of one of the spectrum shapes belonging to each region and a second magnitude that is the magnitude of the other spectrum shape corresponding to the first magnitude; An audio conversion device characterized by comprising:
前記ターゲット挙動データには、さらにターゲット音声のアンプリチュードの時間的変化が規定され、
前記アライメント処理手段によって判別された前記ターゲット挙動データにおける時間的位置のアンプリチュードに応じて、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正手段
を備え、
前記変換音声信号生成手段は、前記スペクトル傾き補正手段によってスペクトルの傾きが補正されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する
ことを特徴とする音声変換装置。The voice conversion device according to claim 1,
The target behavior data further defines a temporal change in the amplitude of the target sound,
Spectral inclination correction means for correcting the spectral inclination of the spectral shape calculated by the spectral shape interpolation means according to the amplitude of the temporal position in the target behavior data determined by the alignment processing means,
The converted voice signal generating unit generates and outputs a converted voice signal based on the spectrum shape whose spectrum tilt is corrected by the spectrum tilt correcting unit.
前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きと、前記入力フレームデータから得られるスペクトル・シェイプのスペクトル傾きとの比較結果に応じて、前記スペクトル・シェイプ補間手段によって算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正手段
を備えた
ことを特徴とする音声変換装置。The voice conversion device according to claim 2,
The spectrum calculated by the spectrum shape interpolation means according to the comparison result between the spectrum inclination of the spectrum shape calculated by the spectrum shape interpolation means and the spectrum inclination of the spectrum shape obtained from the input frame data. A speech conversion device comprising spectral tilt correction means for correcting the spectral tilt of the shape.
前記入力音声信号から特徴ベクトルを抽出する特徴分析過程と、
前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理過程と、
前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別過程と、
前記状態判別過程において前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって当該時間的位置の前記ターゲット挙動データにおけるターゲット音声のピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間過程と、
前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成過程と
を備えたことを特徴とする音声変換方法。An input frame data extraction process for extracting input frame data related to the frequency spectrum from the input speech signal;
A feature analysis process for extracting a feature vector from the input speech signal;
The target corresponding to the input frame data is analyzed by analyzing the feature vector with a predetermined algorithm and associated with the target behavior data in which the pitch of the target speech to be converted into speech and the temporal change of phonemes are defined. An alignment process for determining temporal positions in behavior data;
Whether the phoneme of the target speech in the target behavior data at the temporal position determined in the alignment process is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme A state determination process for determining,
When it is determined that the phoneme is in a transition state in the state determination process, among the spectrum shapes of the target phoneme dictionary having a spectrum shape corresponding to a plurality of pitches for each phoneme, it is determined in the alignment process. For the phoneme of the target speech in the target behavior data at a different temporal position, two spectrum shapes corresponding to the first phoneme, which are close to the pitch of the target speech in the target behavior data at the temporal location an interpolation process using two spectral shape to calculate the spectral shape of the first phoneme by the row Ukoto corresponding to the pitch, the time a two spectrum shapes corresponding to the second phoneme Target in the target behavior data at the target position A spectrum shape of the second phoneme is calculated by performing interpolation using two spectrum shapes corresponding to two pitches close to the pitch of the speech, and the first phoneme spectrum shape and the first phoneme spectrum shape are calculated. A spectral shape interpolation process for calculating a spectral shape corresponding to the input frame data using a spectral shape of two phonemes ;
A voice conversion method comprising: a converted voice signal generation process for generating and outputting a converted voice signal based on the spectrum shape calculated in the spectrum shape interpolation process.
前記入力音声信号から特徴ベクトルを抽出する特徴分析過程と、
前記特徴ベクトルを予め決められたアルゴリズムにより解析して、音声変換対象となるターゲット音声のピッチおよび音素の時間的変化が規定されたターゲット挙動データと対応付けて、前記入力フレームデータに対応する前記ターゲット挙動データにおける時間的位置を判別するアライメント処理過程と、
前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素が安定状態、あるいは、第1の音素から第2の音素に遷移する途中である遷移状態のいずれにあるかを判別する状態判別過程と、
前記状態判別過程において前記音素が遷移状態にあると判別された場合に、音素毎に複数のピッチに対応したスペクトル・シェイプを有するターゲット音素辞書のスペクトル・シェイプのうち、前記アライメント処理過程において判別された時間的位置の前記ターゲット挙動データにおけるターゲット音声の音素について、前記第1の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行い、うことによって前記第1の音素のスペクトル・シェイプを算出し、前記第2の音素に対応する二つのスペクトル・シェイプであって前記入力フレームデータから得られるピッチに近い二つのピッチに対応する二つのスペクトル・シェイプを用いて補間処理を行うことによって前記第2の音素のスペクトル・シェイプを算出し、前記第1の音素のスペクトル・シェイプと前記第2の音素のスペクトル・シェイプとを用いて前記入力フレームデータに対応するスペクトル・シェイプを算出するスペクトル・シェイプ補間過程と、
前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する変換音声信号生成過程と
を備えたことを特徴とする音声変換方法。An input frame data extraction process for extracting input frame data related to the frequency spectrum from the input speech signal;
A feature analysis process for extracting a feature vector from the input speech signal;
The target corresponding to the input frame data is analyzed by analyzing the feature vector with a predetermined algorithm and associated with the target behavior data in which the pitch of the target speech to be converted into speech and the temporal change of phonemes are defined. An alignment process for determining temporal positions in behavior data;
Whether the phoneme of the target speech in the target behavior data at the temporal position determined in the alignment process is in a stable state or a transition state in the middle of transition from the first phoneme to the second phoneme A state determination process for determining,
When it is determined that the phoneme is in a transition state in the state determination process, among the spectrum shapes of the target phoneme dictionary having a spectrum shape corresponding to a plurality of pitches for each phoneme, it is determined in the alignment process. said the phonemes of the target speech in the target behavior data of temporal position, two corresponding to two pitches near the pitch obtained from the input frame data to a two spectrum shapes corresponding to the first phoneme A spectrum shape of the first phoneme is calculated by performing an interpolation process using a spectrum shape, and two spectrum shapes corresponding to the second phoneme are obtained from the input frame data. Two spectra corresponding to two pitches close to the pitch Shape was used to calculate the spectral shape of the second phoneme by performing an interpolation process, the input frame using the spectral shape of said first spectral shape of the phonemes second phoneme A spectral shape interpolation process for calculating a spectral shape corresponding to the data;
A voice conversion method comprising: a converted voice signal generation process for generating and outputting a converted voice signal based on the spectrum shape calculated in the spectrum shape interpolation process.
前記スペクトル・シェイプ補間過程は、二つのスペクトル・シェイプを用いて補間を行うに際し、前記二つのスペクトル・シェイプ間における遷移関数を用いて補間処理を行う
ことを特徴とする音声変換方法。The speech conversion method according to claim 11 or 12 ,
The speech conversion method, wherein the spectrum shape interpolation process performs an interpolation process using a transition function between the two spectrum shapes when performing the interpolation using the two spectrum shapes.
前記遷移関数は、線形関数あるいは非線形関数として予め定義されている
ことを特徴とする音声変換方法。The voice conversion method according to claim 13 .
The speech conversion method, wherein the transition function is previously defined as a linear function or a nonlinear function.
前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換方法。The voice conversion method according to claim 13 .
The speech conversion method, wherein the two spectrum shapes are divided into a plurality of regions on the frequency axis, and the transition function is defined for each region.
前記スペクトル・シェイプ補間過程は、前記第2の音素に対応させて前記遷移関数を定める
ことを特徴とする音声変換方法。The voice conversion method according to claim 13 .
The speech conversion method, wherein the spectrum shape interpolation step determines the transition function in correspondence with the second phoneme.
前記スペクトル・シェイプ補間過程は、前記二つのスペクトル・シェイプを周波数軸上でそれぞれ複数の領域に分け、各領域に属する前記二つのスペクトル・シェイプ上の実在の周波数およびマグニチュードの組に対し、前記遷移関数としての線形関数を用いた補間処理を前記複数の領域にわたって行う
ことを特徴とする音声変換方法。The voice conversion method according to claim 13 .
In the spectral shape interpolation process, the two spectral shapes are divided into a plurality of regions on the frequency axis, and the transitions for the real frequency and magnitude pairs on the two spectral shapes belonging to each region are performed. An audio conversion method, wherein interpolation processing using a linear function as a function is performed over the plurality of regions.
前記スペクトル・シェイプ補間過程は、
前記各領域に属する一方のスペクトル・シェイプの周波数である第1周波数及び当該第1周波数に対応する他方のスペクトル・シェイプの周波数である第2周波数を前記線形関数を用いて補間することにより補間周波数を算出する周波数補間過程と、
前記各領域に属する一方のスペクトル・シェイプのマグニチュードである第1マグニチュードおよび当該第1マグニチュードに対応する他方のスペクトル・シェイプのマグニチュードである第2マグニチュードを前記線形関数を用いて補間するマグニチュード補間過程と
を備えた
ことを特徴とする音声変換方法。The speech conversion method according to claim 17 ,
The spectral shape interpolation process is:
An interpolation frequency is obtained by interpolating, using the linear function, a first frequency that is a frequency of one spectrum shape belonging to each region and a second frequency that is the frequency of the other spectrum shape corresponding to the first frequency. Frequency interpolation process to calculate
A magnitude interpolation process of interpolating, using the linear function, a first magnitude that is a magnitude of one of the spectrum shapes belonging to each region and a second magnitude that is the magnitude of the other spectrum shape corresponding to the first magnitude; A speech conversion method characterized by comprising:
前記ターゲット挙動データには、さらにターゲット音声のアンプリチュードの時間的変化が規定され、
前記アライメント処理過程において判別された前記ターゲット挙動データにおける時間的位置のアンプリチュードに応じて、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正過程
を備え、
前記変換音声信号生成過程は、前記スペクトル傾き補正過程においてスペクトルの傾きが補正されたスペクトル・シェイプに基づいて変換音声信号を生成し出力する
ことを特徴とする音声変換方法。The speech conversion method according to claim 11 ,
The target behavior data further defines a temporal change in the amplitude of the target sound,
A spectral tilt correction process for correcting the spectral tilt of the spectral shape calculated in the spectral shape interpolation process according to the amplitude of the temporal position in the target behavior data determined in the alignment process;
The converted voice signal generating step generates and outputs a converted voice signal based on the spectrum shape whose spectrum tilt is corrected in the spectrum tilt correcting step.
前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きと、前記入力フレームデータから得られるスペクトル・シェイプのスペクトル傾きとの比較結果に応じて、前記スペクトル・シェイプ補間過程において算出されたスペクトル・シェイプのスペクトル傾きを補正するスペクトル傾き補正過程
を備えた
ことを特徴とする音声変換方法。The speech conversion method according to claim 12 ,
The spectrum calculated in the spectrum shape interpolation process according to the comparison result of the spectrum inclination of the spectrum shape calculated in the spectrum shape interpolation process and the spectrum inclination of the spectrum shape obtained from the input frame data. A speech conversion method characterized by comprising a spectral tilt correction process for correcting the spectral tilt of the shape.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30026899A JP4430174B2 (en) | 1999-10-21 | 1999-10-21 | Voice conversion device and voice conversion method |
US09/693,144 US6836761B1 (en) | 1999-10-21 | 2000-10-20 | Voice converter for assimilation by frame synthesis with temporal alignment |
US10/951,328 US7464034B2 (en) | 1999-10-21 | 2004-09-27 | Voice converter for assimilation by frame synthesis with temporal alignment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30026899A JP4430174B2 (en) | 1999-10-21 | 1999-10-21 | Voice conversion device and voice conversion method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001117597A JP2001117597A (en) | 2001-04-27 |
JP4430174B2 true JP4430174B2 (en) | 2010-03-10 |
Family
ID=17882754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30026899A Expired - Fee Related JP4430174B2 (en) | 1999-10-21 | 1999-10-21 | Voice conversion device and voice conversion method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4430174B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3895758B2 (en) | 2004-01-27 | 2007-03-22 | 松下電器産業株式会社 | Speech synthesizer |
JP5125958B2 (en) * | 2008-09-30 | 2013-01-23 | ブラザー工業株式会社 | Range identification system, program |
JP5131220B2 (en) * | 2009-02-12 | 2013-01-30 | ブラザー工業株式会社 | Singing pitch difference identification device and program |
JP4705203B2 (en) * | 2009-07-06 | 2011-06-22 | パナソニック株式会社 | Voice quality conversion device, pitch conversion device, and voice quality conversion method |
CN113362856A (en) * | 2021-06-21 | 2021-09-07 | 国网上海市电力公司 | Sound fault detection method and device applied to power Internet of things |
-
1999
- 1999-10-21 JP JP30026899A patent/JP4430174B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001117597A (en) | 2001-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7464034B2 (en) | Voice converter for assimilation by frame synthesis with temporal alignment | |
US8338687B2 (en) | Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method | |
JP5024711B2 (en) | Singing voice synthesis parameter data estimation system | |
US8423367B2 (en) | Apparatus and method for creating singing synthesizing database, and pitch curve generation apparatus and method | |
Bonada et al. | Synthesis of the singing voice by performance sampling and spectral models | |
US9009052B2 (en) | System and method for singing synthesis capable of reflecting voice timbre changes | |
EP1849154B1 (en) | Methods and apparatus for use in sound modification | |
Cano et al. | Voice Morphing System for Impersonating in Karaoke Applications. | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
JP4265501B2 (en) | Speech synthesis apparatus and program | |
JP2002202790A (en) | Singing synthesizer | |
JP2003255974A (en) | Singing synthesis device, method and program | |
JP4430174B2 (en) | Voice conversion device and voice conversion method | |
JP5334142B2 (en) | Method and system for estimating mixing ratio in mixed sound signal and method for phoneme recognition | |
JP4364977B2 (en) | Voice conversion apparatus and method | |
Bonada et al. | Spectral approach to the modeling of the singing voice | |
JP5573529B2 (en) | Voice processing apparatus and program | |
US11183169B1 (en) | Enhanced virtual singers generation by incorporating singing dynamics to personalized text-to-speech-to-singing | |
JP6191094B2 (en) | Speech segment extractor | |
TWI302296B (en) | ||
JP3540609B2 (en) | Voice conversion device and voice conversion method | |
JP3967571B2 (en) | Sound source waveform generation device, speech synthesizer, sound source waveform generation method and program | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
JPH11161297A (en) | Method and device for voice synthesizer | |
Bonada et al. | Improvements to a sample-concatenation based singing voice synthesizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090522 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091215 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091217 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131225 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |