JP3706249B2 - 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 - Google Patents
音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3706249B2 JP3706249B2 JP16904598A JP16904598A JP3706249B2 JP 3706249 B2 JP3706249 B2 JP 3706249B2 JP 16904598 A JP16904598 A JP 16904598A JP 16904598 A JP16904598 A JP 16904598A JP 3706249 B2 JP3706249 B2 JP 3706249B2
- Authority
- JP
- Japan
- Prior art keywords
- new
- spectral shape
- frequency
- sine wave
- amplifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
【発明の属する技術分野】
この発明は、特にカラオケ装置に用いて好適な、音声のピッチや声質を変換する音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
従来より、音声信号の属性を変換することによって、音高や声質を変換する音声変換技術が提案されている。ここで、図18はピッチ変換の一つの手法を示す図であり、図19はピッチ変換の他の手法を示す図である。
【0003】
図18に示すように、第1の手法では、入力信号の波形をリサンプリングすることによって、波形を圧縮あるいは伸長してピッチ変換を行う。この手法によれば、波形を圧縮すれば基本周波数が高くなるのでピッチが上がり、波形を伸長すれば基本周波数が低くなるのでピッチが下がる。
一方、図19に示すように、第2の手法によれば、入力信号の波形を周期的に抽出して、それを所望のピッチ間隔で再構成する。この手法によれば、入力信号の周波数特性を変化させることなくピッチ変換を行うことができる。
【発明が解決しようとする課題】
しかしながら、男声(女声)を女声(男声)に変換する場合は、上記の手法では不十分であった。
例えば、男声を女声にする場合は、女声のピッチは男声のピッチに比べて高いので、図18に示す手法のようにサンプリングした信号を圧縮してピッチを高くする必要がある。しかしながら、入力信号の周波数特性(フォルマント)も変化してしまうので、ピッチは変換されるものの声質も変化して、女性らしい自然な声質にはならなかった。
また、図19に示す手法ようにピッチのみを変換した場合は、声質は男性のままであるので、女性らしい自然な声質にはならなかった。
【0004】
そこで、男女声質変換の手法として、上述した二つの手法を組み合わせた技術、すなわち、ピッチを2倍にするとともに、抽出した1周期の波形をいくぶん圧縮することによって声質も女性らしくするという技術も提案されている。しかし、やはり所望する自然な声質になるような音声変換を行うことは困難であった。
また、このような従来の技術は、すべて時間軸上の処理によって音声変換を行っていたので、入力音声信号の波形を変換することしかできず、処理の自由度が低く、自然に声質やピッチを変換することが困難であった。
【0005】
本発明は、上述した課題を解決するためになされたものであり、自由度が高く、より自然に声質やピッチを変換できる音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
上述した課題を解決するために、請求項1に記載の発明は、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段と、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段と、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段と、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段とを備え、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
【0007】
また、請求項2に記載の発明は、請求項1に記載の構成において、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプの傾きを変更することにより新規スペクトラル・シェイプを生成することを特徴とする。
また、請求項3に記載の発明は、請求項2に記載の構成において、前記出力ピッチの周波数を周期的に変化させるように制御する出力ピッチ制御手段をさらに備えることを特徴とする。
【0008】
また、請求項4に記載の発明は、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成段階と、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成段階と、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成段階と、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成段階とを備え、前記新規スペクトラル・シェイプ生成段階は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成段階は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
また、請求項5に記載の発明は、コンピュータを、入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段、前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段、前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段、および、生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段として機能させるための音声変換プログラムを記録した記録媒体であって、前記新規スペクトラル・シェイプ生成手段は、予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、前記新規正弦波成分生成手段は、予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出することを特徴とする。
【0012】
【発明の実施の形態】
以下、図面を参照しながら本発明の実施の形態について説明する。
【0013】
1.実施形態の構成
1−1.実施形態の概略構成
まず、図1に示す機能ブロック図を参照して、本実施形態の概略構成について説明する。なお、本実施形態は、本発明にかかる音質変換装置(音声変換方法)を適用したカラオケ装置であり、歌唱者(me)の音声を音声変換部100において変換した後の音声と、楽音生成部200において生成した伴奏となる楽音とをミキサ300において合成して、出力部400から出力するよう構成されている。各部の詳細な構成は図10および図11に示すが、まず、本実施形態の基本原理について説明した後、図10に示した詳細構成に基づいて実施形態の動作について説明する。
【0014】
1−2.実施形態の基本原理
(1)基本原理の概略
本実施形態では、音声信号の属性としての正弦波成分を変換する処理を行うことによって、ピッチや声質を変換する。
正弦波成分とは、入力音声信号Svを構成する波形成分うちの正弦波の要素を示すデータ、すなわち、FFT変換後の入力音声信号Svにおいて検出されたローカルピーク値により求まるデータであり、周波数(Frequency)およびアンプ(Amplitude)によって示される。なお、ローカルピーク値については後に詳述する。
すなわち、本実施形態は、最も低い周波数である基本周波数(f0)および、基本周波数のほぼ整数倍の周波数(f1、f2、……fn:以下、周波数成分という)を有する正弦波を含んで構成されているという有声音の特徴を利用しており、各正弦波成分の周波数およびアンプを変換すれば、ピッチおよび周波数特性の変換を周波数軸上で行うことができる。
ここで、このような周波数軸上で処理を行うためには、公知のスペクトル・モデリング・合成(SMS:Spectral Modeling Synthesis)技術を用いる。なお、SMS技術については、米国特許5,029,509号などに詳しく示されているので、ここでは簡単に説明するものとする。
【0015】
本実施形態では、まず歌唱者(me)の音声(入力音声信号)SvをリアルタイムでFFT(Fast Fourie Transform)を含むSMS(Spectral Modeling Synthesis)分析を行い、フレーム単位で正弦波成分(Sine成分)を抽出する。ここでフレームとは、入力音声信号を時間窓と言われる一連の時間フレームによって切り出したものである。
【0016】
ここで、図2は、あるフレームにおける入力音声信号Svの正弦波成分を示す図である。図2を参照すると、入力音声信号Svからは、正弦波成分として(f0、a0)、(f1、a1)、(f2、a2)、……、(fn、an)が抽出されたことがわかる。
そして、本実施形態では、歌唱者(me)の音声信号Svの属性(Attribute)データとして、正弦波成分から算出される、音の高さを示す「ピッチ(Pitch)」、音の強さを示す「平均アンプ」(Amplitude)、及び周波数特性(声質)を示す「スペクトラル・シェイプ」(Spectral Shape)を用いる。
【0017】
ここで、ピッチは音声の基本周波数f0であり、歌唱者(me)のピッチを示すデータをPmeとする。また、平均アンプは、全正弦波成分のアンプ(a1、a2、……an)の平均値であり、歌唱者(me)の平均アンプを示すデータをAmeとする。また、スペクトラル・シェイプは、各正弦波成分の周波数fn及び、正規化アンプa’nにより得られる成分(fn、a’n)をブレークポイントとするエンベロープ(包絡線)であり、歌唱者(me)のスペクトラル・シェイプを示す関数をSme(f)とする。なお、正規化アンプa’nは、正弦波成分のアンプanを平均アンプAmeで割った数値である。
【0018】
ここで、図3は、図2に示す正弦波成分に基づいて生成された、歌唱者(me)のスペクトラル・シェイプSme(f)を示す図である。本実施形態では、図に示された折れ線(Sme(f))が歌唱者(me)の声質を示しているものとして扱う。
【0019】
さて、本実施形態では、ピッチを変換するとともに、歌唱者(me)のスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って新規スペクトラル・シェイプを生成することによって、入力音声信号の特性を変換することを特徴としている。すなわち、正弦波成分の各周波数を周波数軸方向にシフトすれば音高が変化する。また、周波数特性を示すスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って新規スペクトラル・シェイプを生成し、新規スペクトラル・シェイプに基づいて正弦波成分を変換すれば声質が変化する。
具体的には、図4および図5に示すように、生成したスペクトラル・シェイプに合わせて、各正弦波成分の周波数およびアンプを変換し、シフト後のピッチに応じた正弦波成分を求めて、音声変換後の新規正弦波成分とする。
シフト後のピッチ、すなわち音声変換処理が行われて新規音声信号として出力される音声信号のピッチ(出力ピッチ)は、例えば、男声から女声に変換する場合は歌唱者(me)のピッチを2倍に、女声から男声に変換する場合は歌唱者(me)のピッチを半分(1/2倍)にすることなどによって算出される。
【0020】
ここで、図4に示すf”0は出力ピッチに対応する周波数であり、f”1〜f”4は基本周波数f”0の倍音に相当する周波数である。
また、Snew(f)は、生成された新規スペクトラル・シェイプを示す関数であり、周波数(f)によって正規化アンプが特定される。従って、図示するように、周波数f”0とする正弦波成分の正規化アンプはSnew(f”0)となることがわかる。同様に各正弦波成分について正規化アンプを求め、変換後の平均アンプAnewを掛け合わせれば、図5に示すように、各正弦波成分の周波数f”nおよびアンプa”nが求められる。
【0021】
このように、歌唱者(me)の音声信号Svから抽出された正弦波成分に基づいて生成されたスペクトラル・シェイプのブレークポイントとなる周波数あるいはアンプの少なくともいずれか一方の変換処理を行って生成された新規スペクトラル・シェイプに基づいて、歌唱者(me)の正弦波成分(周波数、アンプ)を変換する。そして、この変換処理を行うことによって、入力楽音信号Svのピッチおよび声質が変換されて出力されることとなる。
【0022】
ところで、本実施形態におけるスペクトラル・シェイプの変換の方法としては、一つにスペクトラル・シェイプの形を維持したまま周波数軸方向にシフトする「スペクトラル・シェイプのシフト」があり、もう一つにスペクトラル・シェイプの傾き(ティルト)を制御する「スペクトラルティルトの制御」の2種類がある。
以下、スペクトラル・シェイプのシフトおよびスペクトラルティルトの制御の概念について説明した後、実施形態の動作を具体的に説明する。
【0023】
(2)スペクトラル・シェイプのシフトについて
図6および図7は、スペクトラル・シェイプのシフトの概念を説明する図である。まず、図6は、スペクトラル・シェイプを示す図であり、図中、縦軸はゲインを示しており、横軸は周波数を示している。
また、図中Sme(f)は、歌唱者(me)の入力音声信号Svに基づいて生成されたスペクトラル・シェイプを示しており、Snew(f)は、シフト後の新規スペクトラル・シェイプを示している。なお、図6の例では、入力された男性の声質を女性の声質に変換する場合を示している。
一般的に、女声は男声と比較して基本周波数f0(ピッチ)が高いという特徴がある。また、周波数軸上でみた場合にも、女声は男声と比較すると高周波領域に正弦波成分が分布しているという特徴がある。
そこで、歌唱者(me)のピッチを上げる(2倍にする)とともに、歌唱者(me)のスペクトラル・シェイプを高周波方向にシフトした新規スペクトラル・シェイプを生成して適用すれば、歌唱者(me)の音韻を維持したまま女性らしい声質に変換できる。逆に女声から男声に変換する場合は、歌唱者(me)のピッチを下げる(2分の1倍にする)とともに、スペクトラル・シェイプを低周波方向にシフトすれば、歌唱者(me)の音韻を維持したまま男性らしい声質に変換できる。
【0024】
次に、図中ΔSSはスペクトラル・シェイプのシフト量を示しており、このシフト量は、図7に示す変化関数によって決定する。ここで図7は、スペクトラル・シェイプのシフト量を示す図であり、図中、横軸はピッチを示しており、縦軸はスペクトラル・シェイプのシフト量(周波数)を示している。また、図中Tss(P)は、出力ピッチに応じてスペクトラル・シェイプのシフト量を決定する変化関数である。
すなわち、本実施形態では、出力ピッチおよび変化関数Tss(P)に基づいてスペクトラル・シェイプのシフト量を決定し、新規スペクトラル・シェイプを生成する。
【0025】
例えば、図6および図7に例示したように、出力ピッチをPnewとした場合は、出力ピッチPnewおよび変化関数Tss(P)に基づいてスペクトラル・シェイプのシフト量ΔSSが求められる(図7参照)。そして、歌唱者(me)の音声信号Svに基づいて生成されたスペクトラル・シェイプSme(f)を、周波数軸上のシフト量がΔSSとなるように変換して新規スペクトラル・シェイプSnew(f)を生成する。
【0026】
このように、スペクトラル・シェイプの形状を維持したまま、周波数軸上でシフトさせるという変換を行うので、ピッチをシフトした場合でも本人の音韻を維持することができる。
また、変化関数Tss(P)を用いてスペクトラル・シェイプのシフト量を決定するので、スペクトラル・シェイプの微妙なシフト量を出力ピッチに応じて容易に制御することができ、より自然な女性らしい(男性らしい)出力を得ることができる。
【0027】
(3)スペクトラルティルトの制御について
次に、図8および図9は、スペクトラルティルトの制御の概念を示す図である。
まず、図8は、スペクトラル・シェイプを示す図であり、図中、縦軸はゲインを示しており、横軸は周波数を示している。
図中Sme(f)は、歌唱者(me)の入力音声信号Svに基づいて生成されたスペクトラル・シェイプを示しており、STmeはSme(f)のスペクトラルティルトを示している。
ここで、スペクトラルティルトとは、正弦波成分のアンプをおおむね近似することができる傾きの直線であり、詳細には、特開平7−325583に説明されている。
【0028】
図8を参照すると、Snew(f)のティルトSTnewは、Sme(f)のティルトSTmeよりも傾きが大きいことがわかる。これは、一般的に、女声は男声と比較して基本周波数に対する倍音エネルギーの減衰が速いという特徴を利用したものである。
すなわち、スペクトラル・シェイプの変換としては、男声から女声に変換する場合は、傾きが大きくなるようにスペクトラルティルトの傾きを変更する制御を行えばよい(Snew(f)参照)。
【0029】
また、スペクトラル・シェイプのシフト量を、変化関数を用いて出力ピッチに応じて決定したように(図6参照)、スペクトラルティルトの制御量も、図9に示す変化関数Tst(P)を用いて出力ピッチに応じて決定する。
ここで図9は、スペクトラルティルトの制御量を示す図であり、図中、縦軸はスペクトラルティルトの制御量(傾きの変化量)を示しており、横軸はピッチを示している。また、図中Tst(P)は、出力ピッチに応じてスペクトラルティルトの制御量を決定する変化関数である。
【0030】
例えば、出力ピッチをPnewとした場合は、出力ピッチPnewおよび変化関数Tst(P)に基づいて傾きの変化量ΔSTが求められる(図9参照)。
次に、歌唱者(me)の入力音声信号Svに基づいて生成されたスペクトラル・シェイプSme(f)のスペクトラルティルトSTmeの傾きを、ΔSTだけ変更した新規スペクトラルティルトSTnewを求める。
そして、傾きが新規スペクトラルティルトSTnewとなるような新規スペクトラル・シェイプSnew(f)を生成する(図8参照)。
【0031】
このように、出力ピッチに応じてスペクトラルティルトの制御量を決定して、スペクトラル・シェイプを変換するので、より自然に音声変換を行うことができる。
【0032】
2.実施形態の詳細構成および動作
次に、図10および図11を参照して、上述した実施形態の構成および動作の詳細について説明する。
【0033】
2−1.音声変換部100
(1)音声変換部100の概略動作
まず、音声変換部100について説明するが、まず理解を容易にするために、図12に示すフローチャートを参照して音声変換部100の概略動作を説明する。
まず、音声変換をしようとする歌唱者(me)の入力音声信号Svをフレーム単位で切り出し(S101)、リアルタイムでFFTを行う(S102)。
そして、FFTの結果に基づいて入力音声信号が無声音(含む無音)か否かを判別し(S103)、無声音である場合には(S103;YES)、以下のステップS104〜ステップS109の処理は行わず、入力音声信号Svをそのまま出力することとなる。
【0034】
一方、ステップS103の判別において、無声音ではないと判別した場合は(S103;NO)、FSvに基づいてSMS分析を行い、フレーム単位で正弦波成分を抽出し(S104)、次に、入力音声信号Sv及び正弦波成分からフレーム単位で残差成分を生成する(S105)。この場合において、SMS分析としては、前回のフレームにおけるピッチに応じて分析窓幅を変更するピッチ同期分析を採用している。
次に、ステップS104において抽出した正弦波成分に基づいて生成したスペクトラル・シェイプを変換し(S106)、変換したスペクトラル・シェイプに基づいて正弦波成分を変換する(S107)。
そして、変換した正弦波成分と、ステップS105において抽出した残差成分とを加算し(S108)、逆FFTを行って(S109)、変換音声信号を出力する(S110)。
変換音声信号を出力した後は、処理をステップS101に移行させ、次のフレームの音声信号Svを入力する。
このように、ステップS101〜ステップS110の処理を循環する過程において得られる新規音声信号によれば、歌唱者(me)の歌声があたかも別の歌唱者が歌った歌声のようになる。
【0035】
(2)音声変換部100の構成および動作の詳細
次に、図10および図11を参照して、音声変換部100の構成および動作の詳細について説明する。
図10において、マイク1は、音声変換をしようとする歌唱者(me)の声を収集し、入力音声信号Svとして入力音声信号切出部3に出力する。
これと並行して、分析窓生成部2は、前回のフレームで検出したピッチの周期の固定倍(例えば、3.5倍など)の周期を有する分析窓(例えば、ハミング窓)AWを生成し、入力音声信号切出部3に出力する。なお、初期状態あるいは前回のフレームが無声音(含む無音)の場合には、予め設定した固定周期の分析窓を分析窓AWとして入力音声信号切出部3に出力する。
【0036】
これらにより入力音声信号切出部3は、入力された分析窓AWと入力音声信号Svとを掛け合わせ、入力音声信号Svをフレーム単位で切り出す。そして、切り出された信号は、フレーム音声信号FSvとして高速フーリエ変換部4に出力される。
より具体的には、入力音声信号Svとフレームとの関係は、図13に示すようになっており、各フレームFLは、前のフレームFLと一部重なるように設定されている。
【0037】
次に、図10の高速フーリエ変換部4において、供給されたフレーム音声信号FSvの解析処理が行われ、周波数スペクトルがピーク検出部5に出力される。そしてピーク検出部5は、周波数スペクトルからローカルピークを検出する。
より具体的には、図14に示すような周波数スペクトルに対して、×印を付けたローカルピークを検出する。このローカルピークは、周波数値とアンプ(振幅)値の組み合わせとして表される。
すなわち、図13に示すように、(f0、a0)、(f1、a1)、(f2、a2)、……、(fn、an)というように各フレームについてローカルピークが検出され、表されることとなる。
【0038】
そして、図13に模式的に示すように、各フレーム毎に一組(以下、ローカルピーク組という。)のローカルピークを示すデータが、無声/有声検出部6及びピーク連携部8に出力される。出力されたローカルピーク組は、まず、無声/有声検出部6において、入力音声信号Svが無音であるか否かを検出するために用いられる。すなわち、無声/有声検出部6は、入力されたフレーム毎のローカルピークに基づいて、高周波成分の大きさに応じて無声であることを検出(‘t’、‘k’等)し、無声/有声検出信号U/Vmeをピッチ検出部7及びクロスフェーダ部24に出力する。あるいは、時間軸上で単位時間あたりの零クロス数に応じて無声であることを検出(‘s’等)し、無声/有声検出信号U/Vmeをピッチ検出部7及びクロスフェーダ部24に出力する。さらに無声/有声検出部6は、入力されたフレームが有声である場合には、入力されたローカルピーク組をそのまま、ピッチ検出部7に出力する。
【0039】
ピッチ検出部7は、入力されたローカルピーク組に基づいて、当該ローカルピーク組が対応するフレームのピッチPmeを検出する。
より具体的なフレームのピッチPmeの検出方法としては、例えば、Maher,R.C.andJ.W.Beauchamp:"Fundamental Frequency Estimation of Musical Signal using a two-way Mismatch Procedure"(Journal of Acounstical Society of America95(4):2254-2263)に開示されているような方法で行う。
【0040】
一方、ピーク検出部5からピーク連携部8に出力されたローカルピーク組は、前後のフレームについて連携が判断され、連携すると認められるローカルピークについては、一連のデータ列となるようにローカルピークをつなげる連携処理がなされる。
ここで、この連携処理について、図15を参照して説明する。
今、図15(A)に示すようなローカルピークが前回のフレームにおいて検出され、図15(B)に示すようなローカルピークが今回のフレームにおいて検出されたとする。
この場合、ピーク連携部8は、前回のフレームで検出された各ローカルピーク(f0、a0)、(f1、a1)、(f2、a2)、……、(fn、an)に対応するローカルピークが今回のフレームでも検出されたか否かを調べる。対応するローカルピークがあるか否かの判断は、前回のフレームで検出されたローカルピークの周波数を中心にした所定範囲内に今回のフレームのローカルピークが検出されるか否かによって行われる。
より具体的には、図15の例では、ローカルピーク(f0、a0)、(f1、a1)、(f2、a2)……については、対応するローカルピークが検出されているが、ローカルピーク(fk、ak)については(図15(A)参照)、対応するローカルピーク(図15(B)参照)は検出されていない。
ピーク連携部8は、対応するローカルピークを検出した場合は、それらを時系列順に繋げて一組のデータ列として出力する。なお、対応するローカルピークが検出されない場合は、当該フレームについての対応ローカルピークは無しということを示すデータに置き換える。
【0041】
ここで、図16は、複数のフレームにわたるローカルピークの周波数f0及び周波数f1の変化の一例を示している。
このような変化は、アンプ(振幅)a0、a1、a2、……についても同様に認められる。この場合、ピーク連携部8から出力されるデータ列は、フレームの間隔おきに出力される離散的な値である。
なお、ピーク連携部8から出力されるピーク値(正弦波のパラメータである周波数及びアンプ(振幅))が、上述した正弦波成分(fn、an)となる。
【0042】
次に、補間合成部9は、ピーク連携部8から出力されるピーク値について補間処理を行い、いわゆるオシレータ方式で波形合成を行って正弦波成分合成信号SSSを出力する。この場合の補間の間隔は、後述する出力部34が出力する最終出力信号のサンプリングレート(例えば、44.1KHz)に対応した間隔で行われる。前述した図16に示す実線は、ピークの周波数f0、f1について補間処理が行われた場合のイメージを示している。
【0043】
次に、残差成分検出部10は、補間合成部9から出力された正弦波成分合成信号SSSと入力音声信号Svとの偏差である残差成分信号SRD(時間波形)を生成する。この残差成分信号SRDは、音声に含まれる無声成分を多く含む。一方、前述の正弦波成分合成信号SSSは有声成分に対応するものである。
【0044】
ところで、歌唱者(me)の声が他人の声のように聞こえるためには、有声音についてだけ処理を行えばよく、無声音については処理を施す必要はあまりない。そこで、本実施形態においては、有声成分に対応する正弦波成分について音声変換処理を行うようにしている。より具体的には、残差成分信号SRDについては、高速フーリエ変換部11で、周波数波形に変換し、得られた残差成分信号(周波数波形)をRme(f)として残差成分保持部12に保持しておく。
【0045】
一方、ピーク検出部5からピーク連携部8を介して出力された正弦波成分(f0、a0)、(f1、a1)、(f2、a2)、……、(f(n-1)、a(n-1))のn個の正弦波成分(以下、これらをまとめてfn、anと表記する。n=0〜(n−1)。)は、正弦波成分保持部13に保持されるとともに、アンプAnは平均アンプ演算部14に入力され、各フレーム毎に次式により平均アンプAmeが算出される。
Ame=Σ(an)/N
例えば、図2に示した例では、5個の正弦波成分値(n=5)が正弦波成分保持部13に保持されており、平均アンプAme=(a0+a1+a2+a3+a4)/5となる。
【0046】
次にアンプ正規化部15において、次式により各アンプanを平均アンプAmeで正規化し、正規化アンプa’nを求める。
a’n=an/Ame
そして、スペクトラル・シェイプ演算部16において、図3に示すように、周波数fn及び正規化アンプa’nにより得られる正弦波成分(fn、a’n)をブレークポイントとするエンベロープ(包絡線)をスペクトラル・シェイプSme(f)として生成する。
この場合において、二つのブレークポイント間の周波数におけるアンプの値は、当該二つのブレークポイントを、例えば、直線補間することにより算出する。なお、補間の方法は直線補間に限られるものではない。
【0047】
続いてピッチ正規化部17においては、各周波数fnをピッチ検出部7において検出したピッチPmeで正規化し、正規化周波数f’nを求める。f’n=fn/Pmeこれらの結果、元フレーム情報保持部18は、入力音声信号Svに含まれる正弦波成分に対応する属性データである平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)、正規化周波数f’nを保持することとなる。なお、この場合において、正規化周波数f’nは、倍音列の周波数の相対値を表しており、もし、フレームの倍音構造を完全倍音構造であるとして取り扱うならば、保持する必要はない。
【0048】
ここで、説明は図11に移行し、新規情報生成部19は、元フレーム情報保持部18(図10)に保持された平均アンプAme、ピッチPme、スペクトラル・シェイプSme(f)、正規化周波数f’nに基づいて、変換後の音声に対応する新規平均アンプ(Anew)、変換後の新規ピッチ(Pnew)、および新規スペクトラル・シェイプ(Snew(f))を求める。
【0049】
まず、新規平均アンプ(Anew)について説明する。本実施形態では、平均アンプ(Anew)は次式によって算出する。
Anew=Ame
すなわち、平均アンプは、入力音声信号の平均アンプ(Ame)とする。次に、変換後の新規ピッチ(Pnew)について説明する。新規情報生成部19には、コントローラ29からどのような変換を行うかについて指示する変換情報が入力されており、新規情報生成部19は、変換情報が男声から女声変換を指示している場合は、次式によってPnewを算出する。
Pnew=Pme×2
すなわち、男声から女声変換を行う場合は、入力音声信号のピッチを2倍にする。
【0050】
一方、変換情報が女声から男声変換を指示している場合は、次式によってPnewを算出する。
Pnew=Pme×(1/2)
すなわち、女声から男声変換を行う場合は、入力音声信号のピッチを半分にする。
【0051】
次に、上述のように算出した新規ピッチPnewに基づいて、基本原理において説明したように新規のスペクトラル・シェイプSnew(f)を生成する。ここで、図17を参照して具体的に説明する。
まず、図7に示した変化関数Tss(P)およびPnewに基づいて、スペクトラル・シェイプのシフト量ΔSSを算出する。図16中のSnew’(f)は、歌唱者のスペクトラル・シェイプSme(f)を、周波数軸方向にΔSSシフトしたものである。
さらに、図9に示した変化関数Tst(P)およびPnewに基づいて、スペクトラルティルトの制御量Δstを算出し、ΔSSシフト後のスペクトラル・シェイプSnew’(f)のティルトSTnew’の傾きをΔstだけ変更して、ティルトSTnewとなる新規スペクトラルティルトSnew(f)の生成を行う(図17)。
【0052】
続いて、正弦波成分生成部20は、新規情報生成部19から出力された新規平均アンプAnew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)に基づいて、当該フレームにおける新たな正弦波成分(f”0、a”0)、(f”1、a”1)、(f”2、a”2)、……、(f”(n−1)、a”(n−1))のn個の正弦波成分(以下、これらをまとめてf”n、a”nと表記する。)を求める(図4および図5参照)。
より具体的には、次式により新規周波数f”nおよび新規アンプa”nを求める。
f”n=f’n×Pnew
a”n=Snew(f”n)×Anew
なお、完全倍音構造のモデルとして捉えるのであれば、
f”n=(n+1)×Pnew
となる。
【0053】
さらに、求めた新規周波数f”nおよび新規アンプa”nについて、必要に応じてコントローラ29から入力される正弦波成分変換情報に基づいて、正弦波成分変換部21によりさらなる変換を行う(変換後の正弦波成分をf’’’n、a’’’nとする)。例えば、偶数倍音成分の新規アンプa”n(=a”0、a”2、a”4、……)だけを大きく(例えば、2倍する)等の変換を行う。これによって得られる変換音声にさらにバラエティーを持たせることが可能となる。
【0054】
次に逆高速フーリエ変換部22は、求めた新規周波数f’’’nおよび新規アンプa’’’n(=新規正弦波成分)並びに残差成分信号Rme(f)をFFTバッファに格納し、順次逆FFTを行い、さらに得られた時間軸信号を一部重複するようにオーバーラップ処理し、それらを加算する加算処理を行うことにより新しい有声音の時間軸信号である変換音声信号を生成する。このとき、コントローラ29から入力される正弦波成分/残差成分バランス制御信号に基づいて、正弦波成分及び残差成分の混合比率を制御し、よりリアルな有声信号を得る。この場合において、一般的には、残差成分の混合比率を大きくするとざらついた声が得られる。
【0055】
次にクロスフェーダ24は、無声/有声検出部6(図10)が出力した無声/有声検出信号U/Vmeに基づいて、入力音声信号Svが無声(U)である場合には、入力音声信号Svをそのままミキサ300に出力する。また、入力音声信号Svが有声(V)である場合には、逆FFT変換部28が出力した変換音声信号をミキサ300に出力する。この場合において、切替スイッチとしてクロスフェーダ24を用いているのは、クロスフェード動作を行わせることによりスイッチ切替時のクリック音の発生を防止するためである。
【0056】
2−2.楽音生成部200の構成および動作の詳細
次に、楽音生成部200の構成および動作の詳細について説明する。楽音生成部200は、シーケンサ201および音源部202を備えて構成されている。
シーケンサ201は、カラオケの伴奏音を発生するための音源制御情報を、例えば、MIDI(Musical Instrument Digital Interface)データなどとして音源部202に出力する。
これにより音源部202は、音源制御情報に基づいて楽音信号を生成して、ミキサ300に出力する。
【0057】
2−3.ミキサ300および出力部400の動作
そして、ミキサ300は、音声変換部100から出力された入力音声信号Svあるいは変換音声信号のいずれか一方、及び、楽音生成部200から出力された楽音信号を混合し、混合信号を出力部400に出力する。
出力部400は、図示しない増幅器を有し混合信号を増幅して音響信号として出力することとなる。
【0058】
2−4.まとめ
このように、周波数軸上の値で表した入力楽音信号の属性を変換するので、正弦波成分の変換を行うことができ、音声変換処理の自由度が高くなる。
また、出力ピッチに応じて変換量を決定するので、微妙な変換量を出力ピッチに応じて容易に制御することができ、より自然な変換音声出力を得ることができる。
【0059】
3.変換例
なお、本発明は、上述した実施形態に限定されるものではなく、以下のような各種の変換が可能である。
【0060】
上記実施形態においては、新規情報生成部19〜正弦波成分変換部21において、入力音声信号Svの正弦波成分を、1組の新規正弦波成分に変換しているが、複数の正弦波成分に変換するようにしてもよい。
例えば、それぞれスペクトラル・シェイプのシフト量やスペクトラルティルトの制御量の異なる複数の新規スペクトラル・シェイプを生成し、各新規スペクトラル・シェイプ毎に、出力ピッチのそれぞれ異なる新規正弦波成分を生成すれば、一人分の入力音声を、複数人のハーモニーとすることもできる。
【0061】
また、上記実施形態において説明した図11中の新規情報生成部19の後に、エフェクト的効果を付与する処理部を設けても良い。すなわち、生成された新規アンプ成分Anew、新規ピッチ成分Pnew及び新規スペクトラル・シェイプSnew(f)について、必要に応じてコントローラ29から入力される正弦波成分属性データ変換情報に基づき、さらなる変換を行うようにしてもよい。例えば、スペクトラル・シェイプを全体的に間延びさせる等の変換を行う。あるいは、出力ピッチをLFOによって変調してもよい。すなわち、出力ピッチに一定の振動を与えてビブラートがかかった音声に変換するようにしてもよい。また、出力ピッチを一定にして、抑揚のないロボットのような声質にしてもよい。また、アンプに関しても同様にLFOによって変調したり、ピッチを一定にしてもよい。
【0062】
さらに、スペクトラル・シェイプに関しても、シフト量をLFOによって変調してもよい。このようにすれば、周波数特性が周期的に変化するというエフェクト的効果を得ることができる。
その他、スペクトラル・シェイプを全体的に圧縮または伸長するようにしてもよい。この場合において、圧縮・伸長の量をLFOやピッチ・アンプの変化量に応じて変化させるようにしてもよい。
【0063】
また、上記実施形態においては、スペクトラル・シェイプのシフトおよびスペクトラルティルトの制御の両方の処理を行うものとしたが、どちらか一方のみを行うようにしてもよい。
なお、上記実施形態において、スペクトラルティルトの制御については、男声を女声に変換する場合の制御を例に説明したが、女声を男声に変換する場合は、スペクトラル・シェイプのシフトは低周波方向に行えばよく、スペクトラルティルトの制御は、傾きが小さくなるように行えばよい。
また、男声女声変換に限らず、例えば、男女のどちらでもない中性的な声や、子供らしい声、機械的な声といったような、種々の特徴を示すような新規スペクトラル・シェイプに変換できるようにしてもよい。
【0064】
また、上記実施形態においては、新規平均アンプAnewは、歌唱者の平均アンプAmeとしたが(Anew=Ame)、これに限らず、様々な要素から決定するようにしてもよい。例えば、出力ピッチに応じて適した平均アンプを算出するようにしてもよいし、ランダムに決定してもよい。
【0065】
また、上記実施形態においては、入力音声信号を周波数軸上で処理するためにSMS分析技術を用いているが、これに限らず、入力信号を正弦波の合成で表す成分(以下、正弦波成分)と、それ以外の残差成分で表す信号処理方法であれば、他の信号処理方法であってもよい。
【0066】
また、上記実施形態は、出力ピッチに応じてスペクトラル・シェイプを変換しているが、このように、出力ピッチに応じて声質を変化させる処理は、周波数軸上の処理に限らず時間軸上の処理を行う場合にも適用できる。
この場合は、例えば波形の圧縮・伸長といった、時間軸上における波形の変化量を、出力ピッチに対応した変化関数に基づいて決定すればよい。すなわち、出力ピッチをまず決定した後に、出力ピッチおよび変化関数に基づいて、圧縮・伸長量などを算出する。
【0067】
さらに、上記実施形態で示したコントローラ29においては、出力ピッチや変化関数Tss(f)、Tst(f)を調整可能であるように構成してもよい。例えばユーザコントロール部分としてスライダなどの操作子を設けて、ユーザが好みによって調節できるようにしてもよい。
【0068】
なお、上記実施形態は、図示せぬROMに記憶された制御プログラムに基づいて上述の処理をおこなっているが、これに限らず、不揮発性メモリカード、CD−ROM、フロッピーディスク、光磁気ディスク、および磁気ディスク等の可搬型の記録媒体に記録された制御プログラムをハードディスク等の記憶装置に転送できるように構成して、記憶装置に記憶された制御プログラムに基づいて上述の処理を行ってもよい。このようにすれば、制御プログラムの追加(インストール)や更新(バージョンアップ)の際に便利である。
【0069】
【発明の効果】
以上説明したように、本発明によれば、自由度が高く、より自然に声質やピッチを変換できるようになる。
【図面の簡単な説明】
【図1】 実施形態の概略構成を示す図である。
【図2】 歌唱者の音声信号の正弦波成分を示す図である。
【図3】 歌唱者のスペクトラル・シェイプを示す図である。
【図4】 新規スペクトラル・シェイプを示す図である。
【図5】 新規正弦波成分を示す図である。
【図6】 スペクトラル・シェイプのシフトを示す図である。
【図7】 スペクトラル・シェイプのシフト量を示す図である。
【図8】 スペクトラルティルトの制御を示す図である。
【図9】 スペクトラルティルトの制御量を示す図である。
【図10】 実施形態の構成を示すブロック図である(その1)。
【図11】 実施形態の構成を示すブロック図である(その2)。
【図12】 音声変換部の動作を示すフローチャートである。
【図13】 実施形態におけるフレームの状態を示す図である。
【図14】 実施形態における周波数スペクトルのピーク検出を説明するための説明図である。
【図15】 実施形態におけるフレーム毎のピーク値の連携を示す図である。
【図16】 実施形態における周波数値の変化状態を示す図である。
【図17】 スペクトラル・シェイプの変換を示す図である。
【図18】 従来の音声変換技術を説明する図である。
【図19】 従来の音声変換技術を説明する図である。
【符号の説明】
100…音声変換部、1…マイク、2…分析窓生成部、3…入力音声信号切出部、4…高速フーリエ変換部、5…ピーク検出部、6…無声/有声検出部、7…ピッチ検出部、8…ピーク連携部、9…補間合成部、10…残差成分検出部、11…高速フーリエ変換部、12…残差成分保持部、13…正弦波成分保持部、14…平均アンプ演算部、15…アンプ正規化部、16…スペクトラル・シェイプ演算部、17…ピッチ正規化部、18…元フレーム情報保持部、19…新規情報生成部、20…正弦波成分生成部、21…正弦波成分変換部、22…逆高速フーリエ変換部、29…コントローラ、24…クロスフェーダ部、200…楽音生成部、201…シーケンサ、202…音源部、300…ミキサ、400…出力部。
Claims (5)
- 入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段と、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段と、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段と、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段と
を備え、
前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
ことを特徴とする音声変換装置。 - 前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプの傾きを変更することにより新規スペクトラル・シェイプを生成する
ことを特徴とする請求項1に記載の音声変換装置。 - 前記出力ピッチの周波数を周期的に変化させるように制御する出力ピッチ制御手段をさらに備える
ことを特徴とする請求項2に記載の音声変換装置。 - 入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成段階と、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成段階と、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成段階と、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成段階と
を備え、
前記新規スペクトラル・シェイプ生成段階は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成段階は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
ことを特徴とする音声変換方法。 - コンピュータを、
入力音声信号を構成する波形成分のうち周波数およびアンプによって示される正弦波成分の当該周波数およびアンプをブレークポイントとするエンベロープを示すスペクトラル・シェイプを生成するスペクトラル・シェイプ生成手段、
前記スペクトラル・シェイプを、前記ブレークポイントとなる周波数あるいはアンプのうち少なくとも周波数方向にシフト変換することにより、新規スペクトラル・シェイプを生成する新規スペクトラル・シェイプ生成手段、
前記新規スペクトラル・シェイプが示すエンベロープにおける、該新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数におけるアンプを算出し、該周波数と前記算出したアンプを新規正弦波成分として生成する新規正弦波成分生成手段、および、
生成された前記新規正弦波成分から新規音声信号を生成する新規音声信号生成手段
として機能させるための音声変換プログラムを記録した記録媒体であって、
前記新規スペクトラル・シェイプ生成手段は、
予め設定した出力ピッチに対応する変化関数に基づいて前記新規スペクトラル・シェイプの前記ブレークポイントとなる周波数あるいはアンプの変換量を決定するとともに、決定した前記変換量に対応した前記新規スペクトラル・シェイプを生成し、
前記新規正弦波成分生成手段は、
予め設定した出力ピッチに基づいて前記新規スペクトラル・シェイプのブレークポイントとなる周波数とは異なる周波数を算出する
音声変換プログラムを記録した記録媒体。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16904598A JP3706249B2 (ja) | 1998-06-16 | 1998-06-16 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
TW088108973A TW430778B (en) | 1998-06-15 | 1999-05-31 | Voice converter with extraction and modification of attribute data |
EP12000670A EP2450887A1 (en) | 1998-06-15 | 1999-06-07 | Voice converter with extraction and modification of attribute data |
EP10009510A EP2264696B1 (en) | 1998-06-15 | 1999-06-07 | Voice converter with extraction and modification of attribute data |
EP99110936A EP0982713A3 (en) | 1998-06-15 | 1999-06-07 | Voice converter with extraction and modification of attribute data |
US10/282,536 US7606709B2 (en) | 1998-06-15 | 2002-10-29 | Voice converter with extraction and modification of attribute data |
US10/282,992 US20030055647A1 (en) | 1998-06-15 | 2002-10-29 | Voice converter with extraction and modification of attribute data |
US10/282,754 US7149682B2 (en) | 1998-06-15 | 2002-10-29 | Voice converter with extraction and modification of attribute data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP16904598A JP3706249B2 (ja) | 1998-06-16 | 1998-06-16 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000003197A JP2000003197A (ja) | 2000-01-07 |
JP3706249B2 true JP3706249B2 (ja) | 2005-10-12 |
Family
ID=15879308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP16904598A Expired - Fee Related JP3706249B2 (ja) | 1998-06-15 | 1998-06-16 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3706249B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4531916B2 (ja) * | 2000-03-31 | 2010-08-25 | クラリオン株式会社 | 情報提供システム及び発声人形 |
US8296143B2 (en) | 2004-12-27 | 2012-10-23 | P Softhouse Co., Ltd. | Audio signal processing apparatus, audio signal processing method, and program for having the method executed by computer |
JP4761506B2 (ja) | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
JP4622908B2 (ja) * | 2006-03-28 | 2011-02-02 | ヤマハ株式会社 | 信号処理装置 |
JP5772739B2 (ja) * | 2012-06-21 | 2015-09-02 | ヤマハ株式会社 | 音声処理装置 |
-
1998
- 1998-06-16 JP JP16904598A patent/JP3706249B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000003197A (ja) | 2000-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
Rao et al. | Prosody modification using instants of significant excitation | |
US6336092B1 (en) | Targeted vocal transformation | |
Macon et al. | A singing voice synthesis system based on sinusoidal modeling | |
JP3941611B2 (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
US20010044721A1 (en) | Converting apparatus of voice signal by modulation of frequencies and amplitudes of sinusoidal wave components | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
JP3711880B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3447221B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP4349316B2 (ja) | 音声分析及び合成装置、方法、プログラム | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
Anikin | Package ‘soundgen’ | |
JP3934793B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
Pierucci et al. | Singing Voice Analysis and Synthesis System through Glottal Excited Formant Resonators. | |
JP3907027B2 (ja) | 音声変換装置および音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050728 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090805 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100805 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100805 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110805 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120805 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130805 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |