JP3447221B2 - 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 - Google Patents
音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体Info
- Publication number
- JP3447221B2 JP3447221B2 JP17033898A JP17033898A JP3447221B2 JP 3447221 B2 JP3447221 B2 JP 3447221B2 JP 17033898 A JP17033898 A JP 17033898A JP 17033898 A JP17033898 A JP 17033898A JP 3447221 B2 JP3447221 B2 JP 3447221B2
- Authority
- JP
- Japan
- Prior art keywords
- new
- spectral shape
- sine wave
- frequency
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
置に用いて好適な、入力音声を他の音声に変換して出力
する音声変換装置、音声変換方法、および音声変換プロ
グラムを記録した記録媒体に関する。
などを変換して出力する音声変換装置が種々開発されて
おり、例えば、カラオケ装置の中には、歌い手の歌った
歌声のピッチを変換して、女性の声を男性の声に変換さ
せるものがある(例えば、特表平8−508581
号)。ところで、カラオケにおいて女性が男性用の曲を
歌唱する場合には、女性は1オクターブ高く歌うことが
多いので、入力されたオリジナルの音声を1オクターブ
下げた音声信号に変換するのが一般的である。
音声変換装置においては、単に歌声のピッチを変換して
いるだけであるため、音質が劣化し、聴感上自然な音声
が得られないという問題点があった。
なされたものであり、女性の声を男性の声に変換させる
音声変換を行うに際し、聴感上自然な音声を容易に得る
ことが可能な音声変換装置、音声変換方法、および音声
変換プログラムを記録した記録媒体を提供することを目
的とする。
ために、請求項1記載の発明は、入力音声信号を構成す
る波形成分のうち周波数およびアンプによって示される
正弦波成分に基づいて、ピッチおよび音質を変換した変
換音声信号を出力する音声変換装置であって、前記入力
音声信号の周波数成分のうち最大周波数のα倍(0<α
<1)以上の周波数域について補間する補間スペクトラ
ル・シェイプを予め保持し、前記入力音声信号のスペク
トラル・シェイプのブレークポイントについて、その周
波数をα倍したブレークポイントを有するシフトスペク
トラル・シェイプを生成し、前記シフトスペクトラル・
シェイプに前記補間スペクトラル・シェイプを補間して
新規スペクトラル・シェイプを生成する新規スペクトラ
ル・シェイプ生成手段と、予め設定された出力ピッチお
よび前記新規スペクトラル・シェイプに基づいて、新規
正弦波成分を生成する新規正弦波成分生成手段と、生成
された前記新規正弦波成分に基づいて変換音声信号を生
成する変換音声信号生成手段とを備えることを特徴とす
る。また、請求項2に記載の発明は、請求項1に記載の
音声変換装置において、前記αは、前記入力音声信号と
変換音声信号とのピッチ差に基づいて算出されることを
特徴とする。また、請求項3に記載の発明は、請求項1
に記載の音声変換装置において、前記補間スペクトラル
・シェイプは、前記入力音声信号とは異なる他音声信号
のスペクトラル・シェイプに基づいて生成されることを
特徴とする。また、請求項4に記載の発明は、請求項3
に記載の音声変換装置において、前記補間スペクトラル
・シェイプは、前記他音声信号のスペクトラル・シェイ
プを関数によって近似したものであることを特徴とす
る。また、請求項5に記載の発明は、入力音声信号を構
成する波形成分のうち周波数およびアンプによって示さ
れる正弦波成分に基づいて、ピッチおよび音質を変換し
た変換音声信号を出力する音声変換方法であって、前記
入力音声信号の周波数成分のうち最大周波数のα倍(0
<α<1)以上の周波数域について補間する補間スペク
トラル・シェイプを予め保持し、前記入力音声信号のス
ペクトラル・ シェイプのブレークポイントについて、そ
の周波数をα倍したブレークポイントを有するシフトス
ペクトラル・シェイプを生成し、前記シフトスペクトラ
ル・シェイプに前記補間スペクトラル・シェイプを補間
して新規スペクトラル・シェイプを生成する新規スペク
トラル・シェイプ生成段階と、予め設定された出力ピッ
チおよび前記新規スペクトラル・シェイプに基づいて、
新規正弦波成分を生成する新規正弦波成分生成段階と、
生成された前記新規正弦波成分に基づいて変換音声信号
を生成する変換音声信号生成段階とを備えることを特徴
とする。また、請求項6に記載の発明は、コンピュータ
に、入力音声信号を構成する波形成分のうち周波数およ
びアンプによって示される正弦波成分に基づいて、ピッ
チおよび音質を変換した変換音声信号を出力する処理を
実行させるための音声変換プログラムを記録したコンピ
ュータ読み取り可能な記録媒体であって、前記入力音声
信号の周波数成分のうち最大周波数のα倍(0<α<
1)以上の周波数域について補間する補間スペクトラル
・シェイプを予め保持し、前記入力音声信号のスペクト
ラル・シェイプのブレークポイントについて、その周波
数をα倍したブレークポイントを有するシフトスペクト
ラル・シェイプを生成し、前記シフトスペクトラル・シ
ェイプに前記補間スペクトラル・シェイプを補間して新
規スペクトラル・シェイプを生成する新規スペクトラル
・シェイプ生成段階と、予め設定された出力ピッチおよ
び前記新規スペクトラル・シェイプに基づいて、新規正
弦波成分を生成する新規正弦波成分生成段階と、生成さ
れた前記新規正弦波成分に基づいて変換音声信号を生成
する変換音声信号生成段階とを実行させるための音声変
換プログラムを記録したことを特徴とする。
明の実施の形態について説明する。
ある。なお、本実施形態は、本発明による音声変換装置
(音声変換方法)を適用したカラオケ装置であり、女性
歌唱者(me)の入力音声信号Svを男性的な特徴を有する
音声信号に変換して出力するものである。
る。一般的に女性は男性と比較して声のピッチが高いの
で、同じ曲を歌う際に女性は男性より1オクターブ高く
歌う場合が多い。従って、女声を男声に変換するために
は、女性歌唱者(me)の入力音声信号Svを、ピッチを低
い方へシフトした音声信号に変換する必要がある。ま
た、女性と男性とは単にピッチだけではなく声質も異な
っているので、女性歌唱者(me)の入力音声信号Svをよ
り男性的な特徴を有する音声信号に変換しなくてはなら
ない。そこで、本実施形態においては、スペクトル・モ
デリング・合成(SMS:Spectral Modeling Synthesi
s)技術を用いて、女性歌唱者(me)の音声信号Svか
ら正弦波成分と残差成分とを抽出することによって変換
処理を行う。ここで、正弦波成分とは、音声信号を構成
する波形成分のうち周波数およびアンプによって示され
る正弦波を示すデータであり、正弦波成分のうち最も低
い周波数が基本周波数ff0であり、音声のピッチに相
当する。ここで、図3は、ある女性の正弦波成分が(f
f0、af0)、(ff1、af1)、(ff2、af
2)、(ff3、af3)、……(ffn、afn)で
あった場合を示しており、図3中に実線で示すように、
正弦波成分は縦軸をアンプとする周波数軸上にスペクト
ルとして表すことができる。
f0を変換するとともに、正弦波成分に基づいて生成さ
れるスペクトラル・シェイプを利用して変換音声信号を
生成する。スペクトラル・シェイプとは、正弦波成分の
周波数およびアンプをブレークポイントとするエンベロ
ープ(包絡線)を示すデータであり、音声の特徴を示す
データとなる。従って、スペクトラル・シェイプを変形
することによって音声の特徴を容易に変換することがで
きる。ここで、図3に示したSf(f)は、正弦波成分
(ff0、af0)、(ff1、af1)、(ff2、
af2)、……、(ffn、afn)をブレークポイン
トとしたスペクトラル・シェイプである。
めには、スペクトラル・シェイプを周波数軸方向に圧縮
するジェンダーシフトを行えばよい。ジェンダーシフト
は、ブレークポイントとなる周波数をシフトしてスペク
トラル・シェイプを変形する手法である。図4中のS
f’(f)は、図3に示したスペクトラル・シェイプS
f(f)を圧縮するジェンダーシフトを行ったものを示
しており、図3に示した正弦波成分(ff0、af
0)、(ff1、af1)、(ff2、af2)、…
…、(ffn、afn)の周波数をα(0<α<1)倍
に変換した成分(αff0、af0)、(αff1、a
f1)、(αff2、af2)、……(αffn、af
n)をブレークポイントとしている。このように、女性
の音声信号から抽出される正弦波成分の各周波数を低い
方にシフトして、シフト後の周波数およびアンプをブレ
ークポイントとしてスペクトラル・シェイプを生成すれ
ば、成分の特徴が低い方にシフトするので、このような
スペクトラル・シェイプに基づいて生成された音声は男
性的な特徴を示すようになる。
に基づいて生成された女性のスペクトラル・シェイプを
ジェンダーシフトしたスペクトラル・シェイプSf’
(f)に基づいて変換後の正弦波成分を生成したときに
は、得られる正弦波成分の最高周波数はαffnとなっ
てしまい、高い周波数域の正弦波成分(高域成分)が失
われて音質が劣化してしまう(図4中に示す領域E参
照)。すなわち、有声音は、ピッチの整数倍の正弦波成
分を有する倍音構造になっており、周波数域が高くなる
に従ってアンプが減衰するという傾向がある。男女によ
って減衰量の傾向(減衰傾向)が異なるものの、高域成
分が存在することにはかわりはない。従って、高域成分
を除去した場合には、本来存在すべき成分が失われ、有
声音らしさが損なわれる。例えば、図5は、ある男性の
ピッチ(基本周波数)がfm0である音声信号の正弦波
成分を示した図である。ここで、図3に示した女性の正
弦波成分がff0〜ffnまでの周波数域に分布して高
域成分が存在するように(図3)、同様に男性の正弦波
成分も高域成分が存在していることがわかる(図5)。
従って、女性のスペクトラル・シェイプをジェンダーシ
フトした場合には、本来存在すべき高域成分に対応した
スペクトラル・シェイプに基づいて新規正弦波成分を生
成する必要がある。しかし、一般的に女性と男性では高
域成分の減衰傾向が異なっているので、本実施形態にお
いては、女性歌唱者(me)の正弦波成分に基づいて補間を
行わずに、予め男性歌唱者(Target)の音声信号から抽
出した正弦波成分に基づいて高域成分を補間した新規ス
ペクトラル・シェイプを生成するものとしている。
ェイプについて、図6を参照して具体的に説明する。こ
こで、図6(1)は、図5に示した男性の音声信号を男
性歌唱者(Target)の音声信号として抽出した(n+
1)個の正弦波成分に基づいて生成されたスペクトラル
・シェイプSm(f)を示しており、図6(2)は、新
規スペクトラル・シェイプSf”(f)を示している。
Sf(f)をジェンダーシフトしたSf’(f)(図4
参照)に、上述したような高域成分を補間して新規スペ
クトラル・シェイプを生成するためには、ジェンダーシ
フトにおいて失われたαffn〜ffnの領域を補間す
る部分的なスペクトラル・シェイプである部分スペクト
ラル・シェイプが必要である(図6(2)領域E参
照)。従って、以下に説明するように、男性歌唱者(Ta
rget)の正弦波成分に基づいて高域成分に対応する補間
スペクトラル・シェイプを生成する。まず、図6(1)
に示すように、男性歌唱者(Target)の正弦波成分のう
ち、fm0〜fmnまで((n+1)個)の正弦波成分
の分布を近似する関数である補間直線Sh(f)を、例
えば最小自乗法などによって生成する。このような補間
直線Sh(f)は、男性歌唱者(Target)の高域成分の
減衰傾向を示している。次に、図6(2)に示すよう
に、生成された補間直線Sh(f)に基づいて、ジェン
ダーシフトによって失われた領域Eに対応する周波数域
を補間した新規スペクトラル・シェイプSff”(f)
を生成する。具体的には、(2)に示す領域E内の補間
スペクトラル・シェイプは、生成された直線Sh(f)
における同一周波数域の傾きに対応している。従って、
新規スペクトラル・シェイプSff”(f)は、高域成
分については男性歌唱者(Target)の減衰傾向を示すこ
とになる。そして、生成された新規スペクトラル・シェ
イプSff”(f)に基づいて、出力ピッチの整数倍の
周波数ごとにアンプを算出すれば、音声変換後の正弦波
成分を得ることができる。なお、本実施形態では、出力
ピッチを女性歌唱者(me)のピッチの2分の1とする。
ル・シェイプSf(f)をジェンダーシフトしたSf’
(f)を、男性歌唱者(Target)の正弦波成分に基づい
て生成された補間直線Sh(f)によって補間すれば、
音質を劣化させることなく聴感上自然な男性らしい音声
に変換することができる。以上説明した原理に基づく音
声変換を実施するための構成を図1および図2に詳細に
示しているが、実施形態の構成を詳細に説明するに先だ
って、まず実施形態の概要処理について説明する。
入力音声信号Svおよび、予め記憶された男性歌唱者
(Target)の音声信号から抽出された正弦波成分に基づ
いて音声変換処理を行う。このような処理を行うため
に、女性歌唱者(me)および男性歌唱者(Target)の音
声信号の正弦波成分および残差成分を抽出し、さらに正
弦波成分に基づいて得られるピッチ、平均アンプ、およ
びスペクトラル・シェイプなどの属性データを保持する
ことになる。
入力音声信号Svをフレーム単位で高速フーリエ変換
(FFT:Fast Fourie Transform)することによって
得られるスペクトルのローカルピークによって決定され
る。図1および図2中においては、女性歌唱者(me)の
正弦波成分は、周波数およびアンプ(fn、an)によ
って表されている。そして、女性歌唱者(me)の正弦波
成分に基づいて得られる属性データを、ピッチPme、
平均アンプAme、スペクトラル・シェイプSme
(f)として表している。そして、入力音声信号Svか
ら抽出された正弦波成分に基づいて生成される音声信号
を除いて高速フーリエ変換して得たデータが、変換処理
を不要とする残差成分(Residual成分)Rme(f)と
して保持される。
は、上述した原理による処理においては必ずしも保持す
る必要はなく、正弦波成分に基づいて予め生成された補
間直線Sh(f)のような補間スペクトラル・シェイプ
を保持していればよい。ここで、図2中においては、男
性歌唱者(Target)の補間スペクトラル・シェイプSt
ar(f)はフレーム単位で保持されている。フレーム
単位で保持しているのは、女性歌唱者(me)の入力音声
信号Svに対する処理をフレーム単位で行うことにあわ
せたものである。
して、本実施形態の概要処理を説明する。まず、音声変
換をしようとする女性歌唱者(me)の入力音声信号Sv
をフレーム単位で切り出し(S101)、リアルタイム
でFFTを行う(S102)。そして、FFTの結果に
基づいて入力音声信号が無声音(含む無音)か否かを判
別し(S103)、無声音である場合には(S103;
YES)、以下のステップS104〜ステップS109
の処理は行わず、入力音声信号Svをそのまま出力する
こととなる。
無声音ではないと判別した場合は(S103;NO)、
FSvに基づきフレーム単位で正弦波成分を抽出し(S
104)、次に、入力音声信号Sv及び正弦波成分から
フレーム単位で残差成分を抽出する(S105)。次
に、基本原理において説明したように、女性歌唱者(m
e)のスペクトラル・シェイプを周波数軸方向にα(0
<α<1)倍に圧縮した新規スペクトラル・シェイプ生
成し(S106)、生成した新規スペクトラル・シェイ
プおよび予め設定した出力ピッチに基づいて新規正弦波
成分を生成する(S107)。なお、本実施形態におい
ては、出力ピッチは、女性歌唱者(me)のピッチの2分
の1である。そして、生成した新規正弦波成分と、ステ
ップS105において抽出した残差成分とを加算し(S
108)、逆FFTを行って(S109)、変換音声信
号を出力する(S110)。変換音声信号を出力した後
は、処理をステップS101に移行させ、次のフレーム
の音声信号Svを入力する。
S110の処理を循環する過程において、女性歌唱者(m
e)のピッチの2分の1の出力ピッチ、および、より男性
らしい特徴を有する新規スペクトラル・シェイプに基づ
いて生成された音声信号が出力されるので、あたかも男
性であるかのような自然な歌声を得ることができる。
参照して、実施形態を詳細に説明する。
e)の声を収集し、入力音声信号Svとして入力音声信
号切出部3に出力する。これと並行して、分析窓生成部
2は、前回のフレームで検出したピッチの周期の固定倍
(例えば、3.5倍など)の周期を有する分析窓(例え
ばハミング窓)AWを生成し、入力音声信号切出部3に
出力する。なお、初期状態あるいは前回のフレームが無
声音(含む無音)の場合には、予め設定した固定周期の
分析窓を分析窓AWとして入力音声信号切出部3に出力
する。
力された分析窓AWと入力音声信号Svとを掛け合わ
せ、入力音声信号Svをフレーム単位で切り出し、フレ
ーム音声信号FSvとして高速フーリエ変換部4に出力
される。より具体的には、入力音声信号Svとフレーム
との関係は、図8に示すようになっており、各フレーム
FLは、前のフレームFLと一部重なるように設定され
ている。
レーム音声信号FSvは、解析処理されるとともに、図
9に示すように、高速フーリエ変換部4の出力である周
波数スペクトルからピーク検出部5によりローカルピー
クが検出される。より具体的には、図9に示すような周
波数スペクトルに対して、×印を付けたローカルピーク
を検出する。このローカルピークは、周波数値とアンプ
(振幅)値の組み合わせとして表される。
0)、(f1、a1)、(f2、a2)、……、(f
n、an)というように各フレームについてローカルピ
ークが検出され、表されることとなる。そして、図8に
模式的に示すように、各フレーム毎に一組(以下、ロー
カルピーク組という。)として無声/有声検出部6及び
ピーク連携部8に出力される。無声/有声検出部6は、
入力されたフレーム毎のローカルピークに基づいて、高
周波成分の大きさに応じて無声(‘t’、‘k’等)で
あることを検出し、無声/有声検出信号U/Vmeをピッ
チ検出部7、イージーシンクロナイゼーション処理部2
0及びクロスフェーダ部24に出力する。あるいは、時
間軸上で単位時間あたりの零クロス数に応じて無声
(‘s’等)であることを検出し、元無声/有声検出信
号U/Vmeをピッチ検出部7、イージーシンクロナイゼ
ーション処理部20及びクロスフェーダ部24に出力す
る。
フレームが有声である場合には、入力されたローカルピ
ーク組をそのまま、ピッチ検出部7に出力する。ピッチ
検出部7は、入力されたローカルピーク組に基づいて、
当該ローカルピーク組が対応するフレームのピッチPm
eを検出する。より具体的には、ローカルピーク組を構
成するローカルピーク列がほぼ整数倍の周期で並んでい
るか否かを基本としてピッチPmeを検出する。このと
き、オクターブずれて誤検出してしまうのを防止するた
め、前回のフレームまでのピッチ軌跡との整合性も考慮
して、当該フレームのピッチPmeを決定する。これ
は、人が発声する音声の入力音声信号のピッチは急激に
は変化しないことを前提としている。
カルピーク組は、ピーク連携部8において、前後のフレ
ームについて連携が判断され、連携すると認められるロ
ーカルピークについては、一連のデータ列となるように
ローカルピークをつなげる連携処理がなされる。ここ
で、この連携処理について、図10を参照して説明す
る。今、図10(A)に示すようなローカルピークが前
回のフレームにおいて検出され、図10(B)に示すよ
うなローカルピークが今回のフレームにおいて検出され
たとする。この場合、ピーク連携部8は、前回のフレー
ムで検出された各ローカルピーク(f0、a0)、(f
1、a1)、(f2、a2)、……、(fn、an)に
対応するローカルピークが今回のフレームでも検出され
たか否かを調べる。対応するローカルピークがあるか否
かの判断は、前回のフレームで検出されたローカルピー
クの周波数を中心にした所定範囲内に今回のフレームの
ローカルピークが検出されるか否かによって行われる。
ルピーク(f0、a0)、(f1、a1)、(f2、a
2)……については、対応するローカルピークが検出さ
れているが、ローカルピーク(fk、ak)については
(図10(A)参照)、対応するローカルピーク(図1
0(B)参照)は検出されていない。ピーク連携部8
は、対応するローカルピークを検出した場合は、それら
を時系列順に繋げて一組のデータ列として出力する。な
お、対応するローカルピークが検出されない場合は、当
該フレームについての対応ローカルピークは無しという
ことを示すデータに置き換える。
るローカルピークの周波数f0及び周波数f1の変化の
一例を示している。このような変化は、アンプ(振幅)
a0、a1、a2、……についても同様に認められる。
この場合、ピーク連携部8から出力されるデータ列は、
フレームの間隔おきに出力される離散的な値である。
ら出力されるローカルピーク組について補間処理を行
い、補間後の成分に基づいていわゆるオシレータ方式で
波形合成を行う。この場合の補間の間隔は、最終出力信
号のサンプリングレート(例えば、44.1KHz)に
対応した間隔で行われる。前述した図11に示す実線
は、ローカルピークの周波数f0、f1について補間処
理が行われた場合のイメージを示している。
9から出力された正弦波成分合成信号SSSと入力音声信
号Svとの偏差である残差成分信号SRD(時間波形)を
生成する。この残差成分信号SRDは、音声に含まれる無
声成分を多く含む。一方、前述の正弦波成分合成信号S
SSは有声成分に対応するものである。
は、有声音についてだけ処理を行えばよく、無声音につ
いては処理を施す必要はあまりない。そこで、本実施形
態においては、有声母音成分に対応する成分について音
声変換処理を行うようにしている。より具体的には、残
差成分信号SRDについては、高速フーリエ変換部11
で、周波数波形に変換し、得られた残差成分信号(周波
数波形)をRme(f)として残差成分保持部12に保持し
ておく。
を介して出力されたローカルピーク(f0、a0)、
(f1、a1)、(f2、a2)、……、(f(n−
1)、a(n−1))のn個のローカルピークは、この
フレームにおける女声歌唱者(me)の正弦波成分(以
下、これらをまとめてfn、anと表記する。)とし
て、正弦波成分保持部13に保持されるとともに、アン
プanは平均アンプ演算部14に入力され、各フレーム
毎に次式により平均アンプAmeが算出される。 Ame=Σ(an)/n 次にアンプ正規化部15において、次式により各アンプ
Anを平均アンプAmeで正規化し、正規化アンプa’
nを求める。 a’n=an/Ame
6において、周波数fn及び正規化アンプa’nにより
得られるローカルピーク(fn、a’n)をブレークポ
イントとするエンベロープをスペクトラル・シェイプS
me(f)として生成する。この場合において、二つの
ブレークポイント間の周波数におけるアンプの値は、当
該二つのブレークポイントを、例えば、直線補間するこ
とにより算出する。なお、補間の方法は直線補間に限ら
れるものではない。続いてピッチ正規化部17において
は、各周波数fnをピッチ検出部7において検出したピ
ッチPmeで正規化し、正規化周波数f’nを求める。 f’n=fn/Pme
は、入力音声信号Svに含まれる正弦波成分に対応する
属性データである平均アンプAme、ピッチPme、ス
ペクトラル・シェイプSme(f)、正規化周波数f’
nを保持することとなる。なお、この場合において、正
規化周波数f’nは、倍音列の周波数の相対値を表して
おり、もし、フレームの倍音構造を完全倍音構造である
として取り扱うならば、保持する必要はない。一方、男
性歌唱者(target)の正弦波成分に基づいて生成された
補間スペクトラル・シェイプStar(f)は、ターゲ
ットフレーム情報保持部19を構成するハードディスク
などに予め保持されている。
ン処理部20は、女性歌唱者(me)のフレームが有声音と
判定されて音声変換処理が必要であるにもかかわらず、
対応男性歌唱者(target)のフレームが無声音のため対
応する補間スペクトラル・シェイプStar(f)が存
在しない場合の不都合を解消するための処理部である。
具体的には、当該男性歌唱者(target)の前後方向に存
在するフレームの補間スペクトラル・シェイプStar
(f)を使用するための処理を行って、いずれかのフレ
ームの補間スペクトラル・シェイプStar(f)を新
規スペクトラル・シェイプ生成部21に出力する。
21について説明する。新規スペクトラル・シェイプ生
成部21は、元フレーム情報保持部18に保持された女
性歌唱者(me)の情報、および、イージーシンクロナイゼ
ーション処理部20から出力された補間スペクトラル・
シェイプStar(f)に基づいて新規スペクトラル・
シェイプの生成を行う。ここで、図3に示した女性のス
ペクトラル・シェイプSf(f)を女性歌唱者(me)のス
ペクトラル・シェイプSme(f)とし、図6に示した
男性の補間スペクトラル・シェイプSh(f)を男性歌
唱者(Target)の補間スペクトラル・シェイプStar
(f)とする。
プA(ff)=af0、af1、…、afnは元のまま
で、周波数成分ff0〜ffnのみをα倍(0<α<
1)して、すなわち、スペクトラル・シェイプを周波数
軸に沿って低域側にシフトすることによりスペクトラル
・シェイプSme’(f)を生成する。すなわち、新規
スペクトラル・シェイプSme’(f)のブレークポイ
ントに対応する周波数は、αff0、αff1、……、
αffnとなる。この場合において、定数αは、出力ピ
ッチPnewおよび女性歌唱者(me)のピッチPmeに基
づいて以下のようにして求める。ここで、予め実験的に
定めたシフト係数γ(γ=1.2〜1.3/oct程
度)とすると、 α=γk k=log2(Pnew/Pme) であり、実際には、kの小数点以下は四捨五入する。
規スペクトラル・シェイプ生成部21から出力された新
規スペクトラル・シェイプSnew(f)に基づいて、
当該フレームにおける新規正弦波成分(f”0、a”
0)、(f”1、a”1)、(f”2、a”2)、…
…、(f”(n−1)、a”(n−1))のn個のロー
カルピーク(以下、これらをまとめてf”n、a”nと
表記する)を求める。より具体的には、まず、正弦波成
分の周波数f”nを次式により算出する。 f”n=f’n×Pnew なお、本実施形態では、女性歌唱者(me)のピッチPme
の2分の1の出力ピッチPnewとなるように設定され
ているので、Pnew=1/2Pmeであり、 f”n=f’n×1/2Pme となる。
に基づいて、次式により新規アンプa”nを算出する。 a”n=Snew(f”n)×Anew すなわち、新規スペクトラル・シェイプSnew(f)
および新規周波数f”nに基づいて算出される新規正規
化アンプに、新規平均アンプを乗算することによって、
新規アンプを算出する。なお、ここでは、新規平均アン
プAnewは、女性歌唱者(me)の平均アンプAmeと同
じ値を用いるものとする。そして、このようにして算出
された新規正弦波成分(f”n,a”n)は逆高速フー
リエ変換部23に出力される。
正弦波成分組(新規周波数f”nおよび新規アンプa”
n)並びに、残差成分Rme(f)をFFTバッファに
格納し、順次逆FFTを行い、さらに得られた時間軸信
号を一部重複するようにオーバーラップ処理し、それら
を加算する加算処理を行うことにより新しい有声音の時
間軸信号である変換音声信号を生成する。このとき、図
示しないコントローラから入力される正弦波成分/残差
成分バランス制御信号に基づいて、正弦波成分及び残差
成分の混合比率を制御し、よりリアルな有声信号を得
る。この場合において、一般的には、残差成分の混合比
率を大きくするとざらついた声が得られる。
周波数f”nおよび新規アンプa”n並びに新規残差成
分Rme(f)を格納するに際し、異なるピッチ、か
つ、適当なピッチで変換された正弦波成分をさらに加え
ることにより変換音声信号としてハーモニーを得ること
ができる。さらにシーケンサ25により伴奏音に適合し
たハーモニーピッチを与えることにより、伴奏に適合し
た音楽的ハーモニーを得ることができる。
検出信号U/Vme(t)に基づいて、入力音声信号Svが
無声(U)である場合には、入力音声信号Svをそのま
まミキサ27に出力する。また、入力音声信号Svが有
声(V)である場合には、逆FFT変換部23が出力し
た変換音声信号をミキサ27に出力する。この場合にお
いて、切替スイッチとしてクロスフェーダ24を用いて
いるのは、クロスフェード動作を行わせることによりス
イッチ切替時のクリック音の発生を防止するためであ
る。
音を発生するための音源制御情報を例えば、MIDI
(Musical Instrument Digital Interface)データなど
として音源部26に出力する。これにより音源部26
は、音源制御情報に基づいて伴奏信号を生成し、ミキサ
27に出力する。ミキサ27は、入力音声信号Svある
いは変換音声信号のいずれか一方及び伴奏信号を混合
し、混合信号を出力部28に出力する。出力部28は、
図示しない増幅器を有し混合信号を増幅して音響信号と
して出力することとなる。
声が、音高および声質などが自然な男性らしい音声に変
換されて、カラオケの伴奏とともに出力される。
はなく、以下のような各種の変換が可能である。
は、上記実施形態において説明したものに限らず他の技
術を用いてもよい。また、補間スペクトラル・シェイプ
Star(f)(図6においては、Sh(f))を生成
する手法は、上記実施形態において説明したものに限ら
ず、男性歌唱者(target)の周波数特性を示す補間がで
きれば他の補間方法でも構わない。すなわち、失われる
高域成分を補間できればよく、例えば、さらに出力ピッ
チに応じて傾きを補正してもよいし、女性歌唱者(me)の
正弦波成分に基づいて生成された直線を用いたり、男性
歌唱者(target)と女性歌唱者(me)との中間的な傾きの
直線を用いてもよい。また、直線にかぎらずカーブでも
構わない。さらに、ターゲットフレーム情報保持部19
の記憶容量が十分に確保される場合は、男性歌唱者(ta
rget)の高域成分を示すスペクトラル・シェイプそのも
のを補間スペクトラル・シェイプとしてもよい。
波成分生成部22においては、女性歌唱者(me)のの正弦
波成分を出力ピッチPnewに基づいてシフトしたもの
を使用していたが、これに限らず、男性歌唱者(targe
t)の正弦波成分を用いてもよい。この場合において、
いずれの正弦波成分を用いるかを選択できるようにして
もよい。
をジェンダーシフトする際の変形係数αの算出方法は、
女性歌唱者(me)のスペクトラル・シェイプよりも周波数
軸の低い方に圧縮されればよく、上記実施形態において
説明したものに限らず、他の方法で算出しても構わな
い。また、予め記憶されている男性歌唱者(target)の
スペクトラル・シェイプStar’(f)のブレークポ
イントとなる周波数にあわせてもよい。また、上記実施
形態においては、出力ピッチを女性歌唱者(me)の2分の
1としているが、女性歌唱者(me)のピッチよりも低くな
ればよく、これに限らず、β倍(0<β<1)であって
もよいし、予め記憶されている男性歌唱者(target)の
ピッチPtarを用いてもよい。また、上記実施形態に
おいては、平均アンプAnewには女性歌唱者(me)の平
均アンプと同じ値を用いているが、これに限らず、男性
歌唱者(target)の平均アンプAtarを用いるように
してもよい。また、上記実施形態においては、女性歌唱
者(me)の残差成分Rme(f)を用いているが、これに
限らず、男性歌唱者(target)の残差成分Rtar
(f)を用いてもよい。これらの場合において、スペク
トラル・シェイプStar’(f)、ピッチPtar、
および平均アンプAtarといった、男性歌唱者(targ
et)の属性データは、ターゲットフレーム情報保持部1
9に予め記憶しておくようにすればよい。さらに、これ
らの属性データの中から、各属性データごとにいずれを
用いるかについて選択できるようにしてもよい。
詳細なデータとしてピッチおよび平均アンプを、安定的
変化部分とビブラート的変化部分とに分離してもよい。
例えば、ピッチPmeの安定的変化部分をPme−st
aと、ビブラート的変化部分をPme−vibとして表
すようにする。同様に、平均アンプAmeの安定的変化
部分をAme−staと、ビブラート的変化部分をAm
e−vibとして表すようにする。より具体的には、平
均アンプAmeを平均アンプ静的成分Ame−sta及
び平均アンプビブラート的成分Ame−vibとに分離
して保持する。また、ピッチPmeをピッチ静的成分P
me−sta及びピッチビブラート的成分Pme−vi
bとに分離して保持する。なお、さらにビブラート変化
的成分からより高周波変化成分であるジッタ変化的成分
を分離するように構成することも可能である。この場合
において、ターゲットフレーム情報データとしても、平
均アンプ静的成分Atar−sta、平均アンプビブラ
ート的成分Atar−vib、ピッチ静的成分Ptar
−sta、ピッチビブラート的成分Ptar−vibを
保持するようにしてもよい。
部を設けて、シーケンサ25からの同期信号に基づい
て、ターゲットフレーム情報保持部19から同期信号に
対応するフレームに関する属性データの読出処理及び読
み出した属性データの補正処理を行うとともに、当該フ
レームが無声であるか有声であるかを表すターゲット無
声/有声検出信号U/Vtarを出力するようにしてもよ
い。より具体的には、キーコントロール/テンポチェン
ジ部に設けられたキーコントロールユニットを用いて、
カラオケ装置のキーを基準より上げ下げした場合、男性
歌唱者(target)の属性データであるピッチ静的成分P
tar−sta及びピッチビブラート的成分Ptar−
vibについても、同じだけ上げ下げする補正処理を行
う。例えば、50[cent]だけキーを上げた場合には、
ピッチ静的成分Ptar-sta及びピッチビブラート的成分
Ptar−vibについても50[cent]だけ上げなけ
ればならない。また、キーコントロール/テンポチェン
ジ部のテンポチェンジユニットは、カラオケ装置のテン
ポを上げ下げした場合には、変更後のテンポに相当する
タイミングで、属性データの読み出し処理を行う必要が
ある。
するタイミングに相当する男性歌唱者(target)の属性
データが存在しない場合には、当該必要なフレームのタ
イミングの前後のタイミングに存在する二つのフレーム
の属性データを読み出し、これら二つの属性データによ
り補間処理を行い、当該必要なタイミングにおけるフレ
ームの属性データを生成する。また、ビブラート的成分
(平均アンプビブラート的成分Atar−vib及びピ
ッチビブラート的成分Ptar−vib)に関しては、
そのままでは、ビブラートの周期自体が変化してしま
い、不適当であるので、周期が変動しないような補間処
理を行う必要がある。又は、ターゲット属性データとし
て、ビブラートの軌跡そのものを表すデータではなく、
ビブラート周期及びビブラート深さのパラメータを保持
し、実際の軌跡を演算により求めるようにすれば、この
不具合を回避することができる。
ーション部20における処理においても、ビブラート的
成分(平均アンプビブラート的成分Atar−vib及
びピッチビブラート的成分Ptar−vib)に関して
は、そのままでは、ビブラートの周期自体が変化してし
まい、不適当であるので、周期が変動しないような補間
処理を行う必要がある。又は、ターゲット属性データと
して、ビブラートの軌跡そのものを表すデータではな
く、ビブラート周期及びビブラート深さのパラメータを
保持し、実際の軌跡を演算により求めるようにすれば、
この不具合を回避することができる。
ェイプ生成部21の後に、スペクトラル・シェイプ加工
部を設けて、生成された新規スペクトラル・シェイプS
new(f)について、必要に応じてコントローラから
入力される新規スペクトラル・シェイプ加工情報に基づ
いて、さらに加工を行うようにしてもよい。例えば、新
規スペクトラル・シェイプSnew(f)を全体的に間
延びさせる等の加工を行う。
に正弦波成分変形部を設けて、必要に応じてコントロー
ラから入力される情報に基づいて、新規周波数f”nお
よび新規アンプa”nについてさらに変形を行うように
してもよい。例えば、偶数倍音成分の新規アンプa”n
(=a”0、a”2、a”4、……)だけを大きく(例
えば、2倍する)等の変形を行う。これによって得られ
る変換音声にさらにバラエティーを持たせることが可能
となる。
記憶された制御プログラムに基づいて上述の処理をおこ
なっているが、これに限らず、不揮発性メモリカード、
CD−ROM、フロッピーディスク、光磁気ディスク、
および磁気ディスク等の可搬型の記録媒体に記録された
制御プログラムをハードディスク等の記憶装置に転送で
きるように構成して、記憶装置に記憶された制御プログ
ラムに基づいて上述の処理を行ってもよい。このように
すれば、制御プログラムの追加(インストール)や更新
(バージョンアップ)の際に便利である。
聴感上自然に女性の声を男性の声に変換することが容易
になる。
(その1)である。
(その2)である。
である。
シフトした例を示す図である。
である。
ある。
である。
ある。
検出を説明するための説明図である。
連携を示す図である。
す図である。
部、4…高速フーリエ変換部、5…ピーク検出部、6…
無声/有声検出部、7…ピッチ抽出部、8…ピーク連携
部、9…補間合成部、10…残差成分検出部、11…高
速フーリエ変換部、12…残差成分保持部、13…正弦
波成分保持部、14…平均アンプ演算部、15…アンプ
正規化部、16…スペクトラル・シェイプ生成部、17
…ピッチ正規化部、18…元フレーム情報保持部、19
…ターゲットフレーム情報保持部、20…イージーシン
クロナイゼーション処理部、21…新規スペクトラル・
シェイプ生成部、22…新規正弦波成分生成部、23…
逆高速フーリエ変換部、24…クロスフェーダ部、25
…シーケンサ、26…音源部、27…ミキサ、28…出
力部。
Claims (6)
- 【請求項1】 入力音声信号を構成する波形成分のうち
周波数およびアンプによって示される正弦波成分に基づ
いて、ピッチおよび音質を変換した変換音声信号を出力
する音声変換装置であって、 前記入力音声信号の周波数成分のうち最大周波数のα倍
(0<α<1)以上の周波数域について補間する補間ス
ペクトラル・シェイプを予め保持し、前記入力音声信号
のスペクトラル・シェイプのブレークポイントについ
て、その周波数をα倍したブレークポイントを有するシ
フトスペクトラル・シェイプを生成し、前記シフトスペ
クトラル・シェイプに前記補間スペクトラル・シェイプ
を補間して新規スペクトラル・シェイプを生成する新規
スペクトラル・シェイプ生成手段と、 予め設定された出力ピッチおよび前記新規スペクトラル
・シェイプに基づいて、新規正弦波成分を生成する新規
正弦波成分生成手段と、 生成された前記新規正弦波成分に基づいて変換音声信号
を生成する変換音声信号生成手段とを備えることを特徴
とする音声変換装置。 - 【請求項2】 前記αは、前記入力音声信号と変換音声
信号とのピッチ差に基づいて算出されることを特徴とす
る請求項1に記載の音声変換装置。 - 【請求項3】 前記補間スペクトラル・シェイプは、前
記入力音声信号とは異なる他音声信号のスペクトラル・
シェイプに基づいて生成されることを特徴とする請求項
1に記載の音声変換装置。 - 【請求項4】 前記補間スペクトラル・シェイプは、前
記他音声信号のスペクトラル・シェイプを関数によって
近似したものであることを特徴とする請求項3に記載の
音声変換装置。 - 【請求項5】 入力音声信号を構成する波形成分のうち
周波数およびアンプによって示される正弦波成分に基づ
いて、ピッチおよび音質を変換した変換音声信号を出力
する音声変換方法であって、 前記入力音声信号の周波数成分のうち最大周波数のα倍
(0<α<1)以上の周波数域について補間する補間ス
ペクトラル・シェイプを予め保持し、前記入力 音声信号
のスペクトラル・シェイプのブレークポイントについ
て、その周波数をα倍したブレークポイントを有するシ
フトスペクトラル・シェイプを生成し、前記シフトスペ
クトラル・シェイプに前記補間スペクトラル・シェイプ
を補間して新規スペクトラル・シェイプを生成する新規
スペクトラル・シェイプ生成段階と、 予め設定された出力ピッチおよび前記新規スペクトラル
・シェイプに基づいて、新規正弦波成分を生成する新規
正弦波成分生成段階と、 生成された前記新規正弦波成分に基づいて変換音声信号
を生成する変換音声信号生成段階とを備えることを特徴
とする音声変換方法。 - 【請求項6】 コンピュータに、入力音声信号を構成す
る波形成分のうち周波数およびアンプによって示される
正弦波成分に基づいて、ピッチおよび音質を変換した変
換音声信号を出力する処理を実行させるための音声変換
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、 前記入力音声信号の周波数成分のうち最大周波数のα倍
(0<α<1)以上の周波数域について補間する補間ス
ペクトラル・シェイプを予め保持し、前記入力音声信号
のスペクトラル・シェイプのブレークポイントについ
て、その周波数をα倍したブレークポイントを有するシ
フトスペクトラル・シェイプを生成し、前記シフトスペ
クトラル・シェイプに前記補間スペクトラル・シェイプ
を補間して新規スペクトラル・シェイプを生成する新規
スペクトラル・シェイプ生成段階と、 予め設定された出力ピッチおよび前記新規スペクトラル
・シェイプに基づいて、新規正弦波成分を生成する新規
正弦波成分生成段階と、 生成された前記新規正弦波成分に基づいて変換音声信号
を生成する変換音声信号生成段階とを実行させるための
音声変換プログラムを記録したコンピュータ読み取り可
能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17033898A JP3447221B2 (ja) | 1998-06-17 | 1998-06-17 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17033898A JP3447221B2 (ja) | 1998-06-17 | 1998-06-17 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000010595A JP2000010595A (ja) | 2000-01-14 |
JP3447221B2 true JP3447221B2 (ja) | 2003-09-16 |
Family
ID=15903084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17033898A Expired - Fee Related JP3447221B2 (ja) | 1998-06-17 | 1998-06-17 | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3447221B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4480650B2 (ja) * | 2005-09-08 | 2010-06-16 | ローランド株式会社 | ピッチ制御装置及びピッチ制御プログラム |
WO2011004579A1 (ja) | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
CN102667926A (zh) * | 2009-12-21 | 2012-09-12 | 富士通株式会社 | 声音控制装置以及声音控制方法 |
CN102930863B (zh) * | 2012-10-19 | 2014-05-28 | 河海大学常州校区 | 一种基于简化自适应内插加权谱模型的语音转换及重构方法 |
JP6390690B2 (ja) * | 2016-12-05 | 2018-09-19 | ヤマハ株式会社 | 音声合成方法および音声合成装置 |
JP6891662B2 (ja) * | 2017-06-23 | 2021-06-18 | 富士通株式会社 | 音声評価プログラム、音声評価方法および音声評価装置 |
-
1998
- 1998-06-17 JP JP17033898A patent/JP3447221B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000010595A (ja) | 2000-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6336092B1 (en) | Targeted vocal transformation | |
US7606709B2 (en) | Voice converter with extraction and modification of attribute data | |
US7379873B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method and program for synthesizing singing voice | |
EP1688912B1 (en) | Voice synthesizer of multi sounds | |
Cano et al. | Voice Morphing System for Impersonating in Karaoke Applications. | |
Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
US7135636B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method and program for singing voice synthesizing | |
Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
Bonada et al. | Singing voice synthesis combining excitation plus resonance and sinusoidal plus residual models | |
JP3447221B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP3540159B2 (ja) | 音声変換装置及び音声変換方法 | |
JP4757971B2 (ja) | ハーモニー音付加装置 | |
JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
JP5176981B2 (ja) | 音声合成装置、およびプログラム | |
JP3502268B2 (ja) | 音声信号処理装置及び音声信号処理方法 | |
JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3294192B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3540160B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3949828B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
JP3907838B2 (ja) | 音声変換装置及び音声変換方法 | |
JP3934793B2 (ja) | 音声変換装置及び音声変換方法 | |
Cano Vila et al. | Voice morphing system for impersonating in karaoke applications | |
JP2000010600A (ja) | 音声変換装置および音声変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313532 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090704 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100704 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110704 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120704 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130704 Year of fee payment: 10 |
|
LAPS | Cancellation because of no payment of annual fees |