JPH1185194A - 声質変換音声合成装置 - Google Patents

声質変換音声合成装置

Info

Publication number
JPH1185194A
JPH1185194A JP9239532A JP23953297A JPH1185194A JP H1185194 A JPH1185194 A JP H1185194A JP 9239532 A JP9239532 A JP 9239532A JP 23953297 A JP23953297 A JP 23953297A JP H1185194 A JPH1185194 A JP H1185194A
Authority
JP
Japan
Prior art keywords
speech
voice
speaker
spectrum
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9239532A
Other languages
English (en)
Inventor
Fumi Cho
文 丁
Norio Higuchi
宜男 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Original Assignee
ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
ATR Interpreting Telecommunications Research Laboratories
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK, ATR Interpreting Telecommunications Research Laboratories filed Critical ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK
Priority to JP9239532A priority Critical patent/JPH1185194A/ja
Publication of JPH1185194A publication Critical patent/JPH1185194A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来技術に比較して高い精度で声質変換して
音声合成することができる声質変換音声合成装置を提供
する。 【解決手段】 入力層と中間層と出力層とを有し、中間
層の各ユニットの出力信号がその入力信号と中心ベクト
ルを含むガウス関数で表され、出力層の各ユニットの出
力信号が中間層の各ユニットの出力信号と各重み係数と
の線形結合で表され、変換元話者の音声スペクトルを目
標話者の音声スペクトルに変換する複素ガウスRBFネ
ットワークを用いて、入力されるテキストデータに基づ
いて変換元話者の音声スペクトルを目標話者の音声信号
に変換して音声合成する。ここで、変換元話者の音声ス
ペクトルに対してクラスタリングして中心ベクトルを演
算し、変換元話者の音声スペクトルをネットワークに入
力したときに出力される音声スペクトルと、同一の発話
内容を有する目標話者の音声スペクトルとの誤差に基づ
いて誤差が最小となるように各重み係数を更新してネッ
トワークを学習する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、変換元話者の音声
を目標話者の音声に変換して音声合成する声質変換音声
合成装置に関する。
【0002】
【従来の技術】音声翻訳システムにおいては、ある言語
の話者がしゃべった内容を翻訳システムに介して別の言
語に翻訳させ、また、別の言語の話者のデータベースか
ら合成音声を作って応答する場合がある。そこで、自分
の声の特徴を持つ合成音声で別の言語を話すことが望ま
しい。音声の声質変換装置は別の言語の話者のデータベ
ースから作った合成音声を自分の声に変換させる装置で
ある。
【0003】従来、数多くの声質変換手法ではスペクト
ルのコードブックのマッピングによって声質変換を行っ
ている(例えば、従来技術文献「阿部匡伸ほか,“ベク
トル量子化による声質変換”,日本音響学会講演論文
集,2−6−14,昭和62年10月」及び特開平08
−248994号公報参照。)。また、複数話者のスペ
クトル線形補間及びRBFネットワークを用いて複数の
線形関数に対する重みを決定する方法が従来技術文献
「N.Iwahashi et al.,“Speech spectrum conversion b
ased on speaker interpolation and multi-functional
representation with weighting by radial basis fun
ction networks",Speech Communicatio,Vol.16,pp.139-
151,1995年」において提案されている。
【0004】
【発明が解決しようとする課題】しかしながら、これら
の声質変換は線形変換であるので、声質の違いの大きい
話者間に対して線形変換が不十分となり、変換音声の音
質が大幅に低下するという問題点があった。本発明の目
的は以上の問題点を解決し、従来技術に比較して高い精
度で声質変換して音声合成することができる声質変換音
声合成装置を提供することにある。
【0005】
【課題を解決するための手段】本発明に係る請求項1記
載の声質変換音声合成装置は、少なくとも入力層と中間
層と出力層とを有し、上記中間層の各ユニットの出力信
号がその入力信号と中心ベクトルtkを含むガウス関数
で表され、上記出力層の各ユニットの出力信号が上記中
間層の各ユニットの出力信号と各重み係数との線形結合
で表され、変換元話者の音声スペクトルを目標話者の音
声スペクトルに変換するための複素ガウスRBF(Radi
al Basis Function)ネットワークを用いて、入力され
る発声音声文のテキストデータに基づいて変換元話者の
音声スペクトルを目標話者の音声に変換して音声合成す
る声質変換音声合成装置であって、変換元話者の音声ス
ペクトルをテキストデータに対応して記憶する記憶手段
と、上記第1の記憶手段に記憶された変換元話者の音声
スペクトルに対してクラスタリング処理を実行すること
により上記各中心ベクトルを演算する処理手段と、変換
元話者の学習データである音声スペクトルを上記複素ガ
ウスRBFネットワークに入力して、上記複素ガウスR
BFネットワークから出力される音声スペクトルと、上
記変換元話者の学習データである音声スペクトルと同一
の発話内容を有する目標話者の学習データである音声ス
ペクトルとの誤差に基づいて、当該誤差が最小となるよ
うに上記各重み係数を更新することにより、上記複素ガ
ウスRBFネットワークを学習する学習手段と、入力さ
れる発声音声文のテキストデータを、上記記憶手段に記
憶された変換元話者の音声スペクトルを参照して、対応
する変換元話者の音声スペクトルに変換するデータ変換
手段と、上記データ変換手段によって変換された変換元
話者の音声スペクトルを、上記学習手段によって学習さ
れた複素ガウスRBFネットワークに入力して、当該学
習された複素ガウスRBFネットワークから出力される
目標話者の音声スペクトルに基づいて音声合成して目標
話者の音声信号を出力する音声合成手段とを備えたこと
を特徴とする。
【0006】また、請求項2記載の声質変換音声合成装
置は、請求項1記載の声質変換音声合成装置において、
上記処理手段は、適応k−meansアルゴリズムを用
いて上記クラスタリング処理を実行することを特徴とす
る。さらに、請求項3記載の声質変換音声合成装置は、
請求項1又は2記載の声質変換音声合成装置において、
上記学習手段は、最小2乗平均誤差法を用いて、上記誤
差が最小となるように上記各重み係数を更新することを
特徴とする。
【0007】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0008】図1は、本発明に係る一実施形態である声
質変換音声合成装置の構成を示すブロック図であり、図
2は図1の複素ガウスRBFネットワーク2の構成を示
すブロック図である。本発明者は、RBF(Radial Bas
is Function)ネットワーク2が優れた非線形マッピン
グの特性を持つということに注目し、本発明に係る実施
形態においては、話者間の声質変換を行うために、複素
ガウスRBFネットワーク2を用いて、話者のスペクト
ル変換を行う声質変換音声合成装置を発明した。
【0009】図2に示すように、複素ガウスRBFネッ
トワーク2は、好ましくは、少なくとも入力層100と
中間層200と出力層300の3層を有し、入力層10
0は複数Nx個の入力層ユニット100−1乃至100
−Nxからなり、中間層200は複数Nk個の中間層ユ
ニット200−1乃至200−Nkからなり、出力層3
00は複数Ny個の出力層ユニット300−1乃至30
0−Nyからなる。各入力層ユニット100−i(1≦
i≦Nx)はそれぞれ、変換元話者のスペクトルである
入力ベクトルxi(1≦i≦Nx)をk分配して重み係
数なしで各中間層ユニット200−1乃至200−Nk
に出力する。一方、中間層200と出力層300の間に
線形関係を表す重み係数があり、各中間層ユニット20
0−k(1≦k≦Nk)はそれぞれ中心ベクトルtk
持ち、その出力φkは中心ベクトルtkに関する対称関数
の出力であり、各出力層ユニット300−1乃至300
−Nyに出力される。本実施形態では、ガウス関数を使
用し、ガウスRBFネットワーク2となる。さらに、全
体のネットワーク2の出力はガウス関数の出力と重み係
数との線形結合であり、すなわち、各出力層ユニット3
00−i(1≦i≦Ny)はそれぞれ、各中間層ユニッ
ト200−kから出力される出力信号φ(x,tk)に
重み係数wjkを乗算した結果の和yiを出力する。
【0010】従って、複素ガウスRBFネットワーク2
による入力区間から出力区間までのマッピングは非線形
変換と線形変換からなり、全体的には非線形変換のニュ
ーラルネットワークである。例えば、MLP(multi-la
yer perceptron)ネットワークと比べて、RBFネット
ワークには構造の簡単さ、学習の収束の速さという特徴
がある。図2に示すように、本実施形態に用いられるR
BFネットワークの入力と出力ベクトルは複素数で表現
され、音声信号のスペクトルを表す「フォルマント周波
数」の実数部と、「バンド幅」の虚数部とで表される。
図1の変換元話者の音声データベースメモリ11内の音
声スペクトルの入力ベクトルxiは次式で表される。
【数1】 xi =Re[xi]+jIm[xi] =ψF(Fi)+jψB(Bi),1≦i≦Nx
【0011】ここで、j=√(−1)、Fi、Biはそれ
ぞれ入力音声の第iフォルマント周波数とそのバンド幅
であり、Nxは入力層100の次元数である。例えば、
音声スペクトルのサンプリング周波数を12kHzに設
定したとき、第1から第6フォルマント周波数までを用
いる。また、本実施形態では、複素ガウスRBFネット
ワーク2の入力ベクトルxiとして、フォルマント周波
数Fi、バンド幅Biの値ではなく、次式に示すように、
変換元話者の音声データベースにおけるそれらの平均値
i,mean及び分散Fi,varで正規化した値ψF(Fi),
ψBを用いる。
【数2】ψF(Fi)=(Fi−Fi,mean)/Fi,var,1
≦i≦Nx
【数3】ψB(Bi)=(Bi−Bi,mean)/Bi,var,1
<i<Nx
【0012】一方、複素ガウスRBFネットワーク2か
ら出力される目標話者の音声スペクトルである出力ベク
トルyjは、次式で表される。
【数4】 yj =Re[yj]+jIm[yj] =ψF(Fj)+jψB(Bj),1≦j≦Ny ここで、Fj、Bjは、目標話者の出力音声の第jフォル
マント周波数とバンド幅であり、Nyは出力層300の
次元数である。
【0013】さらに、中間層200の第k番目の中間層
ユニット200−kから出力される出力信号φkは次式
で表される。
【数5】 φk =φ(x,tK) =exp(‖x−tK2/2σk 2),1≦k≦Nk
【0014】ここで、Nkは中間層200の次元数であ
る。tkは入力層100の次元数Nxを持つk番目の中
間層ユニット200−kの中心複素ベクトルであり、詳
細後述するように、変換元話者の音声データベースに対
してクラスタリングすることによる得られる。‖x−t
k‖は入力ベクトルxと中心ベクトルtkのユークリッド
距離である。σkはガウス分布の分散である。また、す
べてのφk、σkは実数である。従って、入力と出力との
間のマッピングは次のように実現できる。
【数6】
【数7】
【0015】次いで、複素ガウスRBFネットワーク2
の学習処理について説明する。同じ発声内容の変換元話
者及び目標話者の音声スペクトルの学習データをそれぞ
れ入力層100、出力層300に与えて、複素ガウスR
BFネットワーク2を学習させ、ここで、中心ベクトル
k及び重み係数wjkを決定する。学習方法としては、
(1)ランダムに選ばれた中心ベクトルtkとSVD(S
ingular-Value Decompositionの略である。)による重
み係数wjkの計算、(2)教師なしの適応k−mean
sアルゴリズムと教師付きの最小2乗平均誤差法(以
下、LMS法という。)(又は、回帰最小2乗誤差法
(RMS))によるハイブリッド学習法、及び(3)中
心ベクトルtk、重み係数wjk及びσkを誤差補正学習法
により同時に求める方法が考えられるが、本実施形態で
は、高い学習精度と小さい計算量を有する上記(2)の
方法を用いる。なお、本発明において、上記(2)の方
法であっても、回帰最小2乗誤差法(RMS)を用いて
もよく、もしくは、上記(1)又は(3)の学習方法を
用いてもよい。
【0016】図1において、変換元話者の音声データベ
ースメモリ11には、発声音声文のテキストデータに対
する変換元話者の音声スペクトル、具体的には、フォル
マント周波数とバンド幅に関するデータが格納される。
また、変換元話者の学習メモリ13及び目標話者の学習
データメモリ14には、所定の同一の発声音声文(発声
内容)の音声スペクトル、具体的には、フォルマント周
波数とバンド幅に関するデータが格納される。
【0017】学習処理においては、クラスタリング処理
部1は、変換元話者の音声データベースメモリ11内の
音声スペクトルに対して、適応k−meansアルゴリ
ズム(例えば、従来技術文献「C.Chinrungrueng et a
l.,“Optimal adaptive k-means algorithm with dynam
ic adjustment of learning rate",IEEE Transaction o
n Neural Networks,Vol.6,No.1,pp.157-168,1995年」参
照。)を用いてクラスタリング処理を実行することによ
り、中心ベクトルtkを推定して中心ベクトルメモリ1
2に格納し、当該中心ベクトルtkは複素ガウスRBF
ネットワーク2に設定される。通常のk−meansア
ルゴリズムでは、初期値の設定による影響を受け、非最
適な中心ベクトルへの収束が考えられる。本実施形態に
おいては、次式を用いて、理論的に中心ベクトルtk
びデータ量が十分であれば、「各クラスタが均一の分散
を持つ」ということに基づいて、各クラスタの分散vk
を考慮して中心ベクトルtkの変化率を推定することが
できる。具体的には、新しいデータに対しては、どちら
のクラスタに属するかを判断するとき、分布の小さいク
ラスタに判断される割合が大きく、そのクラスタの分布
が大きくなる可能性が高く、したがって、大量の学習デ
ータに対しては、各クラスタの分布が均一になる、とい
う処理を実行することにより、クラスタリング処理を実
行する。
【0018】
【数8】tk(n+1)=tk(n)+Mk(x(n))
{η(x(n)−tk(n))}
【数9】 Mk(x) =1;もしvk(‖x−tk2)≦vi(‖x−ti2),i≠kのとき =0;それ以外のとき
【数10】vk(n+1)=βvk(n)+(1−β)
{Mk(x(n))‖x(n)−tk(n)‖2
【数11】η={ln(Nk)−H(v1,v2,…,v
Nk)}/ln(Nk) ここで、
【数12】 ただし、
【数13】
【数14】β=0.99
【0019】ここで、Mk(x)は入力xがクラスタk
に属するときに1、その他の場合に0、という関数であ
り、ηは学習率であり、H(v1,v2,…,vNk)は正
規化した全クラスタの分布のエントロピーであり、v
k,normは正規化されたクラスタの分散である。また、中
心ベクトルの初期値tk(0)は学習データのスペクト
ル区間においてランダム的にNk個のサンプルを取るよ
うに設定される。
【0020】次いで、求めた中心ベクトルtkを固定し
て中間層200と出力層300の間の重み係数wjkを推
定する。ここで、LMS法による重み係数wjkの推定は
次式のように実行する。
【0021】
【数15】
【数16】 wjk(n)=wjk(n−1)+αφk(n)ej(n)
【0022】ここで、1≦j≦Ny、1≦k≦Nkであ
り、dj(n)は目標話者の学習データメモリ14から
読み出される学習データベクトル(フォルマント周波数
及びバンド幅)であり、αは学習レートであって、正の
実数値、好ましくは、0.95<α<1.0である。
【0023】すなわち、図1に示すように、クラスタリ
ング処理により推定された中心ベクトルtkを有する複
素ガウスネットワーク2に対して、変換元話者の学習デ
ータメモリ13から読み出した音声スペクトルの入力ベ
クトルxiを入力して、複素ガウスRBFネットワーク
2から出力される音声スペクトルの出力ベクトルyj
加算器3に入力する一方、目標話者の学習データメモリ
14から読み出した同一の発話内容の音声スペクトルの
ベクトルを加算器3に入力することにより、その誤差e
jを演算して重み係数更新部4に出力する。これに応答
して、重み係数更新部4は、LMS法を用いて、誤差の
2乗平均が最小となるように、数16に従って、複素ガ
ウスRBFネットワーク2の重み係数wjkを更新する。
この学習データを用いて重み係数wjkを更新する処理を
複数回繰り返し実行する。このようにして学習された複
素ガウスRBFネットワーク2は、複素ガウスRBFネ
ットワーク2aとして音声合成装置において用いる。
【0024】図1の声質変換音声合成装置において、入
力手段として例えば、キーボード5を用いて、発声音声
文の文字列を入力することにより、そのテキストデータ
が音声データ変換部6に入力され、これに応答して、音
声データ変換部6は、テキストデータの文字列に対応す
る音声スペクトル(フォルマント周波数及びバンド幅)
のベクトルを、変換元話者の音声データベースメモリ1
1の音声データベースから読み出して、テキストデータ
の文字列を音声スペクトルの入力ベクトルxiに変換し
て、学習後の複素ガウスRBFネットワーク2aに入力
する。これに応答して、複素ガウスRBFネットワーク
2aから出力される出力ベクトルyjからなる音声スペ
クトルを音声合成部7に入力する。音声合成部7は、公
知の通り、パルス発生器と、雑音発生器と、これらの発
生の出力を、入力される音声スペクトルに基づいた制御
信号により切り換えるスイッチと、そのスイッチの出力
信号を、入力される音声スペクトルに基づいた別の制御
信号により振幅を変更するように増幅する振幅変更型増
幅器と、その出力をろ波するフィルタとからなり、入力
される音声スペクトルに基づいて、発声音声信号を発生
してスピーカ8に出力することにより、キーボード5を
用いて入力された発声音声文が目標話者の音声としてス
ピーカ8から出力される。
【0025】以上の実施形態において、クラスタリング
処理部1、複素ガウスRBFネットワーク2、加算器3
及び重み係数更新部4は、例えば、ディジタル計算機で
構成される。
【0026】
【実施例】本発明者は、本特許出願人が所有する音声デ
ータベースを用いて、本実施形態の声質変換音声合成装
置について実験を行い、ここで、男性話者MHTから女
性話者FMPへの声質変換実験を行った。複素ガウスR
BFネットワーク2においては、Nx=5,Ny=4,
Nk=50に設定した。音声のサンプリング周波数は1
2kHzであり、変換元話者の音声又は学習用音声を公
知のARX(Auto-regressive model with an eXogenou
s inputの略。)法で音源とフォルマントパラメータを
分析した。男性話者MHTの20文によりクラスタリン
グ処理を行い、中心ベクトルtkを求めた。そして両話
者の同じ発音内容の2文を学習データとして複素ガウス
RBFネットワーク2を学習させた。学習の繰り返す回
数は120回であった。ここで、変換したい男性話者M
HTの文に対して、男性話者MHTの音源部分の基本周
波数f0、声門開放率OQをそれぞれ女性話者FMPの
平均値まで変換した。複素ガウスRBFネットワーク2
の出力は男性話者MHTから変換したフォルマント情報
である。
【0027】図3は、発話内容が“一週間ばかりニュー
ヨークを取材した。”であるときの図1の声質変換音声
合成装置の実験結果であって、(a)は変換元男性話者
MHTの音声スペクトルを示すスペクトル図であり、
(b)は変換元男性話者MHTから目的女性話者FMP
へ声質変換したときの音声スペクトルを示すスペクトル
図であり、(c)は目的女性話者FMPの音声スペクト
ルを示すスペクトル図である。ここで、図3のスペクト
ルは周波数6kHzまでを示す。図3から明らかなよう
に、学習された複素ガウスRBFネットワーク2aによ
って声質変換された音声は目標話者に近い音声のスペク
トルが得られた。また、聴覚的に変換音声は女性話者F
MPに近い女性の音声が確認された。
【0028】以上説明したように、本実施形態によれ
ば、複素ガウスRBFネットワーク2を学習することに
より得られた複素ガウスRBFネットワーク2aを用い
て声質変換することにより、従来技術に比較して高い精
度で声質変換して音声合成することができる声質変換音
声合成装置を提供することができる。また、少ない学習
データを用いて、より精度が高い声質変換を行うことが
できる。
【0029】
【発明の効果】以上詳述したように本発明によれば、少
なくとも入力層と中間層と出力層とを有し、上記中間層
の各ユニットの出力信号がその入力信号と中心ベクトル
を含むガウス関数で表され、上記出力層の各ユニットの
出力信号が上記中間層の各ユニットの出力信号と各重み
係数との線形結合で表され、変換元話者の音声スペクト
ルを目標話者の音声スペクトルに変換するための複素ガ
ウスRBF(Radial Basis Function)ネットワークを
用いて、入力される発声音声文のテキストデータに基づ
いて変換元話者の音声スペクトルを目標話者の音声に変
換して音声合成する声質変換音声合成装置であって、変
換元話者の音声スペクトルをテキストデータに対応して
記憶する記憶手段と、上記第1の記憶手段に記憶された
変換元話者の音声スペクトルに対してクラスタリング処
理を実行することにより上記各中心ベクトルを演算する
処理手段と、変換元話者の学習データである音声スペク
トルを上記複素ガウスRBFネットワークに入力して、
上記複素ガウスRBFネットワークから出力される音声
スペクトルと、上記変換元話者の学習データである音声
スペクトルと同一の発話内容を有する目標話者の学習デ
ータである音声スペクトルとの誤差に基づいて、当該誤
差が最小となるように上記各重み係数を更新することに
より、上記複素ガウスRBFネットワークを学習する学
習手段と、入力される発声音声文のテキストデータを、
上記記憶手段に記憶された変換元話者の音声スペクトル
を参照して、対応する変換元話者の音声スペクトルに変
換するデータ変換手段と、上記データ変換手段によって
変換された変換元話者の音声スペクトルを、上記学習手
段によって学習された複素ガウスRBFネットワークに
入力して、当該学習された複素ガウスRBFネットワー
クから出力される目標話者の音声スペクトルに基づいて
音声合成して目標話者の音声信号を出力する音声合成手
段とを備える。ここで、上記処理手段は、好ましくは、
適応k−meansアルゴリズムを用いて上記クラスタ
リング処理を実行し、上記学習手段は、好ましくは、最
小2乗平均誤差法を用いて、上記誤差が最小となるよう
に上記各重み係数を更新する。
【0030】従って、複素ガウスRBFネットワークを
学習することにより得られた複素ガウスRBFネットワ
ークを用いて声質変換することにより、従来技術に比較
して高い精度で声質変換して音声合成することができる
声質変換音声合成装置を提供することができる。また、
少ない学習データを用いて、より精度が高い声質変換を
行うことができる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である声質変換音声
合成装置の構成を示すブロック図である。
【図2】 図1の複素RBFネットワークの構成を示す
ブロック図である。
【図3】 発話内容が“一週間ばかりニューヨークを取
材した。”であるときの図1の声質変換音声合成装置の
実験結果であって、(a)は変換元男性話者MHTの音
声スペクトルを示すスペクトル図であり、(b)は変換
元男性話者MHTから目的女性話者FMPへ声質変換し
たときの音声スペクトルを示すスペクトル図であり、
(c)は目的女性話者FMPの音声スペクトルを示すス
ペクトル図である。
【符号の説明】
1…クラスタリング処理部、 2…複素ガウスRBFネットワーク、 2a…学習後の複素ガウスRBFネットワーク、 3…加算器、 4…重み係数更新部、 5…キーボード、 6…音声データ変換部、 7…音声合成部、 8…スピーカ、 11…変換元話者の音声データベース、 12…中心ベクトルメモリ、 13…変換元話者の学習データメモリ、 14…目標話者の学習データメモリ、 100…入力層、 100−1乃至100−Nx…入力層ユニット、 200…中間層、 200−1乃至200−Nk…中間層ユニット、 300…出力層、 300−1乃至300−Ny…出力層ユニット。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも入力層と中間層と出力層とを
    有し、上記中間層の各ユニットの出力信号がその入力信
    号と中心ベクトルを含むガウス関数で表され、上記出力
    層の各ユニットの出力信号が上記中間層の各ユニットの
    出力信号と各重み係数との線形結合で表され、変換元話
    者の音声スペクトルを目標話者の音声スペクトルに変換
    するための複素ガウスRBF(Radial Basis Functio
    n)ネットワークを用いて、入力される発声音声文のテ
    キストデータに基づいて変換元話者の音声スペクトルを
    目標話者の音声に変換して音声合成する声質変換音声合
    成装置であって、 変換元話者の音声スペクトルをテキストデータに対応し
    て記憶する記憶手段と、 上記第1の記憶手段に記憶された変換元話者の音声スペ
    クトルに対してクラスタリング処理を実行することによ
    り上記各中心ベクトルを演算する処理手段と、 変換元話者の学習データである音声スペクトルを上記複
    素ガウスRBFネットワークに入力して、上記複素ガウ
    スRBFネットワークから出力される音声スペクトル
    と、上記変換元話者の学習データである音声スペクトル
    と同一の発話内容を有する目標話者の学習データである
    音声スペクトルとの誤差に基づいて、当該誤差が最小と
    なるように上記各重み係数を更新することにより、上記
    複素ガウスRBFネットワークを学習する学習手段と、 入力される発声音声文のテキストデータを、上記記憶手
    段に記憶された変換元話者の音声スペクトルを参照し
    て、対応する変換元話者の音声スペクトルに変換するデ
    ータ変換手段と、 上記データ変換手段によって変換された変換元話者の音
    声スペクトルを、上記学習手段によって学習された複素
    ガウスRBFネットワークに入力して、当該学習された
    複素ガウスRBFネットワークから出力される目標話者
    の音声スペクトルに基づいて音声合成して目標話者の音
    声信号を出力する音声合成手段とを備えたことを特徴と
    する声質変換音声合成装置。
  2. 【請求項2】 請求項1記載の声質変換音声合成装置に
    おいて、 上記処理手段は、適応k−meansアルゴリズムを用
    いて上記クラスタリング処理を実行することを特徴とす
    る声質変換音声合成装置。
  3. 【請求項3】 請求項1又は2記載の声質変換音声合成
    装置において、 上記学習手段は、最小2乗平均誤差法を用いて、上記誤
    差が最小となるように上記各重み係数を更新することを
    特徴とする声質変換音声合成装置。
JP9239532A 1997-09-04 1997-09-04 声質変換音声合成装置 Pending JPH1185194A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9239532A JPH1185194A (ja) 1997-09-04 1997-09-04 声質変換音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9239532A JPH1185194A (ja) 1997-09-04 1997-09-04 声質変換音声合成装置

Publications (1)

Publication Number Publication Date
JPH1185194A true JPH1185194A (ja) 1999-03-30

Family

ID=17046217

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9239532A Pending JPH1185194A (ja) 1997-09-04 1997-09-04 声質変換音声合成装置

Country Status (1)

Country Link
JP (1) JPH1185194A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JP2007192931A (ja) * 2006-01-17 2007-08-02 Asahi Kasei Corp 声質変換吹替システム、及び、プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
US8099282B2 (en) 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
JP2019035902A (ja) * 2017-08-18 2019-03-07 日本電信電話株式会社 距離測定装置、データ変換装置、距離測定方法、及びプログラム
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051689A (ja) * 1999-07-02 2001-02-23 Mitsubishi Electric Inf Technol Center America Inc 信号の混合物からの特徴抽出方法およびその装置
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
JP2005300692A (ja) * 2004-04-07 2005-10-27 Sony Corp ロボットの行動制御システム及び行動制御方法、並びにロボット装置
US8145492B2 (en) 2004-04-07 2012-03-27 Sony Corporation Robot behavior control system and method, and robot apparatus
WO2005109399A1 (ja) * 2004-05-11 2005-11-17 Matsushita Electric Industrial Co., Ltd. 音声合成装置および方法
JPWO2005109399A1 (ja) * 2004-05-11 2007-08-02 松下電器産業株式会社 音声合成装置および方法
US7912719B2 (en) 2004-05-11 2011-03-22 Panasonic Corporation Speech synthesis device and speech synthesis method for changing a voice characteristic
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
JPWO2006040908A1 (ja) * 2004-10-13 2008-05-15 松下電器産業株式会社 音声合成装置及び音声合成方法
JP4928465B2 (ja) * 2005-12-02 2012-05-09 旭化成株式会社 声質変換システム
US8099282B2 (en) 2005-12-02 2012-01-17 Asahi Kasei Kabushiki Kaisha Voice conversion system
JP2007192931A (ja) * 2006-01-17 2007-08-02 Asahi Kasei Corp 声質変換吹替システム、及び、プログラム
JP2008058696A (ja) * 2006-08-31 2008-03-13 Nara Institute Of Science & Technology 声質変換モデル生成装置及び声質変換システム
CN102568476A (zh) * 2012-02-21 2012-07-11 南京邮电大学 基于自组织特征映射网络聚类和径向基网络的语音转换法
JP2019035902A (ja) * 2017-08-18 2019-03-07 日本電信電話株式会社 距離測定装置、データ変換装置、距離測定方法、及びプログラム
JP2019040123A (ja) * 2017-08-28 2019-03-14 株式会社日立製作所 変換モデルの学習方法および変換モデルの学習装置

Similar Documents

Publication Publication Date Title
Chou et al. One-shot voice conversion by separating speaker and content representations with instance normalization
Kobayashi et al. Statistical Voice Conversion with WaveNet-Based Waveform Generation.
JP6903611B2 (ja) 信号生成装置、信号生成システム、信号生成方法およびプログラム
EP1995723B1 (en) Neuroevolution training system
US7792672B2 (en) Method and system for the quick conversion of a voice signal
JP2956548B2 (ja) 音声帯域拡大装置
Sisman et al. Adaptive wavenet vocoder for residual compensation in gan-based voice conversion
Hwang et al. LP-WaveNet: Linear prediction-based WaveNet speech synthesis
Hashimoto et al. Trajectory training considering global variance for speech synthesis based on neural networks
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
JP4817250B2 (ja) 声質変換モデル生成装置及び声質変換システム
CN111465982A (zh) 信号处理设备和方法、训练设备和方法以及程序
JP3536996B2 (ja) パラメータ変換方法及び音声合成方法
Hu et al. Whispered and Lombard neural speech synthesis
Bollepalli et al. Lombard speech synthesis using transfer learning in a tacotron text-to-speech system
JPH1185194A (ja) 声質変換音声合成装置
Kang et al. Statistical parametric speech synthesis using weighted multi-distribution deep belief network.
Gao et al. Personalized Singing Voice Generation Using WaveRNN.
JP2898568B2 (ja) 声質変換音声合成装置
Hashimoto et al. Many-to-many and completely parallel-data-free voice conversion based on eigenspace dnn
Uchino et al. A self-organizing map with twin units capable of describing a nonlinear input–output relation applied to speech code vector mapping
Lanchantin et al. Dynamic model selection for spectral voice conversion.
Huang et al. FlowCPCVC: A Contrastive Predictive Coding Supervised Flow Framework for Any-to-Any Voice Conversion.
Li et al. Spectro-Temporal Modelling with Time-Frequency LSTM and Structured Output Layer for Voice Conversion.
JP2951514B2 (ja) 声質制御型音声合成装置