JPH1185194A

JPH1185194A - 声質変換音声合成装置

Info

Publication number: JPH1185194A
Application number: JP9239532A
Authority: JP
Inventors: Fumi Cho; 文丁; Norio Higuchi; 宜男樋口
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1997-09-04
Filing date: 1997-09-04
Publication date: 1999-03-30

Abstract

(57)【要約】【課題】従来技術に比較して高い精度で声質変換して
音声合成することができる声質変換音声合成装置を提供
する。【解決手段】入力層と中間層と出力層とを有し、中間
層の各ユニットの出力信号がその入力信号と中心ベクト
ルを含むガウス関数で表され、出力層の各ユニットの出
力信号が中間層の各ユニットの出力信号と各重み係数と
の線形結合で表され、変換元話者の音声スペクトルを目
標話者の音声スペクトルに変換する複素ガウスＲＢＦネ
ットワークを用いて、入力されるテキストデータに基づ
いて変換元話者の音声スペクトルを目標話者の音声信号
に変換して音声合成する。ここで、変換元話者の音声ス
ペクトルに対してクラスタリングして中心ベクトルを演
算し、変換元話者の音声スペクトルをネットワークに入
力したときに出力される音声スペクトルと、同一の発話
内容を有する目標話者の音声スペクトルとの誤差に基づ
いて誤差が最小となるように各重み係数を更新してネッ
トワークを学習する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、変換元話者の音声
を目標話者の音声に変換して音声合成する声質変換音声
合成装置に関する。

【０００２】

【従来の技術】音声翻訳システムにおいては、ある言語
の話者がしゃべった内容を翻訳システムに介して別の言
語に翻訳させ、また、別の言語の話者のデータベースか
ら合成音声を作って応答する場合がある。そこで、自分
の声の特徴を持つ合成音声で別の言語を話すことが望ま
しい。音声の声質変換装置は別の言語の話者のデータベ
ースから作った合成音声を自分の声に変換させる装置で
ある。

【０００３】従来、数多くの声質変換手法ではスペクト
ルのコードブックのマッピングによって声質変換を行っ
ている（例えば、従来技術文献「阿部匡伸ほか，“ベク
トル量子化による声質変換”，日本音響学会講演論文
集，２−６−１４，昭和６２年１０月」及び特開平０８
−２４８９９４号公報参照。）。また、複数話者のスペ
クトル線形補間及びＲＢＦネットワークを用いて複数の
線形関数に対する重みを決定する方法が従来技術文献
「N.Iwahashi et al.,“Speech spectrum conversion b
ased on speaker interpolation and multi-functional
representation with weighting by radial basis fun
ction networks",Speech Communicatio,Vol.16,pp.139-
151,1995年」において提案されている。

【０００４】

【発明が解決しようとする課題】しかしながら、これら
の声質変換は線形変換であるので、声質の違いの大きい
話者間に対して線形変換が不十分となり、変換音声の音
質が大幅に低下するという問題点があった。本発明の目
的は以上の問題点を解決し、従来技術に比較して高い精
度で声質変換して音声合成することができる声質変換音
声合成装置を提供することにある。

【０００５】

【課題を解決するための手段】本発明に係る請求項１記
載の声質変換音声合成装置は、少なくとも入力層と中間
層と出力層とを有し、上記中間層の各ユニットの出力信
号がその入力信号と中心ベクトルｔ_kを含むガウス関数
で表され、上記出力層の各ユニットの出力信号が上記中
間層の各ユニットの出力信号と各重み係数との線形結合
で表され、変換元話者の音声スペクトルを目標話者の音
声スペクトルに変換するための複素ガウスＲＢＦ（Radi
al Basis Function）ネットワークを用いて、入力され
る発声音声文のテキストデータに基づいて変換元話者の
音声スペクトルを目標話者の音声に変換して音声合成す
る声質変換音声合成装置であって、変換元話者の音声ス
ペクトルをテキストデータに対応して記憶する記憶手段
と、上記第１の記憶手段に記憶された変換元話者の音声
スペクトルに対してクラスタリング処理を実行すること
により上記各中心ベクトルを演算する処理手段と、変換
元話者の学習データである音声スペクトルを上記複素ガ
ウスＲＢＦネットワークに入力して、上記複素ガウスＲ
ＢＦネットワークから出力される音声スペクトルと、上
記変換元話者の学習データである音声スペクトルと同一
の発話内容を有する目標話者の学習データである音声ス
ペクトルとの誤差に基づいて、当該誤差が最小となるよ
うに上記各重み係数を更新することにより、上記複素ガ
ウスＲＢＦネットワークを学習する学習手段と、入力さ
れる発声音声文のテキストデータを、上記記憶手段に記
憶された変換元話者の音声スペクトルを参照して、対応
する変換元話者の音声スペクトルに変換するデータ変換
手段と、上記データ変換手段によって変換された変換元
話者の音声スペクトルを、上記学習手段によって学習さ
れた複素ガウスＲＢＦネットワークに入力して、当該学
習された複素ガウスＲＢＦネットワークから出力される
目標話者の音声スペクトルに基づいて音声合成して目標
話者の音声信号を出力する音声合成手段とを備えたこと
を特徴とする。

【０００６】また、請求項２記載の声質変換音声合成装
置は、請求項１記載の声質変換音声合成装置において、
上記処理手段は、適応ｋ−ｍｅａｎｓアルゴリズムを用
いて上記クラスタリング処理を実行することを特徴とす
る。さらに、請求項３記載の声質変換音声合成装置は、
請求項１又は２記載の声質変換音声合成装置において、
上記学習手段は、最小２乗平均誤差法を用いて、上記誤
差が最小となるように上記各重み係数を更新することを
特徴とする。

【０００７】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【０００８】図１は、本発明に係る一実施形態である声
質変換音声合成装置の構成を示すブロック図であり、図
２は図１の複素ガウスＲＢＦネットワーク２の構成を示
すブロック図である。本発明者は、ＲＢＦ（Radial Bas
is Function）ネットワーク２が優れた非線形マッピン
グの特性を持つということに注目し、本発明に係る実施
形態においては、話者間の声質変換を行うために、複素
ガウスＲＢＦネットワーク２を用いて、話者のスペクト
ル変換を行う声質変換音声合成装置を発明した。

【０００９】図２に示すように、複素ガウスＲＢＦネッ
トワーク２は、好ましくは、少なくとも入力層１００と
中間層２００と出力層３００の３層を有し、入力層１０
０は複数Ｎｘ個の入力層ユニット１００−１乃至１００
−Ｎｘからなり、中間層２００は複数Ｎｋ個の中間層ユ
ニット２００−１乃至２００−Ｎｋからなり、出力層３
００は複数Ｎｙ個の出力層ユニット３００−１乃至３０
０−Ｎｙからなる。各入力層ユニット１００−ｉ（１≦
ｉ≦Ｎｘ）はそれぞれ、変換元話者のスペクトルである
入力ベクトルｘ_i（１≦ｉ≦Ｎｘ）をｋ分配して重み係
数なしで各中間層ユニット２００−１乃至２００−Ｎｋ
に出力する。一方、中間層２００と出力層３００の間に
線形関係を表す重み係数があり、各中間層ユニット２０
０−ｋ（１≦ｋ≦Ｎｋ）はそれぞれ中心ベクトルｔ_kを
持ち、その出力φ_kは中心ベクトルｔ_kに関する対称関数
の出力であり、各出力層ユニット３００−１乃至３００
−Ｎｙに出力される。本実施形態では、ガウス関数を使
用し、ガウスＲＢＦネットワーク２となる。さらに、全
体のネットワーク２の出力はガウス関数の出力と重み係
数との線形結合であり、すなわち、各出力層ユニット３
００−ｉ（１≦ｉ≦Ｎｙ）はそれぞれ、各中間層ユニッ
ト２００−ｋから出力される出力信号φ（ｘ，ｔ_k）に
重み係数ｗ_jkを乗算した結果の和ｙ_iを出力する。

【００１０】従って、複素ガウスＲＢＦネットワーク２
による入力区間から出力区間までのマッピングは非線形
変換と線形変換からなり、全体的には非線形変換のニュ
ーラルネットワークである。例えば、ＭＬＰ（multi-la
yer perceptron）ネットワークと比べて、ＲＢＦネット
ワークには構造の簡単さ、学習の収束の速さという特徴
がある。図２に示すように、本実施形態に用いられるＲ
ＢＦネットワークの入力と出力ベクトルは複素数で表現
され、音声信号のスペクトルを表す「フォルマント周波
数」の実数部と、「バンド幅」の虚数部とで表される。
図１の変換元話者の音声データベースメモリ１１内の音
声スペクトルの入力ベクトルｘ_iは次式で表される。

【数１】ｘ_i ＝Ｒｅ［ｘ_i］＋ｊＩｍ［ｘ_i］＝ψ_F（Ｆ_i）＋ｊψ_B（Ｂ_i），１≦ｉ≦Ｎｘ

【００１１】ここで、ｊ＝√（−１）、Ｆ_i、Ｂ_iはそれ
ぞれ入力音声の第ｉフォルマント周波数とそのバンド幅
であり、Ｎｘは入力層１００の次元数である。例えば、
音声スペクトルのサンプリング周波数を１２ｋＨｚに設
定したとき、第１から第６フォルマント周波数までを用
いる。また、本実施形態では、複素ガウスＲＢＦネット
ワーク２の入力ベクトルｘ_iとして、フォルマント周波
数Ｆ_i、バンド幅Ｂ_iの値ではなく、次式に示すように、
変換元話者の音声データベースにおけるそれらの平均値
Ｆ_i,mean及び分散Ｆ_i,varで正規化した値ψ_F（Ｆ_i），
ψ_Bを用いる。

【数２】ψ_F（Ｆ_i）＝（Ｆ_i−Ｆ_i,mean）／Ｆ_i,var，１
≦ｉ≦Ｎｘ

【数３】ψ_B（Ｂ_i）＝（Ｂ_i−Ｂ_i,mean）／Ｂ_i,var，１
＜ｉ＜Ｎｘ

【００１２】一方、複素ガウスＲＢＦネットワーク２か
ら出力される目標話者の音声スペクトルである出力ベク
トルｙ_jは、次式で表される。

【数４】ｙ_j ＝Ｒｅ［ｙ_j］＋ｊＩｍ［ｙ_j］＝ψ_F（Ｆ_j）＋ｊψ_B（Ｂ_j），１≦ｊ≦Ｎｙここで、Ｆ_j、Ｂ_jは、目標話者の出力音声の第ｊフォル
マント周波数とバンド幅であり、Ｎｙは出力層３００の
次元数である。

【００１３】さらに、中間層２００の第ｋ番目の中間層
ユニット２００−ｋから出力される出力信号φ_kは次式
で表される。

【数５】 φ_k ＝φ（ｘ，ｔ_K）＝ｅｘｐ（‖ｘ−ｔ_K‖²／２σ_k ²），１≦ｋ≦Ｎｋ

【００１４】ここで、Ｎｋは中間層２００の次元数であ
る。ｔ_kは入力層１００の次元数Ｎｘを持つｋ番目の中
間層ユニット２００−ｋの中心複素ベクトルであり、詳
細後述するように、変換元話者の音声データベースに対
してクラスタリングすることによる得られる。‖ｘ−ｔ
_k‖は入力ベクトルｘと中心ベクトルｔ_kのユークリッド
距離である。σ_kはガウス分布の分散である。また、す
べてのφ_k、σ_kは実数である。従って、入力と出力との
間のマッピングは次のように実現できる。

【数６】

【数７】

【００１５】次いで、複素ガウスＲＢＦネットワーク２
の学習処理について説明する。同じ発声内容の変換元話
者及び目標話者の音声スペクトルの学習データをそれぞ
れ入力層１００、出力層３００に与えて、複素ガウスＲ
ＢＦネットワーク２を学習させ、ここで、中心ベクトル
ｔ_k及び重み係数ｗ_jkを決定する。学習方法としては、
（１）ランダムに選ばれた中心ベクトルｔ_kとＳＶＤ（S
ingular-Value Decompositionの略である。）による重
み係数ｗ_jkの計算、（２）教師なしの適応ｋ−ｍｅａｎ
ｓアルゴリズムと教師付きの最小２乗平均誤差法（以
下、ＬＭＳ法という。）（又は、回帰最小２乗誤差法
（ＲＭＳ））によるハイブリッド学習法、及び（３）中
心ベクトルｔ_k、重み係数ｗ_jk及びσ_kを誤差補正学習法
により同時に求める方法が考えられるが、本実施形態で
は、高い学習精度と小さい計算量を有する上記（２）の
方法を用いる。なお、本発明において、上記（２）の方
法であっても、回帰最小２乗誤差法（ＲＭＳ）を用いて
もよく、もしくは、上記（１）又は（３）の学習方法を
用いてもよい。

【００１６】図１において、変換元話者の音声データベ
ースメモリ１１には、発声音声文のテキストデータに対
する変換元話者の音声スペクトル、具体的には、フォル
マント周波数とバンド幅に関するデータが格納される。
また、変換元話者の学習メモリ１３及び目標話者の学習
データメモリ１４には、所定の同一の発声音声文（発声
内容）の音声スペクトル、具体的には、フォルマント周
波数とバンド幅に関するデータが格納される。

【００１７】学習処理においては、クラスタリング処理
部１は、変換元話者の音声データベースメモリ１１内の
音声スペクトルに対して、適応ｋ−ｍｅａｎｓアルゴリ
ズム（例えば、従来技術文献「C.Chinrungrueng et a
l.,“Optimal adaptive k-means algorithm with dynam
ic adjustment of learning rate",IEEE Transaction o
n Neural Networks,Vol.6,No.1,pp.157-168,1995年」参
照。）を用いてクラスタリング処理を実行することによ
り、中心ベクトルｔ_kを推定して中心ベクトルメモリ１
２に格納し、当該中心ベクトルｔ_kは複素ガウスＲＢＦ
ネットワーク２に設定される。通常のｋ−ｍｅａｎｓア
ルゴリズムでは、初期値の設定による影響を受け、非最
適な中心ベクトルへの収束が考えられる。本実施形態に
おいては、次式を用いて、理論的に中心ベクトルｔ_k及
びデータ量が十分であれば、「各クラスタが均一の分散
を持つ」ということに基づいて、各クラスタの分散ｖ_k
を考慮して中心ベクトルｔ_kの変化率を推定することが
できる。具体的には、新しいデータに対しては、どちら
のクラスタに属するかを判断するとき、分布の小さいク
ラスタに判断される割合が大きく、そのクラスタの分布
が大きくなる可能性が高く、したがって、大量の学習デ
ータに対しては、各クラスタの分布が均一になる、とい
う処理を実行することにより、クラスタリング処理を実
行する。

【００１８】

【数８】ｔ_k（ｎ＋１）＝ｔ_k（ｎ）＋Ｍｋ（ｘ（ｎ））
｛η（ｘ（ｎ）−ｔ_k（ｎ））｝

【数９】Ｍｋ（ｘ）＝１；もしｖ_k（‖ｘ−ｔ_k‖²）≦ｖ_i（‖ｘ−ｔ_i‖²），ｉ≠ｋのとき＝０；それ以外のとき

【数１０】ｖ_k（ｎ＋１）＝βｖ_k（ｎ）＋（１−β）
｛Ｍｋ（ｘ（ｎ））‖ｘ（ｎ）−ｔ_k（ｎ）‖²｝

【数１１】η＝｛ｌｎ（Ｎｋ）−Ｈ（ｖ₁，ｖ₂，…，ｖ
_Nk）｝／ｌｎ（Ｎｋ）ここで、

【数１２】ただし、

【数１３】

【数１４】β＝０．９９

【００１９】ここで、Ｍｋ（ｘ）は入力ｘがクラスタｋ
に属するときに１、その他の場合に０、という関数であ
り、ηは学習率であり、Ｈ（ｖ₁，ｖ₂，…，ｖ_Nk）は正
規化した全クラスタの分布のエントロピーであり、ｖ
_k,normは正規化されたクラスタの分散である。また、中
心ベクトルの初期値ｔ_k（０）は学習データのスペクト
ル区間においてランダム的にＮ_k個のサンプルを取るよ
うに設定される。

【００２０】次いで、求めた中心ベクトルｔ_kを固定し
て中間層２００と出力層３００の間の重み係数ｗ_jkを推
定する。ここで、ＬＭＳ法による重み係数ｗ_jkの推定は
次式のように実行する。

【００２１】

【数１５】

【数１６】ｗ_jk（ｎ）＝ｗ_jk（ｎ−１）＋αφ_k（ｎ）ｅ_j（ｎ）

【００２２】ここで、１≦ｊ≦Ｎｙ、１≦ｋ≦Ｎｋであ
り、ｄ_j（ｎ）は目標話者の学習データメモリ１４から
読み出される学習データベクトル（フォルマント周波数
及びバンド幅）であり、αは学習レートであって、正の
実数値、好ましくは、０．９５＜α＜１．０である。

【００２３】すなわち、図１に示すように、クラスタリ
ング処理により推定された中心ベクトルｔ_kを有する複
素ガウスネットワーク２に対して、変換元話者の学習デ
ータメモリ１３から読み出した音声スペクトルの入力ベ
クトルｘ_iを入力して、複素ガウスＲＢＦネットワーク
２から出力される音声スペクトルの出力ベクトルｙ_jを
加算器３に入力する一方、目標話者の学習データメモリ
１４から読み出した同一の発話内容の音声スペクトルの
ベクトルを加算器３に入力することにより、その誤差ｅ
_jを演算して重み係数更新部４に出力する。これに応答
して、重み係数更新部４は、ＬＭＳ法を用いて、誤差の
２乗平均が最小となるように、数１６に従って、複素ガ
ウスＲＢＦネットワーク２の重み係数ｗ_jkを更新する。
この学習データを用いて重み係数ｗ_jkを更新する処理を
複数回繰り返し実行する。このようにして学習された複
素ガウスＲＢＦネットワーク２は、複素ガウスＲＢＦネ
ットワーク２ａとして音声合成装置において用いる。

【００２４】図１の声質変換音声合成装置において、入
力手段として例えば、キーボード５を用いて、発声音声
文の文字列を入力することにより、そのテキストデータ
が音声データ変換部６に入力され、これに応答して、音
声データ変換部６は、テキストデータの文字列に対応す
る音声スペクトル（フォルマント周波数及びバンド幅）
のベクトルを、変換元話者の音声データベースメモリ１
１の音声データベースから読み出して、テキストデータ
の文字列を音声スペクトルの入力ベクトルｘ_iに変換し
て、学習後の複素ガウスＲＢＦネットワーク２ａに入力
する。これに応答して、複素ガウスＲＢＦネットワーク
２ａから出力される出力ベクトルｙ_jからなる音声スペ
クトルを音声合成部７に入力する。音声合成部７は、公
知の通り、パルス発生器と、雑音発生器と、これらの発
生の出力を、入力される音声スペクトルに基づいた制御
信号により切り換えるスイッチと、そのスイッチの出力
信号を、入力される音声スペクトルに基づいた別の制御
信号により振幅を変更するように増幅する振幅変更型増
幅器と、その出力をろ波するフィルタとからなり、入力
される音声スペクトルに基づいて、発声音声信号を発生
してスピーカ８に出力することにより、キーボード５を
用いて入力された発声音声文が目標話者の音声としてス
ピーカ８から出力される。

【００２５】以上の実施形態において、クラスタリング
処理部１、複素ガウスＲＢＦネットワーク２、加算器３
及び重み係数更新部４は、例えば、ディジタル計算機で
構成される。

【００２６】

【実施例】本発明者は、本特許出願人が所有する音声デ
ータベースを用いて、本実施形態の声質変換音声合成装
置について実験を行い、ここで、男性話者ＭＨＴから女
性話者ＦＭＰへの声質変換実験を行った。複素ガウスＲ
ＢＦネットワーク２においては、Ｎｘ＝５，Ｎｙ＝４，
Ｎｋ＝５０に設定した。音声のサンプリング周波数は１
２ｋＨｚであり、変換元話者の音声又は学習用音声を公
知のＡＲＸ（Auto-regressive model with an eXogenou
s inputの略。）法で音源とフォルマントパラメータを
分析した。男性話者ＭＨＴの２０文によりクラスタリン
グ処理を行い、中心ベクトルｔ_kを求めた。そして両話
者の同じ発音内容の２文を学習データとして複素ガウス
ＲＢＦネットワーク２を学習させた。学習の繰り返す回
数は１２０回であった。ここで、変換したい男性話者Ｍ
ＨＴの文に対して、男性話者ＭＨＴの音源部分の基本周
波数ｆ₀、声門開放率ＯＱをそれぞれ女性話者ＦＭＰの
平均値まで変換した。複素ガウスＲＢＦネットワーク２
の出力は男性話者ＭＨＴから変換したフォルマント情報
である。

【００２７】図３は、発話内容が“一週間ばかりニュー
ヨークを取材した。”であるときの図１の声質変換音声
合成装置の実験結果であって、（ａ）は変換元男性話者
ＭＨＴの音声スペクトルを示すスペクトル図であり、
（ｂ）は変換元男性話者ＭＨＴから目的女性話者ＦＭＰ
へ声質変換したときの音声スペクトルを示すスペクトル
図であり、（ｃ）は目的女性話者ＦＭＰの音声スペクト
ルを示すスペクトル図である。ここで、図３のスペクト
ルは周波数６ｋＨｚまでを示す。図３から明らかなよう
に、学習された複素ガウスＲＢＦネットワーク２ａによ
って声質変換された音声は目標話者に近い音声のスペク
トルが得られた。また、聴覚的に変換音声は女性話者Ｆ
ＭＰに近い女性の音声が確認された。

【００２８】以上説明したように、本実施形態によれ
ば、複素ガウスＲＢＦネットワーク２を学習することに
より得られた複素ガウスＲＢＦネットワーク２ａを用い
て声質変換することにより、従来技術に比較して高い精
度で声質変換して音声合成することができる声質変換音
声合成装置を提供することができる。また、少ない学習
データを用いて、より精度が高い声質変換を行うことが
できる。

【００２９】

【発明の効果】以上詳述したように本発明によれば、少
なくとも入力層と中間層と出力層とを有し、上記中間層
の各ユニットの出力信号がその入力信号と中心ベクトル
を含むガウス関数で表され、上記出力層の各ユニットの
出力信号が上記中間層の各ユニットの出力信号と各重み
係数との線形結合で表され、変換元話者の音声スペクト
ルを目標話者の音声スペクトルに変換するための複素ガ
ウスＲＢＦ（Radial Basis Function）ネットワークを
用いて、入力される発声音声文のテキストデータに基づ
いて変換元話者の音声スペクトルを目標話者の音声に変
換して音声合成する声質変換音声合成装置であって、変
換元話者の音声スペクトルをテキストデータに対応して
記憶する記憶手段と、上記第１の記憶手段に記憶された
変換元話者の音声スペクトルに対してクラスタリング処
理を実行することにより上記各中心ベクトルを演算する
処理手段と、変換元話者の学習データである音声スペク
トルを上記複素ガウスＲＢＦネットワークに入力して、
上記複素ガウスＲＢＦネットワークから出力される音声
スペクトルと、上記変換元話者の学習データである音声
スペクトルと同一の発話内容を有する目標話者の学習デ
ータである音声スペクトルとの誤差に基づいて、当該誤
差が最小となるように上記各重み係数を更新することに
より、上記複素ガウスＲＢＦネットワークを学習する学
習手段と、入力される発声音声文のテキストデータを、
上記記憶手段に記憶された変換元話者の音声スペクトル
を参照して、対応する変換元話者の音声スペクトルに変
換するデータ変換手段と、上記データ変換手段によって
変換された変換元話者の音声スペクトルを、上記学習手
段によって学習された複素ガウスＲＢＦネットワークに
入力して、当該学習された複素ガウスＲＢＦネットワー
クから出力される目標話者の音声スペクトルに基づいて
音声合成して目標話者の音声信号を出力する音声合成手
段とを備える。ここで、上記処理手段は、好ましくは、
適応ｋ−ｍｅａｎｓアルゴリズムを用いて上記クラスタ
リング処理を実行し、上記学習手段は、好ましくは、最
小２乗平均誤差法を用いて、上記誤差が最小となるよう
に上記各重み係数を更新する。

【００３０】従って、複素ガウスＲＢＦネットワークを
学習することにより得られた複素ガウスＲＢＦネットワ
ークを用いて声質変換することにより、従来技術に比較
して高い精度で声質変換して音声合成することができる
声質変換音声合成装置を提供することができる。また、
少ない学習データを用いて、より精度が高い声質変換を
行うことができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である声質変換音声
合成装置の構成を示すブロック図である。

【図２】図１の複素ＲＢＦネットワークの構成を示す
ブロック図である。

【図３】発話内容が“一週間ばかりニューヨークを取
材した。”であるときの図１の声質変換音声合成装置の
実験結果であって、（ａ）は変換元男性話者ＭＨＴの音
声スペクトルを示すスペクトル図であり、（ｂ）は変換
元男性話者ＭＨＴから目的女性話者ＦＭＰへ声質変換し
たときの音声スペクトルを示すスペクトル図であり、
（ｃ）は目的女性話者ＦＭＰの音声スペクトルを示すス
ペクトル図である。

【符号の説明】

１…クラスタリング処理部、２…複素ガウスＲＢＦネットワーク、２ａ…学習後の複素ガウスＲＢＦネットワーク、３…加算器、４…重み係数更新部、５…キーボード、６…音声データ変換部、７…音声合成部、８…スピーカ、１１…変換元話者の音声データベース、１２…中心ベクトルメモリ、１３…変換元話者の学習データメモリ、１４…目標話者の学習データメモリ、１００…入力層、１００−１乃至１００−Ｎｘ…入力層ユニット、２００…中間層、２００−１乃至２００−Ｎｋ…中間層ユニット、３００…出力層、３００−１乃至３００−Ｎｙ…出力層ユニット。

Claims

【特許請求の範囲】

【請求項１】少なくとも入力層と中間層と出力層とを
有し、上記中間層の各ユニットの出力信号がその入力信
号と中心ベクトルを含むガウス関数で表され、上記出力
層の各ユニットの出力信号が上記中間層の各ユニットの
出力信号と各重み係数との線形結合で表され、変換元話
者の音声スペクトルを目標話者の音声スペクトルに変換
するための複素ガウスＲＢＦ（Radial Basis Functio
n）ネットワークを用いて、入力される発声音声文のテ
キストデータに基づいて変換元話者の音声スペクトルを
目標話者の音声に変換して音声合成する声質変換音声合
成装置であって、変換元話者の音声スペクトルをテキストデータに対応し
て記憶する記憶手段と、上記第１の記憶手段に記憶された変換元話者の音声スペ
クトルに対してクラスタリング処理を実行することによ
り上記各中心ベクトルを演算する処理手段と、変換元話者の学習データである音声スペクトルを上記複
素ガウスＲＢＦネットワークに入力して、上記複素ガウ
スＲＢＦネットワークから出力される音声スペクトル
と、上記変換元話者の学習データである音声スペクトル
と同一の発話内容を有する目標話者の学習データである
音声スペクトルとの誤差に基づいて、当該誤差が最小と
なるように上記各重み係数を更新することにより、上記
複素ガウスＲＢＦネットワークを学習する学習手段と、入力される発声音声文のテキストデータを、上記記憶手
段に記憶された変換元話者の音声スペクトルを参照し
て、対応する変換元話者の音声スペクトルに変換するデ
ータ変換手段と、上記データ変換手段によって変換された変換元話者の音
声スペクトルを、上記学習手段によって学習された複素
ガウスＲＢＦネットワークに入力して、当該学習された
複素ガウスＲＢＦネットワークから出力される目標話者
の音声スペクトルに基づいて音声合成して目標話者の音
声信号を出力する音声合成手段とを備えたことを特徴と
する声質変換音声合成装置。
【請求項２】請求項１記載の声質変換音声合成装置に
おいて、上記処理手段は、適応ｋ−ｍｅａｎｓアルゴリズムを用
いて上記クラスタリング処理を実行することを特徴とす
る声質変換音声合成装置。
【請求項３】請求項１又は２記載の声質変換音声合成
装置において、上記学習手段は、最小２乗平均誤差法を用いて、上記誤
差が最小となるように上記各重み係数を更新することを
特徴とする声質変換音声合成装置。