JP2912579B2

JP2912579B2 - 声質変換音声合成装置

Info

Publication number: JP2912579B2
Application number: JP8066134A
Authority: JP
Inventors: 誠橋本; 宜男樋口
Original assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Current assignee: Ei Tei Aaru Onsei Honyaku Tsushin Kenkyusho Kk
Priority date: 1996-03-22
Filing date: 1996-03-22
Publication date: 1999-06-28
Anticipated expiration: 2016-03-22
Also published as: JPH09258779A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、声質変換音声合成
装置に関する。

【０００２】

【従来の技術】多様な合成音声を生成することのできる
音声合成システムの実現は、合成音声の高品質化や合成
システム自体の普及のためにも非常に重要である。声質
変換も多様な合成音声生成のために必要な技術であり、
これまでにも種々の研究開発がなされてきた。

【０００３】例えば、文献１「松本弘ほか，“教師あり
／教師なしスペクトル写像による声質変換”，日本音響
学会誌，Ｖｏｌ．５０，Ｎｏ．７，ｐｐ．５４９−５５
５，１９９４年７月」（以下、第１の従来例という。）
においては、声質変換の精度向上と品質の改善を目的と
して、変換音声のスペクトル系列と目標話者のスペクト
ル系列との２乗誤差を最小とする基準で写像を行って学
習し、未学習の部分を補間法により計算することが開示
されている。

【０００４】さらに、図３は、文献２「阿部匡伸ほか，
“ベクトル量子化による声質変換”，日本音響学会講演
論文集，２−６−１４，昭和６２年１０月」（以下、第
２の従来例という。）において開示されたピッチ周波数
の変換コードブックを生成する方法を示す第２の従来例
のブロック図であり、図４は、図３の方法で生成された
ピッチ周波数の変換コードブックと同様の方法で生成さ
れたスペクトルパラメータの変換コードブックとを用い
てベクトル量子化による声質変換法を示すブロック図で
ある。この第２の従来例の方法は、話者毎のコードブッ
ク間の対応づけによって話者間の写像をとり、声質変換
を行う方法を用いている。すなわち、大量の学習データ
を用いて予め話者Ａから話者Ｂへの変換コードブックを
作成しておき、これを用いて声質変換を行うものであ
る。変換コードブックを作成するに当たっては、以下の
手順をとる。（Ｉ）クラスタリングされたコードブック間で対応を取
る。（II）対応するコード間の頻度を用いて写像を行う。

【０００５】以下、話者Ａ，Ｂ間のピッチ周波数の変換
コードブックを作成する過程を、図３を参照して説明す
る。（１）話者Ａ，及び話者Ｂのそれぞれのピッチ周波数の
サンプルデータ３０，４０を取り込み、それぞれクラス
タリング３１，４１を行ってピッチ周波数のコードブッ
ク３２，４２を作成する。同様に、スペクトルパラメー
タもクラスタリングしコードブックを作成する。（２）ピッチ周波数のコードブック３２，４２を用い
て、学習データのピッチ周波数をコード化し、すなわち
スカラー量子化３３，４３する。同様に、スペクトルパ
ラメータもコード化し、すなわちベクトル量子化する。（３）コード化されたパラメータを用いて、学習単語毎
にＤＰマッチング（動的計画法によるマッチング処理）
を行い、時間の対応づけ３４を行う。（４）時間的に対応している話者Ａのピッチコードと話
者Ｂのピッチコードからヒストグラム３５を作成する。（５）話者Ａのピッチコードに対し、ヒストグラムが最
大となっている話者Ｂのピッチコードを対応づけて、話
者Ａから話者Ｂへの変換コードブック３６を作成する。
なお、スペクトルパラメータのマッピングは、ヒストグ
ラムによる重み付けを行い、文献３「中村ほか，“ベク
トル量子化を用いたスペクトログラムの正規化”，日本
音響学会音声研究会資料，ＳＰ８７−１７，１９８７
年」に記載された手順に従って、変換コードブック（図
４の３６ａ）を作成する。

【０００６】次いで、上記作成された変換コードブック
を用いた第２の従来例の声質変換法を図４に示す。図４
に示すように、まず、話者Ａの音声をＬＰＣ分析５０
し、スペクトルパラメータとピッチパラメータを求め、
これを話者Ａのスペクトルパラメータとピッチ周波数の
コードブック５１，６１を用いてそれぞれベクトル量子
化５２及びスカラー量子化６２する。さらに、復号化５
３，６３するときには、話者Ａのコードブック５１，６
１の代わりに、上記作成された変換コードブック３６，
３６ａを用いる。これによって、話者Ｂの音声へ変換さ
れたことになり、この後、音声合成手段である合成フィ
ルタ５４を用いて話者Ｂの音声信号を発生して出力す
る。

【０００７】しかしながら、第１の従来例では、異なる
話者間のスペクトルの差が比較的大きなとき、学習処理
を実行することがきわめて難しい。また、第２の従来例
では、すべての音声データ毎に異なる話者間の変換コー
ドブックを作成する必要があるので、この場合、大量の
学習データを必要とする。すなわち、実用化が難しいと
いう問題点があった。

【０００８】以上の問題点を解決するために、本出願人
は、特願平７−５１０３９号の特許出願において、複数
の登録話者の音響特徴パラメータを含む音声データベー
スとそのコードブックを予め記憶する記憶手段と、入力
された目標話者の少なくとも１単語の音声信号に基づい
て、声質変換をすべき目標話者に最も近い話者を、上記
複数の登録話者の中から選択する選択手段と、上記選択
手段によって選択された話者の音響空間と目標話者の音
響空間との間の差分を計算することにより、選択された
話者から上記目標話者への写像コードブックを計算する
生成手段と、入力された音声合成すべき文字列に基づい
て、上記音声データベースに記憶された上記選択された
話者の音声の音響特徴パラメータを上記選択された話者
のコードブックを用いて量子化し、上記選択された話者
のコードブックと上記写像コードブックの対応関係に基
づいて上記文字列に対応する目標話者の音声信号の音響
特徴パラメータを生成する写像処理手段と、上記写像処
理手段によって生成された目標話者の音声信号の音響特
徴パラメータに基づいて、上記文字列に対応する目標話
者の音声信号を発生して出力する音声合成手段とを備え
たことを特徴とする声質変換音声合成装置（以下、第３
の従来例という。）を提案している。

【０００９】この第３の従来例によれば、１単語程度の
非常に少ない学習データで登録話者から目標話者への写
像関数を求めることができ、例えばデイジタル計算機を
用いて実用化することができる。また、上記音声データ
ベースとそのコードブックを予め格納することにより、
発話内容に関係なく第１及び第２の従来例に比較してよ
り高い精度で声質を変換することができる。すなわち、
上記音声データベースに格納される単語と、声質変換し
ようとする単語は異なってもよく、本発明を、例えば、
日本語の単語から英語の単語への声質変換、もしくは、
英語の単語から日本語の単語への声質に適用することが
できるという利点を有する。

【００１０】

【発明が解決しようとする課題】しかしながら、第３の
従来例においては、上記選択手段によって選択された１
人の選択話者の学習音響空間のみを考慮しているので、
変換先の目標話者の発生音声の特長を十分に捕らえるこ
とができず、さらに、上記選択手段が後処理の写像コー
ドブック生成手段に適さない話者の選択を許すことが生
じ、声質変換の変換精度が目標話者によってばらつくと
いう問題点があった。

【００１１】本発明の目的は以上の問題点を解決し、第
３の従来例に比較して高精度で声質変換の音声合成をす
ることができる声質変換音声合成装置を提供することに
ある。

【００１２】

【課題を解決するための手段】本発明に係る声質変換話
者選択装置は、第１の記憶手段（１０，１１）、特徴抽
出手段（３）、写像コードブック生成手段（６）、第２
の記憶手段（１２）、第３の記憶手段（１３）、スペク
トル写像処理手段（２２）、パラメータ系列生成手段
（２３）、音声合成手段（２４）からなる声質変換音声
合成装置であって、第１の記憶手段（１０，１１）は、
登録話者毎の音声データベース、登録話者毎のスペクト
ルコードブックを記憶し、音声データベースは、各音素
毎の登録スペクトルパラメータからなり、特徴抽出手段
（３）は、入力される目標話者の音声信号から話者スペ
クトルパラメータを抽出し、写像コードブック生成手段
（６）は、各登録話者毎に第１から第５の処理を行って
各登録話者毎に向きのバラツキを計算し、向きのバラツ
キが最小となる登録話者を選択登録話者として選択し、
選択登録話者の移動写像コードブックを目標写像コード
ブックとして第２の記憶手段（１２）に記憶させ、第１
の処理は、スペクトルコードブックを初期写像コードブ
ックとし、第２の処理は、音声データベースのうちの予
め定められた登録スペクトルパラメータである学習音声
スペクトルパラメータを初期写像コードブックを用いて
ベクトル量子化することによりベクトルを求め、第３の
処理は、話者スペクトルパラメータと第２の処理で求め
たベクトルとの間で時間的な対応付けの処理を行った
後、それらの複数の移動ベクトルを決定し、第４の処理
は、複数の移動ベクトルから平均移動ベクトルを計算
し、第５の処理は、スペクトルコードブックを移動ベク
トルを用いて移動させ、移動写像コードブックとして第
３の記憶手段（１３）に記憶させると共に、複数の移動
ベクトルと平均移動ベクトルとの距離に基づいて向きの
バラツキを計算し、スペクトル写像処理手段（２２）
は、第６から第７の処理を行い、第６の処理は、入力さ
れる文字を音素に変換し、音素に対応する登録スペクト
ルパラメータを選択話者の音声データベースから読み出
し、第７の処理は、第６の処理で読み出した登録スペク
トルパラメータに距離の近いベクトルを選択登録話者の
スペクトルコードブックから求め、そのベクトルに対応
する目標写像コードブック内のベクトルを生成し、パラ
メータ系列生成手段（２４）は、第７の処理で生成した
ベクトルに基づいて音響特徴パラメータとピッチ周波数
を含む時系列データを生成し、音声合成手段（２４）
は、パラメータ生成手段（２４）の生成する時系列デー
タに基づいて、音声信号を発生することを特徴とする。

【００１３】

【００１４】

【００１５】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。図１は、本発明に係る一
実施形態である写像コードブック生成装置１００と声質
変換音声合成装置２００のブロック図である。この実施
形態のシステムは、写像コードブック生成装置１００に
おいて、写像コードブック生成部６を備えたことを特徴
とし、一方、声質変換音声合成装置２００においては、
スペクトル写像処理部２２を備えたことを特徴とする。
この実施形態においては、実用的な声質変換システムを
実現するためには学習データを極力少なくするために、
話者選択と移動ベクトル場平滑化法（ＶＦＳ：Vector F
ield Smoothing）を用いたスペクトル写像による新しい
声質変換法を開示し、この方法は、少ない学習データで
も変換が行えるという特有の効果を有する。

【００１６】また、本実施形態においては、写像コード
ブック生成部６は、入力された目標話者の少なくとも１
単語の音声信号と、メモリ１０内の上記音声データベー
スとメモリ１１内のそのコードブックとに基づいて、上
記移動ベクトル場平滑化法を用いて、上記複数の登録話
者の各音響空間と目標話者の音響空間との間の複数の移
動ベクトルを計算することにより、上記複数の登録話者
から上記目標話者への複数の写像コードブックを計算
し、上記複数の移動ベクトルの平均ベクトルである平均
移動ベクトルと、上記複数の登録話者の各移動ベクトル
との間の距離が最小である登録話者を、声質変換をすべ
き目標話者に最も近い選択話者として選択することを特
徴とする。なお、この明細書においては、予め音声デー
タベースを用意しておく複数の話者を登録話者とし、変
換先の話者を目標話者とし、複数の登録話者から選ばれ
た１人の話者を選択話者と定義する。

【００１７】図１に示すように、音声データベースメモ
リ１０内の音声データベースと、スペクトルコードブッ
クメモリ１１内のスペクトルコードブックとが予め作成
されかつ予め、例えばＬＢＧ（ＬｉｎｄｅＢｕｚｏ
Ｇｒａｙ；例えば、文献４「Ｌｉｎｄｅｅｔａ
ｌ．，“ＡｎＡｌｇｏｒｉｔｈｍｆｏｒＶｅｃｔ
ｏｒＱｕａｎｔｉｚｅｒＤｅｓｉｇｎ”，ＩＥＥＥ
Ｔｒａｎｓａｃｔｉｏｎｓ，ＣＯＭ−２８，Ｎｏ．
１，ｐｐ．８４−９５，１９８０年」参照。）法などの
所定のクラスタリング法によりクラスタリングされて記
憶される。音声データベースは、複数の登録話者のピッ
チ周波数、ケプストラム係数データ、及びパワーデータ
などの音響特徴パラメータを含み、メモリ１１内のスペ
クトルコードブックは、複数の登録話者毎の、フレーム
単位でクラスタリングされたケプストラムデータのベク
トルである。

【００１８】目標話者の任意の１単語の発声音声はマイ
クロホン１に入力されてアナログ音声信号に変換され、
Ａ／Ｄ変換器２でディジタル音声信号に変換された後、
特徴抽出部３に入力される。このＡ／Ｄ変換器２では、
サンプリング周波数に対応する例えば２０ミリ秒である
所定のフレーム間隔でフレーム毎に音声信号データがラ
ベリングされ、以下の処理はフレーム毎に実行される。
特徴抽出部３は、入力された音声信号を例えばケプスト
ラム分析し、３０次ケプストラム係数、パワー及びピッ
チ周波数を含む３２次元の特徴パラメータを抽出する。
抽出された特徴パラメータの時系列はバッファメモリ４
を介して写像コードブック生成部６に入力される。

【００１９】写像コードブック生成部６は、入力された
目標話者の少なくとも１単語の音声信号と、上記音声デ
ータベースとそのコードブックとに基づいて、移動ベク
トル場平滑化法を用いて、上記複数の登録話者の各音響
空間と目標話者の音響空間との間の複数の移動ベクトル
を、上記各登録話者毎に計算し、各登録話者の移動ベク
トルの平均ベクトルである平均移動ベクトルを計算し、
計算された各登録話者の平均移動ベクトルと上記複数の
移動ベクトルとの間の距離が最小である登録話者を、声
質変換をすべき目標話者に最も近い選択話者として選択
する。そして、選択した選択話者の写像コードブックを
メモリ１３からメモリ１２に書き込む。

【００２０】上記第３の従来例においては、学習音声の
みでの目標話者とのスペクトル距離最小規準により、写
像元話者を選択していた。しかしながら、少量の学習デ
ータでの写像を目的としているため、学習音声空間のみ
での比較による話者選択では、話者にロバストな、つま
り話者による写像精度の変動が少ないシステムを構築す
るには不十分であると考えられる。例えば、文献５「宮
沢康永ほか，“移動ベクトル場平滑化話者適応方式にお
ける標準話者選択方式の検討”，日本音響学会講演論文
集，２−５−２，平成４年１０月」において、移動ベク
トル場平滑化法における標準話者選択方式として、学習
単語に対する適応前後の出力尤度が最大になるような話
者を標準話者とする方式が提案されている。しかしなが
ら、当該文献５の方式も、学習音声空間のみに着目して
おり、少量学習データの場合における話者ロバスト性を
保証するには十分ではない。移動ベクトル場平滑化法に
おいては、話者間の移動ベクトルを学習で求めることに
より写像を行なうため、話者の音響的構造が類似してい
る程、精度向上が期待できる。また、音響的構造の類似
性が高い程、学習で求まった移動ベクトルの向きのばら
つきが少なくなると考えられる。以上のような観点か
ら、本発明では、学習で求められた全移動ベクトルの向
きのばらつきに着目した写像元話者設定方法を提案して
いる。

【００２１】図２は、図１の写像コードブック生成部６
によって実行される写像コードブック生成処理を示すフ
ローチャートである。

【００２２】この写像コードブック生成部６では、選択
話者のスペクトルコードブックＣ^sを目標話者の音響空
間に写像して目標話者のスペクトルコードブックＣ^tに
変換する。ここで、目標話者の音響空間に写像されたコ
ードブックを、写像コードブックＣ^tと定義する。写像
コードブックＣ^tの生成には移動ベクトル場平滑化法を
用いる。これは、音響空間の話者間の差のベクトルは連
続的に変化するという仮定のもとに、ある話者の音響空
間を他話者の音響空間に写像する方法である。以下に、
その方法の手順を示す。

【００２３】まず、ステップＳ１では、複数の登録話者
のうち任意の１つの登録話者のスペクトルコードブック
Ｃ^sを、スペクトルコードブックメモリ１１から選択し
て読み出す。次いで、ステップＳ２において、読み出さ
れた登録話者のスペクトルコードブックＣ^sを、写像コ
ードブックＣ^tの初期状態とする。さらに、ステップＳ
３で、読み出された登録話者の学習音声スペクトル時系
列を写像コードブックＣ^tを用いてベクトル量子化し、
このベクトル量子化後のコード列と、入力された目標話
者の音声スペクトル時系列とをＤＴＷ（Dynamic time w
arping）法を用いて対応付けの処理を行う。そして、ス
テップＳ４において、自然数ｍ番目のベクトルＣ_m ^sと、
これに対応づけられた入力スペクトルｘの平均ベクトル
／Ｃ_m ^sとの差分ベクトルＶ_mを次の数１に示すように計
算し、これを移動ベクトルＶ_mとする。なお、この明細
書において、（Ｃ_m ^s）の上線（バー）を記載することが
できないため、／Ｃ_m ^sと記す。なお、数２の右辺の（１
／Ｎ_m）の／は分数を示す。

【００２４】

【数１】Ｖ_m＝／Ｃ_m ^s−Ｃ_m ^s

【００２５】ここで、

【数２】

【００２６】ここで、Ｎ_mは選択話者のｍ番目のベクト
ルＣ_m ^sに対応付けられた入力スペクトルベクトルの個数
であり、ＭはベクトルＣ_m ^sに対応付けられた入力スペク
トル時系列のベクトルの集合である。そして、ステップ
Ｓ５では、学習で対応付けが行なわれなかった選択話者
のｎ番目のベクトルＣ_n ^sと、その近傍にある対応付けが
行なわれた所定数のコードベクトルの集合の要素Ｃ_k ^sと
の間のファジィ級関数μ_n,kを次の数３を用いて計算す
る。

【００２７】

【数３】

【００２８】ここで、ｍａ＝１／（ｍ−１）である。ま
た、ｄ_n,kはベクトルＣ_n ^SとベクトルＣ_k ^Sとの間の距離
であり、ｍは制御パラメータ（ファジネス）であり、Ｋ
は対応付けのあったベクトルの集合である。さらに、ス
テップＳ６では、対応付けされなかったベクトルＣ_n ^sの
移動ベクトルＶ_nを、次の数４を用いて、対応付けが行
なわれたコードベクトルＣ_k ^sの移動ベクトルＶ_kと上記
ファジィ級関数μ_n,kを用いて計算し、写像コードブッ
クの初期状態となっているスペクトルコードブックＣ^s
のすべてのベクトルを、次の数５に示すごとく移動ベク
トルＶ_nの集合Ｖを用いて更新して、更新後の写像コー
ドブックＣ^tを求め、ステップＳ７に進む。

【００２９】

【数４】

【数５】Ｃ^t＝Ｃ^s＋Ｖ

【００３０】ステップＳ７では、入力された学習したい
目標話者のスペクトル時系列と、メモリ１０内の音声デ
ータベースに登録された各登録話者のスペクトル時系列
との互いの継続長が一致するようにＤＴＷ（Ｄｙｎａｍ
ｉｃＴｉｍｅＷａｒｐｉｎｇ；動的時間整合）法に
より時間整合した後、目標話者のスペクトル時系列と各
登録話者のスペクトル時系列との距離を計算し、２乗誤
差が最小となる基準を用いて収束しているか否かを判断
し、当該距離が収束していなければ、ステップＳ３へ戻
る。一方、収束していればステップＳ８に進む。

【００３１】ステップＳ７までの処理では、学習データ
が少ない場合に異話者間の真の対応関係を表せずに移動
ベクトルの誤差が大きくなるという問題が残る。そこ
で、ステップＳ８においては、移動ベクトルに連続性の
拘束条件を入れ、以下に示す３つのステップＳＳ１乃至
ＳＳ３からなる平滑化処理を行なって、誤差を吸収させ
る。（ＳＳ１）写像コードブック内の選択話者のｌ番目のベ
クトルＣ_l ^sとその近傍にあるベクトルＣ_k ^sとの間のファ
ジィ級関数μ_l,kを計算する。（ＳＳ２）上記ファジィ級関数μ_l,kを用いて平滑化移
動ベクトルＶ_lを次の数６を用いて計算する。

【００３２】

【数６】

【００３３】ここで、Ｎ_kαは移動ベクトルＶ_kの信頼度
を表し、定数αを持たせた移動ベクトルへの重みとして
いる。ここで、ｋ＝ｌのときファジィ級関数μ_l,k＝１
とする。（ＳＳ３）平滑化された移動ベクトルＶ_lを用いて、写
像コードブックメモリ１２内の写像コードブックのすべ
てのベクトルＣ_l ^sを次の数７に示すごとくベクトルＣ_l ^t
に更新する。

【００３４】

【数７】Ｃ_l ^t＝Ｃ_l ^s＋Ｖ_l

【００３５】次いで、ステップＳ９では、次式で示すご
とく、各移動ベクトルの平均ベクトルＴｍｅａｎを演算
し、移動ベクトルの向きのばらつきＤを演算して、メモ
リ１４に各登録話者毎に記憶する。本実施形態では、移
動ベクトルの向きのばらつきＤを、全移動ベクトルの平
均ベクトル（以下、平均移動ベクトルという。）と個々
の移動ベクトルとの距離に基づいたものと考え、次式の
ように定義する。

【００３６】

【数８】

【数９】

【数１０】

【００３７】ここで、Ｃｂはメモリ１１内の写像コード
ブックのクラスタ数であり、Ｔ_iは移動ベクトルＶ_mであ
り、ｄ_i（Ｔ_i，Ｔｍｅａｎ）は各移動ベクトルＴ_iと数
１０で計算される平均移動ベクトルＴｍｅａｎとの間の
距離である。ｉはコードブックの中でベクトルを表わす
コードワードのインデックスであり、数８及び数１０は
１つの登録話者についてすべてのクラスタにおける各デ
ータ値の平均値をとる。また、ｊは、特徴パラメータの
次数であって、本実施形態では、スペクトル次数であ
る。すなわち、数９の右辺では、すべてのスペクトル次
数（ｊ＝１，２，…，ｊ_max）についての距離の和を計
算している。さらに、ステップＳ１０では、すべての登
録話者についてステップＳ２からＳ９までの処理を実行
したか否かが判断され、ＮＯであるときは、ステップＳ
１２でメモリ１１から未処理の他の登録話者のスペクト
ルコードブックＣ^sを選択して読み出した後、ステップ
Ｓ２からの処理を実行する。

【００３８】ステップＳ１０でＹＥＳであるときは、ス
テップＳ１１で、最小のばらつきＤを有する登録話者を
選択話者として選択して、当該選択話者の写像コードブ
ックを１２に書き込み、スペクトル写像処理部２２で音
声合成のために使用される。従って、ステップＳ１１で
は、上記複数の移動ベクトルＴ_iの平均ベクトルである
平均移動ベクトルＴｍｅａｎと、上記複数の登録話者の
各移動ベクトルＴ_iとの間の距離ｄ_iのクラスタについて
の平均値Ｄを計算して、複数の登録話者についてメモリ
１４に格納し、当該選択話者の尺度である平均値Ｄが最
小である登録話者を、声質変換をすべき目標話者に最も
近い選択話者として選択している。そして、上記メモリ
１２内の複数の登録話者から目標話者への写像コードブ
ックのうち、当該選択話者の写像コードブックが、声質
変換音声合成装置２００におけるスペクトル写像処理部
２２で用いられる。

【００３９】次いで、図１の声質変換音声合成装置２０
０の構成と動作について説明する。図１に示すように、
目標話者の音声で音声合成したい文字列をキーボード２
１を用いて入力すると、スペクトル写像処理部２２は、
文字列に対応する選択話者の音声スペクトルのデータを
音声データベース１０から読み出し、その音声スペクト
ルのベクトル列Ｘ_p ^sを、生成された写像コードブック１
２を用いてベクトル量子化することにより、以下のごと
くスペクトル写像を行って復号化処理を実行する。

【００４０】スペクトル写像処理部２２では、上記メモ
リ１２内の選択話者の音声スペクトルのベクトル列Ｘ_p ^s
と、その近傍にある所定数ｋ個のベクトルＣ_q ^s（ここ
で、ｑ＝１，２，…，ｋ）との間の重み付け関数である
ファジィ級関数μ_p,qを計算した後、ベクトルＣ_q ^sに対
応付けられた目標話者のベクトルＣ_q ^tとファジィ級関数
μ_p,qとに基づいて、変換後の目標話者のベクトル列Ｘ_p
^tを計算する。そして、当該ベクトル列Ｘ_p ^tから、選択
話者から目標話者に写像された音声スペクトル時系列を
計算してパラメータ系列生成部２３に出力する。

【００４１】以上の処理での説明では、写像コードブッ
ク生成装置１００及び声質変換音声合成装置２００にお
いて、スペクトルに関する処理のみについて説明してい
るが、これにとって代わって、ピッチ周波数の処理につ
いては、これに限らず、目標話者と選択話者の間のピッ
チ周波数の対数値の平均の差を予め計算しておき、選択
話者のピッチ周波数の対数値にその差を加算することに
より、目標話者のピッチ周波数の時系列を計算してもよ
い。

【００４２】最後に、パラメータ系列生成部２３は、入
力されるスペクトル時系列とピッチ周波数の時系列を取
りまとめて内蔵のバッファメモリに一時的に格納した
後、入力された文字列に対応する音声合成のための時系
列データに変換して音声合成部２４に出力する。ここ
で、時系列データは、音声合成のためのピッチ、有声／
無声切り換え、振幅及びフィルタ係数のデータを含む。
さらに、音声合成部２４は、パルス発生器と雑音発生器
とスイッチと振幅変更型増幅器とフィルタとから構成さ
れ、入力される時系列データに基づいて、発声音声信号
を合成してスピーカ２５に出力することにより、上記入
力された文字列に対応する目標話者の合成音声がスピー
カ２５から出力される。

【００４３】以上のように構成された実施形態におい
て、Ａ／Ｄ変換器２と、特徴抽出部３と、写像コードブ
ック生成部６と、スペクトル写像処理部２２と、パラメ
ータ系列生成部２３と、音声合成部２４とは、例えば、
デジタル計算機で構成され、メモリ１０乃至１４は例え
ばハードウエアディスクメモリで構成される。

【００４４】さらに、本発明者は、以上のように構成さ
れたシステムについて実験を以下のごとく行った。本発
明の話者選択のための尺度の有効性を調べるため、移動
ベクトルのばらつきと写像精度との相関を計算した。比
較のために、第３の従来例学習データのみでの距離を用
いた場合の相関も計算した。写像精度は、学習に使用し
ていない、本出願人所有の音声データベースのバランス
単語５０語に対する、スペクトル写像後の音声と目標話
者の音声との平均距離で表わした。つまり、正の相関が
強いほど、話者選択に適した尺度であることを示す。ま
た、学習データ量による影響を観るため、表１に示すよ
うに、１単語、３単語、５単語を学習データとした場合
について、それぞれ相関を求めた。アナウンサー又はナ
レータである男女各４名を目標話者とし、別の男女各４
名を写像元の登録話者とし、各目標話者に対して、８名
の写像元の登録話者からのスペクトル写像を行なった。
さらに、表２に実験条件を示す。

【００４５】

【表１】学習データ ─────────────────────────────────── １単語：／ｕｃｈｉａｗａｓｅ／２単語：／ｂｏＮｙａｒｉ／＋／ｕｃｈｉａｗａｓｅ／＋ｄｅｋｉｇｏｔｏ／３単語：／ｂｏＮｙａｒｉ／＋／ｕｃｈｉａｗａｓｅ／＋ｄｅｋｉｇｏｔｏ／＋／ｈｙｏｕｊｏｕ／＋／ｐｕｒｏｇｕｒａｍｕ／ ───────────────────────────────────

【００４６】

【表２】実験条件 ──────────────────────── 音声試料：本出願人が所有する音声データベース ──────────────────────── 分析条件：（ａ）サンプリング周波数：１２ｋＨｚ（ｂ）分析窓：ブラックマン窓（ｃ）フレーム周期：５ミリ秒（ｄ）ＦＦＴポイント数：２５６ ──────────────────────── 写像実験条件：（ａ）目標話者：男女各４名（ｂ）写像元話者：目標話者以外の男女各４名（ｃ）コードブック（ｃ１）作成データ：音素バランス５０３文（ｃ２）クラスタ数：５１２（ｃ３）特徴量：３０次ＦＦＴケプストラム（ｃ４）ＶＦＳｋ−近傍数：４ ────────────────────────

【００４７】図５に実験結果を示す。図５において、目
標話者を表わす３つの文字のうち１番目の文字Ｍは男性
を示す一方、文字Ｆは女性を示す。図５から明らかなよ
うに、（１）学習データのみに着目して写像元話者を選
択するより、学習で求まった全移動ベクトルのばらつき
に着目して写像元話者を選択した方が相関が強く、話者
による変動も少ない。（２）学習データの違いによる影響が比較的小さい、と
いう現象が見られた。これらは、本発明の尺度が話者や
学習データの違いによる影響を受けにくく、適切な写像
元話者選択に有効であることを示しているといえる。

【００４８】以上説明したように、少ない学習データで
声質変換を実現するため、話者選択と移動ベクトル場平
滑化法によって選択話者から目標話者へのスペクトル写
像を行なうことによる声質変換法を開示している。スペ
クトル距離による評価において、１単語のみで学習さ
せ、５０単語で評価を行なった結果、変換音声と目標話
者音声とのスペクトル距離は、選択話者音声と目標話者
音声との距離より小さくなる。

【００４９】第２の従来例では、音声データの登録話者
から目標話者への写像を行う場合、異なる話者間のコー
ドブックの対応関係を学習によって求めるために、大量
の学習データが必要であったり、合成音声の精度を改善
するために複雑な処理を必要としていた。これに対し
て、本発明に係る本実施形態によれば、１単語程度の非
常に少ない学習データで登録話者から目標話者への写像
関数を求めることができ、例えばデイジタル計算機を用
いて実用化することができる。また、音声データベース
だけを予め格納することにより、発話内容に関係なく従
来例に比較してより高い精度で声質を変換することがで
きる。すなわち、音声データベースに格納される単語
と、声質変換しようとする単語は異なってもよく、本実
施形態を、例えば、日本語の単語から英語の単語への声
質変換、もしくは、英語の単語から日本語の単語への声
質に適用することができる。

【００５０】また、当該実施形態においては、複数の登
録話者の移動ベクトルを計算し、すべての登録話者の音
響空間全体を考慮して目標話者に最も近い話者を選択話
者としているので、選択話者から目標話者への写像コー
ドブックを、第３の従来例に比較して声質変換の変換精
度を改善することができ、これにより、より簡単にかつ
精度よく声質変換することができる。

【００５１】以上の実施形態においては、スペクトルデ
ータとピッチ周波数について、話者選択、写像コードブ
ック生成、及びスペクトル写像処理を行っているが、同
様に、他の音響特徴パラメータについて処理を行っても
よい。

【００５２】以上の実施形態において、マイクロホン１
に入力する単語は少なくとも１つの単語でよい。また、
音声データベースメモリ１０に予め記憶する音声データ
ベースは、複数の登録話者の音声データベースのデータ
でよい。

【００５３】

【発明の効果】以上詳述したように本発明に係る声質変
換音声合成装置によれば、第１の記憶手段（１０，１
１）、特徴抽出手段（３）、写像コードブック生成手段
（６）、第２の記憶手段（１２）、第３の記憶手段（１
３）、スペクトル写像処理手段（２２）、パラメータ系
列生成手段（２３）、音声合成手段（２４）からなる声
質変換音声合成装置であって、第１の記憶手段（１０，
１１）は、登録話者毎の音声データベース、登録話者毎
のスペクトルコードブックを記憶し、音声データベース
は、各音素毎の登録スペクトルパラメータからなり、特
徴抽出手段（３）は、入力される目標話者の音声信号か
ら話者スペクトルパラメータを抽出し、写像コードブッ
ク生成手段（６）は、各登録話者毎に第１から第５の処
理を行って各登録話者毎に向きのバラツキを計算し、向
きのバラツキが最小となる登録話者を選択登録話者とし
て選択し、選択登録話者の移動写像コードブックを目標
写像コードブックとして第２の記憶手段（１２）に記憶
させ、第１の処理は、スペクトルコードブックを初期写
像コードブックとし、第２の処理は、音声データベース
のうちの予め定められた登録スペクトルパラメータであ
る学習音声スペクトルパラメータを初期写像コードブッ
クを用いてベクトル量子化することによりベクトルを求
め、第３の処理は、話者スペクトルパラメータと第２の
処理で求めたベクトルとの間で時間的な対応付けの処理
を行った後、それらの複数の移動ベクトルを決定し、第
４の処理は、複数の移動ベクトルから平均移動ベクトル
を計算し、第５の処理は、スペクトルコードブックを移
動ベクトルを用いて移動させ、移動写像コードブックと
して第３の記憶手段（１３）に記憶させると共に、複数
の移動ベクトルと平均移動ベクトルとの距離に基づいて
向きのバラツキを計算し、スペクトル写像処理手段（２
２）は、第６から第７の処理を行い、第６の処理は、入
力される文字を音素に変換し、音素に対応する登録スペ
クトルパラメータを選択話者の音声データベースから読
み出し、第７の処理は、第６の処理で読み出した登録ス
ペクトルパラメータに距離の近いベクトルを選択登録話
者のスペクトルコードブックから求め、そのベクトルに
対応する目標写像コードブック内のベクトルを生成し、
パラメータ系列生成手段（２４）は、第７の処理で生成
したベクトルに基づいて音響特徴パラメータとピッチ周
波数を含む時系列データを生成し、音声合成手段（２
４）は、パラメータ生成手段（２４）の生成する時系列
データに基づいて、音声信号を発生する。

【００５４】従って、本発明によれば、複数の登録話者
のすべての音響空間全体を考慮して写像コードブックを
作成し、変換先の目標話者にきわめて近い登録話者を選
択することができる。また、複数の登録話者の移動ベク
トルを計算し、すべての登録話者の音響空間全体を考慮
して目標話者に最も近い話者を選択話者としているの
で、選択話者から目標話者への写像コードブックを、第
３の従来例に比較して声質変換の変換精度を改善するこ
とができ、これにより、より簡単にかつ精度よく声質変
換することができる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である写像コードブ
ック生成装置１００と声質変換音声合成装置２００のブ
ロック図である。

【図２】図１の写像コードブック生成部６によって実
行される写像コードブック生成処理を示すフローチャー
トである。

【図３】ピッチ周波数の変換コードブックを生成する
方法を示す第２の従来例のブロック図である。

【図４】図３の方法で生成されたピッチ周波数の変換
コードブックと同様の方法で生成されたスペクトルパラ
メータの変換コードブックとを用いてベクトル量子化に
よる声質変換法を示すブロック図である。

【図５】図１の実施形態における実験結果である話者
選択処理における第３の従来例と本実施形態の、変換音
声と目標話者音声との間の距離の相関係数を示すグラフ
である。

【符号の説明】

１…マイクロホン、２…Ａ／Ｄ変換器、３…特徴抽出部、４…バッファメモリ、６…写像コードブック生成部、１０…音声データベースメモリ、１１…スペクトルコードブックメモリ、１２，１３…写像コードブックメモリ、１４…移動ベクトルの向きのばらつきＤメモリ、２１…キーボード、２２…スペクトル写像処理部、２３…パラメータ系列生成部、２４…音声合成部、２５…スピーカ、１００…写像コードブック生成装置、２００…声質変換音声合成装置。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平８−167990（ＪＰ，Ａ) 特開平７−319495（ＪＰ，Ａ) 特開平７−219599（ＪＰ，Ａ) 特開平１−237600（ＪＰ，Ａ) 特開平８−248994（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/02 G10L 3/00 531 G10L 9/18

Claims

(57)【特許請求の範囲】

【請求項１】第１の記憶手段（１０，１１）、特徴抽
出手段（３）、写像コードブック生成手段（６）、第２
の記憶手段（１２）、第３の記憶手段（１３）、スペク
トル写像処理手段（２２）、パラメータ系列生成手段
（２３）、音声合成手段（２４）からなる声質変換音声
合成装置であって、第１の記憶手段（１０，１１）は、登録話者毎の音声デ
ータベース、登録話者毎のスペクトルコードブックを記
憶し、音声データベースは、各音素毎の登録スペクトルパラメ
ータからなり、特徴抽出手段（３）は、入力される目標話者の音声信号
から話者スペクトルパラメータを抽出し、写像コードブック生成手段（６）は、各登録話者毎に第
１から第５の処理を行って各登録話者毎に向きのバラツ
キを計算し、向きのバラツキが最小となる登録話者を選
択登録話者として選択し、選択登録話者の移動写像コー
ドブックを目標写像コードブックとして第２の記憶手段
（１２）に記憶させ、第１の処理は、スペクトルコードブックを初期写像コー
ドブックとし、第２の処理は、音声データベースのうちの予め定められ
た登録スペクトルパラメータである学習音声スペクトル
パラメータを初期写像コードブックを用いてベクトル量
子化することによりベクトルを求め、第３の処理は、話者スペクトルパラメータと第２の処理
で求めたベクトルとの間で時間的な対応付けの処理を行
った後、それらの複数の移動ベクトルを決定し、第４の処理は、複数の移動ベクトルから平均移動ベクト
ルを計算し、第５の処理は、スペクトルコードブックを移動ベクトル
を用いて移動させ、移動写像コードブックとして第３の
記憶手段（１３）に記憶させると共に、複数の移動ベク
トルと平均移動ベクトルとの距離に基づいて向きのバラ
ツキを計算し、スペクトル写像処理手段（２２）は、第６から第７の処
理を行い、第６の処理は、入力される文字を音素に変換し、音素に
対応する登録スペクトルパラメータを選択話者の音声デ
ータベースから読み出し、第７の処理は、第６の処理で読み出した登録スペクトル
パラメータに距離の近いベクトルを選択登録話者のスペ
クトルコードブックから求め、そのベクトルに対応する
目標写像コードブック内のベクトルを生成し、パラメータ系列生成手段（２４）は、第７の処理で生成
したベクトルに基づいて音響特徴パラメータとピッチ周
波数を含む時系列データを生成し、音声合成手段（２４）は、パラメータ生成手段（２４）
の生成する時系列データに基づいて、音声信号を発生す
る声質変換音声合成装置。