JP3913770B2

JP3913770B2 - 音声合成装置および方法

Info

Publication number: JP3913770B2
Application number: JP2006512928A
Authority: JP
Inventors: 良文廣瀬
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-05-11
Filing date: 2005-04-01
Publication date: 2007-05-09
Anticipated expiration: 2025-04-01
Also published as: CN1954361A; US7912719B2; WO2005109399A1; CN1954361B; JPWO2005109399A1; US20070233489A1

Description

本発明は、音声合成装置に関し、特に、編集者が指定する声質を再現でき、かつ連続的に声質を変化させた場合に声質が連続的に変化する音声合成装置に関する。

従来、音声を合成し、合成音の声質を変更することが可能な音声合成システムとして、素片選択部により選択された音声素片に対して入力された声質に合うように声質を変換するシステムが提案されている（例えば、特許文献１参照）。

図９は、特許文献１に記載された従来の声質可変音声合成装置の構成図である。従来の声質可変音声合成装置は、テキスト入力部１と、声質変換パラメータ入力部２と、素片記憶部３と、素片選択部４と、声質変換部５と、波形合成部６とを備えている。

テキスト入力部１は、音声合成を行ないたい言葉の内容を示す音素情報とアクセントや発話全体の抑揚を示す韻律情報とを外部より受付け、素片選択部４に出力する処理部である。

声質変換パラメータ入力部２は、編集者が所望する声質への変換に必要な変換パラメータの入力を受付ける処理部である。素片記憶部３は各種音声に対する音声素片を記憶する記憶部である。素片選択部４はテキスト入力部１より出力される音素情報および韻律情報に最も合致する音声素片を素片記憶部３から選択する処理部である。

声質変換部５は、声質変換パラメータ入力部２より入力された変換パラメータを用いて、素片選択部４により選択された音声素片を、編集者が所望する声質へ変換する処理部である。波形合成部６は、声質変換部５により声質変換された音声素片より音声波形を合成する処理部である。

このように、従来の声質可変音声合成装置では、声質変換部５が、声質変換パラメータ入力部２で入力された音声変換パラメータを用いて、素片選択部４で選択された音声素片を変換することにより編集者が所望する声質の合成音を得ることができる。

この他にも、声質ごとに音声素片データベースを複数用意し、入力された声質に最も合致する音声素片データベースを選択して使用することにより、声質可変な音声合成を行う方法も知られている。
特開２００３−６６９８２号公報（第１−１０頁、図１）

しかしながら、前者の声質可変音声合成装置においては、編集者が所望する声質は素片記憶部３に記憶されている標準的な声質（ニュートラルな声質）の音声素片の声質と大きく異なることがある。このように、素片記憶部３より選択された音声素片の声質が声質変換パラメータ入力部２により指定された声質と大きく異なる場合には、声質変換部５により選択された音声素片を非常に大きく変形する必要が生じる。このため、波形合成部６により合成音を生成した際に音質が著しく低下するという課題を有している。

一方、後者の方法においては、声質変換は、音声素片データベースを切り替えることにより行なわれている。しかしながら、音声素片データベースの個数は有限個数である。このため、声質変換は離散的なものになってしまい、連続的に声質を変化させることができないという課題を有している。

本発明は、上述の課題を解決するためになされたもので、合成音を生成した際に音質が著しく低下することのない音声合成装置を提供することを第１の目的とする。

また、合成音の声質を連続的に変化させることができる音声合成装置を提供することを第２の目的とする。

前記従来の課題を解決するために、本発明に係る音声合成装置は、所望の声質を有する音声を合成する音声合成装置であって、複数の声質の音声素片を記憶する音声素片記憶手段と、音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、合成音の声質の指定を受付ける声質指定手段と、前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、前記声質変換手段により変換された変換後の音声素片の歪みを判定する歪み判定手段と、前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された音声素片に対応する音声素片情報に修正する目標素片情報修正手段とを備え、前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とする。

歪み判定手段が、声質が変換された音声素片の歪みを判定し、歪みが大きい場合には、目標素片情報修正手段が音声素片情報を修正し、素片選択手段が修正後の音声素片情報に対応する音声素片をさらに選択している。このため、声質変換手段は、声質指定手段で指定される声質に近い音声素片を元にして、声質変換を行なうことができる。このため、合成音を生成した際に音質が著しく低下することのない音声合成装置を提供することができる。また、音声素片記憶手段は複数の声質の音声素片を記憶しており、そのうちのいずれかの音声素片に基づいて声質変換が行なわれる。このため、編集者が声質指定手段を用いて連続的に声質を変化させたとしても、合成音の声質を連続的に変化させることができる。

好ましくは、前記声質変換手段は、さらに、前記修正後の音声素片情報に対応する音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換することを特徴とする。

この構成によると、再選択後の音声素片に基づいて、声質指定手段により受け付けられた声質を有する音声素片への変換が再度行われる。このため、音声素片の再選択および再変換を繰り返すことにより、合成音の声質を連続的に変化させることができる。また、このように、連続的に声質を変化させているため、音質を劣化させることなく、声質を大きく変化させることができる。

好ましくは、前記目標素片情報修正手段は、さらに、前記目標素片情報生成手段により生成された音声素片情報を修正する際に、前記声質変換手段により変換された音声素片の声道特徴を修正後の音声素片情報に加えることを特徴とする。

声道特徴を新たに修正後の音声素片情報に加えることにより、素片選択手段は、指定された声質により近い音声素片を選択することができ、より音質の低下が少なく、かつ指定された声質に近い合成音を生成することができる。

さらに好ましくは、前記歪み判定手段は、隣接する音声素片間の接続性に基づいて歪みを判定することを特徴とする。

隣接する音声素片間の接続性により歪みを判定している。このため、再生した際に滑らかに合成音を得ることができる。

さらに好ましくは、前記歪み判定手段は、前記素片選択手段により選択された音声素片から前記声質変換手段により変換された変換後の音声素片への変形率に基づいて歪みを判定することを特徴とする。

変換前と変換後との音声素片の変形率により歪みを判定している。このため、目標とする声質に最も近い音声素片に基づいて声質変換が行なわれる。よって、音質の低下が少ない合成音を生成することができる。

さらに好ましくは、前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、前記歪み判定手段において歪みを検出した範囲のみについて、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択することを特徴とする。

歪みを検出した範囲のみを再変換の対象としている。このため、音声合成を高速に行なうことができる。また、歪んでいない部分までをも変換の対象としてしまうと、指定された声質とは異なる合成音が得られる場合があるが、この構成ではそのようなことは起こらず、高精度の合成音を得ることができる。

さらに好ましくは、前記音声素片記憶手段は、標準的な声質の音声素片を記憶する基本音声素片記憶手段と、前記標準的な声質の音声素片とは異なる複数の声質の音声素片を記憶する声質音声素片記憶手段とを有し、前記素片選択手段は、前記目標素片情報生成手段により生成された音声素片情報に対応する音声素片を、前記基本音声素片記憶手段から選択する基本素片選択手段と、前記目標素片情報修正手段により修正された音声素片情報に対応する音声素片を、前記声質音声素片記憶手段から選択する声質素片選択手段とを有することを特徴とする。

１回目に選択される音声素片は常に標準的な声質の音声素片である。このため、１回目の音声素片の選択を高速に行なうことができる。また、種々の声質の合成音を生成した場合であっても、収束が速い。このため、高速に合成音を得ることができる。さらに、必ず標準的な音声素片を出発点として、その後の音声変換および音声素片の選択を行なっている。このため、編集者が意図しないような音声が合成されるおそれがなく、高精度に合成音を生成することができる。

なお、本発明は、このような特徴的な手段を有する音声合成装置として実現することができるだけでなく、音声合成装置に含まれる特徴的な手段をステップとする音声合成方法として実現したり、音声合成装置に含まれる手段としてコンピュータを機能させるプログラムとして実現したりすることもできる。そして、そのようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）等の記録媒体やインターネット等の通信ネットワークを介して流通させることができるのは言うまでもない。

本発明の音声合成装置によれば、声質変換時の音声素片の歪みに応じて、音声素片を素片データベースから再選択することにより、合成音の品質を劣化させることなく、編集者が所望する連続的でかつ広い範囲の声質に変換することができる。

以下本発明の実施の形態について、図面を参照しながら説明する。
（実施の形態１）
図１は、本発明の実施の形態１における声質可変音声合成装置の構成図である。声質可変音声合成装置１００は、編集者が所望する声質を有する音声を合成する装置であり、テキスト解析部１０１と、目標素片情報生成部１０２と、素片データベース１０３と、素片選択部１０４と、声質指定部１０５と、声質変換部１０６と、波形生成部１０７と、歪み判定部１０８と、目標素片情報修正部１０９とを備えている。

テキスト解析部１０１は、外部より入力されるテキストを言語的に解析し、形態素情報や音素情報を出力する。目標素片情報生成部１０２は、テキスト解析部１０１により解析された音素情報を含む言語情報に基づいて、音韻環境、基本周波数、継続時間長、パワーなどの音声素片情報を生成する。素片データベース１０３は、予め収録された音声を音素などの単位でラベリングした音声素片を記憶する。

素片選択部１０４は、目標素片情報生成部１０２により生成された目標の音声素片情報に基づいて、素片データベース１０３から最適な音声素片を選択する。声質指定部１０５は、編集者が所望する合成音の声質を指定を受付ける。声質変換部１０６は、声質指定部１０５により指定された合成音の声質に合致するように素片選択部１０４により選択された音声素片を変換する。

波形生成部１０７は、声質変換部１０６で変換された後の音声素片系列から音声波形を生成し、合成音を出力する。歪み判定部１０８は、声質変換部１０６により声質を変換された音声素片の歪みを判定する。

目標素片情報修正部１０９は、歪み判定部１０８により判定された音声素片の歪みが所定の閾値を超えた場合に、素片選択部１０４が素片選択の際に使用する目標素片の情報を声質変換部１０６が変換した後の音声素片の情報に修正する。

次に各部の動作について説明する。
＜目標素片情報生成部１０２＞
目標素片情報生成部１０２は、テキスト解析部１０１から送られる言語情報をもとに、入力されたテキストの韻律情報を予測する。ここで、韻律情報は少なくとも音素単位ごとの継続時間長、基本周波数、パワー情報を含むものである。また、音素単位以外でも、モーラ単位や音節単位ごとに継続時間長、基本周波数、パワー情報を予測するようにしても良い。目標素片情報生成部１０２は、どのような方式の予測を行っても良い。例えば、数量化Ｉ類による方法で、予測を行うようにすればよい。

＜素片データベース１０３＞
素片データベース１０３は、予め収録された音声の素片を記憶する。記憶する形式としては、波形そのものを記憶する方法であっても良いし、音源波情報と声道情報とに分けてそれぞれを記憶する方法であっても良い。また、記憶する音声素片は波形に限られず、再合成可能な分析パラメータを記憶するようにしても良い。

素片データベース１０３には、音声素片だけではなく、記憶されている素片を選択する際に使用する特徴が素片単位毎に記憶される。素片単位としては音素や音節、モーラ、形態素、単語などがあるが、特に限定するものではない。

素片選択時に使用する特徴としては、基本特徴として、音声素片の前後の音韻環境、基本周波数、継続時間長、パワーなどの情報を記憶する。

また、詳細特徴として、音声素片のスペクトルの特徴であるフォルマントのパターンや、ケプストラムのパターン、基本周波数の時間的パターン、パワーの時間的パターンなどがある。

＜素片選択部１０４＞
素片選択部１０４は、目標素片情報生成部１０２により生成された情報に基づき素片データベース１０３より最適な音声素片系列を選択する。素片選択部１０４の具体的構成については特定するものではないが、その一例の構成を図２に示す。

図１に登場する部分については、その説明を省略する。素片選択部１０４は、素片候補抽出部３０１と、探索部３０２と、コスト計算部３０３とを備えている。

素片候補抽出部３０１は、目標素片情報生成部１０２により生成された音声素片情報の中から音韻に関係する項目（例えば音素など）により音声データベース１０３より選択の可能性がある候補を抽出する処理部である。探索部３０２は、素片候補抽出部３０１が抽出した素片候補の中からコスト計算部３０３によるコストが最小になる音声素片系列を決定する処理部である。

コスト計算部３０３は、素片候補と目標素片情報生成部１０２により生成された音声素片情報との距離を計算する目標コスト計算部３０４と、２つの素片候補を時間的に接続する時の接続性を評価する接続コスト計算部３０４とを備えている。

これら目標コストと接続コストとの和で表されるコスト関数を最小にする音声素片系列を探索部３０２により探索することにより、目標とする音声素片情報に類似し、かつ接続が滑らかな合成音を得ることが可能となる。

＜声質指定部１０５＞
声質指定部１０５は、編集者による所望の合成音の声質を指定を受付ける。指定の具体的指定方法については特に限定するものではないが、その一例を図３に示す。

例えば、図３に示すように声質指定部１０５をＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）により構成する。合成音の声質として変更可能な基本軸（例えば、年齢、性別、感情など）に対してスライダーを設け、そのスライダーの位置により各基本軸の制御値を指定する。基本軸の数には特に制限はない。

＜声質変換部１０６＞
声質変換部１０６は、声質指定部１０５により指定された声質に合うように、素片選択部１０４により選択された音声素片系列を変換する。変換の方法は特に限定するものではない。

ＬＰＣ（Linear Predictive Coefficient）分析による音声合成手法の場合にはＬＰＣ係数を声質変換ベクトルにより移動させることにより異なる声質の合成音を得る方法がある。例えば声質ＡのＬＰＣ係数と声質ＢのＬＰＣ係数との差分により、移動ベクトルを作成し、その移動ベクトルによってＬＰＣ係数を変換することによって声質変換を実現している。
またはフォルマント周波数を伸縮することにより、声質変換する方法であってもよい。

＜波形生成部１０７＞
波形生成部１０７は、声質変換部１０６により変換された音声素片系列を合成し、音声波形を合成する。合成方法は特に限定するものではない。例えば、素片データベース１０３が記憶する音声素片が音声波形の場合は波形接続法により合成すればよい。または素片データベースが記憶する情報が音源波情報と声道情報とである場合は、ソースフィルタモデルとして再合成すればよい。

＜歪み判定部１０８＞
歪み判定部１０８は素片探索部１０４により選択された音声素片と、声質変換部１０６により声質を変換された後の音声素片とを比較し、声質変換部１０６の変形による音声素片の歪みを算出する。歪みを判定する際の範囲は、音素、音節、モーラ、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。

歪みの計算方法は特に限定されるものではないが、音声素片の接続境界での歪みにより計算する方法と、音声素片の変形率により計算する方法とに大別される。その具体例を以下に示す。
１．接続境界の連続性による判定
音声素片の接続境界付近では、声質変換部１０６の変形により歪みが大きくなる。このような現象は声質変換部１０６の声質変換を音声素片ごとに独立して行った場合には顕著に表れる。この歪みにより波形生成部１０７により合成音を合成した場合に素片接続点付近で音質が劣化する。そのため、この素片接続点での歪みを判定する。判定方法としては例えば、以下の方法がある。
１．１ケプストラム距離
素片接続点におけるスペクトルの形状をあらわすケプストラム距離により歪みを判定する。すなわち、接続点の前方素片の最終フレームと接続点の後方素片の先頭フレームとのケプストラム距離を算出する。
１．２フォルマント距離
素片接続点におけるフォルマントの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームと、接続点の後方素片の先頭フレームとの各フォルマント周波数の差分を基に距離を算出する。
１．３ピッチの連続性
素片接続点における基本周波数の連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームの基本周波数と、接続点の後方素片の先頭フレームの基本周波数との差分を算出する。
１．４パワーの連続性
素片接続点におけるパワーの連続性により歪みを判定する。すなわち、接続点の前方素片の最終フレームのパワーと、接続点の後方素片の先頭フレームのパワーとの差分を算出する。
２．素片変形率による判定
声質変換部１０６の変形により、素片選択部１０４で選択された音声素片を変形した際に、声質指定部１０５により指定された声質が選択時と大きく異なった場合には、声質の変化量が大きくなり、波形生成部１０７で合成した際に、音声の品質とくに明瞭度が低下する。そこで、素片選択部１０４で選択した音声素片と、声質変換部１０６で変換した音声素片とを比較して、その変化量に基づいて歪みを判定する。例えば、以下の方法で判定することが出来る。
２．１ケプストラム距離
声質変換前の音声素片と声質変換後の音声素片とのケプストラム距離により歪みを判定する。
２．２フォルマント距離
声質変換前の音声素片と声質変換後の音声素片とのフォルマント周波数の差分に基づく距離により歪みを判定する。
２．３基本周波数の変形率
声質変換前の音声素片と声質変換後の音声素片との基本周波数の平均値の差分により歪みを判定する。または、基本周波数の時間パターンの差分により歪みを判定する。
２．４パワーの変形率
声質変換前の音声素片と声質変換後の音声素片とのパワーの平均値の差分により歪みを判定する。または、パワーの時間パターンの差分により歪みを判定する。

以上のいずれかの方法により算出された歪みが所定の閾値よりも大きい場合には、歪み判定部１０８は、素片選択部１０４と、目標素片情報修正部１０９とに音声素片の再選択を指示する。

なお、上記の方法を組み合わせることにより歪みを算出し、該歪みが所定の閾値よりも大きい場合は、歪み判定部１０８は、素片選択部１０４と、目標素片情報修正部１０９とに音声素片情報の再選択を指示するようにしてもよい。

＜目標素片情報修正部１０９＞
歪み判定部１０８により音声素片が歪んでいると判定された場合には、目標素片情報修正部１０９は、歪み判定部１０８により歪んでいると判断された音声素片を変更するために、目標素片情報生成部１０２によって生成された目標素片情報を修正する。

例えば、図４の「あらゆる現実を全て自分の方へねじ曲げたのだ。」というテキストに対する歪み判定部１０８の動作について説明する。図４に示すグラフにおいて、横軸方向に音素系列を示している。音素系列中の“’”はアクセント位置を示している。ここで、“／”は、アクセント句境界を示し、“,”はポーズを示す。縦軸は、歪み判定部１０８において計算された音声素片の歪みの度合いを示している。

歪み度の算出は音素毎に行なわれる。また、歪み判定は、音素、音節、モーラ、形態素、単語、文節、アクセント句、フレーズ、呼気段落および全文のいずれかの範囲を単位として行なわれる。歪み判定の範囲が音素よりも広い場合は、範囲に含まれる最大の歪み度、または範囲に含まれる歪み度の平均により当該範囲の歪みが判定される。図４の例では、例えば、「自分の方へ（jibuNnoho-e）」というアクセント句を判定の範囲とし、範囲内に含まれる音素の歪み度の最大値が所定の閾値を越えているため、該アクセント句を歪んでいると判断している。この場合には、目標素片情報修正部１０９は、該当の範囲の目標素片情報を修正する。

具体的には、声質変換部１０６により変換された音声素片から、その音声素片の基本周波数、継続時間長、パワーを新たな音声素片情報として使用する。

また、声質変換部１０６により、変換された声質が再現できるように、変換後の音声素片の声道情報であるフォルマントパターンやケプストラムパターンを新たに音声素片情報として追加するようにしても良い。

さらに、変換後の声道情報だけでなく、音源波情報としての基本周波数の時間パターンやパワーの時間パターンを音声素片情報に追加するようにしても良い。

このように、第１回目の素片選択では設定できなかった声質に関する音声素片情報を設定することにより、現在設定している声質に近い音声素片を再選択時に指定することが可能になる。

次に実際に動作する時の様子を入力テキストとして「明日の天気は晴れです。」と入力された場合の動作例を用いて説明する。テキスト解析部１０１は言語的な解析を行なう。その結果として、例えば「ａｓｈｉｔａｎｏ／ｔｅＮｋｉｗａ／ｈａｒｅｄｅｓｕ．」というような音素系列を出力する（スラッシュ記号はアクセント句の区切りを表す。）。

目標素片情報生成部１０２は、テキスト解析部１０１の解析結果をもとに各音素の音韻環境、基本周波数、継続時間、パワーなどの目標となる音声素片情報を決定する。例えば、文頭の「ａ」についての音声素片情報としては、音韻環境は「＾−ａ＋ｓｈ」（「＾−」は、前の音素が文頭であることを示し、「＋ｓｈ」は、後の音素がｓｈであることを示す。）であり、基本周波数は１２０Ｈｚであり、継続時間は６０ｍｓであり、パワーは２００であるというような情報を出力する。

素片選択部１０４は目標素片情報生成部１０２により出力される目標素片情報に最適な音声素片を素片データベース１０３より選択する。具体的には素片候補抽出部３０１が音声データベース１０３より、音声素片情報の音韻環境が適合する音声素片を素片選択の候補として抽出する。探索部３０２は素片候補抽出部３０１が抽出した素片候補からコスト計算部３０３によるコスト値が最小になる素片候補をビタビアルゴリズムなどを用いて決定する。コスト計算部３０３は、上述のように目標コスト計算部３０４と接続コスト計算部３０５からなる。目標コスト計算部３０４は、例えば、前述の音声素片情報の「ａ」と、候補の音声素片情報を比較して、一致度を計算する。例えば、候補素片の音声素片情報が音韻情報が「＾−ａ＋ｋ」、基本周波数が１１０Ｈｚ、継続時間が５０ｍｓ、パワーが２００である場合、各音声素片情報についてその一致度を計算しそれぞれの一致度を統合した数値を目標コスト値として出力する。接続コスト計算部３０５は、隣接する２つの音声素片、前述の例では、「ａ」と「ｓｈ」の２つの音声素片を接続した際の接続性を評価し、接続コスト値として出力する。評価方法としては、例えば「ａ」の終端部と「ｓｈ」の始端部とのケプストラム距離で評価することができる。

編集者は、図３に示されるような声質指定部１０５のＧＵＩを用いて、所望の声質の指定を行なう。ここでは、年齢がやや老人に近く、性別が女性に近く、性格がやや暗く、機嫌はほぼ普通である声質を指定している。

声質変換部１０６は、声質指定部１０５を用いて指定された声質に音声素片の声質を変換する。

このとき、初期選択時に素片選択部１０４により選択された音声素片の声質と、声質指定部１０５により指定された声質とが大きく異なる場合には、声質変換部１０６により修正される音声素片の変化量が大きくなり、声質が所望の声質であっても、合成音の品質、例えば明瞭度などが著しく劣化してしまう。そこで、歪み判定部１０８は、例えば「ａ」と「ｓｈ」の接続性や、素片データベースから選択された音声素片「ａ」と、声質変換部１０６により声質変換された後の音声素片「ａ」の素片の変形率（例えば素片間のケプストラム距離）によって、合成音の音質劣化が予想される場合には、素片データベース１０３より声質指定部１０５により指定されている現在の声質に最適な音声素片を再選択することを行う。なお、歪みの判定方法は、この方法には限られない。

再選択を行う際には、目標素片情報修正部１０９が、修正後の音声素片「ａ」の音声素片情報、例えば基本周波数は１１０Ｈｚ、継続時間は８５ｍｓ、パワーは３００というように変更する。また、声質変換後の音声素片「ａ」の声道特徴を表すケプストラム係数や、フォルマント軌跡を新たに追加する。これにより、入力テキストからは推定不可能な声質の情報を素片選択時に考慮することが可能となる。

素片選択部１０４は目標素片情報修正部１０９により修正された音声素片情報に基づき素片データベース１０３から最適な音声素片系列を再選択する。

このように歪みを検出した素片のみ再選択を行うことにより、再選択を行ったときの音声素片の声質は選択を行う以前の音声素片の声質に近いものを得ることが可能である。したがって、図３のようなＧＵＩを用いて段階的に所望の声質を編集している際には、前記指定した声質の合成音の声質に近い声質の素片を選択できる。したがって、声質を連続的に変化させた編集を行うことが可能となり、編集者の直感にあった合成音を編集することが可能となる。

この時、目標コスト計算部３０４は初期選択の時には考慮しなかった、声道特徴の一致度も考慮して目標コストを算出する。具体的には、目標素片「ａ」と素片候補「ａ」との間のケプストラム距離またはフォルマント距離を算出する。これにより、現在の声質に類似し、かつ、変形量が少なく音質の高い音声素片を選択することが可能になる。

以上のように、声質変換部１０６での変化量が小さい音声素片を再選択することにより、声質指定部１０５により、編集者が合成音の声質を逐次変更した場合にも、常に最適な音声素片に基づいて声質変換部１０６が声質変換を行うことができる。このため、高音質で、かつ声質の変化の幅が大きい声質可変音声合成が可能となる。

次に、編集者が所望の声質の音声を合成する際に声質可変音声合成装置１００において実行される処理について説明する。図５は、声質可変音声合成装置１００の実行する処理のフローチャートである。

テキスト解析部１０１は、入力されたテキストを言語的に解析する（Ｓ１）。目標素片情報生成部１０２は、テキスト解析部１０１において解析された言語情報をもとに、各音声素片の基本周波数や継続時間長といった音声素片情報を生成する（Ｓ２）。

素片選択部１０４は、素片情報生成処理（Ｓ２）で生成された音声素片情報に最も合致する音声素片系列を素片データベース１０３から選択する（Ｓ３）。

次に、編集者が図３に示すようなＧＵＩからなる声質指定部１０５により、声質を指定すると、声質変換部１０６は、指定された情報に基づいて、音声素片系列選択処理（Ｓ３）で選択された音声素片系列の声質を変換する（Ｓ４）。

歪み判定部１０８は、声質変換処理（Ｓ４）において声質変換された音声素片系列が歪んでいるか否かを判断する（Ｓ５）。具体的には、上述したいずれかの方法により音声素片系列に歪みを計算し、当該ひずみが所定の閾値よりも大きければ、音声素片系列が歪んでいると判断する。

音声素片系列が歪んでいると判断した場合には（Ｓ５でＹＥＳ）、目標素片情報修正部１０９は、目標素片情報生成部１０２で生成された音声素片情報を、現在の声質にあわせた音声素片情報に修正する（Ｓ６）。次に、素片選択部１０４は、素片情報修正処理（Ｓ６）において修正された音声素片情報を目標とし、素片データベース１０３から音声素片を再選択する（Ｓ７）。

歪みがないと判断された場合（Ｓ５でＮＯ）、または音声素片が再選択された後（Ｓ７）、波形生成部１０７は、選択された音声素片により音声を合成する（Ｓ８）。

編集者は、合成音声を聴取し、所望の声質であるかどうかを判断する（Ｓ９）。所望の声質である場合には（Ｓ９でＹＥＳ）、処理を終了する。所望の声質でなかった場合には（Ｓ９でＮＯ）、声質変換処理（Ｓ４）に戻る。

声質変換処理（Ｓ４）から声質判断処理（Ｓ９）までを繰り返すことにより、編集者は所望の声質の音声を合成することが可能となる。

次に、編集者が「あらゆる現実を全て自分の方へねじ曲げたのだ。」というテキストに対する「男性的で明るい声質」の合成音を所望した場合の動作について、図５に示したフローチャートに従い説明する。

テキスト解析部１０１は形態素解析、読みの決定、文節の決定、係り受け解析などを行なう（Ｓ１）。その結果、「arayu’ru/genjitsuo,su’bete/jibuNno/ho’-e,nejimageta’noda」という音素系列が得られる。

目標素片情報生成部１０２は、各音素「a」,「r」,「a」,「y」などそれぞれに対して、音韻環境や基本周波数、継続時間長、パワーなどといった各音素の特徴を生成する（Ｓ２）。

素片選択部１０４は、素片情報生成処理（Ｓ２）で生成された音声素片情報に基づいて素片データベース１０３から最適な音声素片系列を選択する（Ｓ３）。

編集者が、図３に示すような声質指定部１０５を用いて目標の声質を指定する。例えば、性別の軸を男性側に移動させ、性格の軸を明るい側に移動させたとする。すると、声質変換部１０６は、声質指定部１０５に基づいて音声素片系列の声質を変換する（Ｓ４）。

歪み判定部１０８は、声質変換処理（Ｓ４）において声質変換された音声素片系列が歪んでいるか否かを判断する（Ｓ５）。例えば、歪み判定部１０８において、図４に示すように歪みが検出された場合には（Ｓ５でＹＥＳ）、音声素片情報修正処理（Ｓ６）へ遷移する。または、図４に示すように歪みが所定の閾値を超えなかった場合には（Ｓ５でＮＯ）、波形生成処理（Ｓ８）へ遷移する。

音声素片情報修正処理（Ｓ６）では、目標素片情報修正部１０９が、声質変換処理（Ｓ４）において声質変換された音声素片の音声素片情報を抽出し、音声素片情報を修正する。図４の例では、歪みが閾値を超えたアクセント句である「自分の方へ」が再選択の範囲として指定され、音声素片情報が修正される。

素片選択部１０４は、音声素片情報修正処理（Ｓ６）により修正された目標素片情報に最も合致する音声素片系列を、素片データベース１０３から再選択する（Ｓ７）。その後、波形生成部１０７は、声質変換された音声素片系列から音声波形を生成する。

編集者は、生成された音声波形を聴取し、目標の声質になっているか否かを判断する（Ｓ９）。目標の声質になっていなかった場合（Ｓ９でＮＯ）、例えば、「もう少し男性的な声」にしたい場合は、声質変換処理（Ｓ４）に遷移し、編集者が、図３に示すような声質指定部１０５の性別軸をさらに男性側にずらす。

以上の声質変換処理（Ｓ４）から声質判断処理（Ｓ９）までを繰り返すことにより、編集者が所望する「男性的で明るい声質」の合成音を、合成音の品質を劣化させることなく、かつ連続的な声質変化で徐々に変換することが可能となる。

図６は、本発明における効果のイメージ図を示す。図６は声質空間を表している。声質７０１は、初期選択時に選択された素片系列の声質を示す。範囲７０２は、声質７０１に対応する音声素片をもとに歪み判定部１０８により歪みが検出されずに声質変換できる声質の範囲を示す。仮に、編集者が声質指定部１０５を用いて声質７０３を指定した場合には、歪み判定部１０８により歪みが検出される。このため、素片選択部１０４は、声質７０３に近い音声素片系列を素片データベース１０３より再選択する。これにより、声質７０３に近い声質７０４を持つ音声素片系列を選択することができる。また、声質７０４を有する音声素片系列から歪み判定部１０８により歪みを検出せずに声質を変換できる範囲は範囲７０５の内部である。このため、さらに声質７０４の音声素片系列をもとに声質を変換することにより、従来歪みなく声質変換できなかった声質７０６の声質へ声質変換を行うことが可能になる。このように、声質指定部１０５により指定する声質を段階的に指定していくことにより、編集者が所望する声質の音声を合成することが可能になる。

かかる構成によれば、歪み判定部１０８で所定の閾値以上の歪みを検出した場合には、目標素片情報修正部１０９により音声素片情報を修正し、素片選択部１０４により音声素片を再選択することにより、声質指定部１０５により指定されている声質に合った音声素片を素片データベース１０３により再選択することができる。このため、例えば、図６に示す声質空間において、編集者が声質７０３の音声の合成を所望した場合には、初期選択された声質７０１の音声素片系列から声質７０３への声質変換が行われるのではなく、声質７０３に最も近い声質７０４の音声素片系列から声質７０３への声質変換が行われることになる。このように、常に最適な音声素片系列に基づいて声質変換が行われるため、歪みがなく音質が良好な音声合成を行うことができる。

また、編集者が声質指定部１０５を用いて所望する声質を指定しなおした場合には、図５のフローチャートにおいて、音声素片の初期選択処理（Ｓ３）から処理が再開されるのではなく、声質変換処理（Ｓ４）から処理が再開される。このため、例えば、図６の声質空間において編集者が所望する声質を声質７０３から声質７０６に指定しなおした場合には、再度、声質７０１の音声素片系列からの声質変換が行われるのではなく、声質７０３への声質変換時に用いられた声質７０４の音声素片系列に基づいて、声質変換が行われる。仮に、音声素片の初期選択処理（Ｓ３）から処理が再開されるものとすると、編集者が所望する声質を徐々に指定しなおす場合に、指定しなおされた声質が指定しなおされる前の声質と声質空間上で近いにも関わらず、全く異なった声質の音声素片系列から指定しなおされた声質への声質変換が行われる場合がある。このため、編集者が所望する声質の音声がなかなか得られない場合がある。しかし、本実施の形態の手法によると、声質が指定しなおされた場合であっても、声質変換に用いられる音声素片系列は、声質変換後の音声素片系列が歪みを起こすことがなければ、その前の声質変換に用いられた音声素片系列と同じである。このため、合成音の声質を連続的に変化させることができる。また、このように、連続的に声質を変化させているため、音質を劣化させることなく、声質を大きく変化させることができる。

（実施の形態２）
図７は、本発明の実施の形態２における声質可変音声合成装置の構成図である。図７において、図１と同じ構成要素については同じ符号を用い、説明を省略する。

図７に示される声質可変音声合成装置２００は、図１に示される声質可変音声合成装置１００と異なり、素片データベース１０３の代わりに、基本素片データベース２０１および声質素片データベース２０２を用いたものである。

基本素片データベース２０１は、声質指定部１０５により如何なる声質をも指定されなかった場合のニュートラルな声質を合成する為の音声素片を記憶する記憶部である。声質素片データベース２０２は声質指定部１０５により指定された声質を合成することが可能な豊富な声質のバリエーショがある音声素片を記憶するように構成している点が実施の形態１と異なる。

本実施の形態では、入力されたテキストに対する最初の音声素片の選択は、目標素片情報生成部１０２が生成する音声素片情報に基づいて基本素片データベース２０１より素片選択部１０４が最適な音声素片を選択する。

声質指定部１０５により指定された声質に声質変換部１０６が音声素片の声質を変換することにより、歪み判定部１０８が歪みを検出し、目標素片情報修正部１０９が音声素片情報を修正して、素片選択部１０４が音声素片を再選択する場合には、声質素片データベース２０２より修正された音声素片情報に最適な音声素片系列を再選択する。

かかる構成によれば、声質指定部１０５により声質を指定される前のニュートラルな声質の合成音を生成する際には、素片選択部１０４はニュートラルな声質の音声素片のみから構成される基本素片データベースのみから音声素片を選択するため、素片探索に必要な時間を短縮することができ、かつ精度良くニュートラルの声質の合成音を生成することが可能となる。

以上、本発明に係る声質可変音声合成装置について、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。

例えば、図８に示すように、図７に示した声質可変音声合成装置２００に素片保持部８０１を設け、声質可変音声合成装置８００を構成してもよい。素片保持部８０１は、素片選択部１０４が選択した素片系列の識別子を保持する。目標素片情報修正部１０９により修正された音声素片情報に基づいて、素片選択部１０４が素片データベース１０３から再選択を行う際には、歪み判定部１０８により、音声素片が歪んでいると判断された範囲のみを再選択する。すなわち、素片選択部１０４は、歪んでいないと判断された範囲の音声素片については、素片保持部８０１により保持されている識別子を用いて前回の素片選択の際に選択された素片と同一の素片を使用するように構成しても良い。

なお、素片保持部８０１は識別子ではなく、素片そのものを保持しても良い。
また、再選択の範囲は、音素、音節、形態素、単語、文節、アクセント句、呼気段落、全文のいずれでも良い。

本発明にかかる声質可変音声合成装置は、合成音の声質を大きく変化させた場合においても合成音の音質を低下させずに声質変換を行う機能を有し、エンターテイメントや音声対話システムの応答音声を生成する音声合成装置等として有用である。

図１は、本発明の実施の形態１における声質可変音声合成の構成図である。図２は、素片選択部の一般的な構成図である。図３は、声質指定部の一例を示す図である。図４は、歪み判定部の範囲指定の説明図である。図５は、声質可変音声合成装置の実行する処理のフローチャートである。図６は、声質空間における声質変換過程の説明図である。図７は、本発明の実施の形態２における声質可変音声合成の構成図である。図８は、音声素片再選択時の説明図である。図９は、従来の声質可変音声合成装置の構成図である。

符号の説明

１０１テキスト解析部
１０２目標素片情報生成部
１０３素片データベース
１０４素片選択部
１０５声質指定部
１０６声質変換部
１０７波形生成部
１０８歪み判定部
１０９目標素片情報修正部
２０１基本素片データベース
２０２声質素片データベース
３０１素片候補抽出部
３０２探索部
３０３コスト計算部
３０４目標コスト計算部
３０５接続コスト計算部
８０１素片保持部

Claims

所望の声質を有する音声を合成する音声合成装置であって、
複数の声質の音声素片を記憶する音声素片記憶手段と、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段とを備え、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする音声合成装置。
前記声質変換手段は、さらに、前記修正後の音声素片情報に対応する音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する
ことを特徴とする請求項１に記載の音声合成装置。
前記目標素片情報修正手段は、さらに、前記目標素片情報生成手段により生成された音声素片情報を修正する際に、前記声質変換手段により変換された音声素片の声道特徴を修正後の音声素片情報に加える
ことを特徴とする請求項１に記載の音声合成装置。
前記声道特徴は、前記声質変換手段により変換された音声素片のケプストラム係数またはケプトラム係数の時間パターンである
ことを特徴とする請求項３に記載の音声合成装置。
前記声道特徴は、前記声質変換手段により変換された音声素片のフォルマント周波数またはフォルマント周波数の時間パターンである
ことを特徴とする請求項３に記載の音声合成装置。
前記歪み判定手段は、隣接する音声素片間の接続性に基づいて歪みを判定する
ことを特徴とする請求項１に記載の音声合成装置。
前記歪み判定手段は、隣接する音声素片間のケプストラム距離、隣接する音声素片間のフォルマント周波数の距離、隣接する音声素片間の基本周波数の差分、または隣接する音声素片間のパワーの差分に基づいて歪みを判定する
ことを特徴とする請求項６に記載の音声合成装置。
前記歪み判定手段は、前記素片選択手段により選択された音声素片から前記声質変換手段により変換された変換後の音声素片への変形率に基づいて歪みを判定する
ことを特徴とする請求項１に記載の音声合成装置。
前記歪み判定手段は、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のケプストラム距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のフォルマント周波数の距離、前記素片選択手段により選択された音声素片と前記変換後の音声素片との間の基本周波数の差分、または前記素片選択手段により選択された音声素片と前記変換後の音声素片との間のパワーの差分に基づいて歪みを判定する
ことを特徴とする請求項８に記載の音声合成装置。
前記歪み判定手段は、音素、音節、モーラ、形態素、単語、文節、アクセント句、フレーズ、呼気段落および全文のいずれかを単位として歪みを判定する
ことを特徴とする請求項１に記載の音声合成装置。
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、前記歪み判定手段において歪みを検出した範囲のみについて、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする請求項１に記載の音声合成装置。
さらに、前記素片選択手段により選択された音声素片の識別子を保持する素片保持手段を備え、
前記素片選択手段は、前記歪み判定手段において歪みが検出されなかった範囲の音声素片については、前記素片保持手段に保持された前記識別子に基づいて前記音声素片を選択する
ことを特徴とする請求項１１に記載の音声合成装置。
前記音声素片記憶手段は、
標準的な声質の音声素片を記憶する基本音声素片記憶手段と、
前記標準的な声質の音声素片とは異なる複数の声質の音声素片を記憶する声質音声素片記憶手段とを有し、
前記素片選択手段は、
前記目標素片情報生成手段により生成された音声素片情報に対応する音声素片を、前記基本音声素片記憶手段から選択する基本素片選択手段と、
前記目標素片情報修正手段により修正された音声素片情報に対応する音声素片を、前記声質音声素片記憶手段から選択する声質素片選択手段とを有する
ことを特徴とする請求項１に記載の音声合成装置。
複数の声質の音声素片を記憶する音声素片記憶手段を備える音声合成装置における音声合成方法であって、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成ステップと、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択ステップと、
合成音の声質の指定を受付ける声質指定ステップと、
前記素片選択ステップにおいて選択された音声素片を、前記声質指定ステップにおいて受付けられた声質を有する音声素片に変換する声質変換ステップと、
前記声質変換ステップにおいて変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定ステップと、
前記歪み判定ステップにおいて変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成ステップにおいて生成された音声素片情報を前記声質変換ステップにおいて変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正ステップとを含み、
前記素片選択ステップでは、前記目標素片情報修正ステップにおいて音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とする音声合成方法。
コンピュータを音声合成装置として機能させるためのプログラムであって、
前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え、
前記プログラムは、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段としてコンピュータを機能させ、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とするプログラム。
コンピュータが実行するプログラムを記録したコンピュータ読取可能な記録媒体であって、
前記コンピュータは、複数の声質の音声素片を記憶する音声素片記憶手段を備え、
前記プログラムは、
音素情報を含む言語情報に基づいて、当該言語情報に対応する音声素片情報を生成する目標素片情報生成手段と、
前記音声素片情報に対応する音声素片を、前記音声素片記憶手段から選択する素片選択手段と、
合成音の声質の指定を受付ける声質指定手段と、
前記素片選択手段により選択された音声素片を、前記声質指定手段により受付けられた声質を有する音声素片に変換する声質変換手段と、
前記声質変換手段により変換された変換後の音声素片と当該変換前の音声素片との歪みを判定する歪み判定手段と、
前記歪み判定手段により変換後の音声素片が歪んでいると判断された場合に、前記目標素片情報生成手段により生成された音声素片情報を前記声質変換手段により変換された変換後の音声素片に対応する音声素片情報に修正する目標素片情報修正手段としてコンピュータを機能させ、
前記素片選択手段は、前記目標素片情報修正手段より音声素片情報が修正された場合には、修正後の音声素片情報に対応する音声素片を前記音声素片記憶手段から選択する
ことを特徴とするコンピュータ読取可能な記録媒体。