JP2006189554A

JP2006189554A - テキスト音声合成方法及びその装置、並びにテキスト音声合成プログラム及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2006189554A
Application number: JP2005000498A
Authority: JP
Inventors: Satoshi Furuta; 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-01-05
Filing date: 2005-01-05
Publication date: 2006-07-20
Anticipated expiration: 2025-01-05
Also published as: JP4762553B2

Abstract

【課題】従来は、合成音声生成時の音声素片選択時の波形歪計算は音声合成単位であるため、子音部の音質は非常に良いが、母音部の音質が悪いと、代表音声素片選択から除外され、子音部の良い点が反映されず、「子音も母音もそこそこ良い」平均的な品質のものになり、高品質なものは得られない。
【解決手段】複数のトレーニング音声素片から複数の信号波形を切り出し、切り出された信号波形を組み合わせて複数の融合音声素片を生成し、この融合音声素片のピッチおよび継続時間長の少なくとも一方を所定の音声素片の対応パラメータに従って変更して複数の合成音声素片を生成し、生成した複数の合成音声素片と所定の音声素片間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に記憶し、入力テキストを解析して得られる入力音素に対応した融合音声素片を音声素片辞書から選択して接続し、合成音声を出力する。
【選択図】図１

Description

この発明は、テキスト音声合成に係り、特にピッチ長、継続時間長などの情報から生成する合成音声の品質向上を図るテキスト音声合成技術に関するものである。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、音韻処理部（韻律設定）、音声合成部の３つの段階によって行われる。
入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音韻処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの音素環境情報が出力される。そして音素環境情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。
このような音声合成の技術分野において、複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、既に生成されている代表音声素片のピッチおよび継続時間長の少なくとも一方を変更し、複数の合成音声素片を生成する。この生成した合成音声素片とトレーニング素片との歪を評価し、歪が最小となる音声素片（これを代表音声素片という）を選択して接続することにより合成音声を出力するものがある。（例えば特許文献１参照）。

ここで、音声素片とは、母音をＶ、子音をＣと表すと、ＣＶ、ＶＣ、ＶＣＶ等の音声合成単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。音素環境は、当該音声素片の環境要因であり、例えば、当該音声素片の音素名、先行する音素、後続する音素、ピッチ周期、ピッチパターン、継続時間長、ＣとＶの音素境界位置、パワー、モーラ数、アクセント位置等の要素が挙げられる。

特開平９−３１９３９１号公報（第４頁〜８頁、第１図）

従来の音声合成方法は、以上のように構成されているが、音声素片選択の際の波形歪計算が、ＣＶ、ＶＣ、ＶＣＶ等の音声合成単位であるため、ＣＶ単位で構成される音声素片の場合を例にとれば、ある代表音声素片候補において、Ｃ（子音）部の音質は非常に良い（あるいは変形に強い）が、Ｖ（母音）部の音質が悪い（あるいは変形に弱い）と、最終的に選択される代表音声素片からこの音声素片候補は除外されてしまい、Ｃ部の音質の良い点が代表音声素片に反映されず、その結果、代表音声素片として選択される音声素片は「子音も母音もそこそこ良い」平均的な品質のものしか得られないという課題がある。

この発明は、前記問題点を解決するためになされたもので、トレーニング音声素片または音声素片辞書から最適音声素片を選択する素片選択過程において、任意の複数の音声波形、あるいは音声波形を構成するパラメータを組み合わせて最適な音声素片を新規に生成することで、高品質の合成音声を可能にする音声合成方法および装置を得ることを目的とする。

また、この発明は、トレーニング音声素片または音声素片辞書から最適音声素片を選択する素片選択過程において、複数の音声素片中の共通部分、例えば、/ma/、/ka/、/ba/における母音音素/a/や、/na/、/ni/、/nu/における子音音素/n/等であって、複数の切り出された音声波形から歪最小となる波形を組み合わせて複数の音声素片の最適な共通部分を生成し、共通部分を縮退化することで、高品質な合成音声を提供しつつ、音声素片の記憶容量を大幅に削減することを可能にする音声合成方法および装置を得ることを目的とする。

この発明に係るテキスト音声合成方法は、
複数のトレーニング音声素片から複数の信号波形を切り出す波形分離ステップと、
前記切り出された複数の信号波形から、任意の１つまたは複数の信号波形を組み合わせて融合することにより複数の融合音声素片を生成する波形融合ステップと、
前記複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成する音声素片合成ステップと、
前記複数のトレーニング音声素片のそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に保持または記憶する歪み評価ステップと、
前記音声素片辞書に保持または記憶された複数の融合音声素片から、入力テキストを解析して得られる入力音素に対応した融合音声素片を選択して接続することにより合成音声を出力する合成音声生成ステップとを有する。

また、この発明に係るテキスト音声合成装置は、
入力テキストを解析して入力音素を得る韻律設定部と、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段と、
前記融合音声素片を保持または記憶する融合音声素片記憶手段と、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段と、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段とを具備する。

また、この発明に係るテキスト音声合成プログラムは、
コンピュータに
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させる。

また、この発明に係るテキスト音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体は、
コンピュータを、
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのプログラムを記録した。

この発明によれば、トレーニング音声素片から任意の複数の音声波形を組み合わせて、合成音レベルで良好な音質となる音声素片を新規に生成することにより、高品質の合成音声を生成することができる。

また、この発明によれば、複数の切り出された音声波形から、歪最小となる波形を組み合わせて複数の音声素片の最適な共通部分を生成し、共通部分を縮退化することで、高品質な合成音声を提供しつつ、音声素片辞書の記憶容量を大幅に削減することができる。

以下、図面を参照してこの発明の実施の形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図１において、１は入力端子、２は言語処理部、３は言語辞書、４は韻律設定部、５は融合音声素片生成部、６は音声素片辞書、７は素片選択部、８は音声合成部、９は出力端子である。

図１において、入力端子１から入力された入力テキスト１０１は、言語処理部２において言語辞書３を相互参照して形態素解析、構文解析がされ、読みや品詞情報等の解析結果１０２を出力する。

次に、言語処理部２が出力する解析結果１０２を元に、韻律設定部４において、音韻系列、アクセントならびにイントネーションの制御処理が行われ、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報１０３が設定される。

融合音声素片生成部５では、第１のトレーニング音声素片１０４と第２のトレーニング音声素片１０５が入力され、例えば、第２のトレーニング音声素片１０５からある音韻に属する複数の信号波形を切り出して、任意の１つまたは複数の信号波形を組み合わせて融合することにより、複数の融合音声素片を生成する。さらに、第２のトレーニング音声素片と同一の音韻に属する第１のトレーニング音声素片１０４を選択し、それら音声素片に含まれるピッチ周期および継続時間長等の情報に従って、第２のトレーニング音声素片１０５から生成された複数の融合音声素片のピッチ周期および継続時間長等を変更することにより、複数の合成音声素片を生成する。続いて、複数の合成音声素片のそれぞれと第１のトレーニング音声素片１０４のそれぞれとの歪評価を行い、歪を最小とする融合音声素片１０６を音声素片辞書６に記憶する。
なお、本実施の形態ではトレーニング音声素片は、人間が発声した自然音声信号を用いている。
また、融合音声素片生成部５の処理については、後に詳細に説明する。

次に、素片選択部７において、韻律情報１０３と、複数の融合音声素片１０６を保持または記憶する音声素片辞書６を参照して、音声合成に用いる融合音声素片である代表音声素片１０７が選択される。

音声合成部８は、韻律情報１０３に従って、音声素片辞書６から選択された代表音声素片１０７に対して、ピッチ周期および音韻継続時間長を変更するとともに、素片の接続を行って合成音声信号１０８を出力端子９に出力する。ここで、ピッチ周期および音韻継続時間長を変更し、音声を合成する方法としては、たとえばＬＳＰ（Line Spectral Pair）パラメータ上で合成する残差駆動ＬＳＰ方法、スペクトルパラメータ上で合成するＭＢＥ（Multi Band Excitation）方法、２ピッチ長波形を重畳合成するピッチ波形重畳方法、音素単位等の信号波形を接続合成する波形編集方法など公知の手法を用いることができる。

次に、この発明の特徴をなす融合音声素片生成部５の処理の実施の形態について具体的に説明する。図２のフローチャートは、融合音声素片生成部５の実施の形態１における処理手順を示している。

本実施の形態１における融合音声素片生成処理では、まず、多数の音声データに対して音韻毎にラベリングし、ＣＶ、ＶＣ、ＶＣＶ等の合成単位に従って切り出された第１のトレーニング音声素片S1[i]（i＝１、２、３、…、Ns1）と、同様に切り出された第２のトレーニング音声素片S2[i]（i＝１、２、３、…、Ns2）を用意する。ただし、Ns1およびNs2はそれぞれのトレーニング音声素片の同一音韻に属する素片の個数である。また、ラベリング時に音声素片毎の音韻情報、ピッチ情報、継続時間長、音素境界情報、その他必要に応じて前後音素環境等の情報も抽出して記憶する。

前記のように第１および第２のトレーニング音声素片を用意した後、まず、波形分離ステップＳ１１で波形分離を行う。本実施の形態では、説明を簡単にするために合成単位をＣＶとし、また、音声素片の信号波形分離位置をＣとＶの音素境界位置（以下、ＣＶ境界とする）に設定し、Ｃ部の信号波形（以下、Ｃ素片とする）とＶ部の信号波形（以下、Ｖ素片とする）の２個に分離するものとして以下の説明を行う。

波形分離ステップＳ１１では、第２のトレーニング音声素片S2[i]から各音声素片のＣＶ境界に従ってＣ素片SC[j]（j=１、２、３、…、Ns2）、Ｖ素片SV[k]（k＝１、２、３、…、Ns2）に分離する。例えばＣＶ素片の音韻が/ma/の場合では、Ｃ素片は/m/の音素波形、Ｖ素片は/a/の音素波形である。また、Ｃ素片、Ｖ素片の分離に伴い、Ｃ素片およびＶ素片のピッチ情報、継続時間長、前後音素環境等の情報を記憶する。

続いて、波形融合ステップＳ１２では、波形分離ステップＳ１１で分離されたＣ素片SC[j]とＶ素片SV[k]から同一音韻に属するものを任意に選択し、融合音声素片SM[jk]（j=１、２、３、…、Ns2、k=１、２、３、…、Ns2）を生成する。ここで、SM[jk]はj番目のＣ素片とk番目のＶ素片とを接続・融合したＣＶ音声素片である。なお、融合音声素片SM[jk]のピッチについては、Ｃ素片およびＶ素片のピッチ情報をそれぞれＣ部のピッチとＶ部のピッチとして継承し、同じく継続時間長については、Ｃ素片の継続時間長とＶ素片の継続時間長の合計値を融合音声素片の継続時間長としている。

前記の融合音声素片SM[jk]を生成する際に、Ｃ素片とＶ素片との接続部の不連続を軽減するために補間処理を行ってもよい。補間処理の例として、フレーム間のパワーや振幅の線形補間、移動平均、Lagrangeの補間多項式を利用した方法等を用いることができる。

音声素片合成ステップＳ１３では、第１のトレーニング音声素片S1[i]のピッチおよび継続時間長に等しくなるように、融合音声素片SM[jk]のピッチおよび継続時間長を変更して音声合成を行って、合成音声素片G[jk、i]（j=１、２、３、…、Ns2、k=１、２、３、…、Ns2、i=１、２、３、…、Ns1）を生成する。ここで、融合音声素片の音韻が/ma/の場合には、第１のトレーニング音声素片S1[i]も同一の音韻/ma/のＣＶ素片を用いる。

歪評価ステップＳ１４では、合成音声素片G[jk、i]の歪評価を行う。この歪評価は合成音声素片G[jk、i]と第１のトレーニング音声素片S1[i]との距離e[jk、i] （j=１、２、３、…、Ns2、k=１、２、３、…、Ns2、i=１、２、３、…、Ns1）を評価することで行う。距離e[jk、i]は、例えば、合成音声素片G[jk、i]の信号波形と第１のトレーニング音声素片S1[i]の信号波形の２乗誤差や、合成音声素片G[jk、i]および第１のトレーニング音声素片S1[i]をＦＦＴ(Fast Fourier Transform)等を用いて、パワースペクトルに変換し、スペクトル間の２乗誤差を用いることができる。あるいは、ＬＳＰパラメータ、ケプストラムパラメータ等の公知のパラメータを用いたそれぞれの素片間の距離であっても良い。また、合成音声素片と第１のトレーニング音声素片を、例えば帯域通過フィルタ処理し、帯域毎に適した別の評価方法を用いても良い。帯域毎に適した評価方法により歪評価を行うことにより、さらに詳細な歪評価が可能となり、合成音声の品質を向上することができる。

また、ＣＶ境界近傍やスペクトルが大きく変動する部分、例えば、語頭・語尾など音声の立ち上がり・立下り部分や音韻変化過渡部においては、他の部分より大きく重み付けして距離e[jk、i]を評価してもよい。波形融合点であるＣＶ近傍等を大きく重み付けして距離e[jk、i]を評価することにより、波形融合による波形不連続に起因する歪に大きく重み付けして評価することができるので、劣化した融合音声素片の生成を抑制することができ、合成音声の品質を向上することができる。

さらに、合成音声素片G[jk、i]と第１のトレーニング音声素片S1[i]との距離e[jk、i]を評価する際に、合成音声素片G[jk、i]と第１のトレーニング音声素片S1[i]に対して、なんらかの聴覚的重み付けフィルタ処理を行っても良い。聴覚重み付けの方法としては、例えばＬＰＣ(Linear Predictive Coefficient)パラメータ等を用いた逆フィルタ処理による方法等の公知の方法を用いることができる。この聴覚重み付け処理はトレーニング音声素片に予め処理しておくことで計算を省力化することができる。
このとき、音声素片辞書６へは聴覚重み付け処理を行っていないトレーニング音声素片から、前記歪最小となる融合音声素片のみを生成して出力する。
また、前記の距離e[jk、i]に対して、聴覚重み付けフィルタを構成する関数を距離計算の重み付け関数として組み込んでもよい。聴覚重み付け処理を行うことで、聴覚的に重要な部分を重視した歪評価が可能となり、さらに合成音声の品質を向上することができる。

総合評価ステップＳ１５では、歪評価ステップＳ１４にて合成音声素片G[jk、i]の全ての歪評価を行った後、式（１）、（２）に従って、融合音声素片SM[jk]の波形変形歪を表す総合歪E[jk]（j=１、２、３、…、Ns2、k=１、２、３、…、Ns2）を求める。

ここで、w(ij)は第１のトレーニング音声素片S1[i]と第２のトレーニング音声素片S2[i]の関係から導出される重み付け関数であり、F01[i]は第１のトレーニング音声素片S1[i]の平均ピッチ周期、F02[i]は第２のトレーニング音声素片S2[i]の平均ピッチ周期である。また、Wcは所定の重み係数であり、音韻毎に実験的に好適な値を設定する。

以上、第２のトレーニング音声素片S2[i]から得られた、Ｃ素片SC[j]とＶ素片SV[k]の全ての組み合わせによる融合音声素片SM[jk]の総合歪E[jk]を評価し、総合歪が最小となるＣ素片SC[j]とＶ素片SV[k]の組み合わせで構成される融合音声素片１０６を、音声素片辞書６へ出力する。前記のステップＳ１１〜Ｓ１５の工程を、音声合成に用いるのに必要な全ての音韻に対し、第１のトレーニング音声素片１０４と第２のトレーニング音声素片１０５を、当該音韻のものに取り替えて順次実施することで音声素片辞書６を構築する。

なお、本実施の形態においては、説明の簡略化のために波形分離位置をＣＶ境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。

また、上述の総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をＣＶ境界の前後にトラッキング（微調整）してもよい。図３はこのときの融合音声素片生成部５の処理の変形例であり、総合評価ステップＳ１５から波形分離ステップＳ１１に戻るフィードバックループを形成し、判断ステップＳ１６にて総合歪あるいは距離が最小と判断されるまで、ステップＳ１１からステップＳ１５までの処理を順次実施することとなる。

本実施の形態においては、説明の簡略化のために合成単位をＣＶ素片として説明を行ったが、ＶＣ、ＶＣＶ、ＣＶＣといったような合成単位にも勿論適用できる。また、例えば、/myo/のような半母音/yo/を含む音声素片においては、/m/、/y/、/o/と３分割してそれぞれを組み合わせることで融合音声素片を作成することも可能である。また、半音素単位で/-m/、/m-y/、/y-o/、/o-/と４分割してもかまわない。

本実施の形態においては、有声子音/ma/の場合について例示したが、例えば、無声子音/sa/等のＣＶ素片にこの発明を適用しても良いし、単独母音/a/において、ある/a/の音素と別の/a/の音素を接続して/a/の長音を生成（ＶＶ素片）する場合にもこの発明は適用可能である。さらに単独子音の場合も単独母音の場合と同様に長音を生成（ＣＣ素片）することができる。すなわち、Ｃ、Ｖ単独音素に対応できるので、単独のＣ、Ｖを合成単位とする（単音素単位）の音声合成方法にも適用可能である。

さらに、Ｃ、Ｖ、ＣＶといった合成単位よりももっと細分化された単位、例えば、２ピッチ長波形重畳合成方法に用いられる２ピッチ長波形を素片組み合わせ単位と見なし、この２ピッチ長波形単位で組み合わせて融合音声素片を生成したり、また、音声素片の時間軸信号を5ms単位のフレームに分割し、そのフレーム単位に分析したＬＳＰパラメータなどのパラメータレベルで組み合わせて融合音声素片を生成しても良い。

また、歪評価の際に、ある音韻において、融合音声素片を用いて合成音声素片を生成した場合と、従来の融合しない音声素片にて合成音声素片を生成した場合とを比較し、従来の融合音声素片を用いない場合の方が歪が小さくなる場合には、当該音韻に関しては融合音声素片を用いずに通常の音声素片を選択することも可能である。

本実施の形態１の構成をとることにより、例えば、トレーニング音声素片の個数が十分用意できない場合でも、任意に波形を組み合わせて融合音声素片を生成して音声素片とすることで、音声素片のバリエーションを増やすことができ、品質の高い合成音声を生成することができる。

実施の形態２．
前記実施の形態１にて示した融合音声素片生成部５において、第２のトレーニング音声素片数がNs2個の場合、（Ns2）×（Ns2）通りの組み合わせの融合音声素片の歪評価が必要であり、Ns2が大きくなると飛躍的に処理量が増大するが、融合音声素片の組み合わせに用いる音声素片を予備選択することで、融合音声素片評価に対する処理量を削減することができる。

図４は、融合音声素片生成部５の別の実施の形態の処理手順を示すフローチャートである。図４において、予備選択ステップＳ２１が波形分離ステップＳ１１の処理の前にあり、他は図２の処理と同様に構成される。

予備選択ステップＳ２１では、所定の予備選択方法により、第２のトレーニング音声素片から、融合音声素片の生成候補として好適な音声素片のみ選択し、この選択された音声素片に対して波形分離、波形融合の処理を施し、音声素片合成ステップＳ１３へ出力する。また、適宜、第１のトレーニング音声素片も同様に予備選択し、好適な音声素片のみ音声素片合成ステップＳ１３へ出力してもかまわない。

予備選択方法として、例えば、従来の代表音声素片選択方法により選択された上位の音声素片（合成音声レベルでの歪が小さい音声素片）を用いたり、ピッチ周期または継続時間長が所定範囲の音声素片だけや、前後音素環境が同じもの、あるいは、スペクトルが近似している（スペクトル上の距離が一定範囲内など）音声素片だけ選択する等で実施可能である。

また、別の予備選択方法として、音質が悪い音声素片を公知の手法を用いて事前に排除（スクリーニング）することでも実行可能である。音質の悪い音声素片として、例えば、パワーが小さい、信号波形・ピッチ周期・パワーが乱れている音声素片、ラベリング時に有声・無声判定やピッチ抽出を誤っている音声素片、あるいは、ピッチ周期が平均値から大きく外れていたり、継続時間長が短すぎたり長すぎたりして音声合成に用いるには不適当な音声素片等が挙げられる。

続いて、予備選択ステップＳ２１から出力された、予備選択後のトレーニング音声素片に対し、ステップＳ１１、ステップＳ１２、ステップＳ１３、ステップＳ１４、ステップＳ１５を実施の形態１と同様に順次実行し、作成された融合音声素片１０６を音声素片辞書６へ出力する。

なお、本実施の形態２においては、説明の簡略化のために波形分離位置をＣＶ境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。

また、本実施の形態２においても、先の実施の形態１と同様に、総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をＣＶ境界の前後にトラッキング（微調整）してもよい。図５はこのときの融合音声素片生成部５の処理の別の変形例であり、総合評価ステップＳ１５から波形分離ステップＳ１１に戻るフィードバックループを形成し、判断ステップＳ１６にて総合歪あるいは距離が最小と判断されるまで、ステップＳ１１からステップＳ１５までの処理を順次実施することとなる。

前記のように、融合音声素片の組み合わせに用いる音声素片を予備選択することで、融合音声素片評価に対する処理量を削減する効果を奏すると共に、音質の悪い第２のトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。

さらに、融合音声素片のリファレンス（教師データ）となる第１のトレーニング音声素片も予備選択することで、歪評価時においてその処理量を削減する効果を奏すると共に、音質が悪い第１のトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。

実施の形態３．
また、実施の形態２の別の形態として、Ｃ素片とＶ素片を分離した後に、それぞれの素片別に予備選択を実施することも可能である。

図６は、融合音声素片生成部５の別の実施の形態の処理手順を示すフローチャートである。図６において、まず、波形分離ステップＳ１１により、第２のトレーニング音声素片の波形分離を行い、その後、予備選択ステップＳ２１において、Ｃ素片、Ｖ素片に対しそれぞれ独立した予備選択が実行され、以下、実施の形態１と同様にステップＳ１２、ステップＳ１３、ステップＳ１４、ステップＳ１５を順次実行し、作成された融合音声素片１０６を音声素片辞書６へ出力する。

予備選択方法として、例えば、従来の代表素片選択方法によりそれぞれの上位候補を選定し、それぞれの上位候補で融合音声素片を生成する方法など、前記実施の形態２の予備選択ステップＳ２１で用いているのと同様の方法を用いることができる。

本実施の形態３においても、先の実施の形態２と同様に、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよいし、総合歪E[jk]あるいは距離e[jk、i]が小さくなるように、音声素片毎に波形分離位置をＣＶ境界の前後にトラッキング（微調整）してもよい。

波形分離した後に、分離後の波形別に独立して予備選択を行うことで、融合音声素片の歪評価に対する処理量を削減する効果を奏すると共に、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。

実施の形態４．
前記実施の形態１の変形例として、ＣＶ素片のＣ素片とＶ素片を、他の音韻のそれらと共有化することで、合成音声の品質を維持したまま音響辞書のサイズを大幅に削減したり、音素を共通化できるため聴感上の合成音声の安定化を図ることが可能である。

図７は、この発明の実施の形態４に係る音声合成方法を実現するテキスト音声合成装置の構成を示すブロック図である。図１と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、第２のトレーニング音声素片１０５から複数の共通化音声素片候補２０１および複数の非共通化音声素片候補２０２を生成し出力する共通音声素片生成具２１と、第１のトレーニング音声素片１０４および複数の共通化音声素片候補２０１と複数の非共通化音声素片候補２０２を入力し、共通化音声素片２０３および非共通化音声素片２０４を出力する融合音声素片生成具２２が備えられており、共通音声素片生成具２１と融合音声素片生成具２２で融合音声素片生成部５を構成している点がこれまでの実施の形態と異なる処である。

共通音声素片生成具２１では、第２のトレーニング音声素片１０５から、例えば、音韻中の音素名が共通する複数の信号波形を切り出して、複数の共通化音声素片候補２０１および複数の非共通化音声素片候補２０２を生成し出力する。ここで、共通化音声素片とは、例えば有声子音/ma/、/za/、/na/等のグループにおいて、共通音素名である母音部/a/の音声素片波形を示し、非共通化音声素片とは、各子音部/m/、/z/、/n/等の音声素片波形のことを示す。

融合音声素片生成具２２には、第１のトレーニング音声素片１０４と、共通音声素片生成具２１において第２のトレーニング音声素片１０５から生成された共通化音声素片候補２０１および非共通化音声素片候補２０２が入力される。入力された共通化音声素片候補２０１および非共通化音声素片候補２０２から、任意の１つまたは複数の信号波形を組み合わせて融合することにより、複数の融合音声素片を生成する。さらに、融合音声素片と同一の音韻に属する第１のトレーニング音声素片１０４を選択し、それら音声素片に含まれるピッチ周期および継続時間長等の情報に従って、複数の融合音声素片のピッチ周期および継続時間長等を変更することにより、複数の合成音声素片を生成する。

続いて、複数の合成音声素片のそれぞれと第１のトレーニング音声素片１０４のそれぞれとの歪評価を行う。歪評価は共通化対象である音韻に属する全ての音素に対して実施し、最も歪を最小とする共通化部分の音声素片を共通化音声素片２０３として音声素片辞書６に記憶する。また、共通化音声素片２０３を用いたときに、各音韻単位で歪が最小となる共通化部分以外の音声素片を非共通化音声素片２０４として音声素片辞書６に記憶する。

素片選択部７では、共通化音声素片２０３および非共通化音声素片２０４を保持または記憶する音声素片辞書６と韻律情報１０３を参照して、韻律情報１０３が持つ音韻記号列に従って、共通化音声素片２０３と非共通化音声素片２０４を選択して該当する融合音声素片を生成し、音声合成に用いる代表音声素片１０７として出力する。

図８のフローチャートは、共通音声素片生成具２１ならびに融合音声素片生成具２２、即ち融合音声素片生成部５の実施の形態４における処理手順を示している。この実施の形態４における融合音声素片生成処理では、前出の実施の形態１の融合音声素片生成部５における処理と同様に、まず、多数の音声データに対して音韻毎にラベリングし、ＣＶ、ＶＣ、ＶＣＶ等の合成単位に従って切り出された複数音韻の第１のトレーニング音声素片S1[i]|ph（i＝１、２、３、…、Ns1、ph=音韻名）と、同様に切り出された複数音韻の第２のトレーニング音声素片S2[i]|ph（i＝１、２、３、…、Ns2、ph=音韻名）を用意する。ただし、Ns1およびNs2はそれぞれのトレーニング音声素片の同一音韻に属する音声素片の個数である。また、ラベリング時に音声素片毎の音韻情報、ピッチ情報、継続時間長、音素境界情報、その他必要に応じて前後音素環境等の情報も抽出して記憶する。
なお、以下の説明の便宜上、他の音韻に対する、第１および第２のトレーニング音声素片の個数もそれぞれNs1およびNs2とするが、この定義はこの発明の範囲を狭めるものではなく、任意の個数を取ることができる。

前記のように第１および第２のトレーニング音声素片を用意した後、まず、波形分離ステップＳ１１および共通素片抽出ステップＳ４１において、共通音声素片生成具２１における第２のトレーニング音声素片１０５の内部処理を実行する。本実施の形態では、先の実施の形態１と同様に合成単位をＣＶとし、また、音声素片の信号波形分離位置をＣＶ境界に設定して、Ｃ素片とＶ素片の２個に分離するものとして以下の説明を行う。

波形分離ステップＳ１１では、第２のトレーニング音声素片S2[i]|phから各音声素片のＣＶ境界に従ってＣ素片SC[j]|ph（j=１、２、３、…、Ns2、ph=音素名）、Ｖ素片SV[k]|ph（k＝１、２、３、…、Ns2、ph=音素名）に分離する。また、Ｃ素片、Ｖ素片の分離に伴い、Ｃ素片およびＶ素片のピッチ情報、継続時間長、前後音素環境等の情報を記憶する。また、非共通化音声素片候補２０２であるＣ素片SC[j]|phを出力する。

共通素片抽出ステップＳ４１では、例えば/a/を共通化要素として、/a/が存在する音韻、すなわち、/ma/、/ba/、/na/、/sa/等の音声素片から、波形分離ステップＳ１１で分離されたＶ素片SV[k]|phを参照して/a/の波形信号を取り出して、共通化音声素片候補２０１であるA[k]（k=１、２、３、…、NA）を生成する。ただし、NAは共通化音声素片候補の個数である。

続いて、波形融合ステップＳ１２、音声素片合成ステップＳ１３、歪評価ステップＳ１４、総合評価ステップＳ１５では、融合音声素片生成具２２の内部処理を実行する。

波形融合ステップＳ１２では、波形分離ステップＳ１１で分離された非共通化音声素片候補２０２であるＣ素片SC[j]|phと、共通素片抽出ステップＳ４１で生成された共通化音声素片候補２０１であるA[k]を任意に選択し、融合音声素片SM[jk]|ph（j=１、２、３、…、Ns2、k=１、２、３、…、NA、ph=音韻名）を生成する。ここでSM[jk]|ph=maは、/ma/のj番目のＣ素片(/m/)と、k番目の共通化素片候補(/a/)とを接続・融合したＣＶ音声素片/ma/を表している。なお、融合音声素片SM[jk]|phのピッチについては、Ｃ素片および共通化音声素片候補のピッチ情報をそれぞれＣ部のピッチとＶ部のピッチとして継承し、同じく継続時間長については、Ｃ素片の継続時間長と共通化音声素片候補の継続時間長の合計値を融合音声素片の継続時間長としている。

前記の融合音声素片SM[jk]|phを生成する際に、Ｃ素片と共通化音声素片候補との接続部の不連続を軽減するために補間処理を行ってもよい。補間処理の例として、フレーム間のパワーや振幅の線形補間、移動平均、Lagrangeの補間多項式を利用した方法等を用いることができる。

音声素片合成ステップＳ１３では、第１のトレーニング音声素片S1[i]|phのピッチおよび継続時間長に等しくなるように、融合音声素片SM[jk]|phのピッチおよび継続時間長を変更して音声合成を行って、合成音声素片G[jk、i]|ph（j=１、２、３、…、Ns2、k=１、２、３、…、NA、i=１、２、３、…、Ns1、ph=音韻名）を生成する。ここで、融合音声素片の音韻が/ma/の場合には、同一の音韻/ma/のＣＶ素片である第１のトレーニング音声素片S1[i]|ph=maを用いて音声合成し、合成音声素片G[jk、i]|ph=maと記す。同様に、融合音声素片が/ba/の場合には、第１のトレーニング音声素片も/ba/のＣＶ素片を用いて合成音声素片G[jk、i]|ph=baと記し、全ての音韻に対する合成音声素片を生成する。

歪評価ステップＳ１４では、合成音声素片G[jk、i]|phの歪評価を行う。この歪評価は合成音声素片G[jk、i]|phと第１のトレーニング音声素片S1[i]|phとの距離e[jk、i]|phを評価することで行う。距離e[jk、i]|phは、例えば、合成音声素片G[jk、i]|phの信号波形と第１のトレーニング音声素片S1[i]|phの信号波形の２乗誤差や、合成音声素片G[jk、i]|phおよび第１のトレーニング音声素片S1[i]|phをＦＦＴ(Fast Fourier Transform)等を用いて、パワースペクトルに変換し、スペクトル間の２乗誤差を用いることができる。あるいは、ＬＳＰパラメータ、ケプストラムパラメータ等の公知のパラメータを用いたそれぞれの素片間の距離であっても良い。また、合成音声素片と第１のトレーニング音声素片を、例えば帯域通過フィルタ処理し、帯域毎に適した別の評価方法を用いても良い。帯域毎に適した評価方法により歪評価を行うことにより、さらに詳細な歪評価が可能となり、合成音声の品質を向上することができる。

また、ＣＶ境界近傍やスペクトルが大きく変動する部分、例えば、語頭・語尾など音声の立ち上がり・立下り部分や音韻変化過渡部においては、他の部分より大きく重み付けして距離e[jk、i]|phを評価してもよい。波形融合点であるＣＶ近傍等を大きく重み付けして距離e[jk、i]|phを評価することにより、波形融合による波形不連続に起因する歪に大きく重み付けして評価することができるので、劣化した融合音声素片の生成を抑制することができ、合成音声の品質を向上することができる。

さらに、合成音声素片G[jk、i]|phと第１のトレーニング音声素片S1[i]|phとの距離e[jk、i]|phを評価する際に、合成音声素片G[jk、i]|phと第１のトレーニング音声素片S1[i]|phに対して、なんらかの聴覚的重み付けフィルタ処理を行っても良い。聴覚重み付けの方法としては、例えばＬＰＣ(Linear Predictive Coefficient)パラメータ等を用いた逆フィルタ処理による方法等の公知の方法を用いることができる。この聴覚重み付け処理はトレーニング音声素片に予め処理しておくことで計算を省力化することができる。このとき、音声素片辞書６へは聴覚重み付け処理を行っていないトレーニング音声素片から、前記歪最小となる融合音声素片のみを生成して出力する。また、前記の距離e[jk、i]|phに対して、聴覚重み付けフィルタを構成する関数を距離計算の重み付け関数として組み込んでもよい。聴覚重み付け処理を行うことで、聴覚的に重要な部分を重視した歪評価が可能となり、さらに合成音声の品質を向上することができる。

総合評価ステップＳ１５では、歪評価ステップＳ１４にて合成音声素片G[jk、i]|phの全ての歪評価を行った後、式（３）、（４）に従って、融合音声素片SM[jk]|phの波形変形歪を評価して、共通化音声素片２０３および非共通化音声素片２０４を音声素片辞書６へ出力する。

続いて、共通化音声素片A[k]が求まった後、各音韻において決定した共通化音声素片に対応する合成音声素片G[jk、i]|phを再評価し、各音韻別に歪が最小となるＣ素片を、非共通化音声素片２０４として音声素片辞書に記憶する。以上、前記のステップＳ１１、Ｓ４１およびＳ１２〜Ｓ１５の工程を、全ての共通化音素に対して順次実施することで音声素片辞書６を構築する。

なお、本実施の形態４においては、説明の簡略化のために波形分離位置をＣＶ境界丁度としているが、音韻毎に調音結合等を考慮して波形分離位置を移動・調整してもよい。

本実施の形態４においても、先の実施の形態１と同様に、総合歪EA[k]あるいは距離e[jk、i]|phが小さくなるように、音声素片毎に波形分離位置をＣＶ境界の前後にトラッキング（微調整）してもよい。

図９は、このときの共通音声素片生成具２１と融合音声素片生成具２２の処理の別の変形例であり、総合評価ステップＳ１５と、波形分離ステップＳ１１との間にフィードバックループを形成し、判断ステップＳ１６にて総合歪あるいは距離が最小と判断されるまで、ステップＳ１１、Ｓ４１およびＳ１２〜Ｓ１５までの処理を順次実施することとなる。

本実施の形態４においては、母音/a/について共通化を行った一例を提示しているが、例えば、/ma/、/mi/、/mu/、/me/、/mo/等の有声子音の子音部/m/等についても共通化可能である。また、無声子音/sa/、/shi/、/su/、/se/、/so/等の無声子音についてもこの発明は適用可能である。さらに、/m/等のＣ素片と/a/等のＶ素片をそれぞれ共通化し、Ｃ素片とＶ素片の渡りの部分（/m-a/）、すなわち、音韻過渡部だけを非共通化音声素片とすることも可能である。

本実施の形態４においては、説明の簡略化のために合成単位をＣＶ素片として説明を行ったが、ＶＣ、ＶＣＶ、ＣＶＣといったような合成単位にも勿論適用できる。また、例えば、/myo/のような半母音/yo/を含む音声素片においては、/m/、/y/、/o/と３分割してそれぞれを組み合わせることで融合音声素片を作成することも可能である。また、半音素単位で/-m/、/m-y/、/y-o/、/o-/と４分割してもかまわない。

さらに、Ｃ、Ｖ、ＣＶといった合成単位よりももっと細分化された単位、例えば、２ピッチ長波形重畳合成方法に用いられる２ピッチ長波形を素片組み合わせ単位と見なし、この２ピッチ長波形単位で組み合わせて共通化音声素片を生成したり、また、音声素片の時間軸信号を5ms単位のフレームに分割し、そのフレーム単位に分析したＬＳＰパラメータなどのパラメータレベルで組み合わせて共通化音声素片を生成しても良い。

また、歪評価の際に、ある音韻において、共通化音声素片を用いて合成音声素片を生成した場合と、共通化音声素片を用いない、すなわち通常の融合音声素片にて合成音声素片を生成した場合とを比較し、共通音声素片を用いない場合の方が歪が小さくなる場合には、当該音韻に関しては共通化音声素片を用いずに通常の融合音声素片を選択することも可能である。

本実施の形態４の構成をとることにより、例えば、トレーニング素片の個数が十分用意できない場合でも、任意に波形を組み合わせて融合音声素片を生成して音声素片とすることで、音声素片のバリエーションを増やすことができ、品質の高い合成音声を生成することができる。

また、本実施の形態４の構成をとることにより、ＣＶ素片のＣ素片とＶ素片を、他の音韻のそれらと共通化することで共通部分を縮退化きるので、合成音声の品質を維持したまま音響辞書のメモリ量を大幅に削減したり、さらに、音素を共通化できるため聴感上の合成音声の安定化を図ることが可能となる。

実施の形態５．
実施の形態４の別の実施の形態５として、先の実施の形態２と同様に、共通化音声素片、融合音声素片の組み合わせに用いる音声素片を予備選択してもよい。予備選択することで融合音声素片評価に対する処理量を削減できるとともに、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。

実施の形態６．
前記実施の形態１では、第１のトレーニング音声素片１０４中の音声素片が保持するピッチ周期および音韻継続時間長に従って融合音声素片１０６を生成したが、所定の規則により生成されたピッチおよび継続時間長、例えば、韻律設定部４が出力する入力テキストのピッチ周期および音韻継続時間長に従って融合音声素片を変形して合成音声素片を生成し、韻律設定部４の出力するピッチ周期および音韻継続時間長との差が最小となる音声素片を、第１のトレーニング音声素片１０４から抽出して、抽出された第１のトレーニング音声素片のピッチおよび継続時間長と合成音声素片との歪評価を行うことも可能である。

図１０は、この発明の実施の形態６に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図１と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、韻律設定部４が出力する韻律情報１０３が、融合音声素片生成部５へ入力されていることが、これまでの実施の形態と異なる点である。

まず、入力端子１より、入力テキスト１０１として例えば「山の景色を見る」を入力する。言語処理部２では、言語辞書３を相互参照して入力テキスト１０１の解析を行い解析結果１０２を出力する。韻律設定部４では音韻系列、アクセントならびにイントネーションの制御処理が行われ、音響的特徴のパラメータ、例えば、音韻記号列、音声素片のピッチパターン、ピッチ周期、ピッチマーク、継続時間長または韻律のパラメータである韻律情報１０３が設定される。なお、入力テキストとして入力された「山の景色を見る」は、例えばＣＶを合成単位とした場合、式５のような音韻記号列に分解される。

融合音声素片生成部５では、前記の音韻記号列の各音韻/ya/、/ma/、…に対応する韻律情報１０３に従って、順次第２のトレーニング音声素片１０５から融合音声素片を生成し、第１のトレーニング音声素片１０４から韻律情報１０３に最も適した各々の音声素片を選択して、前記融合音声素片との歪評価を行い、歪を最小とする融合音声素片１０６を音声素片辞書６に記憶する。

図１１は、本実施の形態における融合音声素片生成部５の処理手順を示すフローチャートである。図１１のフローチャートは、図２で説明したステップＳ１１、ステップＳ１２、ステップＳ１３、ステップＳ１４、ステップＳ１５と、新規要素である評価素片選択ステップＳ５１により構成される。

図１１より、まず、波形分離ステップＳ１１により、第２のトレーニング音声素片１０５の波形分離を行い、波形融合ステップＳ１２で融合音声素片を生成する。音声素片合成ステップＳ１３では、各音韻に対応した韻律情報１０３に含まれるピッチ周期および継続時間長に従って、前記生成された融合音声素片のピッチ周期および継続時間長等を変更することにより、合成音声素片を生成する。

続いて、評価素片選択ステップＳ５１では、前記生成された合成音声素片の歪評価を行うために、第１のトレーニング音声素片１０４から、各音韻に対応した韻律情報１０３に含まれるピッチ周期および継続時間長に近似した音声素片を選択・抽出する。言い換えれば、合成音声素片が持つピッチパターンと継続時間長に近似した音声素片を選択する。

第１のトレーニング音声素片１０４から、歪評価に用いる音声素片を選択する方法として、例えば、下記式６に示すピッチ周期と継続時間長の重み付き２乗誤差Ed[i]を用い、Ed[i]が所定の閾値以下の音声素片を選択することで実施できる。

ここで、F0ruleは、韻律情報１０３に含まれるピッチ周期系列を示すM個の配列であり、F0rule[j]はそのj番目の要素を示す。また、F0[i]（i＝１、２、３、…、Ns1）は、F0ruleの配列長にあわせて正規化した（M次元化）した第１のトレーニング音声素片１０４のピッチ周期系列の配列であり、F0[i][j]はF0[i]のj番目の要素を示す。同様にDURruleは韻律情報１０３に含まれる継続時間長を示し、DUR[i]（i＝１、２、３、…、Ns1）は第１のトレーニング音声素片１０４の継続時間長である。wfおよびwdは所定の重み係数であり、例えば、wf=0.8、wd=0.2である。

歪評価ステップＳ１４では、評価素片選択ステップＳ５１にて選択された音声素片と、音声素片合成ステップＳ１３にて生成された合成音声素片との歪評価を各音韻毎に実行する。

以上、前記の「山の景色を見る」に続いて、大量の任意の入力テキストを順次入力して、言語処理部２、韻律設定部４および融合音声素片生成部５のステップＳ１１〜Ｓ１３，Ｓ５１，Ｓ１４〜Ｓ１５の処理を順次実行し、各音韻毎にステップＳ１４で得られた歪評価を集計する。総合評価ステップＳ１５ではこうして得られた歪評価を元に、最終的に歪が最小となる融合音声素片１０６を各音韻毎に音声素片辞書６に記憶する。

なお、評価素片選択ステップＳ５１において用いられた、ピッチ周期系列および継続時間長については、所定の規則によって生成された韻律情報の代わりに、自然音声から抽出されたピッチ周期系列および継続時間長、すなわち自然韻律を用いることもできる。

実施の形態６の構成をとることにより、韻律設定部４により生成された韻律情報１０３に則した音声素片のみを評価することができるので、さらに合成音声の品質を向上させることができるとともに、韻律情報１０３が対応しないトレーニング音声素片との歪評価を行わずに済むので、処理量を削減する効果がある。

実施の形態７．
実施の形態６の別の実施の形態７として、先の実施の形態２と同様に、融合音声素片の組み合わせに用いる音声素片を予備選択してもよい。予備選択することで融合音声素片評価に対する処理量を削減できるとともに、音質が悪いトレーニング音声素片を排除することができ、合成音声の品質を向上することができる。

実施の形態８．
前記の実施の形態１において、音声素片辞書６に格納されている融合音声素片は、メモリ量や通信情報量を削減するために圧縮処理を行ってもよい。

図１２は、この発明の実施の形態８に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図１と同一部分については同一の参照符号を付して説明を省き相違点を説明する。本実施の形態では、融合音声素片生成部５が出力する融合音声素片１０６を符号化した符号化音声素片３０１を音声素片辞書６に保持させる符号化部３１と、音声素片辞書６からの符号化音声素片３０１を復号する復号化部３２が備えられている点がこれまでの実施の形態と異なる。

融合音声素片生成部５の出力である融合音声素片１０６が符号化部３１へ入力され、所定の圧縮方法にてデータ圧縮あるいは符号化処理が実施されて符号化音声素片３０１とされ、この符号化音声素片３０１が音声素片辞書６に出力される。素片選択部７は韻律情報１０３に従って音声素片辞書６に保持されている符号化音声素片３０１を復号化部３２へ入力し、復号化部３２でデータ伸長あるいは復号化処理が行われ、復号化音声素片３０２を得て素片選択・接続処理をし、音声合成部８で音声合成して合成音声１０８を得て出力端子９より出力する。

ここで、融合音声素片１０６が音声素片辞書６に格納されるパラメータまたは波形信号を圧縮する方法として、例えばハフマン圧縮やLZ(Lempel-Ziv)法あるいはその他公知のデータ可逆圧縮方法を用いて可逆圧縮しても良いし、前記のＬＳＰパラメータやスペクトルパラメータ等の音響パラメータを量子化あるいは符号化して非可逆圧縮したり、波形をADPCM法、ITU-T G.729やその他公知の音声音響符号化方法を用いて非可逆圧縮しても良い。
また、量子化あるいは符号化して非可逆圧縮した後、非可逆圧縮されたデータを可逆圧縮して更にメモリ量を削減する等、両者を組み合わせて用いることも可能であるし、音声素片毎にその特性を考慮して可逆圧縮のみ、非可逆圧縮のみ、可逆圧縮＋非可逆圧縮等の圧縮パタンを使い分けても良い。さらに、量子化・符号化精度（量子化・符号化に割り当てるビット数）や符号化方法は音声素片毎に異なるものであっても良い。

融合音声素片１０６が圧縮されて音声素片辞書６に保管・記憶されるとき、音声素片辞書６の内部に、可逆圧縮の場合には圧縮された音声素片データとデータ伸長時に用いる情報が格納され、非可逆圧縮の場合には、音声素片データを構成する量子化または符号化処理による量子化テーブルのインデックス情報や符号化コードと、量子化テーブルや符号帳など復号化処理に用いる情報が格納されることとなる。

なお、本実施の形態８で述べた融合音声素片１０６の圧縮は、実施の形態２等にて述べた予備選択を実施した後に行っても良い。

実施の形態８の構成をとることにより、音声素片辞書６に格納される融合音声素片１０６を圧縮することが可能となり、音声素片辞書６に要するメモリ量や、音声素片辞書６をダウンロード等するための通信情報量を削減することができる。

実施の形態９．
実施の形態８の変形例として、融合音声素片１０６に対する圧縮・伸張処理を、実施の形態４にて述べた、共通化音声素片２０３および非共通化音声素片２０４に対して実施しても良い。

図１３は、この発明の実施の形態９に係る音声合成方法を実現する音声合成装置の構成を示すブロック図である。図７と同一部分については同一の参照符号を付し説明を省略する。相違点を説明すると、本実施の形態では、融合音声素片生成具２２の出力の共通化音声素片２０３と非共通化音声素片２０４を符号化し、符号化した符号化音声素片３０１を音声素片辞書６に保持させる符号化部３１と、音声素片辞書６からの符号化音声素片３０１を復号し、復号化音声素片３０２を得る復号化部３２が備えられている点が図７に示す実施の形態４と異なる。

融合音声素片生成具２２で生成された共通化音声素片２０３と非共通化音声素片２０４は、符号化部３１へ入力されて、例えば、前記実施の形態８にて述べられている公知の手法により符号化または圧縮処理が行われて、符号化音声素片３０１として音声素片辞書６へ出力される。
素片選択部７は韻律情報１０３に従って選択される音声素片辞書６に保持されている共通化音声素片２０３と非共通化音声素片２０４に該当する符号化音声素片３０１を復号化部３２へ入力し、復号化部３２でデータ伸長あるいは復号化処理が行われ、復号化音声素片３０２を得て素片選択・接続処理をし、音声合成部８で音声合成して合成音声１０８を得て出力端子９より出力する。

実施の形態９の構成をとることにより、融合音声素片生成具２２で生成され、音声素片辞書６に格納される共通化音声素片２０３と非共通化音声素片２０４を圧縮することが可能となり、音声素片辞書６に要するメモリ量や、音声素片辞書６をダウンロード等するための通信情報量を削減することができる。

なお、この実施の形態９で述べた共通音声素片および非共通音声素片の圧縮は、実施の形態５にて述べた予備選択を実施した後に行っても良い。

また、共通化音声素片、非共通化音声素片を別々に異なる圧縮方法により情報量圧縮を行っても良いし、例えば、共通化音声素片は圧縮せず、非共通化音声素片のみ圧縮を行うことも可能であるし、その逆も可能である。

実施の形態９の構成をとることにより、音声素片辞書６に格納されている共通化音声素片および非共通化音声素片を圧縮することが可能となり、音声素片辞書６に要するメモリ量や、音声素片辞書６をダウンロード等するための通信情報量を削減することができる。

前記実施の形態では、第１のトレーニング音声素片１０４ S1[i]と、第２のトレーニング音声素片１０５ S2[j]は別データとしたが、第１のトレーニング音声素片と第２のトレーニング音声素片は同一のものであっても良い。

なお、前記実施の形態における、形態素解析、構文解析、ならびに韻律設定の全てまたは一部については、予め処理を行っておいてその解析結果を例えばＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)、不揮発メモリ、磁気ディスク等の記憶手段に蓄えておき、音声合成時に解析結果を記憶手段から読み出すことで省略することも可能である。
また、例えばLAN(Local Area Network)、インターネット、赤外線通信、携帯電話パケット通信等の通信手段経由で、サーバコンピュータ等の処理手段により解析された解析結果や韻律情報、あるいはサーバコンピュータ上のハードディスク等の記憶手段に記憶されている解析結果や韻律情報を読み出すことでも省略可能である。

さらに、解析結果や韻律情報を例えば、コンピュータのＧＵＩ(Graphical User Interface)、キーボード、押しボタン、１次元／２次元バーコードリーダ、ＯＣＲ(Optical Character Reader)等の入力手段から直接入力してもかまわない。これはカーナビゲーションシステム、携帯電話、ＰＤＡ（Personal Digital Assistance）、ビデオレコーダ、監視システム、ゲーム機器、電子書籍、玩具等において決まった文章、例えばナビの市町村名や操作案内（ガイダンス）文、防犯警告合成音声、ゲームのキャラクタ合成音、新聞の文章等を読み上げる場合に有効である。

前記述べた実施の形態において、前記の全ての機能あるいは一部の機能は、パーソナルコンピュータ等のソフトウエアとしてプログラム実行したり、ＣＰＵ等の組み込みソフトウエアやファームウエアとしてプログラム実行することで達成できるものである。また、同様の動作をする回路、例えばＬＳＩ（Large Scale IC）、ＦＰＧＡ（Field Programmable Gate Array）、論理IC等の集積回路で実現しても良いし、あるいはディスクリート素子を組み合わせて実現しても良い。

また、前記のソフトウエア等は、例えばＲＯＭ、磁気ディスク（ハードディスクやリムーバブルディスク等）、不揮発性半導体メモリ等の記憶手段に予め保持しておいたものであってもよいし、例えば、インターネット、ＬＡＮ、赤外線通信、Bluetooth、携帯電話のパケット通信等の有線・無線通信手段を用いてサーバ上の記憶手段からダウンロードしたり、例えば、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＤＶＤ(Digital Versatile Disk)、ＭＯディスク、磁気ディスク(ハードディスクやリムーバブルディスク等)、不揮発性の半導体メモリ、磁気テープ等の記憶媒体や、バーコード等が印刷されたカード等の印刷媒体より配布・提供されるものであってもよい。この場合、記憶媒体等から読み出された前記ソフトウエアのプログラムコードが、前記実施の形態の機能を実現することとなり、これら記憶媒体等はこの発明を構成するものとなる。

前記実施の形態においては、各部を同一の計算機上で構成する場合について説明したが、この発明はこれに限定されるものではなく、例えば、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。

また、この発明は、１つ以上の複数の機器から構成されるシステムに適用しても良い。サーバコンピュータがこの発明の実施の形態を実現するプログラム等をネットワーク等の通信手段を用いて配信し、複数のクライアントコンピュータや、携帯電話、ＰＤＡ等の携帯端末機器が配信されたプログラムを実行することができる。

前記の実施の形態で用いたトレーニング音声素片は、人間が発声した自然音声信号を用いたが、トレーニング音声素片は自然音声だけでなく、自然音声から解析的に生成した音声波形、例えば、所定の基準（例えば、スペクトル上の相互距離が所定の閾値以下）の下に選択された波形の平均的な波形、準最適波形、パワー補正された音声波形などでも良いし、さらに、人工的に生成された波形と自然音声の両者を混合した信号波形でも適用可能である。また、動物の鳴き声、楽器、電子音等の人以外から抽出した擬似的な音声信号波形でも良い。さらに、前記人工的に生成された音声波形等に雑音波形を混入してもよい。

この発明によれば、高品質の合成音声を生成できるので、カーナビ向け音声合成機能、携帯電話のメールや情報家電の音声読み上げ機能、市町村防災無線、ハイウェイラジオにおける音声合成システム、エレベータ、エスカレータなどの自動音声案内等に適用可能である。

実施の形態１の音声合成装置のブロック構成図である。実施の形態１における融合音声素片生成部のフローチャートである。実施の形態１における融合音声素片生成部の変形例のフローチャートである。実施の形態２における融合音声素片生成部のフローチャートである。実施の形態２における融合音声素片生成部の変形例のフローチャートである。実施の形態３における融合音声素片生成部のフローチャートである。実施の形態４の音声合成装置のブロック構成図である。実施の形態４における融合音声素片生成部のフローチャートである。実施の形態４における融合音声素片生成部の変形例のフローチャートである。実施の形態６の音声合成装置のブロック構成図である。実施の形態６における融合音声素片生成部５のフローチャートである。実施の形態８の音声合成装置のブロック構成図である。実施の形態９の音声合成装置のブロック構成図である。

符号の説明

１入力端子、２言語解析部、３言語辞書、４韻律設定部、５融合音声素片生成部、６音声素片辞書、７素片選択部、８音声合成部、９出力端子、２１共通音声素片生成具、２２融合音声素片生成具、３１符号化部、３２復号化部、１０１入力テキスト、１０２解析結果、１０３韻律情報、１０４第１のトレーニング音声素片、１０５第２のトレーニング音声素片、１０６融合音声素片、１０７代表音声素片、１０８合成音声、２０１共通化音声素片候補、２０２非共通化音声素片候補、２０３共通化音声素片、２０４非共通化音声素片、３０１符号化音声素片、３０２復号化音声素片。

Claims

複数のトレーニング音声素片から複数の信号波形を切り出す波形分離ステップと、
前記切り出された複数の信号波形から、任意の１つまたは複数の信号波形を組み合わせて融合することにより複数の融合音声素片を生成する波形融合ステップと、
前記複数のトレーニング音声素片のピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成する音声素片合成ステップと、
前記複数のトレーニング音声素片のそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく融合音声素片を音声素片辞書に保持または記憶する歪み評価ステップと、
前記音声素片辞書に保持または記憶された複数の融合音声素片から、入力テキストを解析して得られる入力音素に対応した融合音声素片を選択して接続することにより合成音声を出力する合成音声生成ステップとを有することを特徴とするテキスト音声合成方法。
前記波形融合ステップは、前記切り出された複数の信号波形から、他の音声素片との共通部分となる複数の信号波形と、他の音声素片と非共通部分となる複数の信号波形を生成し、前記共通部分となる複数の信号波形と、前記非共通部分となる複数の信号波形から、任意の１つまたは複数の信号波形を組み合わせて融合することにより、他の音声素片との共通部分を含む複数の融合音声素片を生成し、
前記歪み評価ステップは前記複数のトレーニング音声素片の何れか１つのそれぞれに対する、前記生成した複数の合成音声素片のそれぞれとの間の距離を評価し、その評価に基づく共通音声素片とそれ以外の音声素片を保持または記憶し、
前記合成音声生成ステップは、前記保持または記憶された、複数の共有音声素片とそれ以外の複数の音声素片から、入力音素に対応した融合音声素片を生成して接続することにより合成音声を出力する方法とされたことを特徴とする請求項１記載のテキスト音声合成方法。
前記音声素片合成ステップで、合成音声素片を生成する際に用いられるピッチおよび継続時間長は所定の規則により生成されたピッチおよび継続時間長であり、
歪み評価ステップで、合成音声素片を評価する際に用いられるトレーニング音声素片は前記所定の規則により生成されたピッチおよび継続時間長との距離が最小となる前記複数のトレーニング音声素片から選択された音声素片であることを特徴とする請求項１又は２記載のテキスト音声合成方法。
波形分離ステップは、複数のトレーニング音声素片に対し、所定の判断基準に基づいて音声素片を選択し、前記選択された音声素片から複数の信号波形を切り出す処理であることを特徴とする請求項１〜３の何れかに記載のテキスト音声合成方法。
音声素片辞書に記憶または保持する融合音声素片の情報量を、所定の圧縮方法により圧縮し、
入力音素に対応する融合音声素片を選択する際に、音響素片辞書から圧縮された融合音声素片の情報量を伸張して、合成音声を生成することを特徴とする請求項１〜４の何れかに記載のテキスト音声合成方法。
入力テキストを解析して入力音素を得る韻律設定部と、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段と、
前記融合音声素片を保持または記憶する融合音声素片記憶手段と、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段と、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段とを具備することを特徴とするテキスト音声合成装置。
前記融合音声素片生成手段は、
複数のトレーニング音声素片から複数の信号波形を切り出して、前記切り出された複数の信号波形から、他の音声素片との共通部分となる複数の信号波形と、他の音声素片と非共通部分となる複数の信号波形を生成し、前記融合音声素片生成手段に出力する共通音声素片生成具と、
前記共通部分となる複数の信号波形と、前記非共通部分となる複数の信号波形から、任意の信号波形を組み合わせて融合することにより、他の音声素片との共通部分を含む複数の融合音声素片を生成し、複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って、前記生成した融合音声素片のピッチおよび継続時間長の少なくとも一方を変更した複数の合成音声素片を生成し、前記複数のトレーニング音声素片の何れか１つとそれに対応する前記生成した複数の合成音声素片との間の距離を評価し、その評価に基づき融合音声素片を出力する融合音声素片生成具とから構成されることを特徴とする請求項６記載のテキスト音声合成装置。
前記融合音声素片生成手段は、
融合音声素片のピッチおよび継続時間長の少なくとも一方を変更して複数の合成音声素片を生成する際に用いられるピッチおよび継続時間長は所定の規則により予め生成されたものであり、
合成音声素片の歪み評価に用いられる音声素片は前記所定の規則により生成されたピッチおよび継続時間長との距離が最小となる前記複数のトレーニング音声素片の何れか１つのトレーニング音声素片から選択されたものであることを特徴とする請求項６又は７記載のテキスト音声合成装置。
前記融合音声素片生成手段は、
複数のトレーニング音声素片に対し、所定の判断基準に基づいて音声素片を選択し、前記選択された音声素片を用いて複数の融合音声素片の生成および評価を行う構成にされたことを特徴とする請求項６〜８の何れかに記載のテキスト音声合成装置。
音声素片辞書に記憶または保持する融合音声素片の情報量を、所定の圧縮方法により圧縮する符号化部と、
音声素片辞書中の圧縮された融合音声素片の情報量を伸張する、復号化部を具備することを特徴とする、請求項６〜９の何れかに記載のテキスト音声合成装置。
コンピュータに
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのテキスト音声合成プログラム。
コンピュータを
入力テキストを解析して入力音素を得る韻律設定手段、
複数のトレーニング音声素片から複数の信号波形を切り出し、この複数の信号波形を任意に組み合わせて複数の融合音声素片候補を生成し、この融合音声素片候補のピッチおよび継続時間長の少なくとも一方を前記複数のトレーニング音声素片の何れか１つのピッチおよび継続時間長の少なくとも一方に従って変更した複数の合成音声素片を生成し、この複数の合成音声素片と前記何れか１つのトレーニング音声素片との間の距離を評価し、その評価に基づく融合音声素片を生成する融合音声素片生成手段、
前記融合音声素片を保持または記憶する融合音声素片記憶手段、
融合音声素片記憶手段が保持または記憶する融合音声素片から、前記入力音素に対応する融合音声素片を選択する素片選択手段、
選択された融合音声素片を接続し、合成音声を生成する音声合成手段として機能させるためのテキスト音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体。