JP2009122381A

JP2009122381A - 音声合成装置、音声合成方法およびそのプログラム

Info

Publication number: JP2009122381A
Application number: JP2007295895A
Authority: JP
Inventors: Hideyuki Mizuno; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2007-11-14
Filing date: 2007-11-14
Publication date: 2009-06-04
Anticipated expiration: 2027-11-14
Also published as: JP4247289B1

Abstract

【課題】入力テキストや音声データベースの構成に依存しない品質の良い合成音声を得る。
【解決手段】入力テキストを解析して、韻律パラメータ１３、音素コンテキスト１４を得る。音声素片候補探索部５は、音素コンテキスト１４に適合する音声素片候補１５を得て、韻律変形素片候補選択部６は、音声素片候補１５から韻律で優れた韻律変形素片候補１６を選択する。音声素片候補１５についてサブコスト１７を求め、韻律変形素片候補１６について韻律変形サブコストも求め、これらサブコストの重み付け和が最小となるときの音声素片候補と韻律変形素片候補を選択音声素片１９と韻律変形対象素片２０として選択する。韻律変形部１０は韻律変形対象素片２０に対応する音声波形データを韻律変形し、この結果（韻律変形波形データ２１）と選択音声素片１９に対応する音声波形データとを接続して合成音声を得る。
【選択図】図１

Description

本発明は、入力されたテキストに対応した音声を出力する音声合成装置、音声合成方法とそのプログラムに関する。より詳しくは、音声波形データを選択して接続することで音声合成する波形接続型の音声合成技術に関する。

近年では大容量な記憶装置の使用コストの低下に伴って、数十分以上の大容量の音声データをそのまま大容量の記憶装置に蓄積し、入力されたテキスト及び韻律情報に応じて音声素片を適切に選択し、接続・変形することで高品質な音声を合成する波形接続型コーパスベース音声合成方法が提案されている（例えば、特許文献１、非特許文献１を参照のこと）。

このような方法によって、原理的には肉声同等の高品質な合成音声を生成することが可能になってきている。具体例として、音声データベースから、音声合成したい文字列に対応する音韻系列と部分的または完全に一致する音声素片をバイナリーツリー等で構成された音声素片辞書を用いて検索し、音声素片の類似度を評価するための複数のパラメータの組み合わせに基づく評価尺度に従ってコスト付けされた多数の音声素片の中から、ＤＰ（Dynamic Programming）等の方法によって適切な音声素片の組み合わせを選択し、選択された音声素片を順に接続することで音声合成を行っている（例えば非特許文献２参照）。
しかし、このような音声合成方式においては、そもそも適切な音声素片が音声データベースに存在しない場合、高品質な合成音声を生成することは困難である。

従って、様々なテキストを高品質に音声合成するためには、豊富な音声素片のバリエーションを含む音声データベースを用いることが必須と考えられ、このため近年では音声素片のバリエーションを増やし音声データベースの容量をより一層増加させる方向で開発が進んでいる。

音声データベースを大容量化することで、合成音声の品質は或る程度向上されてきたものの、時問的・費用的な問題から音声データベースに収録可能な音声の量には限界がある。このため、日本語としてありうる全ての音声素片を収録することは不可能である。また音声データベースに音声を収録するためには、予め読み上げるための文章（収録用テキスト）を用意する必要があるが、ここでも日本語としてありうる全てのテキストを集めることは不可能であるため、ある程度限定された内容のテキストを読み上げることになり、この結果、音声データベースに収録される音声の内容には偏りが生じる。

そこで、選択された音声素片の適合度合いによって合成音声の品質が決定づけられることから、単独又は複数の物理的なパラメータを組み合わせた物理的な尺度とピッチやパワー等の韻律的な尺度を組み合わせた評価尺度を設定し、この評価尺度に基づいて音声素片の選択を行う方法が採られている。（非特許文献２参照）。
しかし、こうした方法では、音声データベースに収録されているような内容のテキストを音声合成する場合には問題が顕在化しないものの、音声データベースに収録されていないような分野のテキストを音声合成する場合には、そもそも音声データベースに適切な音声素片が存在しない場合もあるから、適切な音声素片を利用できないため合成音声の品質が低くなるという問題が存在する。

このような問題を解決する観点から、入力テキストに対応した韻律に音声素片を韻律変形して接続する方法もあるが、韻律変形に伴う品質劣化のため機械的な音声品質になるといった問題がある。また、音声素片を選択後、合成音声の品質を評価して不適切であると判定された揚合に当該素片を韻律変形する方法も提案されている（特許文献２参照）。しかし、実際には様々な入力テキストに対する合成音声品質の判定のための適切な基準値を設定することは困難であり、或るテキストにおいては適切であった基準値であっても、別のテキストではその基準値では不適切な合成音声が生成される現象が生じる。

また、統計的な枠組みで合成音声品質の評価を行う方式も提案されている（特許文献３参照）。しかし、統計的に或る程度信頼のおける評価を行うことは可能だが、実用的には高精度に品質の評価を行うことは難しく、品質が良いものを悪く判定すると、韻律変形不要な素片を無理に韻律変形して劣化させてしまう点と、全ての音声素片の組み合わせに対して統計的評価を行うことは多大な処理量がかかる点が問題となる。
特許２７６１５５２号公報特開２００４−３５４６４４号公報特開２００７−２５３２３号公報 M.Beutnagel,A.Conkie,J.Schoroeter,Y.Stylianou,and A.Sydra1,"Chose the bestto modifytheleast: A new generation concatenative synthesis system",in Proc.Eurospeech'99, 1999, pp.2291-2294 広川他、"波形編集型規則合成法における波形選択法"、電子情報通信学会音声研究会資料、SP89-114, pp.33-40, 1990

このような状況に鑑み、本発明は、入力テキストや音声データベースの構成に依存しない品質の良い合成音声を得る音声合成技術を提供することを目的とする。

上記課題を解決するために、本発明は次のような構成とされる。即ち、音声波形データの集合である音声波形データベースおよび、少なくとも音声波形データの合成音声を組み立てる上で適切な単位（合成単位）の韻律に関する情報である韻律パラメータと音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースを用意しておき、入力テキストを解析して当該テキストの読み情報および韻律情報を取得し、韻律情報から韻律に関する情報である韻律パラメータ（目標韻律パラメータ）を取得し、読み情報を音素の並びである音素コンテキストに変換する。そして、少なくとも音素コンテキストに合成単位で適合する音声素片の候補（音声素片候補）を音声情報データベースから探索し、音声素片候補から韻律の観点で優れる候補（韻律変形素片候補）を選択し、各音声素片候補について、音素コンテキストおよび目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する。また、各韻律変形素片候補について、目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する。そして、各音声素片候補および各韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する。韻律変形対象素片に対応する音声波形データを音声波形データベースから読み込み、当該音声波形データを目標韻律パラメータに従って韻律変形し韻律変形波形データを生成し、選択音声素片に対応する音声波形データを音声波形データベースから読み込み、この音声波形データと韻律変形波形データを接続して合成音声を得る。

あるいは、上記韻律変形サブコストが予め定められた閾値を超える場合には、上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求める。そして、韻律変形では、韻律変形対象素片に対応する音声波形データを音声波形データベースから読み込み、当該音声波形データを修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する。

本発明によれば、少なくとも音素コンテキストに合成単位で適合する音声素片候補および音声素片候補の中から韻律変形処理を施す対象となりえるものとして選択された韻律変形素片候補の中から、音声合成に利用する選択音声素片および韻律変形対象素片を決定した後、韻律変形対象素片に対応する音声波形データに韻律変形処理を施して韻律変形波形データを生成し、選択音声素片に対応する音声波形データと韻律変形波形データを接続して合成音声を得るから、単純に音声素片候補に対応する音声波形データを接続する波形接続型音声合成方式と比較して、処理量をほとんど増加させることなく入カテキストや音声データベースの構成に依存しない高品質な合成音声を得ることができる。

なぜなら、或る程度一般的なテキストを網羅した音声データベース（音声波形データベース＋音声情報データベース）を用いれば、入力テキストに対応する適切な音声素片が音声データベース中に存在する確率が高く、入力テキストに対応する適切な音声素片が無い（あるいは少ない）ことから韻律変形処理を施した音声素片をも用いる必要がある確率は小さいため、韻律変形処理を施した音声素片が用いられることは少なく、つまり韻律変形処理の処理量も少なくて済む。同時に、韻律的に不適切な音声素片が用いられることが無くなる（あるいは少なくなる）ため、入カテキストによらず高品質な合成音声が得られる。

また、音声データベースから選択された全ての音声素片を韻律変形の必要性の有無に関わらず強制的に全て韻律変形する音声合成方式と比較すると、本発明では、元来韻律変形不要な適切な音声素片に対応する音声波形データに韻律変形処理を施さないため、韻律変形に伴う音質劣化を避けることが可能となり、合成音声全体の音声品質を向上させ且つ全ての音声素片に韻律変形処理を施す揚合と比較してその処理量を減少させることが可能となり、音声データベースの構成によらず高品質な合成音声を低処理量で得ることができる。

《第１実施形態》
本発明の第１実施形態について、図面を参照しながら説明する。
以下、音声合成装置は、例えば専用のハードウェアで構成された専用機やパーソナルコンピュータのような汎用機といったコンピュータで実現される。ここではコンピュータ（汎用機）で実現する場合を例に採り説明する。

音声合成装置１００のハードウェア構成例を説明する。
音声合成装置１００は、キーボード、ポインティングデバイスなどが接続可能な入力部と、液晶ディスプレイ、ＣＲＴ（Cathode Ray Tube）ディスプレイなどが接続可能な出力部と、音声合成装置１００の外部に通信可能な通信装置（例えば通信ケーブル、ＬＡＮカード、ルータ、モデムなど）が接続可能な通信部と、ＣＰＵ（Central Processing Unit）〔ＤＳＰ（Digital Signal Processor）でも良い。またキャッシュメモリやレジスタなどを備えていてもよい。〕と、メモリであるＲＡＭ、ＲＯＭと、ハードディスク、光ディスク、半導体メモリなどである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、音声合成装置１００に、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＤＶＤ（Digital Versatile Disc）などの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。
さらに音声合成装置１００には、合成音声を音として出力する音響出力装置（スピーカ）を接続可能であって、スピーカに入力する信号（合成音声をＤ／Ａ変換したもの）を出力するための信号出力部を設けることができる。

音声合成装置の外部記憶装置には、音声合成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている〔外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくなどでもよい。〕。また、このプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。以下、データやその格納領域のアドレスなどを記憶する記憶装置を単に「記憶部」と呼ぶことにする。

音声合成装置１００の記憶部には、プログラムの処理において必要となるデータとして、音声データベース１が記憶されている。この音声データベース１は、音声波形データの集合である音声波形データベース１ａおよび、合成音声を組み立てる上で適切な単位（合成単位）の音声波形データの諸情報と音声波形データベース１ａに含まれる音声波形データとの対応を示すエントリー（以下、このエントリーを音声素片と呼ぶ。）からなるデータ構造（テーブル）としての音声情報データベース１ｂを含んで構成されている。

この実施形態では説明を具体的なものとする観点から合成単位を音素とする。この他、例えば音節、半音節としてもよいし、あるいは音素・音節・半音節などの組み合わせを合成単位とすることなども可能であり、任意に決めることができる。

音声波形データベース１ａに含まれる音声波形データは、単語や文章を読み上げた肉声の音声データに対してＡ／Ｄ変換を行い、ディジタルデータ化したものである。この音声波形データは、波形接続型音声合成の素材として利用できる。

音声情報データベース１ｂは、例えば図３に示すように、各音声素片は、音声素片の通し番号である音声素片番号、音声波形データベース１ａに含まれる音声波形データから音声素片に対応する部分の読み出し位置を示す音声波形データ位置情報、発声音素を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高（周波数）の時間推移を表したＦ_０パターン情報から構成されている。以下、混同を避けるため、音声波形データの音声素片に対応する部分を「部分音声波形データ」と云うことにする。

音声合成装置１００に入力されるテキストは、入力部から入力されるものとしてもよいが、この実施形態では、説明の便宜から、予めテキストが記憶部に記憶されているものとする。また、本発明においてテキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。

音声合成装置１００の記憶部には、入力されたテキストを解析して読み情報および音韻情報を生成するテキスト解析部を実現するためのプログラム、韻律情報からＦ_０パターン情報などを含む韻律パラメータを取得する韻律パラメータ取得部を実現するためのプログラム、読み情報から音素コンテキストを生成する音素コンテキスト変換部を実現するためのプログラム、音素コンテキストに適合する音声素片候補を探索する音声素片候補探索部を実現するためのプログラム、音声素片候補の中から韻律的に優れた韻律変形素片候補を選択する韻律変形素片候補選択部を実現するためのプログラム、音声素片候補のサブコストを計算する音声素片サブコスト計算部を実現するためのプログラム、韻律変形素片候補のサブコストを計算する韻律変形素片サブコスト計算部を実現するためのプログラム、波形接続に用いる音声素片および韻律変形の対象である韻律変形対象素片を特定する音声素片選択部を実現するためのプログラム、韻律変形対象素片に対応する音声波形データに対して韻律変形処理を行う韻律変形部を実現するためのプログラム、特定された音声素片に対応する音声波形データおよび韻律変形された韻律変形波形データを波形接続して合成音声を生成する素片接続部を実現するためのプログラム、これらのプログラムに基づく処理などを制御する制御部を実現するためのプログラムなどが記憶されている。

音声合成装置１００では、上記各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭに読み込まれて、ＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（テキスト解析部、韻律パラメータ取得部、音素コンテキスト変換部、音声素片候補探索部、韻律変形素片候補選択部、音声素片サブコスト計算部、韻律変形素片サブコスト計算部、音声素片選択部、韻律変形部、素片接続部、制御部）を実現することで、音声合成が実現される。

次に、図１および図２を参照して、上記音声合成装置１００による音声合成処理の流れを叙述的に説明する。

まず、テキスト解析部２が、記憶部に記憶されているテキストを読み込み、このテキストを形態素解析して、テキストに対応した読み情報１１及び韻律情報１２を出力する（ステップＳ１）。

形態素解析の概要について説明すると、テキスト解析部２は、単語モデル、漢字かな変換モデルなど（これらも必要に応じて記憶部に記憶されている。）を参照して、テキストをかなに変換する（読み情報１１の取得）。また、テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則（アクセント結合規則）をデータとして記憶部に記憶しておき、テキスト解析部２は、このアクセント結合規則に従って、テキストのアクセント型を決定する。さらに、テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが１つ付く特徴的傾向があるので、予めこれらの規則（フレーズ規則）をデータとして記憶部に記憶しておき、テキスト解析部２は、このフレーズ規則に従って、アクセントの１つ付いたまとまりがいくつか接続したものを呼気段落として決定する（韻律情報１２の取得）。この他、韻律情報１２にポーズ位置を含めることもできる。

なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができ、これらは従来手法（例えば参考文献１、２参照）によって達成されるので、その詳細を省略する。
（参考文献１）特許３３７９６４３号公報
（参考文献２）特許３５１８３４０号公報

次に、韻律パラメータ取得部３が、テキスト解析部２が出力した韻律情報１２を入力として、韻律に関する情報である韻律パラメータ１３（目標韻律パラメータ）を推定してこれを出力する（ステップＳ２）。

韻律パラメータ１３として、Ｆ_０パターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)などを例示できる。例えば、音素継続時間長とパワー情報は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定することができる。また、Ｆ_０パターンについては、いわゆる藤崎モデルなどによって求めることができる。なお、「推定」とは、音声合成のために必要となる情報（Ｆ_０パターン、音素継続時間長、パワー情報など）を、ある特定のものに決定することを意味する。

ここで説明した韻律パラメータ取得の概要は一例に過ぎず、その他の手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、韻律パラメータの取得には、従来の韻律パラメータ取得手法を用いることができるので、その詳細を省略する。Ｆ_０パターンの取得については例えば参考文献３、４を、音素継続時間長については例えば参考文献５、６を参照されたい。
（参考文献３）特許３４２０９６４号公報
（参考文献４）特許３３４４４８７号公報
（参考文献５）海木佳延、武田一哉、匂坂芳典、「言語情報を利用した母音継続時間長の制御」、電子情報通信学会誌 Vol. J75-A, No.3, pp.467-473, 1992.
（参考文献６）M.D.Riley, "Tree-based modeling for speech synthesis", In G. Bailly, C. Benoit,andT. R. Sawallis, editors, Talking Machines: Theories, Models, and Designs, pages265-273. Elsevier, 1992.

次に、音素コンテキスト変換部４が、テキスト解析部２が出力した読み情報１１を入力として、音素コンテキスト１４を求めてこれを出力する（ステップＳ３）。

音素コンテキストとは音素の並びのことであり、例えば、読み情報１１が、“キョウワハレ”であれば音素コンテキスト１４は、“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”となる。音素コンテキスト変換部４は、かな音素変換モデルなど（必要に応じて記憶部に記憶されている。）を参照して、読み情報１１を音素列に変換する（音素コンテキスト１４の取得）。

次に、音声素片候補探索部５が、少なくとも音素コンテキスト１４を入力として、音素コンテキスト１４に合成単位で適合する音声素片候補１５を音声情報データベース１ｂから探索してこれを出力する（ステップＳ４）。

音声素片候補１５の探索方法として、種々の方法を採用できる。例えば、方法（１）：合成単位の並びが音素コンテキスト１４と一致する音声素片番号の並びを音声情報データベース１ｂから全て探索して、これら音声素片を合成単位ごとに音声素片候補１５とする。

合成単位が音素の例では、音素コンテキスト１４が“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”である場合を例にすると、音素コンテキスト１４の各音素“／ｋ／”、“／ｙ／”、“／Ｏ／”、“／Ｗ／”、“／Ａ／”、“／Ｈ／”、“／Ａ／”、“／Ｒ／”、“／Ｅ／”ごとに、当該音素に一致する音素ラベル情報を持つ音声素片を音声情報データベース１ｂから全て探索して、これら音声素片を音素コンテキスト１４の音素ごとに音声素片候補１５とする。つまり、この例では、音素コンテキスト１４の音素ごとに一つまたは複数の音声素片候補１５が決まる。

あるいは、方法（２）：音素コンテキスト１４と韻律パラメータ１３を入力として、例えば韻律パラメータ１３に含まれる情報Ａの値がＢであった場合、合成単位の並びが音素コンテキスト１４と一致し且つ合成単位に含まれる或る音素の情報Ａの値がＢから予め決められた一定範囲内（例えば情報Ａの値の前後＋−２０％以内）であるという条件を満たす音声素片番号の並びを音声情報データベース１ｂから探索して、これら音声素片を合成単位ごとに音声素片候補１５としてもよい。

合成単位が音素の例では、音素コンテキスト１４が“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”であり韻律パラメータ１３の一つであるＦ_０パターンの平均値が２２０Ｈｚである場合を例にすると、音素コンテキスト１４の各音素“／ｋ／”、“／ｙ／”、“／Ｏ／”、“／Ｗ／”、“／Ａ／”、“／Ｈ／”、“／Ａ／”、“／Ｒ／”、“／Ｅ／”ごとに、当該音素に一致する音素ラベル情報を持ち且つＦ_０パターン情報の平均値が２２０Ｈｚから予め決められた一定範囲内（例えばＦ_０パターン平均値の前後＋−２０％以内）であるという条件を満たす音声素片を音声情報データベース１ｂから全て探索して、これら音声素片を音素コンテキスト１４の音素ごとに音声素片候補１５とする。つまり、この例でも、音素コンテキスト１４の音素ごとに一つまたは複数の音声素片候補１５が決まる。

さらに、単純に線形探索すると音声情報データベース１ｂのサイズが大きくなるにつれて探索に時間がかかるため、例えば、参考文献７に開示される手法などで高速に探索してもよい。
（参考文献７）特開２００５−０７０３１２号公報

次に、韻律変形素片候補選択部６が、少なくとも音声素片候補１５と韻律パラメータ１３を入力として、韻律パラメータ１３と音声素片候補１５の韻律パラメータ（音声素片候補の韻律パラメータは音声情報データベース１ｂから得られる。）との適合度を考慮して、音声素片候補探索部５が出力した合成単位ごとの音声素片候補１５の中から少なくとも一つの韻律変形素片候補１６を合成単位ごとに選択してこれを出力する（ステップＳ５）。

この処理は、音声素片候補１５の中から韻律の観点で優れたものを一つ以上選択する処理である。韻律変形素片候補１６の選択方法として、種々の方法を採用できるが、要は、ステップＳ４の処理で採用した探索基準に韻律に関わる基準を付加するか、あるいは韻律に関わる基準を厳しくすることで、音声素片候補１５の中から韻律の観点で優れた候補を合成単位ごとに選び、これを韻律変形素片候補１６とすればよい。また、「韻律の観点で優れる」とは一種の評価であるから、あたかも全ての音声素片候補１５が「韻律の観点で優れる」と看做すことも許容され、この場合、全ての音声素片候補１５を韻律変形素片候補１６として選択する選択方法を採用することができる。

例えば、ステップＳ４の処理で方法（１）を採用した場合、上記方法（２）をステップＳ５の処理に採用することができる。

また、ステップＳ４の処理で方法（２）を採用した場合には、例えば次のような方法を採用することができる。韻律パラメータ１３に含まれる情報Ａと異なる情報Ｃの値がＤであった場合、合成単位に含まれる或る音素の情報Ｃの値がＤから予め決められた一定範囲内（例えば情報Ｃの値の前後＋−１０％以内とする。この条件は、ステップＳ４の処理で例示した情報Ａと関係なく決めることができる。）であるという条件を満たすものを音声素片候補１５の中から探索して、これらを合成単位ごとに韻律変形素片候補１６とする。

あるいは、ステップＳ４の処理で方法（２）を採用した場合には、例えば次のような方法を採用することもできる。韻律パラメータ１３に含まれる情報Ａの値がＢであった場合、合成単位に含まれる或る音素の情報Ａの値がＢから予め決められた一定範囲内（例えば情報Ａの値の前後＋−１０％以内とする。この条件は、ステップＳ４の処理で例示した条件［＋−２０％］よりも厳しく設定する。）であるという条件を満たすものを音声素片候補１５の中から探索して、これらを合成単位ごとに韻律変形素片候補１６とする。

これらの例で、韻律変形素片候補１６を一つ選択したい場合には、合成単位に含まれる或る音素の情報Ａの値がＢ（あるいは情報Ｃの値がＤ）に最も近いものを一つ選択するようにすればよい。

合成単位が音素の例では、音素コンテキスト１４が“／ｋ／／ｙ／／Ｏ／／Ｗ／／Ａ／／Ｈ／／Ａ／／Ｒ／／Ｅ／”であり韻律パラメータ１３の一つであるＦ_０パターンの平均値が２２０Ｈｚである場合を例にすると、音素コンテキスト１４の各音素“／ｋ／”、“／ｙ／”、“／Ｏ／”、“／Ｗ／”、“／Ａ／”、“／Ｈ／”、“／Ａ／”、“／Ｒ／”、“／Ｅ／”ごとに、Ｆ_０パターン情報の平均値が２２０Ｈｚから予め決められた一定範囲内（例えばＦ_０パターン平均値の前後＋−１０％以内）であるという条件を満たすものを前記各音素の音声素片候補１５の中から全て探索して、韻律変形素片候補１６とする。

他の選択方法としては、例えば上記参考文献７に開示される方法によって音声素片候補１５を選択した場合、韻律パラメータ１３と音声素片候補１５の韻律パラメータとの距離値が音声素片候補１５の探索と同時に計算可能であるため、その距離が最小であるものを一つ、または予め実験的に決められた閾値以下の距離値となる音声素片候補１５を全て韻律変形素片候補１６として選択してもよい。この場合、音声素片候補１５を高速に絞込み探索可能であると同時に韻律変形素片候補としての適合度を計算する処理が不要なため処理量を削減できる利点がある。但し、音声素片候補として絞りこみを行うため音声素片として利用可能な音声素片が音声素片候補１５として選択されない可能性もあり品質が多少劣化する揚合もあるため、利用用途に応じて処理速度と音声品質を考慮して前述の選択方法とどちらを利用するか選択してもよい。

なお、選択方法によっては、音声素片候補１５の全てが韻律変形素片候補１６として選択される場合もあり、このような場合も本発明では許容される。このような場合であっても、音声素片候補１５が存在しなくなるということではない。例えば、音素コンテキスト１４の例の先頭音素／ｋ／について、音声素片候補１５としてｐ１，ｐ２，・・・，ｐ１０の１０個が存在し、このうち韻律変形素片候補１６としてｐ２，ｐ５，ｐ９の３個が選択されたとする。このとき、ステップＳ５の処理より以降の処理にて、音声素片候補１５と云えばｐ１，ｐ２，・・・，ｐ１０の１０個を指し、韻律変形素片候補１６と云えばｐ２，ｐ５，ｐ９の３個を指す。つまり、韻律変形素片候補１６の集合をＧ_１６で表し、音声素片候補１５の集合をＧ_１５で表すと、集合Ｇ_１６は集合Ｇ_１５の部分集合であり、Ｇ_１６⊆Ｇ_１５が成立する。音声素片候補１５の全てが韻律変形素片候補１６として選択される場合は、集合Ｇ_１６が集合Ｇ_１５に一致する。

次に、音声素片サブコスト計算部７が、韻律パラメータ１３、音素コンテキスト１４、合成単位ごとの音声素片候補１５を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補１５それぞれのサブコスト１７を計算してこれを出力する（ステップＳ６）。サブコスト１７それぞれは、音素コンテキスト１４および韻律パラメータ１３と音声素片候補１５それぞれの音素コンテキストおよび韻律パラメータとの適合度を表す。

サブコストの計算方法であるが、任意に種々の方法を採用できる。一例として、参考文献８に示されるようなサブコスト関数を用いて計算することができる。
読みに対応するサブコスト関数は、
Ｃ_１（ｎ）＝１／ｅ^ｎ
である。但し、音素コンテキスト１４と、合成単位の音声素片候補１５の音素コンテキストが一致する音素数をｎとする。
韻律パラメータ１３のＦ_０パターン平均値Ｖｐと、合成単位の音声素片候補１５のＦ_０パターン平均値Ｖｓに対応するサブコスト関数は、
Ｃ_２（Ｖｐ，Ｖｓ）＝｜Ｖｐ−Ｖｓ｜^２
である。
韻律パラメータ１３のＦ_０パターンの傾きＦｐと、合成単位の音声素片候補１５のＦ_０パターンの傾きＦｓに対応するサブコスト関数は、
Ｃ_３（Ｆｐ，Ｆｓ）＝｜Ｆｐ−Ｆｓ｜^２
である。
韻律パラメータ１３の音素継続時間長Ｔｐと、合成単位の音声素片候補１５の音素継続時間長Ｔｓに対応するサブコスト関数は、
Ｃ_４（Ｔｐ，Ｔｓ）＝｜Ｔｐ−Ｔｓ｜^２
である。
韻律パラメータ１３の振幅（パワー）Ａｐと、合成単位の音声素片候補１５の振幅（パワー）Ａｓに対応するサブコスト関数は、
Ｃ_５（Ａｐ，Ａｓ）＝｜Ａｐ−Ａｓ｜^２
である。
（参考文献８）「波形編集型合成方式におけるスペクトル連続性を考慮した波形選択法」、日本音響学会講演論文集、2-6-10, pp.239-240, 1990/9

次に、韻律変形素片サブコスト計算部８が、韻律パラメータ１３と韻律変形素片候補１６の韻律パラメータとの距離に基づいて、韻律変形素片候補１６を韻律パラメータ１３に応じて韻律変形させることによる音質劣化に対応する韻律変形サブコスト（Ｃ_６）１８を求め、これを出力する（ステップＳ７）。

サブコストＣ_６は、例えば次のようにして求める。韻律パラメータのうち韻律変形処理を施すことで音質劣化に繋がることが分かっている基本周波数Ｆ_０と音素継続時間長について、基本周波数Ｆ_０の変形倍率（基本周波数変形率）と音素継続時間長の変形倍率（継続時間長変形率）とＭＯＳ（Mean Opinion Score）との関係を予め実験的に求めておき（図４参照）、韻律パラメータ１３の基本周波数Ｆ_０と韻律変形素片候補１６の基本周波数Ｆ_０との比を基本周波数変形率とし、韻律パラメータ１３の音素継続時間長と韻律変形素片候補１６の音素継続時間長との比を継続時間長変形率として、これらを上記実験結果から得られた関係に当てはめ、非変形時の音声と変形時の音声とのＭＯＳの減少量をサブコストＣ_６とする。
あるいは、非変形時の音声を基準として変形時の音声とのＤＭＯＳ（Differebce Mean Opinion Score）を実験的に求めておき、変形率からＤＭＯＳ値を求めて、これをサブコストＣ_６とすることができる。
被験者を用いた主観評価実験によって、上述の韻律パラメータの変形率と品質劣化の関係を調べることは容易に可能である（参考文献９参照）。
（参考文献９）「基本周波数及び音素持続時間を考慮した音声合成用波形素片データセットの作成」、電子情報通信学会誌、D2, Vol.J82, No.8, pp.1229-1238

また、韻律変形素片サブコスト計算部８が、韻律変形サブコストＣ_６の算出に当たり韻律パラメータ１３の修正を行ってもよい。音声データベース１の構成によっては、ステップＳ２の処理で得られた韻律パラメータ１３に則して入力テキストに程度適合するような音声素片が無いか極少数しかない場合があり、このような音声素片を韻律パラメ一タ１３に合わせて韻律変形した場合、聴感上許容できない品質劣化を起こす場合がある。具体的には、品質劣化と相関するサブコストＣ_６が、実験的に求められた閾値を超えてしまう場合である。

音質劣化が許容範囲を超える場合、このような韻律変形素片候補１６のサブコストＣ_６を上記閾値と同じ値とし、且つ、韻律パラメータ１３に許容韻律変形率を乗じてこの結果を新たな韻律パラメータとする。ステップＳ２の処理で得られた韻律パラメータ１３との混同を避けるため、この新たな韻律パラメータを修正韻律パラメータ１３′と呼称することにする。

許容韻律変形率の算出方法として、種々の方法を採用できる。基本的には、ステップＳ２の処理で得られた韻律パラメータ１３を韻律変形素片候補１６の韻律パラメータに近づけるように許容韻律変形率を決定する。
例えば、図４に示すような基本周波数変形率と継続時間長変形率と品質劣化の相関関係が得られている場合、或る韻律変形素片候補１６の基本周波数変形率が０．７、継続時間長変形率が０．９のとき、ＭＯＳは２となり、ＭＯＳの許容値（閾値）を３とすると、許容値を下回ってしまう。この場合、例えば中央値（０，０）と変形時劣化率（０．７，０．９）を直線で結び、ＭＯＳが３の下限を示すラインとの交点（０．８，０．９２）を許容韻律変形率とする。
元の韻律パラメータ１３がＦ_０＝２５０Ｈｚ、音素継続時間長＝１２０ｍｓｅｃの場合、許容韻律変形率に従った修正韻律パラメータ１３′はＦ_０＝２５０×０．８＝２００Ｈｚ、音素継続時間長は１２０×０．９２＝１１０．４ｍｓｅｃとなる。

修正韻律パラメータ１３′を求めた場合、韻律パラメータ１３の代わりに修正韻律パラメータ１３′を用いて、音声素片サブコスト計算部７が、韻律変形素片候補１６（正確に表現すれば、「韻律変形素片候補１６である音声素片候補１５」）について各種サブコストの計算を再度行ってもよい。なお、修正韻律パラメータ１３′を求めた場合の、韻律変形素片候補１６に対する各種サブコストの再計算は必須ではない。韻律変形素片候補１６について韻律パラメータ１３が修正されたのであるから論理的にはこの再計算を行うべきと云えるが、後述する各サブコスト値への重み（ω_１、ω_２、ω_３、ω_４、ω_５、ω_６）を調節することもできるので、この再計算は任意の技術事項である。

修正韻律パラメータ１３′が算出されたときに上記再計算を行うとした場合、制御部３０は、修正韻律パラメータ１３′が算出されなかった場合、後述のステップＳ８の処理を行うように制御し、修正韻律パラメータ１３′が算出された場合、後述のステップＳ７ｂの処理を行うように制御する（ステップＳ７ａ）。

修正韻律パラメータ１３′が算出された場合、音声素片サブコスト計算部７が、修正韻律パラメータ１３′、音素コンテキスト１４、合成単位ごとの韻律変形素片候補１６を入力として、一つまたは複数のサブコスト関数を用いて、韻律変形素片候補１６それぞれのサブコスト１７を計算してこれを出力する（ステップＳ７ｂ）。
この処理は、韻律パラメータ１３が修正韻律パラメータ１３′が変更されていることを除くと、ステップＳ６の処理と実質的に同じである。

ステップＳ７ａおよびＳ７ｂの各処理は任意の処理であるため、図１および図２ではこれらを破線で図示している。両ステップの処理を行わない場合、制御部３０は、ステップＳ７の処理に続いて後述するステップＳ８の処理を行うように制御する。

次に、音声素片選択部９が、これまでの処理によって合成単位ごとに得られている音声素片候補１５および韻律変形素片候補１６の中から、これらのサブコストからなる評価コストを用いて、波形接続に用いる合成単位の選択音声素片１９および韻律変形対象素片２０を特定して、これを出力する（ステップＳ８）。

評価コストには種々の方式を採用することができる。一例として、ステップＳ６およびステップＳ７の各処理で求めた各サブコスト値に重み（ω_１、ω_２、ω_３、ω_４、ω_５、ω_６）を掛けて総和を計算することで、これを評価コスト（総合コストＰ）とする。総合コストＰは、合成単位ごとに、一つまたは複数の音声素片候補１５および韻律変形素片候補１６に対してそれぞれ求められる。但し、重み（ω_１、ω_２、ω_３、ω_４、ω_５、ω_６）はいずれも正値とし、任意に設定することができる。上記の例では、各サブコスト（Ｃ_１、Ｃ_２、Ｃ_３、Ｃ_４、Ｃ_５、Ｃ_６）は０以上の値をとり、音素コンテキスト１４に対して優れた素片候補ほどそれらの値は０に近いから、総合コストＰは０以上の値をとり、総合コストＰが０に近いほど良好な素片候補と判定することができる。
Ｐ＝ω_１Ｃ_１（ｎ）＋ω_２Ｃ_２（Ｖｐ，Ｖｓ）＋ω_３Ｃ_３（Ｆｐ，Ｆｓ）
＋ω_４Ｃ_４（Ｔｐ，Ｔｓ）＋ω_５Ｃ_５（Ａｐ，Ａｓ）＋ω_６Ｃ_６

音声素片候補１５に対して総合コストＰを求める場合にはＣ_６＝０とする。先の例と同様に、先頭音素／ｋ／の音声素片候補１５としてｐ１，ｐ２，・・・，ｐ１０の１０個が存在し、このうち韻律変形素片候補１６としてｐ２，ｐ５，ｐ９の３個が選択されたとすると、ｐ１，ｐ２，・・・，ｐ１０の１０個について、Ｃ_６＝０として、総合コストＰを求める（音素コンテキスト１４中の他の音素についても同様）。

さらに、韻律変形素片候補１６に対しても総合コストＰを求める。先の例では、韻律変形素片候補１６であるｐ２，ｐ５，ｐ９の３個に対して総合コストＰを求める。この場合には、韻律関係の重みω_２〜ω_５を音声素片候補１５に対するものよりも小さな値にしてよい。具体的には、韻律変形素片候補１６の総合コストＰの算出時には重みω_２〜ω_５を音声素片候補１５に対する重みω_２〜ω_５の１／１０以下にしてよく、全て０にしてもよい。この理由は、韻律変形素片候補１６（正確にはステップＳ８の処理で特定された韻律変形素片候補、即ち韻律変形対象素片２０である。）に対応する部分音声波形データは韻律パラメータ１３或いは修正韻律パラメータ１３′に合わせて韻律を変形されるため、韻律変形対象素片に対応する部分音声波形データに対して用いる韻律変形方式に依存するものの、韻律パラメータ１３或いは修正韻律パラメータ１３′と韻律変形素片候補１６の韻律パラメータとの韻律のミスマッチはほぼ解消されるためである。

そして、音声素片選択部９は、合成単位で加算した総合コストＰの総和が最良（この例では最小）となるように、合成単位ごとに、音声素片候補１５または韻律変形素片候補１６を一つ特定し、入力テキストの音素コンテキスト１４に対応する一連の音声素片を決定する。この特定された音声素片候補１５、韻律変形素片候補１６が、選択音声素片１９、韻律変形対象素片２０である。

合成単位が音素の例では、音素コンテキスト１４が“／Ｈ／／Ａ／／Ｒ／／Ｕ／”である場合を例に、音素“／Ｈ／”に音声素片候補１５としてａ１、ａ２、ａ３、ａ４、韻律変形素片候補１６としてａ２が選択され、音素“／Ａ／”に音声素片候補１５としてｃ１、ｃ２、ｃ３、韻律変形素片候補１６としてｃ１、ｃ２が選択され、音素“／Ｒ／”に音声素片候補１５としてｅ１、ｅ２、ｅ３、ｅ４、ｅ５、韻律変形素片候補１６としてｅ１が選択され、音素“／Ｕ／”に音声素片候補１５としてｇ１、ｇ２、韻律変形素片候補１６としてｇ１、ｇ２が選択されたとする。音素“／Ｈ／”について音声素片候補ａ１、音素“／Ａ／”について韻律変形素片候補としてｃ２、音素“／Ｒ／”について音声素片候補ｅ３、音素“／Ｈ／”について音声素片候補としてｇ２を採用したときに総合コストＰの音素コンテキスト１４に対応する総和が最小となるならば、入力テキストの音素コンテキスト１４に対応する一連の音声素片をａ１−ｃ２−ｅ３−ｇ２に決定し、ａ１、ｅ３が選択音声素片１９として、ｃ２、ｇ２が韻律変形対象素片２０として特定される。
このように、韻律変形素片候補１６は、音声素片候補１５としても総合コストが計算されているから、いずれの候補としての総合コストを用いたかを注意する必要がある。

総合コストＰの総和が最小となる選択音声素片１９または韻律変形対象素片２０の特定は、一般的なＤＰ（Dynamic Programing）法を用いることで、容易に達成可能である。

なお、ステップＳ８の処理では、韻律変形対象素片２０が必ず特定される保証はなく、選択音声素片１９が必ず特定されるという保証もない。つまり、入力テキストの音素コンテキスト１４に対応するものとして決定された一連の音声素片の中に、選択音声素片１９あるいは韻律変形対象素片２０が含まれるか否かは、合成単位で加算した総合コストＰの総和の結果次第である。

次に、韻律変形部１０が、音声波形データベース１ａから韻律変形対象素片２０に対応する部分音声波形データを読み込み、韻律変形対象素片２０に対応する韻律パラメータ１３或いは修正韻律パラメータ１３′に従って前記部分音声波形データに韻律変形処理を行い、韻律変形波形データ２１を生成する（ステップＳ９）。

韻律変形処理の手法として、種々の手法を採用できる。例えば、一般的なピッチ同期波形重畳処理方法やスペクトル領域でのハーモニックスの変形処理に基づく韻律変形処理方法（参考文献１０参照）等を用いて変形処理を行って韻律変形波形データ２１を生成する。但し、ここで利用する韻律変形処理は、前述の韻律変形素片サブコスト計算部８が韻律変形サブコストＣ_６を求める際に主観評価実験等により韻律変形処理に伴う音質劣化と韻律の変形率との相関関係を求めた方式と同一の方式であることが望まれる（むしろ、同一方式を採用することが必要である。）。
（参考文献１０）Y. Stylianou, "Concatenative speech synthesis using a Harmonic plus Noise Mode1," In: The 3^rd ESCA/COCOSDA Workshop on Speech Synthesis, Jenolan Caves, NSW, Australia, Nov.1998, Paper H.1.

なお、韻律変形対象素片２０が無い場合には、ステップＳ９の処理は省略される。

最後に、素片接続部１０が、音声波形データベース１ａから選択音声素片１９に対応する部分音声波形データを読み込み、この部分音声波形データとステップＳ９の処理で得られた韻律変形波形データ２１とを、ステップＳ８の処理で得られた一連の音声素片の並びに従って波形接続することで合成音声を生成する（ステップＳ１０）。

選択音声素片１９に対応する部分音声波形データ及び韻律変形波形データ２１を時間的な順に単に接続してもよいが、異なる部分音声波形データ間を時間的又は周波数的に補間して波形接続してもよい（参考文献１１参照）。
（参考文献１１）特開平７−０７２８９７号公報

《第２実施形態》
本発明の第２実施形態について、図５および図６を参照しながら説明する。なお、第１実施形態と異なる事項について説明を行い、第１実施形態と異ならない構成要素等については同一符号を附して説明を省略する。また、第２実施形態を上述のステップＳ７ａおよびＳ７ｂの各処理を行わない例で示すが、両処理を行う実施形態とすることもできる。

第２実施形態では、第１実施形態のステップＳ４の処理の後、音声素片サブコスト計算部７が、韻律パラメータ１３、音素コンテキスト１４、合成単位ごとの音声素片候補１５を入力として、一つまたは複数のサブコスト関数を用いて、音声素片候補１５それぞれについてサブコスト１７を計算しこれを出力する（ステップＳ５ａ）。

ステップＳ５ａの処理は、第１実施形態のステップＳ６の処理に相当する。

ステップＳ５ａの処理に続いて、韻律変形素片候補選択部６が、音声素片候補探索部５が出力した合成単位ごとの音声素片候補１５とステップＳ５ａの処理で得たサブコスト１７を入力として、合成単位ごとの音声素片候補１５の中から韻律に関わるサブコスト１７が優れたものを少なくとも一つ合成単位ごとに選択し、これらを韻律変形素片候補１６として出力する（ステップＳ６ａ）。

この処理における選択方法であるが、任意に種々の選択方法を採用できる。一例として、次のような選択方法を採用できる。第１実施形態で例示したサブコスト関数で得られたサブコスト値のうち韻律変形処理によって音質劣化する要因である基本周波数Ｆ_０と音素継続時間長に関連するサブコスト値、Ｃ_２（Ｖｐ，Ｖｓ）、Ｃ_３（Ｆｐ，Ｆｓ）、Ｃ_４（Ｔｐ，Ｔｓ）の重み付け和（ω_２Ｃ_２（Ｖｐ，Ｖｓ）＋ω_３Ｃ_３（Ｆｐ，Ｆｓ）＋ω_４Ｃ_４（Ｔｐ，Ｔｓ））が最小となる音声素片候補を一つ、またはこの重み付け和の値が予め実験的に決められた閾値以下となる音声素片候補を全て韻律変形素片候補として選択する。

第２実施形態でも、従前の説明のとおり、韻律変形素片候補１６の集合は音声素片候補１５の集合の部分集合である。

ステップＳ６ａの処理に続いて、第１実施形態のステップＳ７〜Ｓ１０の各処理を行う。

本発明である音声合成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記音声合成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声合成装置における処理機能をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声合成装置における処理機能がコンピュータ上で実現される。

このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声合成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の音声合成装置・方法は、テキスト音声変換などに有用である。

第１実施形態に係わる音声合成装置の機能構成を例示した機能構成図。第１実施形態に係わる音声合成の処理フローを示す図。音声情報データベースの一例を示す図。基本周波数変形率と継続時間長変形率と音声品質劣化との相関関係図。第２実施形態に係わる音声合成装置の機能構成を例示した機能構成図。第２実施形態に係わる音声合成の処理フローを示す図。

符号の説明

１音声データベース
１ａ音声波形データベース
１ｂ音声情報データベース
２テキスト解析部
３韻律パラメータ取得部
４音素コンテキスト変換部
５音声素片候補探索部
６韻律変形素片候補選択部
７音声素片サブコスト計算部
８韻律変形素片サブコスト計算部
９素片選択部
１０韻律変形部
１１素片接続部

Claims

合成音声を組み立てる上で適切な単位（合成単位）で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成装置であって、
音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースを記憶する記憶手段と、
上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
上記韻律情報から、韻律に関する情報である韻律パラメータ（目標韻律パラメータ）を取得する韻律パラメータ取得手段と、
上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換手段と、
少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補（音声素片候補）を上記音声情報データベースから探索する音声素片候補探索手段と、
上記音声素片候補から韻律の観点で優れる候補（韻律変形素片候補）を選択する韻律変形素片候補選択手段と、
各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算手段と、
各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算手段と、
各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択手段と、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段と、
上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続手段と
を備えた音声合成装置。
上記韻律変形素片候補選択手段は、
上記音声素片候補のうち上記目標韻律パラメータと上記音声素片候補の韻律パラメータとの適合度が高いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
ことを特徴とする請求項１に記載の音声合成装置。
上記韻律変形素片候補選択手段は、
上記音声素片候補のうち上記音声素片候補のサブコストであって少なくとも韻律に関するサブコストからなる評価コストが良いものの中から少なくとも一つの上記韻律変形素片候補を選択するものである
ことを特徴とする請求項１に記載の音声合成装置。
上記韻律変形素片サブコスト計算手段は、
上記韻律変形手段が行う韻律変形処理と同じ処理で音声に韻律変形を行った韻律変形音声の主観的評価値と上記目標韻律パラメータに対する上記韻律変形素片候補の韻律パラメータの変形倍率との関係から上記韻律変形サブコストを計算するものである
ことを特徴とする請求項１から請求項３のいずれかに記載の音声合成装置。
上記韻律変形素片サブコスト計算手段は、
上記韻律変形サブコストが予め定められた閾値を超える場合に、
上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
上記韻律変形手段に替えて、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形手段を備える
ことを特徴とする請求項１から請求項４のいずれかに記載の音声合成装置。
上記音声素片サブコスト計算手段が、上記修正韻律パラメータが算出された場合に、各上記韻律変形素片候補について、上記音素コンテキストおよび上記修正韻律パラメータと韻律変形素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する
ことを特徴とする請求項５に記載の音声合成装置。
合成音声を組み立てる上で適切な単位（合成単位）で音声波形データを接続することで、入力されたテキストに対応する合成音声を生成する音声合成方法であって、
記憶手段には、音声波形データの集合である音声波形データベースおよび、少なくとも上記音声波形データの合成単位の韻律に関する情報である韻律パラメータと上記音声波形データベースにおける音声波形データとの対応を示す音声素片からなる音声情報データベースが記憶され、
上記テキストを解析して当該テキストの読み情報および韻律情報を取得するテキスト解析手段と、
上記韻律情報から、韻律に関する情報である韻律パラメータ（目標韻律パラメータ）を取得する韻律パラメータ取得ステップと、
上記読み情報を音素の並びである音素コンテキストに変換する音素コンテキスト変換ステップと、
少なくとも上記音素コンテキストに合成単位で適合する音声素片の候補（音声素片候補）を上記音声情報データベースから探索する音声素片候補探索ステップと、
上記音声素片候補から韻律の観点で優れる候補（韻律変形素片候補）を選択する韻律変形素片候補選択ステップと、
各上記音声素片候補について、上記音素コンテキストおよび上記目標韻律パラメータと音声素片候補の音素コンテキストおよび韻律パラメータとの適合度を各々サブコストとして計算する音声素片サブコスト計算ステップと、
各上記韻律変形素片候補について、上記目標韻律パラメータに応じて韻律変形素片候補を韻律変形することによる音質劣化度を韻律変形サブコストとして計算する韻律変形素片サブコスト計算ステップと、
各上記音声素片候補および各上記韻律変形素片候補の各サブコストからなる評価コストが最良となるときの音声素片候補または韻律変形素片候補を、それぞれ選択音声素片、韻律変形対象素片として選択する素片選択ステップと、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記目標韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップと、
上記選択音声素片に対応する音声波形データを上記音声波形データベースから読み込み、この音声波形データと上記韻律変形波形データを接続して上記合成音声を得る素片接続ステップと
を有する音声合成方法。
上記韻律変形素片サブコスト計算ステップは、
上記韻律変形サブコストが予め定められた閾値を超える場合に、
上記韻律変形サブコストを上記閾値とすると共に、上記目標韻律パラメータを韻律変形素片候補の韻律パラメータに近づけるように定められる許容韻律変形率を上記目標韻律パラメータに乗じた修正韻律パラメータを求めるものであり、
上記韻律変形ステップに替えて、
上記韻律変形対象素片に対応する音声波形データを上記音声波形データベースから読み込み、当該音声波形データを上記修正韻律パラメータに従って韻律変形し韻律変形波形データを生成する韻律変形ステップを有する
ことを特徴とする請求項７に記載の音声合成方法。
請求項１から請求項６のいずれかに記載された音声合成装置としてコンピュータを機能させるためのプログラム。