JP4056470B2

JP4056470B2 - イントネーション生成方法、その方法を用いた音声合成装置及びボイスサーバ

Info

Publication number: JP4056470B2
Application number: JP2003522906A
Authority: JP
Inventors: 隆斉藤; 正治阪本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2001-08-22
Filing date: 2002-08-01
Publication date: 2008-03-05
Anticipated expiration: 2022-08-01
Also published as: US20050114137A1; CN1234109C; WO2003019528A1; CN1545693A; US7502739B2; JPWO2003019528A1

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成方法及びその装置に関し、特に音声のイントネーションの生成方法に特徴を有する音声合成方法及びその装置に関する。
【０００２】
【従来の技術】
テキストデータを音声出力するテキスト合成方式による音声合成（テキスト音声合成）技術では、人による発話に近い自然なイントネーションを生成することが大きな課題となっている。
従来、広く利用されてきたイントネーションの制御方法は、藤崎モデルに代表される、アクセント成分と話調成分との重畳によるイントネーション・パターンの生成モデルである。このモデルは、物理的な発話現象との対応付けが可能で、アクセントの大きさ、位置や、話調の立て直しなどを柔軟に表現することができる。
しかし、この種のモデルは、音声の言語的な情報との対応付けが複雑であり、困難となっていた。そのため、音声合成の際に実際に用いられるアクセント、話調成分の大きさ、時間的な配置などを制御するパラメータは、言語情報に基づく精密な制御が困難であり、結果的に、過度の簡略化が行われて基本的な韻律的特徴のみが表現されることが多くなっていた。このことは、従来の音声合成において、話者性や発話スタイルなどの制御を行いにくくする一因となっている。
【０００３】
これに対し、近年、より自然性の高い韻律生成を行うため、実際の音声現象を拠り所とするデータベース（コーパスベース）を用いた手法が提案されている。
この種の従来技術としては、例えば、特開２０００−２５０５７０号公報に開示された技術や、特開平１０−１１６０８９号公報に開示された技術がある。
これらの公報に記載された技術は、データベースに蓄積された実発声におけるイントネーションの基本周波数（Ｆ０）パターンの中から、適当なＦ０パターンを選択し、音声合成の対象であるテキスト（以下、対象テキスト）に適用してイントネーション・パターンを決定し、音声合成を行う。これにより、上述したアクセント成分と話調成分との重畳によるイントネーション・パターンの生成モデルと比して、良好な韻律による音声合成を実現している。
【０００４】
これらのＦ０パターンを用いた音声合成技術は、いずれも、対象テキストの言語情報（品詞、アクセント位置、アクセント句等の情報）に基づいて、韻律を規定するカテゴリを決定、あるいは予測し、データベースにおける当該韻律カテゴリに属するＦ０パターンを対象テキストに適用し、イントネーション・パターンとしている。
また、所定の韻律カテゴリに複数のＦ０パターンが属する場合は、平均化や平均に最も近いサンプルを採用（モデル化）するなどの適当な方法で１つの代表的なＦ０パターンを選び、対象テキストに適用する。
【０００５】
【発明が解決しようとする課題】
しかしながら、従来のＦ０パターンを用いた音声合成技術は、上記のように、韻律カテゴリにより言語情報とＦ０パターンとを直接的に対応付けて対象テキストのイントネーション・パターンを決定しているため、対象テキストに対する韻律カテゴリの決定に合成音声の品質が依存する、また、データベース中のＦ０パターンの韻律カテゴリに分類し得ない対象テキストに対して適切なＦ０パターンを適用できないといった制約があった。
【０００６】
さらに、対象テキストが該当する韻律カテゴリの決定には、当該対象テキストの言語情報、すなわちアクセントの位置やモーラ、音声の前後にポーズ（無音区間）があるか否かといった情報が大きく影響する。したがって、実発声におけるイントネーションとの類似性の高いパターン形状を持つＦ０パターンであっても、これらの言語情報が異なるために韻律カテゴリが異なる場合は適用できないという無駄が生じていた。
【０００７】
また、上記従来の音声合成技術は、Ｆ０パターンのデータとしての扱い易さを重視し、パターン形状自体の平均化やモデル化を行うため、データベースのＦ０変動を表現するのに限界があった。
すなわち、合成される音声は朗読のような標準的なイントネーションに統一されてしまい、ダイナミックな特徴をもつ音声（例えば、感情を込めた発話における音声や、吹き替えなどで行われる特定の役柄を特徴づけるような音声）を柔軟に合成することが難しかった。
【０００８】
ところで、テキスト音声合成（ＴＴＳ：Text-to-speech Synthesis）は、任意の文章に対する音声の合成を目的とした技術であるが、実際に合成音声が応用される分野の中には、比較的限られた語彙や文型が適用可能なものも多い。例えば、ＣＴＩ（Computer Telephony Integration）システムや、カーナビゲーションシステム等における応答音声や、ロボットの音声対話機能における応答文は、その典型例である。
これらの分野への音声合成技術の応用においては、決まった語彙や文型に対して予め実音声のデータを用意することができるため、音声の自然性に対する強い要請から、合成音声よりも実音声（録音音声）の利用が優先されることも多い。しかし、未登録語の合成、語彙・文型の追加変更等への対応のしやすさ、さらには任意文への拡張を視野に入れると、合成音声の担う役割は極めて大きい。
【０００９】
このような背景から、語彙が比較的限定されたタスクにおいては、録音音声を利用して合成音声の自然性を高める方法が検討されている。録音音声と合成音声を混合するような従来技術としては、例えば、次の文献１〜３に開示された技術がある。
文献１：A. W. Black et al., "Limited Domain Synthesis," Proc. of ICSLP 2000.
文献２：R. E. Donovan et al., "Phrase Splicing and Variable Substitution Using the IBM Trainable Speech Synthesis System," Proc. of ICASSP 2000.
文献３：片江他：文型−韻律データベースを用いた定型文合成システム, 音響学会講演論文集, 2-4-6, Mar. 1996.
【００１０】
文献１または文献２に開示された従来技術は、録音音声のイントネーションは、基本的にそのまま利用される。したがって、録音音声として使用するフレーズは、実際に使用するコンテキストで録音しておく必要がある。一方、文献３に開示された従来技術は、Ｆ０パターンを生成するためのモデルのパラメータを実音声から抽出しておき、可変スロットを持つ定型文の合成に適用するものである。したがって、同形式の文であれば、異なるフレーズに対してもイントネーションの生成は可能であるが、定型文にしか対応できないという制約が残る。
【００１１】
ここで、合成音声のフレーズを、録音音声のフレーズ間に挿入したり、その前後に接続したりすることを考えると、実音声における個々の発話の揺れや、強調や感情の程度、発話意図の違い等、様々な発話の振る舞いを考慮すれば、固定値の合成フレーズのイントネーションが個々の録音フレーズの環境に、必ずしも適合するとは言えない。
しかし、上記文献１〜３に開示された従来技術では、これらの実音声における発話の振る舞いが考慮されておらず、音声合成におけるイントネーション生成への大きな制約となっている。
【００１２】
そこで、本発明は、音声合成のイントネーション・パターンの生成において、自然性が高く、かつ話者の発話特徴を柔軟かつ正確に再現できる音声合成システムを実現することを目的とする。
また、本発明は、音声合成において、実発声のイントネーションにおけるＦ０パターンのデータベース（コーパスベース）に対し、韻律カテゴリによらずにＦ０パターンの絞り込みを行うことにより、データベースに蓄積された実発声のＦ０パターンを有効に活用することを他の目的とする。
さらに、本発明は、録音音声及び合成音声のイントネーションを混合し、滑らかに接合することを他の目的とする。
【００１３】
【課題を解決するための手段】
上記の目的を達成する本発明は、音声合成におけるイントネーションの生成を行うイントネーション生成方法において、音声合成の対象であるテキストの言語情報に基づいてこのテキストにおけるイントネーションの概形を予測し、予測されたイントネーションの概形に基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択してテキストのイントネーション・パターンとすることを特徴とする。
【００１４】
ここで、このイントネーションの概形の予測は、テキストの言語情報により分類される韻律カテゴリに基づいて行うことができる。
さらに、このイントネーション生成方法において、イントネーション・パターンを選択した後に、予測された前記イントネーションの概形に基づいて、選択された当該イントネーション・パターンの周波数レベルを調整する構成とすることができる。
【００１５】
また、本発明は、音声合成におけるイントネーションの生成を行うイントネーション生成方法において、音声合成の対象であるテキストを構成する想定アクセント句ごとにイントネーションの概形を予測するステップと、予測された想定アクセント句ごとのイントネーションの概形に基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択するステップと、選択された想定アクセント句ごとのイントネーション・パターンを接続するステップとを含むことを特徴とする。
【００１６】
より好ましくは、このイントネーションの概形を予測するステップは、所定の前記想定アクセント句のイントネーションの概形を予測する際、前記テキストにおいて当該想定アクセント句の直前に他の想定アクセント句が存在する場合に、当該直前の他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して当該所定の想定アクセント句のイントネーションの概形の予測を行うステップを含む。
【００１７】
さらに好ましくは、このイントネーションの概形を予測するステップは、想定アクセント句が所定の記憶装置に格納されている予め録音された録音音声のフレーズ中に存在する場合に、このフレーズのこの想定アクセント句に対応する部分のイントネーションに関する情報を記憶装置から取得し、このイントネーションの概形の予測結果とする。
【００１８】
そしてさらに、このイントネーションの概形を予測するステップは、テキストにおいて所定の想定アクセント句の直前に他の想定アクセント句が存在する場合に、この直前の他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して、想定アクセント句のイントネーションの概形を予測するステップと、テキストにおいて所定の想定アクセント句の前後の少なくとも一方に、所定の記憶装置に格納されている予め録音された録音音声のフレーズに対応する他の想定アクセント句が存在する場合に、当該録音音声のフレーズに対応する他の想定アクセント句に対するイントネーションの概形の予測結果を参酌して、想定アクセント句のイントネーションの概形を予測するステップとを含む。
【００１９】
また、このイントネーション・パターンを選択するステップは、さらに詳しくは、データベースに蓄積されている実発声のイントネーション・パターンの中から、始端終端間距離が想定アクセント句のイントネーションの概形に近いものを選択するステップと、選択されたイントネーション・パターンのうちで、想定アクセント句に対する音韻クラスの距離が最も小さいイントネーション・パターンを選択するステップとを含む。
【００２０】
また、本発明は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、実発声のイントネーション・パターンを蓄積したデータベースと、テキストを音声出力するための韻律を生成する韻律制御部と、この韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備えた音声合成装置として実現することができる。この韻律制御部は、テキスト解析部にて取得された言語情報に基づいてこのテキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測部と、この概形予測部にて予測されたイントネーションの概形に基づいてデータベースからイントネーション・パターンを選択する形状素片選択部と、この形状素片選択部にて選択された想定アクセント句ごとのイントネーション・パターンを接続してテキスト全体のイントネーション・パターンを生成する形状素片接続部とを備えることを特徴とする。
【００２１】
より詳しくは、この概形予測部は、少なくとも、想定アクセント句の区分内における周波数レベルの最大値、この区分の始端及び終端における相対レベルオフセットによって、この想定アクセント句のイントネーションの概形を規定する。
また、この形状素片選択部は、韻律カテゴリによることなく、データベースに蓄積された実発声のイントネーション・パターン全体の中から、イントネーションの概形に形状が近似するものをイントネーション・パターンとして選択する。
さらに、この形状素片接続部は、選択された想定アクセント句ごとのイントネーション・パターンを、イントネーションの概形に基づいて周波数レベルを調整した上で接続する。
【００２２】
さらに、この音声合成装置は、予め録音された録音音声のイントネーションに関する情報を格納した他のデータベースをさらに備える構成とすることができる。この場合、概形予測部は、想定アクセント句が他のデータベースに登録されている録音フレーズ中に存在する場合に、この録音フレーズにおけるこの想定アクセント句に対応する部分のイントネーションに関する情報をかかる他のデータベースから取得する。
【００２３】
また、本発明は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、発話特徴に基づいて複数用意された実発声のイントネーション・パターンを蓄積したデータベースと、このデータベースに蓄積されたイントネーション・パターンを用いて前記テキストを音声出力するための韻律を生成する韻律制御部と、この韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備えた音声合成装置として実現することができる。この音声合成装置は、この複数のデータベースを切り替えて用いることにより、データベースに蓄積された実発声のイントネーションにおける発話特徴を反映させた音声合成を行うことを特徴とする。
【００２４】
さらに、本発明は、テキスト音声合成を行う、次のように構成された音声合成装置として実現することができる。この音声合成装置は、処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、発話特徴に関する情報を格納した第１のデータベースと、予め録音された録音音声の波形に関する情報を格納した第２のデータベースと、処理対象であるテキストの合成単位に対する波形素片を選択する合成単位選択部と、この合成単位選択部にて選択された波形素片を結合して合成音声を生成する音声生成部とを備え、合成単位選択部は、録音音声の境界部分に対応するテキストの合成単位に対する波形素片を前記第１及び第２のデータベースの情報から選択することを特徴とする。
【００２５】
さらにまた、本発明は、コンピュータで上述したイントネーション生成方法を実行し、あるいはコンピュータを上述した音声合成装置として機能させるプログラムとして実現することができる。
このプログラムは、磁気ディスクや光ディスク、半導体メモリその他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
さらに、本発明は、上述した音声合成装置の機能を搭載して電話対応型のサービスを提供するボイスサーバとして実現することができる。
【００２６】
【発明の実施の形態】
以下、添付図面に示す実施の形態に基づいて、この発明を詳細に説明する。
図１は、本実施の形態の音声合成技術を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
図１に示すコンピュータ装置は、ＣＰＵ（中央処理装置）１０１と、システムバスを介してＣＰＵ１０１に接続されたＭ／Ｂ（マザーボード）チップセット１０２及びメインメモリ１０３と、ＰＣＩバスなどの高速なバスを介してＭ／Ｂチップセット１０２に接続されたビデオカード１０４、サウンドカード１０５、ハードディスク１０６及びネットワークインターフェイス１０７と、さらにこの高速なバスからブリッジ回路１１０及びＩＳＡバスなどの低速なバスを介してＭ／Ｂチップセット１０２に接続されたフロッピーディスクドライブ１０８及びキーボード１０９とを備える。また、サウンドカード１０５には、音声出力を行うスピーカ１１１が接続されている。
なお、図１は本実施の形態を実現するコンピュータ装置の構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々のシステム構成を取ることが可能である。例えば、サウンドカード１０５を設ける代わりに、Ｍ／Ｂチップセット１０２の機能としてサウンド機構を設けることもできる。
【００２７】
図２は、図１に示したコンピュータ装置にて実現される本実施の形態による音声合成システムの構成を示す図である。
図２を参照すると、本実施の形態の音声合成システムは、音声合成の対象であるテキストを解析するテキスト解析部１０、音声合成による発話のリズムを付けるための韻律制御部２０、音声波形を生成する音声生成部３０と、実発声によるイントネーションのＦ０パターンを蓄積したＦ０形状データベース４０とを備える。
【００２８】
図２に示したテキスト解析部１０及び韻律制御部２０は、図１に示したメインメモリ１０３に展開されたプログラムにてＣＰＵ１０１を制御することにより実現される仮想的なソフトウェアブロックである。ＣＰＵ１０１を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。本実施の形態では、図１に示したネットワークインターフェイス１０７やフロッピーディスクドライブ１０８、図示しないＣＤ−ＲＯＭドライブなどを介して当該プログラムを入力し、ハードディスク１０６に格納する。そして、ハードディスク１０６に格納されたプログラムをメインメモリ１０３に読み込んで展開し、ＣＰＵ１０１にて実行することにより、図２に示した各構成要素の機能を実現する。
【００２９】
テキスト解析部１０は、音声合成の対象となるテキスト（入力文字列）を入力し、構文解析等の言語的な解析処理を行う。これにより、処理対象である入力文字列が単語ごとに分解され、読み及びアクセントに関する情報が付与される。
【００３０】
韻律制御部２０は、テキスト解析部１０による解析結果に基づいて、発話のリズムを付ける処理、具体的には、発声を構成する各音素に対して、音の高さ・長さ・強さを決定し、ポーズの位置を設定する処理を行う。本実施の形態では、この処理を実行するために、図２に示すように、概形予測部２１、最適形状素片選択部２２及び形状素片接続部２３を備える。
【００３１】
音声生成部３０は、例えば、図１に示したサウンドカード１０５にて実現され、韻律制御部２０による処理の結果を受けて、音節などで蓄えられている合成単位に応じて音素を接続し、音声波形（音声信号）を生成する処理を行う。生成された音声波形は、スピーカ１１１を介して音声として出力される。
【００３２】
Ｆ０形状データベース４０は、例えば、図１に示したハードディスク１０６にて実現され、予め収集された実発声によるイントネーションのＦ０パターンを、韻律カテゴリに分類して蓄積してある。また、このＦ０形状データベース４０は、合成しようとする音声のスタイルに応じて数種類用意しておき、切り替えて用いることができる。例えば、標準的な朗読調のＦ０パターンを蓄積したＦ０形状データベース４０の他、陽気な調子の発話や沈んだ調子の発話、怒気を含んだ発話というような感情を込めた発話におけるＦ０パターンを蓄積したＦ０形状データベース４０を用意して用いることができる。また、アニメーションや映画の吹き替えで行われるような特定の役柄を特徴づける特殊な発話のＦ０パターンを蓄積したＦ０形状データベース４０を用いることもできる。
【００３３】
次に、本実施の形態における韻律制御部２０の機能について詳細に説明する。
韻律制御部２０は、テキスト解析部１０により解析された対象テキストを１文ずつ取り出し、Ｆ０形状データベース４０に蓄積されているイントネーションのＦ０パターンを当てることによって当該対象テキストのイントネーションを生成する（韻律におけるアクセントやポーズに関する情報は、テキスト解析部１０により解析された言語情報から得ることができる）。
本実施の形態では、データベースに蓄積されている実発声によるイントネーション・パターンから音声合成するテキストのイントネーションのＦ０パターンを抽出する際に、韻律カテゴリによらない検出を行う。ただし、この韻律カテゴリによるテキストの区別そのものは、本実施の形態においても、概形予測部２１によるＦ０形状ターゲット予測の処理に必要である。
しかしながら、韻律カテゴリの選択には、アクセントの位置やモーラ、音声の前後にポーズがあるか否かといった言語情報が多大な影響を及ぼすため、Ｆ０パターンを抽出する際にも韻律カテゴリを利用すると、イントネーションにおけるパターン形状の他に、アクセントの位置やモーラ、ポーズの有無といった要素が検索に影響することとなり、最適なパターン形状を持ったＦ０パターンが検索から漏れてしまうこととなる。
したがって、Ｆ０パターンを決定する段階では、本実施の形態が提供する韻律カテゴリによらないパターン形状のみを対称とした検索が有用である。
【００３４】
ここで、本実施の形態の韻律制御において、対象テキストに対してＦ０パターンを適用する際の単位であるＦ０形状素片単位について定義する。
本実施の形態では、実際の発声においてアクセント句を形成するか否かに関わらず、アクセント句を形成し得る言語上の区分単位（以下、この区分単位を想定アクセント句と称す）で切り出した実音声のＦ０区分をＦ０形状素片の単位とする。各Ｆ０形状素片は、構成モーラの母音中心部でのＦ０値（３点中央値）でサンプリングして表現される。また、Ｆ０形状データベース４０には、このＦ０形状素片を単位として実発声におけるイントネーションのＦ０パターンが格納されている。
【００３５】
本実施の形態の韻律制御部２０において、概形予測部２１は、テキスト解析部１０による言語処理の結果として与えられる想定アクセント句に関する言語情報（アクセント型、句の長さ（モーラ数）、句を構成するモーラの音韻クラス）と、想定アクセント句間のポーズの有無に関する情報とを入力し、これらの情報に基づき、想定アクセント句ごとのＦ０パターンの概形を予測する。この予測されるＦ０パターンの概形をＦ０形状ターゲットと称す。
ここで、所定の想定アクセント句のＦ０形状ターゲットは、当該想定アクセント句の区分内における周波数レベルの最大値（最大Ｆ０値）、パターン始端点における最大Ｆ０値からの相対レベルオフセット（始端オフセット）、パターン終端点における最大Ｆ０値からの相対レベルオフセット（終端オフセット）の、３つのパラメータによって規定される。
すなわち、Ｆ０形状ターゲットの予測は、上述した言語情報により分類される韻律カテゴリに基づき、統計的モデルを用いて、この３つのパラメータを予測する処理である。
予測されたＦ０形状ターゲットは、図１に示したＣＰＵ１０１のキャッシュメモリやメインメモリ１０３に一時的に保持される。
【００３６】
また、本実施の形態では、上記の言語情報とは別に、発話上の制約を予測モデルに組み込む。すなわち、現在の想定アクセント句の直前までに実現されたイントネーションが次の発話のイントネーションレベル等に影響を与えるという仮定を採り入れ、直前の想定アクセント句の区分に対する予測結果を処理中の想定アクセント句の区分に対するＦ０形状ターゲットの予測に反映させる。
図３は、この発話上の制約を予測モデルに組み込む方式を説明する図である。
図３に示すように、予測を実行中の想定アクセント句（現想定アクセント句）における最大Ｆ０値の予測に、既に予測が済んでいる直前の想定アクセント句における最大Ｆ０値を加味する。また、現想定アクセント句における始端オフセット及び終端オフセットの予測に、直前の想定アクセント句における最大Ｆ０値及び現想定アクセント句における最大Ｆ０値を加味する。
なお、概形予測部２１における予測モデルの学習は、想定アクセント句ごとに得られる最大Ｆ０値の実測値をカテゴライズしたものを用いて行う。すなわち、概形予測部２１は、Ｆ０形状ターゲットを予測する際の予測要因として、上述した言語情報に基づく韻律カテゴリに、この想定アクセント句ごとにおける最大Ｆ０値の実測値のカテゴリを加えて予測のための統計処理を実行する。
【００３７】
最適形状素片選択部２２は、Ｆ０形状データベース４０に蓄積されているＦ０形状素片（Ｆ０パターン）の中から、処理中の現想定アクセント句に対して適用するＦ０形状素片の候補を選択する。この選択は、概形予測部２１により予測されたＦ０形状ターゲットに基づいて大まかにＦ０形状素片を抽出する予備選択と、現想定アクセント句における音韻クラスに基づいて当該現想定アクセント句に適用する最適Ｆ０形状素片の選択とからなる。
【００３８】
予備選択では、最適形状素片選択部２２は、まず、概形予測部２１により予測された現想定アクセント句におけるＦ０形状ターゲットを取得して、当該Ｆ０形状ターゲットを規定するパラメータのうち、始端オフセット及び終端オフセットの２つを用いて、始端終端間距離を計算する。そして、Ｆ０形状データベース４０に蓄積されているＦ０形状素片の中から、算出された始端終端間距離がＦ０形状ターゲットにおける始端終端間距離に近い（例えば予め設定されたしきい値以下の）全てのＦ０形状素片を最適Ｆ０形状素片の候補として選択する。選択されたＦ０形状素片は、Ｆ０形状ターゲットの概形との距離に応じて順位付けされて、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３に保持される。
ここで、Ｆ０形状素片とＦ０形状ターゲットの概形との距離とは、当該Ｆ０形状ターゲットを規定するパラメータのうちの始端オフセット及び終端オフセットと、選択されたＦ０形状素片における当該パラメータに相当する値とが近似する度合いである。この２つのパラメータによって、Ｆ０形状素片とＦ０形状ターゲットの概形との形状の違いが表される。
【００３９】
次に、最適形状素片選択部２２は、予備選択によりターゲット概形との距離で順位付けされた最適Ｆ０形状素片の候補である各Ｆ０形状素片に対して、現想定アクセント句を構成する音韻クラスの距離を計算する。ここで、音韻クラスの距離とは、Ｆ０形状素片と現想定アクセント句との音韻（音素）の並びにおける近似の度合いである。この音韻の並びの評価には、モーラごとに定義された音韻クラスを用いる。この音韻クラスは、子音の有無や子音の調音様式の違いを考慮してモーラを分類したものである。
すなわち、ここでは、予備選択で選択された全てのＦ０形状素片に対して、現想定アクセント句におけるモーラ系列との音韻クラスの一致度を計算し、音韻クラスの距離を求め、各Ｆ０形状素片の音韻の並びを評価する。そして、得られた音韻クラスの距離が最も小さいＦ０形状素片を最適Ｆ０形状素片として選択する。この音韻クラス間距離を用いた照合は、Ｆ０形状が当該Ｆ０形状素片に対応する想定アクセント句の構成音韻により影響を受けやすいことを反映している。選択された最適Ｆ０形状素片は、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３に保持される。
【００４０】
形状素片接続部２３は、最適形状素片選択部２２により選択された最適Ｆ０形状素片を取得して順次接続していき、韻律制御部２０における処理単位である１文に対する最終的なイントネーション・パターンを得る。
最適Ｆ０形状素片の接続は、具体的には、次の２つの処理にて行われる。
まず、選択された最適Ｆ０形状素片を適切な周波数レベルに設定する。これは、選択された最適Ｆ０形状素片における周波数レベルの最大値を、概形予測部２１による処理で得られた対応する想定アクセント句の区分における最大Ｆ０値に合わせることである。この際、当該最適Ｆ０形状素片の形状自体には何の変形も加えない。
【００４１】
次に、形状素片接続部２３は、合成すべき音韻列の時間配置に合わせて、Ｆ０形状素片の時間軸をモーラごとに調整する。ここで、合成すべき音韻列の時間配置とは、対象テキストの音韻列に基づいて設定される個々の音韻の継続時間長である。この音韻列の時間配置は、図示しない既存技術である音韻時間長予測モジュールによって設定される。
この段階で初めて、Ｆ０の実パターン（実発声によるイントネーション・パターン）に変形が加えられることになる。しかしながら、本実施の形態では、最適形状素片選択部２２により音韻クラス間距離を用いて最適Ｆ０形状素片が選択されているため、当該Ｆ０パターンに対して過度の変形は発生しにくい。
以上のようにして、対象テキスト全体のイントネーション・パターンが生成され、音声生成部３０へ出力される。
【００４２】
上述したように、本実施の形態では、最適形状素片選択部２２により、Ｆ０形状データベース４０に蓄積されているＦ０形状素片全体の中から、韻律カテゴリによらずにパターン形状がＦ０形状ターゲットに最も近似するＦ０形状素片が選択され、想定アクセント句のイントネーション・パターンとして当てられる。すなわち、最適Ｆ０形状素片として選択されるＦ０形状素片は、アクセントの位置やポーズの有無などの言語情報とは切り離され、Ｆ０パターンの形状のみに基づいて選択されている。
このため、イントネーション・パターンの生成という観点から、言語情報の影響を受けずにＦ０形状データベース４０に蓄積されているＦ０形状素片を有効に活用することができる。
さらに、Ｆ０形状素片を選択するにあたって、韻律カテゴリを考慮していないため、オープンデータのテキストを音声合成するような場合に、所定の想定アクセント句に対して適合する韻律カテゴリが存在しないとしても、Ｆ０形状ターゲットに対応するＦ０形状素片を選択して当該想定アクセント句に当てることができる。この場合、当該想定アクセント句は既存の韻律カテゴリに該当しないため、そのＦ０形状ターゲットの予測自体における確度は低下すると考えられる。しかしながら、従来はこのような場合に韻律カテゴリの分類ができないためにデータベースに格納されているＦ０パターンを適切に適用できなかったのに対して、本実施の形態によれば、Ｆ０形状素片のパターン形状のみに基づいて検索を行うため、予測されたＦ０形状ターゲットの確度の範囲において、適切なＦ０形状素片を選択することができる。
【００４３】
また、本実施の形態では、Ｆ０形状データベース４０に蓄積されている実発声によるＦ０形状素片全体の中から、平均化やモデル化といった処理を行わずに、最適Ｆ０形状素片が選択されている。したがって、形状素片接続部２３における時間軸の調整によりＦ０形状素片に多少の変形が加えられるものの、実発声によるＦ０パターンのディテールをある程度忠実に合成音声に反映させることができる。
このため、実発声に近い自然性の高いイントネーション・パターンを生成することができる。特に、語尾の音程が上がったり伸びたりするというようなイントネーションの微妙な違いによって生ずる発話特徴（話者の癖）を柔軟かつ正確に再現することができる。
これにより、感情を込めた発話のＦ０形状素片を蓄積したＦ０形状データベース４０や、アニメーションなどの吹き替えで行われるような特定の役柄を特徴づける特殊な発話のＦ０形状素片を蓄積したＦ０形状データベース４０を用意しておき、適宜切り替えて用いることにより、発話特徴の異なる多様な音声を合成することが可能となる。
【００４４】
図４は、上述した韻律制御部２０による音声合成の動作の流れを説明するフローチャートである。また、図５乃至図７は、図４に示す動作の各段階で取得されるＦ０パターンの形状を示す図である。
図４に示すように、韻律制御部２０は、対象テキストに関して、テキスト解析部１０による解析結果を入力すると（ステップ４０１）、まず、概形予測部２１により、想定アクセント句ごとにＦ０形状ターゲットの予測が行われる。
すなわち、テキスト解析部１０による解析結果である言語情報に基づいて、想定アクセント句の区分内の最大Ｆ０値が予測され（ステップ４０２）、続いて当該言語情報及びステップ４０２で決定された最大Ｆ０値に基づいて、始端オフセット及び終端オフセットが予測される（ステップ４０３）。このＦ０形状ターゲットの予測は、対象テキストを構成する想定アクセント句に対して先頭から順次行われる。したがって、２番目以降の想定アクセント句に関しては、直前に既に予測処理の済んだ想定アクセント句が存在するため、上述したように、最大Ｆ０値、始端オフセット及び終端オフセットの予測に、この直前の想定アクセント句に対する予測結果も利用される。
図５は、このようにして得られたＦ０形状ターゲットにおけるパターン形状の例を示す。
【００４５】
次に、各想定アクセント句に関して、Ｆ０形状ターゲットに基づいて、最適形状素片選択部２２により予備選択が行われされる（ステップ４０４）。具体的には、まず、始端終端間距離がＦ０形状ターゲットに近いＦ０形状素片が、最適Ｆ０形状素片の候補としてＦ０形状データベース４０から検出される。そして、選択された全てのＦ０形状素片に対して、始端オフセット及び終端オフセットを要素とする２次元ベクターが形状ベクターとして定義される。次に、Ｆ０形状ターゲットと各Ｆ０形状素片とについて、形状ベクター間の距離が計算され、その距離の小さい順にＦ０形状素片がソートされる。
次に、予備選択によって抽出された最適Ｆ０形状素片の候補に対して、音韻の並びが評価され、Ｆ０形状ターゲットに対応する想定アクセント句における音韻の並びに対して音韻クラスの距離が最も小さいＦ０形状素片が、最適Ｆ０形状素片として選択される（ステップ４０５）。
図６は、このようにして選択された最適Ｆ０形状素片におけるパターン形状の例を示す。
【００４６】
この後、各想定アクセント句に対して選択された最適Ｆ０形状素片が、形状素片接続部２３により接続される。
すなわち、各最適Ｆ０形状素片の周波数レベルの最大値が、対応するＦ０形状ターゲットの最大Ｆ０値に合わせて設定され（ステップ４０６）、続いて、各最適Ｆ０形状素片の時間軸が、合成すべき音韻列の時間配置に合わせて調整される（ステップ４０７）。
図７は、図６に示した最適Ｆ０形状素片のＦ０パターンとその直前に位置する想定アクセント句のＦ０パターンとを接続する様子を示す。
【００４７】
次に、実際のテキストに対して本実施の形態を適用し、イントネーション・パターンを生成する具体例を説明する。
図８は、本実施の形態により生成されたイントネーション・パターンと実発声によるイントネーション・パターンとの比較例を示す図である。
図８では、「それは泥沼のような逆境から抜け出したいという、切ないほどの願望だろうか」というテキストに関するイントネーション・パターンの比較がなされている。
【００４８】
図示のように、このテキストは、「それわ」、「どろぬまの」、「よ＾ーな」、「ぎゃっきょー」、「から」、「ぬけだした＾いと」、「いう」、「せつな＾いほどの」、「がんぼー」、「だろ＾おか」という１０個の想定アクセント句に分解される。そして、各想定アクセント句を対象として、最適Ｆ０形状素片の検出が行われる。
【００４９】
図９は、本実施の形態を用いて、上記の想定アクセント句ごとに選択された最適Ｆ０形状素片を示す図である。各想定アクセント句の欄において、上段が入力された想定アクセント句の環境属性、下段が選択された最適Ｆ０形状素片の属性情報を表す。
図９を参照すると、「それわ」に対して「これが」、「どろぬまの」に対して「よろこびも」、「よ＾ーな」に対して「ま＾っき」、「ぎゃっきょー」に対して「しゅっきん」、「から」に対して「よび」、「ぬけだした＾いと」に対して「ねじまげた＾のだ」、「いう」に対して「いう」、「せつな＾いほどの」に対して「じゅっぷ＾んかんの」、「がんぼー」に対して「はんばい」、「だろ＾おか」に対して「みえ＾ると」というＦ０形状素片がそれぞれ選択されている。
【００５０】
これらのＦ０形状素片が接続されて得られたテキスト全体のイントネーション・パターンは、図８に示すように、実際の発声における同テキストのイントネーション・パターンに極めて近いものとなっている。
【００５１】
以上のように合成された音声合成システムは、合成音声を出力として用いる種々のシステムやそのようなシステムを用いたサービスに利用できる。例えば、電話網からのアクセスに対して電話対応型のサービスを提供するボイスサーバのＴＴＳ（Text-to-speech Synthesis）エンジンとして、本実施の形態の音声合成システムを用いることができる。
【００５２】
図１０は、本実施の形態の音声合成システムを実装したボイスサーバの構成例を示す図である。
図１０に示すボイスサーバ１０１０は、ウェブアプリケーションサーバ１０２０に接続されると共に、ＶｏＩＰ（Voice over IP）ゲートウェイ１０３０を介して公衆回線による電話網（ＰＳＴＮ：Public Switched Telephone Network）１０４０に接続し、電話対応型のサービスを提供する。
なお、図１０に示す構成では、ボイスサーバ１０１０、ウェブアプリケーションサーバ１０２０及びＶｏＩＰゲートウェイ１０３０をそれぞれ用意しているが、実際には、１台のハードウェア（コンピュータ装置）に各機能を設けて構成することも可能である。
【００５３】
ボイスサーバ１０１０は、電話網１０４０を介してなされたアクセスに対して音声対話によるサービス（コンテンツ）を提供するサーバであり、パーソナルコンピュータやワークステーション、その他のコンピュータ装置にて実現される。図１０に示すように、ボイスサーバ１０１０は、当該コンピュータ装置のハードウェア及びソフトウェアにて実現されるシステムマネージメントコンポーネント１０１１、テレフォニー・メディアコンポーネント１０１２、及びＶｏｉｃｅＸＭＬ（Voice Extensible Markup Language）ブラウザ１０１３を備える。
【００５４】
ウェブアプリケーションサーバ１０２０は、ＶｏｉｃｅＸＭＬで記述された電話対応型のアプリケーション群であるＶｏｉｃｅＸＭＬアプリケーション１０２１を格納している。
【００５５】
また、ＶｏＩＰゲートウェイ１０３０は、既存の電話網１０４０からのアクセスを受け付け、ボイスサーバ１０１０によるＩＰ（Internet Protocol）ネットワーク向け音声サービスが受けられるように、変換接続する処理を行う。この機能を実現するため、ＶｏＩＰゲートウェイ１０３０は、主としてＩＰネットワークとの間のインターフェースとしてのＶｏＩＰソフトウェア１０３１と、電話網１０４０との間のインターフェースとしてのテレフォニーインターフェイス１０３２とを備える。
【００５６】
この構成では、後述のようにＶｏｉｃｅＸＭＬブラウザ１０１３の機能として、図２に示した本実施の形態におけるテキスト解析部１０、韻律制御部２０及び音声生成部３０が実現される。そして、図１に示したスピーカ１１１から音声を出力する代わりに、ＶｏＩＰゲートウェイ１０３０を介して電話網１０４０へ音声信号を出力する。また、図１０には明示的に記載しないが、ボイスサーバ１０１０は、Ｆ０形状データベース４０に相当する実発声のイントネーションにおけるＦ０パターンを格納したデータ格納手段を備えており、ＶｏｉｃｅＸＭＬブラウザ１０１３による音声合成の際に参照される。
【００５７】
ボイスサーバ１０１０の構成において、システムマネージメントコンポーネント１０１１は、ＶｏｉｃｅＸＭＬブラウザ１０１３の起動、停止、監視を行う。
テレフォニー・メディアコンポーネント１０１２は、ＶｏＩＰゲートウェイ１０３０とＶｏｉｃｅＸＭＬブラウザ１０１３との間で電話呼の通話管理を行う。
ＶｏｉｃｅＸＭＬブラウザ１０１３は、電話網１０４０及びＶｏＩＰゲートウェイ１０３０を介して受け付けた電話機１０５０からの電話呼の生起により起動され、ウェブアプリケーションサーバ１０２０上のＶｏｉｃｅＸＭＬアプリケーション１０２１を実行する。
【００５８】
ここで、ＶｏｉｃｅＸＭＬブラウザ１０１３は、この対話処理を実行するため、ＴＴＳエンジン１０１４及びＲｅｃｏエンジン１０１５を有する。
ＴＴＳエンジン１０１４は、ＶｏｉｃｅＸＭＬアプリケーション１０２１により出力されるテキストに対してテキスト音声合成の処理を行う。このＴＴＳエンジン１０１４として、本実施の形態の音声合成システムが用いられる。
Ｒｅｃｏエンジン１０１５は、電話網１０４０及びＶｏＩＰゲートウェイ１０３０を介して入力した電話音声の認識を行う。
【００５９】
以上のように構成されたボイスサーバ１０１０を含む電話対応型のサービスを提供するシステムにおいて、電話機１０５０から電話呼が発信されて電話網１０４０及びＶｏＩＰゲートウェイ１０３０を介してボイスサーバ１０１０にアクセスがなされると、システムマネージメントコンポーネント１０１１及びテレフォニー・メディアコンポーネント１０１２の制御下で、ＶｏｉｃｅＸＭＬブラウザ１０１３は、ウェブアプリケーションサーバ１０２０上のＶｏｉｃｅＸＭＬアプリケーション１０２１を実行する。そして、ＶｏｉｃｅＸＭＬアプリケーション１０２１の指定するＶｏｉｃｅＸＭＬドキュメントの記述にしたがって、各呼での対話処理を実行する。
【００６０】
この対話処理において、ＶｏｉｃｅＸＭＬブラウザ１０１３に搭載されたＴＴＳエンジン１０１４は、図２に示した韻律制御部２０の概形予測部２１に相当する機能によりＦ０形状ターゲットを予測し、最適形状素片選択部２２に相当する機能によりＦ０形状データベース４０最適なＦ０形状素片を選択し、形状素片接続部２３に相当する機能によりＦ０形状素片ごとのイントネーション・パターンを接続して文単位のイントネーション・パターンを生成する。そして、生成されたイントネーション・パターンに基づいて音声を合成し、ＶｏＩＰゲートウェイ１０３０へ出力する。
【００６１】
次に、上述した音声合成の手法を用いて、録音音声と合成音声とを継ぎ目なく滑らかに接合する他の実施の形態について説明する。
図１１は、本実施の形態による音声合成システムの構成を示す図である。
図１１を参照すると、本実施の形態の音声合成システムは、音声合成の対象であるテキストを解析するテキスト解析部１０と、出力される音声の韻律的な特徴（音韻時間長及びＦ０パターン）を生成するための音韻時間長予測部５０及びＦ０パターン生成部６０と、出力される音声の音響的な特徴（合成単位素片）を生成するための合成単位選択部７０と、出力される音声の音声波形を生成する音声生成部３０とを備える。また、音韻時間長予測部５０、Ｆ０パターン生成部６０及び合成単位選択部７０の処理で使用されるボイスフォントを格納したボイスフォントデータベース８０及び録音音声を格納したドメイン音声データベース９０を備える。ここで、図１１における音韻時間長予測部５０及びＦ０パターン生成部６０が図２における韻律制御部２０に相当し、Ｆ０パターン生成部６０は、図２に示された韻律制御部２０の機能（概形予測部２１、最適形状素片選択部２２及び形状素片接続部２３に対応する機能）を有する。
なお、本実施の形態の音声合成システムは、図２に示した音声合成システムと同様に、図１に示したコンピュータ装置等で実現される。
【００６２】
上記構成において、テキスト解析部１０及び音声生成部３０は、図２に示した実施の形態における対応する構成要素と同様である。したがって、同一の符号を付して説明を省略する。
音韻時間長予測部５０、Ｆ０パターン生成部６０及び合成単位選択部７０は、図１に示したメインメモリ１０３に展開されたプログラムにてＣＰＵ１０１を制御することにより実現される仮想的なソフトウェアブロックである。ＣＰＵ１０１を制御してこれらの機能を実現させる当該プログラムは、磁気ディスクや光ディスク、半導体メモリ、その他の記録媒体に格納して配布したり、ネットワークを介して配信したりすることにより提供することができる。
【００６３】
また図１１の構成において、ボイスフォントデータベース８０は、例えば、図１に示したハードディスク１０６にて実現され、音声コーパスから抽出・作成した話者の発話特徴に関する情報（ボイスフォント）が格納されている。なお、図２に示したＦ０形状データベース４０は、このボイスフォントデータベース８０に含まれる。
ドメイン音声データベース９０は、例えば、図１に示したハードディスク１０６にて実現され、適用タスク用に収録された録音音声に関するデータが格納されている。このドメイン音声データベース９０は、いわば、録音音声の韻律、波形までを含むように拡張されたユーザ辞書であり、登録エントリーには、見出し、読み、アクセント、品詞といった情報の他、階層区分化された波形及び韻律情報といった情報が格納される。
【００６４】
本実施の形態において、テキスト解析部１０は、処理対象であるテキストを言語解析し、読みやアクセントなどの音素情報を音韻時間長予測部５０へ送り、Ｆ０素片区分（想定アクセント区分）をＦ０パターン生成部６０へ送り、当該テキストの音素列の情報を合成単位選択部７０へ送る。また、言語解析を行う際に、個々のフレーズ（想定アクセント区分に対応）についてドメイン音声データベース９０に登録されているものかどうかを調べる。そして、言語解析で登録エントリーがヒットした場合、当該フレーズに関する韻律的特徴（音韻時間長、Ｆ０パターン）及び音響的特徴（合成単位素片）がドメイン音声データベース９０にあることを、音韻時間長予測部５０、Ｆ０パターン生成部６０及び合成単位選択部７０に知らせる。
【００６５】
音韻時間長予測部５０は、テキスト解析部１０から受け取った音素情報に基づいて、合成すべき音韻列の時間長（時間配置）を生成し、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定領域に格納する。当該時間長は、Ｆ０パターン生成部６０、合成単位選択部７０及び音声生成部３０において読み出され、各処理に使用される。時間長の生成手法は公知の既存技術を用いることができる。
ここで、テキスト解析部１０から時間長を生成しようとするＦ０素片区分に対応するフレーズがドメイン音声データベース９０に格納されていることを通知された場合、当該フレーズに関する音韻列の時間長を生成する代わりに、ドメイン音声データベース９０にアクセスして該当するフレーズの時間長を取得し、Ｆ０パターン生成部６０、合成単位選択部７０及び音声生成部３０による使用に供するためにＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定領域に格納する。
【００６６】
Ｆ０パターン生成部６０は、図２に示した音声合成システムにおける韻律制御部２０における概形予測部２１、最適形状素片選択部２２及び形状素片接続部２３に対応する機能と同様の機能を有しており、テキスト解析部１０により解析された対象テキストをＦ０素片区分にしたがって読み込み、ボイスフォントデータベース８０におけるＦ０形状データベース４０に対応する部分に蓄積されているイントネーションのＦ０パターンを当てることで対象テキストのイントネーションを生成する。生成されたイントネーション・パターンは、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定の領域に保持される。
ここで、Ｆ０パターン生成部６０における概形予測部２１に対応する機能は、テキスト解析部１０からイントネーションを生成しようとする所定のＦ０素片区分に対応するフレーズがドメイン音声データベース９０に格納されていることを通知された場合、言語情報とポーズの有無に関する情報とからＦ０パターンの概形を予測する代わりに、ドメイン音声データベース９０にアクセスして該当するフレーズのＦ０値を取得し、Ｆ０パターンの概形とする。
【００６７】
図２の音声処理システムにおける韻律制御部２０の概形予測部２１は、図３を参照して説明したように、直前の想定アクセント句の区分に対する予測結果を処理中の想定アクセント句の区分（Ｆ０素片区分）に対するＦ０形状ターゲットの予測に反映させることとした。したがって、直前のＦ０素片区分におけるＦ０パターンの概形がドメイン音声データベース９０から取得されたＦ０値であった場合、処理中のＦ０素片区分に対するＦ０形状ターゲットには、当該直前のＦ０素片区分における録音音声のＦ０値が反映されることとなる。
これに加えて本実施の形態では、処理中のＦ０素片区分の直後にドメイン音声データベース９０から取得されたＦ０値が存在する場合は、さらに当該直後のＦ０素片区分すなわちＦ０値を処理中のＦ０素片区分に対するＦ０形状ターゲットの予測に反映させる。一方、ドメイン音声データベース９０から取得されたＦ０値に対しては、言語情報等の情報から予測されたＦ０パターンの概形の予測結果を反映させない。これにより、Ｆ０パターン生成部６０にて生成されるイントネーション・パターンには、ドメイン音声データベース９０に格納されている録音音声の発話上の特徴が、より一層反映されることとなる。
【００６８】
図１２は、録音音声による２つのフレーズの間に合成音声によるフレーズを挿入する場合のＦ０パターンの概形予測を説明する図である。
図１２に示すように、Ｆ０パターンの概形予測を行おうとする合成音声による想定アクセント句を挟んで前後に録音音声によるフレーズが存在する場合、合成音声による想定アクセント句の最大Ｆ０値、始端及び終端オフセットの予測に、前方の録音音声における最大Ｆ０値を加味すると共に、後方の録音音声におけるＦ０値をも加味する。
敢えて図示はしないが、反対に録音音声による所定のフレーズを挟んで合成音声による想定アクセント句のＦ０パターンの概形を予測する場合は、当該録音音声によるフレーズの最大Ｆ０値が前後の想定アクセント句におけるＦ０パターンの概形予測において加味されることとなる。
さらに、合成音声によるフレーズが連続する場合にも、先頭の想定アクセント句の直前に位置する録音音声のＦ０値の特徴が、各想定アクセント句に順次反映されていくこととなる。
【００６９】
なお、Ｆ０パターンの概形予測における予測モデルの学習は、想定アクセント句ごとに得られる最大Ｆ０値の実測値をカテゴライズしたものを用いて行う。すなわち、概形予測におけるＦ０形状ターゲットを予測する際の予測要因として、上述した言語情報に基づく韻律カテゴリに、この想定アクセント句ごとにおける最大Ｆ０値の実測値のカテゴリを加えて予測のための統計処理を実行する。
この後、Ｆ０パターン生成部６０は、図２に示した韻律制御部２０の最適形状素片選択部２２及び形状素片接続部２３に対応する機能により、最適Ｆ０形状素片を選択し、順次接続して、処理対象である文のＦ０パターン（イントネーション・パターン）を得る。
【００７０】
図１３は、Ｆ０パターン生成部６０によるＦ０パターンの生成処理の流れを説明するフローチャートである。
図１３に示すように、まずテキスト解析部１０において、処理対象であるＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されているかどうかを調べる（ステップ１３０１、１３０２）。
処理対象であるＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されていない場合（テキスト解析部１０からの通知を受けていない場合）、Ｆ０パターン生成部６０は、処理中のＦ０素片区分の直後のＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されているかどうかを調べる（ステップ１３０３）。そして、登録されていなければ、直前のＦ０素片区分に対するＦ０形状ターゲットの概形予測の結果（直前のＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されていた場合は当該フレーズのＦ０値）を反映させながら当該処理中のＦ０素片区分に対するＦ０形状ターゲットの概形を予測し（ステップ１３０５）、最適Ｆ０形状素片を選択し（ステップ１３０６）、選択された最適Ｆ０形状素片の周波数レベルを設定し（ステップ１３０７）、音韻時間長予測部５０にて得られた時間長の情報に基づき時間軸の調整を行って最適Ｆ０形状素片を接続する（ステップ１３０８）。
【００７１】
ステップ１３０３において、処理中のＦ０素片区分の直後のＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されている場合は、直前のＦ０素片区分に対するＦ０形状ターゲットの概形予測の結果に加えて、ドメイン音声データベース９０から取得した当該直後のＦ０素片区分に対応するフレーズのＦ０値を反映させて、当該処理中のＦ０素片区分に対するＦ０形状ターゲットの概形を予測する（ステップ１３０４、１３０５）。そして、通常通り、最適Ｆ０形状素片を選択し（ステップ１３０６）、選択された最適Ｆ０形状素片の周波数レベルを設定し（ステップ１３０７）、音韻時間長予測部５０にて得られた時間長の情報に基づき時間軸の調整を行って最適Ｆ０形状素片を接続する（ステップ１３０８）。
【００７２】
また、ステップ１３０２において、処理対象であるＦ０素片区分に対応するフレーズがドメイン音声データベース９０に登録されていた場合は、上述した処理により最適Ｆ０形状素片の選択を行う代わりに、ドメイン音声データベース９０に登録されている当該フレーズのＦ０値を取得する（ステップ１３０９）。そして、取得されたＦ０値を最適Ｆ０形状素片として用い、音韻時間長予測部５０において得られた時間長の情報に基づき時間軸の調整を行って接続する（ステップ１３０８）。
以上のようにして得られた文全体のイントネーション・パターンは、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定の領域に保持される。
【００７３】
合成単位選択部７０は、音韻時間長予測部５０にて得られた時間長の情報と、Ｆ０パターン生成部６０にて得られたイントネーション・パターンのＦ０値とを入力し、ボイスフォントデータベース８０にアクセスして、処理対象であるＦ０素片区分における各音の合成単位素片（波形素片）を選択し取得する。ここで、実際の発話において、所定のフレーズにおける境界部分の音声は、連結する他のフレーズの音声やポーズの有無の影響を受ける。したがって、合成単位選択部７０は、Ｆ０素片区分の音声どうしが滑らかにつながるように、所定のＦ０素片区分における境界部分の音の合成単位素片を、接続する他のＦ０素片区分における境界部分の音声やポーズの有無に応じて選択する。この影響はフレーズの終端部分の音声において、特に顕著に現れる。したがって、少なくともＦ０素片区分における終端部分の音の合成単位素片に関しては、直後のＦ０素片区間における始端の音の影響を考慮して選択されることが好ましい。選択された合成単位素片は、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定の領域に保持される。
【００７４】
また、合成単位選択部７０は、合成単位素片を生成しようとするＦ０素片区分に対応するフレーズがドメイン音声データベース９０に格納されていることを通知された場合、ボイスフォントデータベース８０から合成単位素片を選択する代わりに、ドメイン音声データベース９０にアクセスして該当するフレーズの波形素片を取得する。この場合も、当該Ｆ０素片区分の終端の音である場合には、当該Ｆ０素片区分の直後の状態に応じて調整することは同様である。すなわち、合成単位選択部７０の処理としては、選択候補としてドメイン音声データベース９０の波形素片を追加するに過ぎない。
【００７５】
図１４は、合成単位選択部７０による合成単位素片の生成処理の流れを説明するフローチャートである。
図１４に示すように、合成単位選択部７０は、まず処理対象であるテキストの音素列を合成単位に分割し（ステップ１４０１）、着目する合成単位がドメイン音声データベース９０に登録されているフレーズに対応するものかどうかを調べる（ステップ１４０２）。この判断は、テキスト解析部１０からの通知に基づいて行うことができる。
【００７６】
着目する合成単位に対応するフレーズがドメイン音声データベース９０に登録されていないと認識したならば、合成単位選択部７０は、次に、合成単位の予備選択を行う（ステップ１４０３）。ここでは、ボイスフォントデータベース８０を参照して、合成すべき最適な合成単位素片を選択する。選択条件としては、音素環境の適合性と韻律環境の適合性とが考慮される。音素環境とは、テキスト解析部１０の解析にて得られる音素環境と個々の合成単位の音素データにおける元環境の類似性である。また韻律環境の適合性とは、ターゲットとして与えられる各音素のＦ０値及び時間長と個々の合成単位の音素データにおけるＦ０値及び時間長の類似性である。
【００７７】
予備選択にて適切な合成単位が見つかったならば、その合成単位を最適な合成単位素片として選択する（ステップ１４０４、１４０５）。選択された合成単位素片は、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定の領域に保持される。
一方、適切な合成単位が見つからない場合は、選択条件を変更して適切な合成単位が見つかるまで予備選択を繰り返す（ステップ１４０４、１４０６）。
【００７８】
ステップ１４０２において、テキスト解析部１０からの通知により、着目する合成単位に対応するフレーズがドメイン音声データベース９０に登録されていると判断されたならば、次に、合成単位選択部７０は、着目する合成単位が当該フレーズの境界部分の単位かどうかを調べる（ステップ１４０７）。境界部分の単位である場合、合成単位選択部７０は、ドメイン音声データベース９０に登録されている当該フレーズの該当音声の波形素片を候補に加えて、合成単位の予備選択を実行する（ステップ１４０３）。以下の処理は合成音声に対する処理と同様である（ステップ１４０４〜１４０６）。
一方、着目する合成単位が、ドメイン音声データベース９０に登録されているフレーズに含まれるが、その境界部分の単位ではない場合、合成単位選択部７０は、当該フレーズにおける録音音声を忠実に再現するため、ドメイン音声データベース９０に格納されている該当音声の波形素片をそのまま合成単位素片として選択する（ステップ１４０７、１４０８）。選択された合成単位素片は、ＣＰＵ１０１のキャッシュメモリやメインメモリ１０３の所定の領域に保持される。
【００７９】
音声生成部３０は、以上のようにして音韻時間長予測部５０にて得られた時間長の情報、Ｆ０パターン生成部６０にて得られたイントネーション・パターンのＦ０値、及び合成単位選択部７０にて得られた合成単位素片を入力して、波形重畳法により音声合成を行う。合成された音声波形は、図１に示したスピーカ１１１を介して音声として出力される。
【００８０】
以上のように、本実施の形態によれば、合成音声のイントネーション・パターンを生成する際に、録音された実音声における発話上の特徴を十分に反映させることができるため、より録音音声に近い合成音声を生成することができる。
特に、本実施の形態では、録音音声をそのまま用いるのではなく、波形や韻律情報のデータとして扱い、テキスト解析において録音音声として登録されているフレーズが検出された際に、当該録音音声のデータを用いて音声を合成するため、録音音声以外の自由な合成音声を生成する場合と同じ処理で音声合成を行うことができ、システムの処理としては、録音音声か合成音声かを意識する必要がない。したがって、システムの開発コストを削減することができる。
また、本実施の形態では、録音音声と合成音声とを区別することなく、Ｆ０素片区分における終端オフセットの値を直後の状態に応じて調整するため、各Ｆ０素片区分に対応する音声どうしが滑らかにつながった、違和感のない、より自然性の高い音声合成を行うことができる。
【００８１】
【発明の効果】
以上説明したように、本発明によれば、音声合成のイントネーション・パターンの生成において、自然性が高く、かつ話者の発話特徴を柔軟かつ正確に再現できる音声合成システムを実現することができる。
また、本発明によれば、音声合成において、実発声のイントネーションにおけるＦ０パターンのデータベース（コーパスベース）に対し、韻律カテゴリによらずにＦ０パターンの絞り込みを行うことにより、データベースに蓄積された実発声のＦ０パターンを有効に活用することができる。
さらにまた、本発明によれば、録音音声及び合成音声のイントネーションを適切に混合し、滑らかに接合した音声合成を行うことができる。
【図面の簡単な説明】
【図１】本実施の形態の音声合成技術を実現するのに好適なコンピュータ装置のハードウェア構成の例を模式的に示した図である。
【図２】図１に示したコンピュータ装置にて実現される本実施の形態による音声合成システムの構成を示す図である。
【図３】本実施の形態においてＦ０形状ターゲットを予測する際に発話上の制約を予測モデルに組み込む方式を説明する図である。
【図４】本実施の形態の韻律制御部による音声合成の動作の流れを説明するフローチャートである。
【図５】本実施の形態の概形予測部により予測されたＦ０形状ターゲットにおけるパターン形状の例を示す図である。
【図６】本実施の形態の最適形状素片選択部により選択された最適Ｆ０形状素片におけるパターン形状の例を示す図である。
【図７】図６に示した最適Ｆ０形状素片のＦ０パターンとその直前に位置する想定アクセント句のＦ０パターンとを接続する様子を示す図である。
【図８】本実施の形態により生成されたイントネーション・パターンと実発声によるイントネーション・パターンとの比較例を示す図である。
【図９】本実施の形態を用いて図８の対象テキストにおける想定アクセント句ごとに選択された最適Ｆ０形状素片を示す図である。
【図１０】本実施の形態の音声合成システムを実装したボイスサーバの構成例を示す図である。
【図１１】本発明の他の実施の形態による音声合成システムの構成を示す図である。
【図１２】本実施の形態において録音音声による２つのフレーズの間に合成音声によるフレーズを挿入する場合のＦ０パターンの概形予測を説明する図である。
【図１３】本実施の形態のＦ０パターン生成部によるＦ０パターンの生成処理の流れを説明するフローチャートである。
【図１４】本実施の形態の合成単位選択部による合成単位素片の生成処理の流れを説明するフローチャートである。
【符号の説明】
１０…テキスト解析部、２０…韻律制御部、２１…概形予測部、２２…最適形状素片選択部、２３…形状素片接続部、３０…音声生成部、４０…Ｆ０形状データベース、５０…音韻時間長予測部、６０…Ｆ０パターン生成部、７０…合成単位選択部、８０…ボイスフォントデータベース、９０…ドメイン音声データベース、１０１…ＣＰＵ、１０２…Ｍ／Ｂチップセット、１０３…メインメモリ、１０５…サウンドカード、１１１…スピーカ、１０１０…ボイスサーバ、１０１１…システムマネージメントコンポーネント、１０１２…テレフォニー・メディアコンポーネント、１０１３…ＶｏｉｃｅＸＭＬブラウザ、１０１４…ＴＴＳエンジン、１０１５…Ｒｅｃｏエンジン、１０２０…ウェブアプリケーションサーバ、１０２１…ＶｏｉｃｅＸＭＬアプリケーション、１０３０…ＶｏＩＰゲートウェイ、１０３１…ＶｏＩＰソフトウェア、１０３２…テレフォニーインターフェイス

Claims

コンピュータによる音声合成におけるイントネーションの生成を行うイントネーション生成方法において、
音声合成の対象であるテキストの言語情報に基づき当該テキストにおけるイントネーションの概形を予測して予測結果をメモリに格納し、
予測された前記イントネーションの概形を前記メモリから読み出し、言語情報を用いずに当該イントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択して前記テキストのイントネーション・パターンとすることを特徴とするイントネーション生成方法。
前記テキストの言語情報により分類される韻律カテゴリに基づいて、前記イントネーションの概形を予測することを特徴とする請求項１に記載のイントネーション生成方法。
コンピュータによる音声合成におけるイントネーションの生成を行うイントネーション生成方法において、
音声合成の対象であるテキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、予測結果をメモリに格納するステップと、
前記メモリから予測された前記想定アクセント句ごとにイントネーションの概形を読み出し、言語情報を用いずに当該イントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、選択結果をメモリに格納するステップと、
前記メモリから選択された前記想定アクセント句ごとのイントネーション・パターンを読み出し、接続するステップと、
を含むことを特徴とするイントネーション生成方法。
テキスト音声合成を行う音声合成装置において、
処理対象であるテキストを解析して言語情報を取得するテキスト解析部と、
実発声のイントネーション・パターンを蓄積したデータベースと、
前記テキストを音声出力するための韻律を生成する韻律制御部と、
前記韻律制御部にて生成された韻律に基づいて音声を生成する音声生成部とを備え、
前記韻律制御部は、
前記テキスト解析部にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測部と、
言語情報を用いずに、前記概形予測部にて予測された前記イントネーションのＦ０パターンの形状のみに基づいて、前記データベースからイントネーション・パターンを選択する形状素片選択部と、
前記形状素片選択部にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続部と
を備えることを特徴とする音声合成装置。
前記形状素片選択部が、さらに、前記データベースに蓄積された実発声のイントネーション・パターンのうちで、前記概形予測部により予測された前記イントネーションの概形に形状が近似するイントネーション・パターンを選択することを特徴とする請求項４に記載の音声合成装置。
電話網を介してなされたアクセス要求に応じて、音声対話型のコンテンツを提供するボイスサーバにおいて、
前記電話網へ出力する音声を合成するための音声合成エンジンと、
前記電話網を介して入力した音声を認識するための音声認識エンジンとを備え、
前記音声合成エンジンは、
アプリケーションの実行により得られるテキストの言語情報に基づいて、当該テキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、
言語情報を用いずに、予測された前記想定アクセント句ごとのイントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、
選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキストに対するイントネーション・パターンを生成し、当該イントネーション・パターンに基づいて音声を合成して前記電話網へ出力することを特徴とするボイスサーバ。
コンピュータを制御して、音声合成におけるイントネーション生成を行うプログラムであって、
音声合成の対象であるテキストの言語情報を入力し、当該言語情報に基づいて、当該テキストを構成する想定アクセント句ごとにイントネーションの概形を予測し、予測結果をメモリに格納する処理と、
前記メモリから予測された前記想定アクセント句ごとのイントネーションを読み出し、言語情報を用いずに当該イントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択し、選択結果をメモリに格納する処理と、
前記メモリから選択された前記想定アクセント句ごとのイントネーション・パターンを読み出して接続し、前記テキストに対するイントネーション・パターンとして出力する処理と
を前記コンピュータに実行させることを特徴とするプログラム。
前記プログラムによる前記イントネーション・パターンを選択する処理が、さらに、前記データベースに蓄積された実発声のイントネーション・パターンのうちで、予測された前記イントネーションの概形に形状が近似するイントネーション・パターンを選択することを特徴とする請求項７に記載のプログラム。
コンピュータを制御して、テキスト音声合成を行うプログラムであって、
処理対象であるテキストを解析して言語情報を取得するテキスト解析手段と、
前記テキスト解析手段にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測手段と、
言語情報を用いずに、概形予測手段にて予測された前記イントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択する形状素片選択手段と、
前記形状素片選択手段にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続手段と、
前記形状素片接続手段にて生成されたイントネーション・パターンに基づいて音声を生成する音声生成手段として、前記コンピュータを機能させることを特徴とするプログラム。
コンピュータを制御してテキスト音声合成を行うプログラムを、当該コンピュータが読み取り可能に記録した記録媒体であって、
前記プログラムは、
処理対象であるテキストを解析して言語情報を取得するテキスト解析手段と、
前記テキスト解析手段にて取得された言語情報に基づいて前記テキストを構成する想定アクセント句ごとにイントネーションの概形を予測する概形予測手段と、
言語情報を用いずに、概形予測手段にて予測された前記イントネーションのＦ０パターンの形状のみに基づいて、実発声のイントネーション・パターンを蓄積したデータベースからイントネーション・パターンを選択する形状素片選択手段と、
前記形状素片選択手段にて選択された前記想定アクセント句ごとのイントネーション・パターンを接続して前記テキスト全体のイントネーション・パターンを生成する形状素片接続手段と、
前記形状素片接続手段にて生成されたイントネーション・パターンに基づいて音声を生成する音声生成手段として、前記コンピュータを機能させることを特徴とする記録媒体。