JP5029884B2

JP5029884B2 - 韻律生成装置、韻律生成方法、および、韻律生成プログラム

Info

Publication number: JP5029884B2
Application number: JP2007135847A
Authority: JP
Inventors: 伸之片江; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-05-22
Filing date: 2007-05-22
Publication date: 2012-09-19
Anticipated expiration: 2027-05-22
Also published as: JP2008292587A

Description

本発明は、任意のテキストと、このテキストの内容を読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、および、韻律生成プログラムに関する。

近年、テキストを音声に変換して出力する音声合成技術が各種のシステムあるいは装置に用いられている。例えば、ＩＶＲ（自動音声応答：Interactive Voice Response）システム、車載情報端末、携帯電話での操作方法ガイダンスやメールの読み上げ、視覚障害者・発話障害者の支援システムなどである。このような音声合成技術においては、現状、人間の発声並みに自然で、表現力豊かな合成音声を生成することは困難である。

すなわち、合成音声の韻律は、一般に、テキストにおける単語の読みや品詞を解析する形態素解析、文節や係り受けの解析といった言語解析に基づき、アクセントの設定、イントネーションの設定、ポーズや話速の設定などを経て決定される。しかしながら、現状の処理技術では、文章の意味や前後の文脈を考慮した解析を、人間のように正確に行うことは困難で、解析結果に誤りが含まれることがある。このため、音声合成技術により生成された合成音声は、人間の発声と比較して、声の高さ、イントネーション、リズムなどの喋り方を決める韻律が不自然な箇所が含まれることがある。

そこで、合成音声の韻律の品質を高める方法として、予め合成音声するテキストが決まっている場合に、人間の発声から音声韻律パターンを抽出し、抽出した音声韻律パターンをそのまま用いて合成音声を生成する方法が知られている（例えば、特許文献１〜４参照）。この方法では、人間の発声とその音声韻律パターンの抽出作業が予め必要となるが、人間の発声から抽出された音声韻律パターンを用いて合成音声を生成するので、人間の発声並みに自然で、表現力豊かな合成音声を生成することができる。
特開平１０−１５３９９８号公報特開平９−２９２８９７号公報特開平１１−１４３４８３号公報特開平７−１４０９９６号公報

しかしながら、上記従来の方法では、人間の発声から抽出された音声韻律パターンの抽出精度が低い場合、すなわち、音声韻律パターンの抽出誤りが生じている場合、韻律が不自然な合成音声になるという問題を生じる。

具体的には、人間の発声から音声韻律パターンを抽出するためには、人間の発声中の各音素における開始点と終了点を検出する音素ラベリング技術、人間の発声中の各時刻におけるピッチを検出するピッチ抽出技術などが必要である。これらの技術には様々な優れた方式が開発されているが、人間の発声は非常に多様で不規則であることから、１００％の精度で音声韻律パターンを抽出することは不可能である。このため、ユーザが、ＧＵＩ装置などを用いて、音声韻律パターンの抽出誤りを修正する必要がある。この作業は、音声に関する専門的な知識を必要とし、かつ、手間と時間がかかる。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能な韻律生成装置、韻律生成方法、および、韻律生成プログラムを提供することにある。

上記目的を達成するために本発明における韻律生成装置は、任意のテキストが入力されるテキスト入力部と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする。なお、前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、例えば、声の高さの変化パターンを表すピッチパターンである。

本発明の韻律生成装置によれば、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、音声韻律抽出部による抽出の信頼性が高いパターン、および、規則韻律パターンに基づいて生成されたパターンである。すなわち、修正韻律生成部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が低いパターンを用いることなく、音声韻律抽出部による抽出の信頼性が高いパターン、および、適切な規則韻律パターンに基づいて生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。

上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む態様とするのが好ましい。

上記構成によれば、韻律補完部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、変形した規則韻律パターンと、音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。

上記本発明における韻律生成装置においては、前記修正韻律生成部は、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む態様とするのが好ましい。

上記構成によれば、韻律修正部により生成された修正韻律パターンは、音声韻律抽出部による抽出の信頼性が高いパターンに近似するように適切な規則韻律パターンを変形し、音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能となる。

上記目的を達成するために本発明における韻律編集システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるＧＵＩ装置とを備えたことを特徴とする。

本発明の韻律編集システムによれば、ＧＵＩ装置は、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるので、韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つに対して、ユーザは、木目細かい調整を行うことが可能となる。

上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。

本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。

上記目的を達成するために本発明における音声合成システムは、上記韻律生成装置と、前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるＧＵＩ装置と、前記韻律生成装置により生成された修正韻律パターン、および、前記ＧＵＩ装置により編集された修正韻律パターンの少なくとも１つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする。

本発明の音声合成システムによれば、音声合成装置は、韻律生成装置により生成された修正韻律パターンおよびＧＵＩ装置により編集された修正韻律パターンの少なくとも１つに基づいて合成音声を生成し出力するので、出力された合成音声は、人間の発声が有する自然性・表現力を備えた合成音声となる。

上記目的を達成するために本発明における韻律生成方法は、コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする。

上記目的を達成するために本発明における韻律生成プログラムは、任意のテキストが入力されるテキスト入力処理と、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、前記表音文字列データ、および、統計的な韻律に関するデータに基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする。

なお、本発明における韻律生成方法および韻律生成プログラムは、上記の韻律生成装置と同様の効果を得る。

以上のように、本発明の韻律生成装置、韻律生成方法、および、韻律生成プログラムは、人間の発声から抽出された音声韻律パターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正韻律パターンを生成することが可能であるという効果を奏する。

以下、本発明のより具体的な実施形態について図面を参照しながら詳細に説明する。

[実施の形態１]
図１は、本実施形態に係る音声合成システム１の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１は、韻律生成装置２、および、音声合成装置３を備えている。韻律生成装置２と音声合成装置３とは有線または無線により互いに接続されている。韻律生成装置２は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、修正韻律パターンを生成する装置である。音声合成装置３は、韻律生成装置２により生成された修正韻律パターンを受け付け、受け付けた修正韻律パターンに基づいて、合成音声を生成し出力する装置である。韻律生成装置２および音声合成装置３は、例えば、パーソナルコンピュータ、サーバマシンなどの汎用コンピュータによって構成される。なお、韻律生成装置２および音声合成装置３は、例えば、車載情報端末、携帯電話、家電製品などの電子機器に組み込まれたコンピュータによって構成されていてもよい。また、韻律生成装置２および音声合成装置３は、同一のハードウェア内にそれぞれ存在していてもよいし、異なるハードウェア内にそれぞれ存在していてもよい。

（韻律生成装置の構成）
韻律生成装置２は、テキスト入力部２１、単語辞書２２、言語処理部２３、規則韻律生成部２４、音声入力部２５、音声韻律抽出部２６、および、修正韻律生成部２７を備えている。

テキスト入力部２１は、任意のテキストが入力される。本実施形態においては、テキスト入力部２１は、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストが入力されたものとする。テキスト入力部２１は、例えば、キーボード、マウスなどの入力デバイスを介してユーザからテキストの入力を受け付けてもよいし、コンピュータが備えるメモリなどに記録されたデータを読み取ることによってテキストを受け付けてもよい。テキスト入力部２１は、入力されたテキストを言語処理部２３に出力する。

単語辞書２２は、複数の単語の表記、読み、品詞、アクセント情報を格納する。アクセント情報は、例えば、アクセント型を示すデータである。例えば、韻律生成装置２が単語データを記録した記録媒体を読み取ることによって、単語辞書２２には、上記の単語の表記、読み、品詞、アクセント情報が格納される。

言語処理部２３は、単語辞書２２を用いて、テキスト入力部２１から出力されたテキストに対して形態素解析を行う。テキストは、言語処理部２３において単語辞書２２を用いて形態素解析を行うことにより、複数の単語に分割される。図２は、本実施形態に係る言語処理部２３がテキストに対して形態素解析を行った結果を示す概念図である。図２に示すように、言語処理部２３は、分割された各単語について、単語辞書２２を用いることにより、品詞、および、読みを生成する。品詞は、普通名詞、動詞連用形、形容詞、形容動詞、格助詞、接続助詞などを含む。ここで、普通名詞、動詞連用形、形容詞、形容動詞などは、自立語に分類される。格助詞、接続助詞などは、付属語に分類される。読みは、単語の読みを示す。なお、読みは、アクセント核を含んでいる。ここで、アクセント核は、アクセントが「高」から「低」へ移行する位置である。本実施形態においては、アクセント核を「’」の記号で表し、例えば、「オ’ンセー」のように表記する。なお、形態素解析の方法として、例えば、ビタビ（Viterbi）アルゴリズムや最長一致法などが挙げられるが、本実施形態で用いられる形態素解析の方法は、特定のものに限定されない。

また、言語処理部２３は、テキスト入力部２１から出力されたテキストに対して行った形態素解析の結果に基づいて、複数の文節とその読みを生成する。図３は、本実施形態に係る言語処理部２３により生成された複数の文節とその読みを示す概念図である。図３に示すように、言語処理部２３は、「音声ガイダンスに」、「従って」、「プッシュボタンを」、「押してください。」の４つの文節を生成する。文節は、自立語の後に付属語が接続されたものである。例えば、「音声ガイダンスに」という文節は、普通名詞である「音声」および「ガイダンス」の複合名詞である「音声ガイダンス」が１個の自立語として扱われ、その後に、格助詞（付属語）である「に」が接続されている。また、言語処理部２３は、任意のアクセント結合規則に従い、生成された文節に対して、適宜アクセント核を新たに設定することにより、読みを生成する。例えば、「音声」、「ガイダンス」、「に」のそれぞれの単語の読み「オ’ンセー」、「ガ’イダンス」、「ニ」がアクセント結合され、「オンセーガ’イダンスニ」という文節の読みが生成される。

さらに、言語処理部２３は、任意の規則に従って、生成された複数の文節間の係り受け（修飾）関係の解析を行う。本実施形態においては、言語処理部２３は、「音声ガイダンスに→従って」、「従って→押してください。」、「プッシュボタンを→押してください。」という係り受け関係を特定する。

言語処理部２３は、上記の形態素解析、係り受け解析などの言語解析の結果に基づいて、表音文字列データを生成する。表音文字列データは、テキストの読みを示すデータである。本実施形態においては、言語処理部２３は、「オンセーガ’イダンスニ＿シタガッテ，プッシュボ’タンオ＿オシテクダサ’イ．」を示す表音文字列データを生成する。ここで、「＿」は、アクセント句の境界を表す記号である。アクセント句は、アクセントを構成する単位であって、上記の文節に概ね対応する。「，」は、アクセント句の境界を表す記号であり、かつ、フレーズの境界を表す記号である。フレーズは、文あるいは節を統語論的に分析した際の単位であって、複数の単語からなる。すなわち、本実施形態においては、「オンセーガ’イダンスニ＿シタガッテ」、「プッシュボ’タンオ＿オシテクダサ’イ．」がそれぞれ１フレーズとなる。「’」は、アクセント核を表す記号である。なお、上記の表音文字列データのフォーマットは、単なる一例であり、表音文字列データの表し方は、これに限定されない。言語処理部２３は、生成した表音文字列データを規則韻律生成部２４および音声韻律抽出部２６に出力する。

規則韻律生成部２４は、言語処理部２３から出力された表音文字列データを音素記号列に変換する。本実施形態においては、規則韻律生成部２４は、表音文字列データ「オンセーガ’イダンスニ＿シタガッテ，プッシュボ’タンオ＿オシテクダサ’イ．」を、音素記号列「ｏＮｓｅ−ｇａｉｄａＮｓｕｎｉｓｈｉｔａｇａｑｔｅＱｐｕｑｓｈｂｏｔａＮｏｏｓｈｉｔｅｋｕｄａｓａｉＱ」に変換する。ここで、「Ｑ」は、ポーズを表す記号である。「Ｎ」は、「ン」を表す記号であって、「ニ」を表す記号である「ｎｉ」と区別するために、大文字にて表記している。規則韻律生成部２４は、変換した音素記号列に基づいて、規則韻律パターンを生成する。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。このため、規則韻律生成部２４は、音素時間長生成部２４ａ、ピッチパターン生成部２４ｂ、および、パワー生成部２４ｃを有している。

音素時間長生成部２４ａは、人間の発声における統計的な音素時間長を示すデータを記録した音素時間長テーブルを有している。音素時間長生成部２４ａは、音素記号列の各音素に基づいて、音素時間長テーブルからデータを抽出し、抽出したデータを結合することにより、音素時間長パターンを生成する。なお、音素時間長テーブルには、例えば、音素「ａ」の音素時間長を示すデータ、音素「ｉ」の音素時間長を示すデータ、音素「ｕ」の音素時間長を示すデータ、・・・が順に記録されている。

ピッチパターン生成部２４ｂは、フレーズから生成されたフレーズ成分に、アクセント句から生成されたアクセント句成分を重畳することにより、規則ピッチパターンを生成する。図４は、フレーズ成分にアクセント句成分が重畳された状態を示す概念図である。図４に示すように、フレーズ成分Ｆ₁には、アクセント句成分Ａ₁およびＡ₂が重畳され、フレーズ成分Ｆ₂には、アクセント句成分Ａ₃およびＡ₄が重畳される。ここで、フレーズ成分Ｆ₁およびＦ₂は、右下がりの三角形のモデルとして表される。すなわち、一般に、人間の発声は、その出始めでは声は高いが、次第に声門下圧の低下などによって声の高さが低下する。つまり、フレーズ成分Ｆ₁およびＦ₂は、ピッチが時刻と共に低下する特性を表す声立て成分である。なお、右下がりの三角形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部２４ｂの図示しないメモリに予め記録されている。

また、アクセント句成分Ａ₁〜Ａ₄は、台形のモデルとして表される。ここで、例えば、アクセント句成分Ａ₁の場合について考える。アクセント句成分Ａ₁に対応する音素記号列「ｏＮｓｅ−ｇａｉｄａＮｓｕｎｉ」は、表音文字列データ「オンセーガ’イダンスニ」に対応する。すなわち、一般に、人間の発声は、アクセント核が位置する前の部分「オンセーガ」の声が高くなり、アクセント核が位置する後の部分「イダンスニ」の声が低くなる。つまり、アクセント句成分Ａ₁は、音素記号列「ｏＮｓｅ−ｇａ」が高い特性を表す成分である。これと同様に、アクセント句成分Ａ₂は、音素記号列「ｓｈｉｔａｇａｑｔｅ」が高い特性を表す成分である。アクセント句成分Ａ₃は、音素記号列「ｐｕｑｓｈｂｏ」が高い特性を表す成分である。アクセント句成分Ａ₄は、音素記号列「ｏｓｈｉｔｅｋｕｄａｓａ」が高い特性を表す成分である。なお、台形のモデルが、統計的な規則ピッチパターンに関するデータであって、ピッチパターン生成部２４ｂの図示しないメモリに予め記録されている。

ピッチパターン生成部２４ｂは、フレーズ成分にアクセント句成分が重畳された場合における外形のパターンを規則ピッチパターンとする。図５は、本実施形態に係るピッチパターン生成部２４ｂにより生成された規則ピッチパターンの一例を示す概念図である。図５に示すように、規則ピッチパターンは、フレーズ成分Ｆ₁に、アクセント句成分Ａ₁およびＡ₂が重畳され、かつ、フレーズ成分Ｆ₂に、アクセント句成分Ａ₃およびＡ₄が重畳された場合における外形のパターンである。

パワー生成部２４ｃは、各音素に固有のパワー値を記録したパワー値テーブルを有している。なお、パワー値は、統計的なパワーに関するデータであって、声の大きさを表す値である。パワー生成部２４ｃは、音素記号列の各音素に基づいて、パワー値テーブルからパワー値を抽出する。ここで、一般に、同じ音素であっても、規則ピッチパターンが高いほどパワー値は大きく、規則ピッチパターンが低いほどパワー値は小さくなる。パワー生成部２４ｃは、パワー値テーブルから抽出したパワー値を、規則ピッチパターンの高低に応じて補正することにより、パワーパターンを生成する。

すなわち、上記の方法によって生成された音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンは、統計的には妥当な韻律パターンとなるが、平均的な韻律パターンであるため、表現力にやや乏しい韻律パターンとなる。韻律生成部２４は、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む規則韻律パターンを修正韻律生成部２７に出力する。なお、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成方法は、上記の方法に限定されない。また、上記では、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成に統計的なデータを使用する例を示したが、ヒューリスティックに生成された韻律生成規則に基づいて、音素時間長パターン、規則ピッチパターン、および、パワーパターンの生成を行うことも可能である。

音声入力部２５は、テキスト入力部２１が受け付けたテキストを読み上げた人間の音声を受け付ける機能を有している。このため、音声入力部２５は、例えば、マイクロフォンから構成される。本実施形態においては、音声入力部２５は、「音声ガイダンスに従ってプッシュボタンを押してください。」を読み上げた人間の音声を受け付ける。音声入力部２５は、受け付けた人間の音声を計算機で処理可能なデジタルの音声データに変換する。音声入力部２５は、変換した音声データを音声韻律抽出部２６に出力する。なお、音声入力部２５は、予め録音装置に録音された人間の発声を再生することによって得られるアナログ音声の他、ＣＤ（Compact Disc）あるいはＭＤ（Mini Disc）などの記録媒体に記録されたデジタルの音声データや、有線あるいは無線の通信網で送信されるデジタルの音声データなどを直接受け付けてもよい。また、音声入力部２５は、受け付けた音声データが圧縮されている場合、圧縮されている音声データを伸長する機能を有していてもよい。

音声韻律抽出部２６は、規則韻律生成部２４と同様、言語処理部２３から出力された表音文字列データを音素記号列に変換する。本実施形態においては、音声韻律抽出部２６は、表音文字列データ「オンセーガ’イダンスニ＿シタガッテ，プッシュボ’タンオ＿オシテクダサ’イ．」を、音素記号列「ｏＮｓｅ−ｇａｉｄａＮｓｕｎｉｓｈｉｔａｇａｑｔｅＱｐｕｑｓｈｂｏｔａＮｏｏｓｈｉｔｅｋｕｄａｓａｉＱ」に変換する。音声韻律抽出部２６は、変換した音素記号列に基づいて、音声入力部２５から出力された音声データから音声韻律パターンを抽出する。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。このため、音声韻律抽出部２６は、音素時間長抽出部２６ａ、ピッチパターン抽出部２６ｂ、信頼度判定部２６ｃ、および、パワー抽出部２６ｄを有している。

音素時間長抽出部２６ａは、どの音素がどういう特徴量になりやすいかという情報を統計的にモデル化したデータを記録した音素モデルを有している。音素時間長抽出部２６ａは、音素記号列の各音素に基づいて、音素モデルからモデル化したデータを抽出する。音素時間長抽出部２６ａは、抽出したデータと音声データとを照合することにより、抽出したデータと最も類似する音声データの区間を特定する。音素時間長抽出部２６ａは、特定した区間に音素境界を設定することにより、音声データから音素時間長パターンを抽出する。このような抽出方法は、一般に、音素ラベリングと呼ばれている。なお、音素モデルは、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficients）などのパラメータを用いて表される。また、音声入力部２５から出力された音声データもＭＦＣＣなどのパラメータに変換した後に、ＨＭＭ（Hidden Markov Model）、ＤＰ（Dynamic Programming）などの照合方法によって照合することが一般的である。

ピッチパターン抽出部２６ｂは、相関処理法を用いることにより、音声データから音声ピッチパターンを抽出する。ここで、相関処理法は、相関処理が波形の位相歪みに強いことを利用した方法である。本実施形態においては、相関処理法の一例として、自己相関関数（ＡＣＦ：autocorrelation function）を用いた場合について説明するが、これに限定されない。例えば、自己相関関数に代えて、変形相関、ＳＩＦＴアルゴリズム、平均振幅差関数（ＡＭＤＦ）などの他の相関処理法を用いてもよい。また、相関処理法に代えて、波形処理法、スペクトル処理法などの他の方法を用いてもよい。

ここで、自己相関関数は、音声データ自体にどの程度の類似性があるのかを表す関数である。自己相関関数は、下記の（数１）にて定義される。なお、下記の（数１）において、φ（ｍ）は相関値を表す。ｘ（ｎ）は音声データの時系列を表す。Ｎは切り出して分析に用いる音声データの標本数を表す。ｍは０、１、２、・・・、Ｎ−１である。

つまり、ピッチパターン抽出部２６ｂは、音声データの時系列ｘ（ｎ）を上記の（数１）に適用することにより、相関値φ（ｍ）を算出する。ピッチパターン抽出部２６ｂは、算出した相関値φ（ｍ）から極大値（ピーク値）を抽出し、極大値の周期の逆数を算出することにより、音声データから音声ピッチパターンを抽出する。このとき、信頼度判定部２６ｃは、ピッチパターン抽出部２６ｂが音声データから音声ピッチパターンを抽出する際における、抽出の信頼度を取得する。本実施形態においては、信頼度判定部２６ｃは、ピッチパターン抽出部２６ｂが算出した相関値φ（ｍ）をそのまま信頼度として利用する。また、信頼度判定部２６ｃは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部２６ｃは、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部２６ｂによる抽出の信頼性が低いパターンと判定する。

以下では、ピッチパターン抽出部２６ｂによる音声ピッチパターンの抽出処理、および、信頼度判定部２６ｃによる信頼性の判定処理について、図６および図７を参照しながら具体的に説明する。図６は、任意の母音の音声データの時系列ｘ（ｎ）を示す概念図である。図６に示す音声データの時系列ｘ（ｎ）を上記の（数１）に適用すると、相関値φ（ｍ）が求まる。図７は、図６に示す音声データの時系列ｘ（ｎ）を上記の（数１）に適用した場合における相関値φ（ｍ）を示す概念図である。図７に示すように、相関値φ（ｍ）は、Ａ、Ｂ、Ｃの時点で極大値となるが、ピッチパターン抽出部２６ｂは、最も値が大きいＣの時点における極大値Ｍを選択する。ピッチパターン抽出部２６ｂは、Ｃの時点における極大値Ｍの周期Ｔの逆数を算出することにより、音声データから音声ピッチパターンを抽出する。

ここで、信頼度判定部２６ｃは、Ｃの時点における極大値Ｍが閾値Ｓ以上であるか否かを判定する。つまり、信頼度判定部２６ｃは、極大値Ｍが閾値Ｓ以上であれば、ピッチパターン抽出部２６ｂによる抽出の信頼性は高いと判定する。一方、信頼度判定部２６ｃは、極大値Ｍが閾値Ｓ未満であれば、ピッチパターン抽出部２６ｂによる抽出の信頼性は低いと判定する。図６に示す例では、Ｃの時点における極大値Ｍは閾値Ｓ以上であるので、信頼度判定部２６ｃは、ピッチパターン抽出部２６ｂによる抽出の信頼性は高いと判定する。すなわち、一般に、母音ａ，ｉ，ｕ，ｅ，ｏ、撥音Ｎ、半母音ｙ，ｗ、鼻音ｎ，ｍなどの音声データの時系列は、はっきりとした周期性を有するので（例えば、図６参照）、相関値φ（ｍ）の極大値が閾値Ｓ以上となり易く、ピッチパターン抽出部２６ｃによる抽出の信頼性は高くなる。一方、有声破裂音／摩擦音ｂ，ｄ，ｇ，ｊ，ｚなどの音声データの時系列は、あいまいな周期性を有するので、相関値φ（ｍ）の極大値が閾値Ｓ未満となり易く、ピッチパターン抽出部２６ｃによる抽出の信頼性は低くなる。なお、無声破裂音／摩擦音ｐ，ｔ，ｋ，ｓ，ｓｈ，ｈ、促音ｑ、ポーズＱなどの音声データの時系列は、周期性がないため極大値が観測されず、結果としてピッチは抽出されない。ここで、母音、撥音、半母音、鼻音などであっても、直前あるいは直後に有声破裂音／摩擦音、ポーズＱなどがあれば、相関値φ（ｍ）である極大値が閾値Ｓ未満となり易く、ピッチパターン抽出部２６ｃによる抽出の信頼性は低くなる。なお、閾値Ｓは、信頼度判定部２６ｃの図示しないメモリに予め記録されている。

図８は、本実施形態に係るピッチパターン抽出部２６ｂにより抽出された音声ピッチパターンの一例を示す概念図である。図８に示すように、音声ピッチパターンは、信頼度判定部２６ｃにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部２６ｃにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。すなわち、図８における点線のパターンは、信頼度判定部２６ｃにより抽出の信頼性が低いと判定されたパターンであるので、ピッチパターン抽出部２６ｂによる音声ピッチパターンの抽出誤りが生じているパターンである可能性が高い。つまり、図８に示す音声ピッチパターンをそのまま用いて合成音声を生成すると、点線のパターンに対応する音素の部分で韻律が不自然な合成音声となる可能性が高い。

パワー抽出部２６ｄは、音声入力部２５から出力された音声データからパワーパターンを抽出する。パワーパターンは、音声データに例えば２０ｍｓｅｃ程度の一定の窓長を設定し、この窓内の音声データの自乗和をとることにより算出される。

音声韻律抽出部２６は、上記の方法によって抽出された音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む音声韻律パターンを修正韻律生成部２７に出力する。なお、音素時間長パターン、音声ピッチパターン、および、パワーパターンの抽出方法は、上記の方法に限定されない。

修正韻律生成部２７は、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部２７は、韻律補完部２７ａを有している。

韻律補完部２７ａは、音声韻律抽出部２６から出力された音声ピッチパターンのうち、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンを抽出する。図９は、図８に示す音声ピッチパターンのうち、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンの一例を示す概念図である。すなわち、図９に示すパターンは、図８に示す音声ピッチパターンのうち、実線のパターンのみを抽出したパターンである。

また、韻律補完部２７ａは、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターン（図９参照）に近似するように、規則韻律生成部２４から出力された規則ピッチパターンを変形する。ここで、図９に示すパターンのアクセント句における時系列をＰ（ｎ）、図５に示す規則ピッチパターンのアクセント句における時系列をＱ（ｎ）、変形後の規則ピッチパターンのアクセント句における時系列をＱ´（ｎ）とする。本実施形態においては、韻律補完部２７ａは、下記の（数２）および（数３）を用いることにより、時系列Ｑ（ｎ）を時系列Ｑ´（ｎ）に変形する。なお、（数２）において、Ｐ_dは、Ｑ（ｎ）の傾斜変更量を表す。Ｔ_sは、Ｑ（ｎ）の時間伸縮率を表す。Ｔ_mは、Ｑ（ｎ）の時間移動幅を表す。Ｆ_sは、Ｑ（ｎ）のピッチ伸縮率を表す。Ｆ_mは、Ｑ（ｎ）のピッチ移動幅を表す。また、（数３）において、Ｄは、Ｐ（ｎ）とＱ´（ｎ）との誤差を表す。つまり、本実施形態に係る韻律補完部２７ａは、（数３）における誤差Ｄが最小となるように、（数２）のＰ_d、Ｔ_s、Ｔ_m、Ｆ_s、Ｆ_mを算出し、算出したＰ_d、Ｔ_s、Ｔ_m、Ｆ_s、Ｆ_mに基づいて、時系列Ｑ（ｎ）を時系列Ｑ´（ｎ）に変形する。韻律補完部２７ａは、これをアクセント句毎に行う。なお、時系列Ｑ（ｎ）を時系列Ｑ´（ｎ）に変形する方法はこれに限定されない。例えば、韻律補完部２７ａは、フレーズ毎に処理を行ってもよいし、下記の（数２）および（数３）に代えて、任意の公知の数式を用いてもよい。

図１０は、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が高いと判定されたパターン（図９参照）に近似するように変形された規則ピッチパターンの一例を示す概念図である。図１０に示すように、変形された規則ピッチパターンは、点線のパターンにて表している。なお、図１０に示す実線のパターンは、図９に示すパターンである。

韻律補完部２７ａは、上記にて変形された規則ピッチパターンと、音声ピッチパターンのうちピッチパターン抽出部２６ｃによる抽出の信頼性が高いパターンとを接続することにより、修正ピッチパターンを生成する。すなわち、韻律補完部２７ａは、図１０に示す実線のパターンをそのまま用い、この実線のパターンと点線のパターンとを接続する。さらに、韻律補完部２７ａは、実線のパターンと点線のパターンとの接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図１１は、韻律補完部２７ａによりスムージングされたピッチパターンの一例を示す概念図である。図１１に示す○印は、実線のパターンと点線のパターンとの接続部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図１２は、韻律補完部２７ａにより生成された修正ピッチパターンの一例を示す概念図である。

なお、韻律補完部２７ａは、音声韻律抽出部２６から出力された音素時間長パターン、および、パワーパターンについてもそれぞれ抽出誤りを修正する。例えば、音素時間長パターンの場合、まず、信頼度判定部２６ｃは、音素時間長抽出部２６ａが音声データから音素時間長パターンを抽出する際におけるこの抽出の信頼度を算出する。例えば、信頼度判定部２６ｃは、音素モデルから抽出したモデル化したデータと、音声データの各区間とを照合することにより算出された類似度を信頼度として利用する。また、信頼度判定部２６ｃは、音素時間長パターンのうち信頼度が閾値以上のパターンを音素時間長抽出部２６ａによる抽出の信頼性が高いパターンと判定する。一方、信頼度判定部２６ｃは、音素時間長パターンのうち信頼度が閾値未満のパターンを音素時間長抽出部２６ａによる抽出の信頼性が低いパターンと判定する。これにより、韻律補完部２７ａは、音素時間長パターンのうち音素時間長抽出部２６ａによる抽出の信頼性が低いパターンの代わりに、音素時間長パターンのうち音素時間長抽出部２６ａによる抽出の信頼性が高いパターン、および、音素時間長生成部２４ａにより生成された音素時間長パターンに基づいて修正音素時間長パターンを生成する。また、例えば、パワーパターンの場合、韻律補完部２７ａは、任意の公知の手法に従って抽出誤りを修正し、修正パワーパターンを生成する。

韻律補完部２７ａは、上記の方法によって生成された修正音素時間長パターン、修正ピッチパターン、および、修正パワーパターンを含む修正韻律パターンを音声合成装置３に出力する。

ところで、上記の韻律生成装置２は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記のテキスト入力部２１、言語処理部２３、規則韻律生成部２４、音声入力部２５、音声韻律抽出部２６、および、修正韻律生成部２７は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、テキスト入力部２１、言語処理部２３、規則韻律生成部２４、音声入力部２５、音声韻律抽出部２６、および、修正韻律生成部２７の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、単語辞書２２は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

（音声合成装置の構成）
音声合成装置３は、波形辞書３１、波形生成部３２、および、合成音声出力部３３を備えている。

波形辞書３１は、複数の波形データを格納する。例えば、音声合成装置３が波形データを記録した記録媒体を読み取ることによって、波形辞書３１には、上記の波形データが格納される。

波形生成部３２は、韻律生成装置２から出力された修正韻律パターンに基づいて、波形辞書３１を用いて合成音声の波形を生成する。波形生成部３２は、生成した合成音声の波形を合成音声出力部３３に出力する。

合成音声出力部３３は、波形生成部３２から出力された合成音声の波形に基づいて、合成音声を生成する。合成音声出力部３３は、生成した合成音声を音声合成装置３の外部に出力する。すなわち、合成音声出力部３３により出力された合成音声は、韻律生成装置２により生成された修正韻律パターンを用いているので、人間の発声が有する自然性・表現力を備えた合成音声となる。

ところで、上記の音声合成装置３は、パーソナルコンピュータなどの任意のコンピュータにプログラムをインストールすることによっても実現される。すなわち、上記の波形生成部３２および合成音声出力部３３は、コンピュータのＣＰＵがこれらの機能を実現するプログラムに従って動作することによって具現化される。したがって、波形生成部３２および合成音声出力部３３の機能を実現するためのプログラムまたはそれを記録した記録媒体も、本発明の一実施形態である。また、波形辞書３１は、コンピュータの内蔵記憶装置またはこのコンピュータからアクセス可能な記憶装置によって具現化される。

以上、音声合成システム１の構成について説明したが、音声合成システム１の構成は、図１に示す構成に限定されない。例えば、韻律生成装置２におけるテキスト入力部２１の代わりに、音声認識部を備えるようにしてもよい。

図１３は、本実施形態の変形例に係る音声合成システム１ａの概略構成を示すブロック図である。図１３において、図１と同様の機能を有する構成については、同じ参照符号を付記している。韻律生成装置２は、図１に示すテキスト入力部２１の代わりに、音声認識部２８を備えている。音声認識部２８は、人間の音声を認識する機能を有している。このため、音声認識部２８は、音声入力部２５から出力された音声データを特徴量に変換する。音声認識部２８は、変換した特徴量を用いて、音響モデルおよび言語モデル（共に図示せず）を参照しながら、人間の音声を表すのに最も確率的に高い語彙や文字並びを認識結果として出力する。つまり、音声認識部２８は、認識結果を言語処理部２３に出力する。これにより、ユーザが、韻律生成装置２にテキストを入力する必要がないので、ユーザによる手間を削減することが可能となる。

（音声合成システムの動作）
次に、上記の構成に係る音声合成システム１の動作について、図１４を参照しながら説明する。

図１４は、音声合成システム１の動作の一例を示すフローチャートである。すなわち、図１４に示すように、テキスト入力部２１は、任意のテキストが入力される（工程Ｏｐ１）。言語処理部２３は、単語辞書２２を用いて、工程Ｏｐ１にて入力されたテキストに対して言語解析を行う（工程Ｏｐ２）。なお、言語解析は、上記の形態素解析、係り受け解析などである。言語処理部２３は、工程Ｏｐ２の言語解析の結果に基づいて、テキストの読みを示す表音文字列データを生成する（工程Ｏｐ３）。規則韻律生成部２４は、工程Ｏｐ３にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、規則韻律パターンを生成する（工程Ｏｐ４）。なお、規則韻律パターンは、音素時間長パターン、規則ピッチパターン、および、パワーパターンを含む。

音声入力部２５は、工程Ｏｐ１にて入力されたテキストを読み上げた人間の音声を受け付け、受け付けた人間の音声を音声データに変換する（工程Ｏｐ５）。音声韻律抽出部２６は、工程Ｏｐ３にて生成された表音文字列データを音素記号列に変換し、変換した音素記号列に基づいて、工程Ｏｐ５にて変換された音声データから音声韻律パターンを抽出する（工程Ｏｐ６）。なお、音声韻律パターンは、音素時間長パターン、音声ピッチパターン、および、パワーパターンを含む。ここで、例えば、音声韻律抽出部２６のピッチパターン抽出部２６ｂは、上記の（数１）にて定義される自己相関関数を用いることにより、工程Ｏｐ５にて変換された音声データから音声ピッチパターンを抽出する。

信頼度判定部２６ｃは、ピッチパターン抽出部２６ｂが音声データから音声ピッチパターンを抽出する際におけるこの抽出の信頼度を算出する（工程Ｏｐ７）。本実施形態においては、信頼度判定部２６ｃは、ピッチパターン抽出部２６ｂが算出した相関値φ（ｍ）をそのまま信頼度として利用する。また、信頼度判定部２６ｃは、音声ピッチパターンのうち信頼度が閾値以上のパターンをピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンと判定し、音声ピッチパターンのうち信頼度が閾値未満のパターンをピッチパターン抽出部２６ｂによる抽出の信頼性が低いパターンと判定する（工程Ｏｐ８）。

韻律補完部２７ａは、工程Ｏｐ８にて信頼性が高いと判定されたパターン（図９参照）に近似するように、工程Ｏｐ４にて生成された規則ピッチパターンを変形する（工程Ｏｐ９）。例えば、韻律補完部２７ａは、上記の（数２）および（数３）を用いることにより、規則ピッチパターンを変形する。そして、韻律補完部２７ａは、工程Ｏｐ８にて信頼性が高いと判定されたパターンをそのまま用い、工程Ｏｐ８にて信頼性が高いと判定されたパターンと、工程Ｏｐ９にて変形された規則ピッチパターンとを接続する（工程Ｏｐ１０）。韻律補完部２７ａは、工程Ｏｐ１０にて接続された接続部分を滑らかにするために、任意の公知の手法に従ってスムージングを行い、修正ピッチパターンを生成する（工程Ｏｐ１１）。そして、韻律補完部２７ａは、工程Ｏｐ１１にて生成された修正ピッチパターンを含む修正韻律パターンを音声合成装置３に出力する（工程Ｏｐ１２）。

次に、音声合成装置３の波形生成部３２は、工程Ｏｐ１２にて出力された修正韻律パターンに基づいて、波形辞書３１を用いて合成音声の波形を生成する（工程Ｏｐ１３）。合成音声出力部３３は、工程Ｏｐ１３にて生成された合成音声の波形に基づいて、合成音声を生成する（工程Ｏｐ１４）。合成音声出力部３３は、工程Ｏｐ１４にて生成された合成音声を音声合成装置３の外部に出力する（工程Ｏｐ１５）。

以上のように、本実施形態に係る韻律生成装置２によれば、韻律補完部２７ａにより生成された修正ピッチパターンは、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、変形した規則ピッチパターンと、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンとを接続することにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。

[実施の形態２]
図１５は、本実施形態に係る音声合成システム１０の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１０は、図１に示す韻律生成装置２の代わりに、韻律生成装置４を備えている。なお、図１５において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。

韻律生成装置４は、図１に示す修正韻律生成部２７の代わりに、修正韻律生成部４１を備えている。なお、上記の修正韻律生成部４１は、コンピュータのＣＰＵがこの機能を実現するプログラムに従って動作することによっても具現化される。

修正韻律生成部４１は、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が低いパターンの代わりに、音声ピッチパターンのうちピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターン、および、規則ピッチパターンに基づいて修正ピッチパターンを生成する。このため、修正韻律生成部４１は、韻律修正部４１ａを有している。

韻律修正部４１ａは、音声韻律抽出部２６から出力された音声ピッチパターンのうち、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンを抽出する（図９参照）。また、韻律修正部４１ａは、音声韻律抽出部２６から出力された音声ピッチパターンのうち、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターン（図９参照）に近似するように、規則韻律生成部２４から出力された規則ピッチパターンを変形する（図１０参照）。ここまでは図１に示す韻律補完部２７ａの処理と同様である。

図１６は、図１０に示す太線のパターンを除去し、変形された規則ピッチパターンのみを示した概念図である。韻律修正部４１ａは、変形された規則ピッチパターンにおけるアクセント句の境界部分を滑らかにするために、任意の公知の手法に従ってスムージングを行う。図１７は、韻律修正部４１ａによりスムージングされたピッチパターンの一例を示す概念図である。図１７に示す○印は、変形された規則ピッチパターンにおけるアクセント句の境界部分であって、スムージングされた箇所を示す。このような処理を行うことにより、修正ピッチパターンが生成される。図１８は、韻律修正部４１ａにより生成された修正ピッチパターンの一例を示す概念図である。韻律修正部４１ａは、図１８に示す修正ピッチパターンを音声合成装置３に出力する。

以上のように、本実施形態に係る韻律生成装置４によれば、韻律修正部４１ａにより生成された修正ピッチパターンは、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンに近似するように適切な規則ピッチパターンを変形し、ピッチパターン抽出部２６ｂによる抽出の信頼性が高いパターンを用いることなく、変形した規則ピッチパターンを用いることにより生成されたパターンである。これにより、人間の発声から抽出された音声ピッチパターンの抽出誤りを、人間の発声が有する自然性・表現力を損なうことなく、しかも、手間と時間をかけずに修正することにより、修正ピッチパターンを生成することが可能となる。

[実施の形態３]
図１９は、本実施形態に係る音声合成システム（韻律編集システム）１１の概略構成を示すブロック図である。すなわち、本実施形態に係る音声合成システム１１は、図１に示す音声合成システム１に加えて、ＧＵＩ（Graphical User Interface）装置５を備えている。ＧＵＩ装置５と韻律生成装置２とは有線または無線により互いに接続されている。また、ＧＵＩ装置５と音声合成装置３とは有線または無線により互いに接続されている。なお、図１９において、図１と同様の機能を有する構成については、同じ参照符号を付記し、その詳細な説明を省略する。また、図１９において、韻律生成装置２の各構成部材２１〜２７、および、音声合成装置３の各構成部材３１〜３３の図示を省略している。さらに、上記のＧＵＩ装置５は、図１３に示す音声合成システム１ａ、および、図１５に示す音声合成システム１０に備えられていてもよい。

ＧＵＩ装置５は、韻律生成装置２により生成された表音文字列データおよび修正韻律パターンをユーザに編集させる装置である。このため、ＧＵＩ装置５は、ユーザに対して表音文字列データおよび修正韻律パターンを提示し、入力デバイスを用いて提示された表音文字列データおよび修正韻律パターンを編集可能なユーザインターフェース機能を提供する。それゆえ、ＧＵＩ装置５は、表示部５１、および、編集部５２を備えている。なお、上記の表示部５１および編集部５２は、コンピュータのＣＰＵがこの機能を実現するプログラムに従って動作することによっても具現化される。

表示部５１は、液晶ディスプレイ、有機ＥＬディスプレイ、プラズマディスプレイ、ＣＲＴディスプレイなどの任意の表示デバイスから構成される。編集部５２は、キーボード、マウス、テンキー、タッチパネルなどの任意の入力デバイスから構成される。

図２０は、表示部５１に表示される表示画面の一例を示す概念図である。図２０に示すように、表示部５１の表示画面は、テキスト編集部５１ａ、言語処理ボタン５１ｂ、言語処理結果編集部５１ｃ、規則韻律生成ボタン５１ｄ、規則韻律パターン表示部５１ｅ、音声入力ボタン５１ｆ、音声韻律抽出ボタン５１ｇ、音声韻律パターン表示部５１ｈ、自動修正ボタン５１ｉ、修正韻律パターン表示部５１ｊ、および、波形生成ボタン５１ｋを有している。

テキスト編集部５１ａは、任意のテキストをユーザに入力させる。図２０に示す例では、テキスト編集部５１ａには、「音声ガイダンスに従ってプッシュボタンを押してください。」を表すテキストがユーザにより入力されている。なお、ＧＵＩ装置５に予め用意されているテキストファイルをユーザが指定し、指定したテキストファイルを開くことにより、テキスト編集部５１ａにテキストが入力されるようにしてもよい。

言語処理ボタン５１ｂは、韻律生成装置２の言語処理部２３に対して、テキスト編集部５１ａに入力されたテキストの言語解析を指示するためのボタンである。

言語処理結果編集部５１ｃは、言語処理部２３による言語解析の結果に基づいて生成された表音文字列データを表示する。図２０に示す例では、言語処理結果編集部５１ｃには、表音文字列データ「オンセーガ’イダンスニ＿シタガッテ，プッシュボ’タンオ＿オシテクダサ’イ．」が表示されている。また、言語処理結果編集部５１ｃは、表示された表音文字列データをユーザに編集させる機能を有している。これにより、言語処理部２３による言語解析が誤っている場合、すなわち、表示された表音文字列データが誤っている場合、例えば、ユーザは、アクセント核の位置を変更し、あるいは、アクセント句やフレーズの境界を変更することにより、正しい表音文字列データに変更することが可能となる。

規則韻律生成ボタン５１ｄは、韻律生成装置２の規則韻律生成部２４に対して、言語処理結果編集部５１ｃに表示された表音文字列データに基づいて規則韻律パターンを生成するように指示するボタンである。

規則韻律パターン表示部５１ｅは、規則韻律生成部２４により生成された規則韻律パターンを表示する。図２０に示す例では、規則韻律パターン表示部５１ｅには、規則韻律パターンのうち、規則ピッチパターンおよび音素時間長パターンが表示されている。なお、規則韻律パターン表示部５１ｅには、パワーパターンが表示されていてもよい。

音声入力ボタン５１ｆは、テキスト編集部５１ａに入力されたテキストを読み上げた人間の音声をＧＵＩ装置５に入力させるためのボタンである。例えば、ユーザが、音声入力ボタン５１ｆを指示し、テキストを読み上げると、テキストを読み上げた人間の音声がＧＵＩ装置５に録音される。このため、ＧＵＩ装置５にはマイクロフォンが内蔵または接続されている。なお、ユーザが、音声入力ボタン５１ｆを指示すると、音声データファイルが表示され、表示された音声データファイルを指示することにより、人間の音声をＧＵＩ装置５に入力させるようにしてもよい。

音声韻律抽出ボタン５１ｇは、韻律生成装置２の音声韻律抽出部２６に対して、音声入力ボタン５１ｆにより入力された人間の音声から音声韻律パターンを抽出するように指示するボタンである。

音声韻律パターン表示部５１ｈは、音声韻律抽出部２６により抽出された音声韻律パターンを表示する。図２０に示す例では、音声韻律パターン表示部５１ｈには、音声韻律パターンのうち、音声ピッチパターンおよび音素時間長パターンが表示されている。音声ピッチパターンは、信頼度判定部２６ｃにより抽出の信頼性が高いと判定されたピッチについては実線のパターンにて表し、信頼度判定部２６ｃにより抽出の信頼性が低いと判定されたピッチについては点線のパターンにて表している。なお、音声韻律パターン表示部５１ｈには、パワーパターンが表示されていてもよい。

自動修正ボタン５１ｉは、韻律生成装置２の韻律補完部２７ａに対して、音声韻律パターン表示部５１ｈに表示された抽出の信頼性が高い音声ピッチパターン、および、規則韻律パターン表示部５１ｅに表示された規則ピッチパターンに基づいて修正ピッチパターンを生成するように指示するボタンである。なお、自動修正ボタン５１ｉは、修正ピッチパターンを生成することに加えて、修正音素時間長パターンの生成を指示するボタンでもある。

修正韻律パターン表示部５１ｊは、韻律補完部２７ａにより生成された修正韻律パターンを表示する。図２０に示す例では、修正韻律パターン表示部５１ｊには、修正韻律パターンのうち、修正ピッチパターンおよび修正音素時間長パターンが表示されている。なお、修正韻律パターン表示部５１ｅには、修正パワーパターンが表示されていてもよい。ここで、本実施形態においては、修正韻律パターン表示部５１ｊは、表示された修正ピッチパターンを、ユーザが入力デバイスを用いて操作することにより移動させ、修正ピッチパターンを新たに再設定させることができる。一例として、ユーザは、マウスのポインタを移動させたい修正ピッチパターンに触れた状態でその触れた位置（指示位置）を上方向または下方向に移動（ドラッグ）させ、所望の位置でドロップすると、修正ピッチパターンは、移動された所望の位置に配置される。なお、修正韻律パターン表示部５１ｊは、修正ピッチパターンを、スペクトログラムに重ねて表示することが好ましい。

波形生成ボタン５１ｋは、音声合成装置３の波形生成部３２に対して、修正韻律パターン表示部５１ｅに表示された修正韻律パターンに基づいて合成音声の波形を生成するように指示するボタンである。これにより、音声合成装置３は、波形生成ボタン５１ｋにより生成された合成音声の波形に基づいて、合成音声を出力することが可能となる。それゆえ、ユーザは、音声合成装置３から出力された合成音声に基づいて、修正韻律パターン表示部５１ｊに表示された修正ピッチパターンを変更することが可能となる。

以上のように、本実施形態に係る音声合成システム１１によれば、ＧＵＩ装置５は、韻律生成装置２により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるので、韻律生成装置２により生成された表音文字列データおよび修正韻律パターンの少なくとも１つに対して、ユーザは、木目細かい調整を行うことが可能となる。

なお、第１〜第３の実施形態において、韻律生成装置またはＧＵＩ装置から出力された修正韻律パターンを音声合成装置に出力し、音声合成装置が、修正韻律パターンに基づいて合成音声を生成し出力する例について説明したが、これに限定されない。例えば、韻律生成装置またはＧＵＩ装置から出力された修正韻律パターンを用いて、音声合成用の韻律辞書、音声合成用の波形辞書、音声認識用の音響モデルなどを生成するようにしてもよい。

すなわち、本発明は上述した第１〜第３の実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。

以上の実施の形態に関し、更に以下の付記を開示する。

（付記１）
任意のテキストが入力されるテキスト入力部と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。

（付記２）
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項１に記載の韻律生成装置。

（付記３）
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項１に記載の韻律生成装置。

（付記４）
前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、声の高さの変化パターンを表すピッチパターンである、付記１〜３のいずれか一項に記載の韻律生成装置。

（付記５）
付記１〜４のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるＧＵＩ装置とを備えたことを特徴とする韻律編集システム。

（付記６）
付記１〜４のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された修正韻律パターンに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。

（付記７）
付記１〜４のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるＧＵＩ装置と、
前記韻律生成装置により生成された修正韻律パターン、および、前記ＧＵＩ装置により編集された修正韻律パターンの少なくとも１つに基づいて、合成音声を生成し出力する音声合成装置とを備えたことを特徴とする音声合成システム。

（付記８）
コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声データに変換する音声入力工程と、
前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
前記コンピュータが備える修正韻律生成部が、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出工程による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。

（付記９）
任意のテキストが入力されるテキスト入力処理と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が低いパターンの代わりに、前記音声韻律パターンのうち前記音声韻律抽出処理による抽出の信頼性が高いパターン、および、前記規則韻律パターンに基づいて修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。

以上のように、本発明は、任意のテキストと、このテキストを読み上げた人間の音声とを受け付け、受け付けた任意のテキストおよび人間の音声に基づいて、韻律パターンを生成する韻律生成装置、韻律生成方法、または、韻律生成プログラムとして有用である。

本発明の第１の実施形態に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムの韻律生成装置における言語処理部が文字列データに対して形態素解析を行った結果を示す概念図である。上記言語処理部により生成された複数の文節とその読みを示す概念図である。フレーズ成分にアクセント句成分が重畳された状態を示す概念図である。上記韻律生成装置におけるピッチパターン生成部により生成された規則ピッチパターンの一例を示す概念図である。任意の母音の音声データの時系列を示す概念図である。図６に示す音声データの時系列を自己相関関数に適用した場合における相関値を示す概念図である。上記韻律生成装置におけるピッチパターン抽出部により抽出された音声ピッチパターンの一例を示す概念図である。図８に示す音声ピッチパターンのうち、上記韻律生成装置における信頼度判定部により抽出の信頼性が高いと判定されたパターンの一例を示す概念図である。図９に示すパターンに近似するように変形された規則ピッチパターンの一例を示す概念図である。上記韻律生成装置における韻律補完部によりスムージングされたピッチパターンの一例を示す概念図である。上記韻律補完部により生成された修正ピッチパターンの一例を示す概念図である。本発明の第１の実施形態の変形例に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムの動作の一例を示すフローチャートである。本発明の第２の実施形態に係る音声合成システムの概略構成を示すブロック図である。図１０に示す太線のパターンを除去し、変形された規則ピッチパターンのみを示した概念図である。上記音声合成システムの韻律生成装置における韻律修正部によりスムージングされたピッチパターンの一例を示す概念図である。上記韻律修正部により生成された修正ピッチパターンの一例を示す概念図である。本発明の第３の実施形態に係る音声合成システムの概略構成を示すブロック図である。上記音声合成システムのＧＵＩ装置における表示部に表示された表示画面の一例を示す概念図である。

符号の説明

１、１ａ、１０、１１音声合成システム
２、４韻律生成装置
３音声合成装置
５ＧＵＩ装置
２１テキスト入力部
２３言語処理部
２４規則韻律生成部
２４ａ音素時間長生成部
２４ｂピッチパターン生成部
２４ｃパワー生成部
２５音声入力部
２６音声韻律抽出部
２６ａ音素時間長抽出部
２６ｂピッチパターン抽出部
２６ｃ信頼度判定部
２６ｄパワー抽出部
２７、４１修正韻律生成部
２７ａ韻律補完部
４１ａ韻律修正部

Claims

任意のテキストが入力されるテキスト入力部と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理部と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成部と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力部と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出部と、
前記音声韻律抽出部が前記音声データから前記音声韻律パターンを抽出する際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出部による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出部による抽出の信頼性が低いパターンと判定する信頼度判定部と、
前記規則韻律パターンを、前記音声韻律抽出部による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出部による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成部とを備えたことを特徴とする韻律生成装置。
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、変形した規則韻律パターンと、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンとを接続することにより、修正韻律パターンを生成する韻律補完部を含む、請求項１に記載の韻律生成装置。
前記修正韻律生成部は、
前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンに近似するように前記規則韻律パターンを変形し、前記音声韻律パターンのうち前記音声韻律抽出部による抽出の信頼性が高いパターンを用いることなく、変形した規則韻律パターンを用いることにより、修正韻律パターンを生成する韻律修正部を含む、請求項１に記載の韻律生成装置。
前記規則韻律パターン、前記音声韻律パターン、および、前記修正韻律パターンは、声の高さの変化パターンを表すピッチパターンである、請求項１〜３のいずれか一項に記載の韻律生成装置。
請求項１〜４のいずれか一項に記載の韻律生成装置と、
前記韻律生成装置により生成された表音文字列データおよび修正韻律パターンの少なくとも１つを編集させるＧＵＩ装置とを備えたことを特徴とする韻律編集システム。
コンピュータが備えるテキスト入力部が、任意のテキストが入力されるテキスト入力工程と、
前記コンピュータが備える言語処理部が、前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理工程と、
前記コンピュータが備える規則韻律生成部が、前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成工程と、
前記コンピュータが備える音声入力部が、前記テキストを読み上げた人間の音声を音声
データに変換する音声入力工程と、
前記コンピュータが備える音声韻律抽出部が、前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出工程と、
前記コンピュータが備える信頼度判定部が、前記音声韻律抽出工程にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出工程による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出工程による抽出の信頼性が低いパターンと判定する信頼度判定工程と、
前記コンピュータが備える修正韻律生成部が、前記規則韻律パターンを、前記音声韻律抽出工程による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出工程による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成工程とを含むことを特徴とする韻律生成方法。
任意のテキストが入力されるテキスト入力処理と、
前記テキストを言語解析することにより、前記テキストの読みを示す表音文字列データを生成する言語処理と、
前記表音文字列データ、および、韻律生成規則に基づいて、前記テキストの韻律を示す規則韻律パターンを生成する規則韻律生成処理と、
前記テキストを読み上げた人間の音声を音声データに変換する音声入力処理と、
前記音声データから前記人間の音声の韻律を示す音声韻律パターンを抽出する音声韻律抽出処理と、
前記音声韻律抽出処理にて前記音声データから前記音声韻律パターンが抽出された際における、当該抽出の信頼度を取得し、前記音声韻律パターンのうち前記信頼度が閾値以上のパターンを前記音声韻律抽出処理による抽出の信頼性が高いパターンと判定し、前記音声韻律パターンのうち前記信頼度が閾値未満のパターンを前記音声韻律抽出処理による抽出の信頼性が低いパターンと判定する信頼性判定処理と、
前記規則韻律パターンを、前記音声韻律抽出処理による抽出の信頼性が高いパターンに近似して変形させることにより、前記音声韻律抽出処理による抽出の信頼性が低いパターンを補完して、修正韻律パターンを生成する修正韻律生成処理とをコンピュータに実行させることを特徴とする韻律生成プログラム。