JP4532862B2

JP4532862B2 - 音声合成方法、音声合成装置および音声合成プログラム

Info

Publication number: JP4532862B2
Application number: JP2003296584A
Authority: JP
Inventors: 寛之世木; 徹都木
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-09-25
Filing date: 2003-08-20
Publication date: 2010-08-25
Anticipated expiration: 2023-08-20
Also published as: JP2004139033A

Description

本発明は、音声合成用のデータが蓄積された音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法、音声合成装置および音声合成プログラムに関する。

従来、音声合成を行う方法（装置）には、例えば、以下に示すような２つの方法（装置）がある。

まず、１つ目の方法（装置）として、自然発話音声波形信号接続型音声合成装置（特許文献１参照）が挙げられる。この公報で公開されている音声合成装置には、音素の発話時間が記録された音声データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータを音素列に分解した後、分解した音素列について音素単位で音声データベースの探索を実行し、音韻韻律コストおよび連結コストの和が最小になる音素列データ（探索結果）を音声合成データとして出力するものである。

また、２つ目の方法（装置）として、次に示す音声合成装置が挙げられる。この音声合成装置には、音素および単語の発話時間が記録された音声データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータを単語列に分解した後、分解した単語列について単語単位で音声データベースの探索を実行すると共に、音声データベース内に記録されていない単語列については音素単位で音声データベースの探索を実行し、音韻韻律コストおよび連結コストの和が最小になる単語列データ（音素列データ）を音声合成データとして出力するものである。
特開平１０−４９１９３号公報（段落番号００１４〜００１８、第１図）

しかしながら、従来の音声合成装置（特許文献１参照）では、音声データベースを探索する探索単位として音素を使用しているため、当該音声データベースを探索する際に前後の音素環境が異なる音素も探索しており、音声合成処理に時間がかかり、ひいては、合成した音声合成データの音質の低下を招くという問題があった。

また、前記した２つ目の音声合成装置では、音声データベース内に存在しない単語に関して、当該音声データベースを探索する際に、探索単位として音素を使用して、且つ、前後の音素環境が異なる音素も探索していたので、同様に、音声合成処理に時間がかかり、ひいては、合成した音声合成データの音質の低下を招くという問題があった。

そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声合成処理を高速にすると共に、音声合成した音声合成データを高品質に維持することができる音声合成方法、音声合成装置および音声合成プログラムを提供することにある。

前記課題を解決するため、請求項１記載の音声合成方法は、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、音素分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。

かかる手順によれば、音声合成方法は、音素分割・音韻韻律情報付加ステップにおいて、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、或いは、入力順にテキストデータが無作為に音素に分割され、さらに、この区分けされた各品詞（各単語）が音素に分解され、各音素に音韻韻律情報が付加された音素分割候補が形成される。続いて、この音声合成方法は、音声データ探索ステップにおいて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、音声合成用データベースからビタービサーチする。複数の音素分割候補からなる複数音素分割候補とは、例えば、クラスタリングされたトライフォン（前後一つの音素環境を考慮した音素）を基盤とするものである。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにてビタービサーチされた音声データ列の各音素分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、この補正を行った結果を音声合成データとして出力する。このとき、この音声合成方法は、音声データ探索ステップで、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

なお、音韻韻律情報は、音素毎の基本周波数（一般にＦ₀と表記される）に関する情報である。音声合成用データベースは、音素とこの音素の発話時間が記憶された複数の文章を記憶しているものである。音韻韻律コストは、入力されたテキストデータから予測される漢字の読み方（音素）、予測される韻律（アクセントの配列の仕方）が、基本周波数が音声合成用データベースに記憶されている単語および音素のデータに類似しているかどうかを示す指標で、この音韻韻律コストが低いほど、予測とデータとが類似していることになる。連結コストは、接続される単語がどれだけ滑らかに接続されるかを示す指標に相当するもので、接続される２つの音声波形から抽出した特徴量の差を正規化したものを特徴量の個数だけ計算したものである。この連結コストが低いほど、２つの単語は滑らかに（より自然に）接続されることになる。また、連結コストおよび音韻韻律コストが最小になる単語分割候補とは、連結コストと音韻韻律コストとの和が最小になるものである。

請求項２記載の音声合成方法は、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、可変長音素列分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。

かかる手順によれば、音声合成方法は、可変長音素列分割・音韻韻律情報付加ステップにおいて、テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。可変長音素列は、テキストデータの始めの音素から任意数の音素まで連結したもの、例えば、まず３個の音素を連結し、一つずつ連結する音素の個数を増加させて、音素列の長さを可変長にしたものである。続いて、この音声合成方法は、音声データ探索ステップにおいて、可変長音素列分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、音声合成用データベースからビタービサーチする。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにてビタービサーチされた音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、この補正を行った結果を音声合成データとして出力する。このとき、この音声合成方法は、音声データ探索ステップで、連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項３記載の音声合成方法は、単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、単語分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。

かかる手順によれば、音声合成方法は、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする。入力されたテキストデータが、例えば、形態素解析によって、単語毎に区分けされ、この区分けされた各単語に音韻韻律情報が付加されたデータが形成される。続いて、この音声合成方法は、音声データ探索ステップにおいて、単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データベースに存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、音声合成用データベースからビタービサーチする。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにてビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果を音声合成データとして出力する。このとき、この音声合成方法は、音声データ探索ステップで、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

この音声データ補正ステップにおける補正は、音声データ列の音声波形（基準となる音声波形）に基づいて行われるものである。なお、ここでの音韻韻律情報とは、分割された単語の音素と、単語毎の基本周波数に関する情報である。また、設定データ数は、音声合成用データベースの規模（総データ量）に対応させて任意に設定することができる値である。

請求項４記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、音素分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、音素分割・音韻韻律情報付加手段によって、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。続いて、この音声合成装置は、音声データ探索手段によって、音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を音素データ列として音声合成用データベースからビタービサーチする。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段にてビタービサーチされた音声データ列が、音素分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、この補正を行った結果が音声合成データとして出力する。このとき、この音声合成装置は、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項５記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、可変長音素列分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、可変長音素列分割・音韻韻律情報付加手段によって、入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。続いて、この音声合成装置は、音声データ探索手段によって、可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、音声合成用データベースからビタービサーチする。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段でビタービサーチされた音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力手段によって、補正を行った結果を音声合成データとして出力する。このとき、この音声合成装置は、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項６記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、単語分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。

かかる構成によれば、音声合成装置は、単語分割・音韻韻律情報付加手段によって、入力されたテキストデータを単語に分割し、分割した単語毎に音韻韻律情報を付加する。続いて、この音声合成装置は、音声データ探索手段によって、音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データベースに存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補が音声データ列として、音声合成用データベースからビタービサーチする。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段にてビタービサーチされた音声データ列が、単語分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正が行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。このとき、この音声合成装置は、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項７記載の音声合成装置は、請求項６に記載の音声合成装置において、前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストの算出する際の係数を決定し、当該係数を使用することを特徴とする。

かかる構成によれば、音声合成装置は、音声データ探索手段によって単語分割候補を探索する場合、音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、音声合成データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、音韻韻律コストの算出する際の係数を決定し、当該係数を使用している。つまり、クラスターは、クラスタリングされた（分類された）一つのグループであり、音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と音声合成データ上における前後の調音結合に従った音素とが一つのグループにまとめることができる場合、同じクラスターに属しているといえる。また、クラスタリングとは、当該候補を構成している音素のデータ集合を何らかの属性に注目して分類することを指すものである。

請求項８記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、音素分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段、音声合成データ出力手段、として機能させる構成とした。

かかる構成によれば、音声合成プログラムは、音素分割・音韻韻律情報付加手段によって、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。続いて、この音声合成プログラムは、音声データ探索手段によって、音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位として、連結コストと音韻韻律コストとの和が最小になる音素分割候補を音素データ列として音声合成用データ記憶手段からビタービサーチする。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段にてビタービサーチされた音声データ列が、音素分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。このとき、この音声合成プログラムは、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項９記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、可変長音素列分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段と、音声合成データ出力手段、として機能させる構成とした。

かかる構成によれば、音声合成プログラムは、可変長音素列分割・音韻韻律情報付加手段によって、テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数および音素長を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。続いて、この音声合成プログラムは、音声データ探索手段によって、可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、発話時間で区切られる音素に基づき、音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段からビタービサーチする。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段でビタービサーチされた音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力手段によって、音声データ補正手段で補正を行った結果を音声合成データとして出力する。このとき、この音声合成プログラムは、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項１０記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、単語分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段、音声合成データ出力手段、として機能させる構成とした。

かかる構成によれば、音声合成プログラムは、単語分割・音韻韻律情報付加手段によって、入力されたテキストデータを単語に分割し、分割した単語毎に音韻韻律情報を付加する。続いて、音声合成プログラムは、音声データ探索手段によって、音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データ記憶手段に存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を音声データ列として、音声合成用データ記憶手段からビタービサーチする。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段にてビタービサーチされた音声データ列が、単語分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。このとき、この音声合成プログラムは、音声データ探索手段で、連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と基本周波数とを使用する。

請求項１、４、８記載の発明によれば、入力されたテキストデータが音素に分割され、分割された音素毎に音韻韻律情報が付加される。音韻韻律情報が付加された複数音素分割候補毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合および単語を探索単位とした場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。

請求項２、５、９記載の発明によれば、テキストデータを構成する音素が任意数連結させた可変長音素列とされ、この可変長音素列に音韻韻律情報が付加される。音韻韻律情報が付加された可変長音素列分割候補が探索単位とされ、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として音声合成用データベースから探索され、各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分で補正が行われ、音声合成データとして出力される。このため、可変長音素列分割候補が前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合および単語を探索単位とした場合よりも音声合成処理を高速にすることができ、この可変長音素列分割候補が音声合成用データベースから取得できれば、音声合成の結果としてそのまま使用することができる。

請求項３、６、１０記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語分割候補または複数音素分割候補毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に単語および未知語部分を音素で探索した場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。

請求項７記載の発明によれば、単語の語頭および語尾において、クラスタリングされた前後の音素環境が考慮された複数音素分割候補が、音声合成する際の音声合成用データベースの探索時に音韻韻律コスト算出に用いられることで、音韻韻律コストの差が顕著に設定でき、総じて、合成音声データの品質を改善することができる。

請求項１〜１０記載の発明によれば、ケプストラム距離が近いほど、声の性質は近似していることになり、連結コストは小さくなるので、音声合成する際の音声合成用データベースの探索時に、当該ケプストラム距離が連結コスト算出に用いられることで、合成音声データの品質を改善することができる。

以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
（音声合成装置の構成）
図１を参照して、音声合成装置の構成を説明する。図１は、音声合成装置のブロック図であり、この図１に示すように、音声合成装置１は、入力されたテキストデータ（入力日本語テキスト）から音声合成データ（出力音声、合成結果）を出力するものであり、入力部３と、単語音素分割・音韻韻律情報付加部５と、音声合成用データベース探索部７と、音韻韻律補正部９と、出力部１１と、音声合成用データベース１３とを備えている。

入力部３は、キーボード、マウス等を備えて構成され、マンマシンインターフェースの役割を果たすものであり、音声合成装置１のユーザが記述した文章（テキストデータ：入力日本語テキスト）を入力するものである。また、この入力部３は、ＯＣＲの機能を有しており、手書きされた文字も認識してテキストデータに変換するものである。さらに、この入力部３は、磁気媒体で構成されるフレキシブルディスクに記録されているテキストデータを読みとるデータ読出機能を有している。なお、この実施の形態では、入力部３には、複数の入力機能が備えられているが、少なくとも１個の入力機能を備えていればよい。

単語音素分割・音韻韻律情報付加部５は、単語分割手段５ａと、音素分割手段５ｂと、可変長音素列分割手段５ｃと、音韻韻律情報付加手段５ｄとを備えている。単語分割手段５ａは、入力部３から送出されたテキストデータについて、形態素解析を行って、当該テキストデータを単語（単語単位）に分割するものである。

音素分割手段５ｂは、単語分割手段５ａで分割された単語を音素に分割するものである。或いは、入力部３から送出されたテキストデータについて、入力された順に音素（音素単位）に分割するものである。

可変長音素列分割手段５ｃは、音素分割手段５ｂで分割された音素を任意個数連結させた可変長音素列として、音韻韻律情報付加手段５ｄに出力するものである。なお、この実施の形態では、３個の音素を連結した可変長音素列から一つずつ連結する音素の個数を増加させていく構成となっている。

音韻韻律情報付加手段５ｄは、単語分割手段５ａで分割された単語に音韻韻律情報を付加した単語分割候補とし、音素分割手段５ｂで分割された音素に音韻韻律情報を付加した音素分割候補とし、可変長音素列分割手段５ｃで出力された可変長音素列に音韻韻律情報を付加した可変長音素列分割候補として、音声合成用データベース探索部７に出力するものである。

この単語音素分割・音韻韻律情報付加部５では、入力部３から送出されたテキストデータに応じて、当該テキストデータを単語で分割するか、音素で分割するか、可変長音素列とするかを任意に設定することができる分割単位設定手段（図示せず）を備えている。この分割単位設定手段によって、当該装置１のユーザは、分割単位を自在に設定することができる。

なお、形態素解析とは、文章を語句より小さな形態素（語句をさらに細分化したもの）のレベルまで分解して解析することで、日本語のように、文章中の語句の切り出しが明確でない言語の場合、形態素解析は“語句の切り出し”と同様な意味をもつことになる。ちなみに、日本語における形態素解析では、形態素同士の接続情報（名詞には助詞「が」が接続しうる）等の文法記述をすることが一般的である。また、音韻韻律情報とは、音素や基本周波数等に関する情報である。

音声合成用データベース探索部７は、単語音素分割・音韻韻律情報付加部５から送出された単語分割候補、音素分割候補または可変長音素列分割候補（音韻韻律情報が付加されている）を音声合成用データベース１３から探索するものである。

まず、この音声合成用データベース探索部７に、単語分割候補または音素分割候補が入力された場合について説明する。この音声合成用データベース探索部７では、単語分割候補または音素分割候補が入力されると、音声合成用データベース１３に存在する単語分割候補（または複数の音素分割候補からなる複数音素分割候補）の全ての組み合わせについて、ビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列が送出される。なお、音声合成用データベース１３に記憶されていない単語（未知語）が入力された場合には、クラスタリングされたトライフォンを探索単位として音声合成用データベース１３が探索される。また、ビタービサーチとは、最大（最小）のスコアを与える仮説（単語分割候補の組み合わせ）の履歴のみを残して計算していく手法のことである。

また、この音声合成用データベース探索部７では、各単語分割候補の連結コストおよび音韻韻律コストの計算結果を記録するコスト計算結果記録機能（図示せず）を有しており、逐次計算した結果が記録されている。

連結コストの計算は、例えば、以下に示す数式（１）に基づいて行われる。

ただし、Ｃ（Ａ，Ｂ）は素片Ａと素片Ｂとが連続したときの連結コスト、Ｐ^E _Aは素片Ａの終わりの基本周波数、Ｐ^I _Bは素片Ｂの始めの基本周波数、ｘ^E _iAは、ｉ次元目における素片Ａの終わりのケプストラム係数（ケプストラム係数の一次の回帰係数、ケプストラム係数の二次の回帰係数に該当）、ｘ^I _iBは、ｉ次元目における素片Ｂの始めのケプストラム係数（ケプストラム係数の一次の回帰係数、ケプストラム係数の二次の回帰係数に該当）、σ^S(A) _iはｉ次元目における素片Ａの終わりのトライフォン（素片Ａがトライフォンであればそのトライフォン）が含まれているクラスターＳ（Ａ）のＨＭＭの分散値、μ^S(A) _iはｉ次元目における素片Ａの終わりのトライフォンが含まれているクラスターＳ（Ａ）のＨＭＭの平均値、σ^S(B) _iはｉ次元目における素片Ｂの始めのトライフォン（素片Ａがトライフォンであればそのトライフォン）が含まれているクラスターＳ（Ｂ）のＨＭＭの分散値、μ^S(B) _iはｉ次元目における素片Ｂの始めのトライフォンが含まれているクラスターＳ（Ｂ）のＨＭＭの平均値、ω₆、ω₇は正の重み、Ｃは正の定数、δ_ABは素片Ａと素片Ｂとが連続して音声合成用データベース１３内にある場合を０、ない場合１を、それぞれ示すものである。

なお、この数式（１）に基づく連結コストの算出は、複数音素分割候補の統計量を用いて各次元に正規化し（詳細は図３を使って後記する）、ケプストラム距離（数式（１）のΣの項に該当）を使用している。複数音素分割候補の統計量、すなわち、トライフォンが含まれているクラスターは、隠れマルコフモデル（ＨＭＭ）の分散値、平均値によって正規化され、各個人で異なる声の性質を示す指標となるケプストラム距離が使用されてクラスタリングされている。つまり、ケプストラム距離が近いほど、声の性質は近似していることになり、連結コストは小さくなる。このクラスタリングされた前後の音素環境が考慮されたトライフォンが、音声合成する際の音声合成用データベース１３探索時に用いられることで、連結コストの計算候補が削減できるので、音声処理時間を削減することができる（処理速度を向上させることができる）。

音韻韻律コストの計算は、例えば、以下に示す数式（２）に基づいて行われる。

ただし、Ｃ（Ｙ，Ｄ）は音韻韻律コスト、Ｓ_DP（Ｙ，Ｄ）は入力された単語Ｙの音素表記と音声合成用データベース１３内の単語Ｄの音素表記との動的計画法によるマッチングをとり、１に正規化したスコア、Ｓ^I _CLUSTERは入力された単語Ｙの語頭のトライフォンと、音声合成用データベース１３内の単語Ｄの語頭のトライフォンとが同じクラスターに属した場合１、そうでない場合０をとるスコア、Ｓ^E _CLUSTERは入力された単語Ｙの語尾のトライフォンと、音声合成用データベース１３内の単語Ｄの語尾のトライフォンとが同じクラスターに属した場合１、そうでない場合０をとるスコア、／Ｐ^j _Yは入力された単語Ｙの語頭からｊ番目のトライフォンの予測基本周波数から単語Ｙ内での基本周波数平均値を減算したもの、／Ｐ^j _Dは音声合成用データベース１３内の単語Ｄの語頭からｊ番目のトライフォンの基本周波数から、当該単語Ｄ内での基本周波数平均値を減算したもの、ｎ_yは入力された単語Ｙの音素数、ω₁、ω₂、ω₃は正の重み、θは補正定数を、それぞれ示すものである。ここで、日本出願の明細書では、文字修飾でルビ（オーバーライン）を記述することができないために、ルビ（オーバーライン）の代わりに／を用いる。

また、ｓｉｇｍｏｉｄ関数は、例えば、ｓｉｇｍｏｉｄ（ｘ）＝ｔａｎｈ（ｘ）＝ｅ^x−ｅ^-x／ｅ^x＋ｅ^-xで表されるもので、この式の場合、ｘの取りうる値は０から無限大であるが、ｓｉｇｍｏｉｄ（ｘ）は一定の範囲（０から１）に写像することができるものである。つまり、数式２において、ｓｉｇｍｏｉｄの項は、例えば、基本周波数平均値が誤入力等によって異常に高い値となった場合に、一定の範囲の値（０から１）に置き換えることで、音韻韻律コストの算出値への影響を除去するためのものである。

Ｓ^I _CLUSTERと、Ｓ^E _CLUSTERとは、素片（単語分割候補または音素分割候補）が同じクラスターに属するかどうかによってスコア（０か１）が異なり、音韻韻律コストの算出値に影響が及ぶ。これによって、同じクラスターに属する素片同士であれば、音韻韻律コストは低くなり（Ｓ^I _CLUSTERと、Ｓ^E _CLUSTERとのスコアは０）、同じクラスターに属さない素片同士であれば、音韻韻律コストは高くなる（Ｓ^I _CLUSTERと、Ｓ^E _CLUSTERとのスコアは１）。これによれば、クラスタリングされた前後の音素環境が考慮されたトライフォンが、音声合成する際の音声合成用データベース１３探索時に用いられることで、音韻韻律コストを計算する計算候補が削減できるので、音声処理時間を削減することができる（処理速度を向上させることができる）。

さらに、音声合成用データベース探索部７では、単語音素分割・音韻韻律情報付加部５の単語分割手段５ａで単語に分割された単語分割候補が入力された場合に、当該単語分割候補が、音声合成用データベース１３に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語に該当する場合については、当該単語分割候補の前後の調音結合を考慮した複数の音素からなる複数音素分割候補が探索単位とされる。また、音声合成装置１には、設定データ数を設定するデータ数設定手段（図示せず）が備えられており、このデータ数設定手段によって、当該装置１のユーザは、設定データ数を音声合成用データベース１３のデータ量に対応させて任意に設定することができる。設定データ数は、例えば、５（音声合成用データベース１３に５個しか同一の単語が含まれていない場合）といったように設定される。

さらにまた、この音声合成用データベース探索部７では、ビタービサーチの計算時間の短縮を図るために、ビームサーチが実行され、探索の途中で一番よいスコアから決定された閾値内に入らない仮説（単語分割候補同士の連結、または複数音素分割候補の連結）の削除が実行される。なお、ビームサーチとは、あるスコアの値から特定値以上のスコアの値を持つ仮説に絞り込んで（特定値未満のスコアの値を持つ仮説は除外して）計算する手法である。また、この音声合成用データベース探索部７が請求項に記載した音声データ探索手段に相当するものである。

次に、この音声合成用データベース探索部７に可変長音素列分割候補が入力された場合について説明する。この音声合成用データベース探索部７に可変長音素列分割候補が入力されると、音声合成用データベース１３に存在する可変長音素列分割候補の全ての組み合わせについてビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結スコアおよび音韻韻律スコアが最も大きい音声データ列が送出される。

連結スコアの計算は、例えば、以下に示す数式（３）に基づいて行われる。

但し、ｐ^E _Aは素片Ａの終わりの基本周波数、ｐ^I _Bは素片Ｂの始めの基本周波数、ｃ^E _jAはｊ次元目における素片Ａの終わりの特徴量、ｃ^I _jBはｊ次元目における素片Ｂの始めの特徴量、σ_ｊ（上付きＴ^E _A）、σ_ｊ（上付きＴ^I _B）、はｊ次元目における素片Ａの終わりのトライフォン（素片Ａがトライフォンであればそのトライフォン）が含まれるクラスターＴ^E _A、Ｔ^I _BのＨＭＭの分散値、μ_ｊ（上付きＴ^E _A）、μ_ｊ（上付きＴ^I _B）、はｊ次元目における素片Ａの終わりのトライフォンが含まれるクラスターｃ（Ａ）のＨＭＭの平均値、ｄは特徴量の総次元数、ω₇、ω₈は、正の重み，「ａ」は正の定数、δ_ABは素片Ａと素片Ｂが連続して音声合成用データベース１３内にある場合を“０”、ない場合を“１”としたものである。なお、この実施の形態では、ω₇は０．００６であり、ω₈は０．２５であり、この数式（３）における「ａ」は１０である。これらの値は、音声合成装置１を使用して行った実験に基づいて経験的に設定されたものである。

音韻韻律スコアの計算は、例えば、以下に示す数式（４）に基づいて行われる。

ｐ^j _Y、ｐ^j _Dはそれぞれ入力された単語Ｙおよび音声合成用データベース１３における単語Ｄの語頭からｊ番目のトライフォンの予測基本周波数、ｎ_Yは入力された単語Ｙの音素数、θ（Ｔ^j _Y）は入力された単語Ｙの語頭からｊ番目の音素Ｔ^j _Yが母音もしくは半母音である場合には“１”を返しそれ以外の場合では“０”を返す関数でｌ_Yは入力された単語Ｙの予測長、ｌ_Dは音声合成用データベース１３における単語Ｄの長さ、ω₃、ω₄は正の重みである。なお、この実施の形態では、ω₃は０．０６２５であり、ω₄は４である。これらの値は、音声合成装置１を使用して行った実験に基づいて経験的に設定されたものである。

音韻韻律補正部９は、音声合成用データベース探索部７の探索結果である音声データ列の補正を行うためのもので、単語音素分割・音韻韻律情報付加部５から送出された単語分割候補、音素分割候補または可変長音素列分割候補の全ての組み合わせについてビタービサーチが実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予め設定された予測韻律（音韻韻律情報に基づいて決定される）の異なる韻律部分について、当該予測韻律を基準とする一定範囲に収まるように補正を行うものである。

つまり、この音韻韻律補正部９は、例えば、入力された文章がもつべき音韻韻律情報を予測して、この予測した予測値（予測韻律、予測音韻韻律情報とする）と、音声合成用データベース１３中に記憶されている文字列の値（既定音韻韻律情報とする）との類似度を比較することによって、一定以上の類似度の範囲に収まるように音声データ列の合成音声波形を補正するものである。なお、この合成音声波形の補正に関しては、特開平２−４７７００号公報（ピッチ、ホルマント（基本周波数）の制御をきめ細かくした場合に音韻性を保つことができる音声合成方法）に記載されている方法を適用することとする。また、この実施の形態では、トライフォンのクラスタリングに関しては、Ｓ．Ｊ．ＹＯＵＮＧ他“Ｔｒｅｅ−Ｂａｓｅｄｓｔａｔｅｔｙｉｎｇｆｏｒｈｉｇｈａｃｃｕｒａｃｙａｃｏｕｓｔｉｃｓｍｏｄｅｌｉｎｇ”，Ｐｒｏｃ．ＡＲＰＡＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＷｏｒｋｓｈｏｐ，ｐｐ．３０７−３１２（１９９４）に記載されている手法を適用する。また、この音韻韻律補正部９が請求項に記載した音声データ補正手段に相当するものである。

出力部１１は、音声合成用データベース探索部７で計算された計算結果である音声データ列または音韻韻律補正部９で補正された音声データ列（出力音声合成結果）を外部に出力するためのものである。この出力部１１には、図示を省略した比較手段が備えられており、この比較手段によって、音声合成用データベース探索部７で計算された音声データ列と、音韻韻律補正部９で補正された音声データ列とが比較され、比較した結果に基づき、音声データ列が補正されている場合には、音韻韻律補正部９で補正された音声データ列が出力される。この実施の形態では、この出力部１１には、スピーカ等の音声出力装置（図示せず）が接続されている。

音声合成用データベース１３は、大容量のハードディスク等で構成されており、単語毎に音声データ（音声波形）、音韻韻律情報（音素、アクセント）、および発話時間を記憶しているものである。なお、この音声合成用データベース１３には、入力されたテキストデータの文章の「文頭」を示す情報が記憶されている。この「文頭」を示す情報を基点にして、音声合成用データベース探索部７で「文頭」に続いていく単語分割候補の連結コストと音韻韻律コストとが算出される。また、この音声合成用データベース１３で保持されている単位音声（音声合成用データ）は、「単語」、「クラスタリングされたトライフォン（前後１つの音素環境を考慮した音素）」および「可変長音素列（前後の音素環境を考慮した音素列）」を基準としており、この実施の形態では、複数の単語およびトライフォンからなる「文章」が当該音声合成用データベース１３の構成単位となっている。また、各文章には「文番号」が付されており、各単語、トライフォンおよび可変長音素列の発話時間が記録されている。

この音声合成装置１によれば、単語音素分割・音韻韻律情報付加部５の単語分割手段５ａで、入力されたテキストデータが単語に分割される。或いは、音素分割手段５ｂで、入力されたテキストデータが音素に分割される。そして、音韻韻律情報付加手段５ｄで、分割された単語（音素）毎に音韻韻律情報が付加される。続いて、音声合成用データベース探索部７で、音韻韻律情報が付加された単語（単語分割候補）または複数音素分割候補毎に、連結コスト（数式（１）に基づく）および音韻韻律コスト（数式（２）に基づく）が最小になる単語分割候補（複数音素分割候補）が音声データ列として、音声合成用データベース１３から探索される。音韻韻律補正部９で、各単語分割候補（複数音素分割候補）の連結部分および予測された韻律の異なる部分で補正が行われ、さらに、出力部１１で、音声合成データが出力される。

このため、複数音素分割候補が音声合成用データベース１３の探索単位とされ、この複数音素分割候補が音素分割候補の前後の調音結合を考慮したものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、当該装置１では音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、音韻韻律補正部９で、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。

また、この音声合成装置１によれば、単語音素分割・音韻韻律情報付加部５の可変長音素列分割手段５ｃによって、音素を任意数連結させた可変長音素列とされる。そして、音韻韻律情報付加手段５ｄで、可変長音素列に音韻韻律情報が付加される。続いて、音声合成用データベース探索部７で、音韻韻律情報が付加された可変長音素列分割候補の中で、連結スコア（数式（３）に基づく）および音韻韻律スコア（数式（４）に基づく）が最大となる可変長音素列分割候補の組み合わせが音声データ列として、音声合成用データベース１３から探索される。音韻韻律補正部９で、可変長音素列分割候補の組み合わせの連結部分および予測された韻律の異なる部分で補正が行われ、さらに、出力部１１で、音声合成データが出力される。

このため、可変長音素列分割候補が音声合成用データベース１３の探索単位とされ、この可変長音素列分割候補が前後の調音結合を考慮したものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができ、この可変長音素列分割候補を探索単位としているので、連結スコアおよび音韻韻律スコアを計算する計算候補を削減でき、当該装置１では音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、音韻韻律補正部９で、可変長音素列分割候補の組み合わせの連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。

さらに、音声合成用データベース探索部７で、音声合成用データベース１３に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合を考慮した複数の音素からなる複数音素分割候補が探索単位とされ、連結コスト（数式（１）に基づく）および音韻韻律コスト（数式（２）に基づく）が最小になる単語分割候補および複数音素分割候補が音声データ列として、音声合成用データベース１３から探索される。このため、未知の単語であっても、複数音素分割候補が音声合成用データベース１３の探索単位とされ、この複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができる。

（音声合成装置の動作）
次に、図２に示すフローチャートを参照して、音声合成装置１の動作を説明する（適宜、図１参照）。
まず、音声合成装置１のユーザが、当該装置１の入力部３のＯＣＲ機能を使用して、手書き文章を入力したり、入力部３のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ（入力日本語テキスト）を入力したりする。つまり、この音声合成装置１の入力部３で、様々な態様で入力された情報が、テキストデータとして、単語音素分割・音韻韻律情報付加部５に送出される（ステップＳ１）。

テキストデータを受け取った単語音素分割・音韻韻律情報付加部５では、当該テキストデータを単語に分割するかどうかを判断する（ステップＳ２）。また、テキストデータを単語に分割すると判断されない場合（ステップＳ２、Ｎｏ）、テキストデータを任意個数の音素を連結した可変長音素列の組み合わせとするかどうかを判断する（ステップＳ３）。

ステップＳ２において、テキストデータを単語に分割すると判断された場合（ステップＳ２、Ｙｅｓ）、単語分割手段５ａで、テキストデータが単語に分割される。続いて、音韻韻律情報付加手段５ｄで、分割された単語毎に、音声合成用データベース１３に記憶されている情報が参照されて音韻韻律情報が付加されて、単語分割候補とされ、音声合成用データベース探索部７に送出される（ステップＳ４）。

ステップＳ３において、テキストデータを可変長音素列の組み合わせとすると判断されなかった場合（ステップＳ３、Ｎｏ）、音素分割手段５ｂで、テキストデータが音素に分割される。続いて、音韻韻律情報付加手段５ｄで、分割された音素毎に、音声合成用データベース１３に記憶されている情報が参照されて音韻韻律情報が付加されて、音素分割候補とされ、音声合成用データベース探索部７に送出される（ステップＳ５）。

ステップＳ３において、テキストデータを可変長音素列の組み合わせとすると判断された判断された場合（ステップＳ３、Ｙｅｓ）、可変長音素列分割手段５ｃで、テキストデータが可変長音素列の組み合わせとされる。なお、テキストデータが極端に短い場合（例えば、３個以下の音素からなる場合）には、テキストデータは、一つの可変長音素列とみなされる。続いて、音韻韻律情報付加手段５ｄで、可変長音素列毎に、音声合成用データベース１３に記憶されている情報が参照されて音韻韻律情報が付加されて、可変長音素列分割候補とされ、音声合成用データベース探索部７に送出される（ステップＳ６）。

なお、通常は、単語音素分割・音韻韻律情報付加部５に入力されたテキストデータを単語分割手段５ａで単語に分割し、単語（単語分割候補）に分割後、音声合成用データベース１３に該当する単語が含まれていないと判断された場合に、音素分割手段５ｂでテキストデータが音素に分割され、音韻韻律情報付加手段５ｄで、音韻韻律情報が付加される。

そして、音声合成用データベース探索部７に複数音素分割候補または単語分割候補が入力された場合（ステップＳ４、ステップＳ５を経た場合）、音声合成用データベース探索部７で複数音素分割候補（クラスタリング音素）または単語分割候補について、音声合成用データベース１３に記憶されている情報が参照され、複数音素分割候補（単語分割候補）の全ての組み合わせについて、連結コスト（数式（１）に基づく）と音韻韻律コスト（数式（２）に基づく）が計算される。計算された結果（ビタービサーチの結果）の中で、連結コストおよび音韻韻律コストが最も低くなった音声データ列が音韻韻律補正部９および出力部１１に送出される（ステップＳ７）。

また、音声合成用データベース探索部７に可変長音素列分割候補が入力された場合（ステップＳ６を経た場合）、音声合成用データベース探索部７で可変長音素列分割候補について、音声合成用データベース１３に記憶されている情報が参照され、可変長音素列分割候補の全ての組み合わせについて、連結スコア（数式（３）に基づく）と音韻韻律スコア（数式（４）に基づく）が計算される。計算された結果（ビタービサーチの結果）の中で、連結スコアおよび音韻韻律スコアが最も高くなった音声データ列が音韻韻律補正部９および出力部１１に送出される（ステップＳ８）。

また、音韻韻律補正部９では、音声合成用データベース探索部７におけるビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分、または、連結スコアおよび音韻韻律スコアが最も高くなった音声データ列の合成音声波形について、各可変長音素列分割候補の連結部分および予測された韻律の異なる部分の補正が行われ、補正結果が出力部１１に送出される（ステップＳ９）。

そして、出力部１１では、図示を省略した比較手段によって比較された結果に基づいて、音声合成データが外部に出力される（ステップＳ１０）。

（音声合成装置の具体的な音声合成例１）
ここで、音声合成装置１の具体的な音声合成例１を説明する。音声合成装置１の入力部３にテキストデータ（入力日本語テキスト）として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例１では、単語音素分割・音韻韻律情報付加部５で単語分割候補または複数音素分割候補が音声合成用データベース探索部７に送出された場合のものである。

単語音素分割・音韻韻律情報付加部５の出力は、「〈文頭〉＿また＿東京＿都＿の＿石原＿知事＿は＿次＿の＿ように＿話して＿います＿〈文末〉」となる。なお、この各単語分割候補にはそれぞれ音韻韻律情報が付加されている。そして、次の音声合成用データベース探索部７では、まず、音声合成用データベース１３中の「〈文頭〉」から、音声合成用データベース１３中の「また」へ接続する全ての組み合わせについて、数式（１）によって連結コストと、数式（２）によって音韻韻律コストとが計算される。

計算された結果、音声合成用データベース１３中１番初めの「また」に接続する「文頭」の単語分割候補（音声データ）で連結コストと音韻韻律コストとが一番低かったものが音声合成用データベース探索部７で記録される。そして、数式（１）によって連結コストと、数式（２）によって音韻韻律コストとが計算、記録動作が音声合成用データベース１３中の全ての「また」について実行される。さらに、「東京」についても同様に、音声合成用データベース１３中１番始めの「東京」に接続する「〈文頭〉＿また」の単語分割候補（音声データ）で数式（１）によって連結コストと、数式（２）によって音韻韻律コストとが一番低かったものが音声合成用データベース探索部７で記録される。そして、連結コストおよび音韻韻律コストの計算、記録動作が音声合成用データベース１３中の全ての「東京」について実行される。

次に、「石原」という単語分割候補が音声合成用データベース１３中に存在していない場合には、「石原」に付加されている音韻韻律情報「ｉ＿ｓｈ＿ｉ＿ｈ＿ａ＿ｒ＿ａ」が使用され、音声合成用データベース１３中の一番初めにある「ｏ−ｉ＋ｓｈ」の属するクラスターに接続する「〈文頭〉＿また＿東京＿都＿の」の単語分割候補（音声データ）で数式（１）によって連結コストと、数式（２）によって音韻韻律コストとが一番低かったものが記録される。こういった計算、記録動作が音声合成用データベース１３中の全ての「ｏ−ｉ＋ｓｈ」について実行される。

続いて、音声合成用データベース１３中一番初めにある「ｉ−ｓｈ＋ｉ」に接続する「〈文頭〉＿また＿東京＿都＿の＿ｏ−ｉ＋ｓｈ」の単語分割候補（音声データ）で連結コストおよび音韻韻律コストが一番低かったものが記録される。また、数式（１）によって連結コストと、数式（２）によって音韻韻律コストとの計算、記録動作が音声合成用データベース１３中の全ての「ｉ−ｓｈ＋ｉ」が属するクラスターに含まれるデータについて実行される。連結コストおよび音韻韻律コストの計算、記録動作が文末に到達するまで繰り返し実行される。

最後に「〈文頭〉＿また＿東京＿都＿の＿Ｓ（ｏ−ｉ＋ｓｈ）＿Ｓ（ｉ−ｓｈ＋ｉ）＿Ｓ（ｓｈ−ｉ＋ｈ）＿Ｓ（ｉ−ｈ＋ａ）＿Ｓ（ｈ−ａ＋ｒ）＿Ｓ（ａ−ｒ＋ａ）＿Ｓ（ｒ−ａ＋ｃｈ）＿知事＿は＿次＿のよう＿に＿話して＿います＿〈文末〉」の単語分割候補（音声データ）で連結コストと音韻韻律コストとが一番低かったものが音声合成データ（出力音声合成結果）として出力される。なお、ここでは、Ｓ（ｉ−ｈ＋ａ）はｉ−ｈ＋ａというトライフォンが属するクラスターを示すものである。

（音声合成装置の具体的な音声合成例２）
また、ここで、音声合成装置１の具体的な音声合成例２を説明する。音声合成装置１の入力部３にテキストデータ（入力日本語テキスト）として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例２では、単語音素分割・音韻韻律情報付加部５で可変長音素列分割候補が音声合成用データベース探索部７に送出された場合のものである。

この場合、単語音素分割・音韻韻律情報付加部５の出力は「（ｍａｔ）（ａｔ）（ｏ：ｋｙｏ’：ｔｏ）（ｎｏ）（ｉｓｈｉｈａｒ）（ａｃｈ）（ｉ’ｊ）（ｉｗ）（ａｔｓｕｇｉｎｏｙｏ’：ｎ）（ｉｈａｎａ’ｓｈｉｔｅｉｍａｓｕ）」とする。なお、「（ａｔ）」と表記した場合、この実施の形態では、前後の音素環境を考慮した前の音素が「ｔ」で後の音素が「ｏ：」になる「（ａｔ）」のみを想定することとする。この各可変長音素列分割候補には、それぞれ音韻韻律情報が付加されている。

次に、音声合成用データベース探索部７では、まず、音声合成用データベース１３中の「（ｍａｔ）」から音声合成用データベース１３中の「（ａｔ）」に接続する全ての組み合わせについて、数式（３）を使用して求める連結スコアおよび数式（４）を使用して求める音韻韻律スコアを計算する。

計算された結果、音声合成用データベース１３中、１番始めの「（ａｔ）」に接続する「（ｍａｔ）」の可変長音素列分割候補の中で連結スコアおよび音韻韻律スコアが一番大きいものが音声合成用データベース探索部７で記録される。そして、数式（３）を使用して求める連結スコアおよび数式（４）を使用して求める音韻韻律スコアの計算、記録動作が音声合成用データベース１３中の全ての「（ａｔ）」について実行される。

さらに、「（ｏ：ｋｙｏ’：ｔｏ）」についても同様に、音声合成用データベース１３中、１番始めの「（ｏ：ｋｙｏ’：ｔｏ）」に接続する「（ｍａｔ）」「（ａｔ）」の可変長音素列分割候補の中で連結スコアおよび音韻韻律スコアが一番大きいものが音声合成用データベース探索部７で記録される。そして、数式（３）を使用して求める連結スコアおよび数式（４）を使用して求める音韻韻律スコアの計算、記録動作が音声合成用データベース１３中の全ての「（ｏ：ｋｙｏ’：ｔｏ）」について実行される。

最後に、可変長音素列分割候補の組み合わせの中で、連結スコアおよび音韻韻律スコアが一番大きいものが音声合成データ（出力音声合成結果）として出力される。

（クラスタリングされたトライフォンについて）
ここで、クラスタリングされたトライフォンの各次元の正規化について、次式（数式（５）、数式（６））を示して補足説明をする。

この数式（５）より以下の項が算出される。

この数式（５）は、数式（１）におけるΣの項の［σ^S(A) _i＋σ^S(B) _i＋（μ^S(A) _i−μ^S(B) _i）²］の導出を示したものである。この数式（６）に示したように、ｘ^E _iA−ｘ^I _iBの差の自乗平均値はσ^S(A) _i＋σ^S(B) _i＋（μ^S(A) _i−μ^S(B) _i）²となり、これによってｘ^E _iA−ｘ^I _iBの差の自乗値を除算することにより各次元を正規化することができる。

（音声合成装置による音声合成実験について）
次に、音声合成装置１を使用して、音声合成実験を行った結果について、図３から図７を参照して説明する（適宜、図１参照）。この音声合成実験では、入力する入力日本語テキストの間違った読みの付与を避けるために、人手で確認し修正した音素記号列を入力することとした。また、基本周波数、音素長の予測間違いを避けるため、音声合成用データベース１３に保持しているデータには、正確な文法で記述された複数の文章が収められた入力テキストをアナウンサー等が発声している自然音声から抽出したものを使用している。

図３は、音声合成装置１に入力した入力日本語テキスト（音素記号列）と当該音素記号列の音声合成における音声合成用データベース１３の探索（ビタービサーチ）を模式的に示したものである。音声合成装置１に入力した音素記号列は、“ｚｅｎｋｏｋｕｎｏｔｅｎｋｉｄｅｓｉｔａ”（全国の天気でした）であり、単語音素分割・音韻韻律情報付加手段５の可変長音素列分割手段５ｃによって、音素記号列を分割する個数が最小になり、それぞれの長さがなるべく均等になる音素列（音素環境依存音素列とする）に分割する。

次に、音声合成装置１の音声合成用データベース探索部７では、ビタービサーチ（Ｖｉｔｅｒｂｉアルゴリズム）を使用して、文頭から順に、音声合成用データベース１３の中から音声素片の探索を行い、基本周波数、音素長の予測値との一致の度合いを表す目標スコア（音韻韻律スコア）と、隣り合う各音素片の一致の度合いを表す接続スコア（連結スコア）との和である総スコアが最大となる仮説のみを保持していく。但し、音声素片の探索では、枝狩りは行わず全てを探索する。

そして、音声合成装置１は、音素記号列の文末で最大のスコアを持つ仮説のパスを接続して、合成音声（音声合成データ）を出力している。

（対比較実験について）
これより、音声合成装置１によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを使用して、自然性（より自然に聞こえるか）に関して比較した対比較実験について説明する。音声合成用データベース１３に予め蓄積したデータは、１９９６年６月３日から２００１年６月２２日までのＮＨＫニュースデータベースに存在する森田アナウンサーにより発声された２７７８８文章と森田アナウンサーが読み上げたバランス文１００文章の計８６時間分を全て収めたものであり、総トライフォン３８４万、異なりトライフォン数８７７１である。また、音声合成装置１で合成した音声合成データと比較の対象となる評価用テキストには、２００１年６月２５日から６月２９日までのＮＨＫニュース１０で森田アナウンサーが発声した１００文章（音素数１３７７７）を使用した。

この対比較実験は、防音室内でスピーカを用いて行い、当該実験の被験者は、音声評定の経験のある女性４名（被験者Ａ〜Ｄ）である。また、この対比較実験では、評価用テキスト１００文全てを受聴させ、それぞれの受聴は１回のみに限定した。この対比較実験の各試行は、音声合成装置１によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを対でランダムな順序で呈示し、被験者がより自然に感じる方を選択するように当該被験者に指示を与えた。なお、この対比較実験は、各被験者に適度な時間間隔で休憩をとってもらいながら行った。

この対比較実験の実験結果を図４に示す。この図４に示すように、全体（ｔｏｔａｌ）で６４％の音声に関して、音声合成装置１によって合成した音声合成データ（本発明に係るものなので、以下、提案法と略記する）の方が、探索単位として単語を使用した場合のデータ（従来法によるものなので、以下、従来法と略記する）に比べて、自然であると評価された。なお、被験者Ｄのみが異なる割合を示しているが、それ以外の被験者Ａ〜Ｃは同じ割合を示している。

また、音声合成にかかる処理時間は、合成した音声合成データの時間長を基準にすると、従来法で２６．１倍、提案法で２．２４倍となった。また、１文章中の平均素片探索回数は、従来法で４４．６回、提案法で５３．８回となった。一方、１探索当たりの平均仮説数は、従来法では２１１８、提案法では５８２である。従って、提案法では、前後の音素環境を考慮するため探索回数は増加するが、仮説数が減少するので、処理時間の短縮に繋がっているといえる。

さらに、提案法の場合、１文章平均で１３７．８音素含まれることを考慮すると、１文章当たりの接続点数は３１．５であるので、平均４．４音素連続して音声合成用データベース１３から選択されていることとなる。

すなわち、この対比較実験から、音声合成装置１を利用した音声合成である提案法は、単語を探索単位とした従来法に比べ、従来法のほぼ１０分の１の処理時間で、自然性の高い音声合成データを合成できる。

（５段階品質評価実験について）
次に、音声合成装置１を使用した５段階品質評価実験について説明する。この５段階品質評価実験は、音声合成装置１に対比較実験で使用したデータの８分の１、４分の１、２分の１、１のデータを音声合成用データベース１３に蓄積し、評価用テキストとして２００１年６月２８日から６月２９日までに放送されたＮＨＫのニュース番組の中で、音声合成用データベース１３に蓄積した音声を発したアナウンサーと同じアナウンサーが発声した背景音がない４０文章（１４４４単語、５９２７音素）を使用し、当該音声合成装置１で合成した１６０の音声合成データと、基本周波数および音素長の抽出の対象にした４０の自然音声データとの合計２００音声（評価用データとする）に対して５段階で品質評価を行ったものである。

この５段階品質評価実験は、対比較実験と同様に、防音室内で、スピーカを用いて行っており、被験者は音声評定の経験がある女性４名（被験者Ａ〜Ｄ）である。各試行では、評価用データをランダムな順序で被験者Ａ〜Ｄに呈示し、被験者Ａ〜Ｄは自然性の違いを評価する。この自然性の評価は、“５”（自然である）、“４”（不自然な部分はあるが気にならない）、“３”（少し気になる）、“２”（気になる）、“１”（非常に気になる）の５段階で品質評価を行うこととした。なお、品質評価に先立ち、被験者Ａ〜Ｄには、音声合成用データベース１３内の音声を３文章聞かせて、どの程度の音声であれば、自然に聞こえるとするかといった評価基準（インストラクション）を与えた。また、評価用テキストとして実際に放送されたニュース文を利用しているので、１文の長さが平均１０秒程度と長いことから、受聴は１回のみに限定し、適度な間隔で休憩を挟みながら行った。

ここで、音声合成用データベース１３の大きさ（テータ量）によるＭＯＳ（ＭｅａｎＯｐｉｎｉｏｉｎＳｃｏｒｅ）の変化を図５に示す。この図５に示すように、自然音声の評価は、被験者Ａで５．００、被験者Ｂで５．００、被験者Ｃで４．９７、被験者Ｄで４．９５となり、全体で４．９８となった。また、音声合成用データベース１３の大きさによる評価分析の違いを図６に示す。この図６に示すように、自然音声の“５”（自然である）と評価されたのは全体の９８％であるため、図６中には図示されていない。

また、音声合成用データベース１３には、８６時間分のデータが含まれており、この８６時間分のデータを使用して音声合成データを合成した場合の平均評価は３．６となり、「不自然な部分があるが気にならない」と「少し気になる」との間の自然性を持つと言え、従来法の平均評価２．６（図示せず）と比べ、かなり良い評価であると言える。

また、図６の８６時間の評価分布から、全体の２４％の音声合成データが“５”（自然である）と評価されていて、提案法により自然音声と変わらない品質の音声合成データが高頻度で合成されていると言える。

さらに、図５から音声合成用データベース１３のデータ量が大きくなると自然性の評価が向上して行くと言える。しかし、音声合成用データベース１３のデータ量が４３時間を超えたところでほぼ飽和しており、これ以上、データ量を増加させても音声合成データの自然性の改善効果は小さいと言える。すなわち、音声合成装置１は、音声合成用データベース１３のデータ量を４０時間程度確保すれば、自然音声と変わらない品質の音声合成データを合成することができる。

５段階品質評価実験の評価の結果を、被験者毎にみると、被験者により絶対的な評価の違いはあるものの、音声合成用データベース１３のデータ量に関しては、全員同じ傾向を示している。被験者Ａと被験者Ｃとで平均０．８の評価の違いが見られるが、この違いは、不自然な箇所をどれだけ気にするかといった主観的なものであると推察している。

さらに、図６から、音声合成用データベース１３のデータ量が小さくなると、“５”（自然である）および“４”（不自然な部分はあるが気にならない）と評価された音声合成データが減少していき、逆に“３”（少し気になる）、“２”（気になる）、“１”（非常に気になる）と評価された音声合成データが増加していく傾向にある。なお、８６時間の音声合成用データべース１３による音声合成データで“２”および“１”の評価を受けたものは全体の１９％である。

ここで、さらに、音声合成用データベース１３のデータ量による、合成処理時間、隣り合う音声素片が当該音声合成用データベース１３内で異なる位置から選択されている不連続点数を図７に示す。この図７に示すように、音声合成用データベース１３のデータ量を大きくすると、音素環境依存音素列数および最長音素列の音素数は増加する。このため、１文当たりの平均探索回数は減少していき、クラスタリングされたトライフォンによる探索回数も減少する。一方、１回の探索当たりの平均仮説数は増加するが、探索回数の減少のために、音声合成用データベース１３のデータ量を大きくしても、合成処理時間はそれほど増加しない。また、ＣＰＵＴＩＭＥが実際の合成処理時間よりも少ないのは、処理時間のほとんどが合成素片データ（可変長音素列分割候補）のファイルの読み込みに費やされているためである。

この図５から図７で示したように、音声合成装置１は、前後の音素環境を考慮した可変長音素列を探索単位とすることで、自然性に関する絶対評価実験を行った結果から、音声合成データの平均評価は３．６となり、「不自然な部分はあるが気にならない」と「少し気になる」の間の自然性を持つ音声合成データを合成することができる。

また、音声合成装置１の音声合成用データベース１３のデータ量を変えて自然性に関する絶対評価実験を行った結果、音声合成用データベース１３のデータ量が大きくなると、自然性の評価も向上するが、４３時間を超えたところでほぼ飽和する、逆に４０時間程度のデータを確保すれば、合成した音声合成データの自然性を維持できると言える。さらに、音声合成用データベース１３のデータ量を大きくしても、合成処理時間はそれほど増加しないと言える。

以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。例えば、音声合成装置１の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置１と同様の効果を得ることができる。

本発明による一実施の形態を示す音声合成装置のブロック図である。図１に示した音声合成装置の動作を説明したフローチャートである。音声合成装置に入力した入力日本語テキスト（音素記号列）と当該音素記号列の音声合成における音声合成用データベースの探索（ビタービサーチ）を模式的に示した図である。対比較実験の実験結果を示した図である。音声合成用データベースの大きさ（テータ量）によるＭＯＳの変化を示した図である。音声合成用データベースの大きさによる評価分析の違いを示した図である。音声合成用データベースのデータ量による、合成処理時間、隣り合う音声素片が当該音声合成用データベース内で異なる位置から選択されている不連続点数を示した図である。

符号の説明

１音声合成装置
３入力部
５単語音素分割・音韻韻律情報付加部
５ａ単語分割手段
５ｂ音素分割手段
５ｃ可変長音素列分割手段
５ｄ音韻韻律情報付加手段
７音声合成用データベース探索部
９音韻韻律補正部（音声データ補正手段）
１１出力部
１３音声合成用データベース

Claims

音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加ステップと、
この音素分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。
音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加ステップと、
この可変長音素列分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。
単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索ステップと、
この音声データ探索ステップにてビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含み、
前記音声データ探索ステップは、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成方法。
入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段と、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。
入力されたテキストデータを音声合成する音声合成装置であって、
音素およびこの音素の発話時間を記憶している音声合成用データベースと、
入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段と、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。
を備えることを特徴とする音声合成装置。
入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースからビタービサーチする音声データ探索手段と、
この音声データ探索手段でビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備え、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成装置。
前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストを算出する際の係数を決定し、当該係数を使用することを特徴とする請求項６に記載の音声合成装置。
入力されたテキストデータを音声合成する装置を、
前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段、
この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストと音韻韻律コストとの和が最小になる音素分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。
入力されたテキストデータを音声合成する装置を、
前記テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段、
この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストと音韻韻律コストとの和が最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を可変長音素列分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。
入力されたテキストデータを音声合成する装置を、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データ記憶手段に存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストと音韻韻律コストとの和が最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データ記憶手段からビタービサーチする音声データ探索手段、
この音声データ探索手段でビタービサーチされた前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、として機能させ、
前記音声データ探索手段は、前記連結コストの算出に隠れマルコフモデルの分散値および平均値を複数音素分割候補の統計量として用いて各次元に正規化し、ケプストラム距離と前記基本周波数とを使用することを特徴とする音声合成プログラム。