JP2004109535A

JP2004109535A - 音声合成方法、音声合成装置および音声合成プログラム

Info

Publication number: JP2004109535A
Application number: JP2002272416A
Authority: JP
Inventors: Hiroyuki Segi; 世木　寛之; Toru Tsugi; 都木　徹
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2002-09-19
Filing date: 2002-09-19
Publication date: 2004-04-08

Abstract

【課題】音声合成用データベースの探索単位に単語の性質を考慮したコスト関数を使用することができる音声合成方法、装置およびプログラムを提供する。
【解決手段】テキストデータを音声合成する音声合成装置１であって、音声合成用データベース１３と、テキストデータを各単語に分割し、この単語に音素、基本周波数を含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加部５と、単語分割候補の音素表記と、音声合成用データベース１３内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を、音声合成用データベース１３から探索する音声合成用データ探索部７と、探索した音声データ列の単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音韻韻律補正部９と、補正を行った結果を音声合成データとして出力する出力部１１と、を備えた。
【選択図】　　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、音声合成用データを用いて、テキストデータを音声合成する音声合成方法、音声合成装置および音声合成プログラムに関する。
【０００２】
【従来の技術】
従来、音声合成の方法（装置）には、例えば、次のような方法（装置）が開示されている（自然発話音声波形信号接続型音声合成装置、特許文献１参照）。
【０００３】
この公報で開示されている音声合成装置には、音素の発話時間が記憶されている音声合成用データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータ（文章）を音素列に分解した後、この分解した音素列を音素単位でつなぎ合わせる際の接続間における音韻韻律コストおよび連結コストの和が最小になるものを、音声合成用データベースから探索し、探索した結果を音声合成データとして出力するものである。
【０００４】
【特許文献１】
特開平１０−４９１９３号公報（段落番号１４〜１８、第１図）
【０００５】
【発明が解決しようとする課題】
しかしながら、従来の「音声合成装置」では、音韻韻律コストの算出に、ケプストラム、デルタケプストラム、基本周波数、音素時間長の差分等を利用しており、連結コストの算出に、ケプストラム距離、対数パワーの差の絶対値、基本周波数の差の絶対値等を利用しており、音声合成用データベースの探索単位が音素であったので、単語の性質を利用したコスト関数を使用することができないという問題がある。
【０００６】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声合成用データベースの探索単位に単語の性質を考慮したコスト関数を使用することができる音声合成方法、音声合成装置および音声合成プログラムを提供することにある。
【０００７】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項１記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【０００８】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞（各単語）に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語をローマ字で表現した際の音素表記について、テキストデータの単語と音声合成用データベース中の単語との間でマッチングが取られる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【０００９】
なお、音韻韻律情報は、分割された単語を構成する音素と、単語毎の基本周波数とに関する情報である。動的計画法は、ＤＰ（Ｄｙｎａｍｉｃ　Ｐｒｏｇｒａｍｍｉｎｇ）であり、認識手法の一つで、ビタビ計算を適用するものである。音韻韻律コストは、入力されたテキストデータから予測される、漢字の読み方（音素）や、基本周波数が音声合成用データベースに記憶されている単語および音素のデータに類似しているかどうかを示す指標で、この音韻韻律コストが低いほど、予測とデータとが類似していることになる。連結コストは、接続される単語がどれだけ滑らかに接続されるかを示す指標に相当するもので、接続される２つの音声波形から抽出した特徴量の差を正規化したものを特徴量の個数だけ計算したものである。この連結コストが低いほど、２つの単語は滑らかに（より自然に）接続されることになる。また、連結コストおよび音韻韻律コストが最小になる単語分割候補とは、連結コストと音韻韻律コストとの和が最小になるものである。
【００１０】
請求項２記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【００１１】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞（各単語）に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース中の単語の基本周波数の基準値から差分値とが似かよっていればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
なお、基本周波数の基準値とは、例えば、最小値、最大値、平均値等であり、統計的に規定することができる数値である。
【００１２】
請求項３記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【００１３】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞（各単語）に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、アクセント型が一致していればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【００１４】
なお、アクセント型とは、例えば、２つの音素からなる単語であれば、前方の音素にアクセントがあるもの（仮に、二音素前方アクセント型とする）、後方の音素にアクセントがあるもの（仮に、二音素後方アクセント型とする）といったように分類できるものである。
【００１５】
請求項４記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声合成用データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【００１６】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００１７】
請求項５記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【００１８】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００１９】
請求項６記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【００２０】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００２１】
請求項７記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データ記憶手段に記憶される単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【００２２】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データ記憶手段の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００２３】
請求項８記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データ記憶手段に記憶される単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【００２４】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データ記憶手段内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００２５】
請求項９記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【００２６】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データ記憶手段内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【００２７】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
（音声合成装置の構成）
図１を参照して、音声合成装置の構成を説明する。図１は、音声合成装置のブロック図であり、この図１に示すように、音声合成装置１は、入力されたテキストデータ（入力日本語テキスト）から音声合成データ（出力音声、合成結果）を出力するものであり、入力部３と、単語分割・音韻韻律情報付加部５と、音声合成用データベース探索部７と、音韻韻律補正部９と、出力部１１と、音声合成用データベース１３とを備えている。
【００２８】
入力部３は、キーボード、マウス等を備えて構成され、マンマシンインターフェースの役割を果たすものであり、音声合成装置１のユーザが記述した文章（テキストデータ：入力日本語テキスト）を入力するものである。また、この入力部３は、ＯＣＲの機能を有しており、手書きされた文字も認識してテキストデータに変換するものである。さらに、この入力部３は、磁気媒体で構成されるフレキシブルディスクに記録されているテキストデータを読みとるデータ読出機能を有している。なお、この実施の形態では、入力部３には、複数の入力機能が備えられているが、少なくとも１個の入力機能を備えていればよい。
【００２９】
単語分割・音韻韻律情報付加部５は、単語分割手段５ａと、音韻韻律情報付加手段５ｂとを備えている。単語分割手段５ａは、入力部３から送出されたテキストデータについて、形態素解析を行って、当該テキストデータを単語（単語単位）に分割するものである。音韻韻律情報付加手段５ｂは、単語分割手段５ａで分割された単語に音韻韻律情報を付加して、単語分割候補を音声合成用データベース探索部７に出力するものである。
【００３０】
なお、形態素解析とは、文章を語句より小さな形態素（語句をさらに細分化したもの）のレベルまで分解して解析することで、日本語のように、文章中の語句の切り出しが明確でない言語の場合、形態素解析は“語句の切り出し”と同様な意味をもつことになる。ちなみに、日本語における形態素解析では、形態素同士の接続情報（名詞には助詞「が」が接続しうる）等の文法記述をすることが一般的である。また、音韻韻律情報とは、音素や基本周波数等に関する情報である。
【００３１】
音声合成用データベース探索部７は、単語分割・音韻韻律情報付加部５から送出された単語分割候補（音韻韻律情報が付加されている）を音声合成用データベース１３から探索するものであり、音素表記比較判定手段７ａと、基本周波数差分値比較判定手段７ｂと、アクセント型比較判定手段７ｃとを備えている。
【００３２】
音素表記比較判定手段７ａは、単語分割・音韻韻律情報付加部５から送出された単語分割候補の音素表記と、音声合成用データベース１３内の単語の音素表記との動的計画法によるマッチング（比較判定）をし、このマッチングの結果（判定結果）に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部９および出力部１１に出力するものである。この実施の形態では、単語分割候補の音素表記と、音声合成用データベース１３内の単語の音素表記とが似かよっているほど、音素表記比較判定手段７ａが低いコスト（数値、完全一致では０）を算出するように構成されている。この音素表記比較判定手段７ａでは、単語分割・音韻韻律情報付加部５から送出された単語分割候補を一時的に保持する保持機能が備えられており、音声合成用データベース１３に記憶されている単語と比較判定する際に使用される構成となっている。
【００３３】
例えば、単語分割候補「次」という単語について、音素表記比較判定手段７ａの比較判定の具体例を説明する。この単語分割候補「次」の音素表記は「ｔｓ　ｕ　ｇ　ｉ」となる。そして、音声合成用データベース１３内に記憶されている単語の音素表記がデータ１で「ｔｓ　ｕ　ｇ　ｉ」（次）、データ２で「ｔｓ　ｕ　ｇ　ｉ」（次）、データ３で「ｊｉ」（次）である場合、データ１およびデータ２の「ｔｓ　ｕ　ｇ　ｉ」（次）が完全一致となり、音韻韻律コストおよび連結コストが０となる。なお、連結コストは後記する数式１で算出され、音韻韻律コストは後記する数式２で算出される。
【００３４】
基本周波数差分値比較判定手段７ｂは、単語分割・音韻韻律情報付加部５から送出された単語分割候補の基本周波数（一般的にＦ_０と表記される）の基準値からの差分値と、音声合成用データベース１３内において、単語の基本周波数の基準値からの差分値とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部９および出力部１１に出力するものである。この実施の形態では、基本周波数の基準値は、基本周波数の平均値を用いている。
【００３５】
例えば、単語分割候補「ビニール（ハウス）」という単語について、基本周波数差分値比較判定手段７ｂの比較判定の具体例を説明する。この単語分割候補「ビニール（ハウス）」の音素表記は「ｂｉｎｉ：ｒｕ」となる。そして、音声合成用データベース１３内に記憶されている単語の音素表記が「ｂｉｎｉ：ｒｕ」：ビニール（で）、「ｂｉｎｉ：ｒｕ」：ビニール（テープ）、「ｂｉｎｉ：ｒｕ」：ビニール（センイ）である場合、それぞれの基本周波数は異なっており、しかも、基本周波数の平均値からの差分値は、顕著に異なっている。このため、音声合成用データベース１３内に記憶されている単語「ビニール（テープ）」、「ビニール（センイ）」の基本周波数の平均値の差分値と、単語分割候補「ビニール（ハウス）」の基本周波数の平均値の差分値とが最も似かよっていることになり、音韻韻律コストおよび連結コストが小さくなる。なお、連結コストは後記する数式１で算出され、音韻韻律コストは後記する数式３で算出される。
【００３６】
アクセント型比較判定手段７ｃは、単語分割・音韻韻律情報付加部５から送出された単語分割候補のアクセント型と、音声合成用データベース１３内の単語のアクセント型とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部９および出力部１１に出力するものである。このアクセント型比較判定手段７ｃによるアクセント型の比較判定は、アクセント型が完全に一致している場合０が出力され、不一致である場合１が出力される。
【００３７】
例えば、前記した例（ビニール）で説明すると、単語分割候補「ビニール（ハウス）」という単語は０型のアクセントであるのに対し、音声合成用データベース１３中の「ビニール（で）」は２型、「ビニール（テープ）」および「ビニール（センイ）」は０型であるので、「ビニール（で）」のコストは１となり、他のコストは０となる。なお、連結コストは後記する数式１で算出され、音韻韻律コストは後記する数式４で算出される。また、アクセント型の詳細は後記する（図３を使用して説明する）。
【００３８】
つまり、この音声合成用データベース探索部７では、単語分割候補が入力されると、音声合成用データベース１３に存在する単語分割候補の全ての組み合わせについてビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列が送出される。また、ビタービサーチとは、最大（最小）のスコアを与える仮説（単語分割候補の組み合わせ）の履歴のみを残して計算していく手法のことである。
【００３９】
また、この音声合成用データベース探索部７では、各単語分割候補の連結コストおよび音韻韻律コストの計算結果を記録するコスト計算結果記録機能（図示せず）を有しており、逐次計算した結果が記録されている。
【００４０】
連結コストの計算は、例えば、以下に示す数式に基づいて行われる。この連結コストの計算は、従来の音声合成装置におけるものと同様の数式で実行されている。
【００４１】
【数１】

【００４２】
ただし、Ｃ（Ａ，Ｂ）は素片Ａと素片Ｂとが連続したときの連結コスト、Ｐ^Ｅ _Ａは素片Ａの終わりの音素の基本周波数、Ｐ^Ｉ _Ｂは素片Ｂの始めの音素の基本周波数、ｘ^Ｅ _ｉＡは、ｉ次元目における素片Ａの終わりの音素のケプストラム係数、ｘ^Ｉ _ｉＢは、ｉ次元目における素片Ｂの始めの音素のケプストラム係数、ω_１、ω_２は正の重み、Ｃは正の定数、δ_ＡＢは素片Ａと素片Ｂとが連続して音声合成用データベース１３内にある場合を０、ない場合１を、それぞれ示すものである。
【００４３】
音韻韻律コストの計算は、例えば、以下に示す数式に基づいて行われる。数式２が音素表記比較判定手段７ａで使用されるもので、数式３が基本周波数差分値比較判定手段７ｂで使用されるもので、数式４がアクセント型比較判定手段７ｃで使用されるものである。
【００４４】
【数２】

【００４５】
【数３】

【００４６】
【数４】

【００４７】
ただし、Ｃ（Ｗ）は音韻韻律コスト、Ｓ_ＤＰ（Ｗ）は入力された単語の音素表記と音声合成用データベース１３内の単語の音素表記との動的計画法によるマッチングをとり、１に正規化したスコア、／Ｐ^ｊ _Ｐはｊ番目のトライフォンの予測周波数から単語内での基本周波数平均値を減算したもの、／Ｐ^ｊ _Ｔはｊ番目のトライフォンの音声合成用データベース１３内の単語の基本周波数から、当該単語内での基本周波数平均値を減算したもの、ω_３、ω_４は正の重み、δ_ＰＴはアクセント型が一致するときに０を、一致しない場合１を、それぞれ示すものである。ここで、日本出願の明細書では、文字修飾でルビ（オーバーライン）を記述することができないために、ルビ（オーバーライン）の代わりに／を用いる。
【００４８】
さらに、この音声合成用データベース探索部７では、ビタービサーチの計算時間の短縮を図るために、ビームサーチが実行され、探索の途中で一番よいスコアから決定された閾値内に入らない仮説（単語分割候補同士の連結）の削除が実行される。なお、ビームサーチとは、あるスコアの値から特定値以上のスコアの値を持つ仮説に絞り込んで（特定値未満のスコアの値を持つ仮説は除外して）計算する手法である。また、この音声合成用データベース探索部７が請求項に記載した音声データ探索手段に相当するものである。
【００４９】
音韻韻律補正部９は、音声合成用データベース探索部７の探索結果である音声データ列の補正を行うためのもので、単語分割・音韻韻律情報付加部５から送出された単語分割候補の全ての組み合わせについてビタービサーチが実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正を行うものである。
【００５０】
つまり、この音韻韻律補正部９は、例えば、入力された文章の文頭（文頭の単語分割候補）の次に続く単語分割候補がもつべき音韻韻律情報を予測して、この予測した予測値（予測音韻韻律情報とする）と、音声合成用データベース１３中に記憶されている文字列の値（既定音韻韻律情報とする）との類似度を比較することによって、一定以上の類似度の範囲に収まるように音声データ列の合成音声波形を補正するものである。なお、この合成音声波形の補正に関しては、特開平２−４７７００号公報に記載されている方法を適用することとする。また、この音韻韻律補正部９が請求項に記載した音声データ補正手段に相当するものである。
【００５１】
出力部１１は、音声合成用データベース探索部７で計算された計算結果である音声データ列または音韻韻律補正部９で補正された音声データ列（出力音声合成結果）を外部に出力するためのものである。この出力部１１には、図示を省略した比較手段が備えられており、この比較手段によって、音声合成用データベース探索部７で計算された音声データ列と、音韻韻律補正部９で補正された音声データ列とが比較され、比較した結果に基づき、音声データ列が補正されている場合には、音韻韻律補正部９で補正された音声データ列が出力される。この実施の形態では、この出力部１１には、スピーカ等の音声出力装置（図示せず）が接続されている。
【００５２】
音声合成用データベース１３は、大容量のハードディスク等で構成されており、単語毎に音声データ（音声波形）、音韻韻律情報（音素、アクセント）、および発話時間を記憶しているものである。なお、この音声合成用データベース１３には、入力されたテキストデータの文章の「文頭」を示す情報が記憶されている。この「文頭」を示す情報を基点にして、音声合成用データベース探索部７で「文頭」に続いていく単語分割候補の連結コストと音韻韻律コストとが算出される。
【００５３】
この音声合成装置１によれば、単語分割・音韻韻律情報付加部５の単語分割手段５ａで、入力されたテキストデータが単語に分割される。そして、音韻韻律情報付加手段５ｂで、分割された単語毎に音韻韻律情報が付加される。続いて、音声合成用データベース探索部７で、音韻韻律情報が付加された単語（単語分割候補）毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として、音素表記比較判定手段７ａ、基本周波数差分値比較判定手段７ｂまたはアクセント型比較判定手段７ｃで、音声合成用データベース１３から探索される。さらに、出力部１１で、音声データ列が出力される。このため、音声合成用データベース探索部７の各手段により、音声合成用データベース１３の探索単位に単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いやアクセントの違いを区別することができる。
【００５４】
また、この音声合成装置１には、音韻韻律補正部９が備えられており、この音韻韻律補正部９によって、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【００５５】
（音声合成装置の動作）
次に、図２に示すフローチャートを参照して、音声合成装置１の動作を説明する（適宜、図１参照）。
まず、音声合成装置１のユーザが、当該装置１の入力部３のＯＣＲ機能を使用して、手書き文章を入力したり、入力部３のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ（入力日本語テキスト）を入力したりする。つまり、この音声合成装置１の入力部３で、様々な態様で入力された情報が、テキストデータとして、単語分割・音韻韻律情報付加部５に送出される（Ｓ１）。
【００５６】
テキストデータを受け取った単語分割・音韻韻律情報付加部５では、単語分割手段５ａで、テキストデータが単語に分割される。続いて、音韻韻律情報付加手段５ｂで、分割された単語毎に、音声合成用データベース１３に記憶されている情報が参照されて音韻韻律情報が付加されて、単語分割候補とされ、音声合成用データベース探索部７に送出される（Ｓ２）。
【００５７】
そして、音声合成装置１のユーザの意向により、図示を省略した操作部が操作され、これに基づき、まず、音声合成用データベース探索部７で、音素表記により比較判定するか判断される（Ｓ３）。音素表記により比較判定すると判断された場合（Ｓ３、Ｙｅｓ）、音声合成用データベース探索部７の音素表記比較判定手段７ａで、音韻韻律コストの計算方法が設定される（Ｓ４）。
【００５８】
また、音素表記により比較判定すると判断されない場合（Ｓ３、Ｎｏ）、基本周波数差分値により比較判定するか判断される（Ｓ５）。基本周波数差分値により比較判定すると判断された場合（Ｓ５、Ｙｅｓ）基本周波数差分値比較判定手段７ｂで、音韻韻律コストの計算方法が設定される（Ｓ６）。
【００５９】
Ｓ５にて、基本周波数差分値により比較判定すると判断されない場合（Ｓ５、Ｎｏ）、アクセント型比較判定手段７ｃで、音韻韻律コストの計算方法が設定される（Ｓ７）。
【００６０】
また、音韻韻律補正部９では、音声合成用データベース探索部７におけるビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、補正結果が出力部１１に送出される（Ｓ８）。
【００６１】
そして、出力部１１では、図示を省略した比較手段によって比較された結果に基づいて、音声合成データが外部に出力される（Ｓ９）。
【００６２】
（音声合成装置の具体的な音声合成例）
ここで、音声合成装置１の具体的な音声合成例を説明する。音声合成装置１の入力部３にテキストデータ（入力日本語テキスト）として、「また東京都の石原知事は次のように話をしています」が入力された場合について説明する。
【００６３】
単語分割・音韻韻律情報付加部５の出力は、「また　東京　都　の　石原　知事　は　次　の　ように　話して　います」となる。なお、この各単語分割候補にはそれぞれ音韻韻律情報が付加されている。そして、次の音声合成用データベース探索部７では、まず、音声合成用データベース１３中の「文頭」から、音声合成用データベース１３中の「また」へ接続する全ての組み合わせについて、数式１によって連結コストと、数式２、数式３および数式４によって音韻韻律コストとが計算される。
【００６４】
計算された結果、音声合成用データベース１３中１番初めの「また」に接続する「文頭」の単語分割候補（音声データ）で連結コストと音韻韻律コストとが一番低かったものが音声合成用データベース探索部７で記録される。そして、数式１によって連結コストと、数式２、数式３および数式４によって音韻韻律コストとが計算、記録動作が音声合成用データベース１３中の全ての「また」について実行される。さらに、「東京」についても同様に、音声合成用データベース１３中１番始めの「東京」に接続する「文頭　また」の単語分割候補（音声データ）で数式１によって連結コストと、数式２、数式３および数式４によって音韻韻律コストとが一番低かったものが音声合成用データベース探索部７で記録される。そして、連結コストおよび音韻韻律コストの計算、記録動作が音声合成用データベース１３中の全ての「東京」について実行される。
【００６５】
次に、「石原」という単語分割候補が音声合成用データベース１３中に存在していない場合には、「石原」に付加されている音韻韻律情報「ｉ　ｓｈ　ｉ　ｈａ　ｒ　ａ」が使用され、音声合成用データベース１３中の一番初めにある「＊−ｉ＋ｓｈ」に接続する「また　東京　都　の」の単語分割候補（音声データ）で数式１によって連結コストと、数式２、数式３および数式４によって音韻韻律コストとが一番低かったものが記録される。こういった計算、記録動作が音声合成用データベース１３中の全ての「＊−ｉ＋ｓｈ」について実行される。
【００６６】
続いて、音声合成用データベース１３中一番初めにある「ｉ−ｓｈ＋ｉ」に接続する「文頭　また　東京　都　の＊−ｉ＋ｓｈ」の単語分割候補（音声データ）で連結コストおよび音韻韻律コストが一番低かったものが記録される。また、数式１によって連結コストと、数式２、数式３および数式４によって音韻韻律コストとの計算、記録動作が音声合成用データベース１３中の全ての「ｉ−ｓｈ＋ｉ」について実行される。連結コストおよび音韻韻律コストの計算、記録動作が文末に到達するまで繰り返し実行される。
【００６７】
最後に「文頭　また　東京　都　の　＊−ｉ＋ｓｈ　ｉ−ｓｈ＋ｉ　ｓｈ−ｉ＋ｈ　ｉ−ｈ＋ａ　ｈ−ａ＋ｒ　ａ−ｒ＋ａ　ｒ−ａ＋＊　知事　は　次　のよう　に　話して　います　文末」の単語分割候補（音声データ）で連結コストと音韻韻律コストとが一番低かったものが音声合成データ（出力音声合成結果）として出力される。
【００６８】
（補足：単語のアクセント型について）
次に、図３を参照して、単語のアクセント型について補足説明をする。図３に示すように、単語のアクセント型は、拍数（縦軸）の増加に伴いアクセントの型数（横軸）が増加するものである。１つの拍数で構成される単語には、０型と１型の２つのアクセント型が存在し、図３では、０型の“ハ（葉）”と、１型の“ネ（根）”とが例示されている。
【００６９】
また、２つの拍数で構成される単語には、０型、１型および２型の３つのアクセント型が存在し、図３では、０型の“エダ（枝）”、“サク（咲く）”と、１型の“タネ（種）”、“ナル（生る）”と、２型の“ハナ（花）”、“マタ（また今度）”とが例示されている。
【００７０】
さらに、３つの拍数で構成される単語には、０型、１型、２型および３型の４つのアクセント型が存在し、図３では、０型の“スミレ”、“カレル（枯れる）”、“アカイ（赤い）”と、１型の“オチバ”、“キレイ”、“パット（副詞）”と、２型の“ツツジ”、“ノビル（伸びる）”、“シロイ（白い）”と、３型の“ツボミ”、“ピタリ”、“イーエ（否定）”とが例示されている。
【００７１】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成装置１の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置１と同様の効果を得ることができる。
【００７２】
【発明の効果】
請求項１、４、７記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語（単語分割候補）毎に、動的計画法のマッチングに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位（単語）に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【００７３】
請求項２、５、８記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語（単語分割候補）毎に、基本周波数の基準値の差分値に基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位（単語）に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【００７４】
請求項３、６、９記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語（単語分割候補）毎に、アクセント型の違いに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位（単語）に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【図面の簡単な説明】
【図１】本発明による一実施の形態を示す音声合成装置のブロック図である。
【図２】図１に示した音声合成装置の動作を説明したフローチャートである。
【図３】アクセント型の説明図である。
【符号の説明】
１　　音声合成装置
３　　入力部
５　　単語分割・音韻韻律情報付加部
５ａ　単語分割手段
５ｂ　音韻韻律情報付加手段
７　　音声合成用データベース探索部
７ａ　音素表記比較判定手段
７ｂ　基本周波数差分値比較判定手段
７ｃ　アクセント型比較判定手段
９　　音韻韻律補正部（音声データ補正手段）
１１　出力部
１３　音声合成用データベース

Claims

単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。
単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。
単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。
入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声合成用データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。
入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。
入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。
入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データ記憶手段に記憶される単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。
入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データ記憶手段に記憶される単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。
入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。