JP2004109535A - 音声合成方法、音声合成装置および音声合成プログラム - Google Patents
音声合成方法、音声合成装置および音声合成プログラム Download PDFInfo
- Publication number
- JP2004109535A JP2004109535A JP2002272416A JP2002272416A JP2004109535A JP 2004109535 A JP2004109535 A JP 2004109535A JP 2002272416 A JP2002272416 A JP 2002272416A JP 2002272416 A JP2002272416 A JP 2002272416A JP 2004109535 A JP2004109535 A JP 2004109535A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech
- phoneme
- word
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】音声合成用データベースの探索単位に単語の性質を考慮したコスト関数を使用することができる音声合成方法、装置およびプログラムを提供する。
【解決手段】テキストデータを音声合成する音声合成装置1であって、音声合成用データベース13と、テキストデータを各単語に分割し、この単語に音素、基本周波数を含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加部5と、単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を、音声合成用データベース13から探索する音声合成用データ探索部7と、探索した音声データ列の単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音韻韻律補正部9と、補正を行った結果を音声合成データとして出力する出力部11と、を備えた。
【選択図】 図1
【解決手段】テキストデータを音声合成する音声合成装置1であって、音声合成用データベース13と、テキストデータを各単語に分割し、この単語に音素、基本周波数を含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加部5と、単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を、音声合成用データベース13から探索する音声合成用データ探索部7と、探索した音声データ列の単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音韻韻律補正部9と、補正を行った結果を音声合成データとして出力する出力部11と、を備えた。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、音声合成用データを用いて、テキストデータを音声合成する音声合成方法、音声合成装置および音声合成プログラムに関する。
【0002】
【従来の技術】
従来、音声合成の方法(装置)には、例えば、次のような方法(装置)が開示されている(自然発話音声波形信号接続型音声合成装置、特許文献1参照)。
【0003】
この公報で開示されている音声合成装置には、音素の発話時間が記憶されている音声合成用データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータ(文章)を音素列に分解した後、この分解した音素列を音素単位でつなぎ合わせる際の接続間における音韻韻律コストおよび連結コストの和が最小になるものを、音声合成用データベースから探索し、探索した結果を音声合成データとして出力するものである。
【0004】
【特許文献1】
特開平10−49193号公報(段落番号14〜18、第1図)
【0005】
【発明が解決しようとする課題】
しかしながら、従来の「音声合成装置」では、音韻韻律コストの算出に、ケプストラム、デルタケプストラム、基本周波数、音素時間長の差分等を利用しており、連結コストの算出に、ケプストラム距離、対数パワーの差の絶対値、基本周波数の差の絶対値等を利用しており、音声合成用データベースの探索単位が音素であったので、単語の性質を利用したコスト関数を使用することができないという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声合成用データベースの探索単位に単語の性質を考慮したコスト関数を使用することができる音声合成方法、音声合成装置および音声合成プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0008】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語をローマ字で表現した際の音素表記について、テキストデータの単語と音声合成用データベース中の単語との間でマッチングが取られる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【0009】
なお、音韻韻律情報は、分割された単語を構成する音素と、単語毎の基本周波数とに関する情報である。動的計画法は、DP(Dynamic Programming)であり、認識手法の一つで、ビタビ計算を適用するものである。音韻韻律コストは、入力されたテキストデータから予測される、漢字の読み方(音素)や、基本周波数が音声合成用データベースに記憶されている単語および音素のデータに類似しているかどうかを示す指標で、この音韻韻律コストが低いほど、予測とデータとが類似していることになる。連結コストは、接続される単語がどれだけ滑らかに接続されるかを示す指標に相当するもので、接続される2つの音声波形から抽出した特徴量の差を正規化したものを特徴量の個数だけ計算したものである。この連結コストが低いほど、2つの単語は滑らかに(より自然に)接続されることになる。また、連結コストおよび音韻韻律コストが最小になる単語分割候補とは、連結コストと音韻韻律コストとの和が最小になるものである。
【0010】
請求項2記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0011】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース中の単語の基本周波数の基準値から差分値とが似かよっていればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
なお、基本周波数の基準値とは、例えば、最小値、最大値、平均値等であり、統計的に規定することができる数値である。
【0012】
請求項3記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0013】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、アクセント型が一致していればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【0014】
なお、アクセント型とは、例えば、2つの音素からなる単語であれば、前方の音素にアクセントがあるもの(仮に、二音素前方アクセント型とする)、後方の音素にアクセントがあるもの(仮に、二音素後方アクセント型とする)といったように分類できるものである。
【0015】
請求項4記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声合成用データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0016】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0017】
請求項5記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0018】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0019】
請求項6記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0020】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0021】
請求項7記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データ記憶手段に記憶される単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0022】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データ記憶手段の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0023】
請求項8記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データ記憶手段に記憶される単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0024】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データ記憶手段内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0025】
請求項9記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0026】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データ記憶手段内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0027】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音声合成装置の構成)
図1を参照して、音声合成装置の構成を説明する。図1は、音声合成装置のブロック図であり、この図1に示すように、音声合成装置1は、入力されたテキストデータ(入力日本語テキスト)から音声合成データ(出力音声、合成結果)を出力するものであり、入力部3と、単語分割・音韻韻律情報付加部5と、音声合成用データベース探索部7と、音韻韻律補正部9と、出力部11と、音声合成用データベース13とを備えている。
【0028】
入力部3は、キーボード、マウス等を備えて構成され、マンマシンインターフェースの役割を果たすものであり、音声合成装置1のユーザが記述した文章(テキストデータ:入力日本語テキスト)を入力するものである。また、この入力部3は、OCRの機能を有しており、手書きされた文字も認識してテキストデータに変換するものである。さらに、この入力部3は、磁気媒体で構成されるフレキシブルディスクに記録されているテキストデータを読みとるデータ読出機能を有している。なお、この実施の形態では、入力部3には、複数の入力機能が備えられているが、少なくとも1個の入力機能を備えていればよい。
【0029】
単語分割・音韻韻律情報付加部5は、単語分割手段5aと、音韻韻律情報付加手段5bとを備えている。単語分割手段5aは、入力部3から送出されたテキストデータについて、形態素解析を行って、当該テキストデータを単語(単語単位)に分割するものである。音韻韻律情報付加手段5bは、単語分割手段5aで分割された単語に音韻韻律情報を付加して、単語分割候補を音声合成用データベース探索部7に出力するものである。
【0030】
なお、形態素解析とは、文章を語句より小さな形態素(語句をさらに細分化したもの)のレベルまで分解して解析することで、日本語のように、文章中の語句の切り出しが明確でない言語の場合、形態素解析は“語句の切り出し”と同様な意味をもつことになる。ちなみに、日本語における形態素解析では、形態素同士の接続情報(名詞には助詞「が」が接続しうる)等の文法記述をすることが一般的である。また、音韻韻律情報とは、音素や基本周波数等に関する情報である。
【0031】
音声合成用データベース探索部7は、単語分割・音韻韻律情報付加部5から送出された単語分割候補(音韻韻律情報が付加されている)を音声合成用データベース13から探索するものであり、音素表記比較判定手段7aと、基本周波数差分値比較判定手段7bと、アクセント型比較判定手段7cとを備えている。
【0032】
音素表記比較判定手段7aは、単語分割・音韻韻律情報付加部5から送出された単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記との動的計画法によるマッチング(比較判定)をし、このマッチングの結果(判定結果)に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。この実施の形態では、単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記とが似かよっているほど、音素表記比較判定手段7aが低いコスト(数値、完全一致では0)を算出するように構成されている。この音素表記比較判定手段7aでは、単語分割・音韻韻律情報付加部5から送出された単語分割候補を一時的に保持する保持機能が備えられており、音声合成用データベース13に記憶されている単語と比較判定する際に使用される構成となっている。
【0033】
例えば、単語分割候補「次」という単語について、音素表記比較判定手段7aの比較判定の具体例を説明する。この単語分割候補「次」の音素表記は「ts u g i」となる。そして、音声合成用データベース13内に記憶されている単語の音素表記がデータ1で「ts u g i」(次)、データ2で「ts u g i」(次)、データ3で「ji」(次)である場合、データ1およびデータ2の「ts u g i」(次)が完全一致となり、音韻韻律コストおよび連結コストが0となる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式2で算出される。
【0034】
基本周波数差分値比較判定手段7bは、単語分割・音韻韻律情報付加部5から送出された単語分割候補の基本周波数(一般的にF0と表記される)の基準値からの差分値と、音声合成用データベース13内において、単語の基本周波数の基準値からの差分値とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。この実施の形態では、基本周波数の基準値は、基本周波数の平均値を用いている。
【0035】
例えば、単語分割候補「ビニール(ハウス)」という単語について、基本周波数差分値比較判定手段7bの比較判定の具体例を説明する。この単語分割候補「ビニール(ハウス)」の音素表記は「bini:ru」となる。そして、音声合成用データベース13内に記憶されている単語の音素表記が「bini:ru」:ビニール(で)、「bini:ru」:ビニール(テープ)、「bini:ru」:ビニール(センイ)である場合、それぞれの基本周波数は異なっており、しかも、基本周波数の平均値からの差分値は、顕著に異なっている。このため、音声合成用データベース13内に記憶されている単語「ビニール(テープ)」、「ビニール(センイ)」の基本周波数の平均値の差分値と、単語分割候補「ビニール(ハウス)」の基本周波数の平均値の差分値とが最も似かよっていることになり、音韻韻律コストおよび連結コストが小さくなる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式3で算出される。
【0036】
アクセント型比較判定手段7cは、単語分割・音韻韻律情報付加部5から送出された単語分割候補のアクセント型と、音声合成用データベース13内の単語のアクセント型とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。このアクセント型比較判定手段7cによるアクセント型の比較判定は、アクセント型が完全に一致している場合0が出力され、不一致である場合1が出力される。
【0037】
例えば、前記した例(ビニール)で説明すると、単語分割候補「ビニール(ハウス)」という単語は0型のアクセントであるのに対し、音声合成用データベース13中の「ビニール(で)」は2型、「ビニール(テープ)」および「ビニール(センイ)」は0型であるので、「ビニール(で)」のコストは1となり、他のコストは0となる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式4で算出される。また、アクセント型の詳細は後記する(図3を使用して説明する)。
【0038】
つまり、この音声合成用データベース探索部7では、単語分割候補が入力されると、音声合成用データベース13に存在する単語分割候補の全ての組み合わせについてビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列が送出される。また、ビタービサーチとは、最大(最小)のスコアを与える仮説(単語分割候補の組み合わせ)の履歴のみを残して計算していく手法のことである。
【0039】
また、この音声合成用データベース探索部7では、各単語分割候補の連結コストおよび音韻韻律コストの計算結果を記録するコスト計算結果記録機能(図示せず)を有しており、逐次計算した結果が記録されている。
【0040】
連結コストの計算は、例えば、以下に示す数式に基づいて行われる。この連結コストの計算は、従来の音声合成装置におけるものと同様の数式で実行されている。
【0041】
【数1】
【0042】
ただし、C(A,B)は素片Aと素片Bとが連続したときの連結コスト、PE Aは素片Aの終わりの音素の基本周波数、PI Bは素片Bの始めの音素の基本周波数、xE iAは、i次元目における素片Aの終わりの音素のケプストラム係数、xI iBは、i次元目における素片Bの始めの音素のケプストラム係数、ω1、ω2は正の重み、Cは正の定数、δABは素片Aと素片Bとが連続して音声合成用データベース13内にある場合を0、ない場合1を、それぞれ示すものである。
【0043】
音韻韻律コストの計算は、例えば、以下に示す数式に基づいて行われる。数式2が音素表記比較判定手段7aで使用されるもので、数式3が基本周波数差分値比較判定手段7bで使用されるもので、数式4がアクセント型比較判定手段7cで使用されるものである。
【0044】
【数2】
【0045】
【数3】
【0046】
【数4】
【0047】
ただし、C(W)は音韻韻律コスト、SDP(W)は入力された単語の音素表記と音声合成用データベース13内の単語の音素表記との動的計画法によるマッチングをとり、1に正規化したスコア、/Pj Pはj番目のトライフォンの予測周波数から単語内での基本周波数平均値を減算したもの、/Pj Tはj番目のトライフォンの音声合成用データベース13内の単語の基本周波数から、当該単語内での基本周波数平均値を減算したもの、ω3、ω4は正の重み、δPTはアクセント型が一致するときに0を、一致しない場合1を、それぞれ示すものである。ここで、日本出願の明細書では、文字修飾でルビ(オーバーライン)を記述することができないために、ルビ(オーバーライン)の代わりに/を用いる。
【0048】
さらに、この音声合成用データベース探索部7では、ビタービサーチの計算時間の短縮を図るために、ビームサーチが実行され、探索の途中で一番よいスコアから決定された閾値内に入らない仮説(単語分割候補同士の連結)の削除が実行される。なお、ビームサーチとは、あるスコアの値から特定値以上のスコアの値を持つ仮説に絞り込んで(特定値未満のスコアの値を持つ仮説は除外して)計算する手法である。また、この音声合成用データベース探索部7が請求項に記載した音声データ探索手段に相当するものである。
【0049】
音韻韻律補正部9は、音声合成用データベース探索部7の探索結果である音声データ列の補正を行うためのもので、単語分割・音韻韻律情報付加部5から送出された単語分割候補の全ての組み合わせについてビタービサーチが実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正を行うものである。
【0050】
つまり、この音韻韻律補正部9は、例えば、入力された文章の文頭(文頭の単語分割候補)の次に続く単語分割候補がもつべき音韻韻律情報を予測して、この予測した予測値(予測音韻韻律情報とする)と、音声合成用データベース13中に記憶されている文字列の値(既定音韻韻律情報とする)との類似度を比較することによって、一定以上の類似度の範囲に収まるように音声データ列の合成音声波形を補正するものである。なお、この合成音声波形の補正に関しては、特開平2−47700号公報に記載されている方法を適用することとする。また、この音韻韻律補正部9が請求項に記載した音声データ補正手段に相当するものである。
【0051】
出力部11は、音声合成用データベース探索部7で計算された計算結果である音声データ列または音韻韻律補正部9で補正された音声データ列(出力音声合成結果)を外部に出力するためのものである。この出力部11には、図示を省略した比較手段が備えられており、この比較手段によって、音声合成用データベース探索部7で計算された音声データ列と、音韻韻律補正部9で補正された音声データ列とが比較され、比較した結果に基づき、音声データ列が補正されている場合には、音韻韻律補正部9で補正された音声データ列が出力される。この実施の形態では、この出力部11には、スピーカ等の音声出力装置(図示せず)が接続されている。
【0052】
音声合成用データベース13は、大容量のハードディスク等で構成されており、単語毎に音声データ(音声波形)、音韻韻律情報(音素、アクセント)、および発話時間を記憶しているものである。なお、この音声合成用データベース13には、入力されたテキストデータの文章の「文頭」を示す情報が記憶されている。この「文頭」を示す情報を基点にして、音声合成用データベース探索部7で「文頭」に続いていく単語分割候補の連結コストと音韻韻律コストとが算出される。
【0053】
この音声合成装置1によれば、単語分割・音韻韻律情報付加部5の単語分割手段5aで、入力されたテキストデータが単語に分割される。そして、音韻韻律情報付加手段5bで、分割された単語毎に音韻韻律情報が付加される。続いて、音声合成用データベース探索部7で、音韻韻律情報が付加された単語(単語分割候補)毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として、音素表記比較判定手段7a、基本周波数差分値比較判定手段7bまたはアクセント型比較判定手段7cで、音声合成用データベース13から探索される。さらに、出力部11で、音声データ列が出力される。このため、音声合成用データベース探索部7の各手段により、音声合成用データベース13の探索単位に単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いやアクセントの違いを区別することができる。
【0054】
また、この音声合成装置1には、音韻韻律補正部9が備えられており、この音韻韻律補正部9によって、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0055】
(音声合成装置の動作)
次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する(適宜、図1参照)。
まず、音声合成装置1のユーザが、当該装置1の入力部3のOCR機能を使用して、手書き文章を入力したり、入力部3のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ(入力日本語テキスト)を入力したりする。つまり、この音声合成装置1の入力部3で、様々な態様で入力された情報が、テキストデータとして、単語分割・音韻韻律情報付加部5に送出される(S1)。
【0056】
テキストデータを受け取った単語分割・音韻韻律情報付加部5では、単語分割手段5aで、テキストデータが単語に分割される。続いて、音韻韻律情報付加手段5bで、分割された単語毎に、音声合成用データベース13に記憶されている情報が参照されて音韻韻律情報が付加されて、単語分割候補とされ、音声合成用データベース探索部7に送出される(S2)。
【0057】
そして、音声合成装置1のユーザの意向により、図示を省略した操作部が操作され、これに基づき、まず、音声合成用データベース探索部7で、音素表記により比較判定するか判断される(S3)。音素表記により比較判定すると判断された場合(S3、Yes)、音声合成用データベース探索部7の音素表記比較判定手段7aで、音韻韻律コストの計算方法が設定される(S4)。
【0058】
また、音素表記により比較判定すると判断されない場合(S3、No)、基本周波数差分値により比較判定するか判断される(S5)。基本周波数差分値により比較判定すると判断された場合(S5、Yes)基本周波数差分値比較判定手段7bで、音韻韻律コストの計算方法が設定される(S6)。
【0059】
S5にて、基本周波数差分値により比較判定すると判断されない場合(S5、No)、アクセント型比較判定手段7cで、音韻韻律コストの計算方法が設定される(S7)。
【0060】
また、音韻韻律補正部9では、音声合成用データベース探索部7におけるビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、補正結果が出力部11に送出される(S8)。
【0061】
そして、出力部11では、図示を省略した比較手段によって比較された結果に基づいて、音声合成データが外部に出力される(S9)。
【0062】
(音声合成装置の具体的な音声合成例)
ここで、音声合成装置1の具体的な音声合成例を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「また東京都の石原知事は次のように話をしています」が入力された場合について説明する。
【0063】
単語分割・音韻韻律情報付加部5の出力は、「また 東京 都 の 石原 知事 は 次 の ように 話して います」となる。なお、この各単語分割候補にはそれぞれ音韻韻律情報が付加されている。そして、次の音声合成用データベース探索部7では、まず、音声合成用データベース13中の「文頭」から、音声合成用データベース13中の「また」へ接続する全ての組み合わせについて、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが計算される。
【0064】
計算された結果、音声合成用データベース13中1番初めの「また」に接続する「文頭」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが計算、記録動作が音声合成用データベース13中の全ての「また」について実行される。さらに、「東京」についても同様に、音声合成用データベース13中1番始めの「東京」に接続する「文頭 また」の単語分割候補(音声データ)で数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、連結コストおよび音韻韻律コストの計算、記録動作が音声合成用データベース13中の全ての「東京」について実行される。
【0065】
次に、「石原」という単語分割候補が音声合成用データベース13中に存在していない場合には、「石原」に付加されている音韻韻律情報「i sh i ha r a」が使用され、音声合成用データベース13中の一番初めにある「*−i+sh」に接続する「また 東京 都 の」の単語分割候補(音声データ)で数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが一番低かったものが記録される。こういった計算、記録動作が音声合成用データベース13中の全ての「*−i+sh」について実行される。
【0066】
続いて、音声合成用データベース13中一番初めにある「i−sh+i」に接続する「文頭 また 東京 都 の*−i+sh」の単語分割候補(音声データ)で連結コストおよび音韻韻律コストが一番低かったものが記録される。また、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとの計算、記録動作が音声合成用データベース13中の全ての「i−sh+i」について実行される。連結コストおよび音韻韻律コストの計算、記録動作が文末に到達するまで繰り返し実行される。
【0067】
最後に「文頭 また 東京 都 の *−i+sh i−sh+i sh−i+h i−h+a h−a+r a−r+a r−a+* 知事 は 次 のよう に 話して います 文末」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成データ(出力音声合成結果)として出力される。
【0068】
(補足:単語のアクセント型について)
次に、図3を参照して、単語のアクセント型について補足説明をする。図3に示すように、単語のアクセント型は、拍数(縦軸)の増加に伴いアクセントの型数(横軸)が増加するものである。1つの拍数で構成される単語には、0型と1型の2つのアクセント型が存在し、図3では、0型の“ハ(葉)”と、1型の“ネ(根)”とが例示されている。
【0069】
また、2つの拍数で構成される単語には、0型、1型および2型の3つのアクセント型が存在し、図3では、0型の“エダ(枝)”、“サク(咲く)”と、1型の“タネ(種)”、“ナル(生る)”と、2型の“ハナ(花)”、“マタ(また今度)”とが例示されている。
【0070】
さらに、3つの拍数で構成される単語には、0型、1型、2型および3型の4つのアクセント型が存在し、図3では、0型の“スミレ”、“カレル(枯れる)”、“アカイ(赤い)”と、1型の“オチバ”、“キレイ”、“パット(副詞)”と、2型の“ツツジ”、“ノビル(伸びる)”、“シロイ(白い)”と、3型の“ツボミ”、“ピタリ”、“イーエ(否定)”とが例示されている。
【0071】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成装置1の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置1と同様の効果を得ることができる。
【0072】
【発明の効果】
請求項1、4、7記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、動的計画法のマッチングに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0073】
請求項2、5、8記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、基本周波数の基準値の差分値に基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0074】
請求項3、6、9記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、アクセント型の違いに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態を示す音声合成装置のブロック図である。
【図2】図1に示した音声合成装置の動作を説明したフローチャートである。
【図3】アクセント型の説明図である。
【符号の説明】
1 音声合成装置
3 入力部
5 単語分割・音韻韻律情報付加部
5a 単語分割手段
5b 音韻韻律情報付加手段
7 音声合成用データベース探索部
7a 音素表記比較判定手段
7b 基本周波数差分値比較判定手段
7c アクセント型比較判定手段
9 音韻韻律補正部(音声データ補正手段)
11 出力部
13 音声合成用データベース
【発明の属する技術分野】
本発明は、音声合成用データを用いて、テキストデータを音声合成する音声合成方法、音声合成装置および音声合成プログラムに関する。
【0002】
【従来の技術】
従来、音声合成の方法(装置)には、例えば、次のような方法(装置)が開示されている(自然発話音声波形信号接続型音声合成装置、特許文献1参照)。
【0003】
この公報で開示されている音声合成装置には、音素の発話時間が記憶されている音声合成用データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータ(文章)を音素列に分解した後、この分解した音素列を音素単位でつなぎ合わせる際の接続間における音韻韻律コストおよび連結コストの和が最小になるものを、音声合成用データベースから探索し、探索した結果を音声合成データとして出力するものである。
【0004】
【特許文献1】
特開平10−49193号公報(段落番号14〜18、第1図)
【0005】
【発明が解決しようとする課題】
しかしながら、従来の「音声合成装置」では、音韻韻律コストの算出に、ケプストラム、デルタケプストラム、基本周波数、音素時間長の差分等を利用しており、連結コストの算出に、ケプストラム距離、対数パワーの差の絶対値、基本周波数の差の絶対値等を利用しており、音声合成用データベースの探索単位が音素であったので、単語の性質を利用したコスト関数を使用することができないという問題がある。
【0006】
そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声合成用データベースの探索単位に単語の性質を考慮したコスト関数を使用することができる音声合成方法、音声合成装置および音声合成プログラムを提供することにある。
【0007】
【課題を解決するための手段】
本発明は、前記した目的を達成するため、以下に示す構成とした。
請求項1記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0008】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語をローマ字で表現した際の音素表記について、テキストデータの単語と音声合成用データベース中の単語との間でマッチングが取られる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【0009】
なお、音韻韻律情報は、分割された単語を構成する音素と、単語毎の基本周波数とに関する情報である。動的計画法は、DP(Dynamic Programming)であり、認識手法の一つで、ビタビ計算を適用するものである。音韻韻律コストは、入力されたテキストデータから予測される、漢字の読み方(音素)や、基本周波数が音声合成用データベースに記憶されている単語および音素のデータに類似しているかどうかを示す指標で、この音韻韻律コストが低いほど、予測とデータとが類似していることになる。連結コストは、接続される単語がどれだけ滑らかに接続されるかを示す指標に相当するもので、接続される2つの音声波形から抽出した特徴量の差を正規化したものを特徴量の個数だけ計算したものである。この連結コストが低いほど、2つの単語は滑らかに(より自然に)接続されることになる。また、連結コストおよび音韻韻律コストが最小になる単語分割候補とは、連結コストと音韻韻律コストとの和が最小になるものである。
【0010】
請求項2記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0011】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース中の単語の基本周波数の基準値から差分値とが似かよっていればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
なお、基本周波数の基準値とは、例えば、最小値、最大値、平均値等であり、統計的に規定することができる数値である。
【0012】
請求項3記載の音声合成方法は、単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、を含むことを特徴とする。
【0013】
この方法によれば、まず、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、この区分けされた各品詞(各単語)に音韻韻律情報が付加されたデータが形成される。続いて、音声データ探索ステップにおいて、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。つまり、アクセント型が一致していればいるほど、音韻韻律コストおよび連結コストが小さくなる。そして、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。この補正は、音声データ列の音声波形に基づいて行われるものである。その後、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果が音声合成データとして出力される。
【0014】
なお、アクセント型とは、例えば、2つの音素からなる単語であれば、前方の音素にアクセントがあるもの(仮に、二音素前方アクセント型とする)、後方の音素にアクセントがあるもの(仮に、二音素後方アクセント型とする)といったように分類できるものである。
【0015】
請求項4記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声合成用データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0016】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データベースの単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0017】
請求項5記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0018】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0019】
請求項6記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、単語および音素の発話時間が記憶されている音声合成用データベースと、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、を備えることを特徴とする。
【0020】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データベース内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0021】
請求項7記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データ記憶手段に記憶される単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0022】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の音素表記と、音声合成用データ記憶手段の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。その後、音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0023】
請求項8記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データ記憶手段に記憶される単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0024】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補の基本周波数の基準値からの差分値と、音声合成用データ記憶手段内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0025】
請求項9記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、以下に示す手段として機能させることを特徴とする。当該装置を機能させる手段は、単語および音素の発話時間が記憶されている音声合成用データ記憶手段、前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、である。
【0026】
かかる構成によれば、単語分割・音韻韻律情報付加手段で、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音声データ探索手段で、単語分割候補のアクセント型と、音声合成用データ記憶手段内の単語のアクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補が音声データ列として音声合成用データ記憶手段から探索される。音声データ補正手段で、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測される韻律とは異なる部分について補正が行われる。音声合成データ出力手段で、音声データ補正手段にて補正を行った結果が音声合成データとして出力される。
【0027】
【発明の実施の形態】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
(音声合成装置の構成)
図1を参照して、音声合成装置の構成を説明する。図1は、音声合成装置のブロック図であり、この図1に示すように、音声合成装置1は、入力されたテキストデータ(入力日本語テキスト)から音声合成データ(出力音声、合成結果)を出力するものであり、入力部3と、単語分割・音韻韻律情報付加部5と、音声合成用データベース探索部7と、音韻韻律補正部9と、出力部11と、音声合成用データベース13とを備えている。
【0028】
入力部3は、キーボード、マウス等を備えて構成され、マンマシンインターフェースの役割を果たすものであり、音声合成装置1のユーザが記述した文章(テキストデータ:入力日本語テキスト)を入力するものである。また、この入力部3は、OCRの機能を有しており、手書きされた文字も認識してテキストデータに変換するものである。さらに、この入力部3は、磁気媒体で構成されるフレキシブルディスクに記録されているテキストデータを読みとるデータ読出機能を有している。なお、この実施の形態では、入力部3には、複数の入力機能が備えられているが、少なくとも1個の入力機能を備えていればよい。
【0029】
単語分割・音韻韻律情報付加部5は、単語分割手段5aと、音韻韻律情報付加手段5bとを備えている。単語分割手段5aは、入力部3から送出されたテキストデータについて、形態素解析を行って、当該テキストデータを単語(単語単位)に分割するものである。音韻韻律情報付加手段5bは、単語分割手段5aで分割された単語に音韻韻律情報を付加して、単語分割候補を音声合成用データベース探索部7に出力するものである。
【0030】
なお、形態素解析とは、文章を語句より小さな形態素(語句をさらに細分化したもの)のレベルまで分解して解析することで、日本語のように、文章中の語句の切り出しが明確でない言語の場合、形態素解析は“語句の切り出し”と同様な意味をもつことになる。ちなみに、日本語における形態素解析では、形態素同士の接続情報(名詞には助詞「が」が接続しうる)等の文法記述をすることが一般的である。また、音韻韻律情報とは、音素や基本周波数等に関する情報である。
【0031】
音声合成用データベース探索部7は、単語分割・音韻韻律情報付加部5から送出された単語分割候補(音韻韻律情報が付加されている)を音声合成用データベース13から探索するものであり、音素表記比較判定手段7aと、基本周波数差分値比較判定手段7bと、アクセント型比較判定手段7cとを備えている。
【0032】
音素表記比較判定手段7aは、単語分割・音韻韻律情報付加部5から送出された単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記との動的計画法によるマッチング(比較判定)をし、このマッチングの結果(判定結果)に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。この実施の形態では、単語分割候補の音素表記と、音声合成用データベース13内の単語の音素表記とが似かよっているほど、音素表記比較判定手段7aが低いコスト(数値、完全一致では0)を算出するように構成されている。この音素表記比較判定手段7aでは、単語分割・音韻韻律情報付加部5から送出された単語分割候補を一時的に保持する保持機能が備えられており、音声合成用データベース13に記憶されている単語と比較判定する際に使用される構成となっている。
【0033】
例えば、単語分割候補「次」という単語について、音素表記比較判定手段7aの比較判定の具体例を説明する。この単語分割候補「次」の音素表記は「ts u g i」となる。そして、音声合成用データベース13内に記憶されている単語の音素表記がデータ1で「ts u g i」(次)、データ2で「ts u g i」(次)、データ3で「ji」(次)である場合、データ1およびデータ2の「ts u g i」(次)が完全一致となり、音韻韻律コストおよび連結コストが0となる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式2で算出される。
【0034】
基本周波数差分値比較判定手段7bは、単語分割・音韻韻律情報付加部5から送出された単語分割候補の基本周波数(一般的にF0と表記される)の基準値からの差分値と、音声合成用データベース13内において、単語の基本周波数の基準値からの差分値とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。この実施の形態では、基本周波数の基準値は、基本周波数の平均値を用いている。
【0035】
例えば、単語分割候補「ビニール(ハウス)」という単語について、基本周波数差分値比較判定手段7bの比較判定の具体例を説明する。この単語分割候補「ビニール(ハウス)」の音素表記は「bini:ru」となる。そして、音声合成用データベース13内に記憶されている単語の音素表記が「bini:ru」:ビニール(で)、「bini:ru」:ビニール(テープ)、「bini:ru」:ビニール(センイ)である場合、それぞれの基本周波数は異なっており、しかも、基本周波数の平均値からの差分値は、顕著に異なっている。このため、音声合成用データベース13内に記憶されている単語「ビニール(テープ)」、「ビニール(センイ)」の基本周波数の平均値の差分値と、単語分割候補「ビニール(ハウス)」の基本周波数の平均値の差分値とが最も似かよっていることになり、音韻韻律コストおよび連結コストが小さくなる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式3で算出される。
【0036】
アクセント型比較判定手段7cは、単語分割・音韻韻律情報付加部5から送出された単語分割候補のアクセント型と、音声合成用データベース13内の単語のアクセント型とを比較判定し、この比較判定した判定結果に基づいて、連結コストおよび音韻韻律コストの和が最小になる単語分割候補を音声データ列として、音韻韻律補正部9および出力部11に出力するものである。このアクセント型比較判定手段7cによるアクセント型の比較判定は、アクセント型が完全に一致している場合0が出力され、不一致である場合1が出力される。
【0037】
例えば、前記した例(ビニール)で説明すると、単語分割候補「ビニール(ハウス)」という単語は0型のアクセントであるのに対し、音声合成用データベース13中の「ビニール(で)」は2型、「ビニール(テープ)」および「ビニール(センイ)」は0型であるので、「ビニール(で)」のコストは1となり、他のコストは0となる。なお、連結コストは後記する数式1で算出され、音韻韻律コストは後記する数式4で算出される。また、アクセント型の詳細は後記する(図3を使用して説明する)。
【0038】
つまり、この音声合成用データベース探索部7では、単語分割候補が入力されると、音声合成用データベース13に存在する単語分割候補の全ての組み合わせについてビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列が送出される。また、ビタービサーチとは、最大(最小)のスコアを与える仮説(単語分割候補の組み合わせ)の履歴のみを残して計算していく手法のことである。
【0039】
また、この音声合成用データベース探索部7では、各単語分割候補の連結コストおよび音韻韻律コストの計算結果を記録するコスト計算結果記録機能(図示せず)を有しており、逐次計算した結果が記録されている。
【0040】
連結コストの計算は、例えば、以下に示す数式に基づいて行われる。この連結コストの計算は、従来の音声合成装置におけるものと同様の数式で実行されている。
【0041】
【数1】
【0042】
ただし、C(A,B)は素片Aと素片Bとが連続したときの連結コスト、PE Aは素片Aの終わりの音素の基本周波数、PI Bは素片Bの始めの音素の基本周波数、xE iAは、i次元目における素片Aの終わりの音素のケプストラム係数、xI iBは、i次元目における素片Bの始めの音素のケプストラム係数、ω1、ω2は正の重み、Cは正の定数、δABは素片Aと素片Bとが連続して音声合成用データベース13内にある場合を0、ない場合1を、それぞれ示すものである。
【0043】
音韻韻律コストの計算は、例えば、以下に示す数式に基づいて行われる。数式2が音素表記比較判定手段7aで使用されるもので、数式3が基本周波数差分値比較判定手段7bで使用されるもので、数式4がアクセント型比較判定手段7cで使用されるものである。
【0044】
【数2】
【0045】
【数3】
【0046】
【数4】
【0047】
ただし、C(W)は音韻韻律コスト、SDP(W)は入力された単語の音素表記と音声合成用データベース13内の単語の音素表記との動的計画法によるマッチングをとり、1に正規化したスコア、/Pj Pはj番目のトライフォンの予測周波数から単語内での基本周波数平均値を減算したもの、/Pj Tはj番目のトライフォンの音声合成用データベース13内の単語の基本周波数から、当該単語内での基本周波数平均値を減算したもの、ω3、ω4は正の重み、δPTはアクセント型が一致するときに0を、一致しない場合1を、それぞれ示すものである。ここで、日本出願の明細書では、文字修飾でルビ(オーバーライン)を記述することができないために、ルビ(オーバーライン)の代わりに/を用いる。
【0048】
さらに、この音声合成用データベース探索部7では、ビタービサーチの計算時間の短縮を図るために、ビームサーチが実行され、探索の途中で一番よいスコアから決定された閾値内に入らない仮説(単語分割候補同士の連結)の削除が実行される。なお、ビームサーチとは、あるスコアの値から特定値以上のスコアの値を持つ仮説に絞り込んで(特定値未満のスコアの値を持つ仮説は除外して)計算する手法である。また、この音声合成用データベース探索部7が請求項に記載した音声データ探索手段に相当するものである。
【0049】
音韻韻律補正部9は、音声合成用データベース探索部7の探索結果である音声データ列の補正を行うためのもので、単語分割・音韻韻律情報付加部5から送出された単語分割候補の全ての組み合わせについてビタービサーチが実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正を行うものである。
【0050】
つまり、この音韻韻律補正部9は、例えば、入力された文章の文頭(文頭の単語分割候補)の次に続く単語分割候補がもつべき音韻韻律情報を予測して、この予測した予測値(予測音韻韻律情報とする)と、音声合成用データベース13中に記憶されている文字列の値(既定音韻韻律情報とする)との類似度を比較することによって、一定以上の類似度の範囲に収まるように音声データ列の合成音声波形を補正するものである。なお、この合成音声波形の補正に関しては、特開平2−47700号公報に記載されている方法を適用することとする。また、この音韻韻律補正部9が請求項に記載した音声データ補正手段に相当するものである。
【0051】
出力部11は、音声合成用データベース探索部7で計算された計算結果である音声データ列または音韻韻律補正部9で補正された音声データ列(出力音声合成結果)を外部に出力するためのものである。この出力部11には、図示を省略した比較手段が備えられており、この比較手段によって、音声合成用データベース探索部7で計算された音声データ列と、音韻韻律補正部9で補正された音声データ列とが比較され、比較した結果に基づき、音声データ列が補正されている場合には、音韻韻律補正部9で補正された音声データ列が出力される。この実施の形態では、この出力部11には、スピーカ等の音声出力装置(図示せず)が接続されている。
【0052】
音声合成用データベース13は、大容量のハードディスク等で構成されており、単語毎に音声データ(音声波形)、音韻韻律情報(音素、アクセント)、および発話時間を記憶しているものである。なお、この音声合成用データベース13には、入力されたテキストデータの文章の「文頭」を示す情報が記憶されている。この「文頭」を示す情報を基点にして、音声合成用データベース探索部7で「文頭」に続いていく単語分割候補の連結コストと音韻韻律コストとが算出される。
【0053】
この音声合成装置1によれば、単語分割・音韻韻律情報付加部5の単語分割手段5aで、入力されたテキストデータが単語に分割される。そして、音韻韻律情報付加手段5bで、分割された単語毎に音韻韻律情報が付加される。続いて、音声合成用データベース探索部7で、音韻韻律情報が付加された単語(単語分割候補)毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として、音素表記比較判定手段7a、基本周波数差分値比較判定手段7bまたはアクセント型比較判定手段7cで、音声合成用データベース13から探索される。さらに、出力部11で、音声データ列が出力される。このため、音声合成用データベース探索部7の各手段により、音声合成用データベース13の探索単位に単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いやアクセントの違いを区別することができる。
【0054】
また、この音声合成装置1には、音韻韻律補正部9が備えられており、この音韻韻律補正部9によって、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0055】
(音声合成装置の動作)
次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する(適宜、図1参照)。
まず、音声合成装置1のユーザが、当該装置1の入力部3のOCR機能を使用して、手書き文章を入力したり、入力部3のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ(入力日本語テキスト)を入力したりする。つまり、この音声合成装置1の入力部3で、様々な態様で入力された情報が、テキストデータとして、単語分割・音韻韻律情報付加部5に送出される(S1)。
【0056】
テキストデータを受け取った単語分割・音韻韻律情報付加部5では、単語分割手段5aで、テキストデータが単語に分割される。続いて、音韻韻律情報付加手段5bで、分割された単語毎に、音声合成用データベース13に記憶されている情報が参照されて音韻韻律情報が付加されて、単語分割候補とされ、音声合成用データベース探索部7に送出される(S2)。
【0057】
そして、音声合成装置1のユーザの意向により、図示を省略した操作部が操作され、これに基づき、まず、音声合成用データベース探索部7で、音素表記により比較判定するか判断される(S3)。音素表記により比較判定すると判断された場合(S3、Yes)、音声合成用データベース探索部7の音素表記比較判定手段7aで、音韻韻律コストの計算方法が設定される(S4)。
【0058】
また、音素表記により比較判定すると判断されない場合(S3、No)、基本周波数差分値により比較判定するか判断される(S5)。基本周波数差分値により比較判定すると判断された場合(S5、Yes)基本周波数差分値比較判定手段7bで、音韻韻律コストの計算方法が設定される(S6)。
【0059】
S5にて、基本周波数差分値により比較判定すると判断されない場合(S5、No)、アクセント型比較判定手段7cで、音韻韻律コストの計算方法が設定される(S7)。
【0060】
また、音韻韻律補正部9では、音声合成用データベース探索部7におけるビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、補正結果が出力部11に送出される(S8)。
【0061】
そして、出力部11では、図示を省略した比較手段によって比較された結果に基づいて、音声合成データが外部に出力される(S9)。
【0062】
(音声合成装置の具体的な音声合成例)
ここで、音声合成装置1の具体的な音声合成例を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「また東京都の石原知事は次のように話をしています」が入力された場合について説明する。
【0063】
単語分割・音韻韻律情報付加部5の出力は、「また 東京 都 の 石原 知事 は 次 の ように 話して います」となる。なお、この各単語分割候補にはそれぞれ音韻韻律情報が付加されている。そして、次の音声合成用データベース探索部7では、まず、音声合成用データベース13中の「文頭」から、音声合成用データベース13中の「また」へ接続する全ての組み合わせについて、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが計算される。
【0064】
計算された結果、音声合成用データベース13中1番初めの「また」に接続する「文頭」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが計算、記録動作が音声合成用データベース13中の全ての「また」について実行される。さらに、「東京」についても同様に、音声合成用データベース13中1番始めの「東京」に接続する「文頭 また」の単語分割候補(音声データ)で数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、連結コストおよび音韻韻律コストの計算、記録動作が音声合成用データベース13中の全ての「東京」について実行される。
【0065】
次に、「石原」という単語分割候補が音声合成用データベース13中に存在していない場合には、「石原」に付加されている音韻韻律情報「i sh i ha r a」が使用され、音声合成用データベース13中の一番初めにある「*−i+sh」に接続する「また 東京 都 の」の単語分割候補(音声データ)で数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとが一番低かったものが記録される。こういった計算、記録動作が音声合成用データベース13中の全ての「*−i+sh」について実行される。
【0066】
続いて、音声合成用データベース13中一番初めにある「i−sh+i」に接続する「文頭 また 東京 都 の*−i+sh」の単語分割候補(音声データ)で連結コストおよび音韻韻律コストが一番低かったものが記録される。また、数式1によって連結コストと、数式2、数式3および数式4によって音韻韻律コストとの計算、記録動作が音声合成用データベース13中の全ての「i−sh+i」について実行される。連結コストおよび音韻韻律コストの計算、記録動作が文末に到達するまで繰り返し実行される。
【0067】
最後に「文頭 また 東京 都 の *−i+sh i−sh+i sh−i+h i−h+a h−a+r a−r+a r−a+* 知事 は 次 のよう に 話して います 文末」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成データ(出力音声合成結果)として出力される。
【0068】
(補足:単語のアクセント型について)
次に、図3を参照して、単語のアクセント型について補足説明をする。図3に示すように、単語のアクセント型は、拍数(縦軸)の増加に伴いアクセントの型数(横軸)が増加するものである。1つの拍数で構成される単語には、0型と1型の2つのアクセント型が存在し、図3では、0型の“ハ(葉)”と、1型の“ネ(根)”とが例示されている。
【0069】
また、2つの拍数で構成される単語には、0型、1型および2型の3つのアクセント型が存在し、図3では、0型の“エダ(枝)”、“サク(咲く)”と、1型の“タネ(種)”、“ナル(生る)”と、2型の“ハナ(花)”、“マタ(また今度)”とが例示されている。
【0070】
さらに、3つの拍数で構成される単語には、0型、1型、2型および3型の4つのアクセント型が存在し、図3では、0型の“スミレ”、“カレル(枯れる)”、“アカイ(赤い)”と、1型の“オチバ”、“キレイ”、“パット(副詞)”と、2型の“ツツジ”、“ノビル(伸びる)”、“シロイ(白い)”と、3型の“ツボミ”、“ピタリ”、“イーエ(否定)”とが例示されている。
【0071】
以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。
例えば、音声合成装置1の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置1と同様の効果を得ることができる。
【0072】
【発明の効果】
請求項1、4、7記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、動的計画法のマッチングに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおける単語の読みの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0073】
請求項2、5、8記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、基本周波数の基準値の差分値に基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【0074】
請求項3、6、9記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語(単語分割候補)毎に、アクセント型の違いに基づいて、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、音声合成用データを探索する探索単位(単語)に、単語の性質を考慮したコスト関数を使用することができる。また、入力されたテキストデータにおけるアクセントの違いを区別することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
【図面の簡単な説明】
【図1】本発明による一実施の形態を示す音声合成装置のブロック図である。
【図2】図1に示した音声合成装置の動作を説明したフローチャートである。
【図3】アクセント型の説明図である。
【符号の説明】
1 音声合成装置
3 入力部
5 単語分割・音韻韻律情報付加部
5a 単語分割手段
5b 音韻韻律情報付加手段
7 音声合成用データベース探索部
7a 音素表記比較判定手段
7b 基本周波数差分値比較判定手段
7c アクセント型比較判定手段
9 音韻韻律補正部(音声データ補正手段)
11 出力部
13 音声合成用データベース
Claims (9)
- 単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 単語および音素の発話時間が記憶されている音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法であって、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加ステップと、
この単語分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
この音声データ探索ステップにて探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正ステップと、
この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
を含むことを特徴とする音声合成方法。 - 入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データベース内の単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声合成用データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データベース内において単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する音声合成装置であって、
単語および音素の発話時間が記憶されている音声合成用データベースと、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段と、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段と、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
を備えることを特徴とする音声合成装置。 - 入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の音素表記と、前記音声合成用データ記憶手段に記憶される単語の音素表記との動的計画法によるマッチングに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の基本周波数の基準値からの差分値と、前記音声合成用データ記憶手段に記憶される単語の基本周波数の基準値からの差分値とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。 - 入力されたテキストデータを音声合成する装置を、
単語および音素の発話時間が記憶されている音声合成用データ記憶手段、
前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加する単語分割・音韻韻律情報付加手段、
この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補のアクセントの出現パターンによって分類されるアクセント型と、前記音声合成用データベース内の単語の前記アクセント型とに基づいて、音韻韻律コストおよび連結コストが最小になる単語分割候補を音声データ列として、前記音声合成用データ記憶手段から探索する音声データ探索手段、
この音声データ探索手段で探索された前記音声データ列の前記単語分割候補毎の連結部分および予測される韻律とは異なる部分で補正を行う音声データ補正手段、
この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
として機能させることを特徴とする音声合成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002272416A JP2004109535A (ja) | 2002-09-19 | 2002-09-19 | 音声合成方法、音声合成装置および音声合成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002272416A JP2004109535A (ja) | 2002-09-19 | 2002-09-19 | 音声合成方法、音声合成装置および音声合成プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004109535A true JP2004109535A (ja) | 2004-04-08 |
Family
ID=32269435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002272416A Pending JP2004109535A (ja) | 2002-09-19 | 2002-09-19 | 音声合成方法、音声合成装置および音声合成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004109535A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139033A (ja) * | 2002-09-25 | 2004-05-13 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2007004011A (ja) * | 2005-06-27 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
KR100817432B1 (ko) | 2007-01-31 | 2008-03-27 | 한국과학기술원 | 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템 |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
WO2009069596A1 (ja) * | 2007-11-28 | 2009-06-04 | Nec Corporation | 音声合成装置、音声合成方法及び音声合成プログラム |
JP2010054625A (ja) * | 2008-08-26 | 2010-03-11 | Fujitsu Ltd | 音声合成装置、音声合成方法、およびコンピュータプログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
CN108288464A (zh) * | 2018-01-25 | 2018-07-17 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
CN111105780A (zh) * | 2019-12-27 | 2020-05-05 | 出门问问信息科技有限公司 | 一种韵律纠正方法、装置以及计算机可读存储介质 |
-
2002
- 2002-09-19 JP JP2002272416A patent/JP2004109535A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004139033A (ja) * | 2002-09-25 | 2004-05-13 | Nippon Hoso Kyokai <Nhk> | 音声合成方法、音声合成装置および音声合成プログラム |
JP4532862B2 (ja) * | 2002-09-25 | 2010-08-25 | 日本放送協会 | 音声合成方法、音声合成装置および音声合成プログラム |
JP2007004011A (ja) * | 2005-06-27 | 2007-01-11 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
JP4533255B2 (ja) * | 2005-06-27 | 2010-09-01 | 日本電信電話株式会社 | 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体 |
KR100817432B1 (ko) | 2007-01-31 | 2008-03-27 | 한국과학기술원 | 문서 확장에 의한 음성 자료의 고속 검색 방법 및 시스템 |
JP5434587B2 (ja) * | 2007-02-20 | 2014-03-05 | 日本電気株式会社 | 音声合成装置及び方法とプログラム |
US8630857B2 (en) | 2007-02-20 | 2014-01-14 | Nec Corporation | Speech synthesizing apparatus, method, and program |
JP2009063869A (ja) * | 2007-09-07 | 2009-03-26 | Internatl Business Mach Corp <Ibm> | 音声合成システム、プログラム及び方法 |
US9275631B2 (en) | 2007-09-07 | 2016-03-01 | Nuance Communications, Inc. | Speech synthesis system, speech synthesis program product, and speech synthesis method |
WO2009069596A1 (ja) * | 2007-11-28 | 2009-06-04 | Nec Corporation | 音声合成装置、音声合成方法及び音声合成プログラム |
JP5446873B2 (ja) * | 2007-11-28 | 2014-03-19 | 日本電気株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
JP2010054625A (ja) * | 2008-08-26 | 2010-03-11 | Fujitsu Ltd | 音声合成装置、音声合成方法、およびコンピュータプログラム |
CN108288464A (zh) * | 2018-01-25 | 2018-07-17 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
CN108288464B (zh) * | 2018-01-25 | 2020-12-29 | 苏州奇梦者网络科技有限公司 | 一种修正合成音中错误声调的方法 |
CN111105780A (zh) * | 2019-12-27 | 2020-05-05 | 出门问问信息科技有限公司 | 一种韵律纠正方法、装置以及计算机可读存储介质 |
CN111105780B (zh) * | 2019-12-27 | 2023-03-31 | 出门问问信息科技有限公司 | 一种韵律纠正方法、装置以及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3588490B1 (en) | Speech conversion method, computer device, and storage medium | |
JP3913770B2 (ja) | 音声合成装置および方法 | |
US6961704B1 (en) | Linguistic prosodic model-based text to speech | |
JP4302788B2 (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US20110231193A1 (en) | Synthesized singing voice waveform generator | |
JP2017058513A (ja) | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
US10699695B1 (en) | Text-to-speech (TTS) processing | |
US20110238420A1 (en) | Method and apparatus for editing speech, and method for synthesizing speech | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
JP2004109535A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP5334716B2 (ja) | 文字情報提示制御装置及びプログラム | |
JP4829605B2 (ja) | 音声合成装置および音声合成プログラム | |
JP2006276493A (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
KR20100085433A (ko) | 다중 목표운율 이용한 고음질 음성합성 방법 | |
JP2004271895A (ja) | 複数言語音声認識システムおよび発音学習システム | |
JP2004226505A (ja) | ピッチパタン生成方法、音声合成方法とシステム及びプログラム | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP2009058548A (ja) | 音声検索装置 | |
JP3571925B2 (ja) | 音声情報処理装置 | |
JPH11338498A (ja) | 音声合成装置 |