JP2004139033A - 音声合成方法、音声合成装置および音声合成プログラム - Google Patents

音声合成方法、音声合成装置および音声合成プログラム Download PDF

Info

Publication number
JP2004139033A
JP2004139033A JP2003296584A JP2003296584A JP2004139033A JP 2004139033 A JP2004139033 A JP 2004139033A JP 2003296584 A JP2003296584 A JP 2003296584A JP 2003296584 A JP2003296584 A JP 2003296584A JP 2004139033 A JP2004139033 A JP 2004139033A
Authority
JP
Japan
Prior art keywords
phoneme
data
prosody
speech
division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003296584A
Other languages
English (en)
Other versions
JP4532862B2 (ja
Inventor
Hiroyuki Segi
世木 寛之
Toru Tsugi
都木 徹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2003296584A priority Critical patent/JP4532862B2/ja
Publication of JP2004139033A publication Critical patent/JP2004139033A/ja
Application granted granted Critical
Publication of JP4532862B2 publication Critical patent/JP4532862B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】 音声合成処理を高速にすると共に、音声合成した音声合成データを高品質に維持することができる音声合成方法、装置およびプログラムを提供する。
【解決手段】 音素およびこの音素の発話時間を記憶している音声合成用データベース13を用いて、入力されたテキストデータを音声合成する音声合成装置1であって、入力部3と、単語音素分割・音韻韻律情報付加部5と、音声データベース探索部7と、音韻韻律補正部9と、出力部11と、を備えた。
【選択図】   図1

Description

 本発明は、音声合成用のデータが蓄積された音声合成用データベースを使用して、入力されたテキストデータを音声合成する音声合成方法、音声合成装置および音声合成プログラムに関する。
 従来、音声合成を行う方法(装置)には、例えば、以下に示すような2つの方法(装置)がある。
 まず、1つ目の方法(装置)として、自然発話音声波形信号接続型音声合成装置(特許文献1参照)が挙げられる。この公報で公開されている音声合成装置には、音素の発話時間が記録された音声データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータを音素列に分解した後、分解した音素列について音素単位で音声データベースの探索を実行し、音韻韻律コストおよび連結コストの和が最小になる音素列データ(探索結果)を音声合成データとして出力するものである。
 また、2つ目の方法(装置)として、次に示す音声合成装置が挙げられる。この音声合成装置には、音素および単語の発話時間が記録された音声データベースが備えられており、この音声合成装置は、当該装置に入力されたテキストデータを単語列に分解した後、分解した単語列について単語単位で音声データベースの探索を実行すると共に、音声データベース内に記録されていない単語列については音素単位で音声データベースの探索を実行し、音韻韻律コストおよび連結コストの和が最小になる単語列データ(音素列データ)を音声合成データとして出力するものである。
特開平10−49193号公報(段落番号0014〜0018、第1図)
 しかしながら、従来の音声合成装置(特許文献1参照)では、音声データベースを探索する探索単位として音素を使用しているため、当該音声データベースを探索する際に前後の音素環境が異なる音素も探索しており、音声合成処理に時間がかかり、ひいては、合成した音声合成データの音質の低下を招くという問題があった。
 また、前記した2つ目の音声合成装置では、音声データベース内に存在しない単語に関して、当該音声データベースを探索する際に、探索単位として音素を使用して、且つ、前後の音素環境が異なる音素も探索していたので、同様に、音声合成処理に時間がかかり、ひいては、合成した音声合成データの音質の低下を招くという問題があった。
 そこで、本発明の目的は前記した従来の技術が有する課題を解消し、音声合成処理を高速にすると共に、音声合成した音声合成データを高品質に維持することができる音声合成方法、音声合成装置および音声合成プログラムを提供することにある。
 前記課題を解決するため、請求項1記載の音声合成方法は、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、音素分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。
 かかる手順によれば、音声合成方法は、音素分割・音韻韻律情報付加ステップにおいて、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。つまり、入力されたテキストデータが、例えば、形態素解析によって、品詞毎に区分けされ、或いは、入力順にテキストデータが無作為に音素に分割され、さらに、この区分けされた各品詞(各単語)が音素に分解され、各音素に音韻韻律情報が付加された音素分割候補が形成される。続いて、この音声合成方法は、音声データ探索ステップにおいて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、音声合成用データベースから探索する。複数の音素分割候補からなる複数音素分割候補とは、例えば、クラスタリングされたトライフォン(前後一つの音素環境を考慮した音素)を基盤とするものである。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列の各音素分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、この補正を行った結果を音声合成データとして出力する。
 なお、音韻韻律情報は、音素毎の基本周波数(一般にF0と表記される)に関する情報である。音声合成用データベースは、音素とこの音素の発話時間が記憶された複数の文章を記憶しているものである。音韻韻律コストは、入力されたテキストデータから予測される漢字の読み方(音素)、予測される韻律(アクセントの配列の仕方)が、基本周波数が音声合成用データベースに記憶されている単語および音素のデータに類似しているかどうかを示す指標で、この音韻韻律コストが低いほど、予測とデータとが類似していることになる。連結コストは、接続される単語がどれだけ滑らかに接続されるかを示す指標に相当するもので、接続される2つの音声波形から抽出した特徴量の差を正規化したものを特徴量の個数だけ計算したものである。この連結コストが低いほど、2つの単語は滑らかに(より自然に)接続されることになる。また、連結コストおよび音韻韻律コストが最小になる単語分割候補とは、連結コストと音韻韻律コストとの和が最小になるものである。
 請求項2記載の音声合成方法は、音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、可変長音素列分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。
 かかる手順によれば、音声合成方法は、可変長音素列分割・音韻韻律情報付加ステップにおいて、テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。可変長音素列は、テキストデータの始めの音素から任意数の音素まで連結したもの、例えば、まず3個の音素を連結し、一つずつ連結する音素の個数を増加させて、音素列の長さを可変長にしたものである。続いて、この音声合成方法は、音声データ探索ステップにおいて、可変長音素列分割・音韻韻律情報付加ステップにて音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、音声合成用データベースから探索する。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにて探索された音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、この補正を行った結果を音声合成データとして出力する。
 請求項3記載の音声合成方法は、単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、単語分割・音韻韻律情報付加ステップと、音声データ探索ステップと、音声データ補正ステップと、音声合成データ出力ステップと、を含む手順とした。
 かかる手順によれば、音声合成方法は、単語分割・音韻韻律情報付加ステップにおいて、入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする。入力されたテキストデータが、例えば、形態素解析によって、単語毎に区分けされ、この区分けされた各単語に音韻韻律情報が付加されたデータが形成される。続いて、この音声合成方法は、音声データ探索ステップにおいて、単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データベースに存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、音声合成用データベースから探索する。そして、この音声合成方法は、音声データ補正ステップにおいて、音声データ探索ステップにて探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力ステップにおいて、音声データ補正ステップにて補正を行った結果を音声合成データとして出力する。
 この音声データ補正ステップにおける補正は、音声データ列の音声波形(基準となる音声波形)に基づいて行われるものである。なお、ここでの音韻韻律情報とは、分割された単語の音素と、単語毎の基本周波数に関する情報である。また、設定データ数は、音声合成用データベースの規模(総データ量)に対応させて任意に設定することができる値である。
 請求項4記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、音素分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。
 かかる構成によれば、音声合成装置は、音素分割・音韻韻律情報付加手段によって、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。続いて、この音声合成装置は、音声データ探索手段によって、音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を音素データ列として音声合成用データベースから探索する。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段にて探索された音声データ列が、音素分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、この補正を行った結果が音声合成データとして出力する。
 請求項5記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、可変長音素列分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。
 かかる構成によれば、音声合成装置は、可変長音素列分割・音韻韻律情報付加手段によって、入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。続いて、この音声合成装置は、音声データ探索手段によって、可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、音声合成用データベースから探索する。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段で探索された音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力手段によって、補正を行った結果を音声合成データとして出力する。
 請求項6記載の音声合成装置は、入力されたテキストデータを音声合成する音声合成装置であって、音声合成用データベースと、単語分割・音韻韻律情報付加手段と、音声データ探索手段と、音声データ補正手段と、音声合成データ出力手段と、を備える構成とした。
 かかる構成によれば、音声合成装置は、単語分割・音韻韻律情報付加手段によって、入力されたテキストデータを単語に分割し、分割した単語毎に音韻韻律情報を付加する。続いて、この音声合成装置は、音声データ探索手段によって、音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データベースに存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補が音声データ列として、音声合成用データベースから探索する。そして、この音声合成装置は、音声データ補正手段によって、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正が行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。
 請求項7記載の音声合成装置は、請求項6に記載の音声合成装置において、前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストの算出する際の係数を決定し、当該係数を使用することを特徴とする。
 かかる構成によれば、音声合成装置は、音声データ探索手段によって単語分割候補を探索する場合、音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、音声合成データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、音韻韻律コストの算出する際の係数を決定し、当該係数を使用している。つまり、クラスターは、クラスタリングされた(分類された)一つのグループであり、音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と音声合成データ上における前後の調音結合に従った音素とが一つのグループにまとめることができる場合、同じクラスターに属しているといえる。また、クラスタリングとは、当該候補を構成している音素のデータ集合を何らかの属性に注目して分類することを指すものである。
 請求項8記載の音声合成装置は、請求項4から請求項7のいずれか1項に記載の音声合成装置において、前記音声データ探索手段は、前記連結コストの算出は複数音素分割候補の統計量を用いて各次元に正規化し、ケプストラム距離を使用することを特徴とする。
 かかる構成によれば、音声合成装置において、連結コストの算出は、複数音素分割候補の統計量、すなわち、トライフォンが含まれているクラスターの隠れマルコフモデル(HMM)の分散値、平均値によって正規化され、各個人で異なる声の性質を示す指標となるケプストラム距離が使用されて行われる。つまり、ケプストラム距離が近いほど、声の性質は近似していることになり、連結コストは小さくなる。
 請求項9記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、音素分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段、音声合成データ出力手段、として機能させる構成とした。
 かかる構成によれば、音声合成プログラムは、音素分割・音韻韻律情報付加手段によって、テキストデータを音素に分割し、各音素に音韻韻律情報を付加する。続いて、この音声合成プログラムは、音声データ探索手段によって、音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位として、連結コストおよび音韻韻律コストが最小になる音素分割候補を音素データ列として音声合成用データ記憶手段から探索する。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段にて探索された音声データ列が、音素分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。
 請求項10記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、可変長音素列分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段と、音声合成データ出力手段、として機能させる構成とした。
 かかる構成によれば、音声合成プログラムは、可変長音素列分割・音韻韻律情報付加手段によって、テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数および音素長を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする。続いて、この音声合成プログラムは、音声データ探索手段によって、可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、発話時間で区切られる音素に基づき、音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段から探索する。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段で探索された音声データ列の各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行って、音声合成データ出力手段によって、音声データ補正手段で補正を行った結果を音声合成データとして出力する。
 請求項11記載の音声合成プログラムは、入力されたテキストデータを音声合成する装置を、単語分割・音韻韻律情報付加手段、音声データ探索手段、音声データ補正手段、音声合成データ出力手段、として機能させる構成とした。
 かかる構成によれば、音声合成プログラムは、単語分割・音韻韻律情報付加手段によって、入力されたテキストデータを単語に分割し、分割した単語毎に音韻韻律情報を付加する。続いて、音声合成プログラムは、音声データ探索手段によって、音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、音声合成用データ記憶手段に存在するか若しくは設定データ数よりデータ数の多い単語については、単語分割候補を探索単位とし、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を音声データ列として、音声合成用データ記憶手段から探索する。そして、この音声合成プログラムは、音声データ補正手段によって、音声データ探索手段にて探索された音声データ列が、単語分割候補毎の連結部分および予測韻律と異なる部分について、当該音声データ列が予測韻律を基準とする一定範囲に収まるように補正を行って、音声合成データ出力手段によって、音声データ補正手段にて補正を行った結果を音声合成データとして出力する。
 請求項1、4、9記載の発明によれば、入力されたテキストデータが音素に分割され、分割された音素毎に音韻韻律情報が付加される。音韻韻律情報が付加された複数音素分割候補毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合および単語を探索単位とした場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。
 請求項2、5、10記載の発明によれば、テキストデータを構成する音素が任意数連結させた可変長音素列とされ、この可変長音素列に音韻韻律情報が付加される。音韻韻律情報が付加された可変長音素列分割候補が探索単位とされ、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として音声合成用データベースから探索され、各可変長音素列分割候補の連結部分および音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分で補正が行われ、音声合成データとして出力される。このため、可変長音素列分割候補が前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合および単語を探索単位とした場合よりも音声合成処理を高速にすることができ、この可変長音素列分割候補が音声合成用データベースから取得できれば、音声合成の結果としてそのまま使用することができる。
 請求項3、6、11記載の発明によれば、入力されたテキストデータが単語に分割され、分割された単語毎に音韻韻律情報が付加される。音韻韻律情報が付加された単語分割候補または複数音素分割候補毎に、連結コストおよび音韻韻律コストが最小になる単語分割候補が音声データ列として音声合成用データベースから探索され、音声データ列の各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われ、音声合成出力として出力される。このため、複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に単語および未知語部分を音素で探索した場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
 請求項7記載の発明によれば、単語の語頭および語尾において、クラスタリングされた前後の音素環境が考慮された複数音素分割候補が、音声合成する際の音声合成用データベースの探索時に音韻韻律コスト算出に用いられることで、音韻韻律コストの差が顕著に設定でき、総じて、合成音声データの品質を改善することができる。
 請求項8記載の発明によれば、ケプストラム距離が近いほど、声の性質は近似していることになり、連結コストは小さくなるので、音声合成する際の音声合成用データベースの探索時に、当該ケプストラム距離が連結コスト算出に用いられることで、合成音声データの品質を改善することができる。
 以下、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。
(音声合成装置の構成)
 図1を参照して、音声合成装置の構成を説明する。図1は、音声合成装置のブロック図であり、この図1に示すように、音声合成装置1は、入力されたテキストデータ(入力日本語テキスト)から音声合成データ(出力音声、合成結果)を出力するものであり、入力部3と、単語音素分割・音韻韻律情報付加部5と、音声合成用データベース探索部7と、音韻韻律補正部9と、出力部11と、音声合成用データベース13とを備えている。
 入力部3は、キーボード、マウス等を備えて構成され、マンマシンインターフェースの役割を果たすものであり、音声合成装置1のユーザが記述した文章(テキストデータ:入力日本語テキスト)を入力するものである。また、この入力部3は、OCRの機能を有しており、手書きされた文字も認識してテキストデータに変換するものである。さらに、この入力部3は、磁気媒体で構成されるフレキシブルディスクに記録されているテキストデータを読みとるデータ読出機能を有している。なお、この実施の形態では、入力部3には、複数の入力機能が備えられているが、少なくとも1個の入力機能を備えていればよい。
 単語音素分割・音韻韻律情報付加部5は、単語分割手段5aと、音素分割手段5bと、可変長音素列分割手段5cと、音韻韻律情報付加手段5dとを備えている。単語分割手段5aは、入力部3から送出されたテキストデータについて、形態素解析を行って、当該テキストデータを単語(単語単位)に分割するものである。
 音素分割手段5bは、単語分割手段5aで分割された単語を音素に分割するものである。或いは、入力部3から送出されたテキストデータについて、入力された順に音素(音素単位)に分割するものである。
 可変長音素列分割手段5cは、音素分割手段5bで分割された音素を任意個数連結させた可変長音素列として、音韻韻律情報付加手段5dに出力するものである。なお、この実施の形態では、3個の音素を連結した可変長音素列から一つずつ連結する音素の個数を増加させていく構成となっている。
 音韻韻律情報付加手段5dは、単語分割手段5aで分割された単語に音韻韻律情報を付加した単語分割候補とし、音素分割手段5bで分割された音素に音韻韻律情報を付加した音素分割候補とし、可変長音素列分割手段5cで出力された可変長音素列に音韻韻律情報を付加した可変長音素列分割候補として、音声合成用データベース探索部7に出力するものである。
 この単語音素分割・音韻韻律情報付加部5では、入力部3から送出されたテキストデータに応じて、当該テキストデータを単語で分割するか、音素で分割するか、可変長音素列とするかを任意に設定することができる分割単位設定手段(図示せず)を備えている。この分割単位設定手段によって、当該装置1のユーザは、分割単位を自在に設定することができる。
 なお、形態素解析とは、文章を語句より小さな形態素(語句をさらに細分化したもの)のレベルまで分解して解析することで、日本語のように、文章中の語句の切り出しが明確でない言語の場合、形態素解析は“語句の切り出し”と同様な意味をもつことになる。ちなみに、日本語における形態素解析では、形態素同士の接続情報(名詞には助詞「が」が接続しうる)等の文法記述をすることが一般的である。また、音韻韻律情報とは、音素や基本周波数等に関する情報である。
 音声合成用データベース探索部7は、単語音素分割・音韻韻律情報付加部5から送出された単語分割候補、音素分割候補または可変長音素列分割候補(音韻韻律情報が付加されている)を音声合成用データベース13から探索するものである。
 まず、この音声合成用データベース探索部7に、単語分割候補または音素分割候補が入力された場合について説明する。この音声合成用データベース探索部7では、単語分割候補または音素分割候補が入力されると、音声合成用データベース13に存在する単語分割候補(または複数の音素分割候補からなる複数音素分割候補)の全ての組み合わせについて、ビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列が送出される。なお、音声合成用データベース13に記憶されていない単語(未知語)が入力された場合には、クラスタリングされたトライフォンを探索単位として音声合成用データベース13が探索される。また、ビタービサーチとは、最大(最小)のスコアを与える仮説(単語分割候補の組み合わせ)の履歴のみを残して計算していく手法のことである。
 また、この音声合成用データベース探索部7では、各単語分割候補の連結コストおよび音韻韻律コストの計算結果を記録するコスト計算結果記録機能(図示せず)を有しており、逐次計算した結果が記録されている。
 連結コストの計算は、例えば、以下に示す数式(1)に基づいて行われる。
Figure 2004139033
 ただし、C(A,B)は素片Aと素片Bとが連続したときの連結コスト、PE Aは素片Aの終わりの基本周波数、PI Bは素片Bの始めの基本周波数、xE iAは、i次元目における素片Aの終わりのケプストラム係数(ケプストラム係数の一次の回帰係数、ケプストラム係数の二次の回帰係数に該当)、xI iBは、i次元目における素片Bの始めのケプストラム係数(ケプストラム係数の一次の回帰係数、ケプストラム係数の二次の回帰係数に該当)、σS(A) iはi次元目における素片Aの終わりのトライフォン(素片Aがトライフォンであればそのトライフォン)が含まれているクラスターS(A)のHMMの分散値、μS(A) iはi次元目における素片Aの終わりのトライフォンが含まれているクラスターS(A)のHMMの平均値、σS(B) iはi次元目における素片Bの始めのトライフォン(素片Aがトライフォンであればそのトライフォン)が含まれているクラスターS(B)のHMMの分散値、μS(B) iはi次元目における素片Bの始めのトライフォンが含まれているクラスターS(B)のHMMの平均値、ω6、ω7は正の重み、Cは正の定数、δABは素片Aと素片Bとが連続して音声合成用データベース13内にある場合を0、ない場合1を、それぞれ示すものである。
 なお、この数式(1)に基づく連結コストの算出は、複数音素分割候補の統計量を用いて各次元に正規化し(詳細は図3を使って後記する)、ケプストラム距離(数式(1)のΣの項に該当)を使用している。複数音素分割候補の統計量、すなわち、トライフォンが含まれているクラスターは、隠れマルコフモデル(HMM)の分散値、平均値によって正規化され、各個人で異なる声の性質を示す指標となるケプストラム距離が使用されてクラスタリングされている。つまり、ケプストラム距離が近いほど、声の性質は近似していることになり、連結コストは小さくなる。このクラスタリングされた前後の音素環境が考慮されたトライフォンが、音声合成する際の音声合成用データベース13探索時に用いられることで、連結コストの計算候補が削減できるので、音声処理時間を削減することができる(処理速度を向上させることができる)。
 音韻韻律コストの計算は、例えば、以下に示す数式(2)に基づいて行われる。
Figure 2004139033
 ただし、C(Y,D)は音韻韻律コスト、SDP(Y,D)は入力された単語Yの音素表記と音声合成用データベース13内の単語Dの音素表記との動的計画法によるマッチングをとり、1に正規化したスコア、SI CLUSTERは入力された単語Yの語頭のトライフォンと、音声合成用データベース13内の単語Dの語頭のトライフォンとが同じクラスターに属した場合1、そうでない場合0をとるスコア、SE CLUSTERは入力された単語Yの語尾のトライフォンと、音声合成用データベース13内の単語Dの語尾のトライフォンとが同じクラスターに属した場合1、そうでない場合0をとるスコア、/Pj Yは入力された単語Yの語頭からj番目のトライフォンの予測基本周波数から単語Y内での基本周波数平均値を減算したもの、/Pj Dは音声合成用データベース13内の単語Dの語頭からj番目のトライフォンの基本周波数から、当該単語D内での基本周波数平均値を減算したもの、nyは入力された単語Yの音素数、ω1、ω2、ω3は正の重み、θは補正定数を、それぞれ示すものである。ここで、日本出願の明細書では、文字修飾でルビ(オーバーライン)を記述することができないために、ルビ(オーバーライン)の代わりに/を用いる。
 また、sigmoid関数は、例えば、sigmoid(x)=tanh(x)=ex−e-x/ex+e-xで表されるもので、この式の場合、xの取りうる値は0から無限大であるが、sigmoid(x)は一定の範囲(0から1)に写像することができるものである。つまり、数式2において、sigmoidの項は、例えば、基本周波数平均値が誤入力等によって異常に高い値となった場合に、一定の範囲の値(0から1)に置き換えることで、音韻韻律コストの算出値への影響を除去するためのものである。
 SI CLUSTERと、SE CLUSTERとは、素片(単語分割候補または音素分割候補)が同じクラスターに属するかどうかによってスコア(0か1)が異なり、音韻韻律コストの算出値に影響が及ぶ。これによって、同じクラスターに属する素片同士であれば、音韻韻律コストは低くなり(SI CLUSTERと、SE CLUSTERとのスコアは0)、同じクラスターに属さない素片同士であれば、音韻韻律コストは高くなる(SI CLUSTERと、SE CLUSTERとのスコアは1)。これによれば、クラスタリングされた前後の音素環境が考慮されたトライフォンが、音声合成する際の音声合成用データベース13探索時に用いられることで、音韻韻律コストを計算する計算候補が削減できるので、音声処理時間を削減することができる(処理速度を向上させることができる)。
 さらに、音声合成用データベース探索部7では、単語音素分割・音韻韻律情報付加部5の単語分割手段5aで単語に分割された単語分割候補が入力された場合に、当該単語分割候補が、音声合成用データベース13に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語に該当する場合については、当該単語分割候補の前後の調音結合を考慮した複数の音素からなる複数音素分割候補が探索単位とされる。また、音声合成装置1には、設定データ数を設定するデータ数設定手段(図示せず)が備えられており、このデータ数設定手段によって、当該装置1のユーザは、設定データ数を音声合成用データベース13のデータ量に対応させて任意に設定することができる。設定データ数は、例えば、5(音声合成用データベース13に5個しか同一の単語が含まれていない場合)といったように設定される。
 さらにまた、この音声合成用データベース探索部7では、ビタービサーチの計算時間の短縮を図るために、ビームサーチが実行され、探索の途中で一番よいスコアから決定された閾値内に入らない仮説(単語分割候補同士の連結、または複数音素分割候補の連結)の削除が実行される。なお、ビームサーチとは、あるスコアの値から特定値以上のスコアの値を持つ仮説に絞り込んで(特定値未満のスコアの値を持つ仮説は除外して)計算する手法である。また、この音声合成用データベース探索部7が請求項に記載した音声データ探索手段に相当するものである。
 次に、この音声合成用データベース探索部7に可変長音素列分割候補が入力された場合について説明する。この音声合成用データベース探索部7に可変長音素列分割候補が入力されると、音声合成用データベース13に存在する可変長音素列分割候補の全ての組み合わせについてビタービサーチに基づいた計算が実行され、このビタービサーチの結果、連結スコアおよび音韻韻律スコアが最も大きい音声データ列が送出される。
 連結スコアの計算は、例えば、以下に示す数式(3)に基づいて行われる。
Figure 2004139033
 但し、pE Aは素片Aの終わりの基本周波数、pI Bは素片Bの始めの基本周波数、cE jAはj次元目における素片Aの終わりの特徴量、cI jBはj次元目における素片Bの始めの特徴量、σ(上付きTE A)、σ(上付きTI B)、はj次元目における素片Aの終わりのトライフォン(素片Aがトライフォンであればそのトライフォン)が含まれるクラスターTE A、TI BのHMMの分散値、μ(上付きTE A)、μ(上付きTI B)、はj次元目における素片Aの終わりのトライフォンが含まれるクラスターc(A)のHMMの平均値、dは特徴量の総次元数、ω7、ω8は、正の重み,「a」は正の定数、δABは素片Aと素片Bが連続して音声合成用データベース13内にある場合を“0”、ない場合を“1”としたものである。なお、この実施の形態では、ω7は0.006であり、ω8は0.25であり、この数式(3)における「a」は10である。これらの値は、音声合成装置1を使用して行った実験に基づいて経験的に設定されたものである。
 音韻韻律スコアの計算は、例えば、以下に示す数式(4)に基づいて行われる。
Figure 2004139033
 pj Y、pj Dはそれぞれ入力された単語Yおよび音声合成用データベース13における単語Dの語頭からj番目のトライフォンの予測基本周波数、nYは入力された単語Yの音素数、θ(Tj Y)は入力された単語Yの語頭からj番目の音素Tj Yが母音もしくは半母音である場合には“1”を返しそれ以外の場合では“0”を返す関数でlYは入力された単語Yの予測長、lDは音声合成用データベース13における単語Dの長さ、ω3、ω4は正の重みである。なお、この実施の形態では、ω3は0.0625であり、ω4は4である。これらの値は、音声合成装置1を使用して行った実験に基づいて経験的に設定されたものである。
 音韻韻律補正部9は、音声合成用データベース探索部7の探索結果である音声データ列の補正を行うためのもので、単語音素分割・音韻韻律情報付加部5から送出された単語分割候補、音素分割候補または可変長音素列分割候補の全ての組み合わせについてビタービサーチが実行され、このビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予め設定された予測韻律(音韻韻律情報に基づいて決定される)の異なる韻律部分について、当該予測韻律を基準とする一定範囲に収まるように補正を行うものである。
 つまり、この音韻韻律補正部9は、例えば、入力された文章がもつべき音韻韻律情報を予測して、この予測した予測値(予測韻律、予測音韻韻律情報とする)と、音声合成用データベース13中に記憶されている文字列の値(既定音韻韻律情報とする)との類似度を比較することによって、一定以上の類似度の範囲に収まるように音声データ列の合成音声波形を補正するものである。なお、この合成音声波形の補正に関しては、特開平2−47700号公報(ピッチ、ホルマント(基本周波数)の制御をきめ細かくした場合に音韻性を保つことができる音声合成方法)に記載されている方法を適用することとする。また、この実施の形態では、トライフォンのクラスタリングに関しては、S.J.YOUNG他“Tree−Based state tying for high accuracy acoustics modeling”,Proc.ARPA Human Language Technology Workshop,pp.307−312(1994)に記載されている手法を適用する。また、この音韻韻律補正部9が請求項に記載した音声データ補正手段に相当するものである。
 出力部11は、音声合成用データベース探索部7で計算された計算結果である音声データ列または音韻韻律補正部9で補正された音声データ列(出力音声合成結果)を外部に出力するためのものである。この出力部11には、図示を省略した比較手段が備えられており、この比較手段によって、音声合成用データベース探索部7で計算された音声データ列と、音韻韻律補正部9で補正された音声データ列とが比較され、比較した結果に基づき、音声データ列が補正されている場合には、音韻韻律補正部9で補正された音声データ列が出力される。この実施の形態では、この出力部11には、スピーカ等の音声出力装置(図示せず)が接続されている。
 音声合成用データベース13は、大容量のハードディスク等で構成されており、単語毎に音声データ(音声波形)、音韻韻律情報(音素、アクセント)、および発話時間を記憶しているものである。なお、この音声合成用データベース13には、入力されたテキストデータの文章の「文頭」を示す情報が記憶されている。この「文頭」を示す情報を基点にして、音声合成用データベース探索部7で「文頭」に続いていく単語分割候補の連結コストと音韻韻律コストとが算出される。また、この音声合成用データベース13で保持されている単位音声(音声合成用データ)は、「単語」、「クラスタリングされたトライフォン(前後1つの音素環境を考慮した音素)」および「可変長音素列(前後の音素環境を考慮した音素列)」を基準としており、この実施の形態では、複数の単語およびトライフォンからなる「文章」が当該音声合成用データベース13の構成単位となっている。また、各文章には「文番号」が付されており、各単語、トライフォンおよび可変長音素列の発話時間が記録されている。
 この音声合成装置1によれば、単語音素分割・音韻韻律情報付加部5の単語分割手段5aで、入力されたテキストデータが単語に分割される。或いは、音素分割手段5bで、入力されたテキストデータが音素に分割される。そして、音韻韻律情報付加手段5dで、分割された単語(音素)毎に音韻韻律情報が付加される。続いて、音声合成用データベース探索部7で、音韻韻律情報が付加された単語(単語分割候補)または複数音素分割候補毎に、連結コスト(数式(1)に基づく)および音韻韻律コスト(数式(2)に基づく)が最小になる単語分割候補(複数音素分割候補)が音声データ列として、音声合成用データベース13から探索される。音韻韻律補正部9で、各単語分割候補(複数音素分割候補)の連結部分および予測された韻律の異なる部分で補正が行われ、さらに、出力部11で、音声合成データが出力される。
 このため、複数音素分割候補が音声合成用データベース13の探索単位とされ、この複数音素分割候補が音素分割候補の前後の調音結合を考慮したものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができ、この複数音素分割候補を探索単位としているので、連結コストおよび音韻韻律コストを計算する計算候補を削減でき、当該装置1では音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、音韻韻律補正部9で、各単語分割候補の連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
 また、この音声合成装置1によれば、単語音素分割・音韻韻律情報付加部5の可変長音素列分割手段5cによって、音素を任意数連結させた可変長音素列とされる。そして、音韻韻律情報付加手段5dで、可変長音素列に音韻韻律情報が付加される。続いて、音声合成用データベース探索部7で、音韻韻律情報が付加された可変長音素列分割候補の中で、連結スコア(数式(3)に基づく)および音韻韻律スコア(数式(4)に基づく)が最大となる可変長音素列分割候補の組み合わせが音声データ列として、音声合成用データベース13から探索される。音韻韻律補正部9で、可変長音素列分割候補の組み合わせの連結部分および予測された韻律の異なる部分で補正が行われ、さらに、出力部11で、音声合成データが出力される。
 このため、可変長音素列分割候補が音声合成用データベース13の探索単位とされ、この可変長音素列分割候補が前後の調音結合を考慮したものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができ、この可変長音素列分割候補を探索単位としているので、連結スコアおよび音韻韻律スコアを計算する計算候補を削減でき、当該装置1では音声合成の処理速度を一定以上に保持することができ、結果的に音声合成した音声合成データを高品質に維持することができる。また、音韻韻律補正部9で、可変長音素列分割候補の組み合わせの連結部分および予測された韻律の異なる部分で補正が行われるので、より精度の高い音声合成を実現することができる。
 さらに、音声合成用データベース探索部7で、音声合成用データベース13に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、当該単語分割候補の前後の調音結合を考慮した複数の音素からなる複数音素分割候補が探索単位とされ、連結コスト(数式(1)に基づく)および音韻韻律コスト(数式(2)に基づく)が最小になる単語分割候補および複数音素分割候補が音声データ列として、音声合成用データベース13から探索される。このため、未知の単語であっても、複数音素分割候補が音声合成用データベース13の探索単位とされ、この複数音素分割候補が音素分割候補の前後の調音結合に従ったものであるので、単純に音素を探索単位とした場合よりも音声合成処理を高速にすることができる。
(音声合成装置の動作)
 次に、図2に示すフローチャートを参照して、音声合成装置1の動作を説明する(適宜、図1参照)。
 まず、音声合成装置1のユーザが、当該装置1の入力部3のOCR機能を使用して、手書き文章を入力したり、入力部3のデータ読出機能を使用してフレキシブルディスクに記憶させたテキストデータ(入力日本語テキスト)を入力したりする。つまり、この音声合成装置1の入力部3で、様々な態様で入力された情報が、テキストデータとして、単語音素分割・音韻韻律情報付加部5に送出される(ステップS1)。
 テキストデータを受け取った単語音素分割・音韻韻律情報付加部5では、当該テキストデータを単語に分割するかどうかを判断する(ステップS2)。また、テキストデータを単語に分割すると判断されない場合(ステップS2、No)、テキストデータを任意個数の音素を連結した可変長音素列の組み合わせとするかどうかを判断する(ステップS3)。
 ステップS2において、テキストデータを単語に分割すると判断された場合(ステップS2、Yes)、単語分割手段5aで、テキストデータが単語に分割される。続いて、音韻韻律情報付加手段5dで、分割された単語毎に、音声合成用データベース13に記憶されている情報が参照されて音韻韻律情報が付加されて、単語分割候補とされ、音声合成用データベース探索部7に送出される(ステップS4)。
 ステップS3において、テキストデータを可変長音素列の組み合わせとすると判断されなかった場合(ステップS3、No)、音素分割手段5bで、テキストデータが音素に分割される。続いて、音韻韻律情報付加手段5dで、分割された音素毎に、音声合成用データベース13に記憶されている情報が参照されて音韻韻律情報が付加されて、音素分割候補とされ、音声合成用データベース探索部7に送出される(ステップS5)。
 ステップS3において、テキストデータを可変長音素列の組み合わせとすると判断された判断された場合(ステップS3、Yes)、可変長音素列分割手段5cで、テキストデータが可変長音素列の組み合わせとされる。なお、テキストデータが極端に短い場合(例えば、3個以下の音素からなる場合)には、テキストデータは、一つの可変長音素列とみなされる。続いて、音韻韻律情報付加手段5dで、可変長音素列毎に、音声合成用データベース13に記憶されている情報が参照されて音韻韻律情報が付加されて、可変長音素列分割候補とされ、音声合成用データベース探索部7に送出される(ステップS6)。
 なお、通常は、単語音素分割・音韻韻律情報付加部5に入力されたテキストデータを単語分割手段5aで単語に分割し、単語(単語分割候補)に分割後、音声合成用データベース13に該当する単語が含まれていないと判断された場合に、音素分割手段5bでテキストデータが音素に分割され、音韻韻律情報付加手段5dで、音韻韻律情報が付加される。
 そして、音声合成用データベース探索部7に複数音素分割候補または単語分割候補が入力された場合(ステップS4、ステップS5を経た場合)、音声合成用データベース探索部7で複数音素分割候補(クラスタリング音素)または単語分割候補について、音声合成用データベース13に記憶されている情報が参照され、複数音素分割候補(単語分割候補)の全ての組み合わせについて、連結コスト(数式(1)に基づく)と音韻韻律コスト(数式(2)に基づく)が計算される。計算された結果(ビタービサーチの結果)の中で、連結コストおよび音韻韻律コストが最も低くなった音声データ列が音韻韻律補正部9および出力部11に送出される(ステップS7)。
 また、音声合成用データベース探索部7に可変長音素列分割候補が入力された場合(ステップS6を経た場合)、音声合成用データベース探索部7で可変長音素列分割候補について、音声合成用データベース13に記憶されている情報が参照され、可変長音素列分割候補の全ての組み合わせについて、連結スコア(数式(3)に基づく)と音韻韻律スコア(数式(4)に基づく)が計算される。計算された結果(ビタービサーチの結果)の中で、連結スコアおよび音韻韻律スコアが最も高くなった音声データ列が音韻韻律補正部9および出力部11に送出される(ステップS8)。
 また、音韻韻律補正部9では、音声合成用データベース探索部7におけるビタービサーチの結果、連結コストおよび音韻韻律コストが最も低くなった音声データ列の合成音声波形について、各単語分割候補の連結部分および予測された韻律の異なる部分、または、連結スコアおよび音韻韻律スコアが最も高くなった音声データ列の合成音声波形について、各可変長音素列分割候補の連結部分および予測された韻律の異なる部分の補正が行われ、補正結果が出力部11に送出される(ステップS9)。
 そして、出力部11では、図示を省略した比較手段によって比較された結果に基づいて、音声合成データが外部に出力される(ステップS10)。
(音声合成装置の具体的な音声合成例1)
 ここで、音声合成装置1の具体的な音声合成例1を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例1では、単語音素分割・音韻韻律情報付加部5で単語分割候補または複数音素分割候補が音声合成用データベース探索部7に送出された場合のものである。
 単語音素分割・音韻韻律情報付加部5の出力は、「〈文頭〉_また_東京_都_の_石原_知事_は_次_の_ように_話して_います_〈文末〉」となる。なお、この各単語分割候補にはそれぞれ音韻韻律情報が付加されている。そして、次の音声合成用データベース探索部7では、まず、音声合成用データベース13中の「〈文頭〉」から、音声合成用データベース13中の「また」へ接続する全ての組み合わせについて、数式(1)によって連結コストと、数式(2)によって音韻韻律コストとが計算される。
 計算された結果、音声合成用データベース13中1番初めの「また」に接続する「文頭」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、数式(1)によって連結コストと、数式(2)によって音韻韻律コストとが計算、記録動作が音声合成用データベース13中の全ての「また」について実行される。さらに、「東京」についても同様に、音声合成用データベース13中1番始めの「東京」に接続する「〈文頭〉_また」の単語分割候補(音声データ)で数式(1)によって連結コストと、数式(2)によって音韻韻律コストとが一番低かったものが音声合成用データベース探索部7で記録される。そして、連結コストおよび音韻韻律コストの計算、記録動作が音声合成用データベース13中の全ての「東京」について実行される。
 次に、「石原」という単語分割候補が音声合成用データベース13中に存在していない場合には、「石原」に付加されている音韻韻律情報「i_sh_i_h_a_r_a」が使用され、音声合成用データベース13中の一番初めにある「o−i+sh」の属するクラスターに接続する「〈文頭〉_また_東京_都_の」の単語分割候補(音声データ)で数式(1)によって連結コストと、数式(2)によって音韻韻律コストとが一番低かったものが記録される。こういった計算、記録動作が音声合成用データベース13中の全ての「o−i+sh」について実行される。
 続いて、音声合成用データベース13中一番初めにある「i−sh+i」に接続する「〈文頭〉_また_東京_都_の_o−i+sh」の単語分割候補(音声データ)で連結コストおよび音韻韻律コストが一番低かったものが記録される。また、数式(1)によって連結コストと、数式(2)によって音韻韻律コストとの計算、記録動作が音声合成用データベース13中の全ての「i−sh+i」が属するクラスターに含まれるデータについて実行される。連結コストおよび音韻韻律コストの計算、記録動作が文末に到達するまで繰り返し実行される。
 最後に「〈文頭〉_また_東京_都_の_S(o−i+sh)_S(i−sh+i)_S(sh−i+h)_S(i−h+a)_S(h−a+r)_S(a−r+a)_S(r−a+ch)_知事_は_次_のよう_に_話して_います_〈文末〉」の単語分割候補(音声データ)で連結コストと音韻韻律コストとが一番低かったものが音声合成データ(出力音声合成結果)として出力される。なお、ここでは、S(i−h+a)はi−h+aというトライフォンが属するクラスターを示すものである。
(音声合成装置の具体的な音声合成例2)
 また、ここで、音声合成装置1の具体的な音声合成例2を説明する。音声合成装置1の入力部3にテキストデータ(入力日本語テキスト)として、「〈文頭〉また東京都の石原知事は次のように話をしています〈文末〉」が入力された場合について説明する。この音声合成例2では、単語音素分割・音韻韻律情報付加部5で可変長音素列分割候補が音声合成用データベース探索部7に送出された場合のものである。
 この場合、単語音素分割・音韻韻律情報付加部5の出力は「(mat)(at)(o:kyo’:to)(no)(ishihar)(ach)(i’j)(iw)(atsuginoyo’:n)(ihana’shiteimasu)」とする。なお、「(at)」と表記した場合、この実施の形態では、前後の音素環境を考慮した前の音素が「t」で後の音素が「o:」になる「(at)」のみを想定することとする。この各可変長音素列分割候補には、それぞれ音韻韻律情報が付加されている。
 次に、音声合成用データベース探索部7では、まず、音声合成用データベース13中の「(mat)」から音声合成用データベース13中の「(at)」に接続する全ての組み合わせについて、数式(3)を使用して求める連結スコアおよび数式(4)を使用して求める音韻韻律スコアを計算する。
 計算された結果、音声合成用データベース13中、1番始めの「(at)」に接続する「(mat)」の可変長音素列分割候補の中で連結スコアおよび音韻韻律スコアが一番大きいものが音声合成用データベース探索部7で記録される。そして、数式(3)を使用して求める連結スコアおよび数式(4)を使用して求める音韻韻律スコアの計算、記録動作が音声合成用データベース13中の全ての「(at)」について実行される。
 さらに、「(o:kyo’:to)」についても同様に、音声合成用データベース13中、1番始めの「(o:kyo’:to)」に接続する「(mat)」「(at)」の可変長音素列分割候補の中で連結スコアおよび音韻韻律スコアが一番大きいものが音声合成用データベース探索部7で記録される。そして、数式(3)を使用して求める連結スコアおよび数式(4)を使用して求める音韻韻律スコアの計算、記録動作が音声合成用データベース13中の全ての「(o:kyo’:to)」について実行される。
 最後に、可変長音素列分割候補の組み合わせの中で、連結スコアおよび音韻韻律スコアが一番大きいものが音声合成データ(出力音声合成結果)として出力される。
(クラスタリングされたトライフォンについて)
 ここで、クラスタリングされたトライフォンの各次元の正規化について、次式(数式(5)、数式(6))を示して補足説明をする。
Figure 2004139033
 この数式(5)より以下の項が算出される。
Figure 2004139033
 この数式(5)は、数式(1)におけるΣの項の[σS(A) i+σS(B) i+(μS(A) i−μS(B) i2]の導出を示したものである。この数式(6)に示したように、xE iA−xI iBの差の自乗平均値はσS(A) i+σS(B) i+(μS(A) i−μS(B) i2となり、これによってxE iA−xI iBの差の自乗値を除算することにより各次元を正規化することができる。
(音声合成装置による音声合成実験について)
 次に、音声合成装置1を使用して、音声合成実験を行った結果について、図3から図7を参照して説明する(適宜、図1参照)。この音声合成実験では、入力する入力日本語テキストの間違った読みの付与を避けるために、人手で確認し修正した音素記号列を入力することとした。また、基本周波数、音素長の予測間違いを避けるため、音声合成用データベース13に保持しているデータには、正確な文法で記述された複数の文章が収められた入力テキストをアナウンサー等が発声している自然音声から抽出したものを使用している。
 図3は、音声合成装置1に入力した入力日本語テキスト(音素記号列)と当該音素記号列の音声合成における音声合成用データベース13の探索(ビタービサーチ)を模式的に示したものである。音声合成装置1に入力した音素記号列は、“zenkokunotenkidesita”(全国の天気でした)であり、単語音素分割・音韻韻律情報付加手段5の可変長音素列分割手段5cによって、音素記号列を分割する個数が最小になり、それぞれの長さがなるべく均等になる音素列(音素環境依存音素列とする)に分割する。
 次に、音声合成装置1の音声合成用データベース探索部7では、ビタービサーチ(Viterbiアルゴリズム)を使用して、文頭から順に、音声合成用データベース13の中から音声素片の探索を行い、基本周波数、音素長の予測値との一致の度合いを表す目標スコア(音韻韻律スコア)と、隣り合う各音素片の一致の度合いを表す接続スコア(連結スコア)との和である総スコアが最大となる仮説のみを保持していく。但し、音声素片の探索では、枝狩りは行わず全てを探索する。
 そして、音声合成装置1は、音素記号列の文末で最大のスコアを持つ仮説のパスを接続して、合成音声(音声合成データ)を出力している。
(対比較実験について)
 これより、音声合成装置1によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを使用して、自然性(より自然に聞こえるか)に関して比較した対比較実験について説明する。音声合成用データベース13に予め蓄積したデータは、1996年6月3日から2001年6月22日までのNHKニュースデータベースに存在する森田アナウンサーにより発声された27788文章と森田アナウンサーが読み上げたバランス文100文章の計86時間分を全て収めたものであり、総トライフォン384万、異なりトライフォン数8771である。また、音声合成装置1で合成した音声合成データと比較の対象となる評価用テキストには、2001年6月25日から6月29日までのNHKニュース10で森田アナウンサーが発声した100文章(音素数13777)を使用した。
 この対比較実験は、防音室内でスピーカを用いて行い、当該実験の被験者は、音声評定の経験のある女性4名(被験者A〜D)である。また、この対比較実験では、評価用テキスト100文全てを受聴させ、それぞれの受聴は1回のみに限定した。この対比較実験の各試行は、音声合成装置1によって合成した音声合成データと、探索単位として単語を使用した場合のデータとを対でランダムな順序で呈示し、被験者がより自然に感じる方を選択するように当該被験者に指示を与えた。なお、この対比較実験は、各被験者に適度な時間間隔で休憩をとってもらいながら行った。
 この対比較実験の実験結果を図4に示す。この図4に示すように、全体(total)で64%の音声に関して、音声合成装置1によって合成した音声合成データ(本発明に係るものなので、以下、提案法と略記する)の方が、探索単位として単語を使用した場合のデータ(従来法によるものなので、以下、従来法と略記する)に比べて、自然であると評価された。なお、被験者Dのみが異なる割合を示しているが、それ以外の被験者A〜Cは同じ割合を示している。
 また、音声合成にかかる処理時間は、合成した音声合成データの時間長を基準にすると、従来法で26.1倍、提案法で2.24倍となった。また、1文章中の平均素片探索回数は、従来法で44.6回、提案法で53.8回となった。一方、1探索当たりの平均仮説数は、従来法では2118、提案法では582である。従って、提案法では、前後の音素環境を考慮するため探索回数は増加するが、仮説数が減少するので、処理時間の短縮に繋がっているといえる。
 さらに、提案法の場合、1文章平均で137.8音素含まれることを考慮すると、1文章当たりの接続点数は31.5であるので、平均4.4音素連続して音声合成用データベース13から選択されていることとなる。
 すなわち、この対比較実験から、音声合成装置1を利用した音声合成である提案法は、単語を探索単位とした従来法に比べ、従来法のほぼ10分の1の処理時間で、自然性の高い音声合成データを合成できる。
(5段階品質評価実験について)
 次に、音声合成装置1を使用した5段階品質評価実験について説明する。この5段階品質評価実験は、音声合成装置1に対比較実験で使用したデータの8分の1、4分の1、2分の1、1のデータを音声合成用データベース13に蓄積し、評価用テキストとして2001年6月28日から6月29日までに放送されたNHKのニュース番組の中で、音声合成用データベース13に蓄積した音声を発したアナウンサーと同じアナウンサーが発声した背景音がない40文章(1444単語、5927音素)を使用し、当該音声合成装置1で合成した160の音声合成データと、基本周波数および音素長の抽出の対象にした40の自然音声データとの合計200音声(評価用データとする)に対して5段階で品質評価を行ったものである。
 この5段階品質評価実験は、対比較実験と同様に、防音室内で、スピーカを用いて行っており、被験者は音声評定の経験がある女性4名(被験者A〜D)である。各試行では、評価用データをランダムな順序で被験者A〜Dに呈示し、被験者A〜Dは自然性の違いを評価する。この自然性の評価は、“5”(自然である)、“4”(不自然な部分はあるが気にならない)、“3”(少し気になる)、“2”(気になる)、“1”(非常に気になる)の5段階で品質評価を行うこととした。なお、品質評価に先立ち、被験者A〜Dには、音声合成用データベース13内の音声を3文章聞かせて、どの程度の音声であれば、自然に聞こえるとするかといった評価基準(インストラクション)を与えた。また、評価用テキストとして実際に放送されたニュース文を利用しているので、1文の長さが平均10秒程度と長いことから、受聴は1回のみに限定し、適度な間隔で休憩を挟みながら行った。
 ここで、音声合成用データベース13の大きさ(テータ量)によるMOS(Mean Opinioin Score)の変化を図5に示す。この図5に示すように、自然音声の評価は、被験者Aで5.00、被験者Bで5.00、被験者Cで4.97、被験者Dで4.95となり、全体で4.98となった。また、音声合成用データベース13の大きさによる評価分析の違いを図6に示す。この図6に示すように、自然音声の“5”(自然である)と評価されたのは全体の98%であるため、図6中には図示されていない。
 また、音声合成用データベース13には、86時間分のデータが含まれており、この86時間分のデータを使用して音声合成データを合成した場合の平均評価は3.6となり、「不自然な部分があるが気にならない」と「少し気になる」との間の自然性を持つと言え、従来法の平均評価2.6(図示せず)と比べ、かなり良い評価であると言える。
 また、図6の86時間の評価分布から、全体の24%の音声合成データが“5”(自然である)と評価されていて、提案法により自然音声と変わらない品質の音声合成データが高頻度で合成されていると言える。
 さらに、図5から音声合成用データベース13のデータ量が大きくなると自然性の評価が向上して行くと言える。しかし、音声合成用データベース13のデータ量が43時間を超えたところでほぼ飽和しており、これ以上、データ量を増加させても音声合成データの自然性の改善効果は小さいと言える。すなわち、音声合成装置1は、音声合成用データベース13のデータ量を40時間程度確保すれば、自然音声と変わらない品質の音声合成データを合成することができる。
 5段階品質評価実験の評価の結果を、被験者毎にみると、被験者により絶対的な評価の違いはあるものの、音声合成用データベース13のデータ量に関しては、全員同じ傾向を示している。被験者Aと被験者Cとで平均0.8の評価の違いが見られるが、この違いは、不自然な箇所をどれだけ気にするかといった主観的なものであると推察している。
 さらに、図6から、音声合成用データベース13のデータ量が小さくなると、“5”(自然である)および“4”(不自然な部分はあるが気にならない)と評価された音声合成データが減少していき、逆に“3”(少し気になる)、“2”(気になる)、“1”(非常に気になる)と評価された音声合成データが増加していく傾向にある。なお、86時間の音声合成用データべース13による音声合成データで“2”および“1”の評価を受けたものは全体の19%である。
 ここで、さらに、音声合成用データベース13のデータ量による、合成処理時間、隣り合う音声素片が当該音声合成用データベース13内で異なる位置から選択されている不連続点数を図7に示す。この図7に示すように、音声合成用データベース13のデータ量を大きくすると、音素環境依存音素列数および最長音素列の音素数は増加する。このため、1文当たりの平均探索回数は減少していき、クラスタリングされたトライフォンによる探索回数も減少する。一方、1回の探索当たりの平均仮説数は増加するが、探索回数の減少のために、音声合成用データベース13のデータ量を大きくしても、合成処理時間はそれほど増加しない。また、CPU TIMEが実際の合成処理時間よりも少ないのは、処理時間のほとんどが合成素片データ(可変長音素列分割候補)のファイルの読み込みに費やされているためである。
 この図5から図7で示したように、音声合成装置1は、前後の音素環境を考慮した可変長音素列を探索単位とすることで、自然性に関する絶対評価実験を行った結果から、音声合成データの平均評価は3.6となり、「不自然な部分はあるが気にならない」と「少し気になる」の間の自然性を持つ音声合成データを合成することができる。
 また、音声合成装置1の音声合成用データベース13のデータ量を変えて自然性に関する絶対評価実験を行った結果、音声合成用データベース13のデータ量が大きくなると、自然性の評価も向上するが、43時間を超えたところでほぼ飽和する、逆に40時間程度のデータを確保すれば、合成した音声合成データの自然性を維持できると言える。さらに、音声合成用データベース13のデータ量を大きくしても、合成処理時間はそれほど増加しないと言える。
 以上、一実施形態に基づいて本発明を説明したが、本発明はこれに限定されるものではない。例えば、音声合成装置1の各構成を一つずつの過程と捉えた音声合成方法とみなすことや、各構成の処理を汎用のコンピュータ言語で記述した音声合成プログラムとみなすことも可能である。この場合、音声合成装置1と同様の効果を得ることができる。
本発明による一実施の形態を示す音声合成装置のブロック図である。 図1に示した音声合成装置の動作を説明したフローチャートである。 音声合成装置に入力した入力日本語テキスト(音素記号列)と当該音素記号列の音声合成における音声合成用データベースの探索(ビタービサーチ)を模式的に示した図である。 対比較実験の実験結果を示した図である。 音声合成用データベースの大きさ(テータ量)によるMOSの変化を示した図である。 音声合成用データベースの大きさによる評価分析の違いを示した図である。 音声合成用データベースのデータ量による、合成処理時間、隣り合う音声素片が当該音声合成用データベース内で異なる位置から選択されている不連続点数を示した図である。
符号の説明
 1   音声合成装置
 3   入力部
 5   単語音素分割・音韻韻律情報付加部
 5a  単語分割手段
 5b  音素分割手段
 5c  可変長音素列分割手段
 5d  音韻韻律情報付加手段
 7   音声合成用データベース探索部
 9   音韻韻律補正部(音声データ補正手段)
 11  出力部
 13  音声合成用データベース

Claims (11)

  1.  音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
     入力されたテキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加ステップと、
     この音素分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
     この音声データ探索ステップにて探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
     この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
    を含むことを特徴とする音声合成方法。
  2.  音素およびこの音素の発話時間を記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
     入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加ステップと、
     この可変長音素列分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
     この音声データ探索ステップにて探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
     この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
    を含むことを特徴とする音声合成方法。
  3.  単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースを用いて、入力されたテキストデータを音声合成する音声合成方法であって、
     入力されたテキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加ステップと、
     この単語分割・音韻韻律情報付加ステップにて、音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索ステップと、
     この音声データ探索ステップにて探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正ステップと、
     この音声データ補正ステップにて補正を行った結果を音声合成データとして出力する音声合成データ出力ステップと、
    を含むことを特徴とする音声合成方法。
  4.  入力されたテキストデータを音声合成する音声合成装置であって、
     音素およびこの音素の発話時間を記憶している音声合成用データベースと、
     前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段と、
     この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
     この音声データ探索手段で探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
    を備えることを特徴とする音声合成装置。
  5.  入力されたテキストデータを音声合成する音声合成装置であって、
     音素およびこの音素の発話時間を記憶している音声合成用データベースと、
     入力されたテキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段と、
     この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
     この音声データ探索手段で探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
    を備えることを特徴とする音声合成装置。
  6.  入力されたテキストデータを音声合成する音声合成装置であって、
     単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データベースと、
     前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段と、
     この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データベースに存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データベースに存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記音声合成用データベースから探索する音声データ探索手段と、
     この音声データ探索手段で探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段と、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段と、
    を備えることを特徴とする音声合成装置。
  7.  前記音声データ探索手段は、前記単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語の語頭および語尾における前後の調音結合に従った音素と、前記音声合成用データ上における前後の調音結合に従った音素とが同じクラスターに属するかに基づいて、前記音韻韻律コストを算出する際の係数を決定し、当該係数を使用することを特徴とする請求項6に記載の音声合成装置。
  8.  前記音声データ探索手段は、前記連結コストの算出は複数音素分割候補の統計量を用いて各次元に正規化し、ケプストラム距離を使用することを特徴とする請求項4から請求項7のいずれか1項に記載の音声合成装置。
  9.  入力されたテキストデータを音声合成する装置を、
     前記テキストデータを各音素に分割し、分割された音素に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の音素分割候補とする音素分割・音韻韻律情報付加手段、
     この音素分割・音韻韻律情報付加手段で音韻韻律情報が付加された音素分割候補の中から、当該音素分割候補の前後の調音結合に従った複数の音素分割候補からなる複数音素分割候補を探索単位とし、前記発話時間で区切られた音素に基づき、連結コストおよび音韻韻律コストが最小になる音素分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
     この音声データ探索手段で探索された前記音声データ列の各音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
    として機能させることを特徴とする音声合成プログラム。
  10.  入力されたテキストデータを音声合成する装置を、
     前記テキストデータを構成する音素に形態素解析し、この形態素解析した音素を任意数連結させた可変長音素列とし、この可変長音素列に基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の可変長音素列分割候補とする可変長音素列分割・音韻韻律情報付加手段、
     この可変長音素列分割・音韻韻律情報付加手段で、音韻韻律情報が付加された可変長音素列分割候補を探索単位とし、前記発話時間で区切られる音素に基づき、連結コストおよび音韻韻律コストが最小になる可変長音素列分割候補を組み合わせた音声データ列として、前記音素およびこの音素の発話時間を記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
     この音声データ探索手段で探索された前記音声データ列の各可変長音素列分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
    として機能させることを特徴とする音声合成プログラム。
  11.  入力されたテキストデータを音声合成する装置を、
     前記テキストデータを各単語に分割し、分割された単語に音素、基本周波数を少なくとも含む情報である音韻韻律情報を付加し、音声合成する際の単語分割候補とする単語分割・音韻韻律情報付加手段、
     この単語分割・音韻韻律情報付加手段で音韻韻律情報が付加された単語分割候補の中から、前記音声合成用データ記憶手段に存在しないか若しくは予め設定した設定データ数よりデータ数の少ない単語については、前後の調音結合に従った複数の音素からなる複数音素分割候補を探索単位とし、前記音声合成用データ記憶手段に存在するか若しくは前記設定データ数よりデータ数の多い単語については、前記単語分割候補を探索単位とし、前記発話時間で区切られた単語に基づき、連結コストおよび音韻韻律コストが最小になる単語分割候補および複数音素分割候補を組み合わせた音声データ列として、前記単語および音素とこれら単語および音素の発話時間とを記憶している音声合成用データ記憶手段から探索する音声データ探索手段、
     この音声データ探索手段で探索された前記音声データ列の各単語分割候補および各複数音素分割候補の連結部分および前記音韻韻律情報に基づいて予測された予測韻律と異なる韻律部分を、当該予測韻律を基準とする一定範囲に補正を行う音声データ補正手段、
     この音声データ補正手段で補正を行った結果を音声合成データとして出力する音声合成データ出力手段、
    として機能させることを特徴とする音声合成プログラム。
JP2003296584A 2002-09-25 2003-08-20 音声合成方法、音声合成装置および音声合成プログラム Expired - Fee Related JP4532862B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003296584A JP4532862B2 (ja) 2002-09-25 2003-08-20 音声合成方法、音声合成装置および音声合成プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002278944 2002-09-25
JP2003296584A JP4532862B2 (ja) 2002-09-25 2003-08-20 音声合成方法、音声合成装置および音声合成プログラム

Publications (2)

Publication Number Publication Date
JP2004139033A true JP2004139033A (ja) 2004-05-13
JP4532862B2 JP4532862B2 (ja) 2010-08-25

Family

ID=32473089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003296584A Expired - Fee Related JP4532862B2 (ja) 2002-09-25 2003-08-20 音声合成方法、音声合成装置および音声合成プログラム

Country Status (1)

Country Link
JP (1) JP4532862B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005331775A (ja) * 2004-05-20 2005-12-02 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2009063869A (ja) * 2007-09-07 2009-03-26 Internatl Business Mach Corp <Ibm> 音声合成システム、プログラム及び方法
JP2013117638A (ja) * 2011-12-02 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
US8630857B2 (en) 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
CN112509552A (zh) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112530402A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN113516963A (zh) * 2020-04-09 2021-10-19 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
JPH0756594A (ja) * 1993-08-19 1995-03-03 Meidensha Corp 不特定話者音声認識装置およびその方法
JPH07146696A (ja) * 1993-09-30 1995-06-06 Meidensha Corp 音声認識における単語テンプレートの自動作成方法
JPH0990972A (ja) * 1995-09-26 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 音声合成用合成単位作成方法
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH11259091A (ja) * 1998-03-09 1999-09-24 Canon Inc 音声合成装置及び方法
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2004029493A (ja) * 2002-06-27 2004-01-29 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0247700A (ja) * 1988-08-10 1990-02-16 Nippon Hoso Kyokai <Nhk> 音声合成方法および装置
JPH0756594A (ja) * 1993-08-19 1995-03-03 Meidensha Corp 不特定話者音声認識装置およびその方法
JPH07146696A (ja) * 1993-09-30 1995-06-06 Meidensha Corp 音声認識における単語テンプレートの自動作成方法
JPH0990972A (ja) * 1995-09-26 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 音声合成用合成単位作成方法
JPH1049193A (ja) * 1996-05-15 1998-02-20 A T R Onsei Honyaku Tsushin Kenkyusho:Kk 自然発話音声波形信号接続型音声合成装置
JPH11259091A (ja) * 1998-03-09 1999-09-24 Canon Inc 音声合成装置及び方法
JP2000231395A (ja) * 1999-02-08 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法及び装置
JP2001282278A (ja) * 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
JP2004029493A (ja) * 2002-06-27 2004-01-29 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム
JP2004109535A (ja) * 2002-09-19 2004-04-08 Nippon Hoso Kyokai <Nhk> 音声合成方法、音声合成装置および音声合成プログラム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005331775A (ja) * 2004-05-20 2005-12-02 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP4603290B2 (ja) * 2004-05-20 2010-12-22 日本放送協会 音声合成装置および音声合成プログラム
JP2007114236A (ja) * 2005-10-18 2007-05-10 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
JP2007163667A (ja) * 2005-12-12 2007-06-28 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
US8630857B2 (en) 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
JP5434587B2 (ja) * 2007-02-20 2014-03-05 日本電気株式会社 音声合成装置及び方法とプログラム
JP2009063869A (ja) * 2007-09-07 2009-03-26 Internatl Business Mach Corp <Ibm> 音声合成システム、プログラム及び方法
US9275631B2 (en) 2007-09-07 2016-03-01 Nuance Communications, Inc. Speech synthesis system, speech synthesis program product, and speech synthesis method
JP2013117638A (ja) * 2011-12-02 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声合成装置および音声合成プログラム
CN113516963A (zh) * 2020-04-09 2021-10-19 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN113516963B (zh) * 2020-04-09 2023-11-10 菜鸟智能物流控股有限公司 音频数据的生成方法、装置、服务器和智能音箱
CN112509552A (zh) * 2020-11-27 2021-03-16 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112509552B (zh) * 2020-11-27 2023-09-26 北京百度网讯科技有限公司 语音合成方法、装置、电子设备和存储介质
CN112530402A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN112530402B (zh) * 2020-11-30 2024-01-12 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备

Also Published As

Publication number Publication date
JP4532862B2 (ja) 2010-08-25

Similar Documents

Publication Publication Date Title
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
US20200211529A1 (en) Systems and methods for multi-style speech synthesis
US10276149B1 (en) Dynamic text-to-speech output
US8019602B2 (en) Automatic speech recognition learning using user corrections
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
US7127396B2 (en) Method and apparatus for speech synthesis without prosody modification
KR101153129B1 (ko) 자동 음성 인식 시스템들의 음향 모델들로부터 발생된합성형 입력들을 사용하는 자동 음성 인식 시스템들의 시험및 조정
US20050119890A1 (en) Speech synthesis apparatus and speech synthesis method
JP6293912B2 (ja) 音声合成装置、音声合成方法およびプログラム
US20050187769A1 (en) Method and apparatus for constructing and using syllable-like unit language models
US20020107688A1 (en) Speech synthesizing method and apparatus
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP2014074732A (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
Chu et al. A concatenative Mandarin TTS system without prosody model and prosody modification
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
Shen et al. Automatic selection of phonetically distributed sentence sets for speaker adaptation with application to large vocabulary Mandarin speech recognition
JP2004109535A (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP2007163667A (ja) 音声合成装置および音声合成プログラム
JP2004191705A (ja) 音声認識装置
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
Janicki et al. Taking advantage of pronunciation variation in unit selection speech synthesis for Polish
JP2004029493A (ja) 音声合成方法、音声合成装置および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090324

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100326

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100518

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees