JP2003091295A

JP2003091295A - 音声合成方法及びその装置並びに音声合成プログラム

Info

Publication number: JP2003091295A
Application number: JP2001282816A
Authority: JP
Inventors: Miki Hasebe; 未来長谷部; Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-09-18
Filing date: 2001-09-18
Publication date: 2003-03-28
Anticipated expiration: 2021-09-18
Also published as: JP3892691B2

Abstract

(57)【要約】【課題】放送のための十分な品質を持った音声合成シ
ステムを実現でき、コンテンツの作成や更新の自動化を
可能にする音声合成方法及びその装置並びに音声合成プ
ログラムを提供する。【解決手段】テキストデータ101で示される音素列の
一部と適合する合成単位の候補としての小音素列をデー
タベース２０で検索し102、抽出された合成単位の候補1
04毎に、合成単位の候補同士の接続点における音声波形
の基本周波数の差に対して、フレーズの境界を示す情報
２４と、単語の役割情報２５、韻律パターン情報２５の
うちの少なくとも１つを用いて評価値を求め、評価値が
最も高い合成単位の候補を合成単位として選択する絞り
込み105を行い、選択された合成単位106に対応した音声
波形をデータベースから抽出し、テキストデータ101で
示される音素列に対応させて、抽出した音声波形を接続
して107、合成音声108として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、高品質な合成音声
を安定に得るための音声合成方法及びその装置並びに音
声合成プログラムに関するものである。

【０００２】

【従来の技術】従来、ラジオや、テレビ、有線放送、イ
ンターネットなどのコンテンツ作成には膨大な労力が費
やされており、現在の有線放送やインターネットなどの
多チャンネル時代において、全てのコンテンツを人手で
作成すると多大なコストと労力が必要となる。このた
め、テキストデータから合成音声を生成する音声合成シ
ステムが注目されるようになってきた。

【０００３】音声合成システムを利用すればコンテンツ
作成のためのコストを抑えることができ、短時間で大量
のコンテンツを作成することができる。

【０００４】この種の音声合成システムとしては、例え
ばテキストコーパスを用いたコーパスベースの音声合成
システムが知られている。

【０００５】上記コーパスベース音声合成に属する類の
音声合成システムは、低次の音響的情報や低次の物理的
情報をもとに、合成文に最適な合成単位をデータベース
から検索し、韻律の変形を行わずに接続することで合成
音声を作成している。このように韻律を変形しないこと
で肉声らしさを尊重した音声合成を行っている。

【０００６】ここで、上記低次の情報とは、空気の振動
に近い物理的な情報を指している。例えば、音声波形か
ら直接数値化できる基本周波数やスペクトルなどの情報
である。

【０００７】

【発明が解決しようとする課題】しかしながら、前述し
た従来の音声合成システムにおいては、韻律を変形しな
いことで肉声らしさを尊重しているが、ケプストラムや
音素など、文章としてのまとまりからは遠い低次のパラ
メータを元にして合成単位を選択しているため、文章全
体を考慮した整合性がなく、フレーズの内部で接続を行
ったり、文章本来の韻律パターンとは異なった音声にな
るなど、合成結果は不安定なものとなる。

【０００８】即ち、低次の情報から得られるパラメータ
によって合成単位を選択するシステムにおいては、合成
音声の品質はデータベースの検索結果に大きく依存した
ものになる。このため、目標の文章との適合度の高い合
成単位を選択できたときは品質が良く、そうでなければ
品質は悪くなり、合成音声の品質は不安定である。

【０００９】このため、従来の音声合成システムでは、
前述したラジオや、テレビ、有線放送、インターネット
などの放送に要求されるだけの十分な品質を実現できて
いるとは言い難い。

【００１０】本発明の目的は上記の問題点に鑑み、放送
のための十分な品質を持った音声合成システムを実現で
き、コンテンツの作成や更新の自動化を可能にする音声
合成方法及びその装置並びに音声合成プログラムを提供
することである。

【００１１】

【課題を解決するための手段】本発明は上記の目的を達
成するために、フレーズの境界を示す情報、フレーズが
強調音声か否かを示す単語の役割情報、音声の韻律パタ
ーン情報の３種類の情報のうちの少なくとも何れか１つ
と、音声波形、音素列データ、音素の境界を示すデータ
とが対応付けられて蓄積されているデータベースを用
い、前記データベースに記録された前記音素列のうちの
少なくとも一部からなる小音素列を合成単位の候補とし
て使用して合成音声を生成するようにした。

【００１２】また、音声合成の際には、テキストデータ
で示される音素列の一部と適合する前記合成単位の候補
を前記データベースから検索し、前記検索された合成単
位の候補毎に、合成単位の候補同士の接続点における音
声波形の基本周波数の差に対して、前記フレーズの境界
を示す情報、前記単語の役割情報、前記韻律パターン情
報の３種類の情報のうちの少なくとも１つに対応する評
価値を求め、該評価値が最も高い合成単位の候補を合成
単位として選択する。このとき、前記３種類の情報の１
つだけを用いても良い。

【００１３】さらに、前記選択された合成単位に対応し
た音声波形を前記データベースから抽出し、前記テキス
トデータで示される音素列に対応させて、前記抽出した
音声波形を接続している。

【００１４】例えば、音声波形の断片同士の接続点がフ
レーズの境界にあるか否かで品質の劣化状態が異なった
ものとなる。また、強調されている単語は、文章中で重
要な意味を持つ単語であり、パワーやピッチが上がって
いることが多く、単語が強調されているか否かで品質の
劣化状態が異なったものとなる。

【００１５】韻律パターン情報は、音声断片同士の接続
点における韻律パターンの連続性や整合性を判定するた
めに用いることができる。韻律パターンの連続性では、
例えば、末尾で基本周波数が緩やかに下がっている音声
断片の後に、先頭において基本周波数が高い音声断片を
接続すると、基本周波数が下がるはずのところが上がる
ため、品質が劣化しやすい。逆に、末尾で基本周波数が
緩やかに下がっている音声断片の後に、先頭において基
本周波数が低い音声断片を接続すると、下がり具合が大
きくなるだけなので、品質は劣化し難くなる。

【００１６】韻律パターンの整合性としては、音声断片
同士の接続点における基本周波数の差の方向の±（プラ
ス・マイナス）を見て、それが文章の持つ連続した韻律
パターンの傾斜方向と整合しているか否かによって品質
の劣化状態が異なる。

【００１７】このようにフレーズの境界を示す情報や、
単語の役割情報、韻律パターン情報等の高次の言語的情
報を用いて求めた評価値に基づいて合成単位を選択する
ことにより、従来のように合成単位の選択に低次の情報
を利用することによって生じる合成音声の品質の不安定
性という問題を解決することができる。

【００１８】

【発明の実施の形態】以下、図面に基づいて本発明の一
実施形態を説明する。

【００１９】図１は、本発明の一実施形態における音声
合成装置を示す構成図である。本実施形態では、コンピ
ュータに音声合成プログラムをインストールすることに
よって音声合成装置を構成している。

【００２０】図１において、１はコンピュータで、ＣＰ
Ｕを主体として構成されている中央処理部１１と、中央
処理部１１に接続された記憶部１２、表示部１３、入力
部１４、半導体素子から構成されるメモリ１５、及び音
声発生器としてのディジタル／アナログ（Ｄ／Ａ）変換
器やスピーカなどからなる音響部１６等を備えた一般的
なコンピュータである。

【００２１】記憶部１２には、上記の音声合成プログラ
ム１７と音声合成のためのテキスト解析辞書１８、及び
評価値情報１９が記憶されていると共に、音声合成に必
要な各種情報が音声合成データベース２０として構築さ
れている。

【００２２】入力部１４は、音声合成対象となるテキス
トデータを入力する手段であり、例えばキーボード、マ
ウス、磁器フロッピーディスクやコンパクトディスクな
どの情報記録媒体へのインタフェース、ネットワーク通
信インタフェース等を含んでいる。

【００２３】音声合成データベース２０には、テキスト
音声合成に必要なデータベースとして、音声波形２１
と、発声内容に対応する音素列データ２２、音素の境界
を示すデータ２３、フレーズの境界を示す情報２４、フ
レーズが強調音声か否かを示す単語の役割情報２５、音
声の韻律パターン情報２６が対応付けられて蓄積されて
いる。音声波形２１としては、例えば実際に人が発声し
た音声が収録されてこれが蓄積されている。

【００２４】本実施形態では、上記音声合成プログラム
１７によって中央処理部１１を動作させて音声合成処理
を行わせる。この音声合成処理では、キーボードや情報
記録媒体或いはネットワークを介して入力されたかな漢
字混じり文のテキストデータに適合した合成音声を生成
する際に、上記音声合成データベース（以下、単にデー
タベースと称する）２０から合成単位となる音声波形の
断片（以下、音声断片と称する）を選択する。この選択
の際に、高次の言語的情報からトップダウン的に合成単
位の候補を選択し、この合成単位に対応した音声断片を
選択する。

【００２５】高次の言語的情報とは、人間が感知した物
理現象を解釈した意味内容を持つ情報を指し、空気の振
動等の物理的な情報を人間の言語能力によって解釈し、
意味を与えた情報である。例えば、フレーズ境界や、単
語の役割、韻律パターンの整合性といった、音声波形の
断片から直接数値化できず、何段階かの抽象化が必要な
情報である。本実施形態では、高次の言語的情報とし
て、フレーズ（ポーズで挟まれた一気に発声する音声区
間、呼気段落）の境界情報、単語の役割（単語の強調発
声など）情報、韻律パターン（接続点前の音声波形断片
末尾と接続点後の音声波形断片先頭における韻律パター
ンの連続性や整合性など。韻律パターンとはピッチやア
クセントなどの音素毎の変化）情報を用いている。尚、
韻律パターン情報には、基本周波数の変動パターンに関
する情報も含まれている。また、単語の役割情報として
は、強調発声の情報以外に、喜怒哀楽の情報や、驚嘆、
熱意、失望などの感情的表現を前後の文脈から判断して
得られた情報を用いることができる。

【００２６】このような高次の言語的情報によって、低
次の情報のみを利用して合成単位を選択するよりも、高
品質な合成音声を安定して出力することができる。さら
に、高次の言語的情報を利用することで、選択した音声
断片同士の接続点における違和感や、文章の持つ意味と
異なった韻律パターンとなってしまうといった従来技術
の問題を解決することができる。

【００２７】従って、本実施形態によれば、高次の言語
的情報を利用して合成単位を選択しているので、高品質
な合成音声を安定して得ることができる。その結果、放
送の分野で要求される品質を持った合成音声を作成で
き、有線放送やインターネットの多チャンネル時代にお
いてコンテンツの不足を補うために自動でコンテンツを
作成・更新することも可能になる。

【００２８】図２は本実施形態における音声合成プログ
ラム１７の処理を説明するフローチャート、図３は上記
音声合成プログラム１７によって行う高次の言語的情報
用いた音声合成の流れを示す図である。これらを参照し
て具体的動作について説明する。

【００２９】音声合成のためにワープロ等で作成された
かな漢字混じり文のテキストデータ101が入力される
（Ｓ１）と、このテキストデータ101の解析102を行う
（Ｓ２）。テキスト解析102では、テキスト解析辞書１
８を用いてテキストデータ101の解析を行い、例えば、
入力されたかな漢字混じり文のテキスト101に対して、
読み仮名、読み仮名に対応する音素列、各音素の継続時
間長、フレーズ毎のアクセント型、各フレーズの結合の
仕方、アクセント型と結合の仕方に対応した韻律パター
ンなどの情報を解析結果として出力する。

【００３０】この後、上記テキスト解析結果を用いて合
成単位の検索103を行う。合成単位の検索103の処理で
は、テキストデータ101の音素列を複数の小音素列に分
割して、データベース２０の中からテキストデータ101
に音素レベルで一致する小音素列を検索し（Ｓ３）、検
索によってデータベース２０から抽出した小音素列を、
音声合成に用いる合成単位の候補104とする（Ｓ４）。
ここで、上記小音素列とは複数の音素からなる音素列中
の一部であり、１つ以上の音素から構成される音素列で
ある。

【００３１】さらに、前述した高次の言語的情報を用い
て候補の絞り込み105を行い（Ｓ５）、テキストデータ1
01の各小音素列に対する候補として抽出した複数の合成
単位の候補104中から各小音素列毎に最適な合成単位を
１つ決定する（Ｓ６）。

【００３２】候補の絞り込み105の処理では、合成単位
の検索103によって抽出された複数の合成単位の候補104
の中から、データベース２０に蓄積されている高次の言
語的情報を用いて候補の絞り込み105を行い、絞り込ん
だ合成単位の候補106を出力する。さらに、絞り込まれ
た合成単位の候補106を再び合成単位の候補104として候
補の絞り込み105を行い、候補の合成単位を最後の１つ
まで絞り込むことで、最終的な合成単位を選択する。

【００３３】本実施形態では、高次の言語的情報とし
て、フレーズの境界を示す情報２４、フレーズが強調音
声か否かを示す単語の役割情報２５、音声の韻律パター
ン情報２６の３つの情報のうちの１つ以上の情報を用い
て合成単位の絞り込みを行っている。

【００３４】次いで、選択した合成単位に対応付けされ
ている音声断片をデータベース２０から取得し（Ｓ
７）、取得した音声断片をテキストデータ101の音素列
に対応するように順次接続し（Ｓ８）、この接続によっ
て得られた連続した音声波形を音響部１６に送出し、音
声としてスピーカーから出力する（Ｓ９）。

【００３５】尚、前記Ｓ８の処理において音声断片を接
続して得られた連続した音声波形をメモリや情報記憶媒
体に音声データとして一旦蓄積しておいても良い。ま
た、他の装置で作成された合成音声を上記のように音声
データとして入力してこれを音声として出力することも
容易に可能であることは言うまでもない。

【００３６】次に、本実施形態における音声合成の要部
をさらに詳細に説明する。

【００３７】図４は、本実施形態における音声合成の要
部を説明する図であり、上記検索された複数の合成単位
の候補104の中から最適な合成単位を、高次の言語的情
報に基づいて絞り込む流れを示している。

【００３８】前記Ｓ３の処理によって検索された合成単
位の候補104とは、入力テキストデータ101を構成する小
音素列と合致する小音素列をデータベース２０から抽出
したものであり、データベース２０に蓄積されている音
素列を構成する小音素列と合致するものが通例合成単位
の候補104として複数選択される。

【００３９】例えば、「明日は曇りのち雨でしょう」と
いうテキストデータ101から音声を合成しようとする場
合、データベース２０に「明日は曇りです（ASITAWAKUM
ORIDESU）」というテキスト内容に対応する音声波形が
蓄積されていた場合、そのうちの「ASHITAWAKUMORI」と
いう部分が合成単位の候補として抽出される。

【００４０】また、上記のうち「ASITAWAK」の部分を合
成単位の候補として抽出することも可能である。即ち、
本実施形態における合成単位は、モーラや、音節、文節
などの区切りとは無関係に抽出される。つまり、合成単
位は、目的のテキストを合成するために使用することが
可能な小音素列が、上述のデータベース２０の中からマ
ッチングして抽出されたものであれば良い。

【００４１】ここで、合成単位を選択する際に、「ASIT
AWAKUMORI」と、「NOTIAMEDESYOU」として使うこともで
き、また、「ASITAWA」と「KUMORINOTIAMEDESYOU」とし
て使うこともできる。このため、可変長の合成単位をど
のように選択するかということを決定する必要がある。
従来は、入力テキストとデータベース中のケプストラム
距離を求めたり、音韻環境や、基本周波数を比較してい
たが、本発明が従来技術と異なる点は、合成単位を選択
する際に、前述したフレーズ境界などの高次の言語的情
報を用いることである。但し、データベース２０の構築
の際に、高次の言語的情報を抽出する技術としては、従
来からのテキスト解析技術などを用いているため、特に
従来技術との違いはない。本発明は、情報を抽出する部
分ではなく、抽出した高次の言語的情報を合成単位の選
択に利用する部分が従来技術との大きな違いとなってい
る。

【００４２】次に、可変長の合成単位をどのように使用
するかを決定する方法に関して説明する。

【００４３】本実施形態では、前述した合成単位の絞り
込み105処理において、フレーズの境界を示す情報２
４、フレーズが強調音声か否かを示す単語の役割情報２
５、音声の韻律パターン情報２６の３つの情報を用いて
いる。尚、フレーズ境界情報２４、単語の役割情報２
５、韻律パターン情報２６のうちの１つの情報、或いは
任意の２つの情報を用いて合成単位を決定してもよい。

【００４４】即ち、本実施形態では、これら３種類の情
報を、合成単位として選択した音声断片同士の接続点に
おける基本周波数の差（ギャップ）に対する品質劣化度
合いのパラメータ及び品質評価値（以下、単に評価値と
称する）を決定するために用いている。

【００４５】一例として、品質劣化パターンのグラフを
図５に示す。このグラフは、横軸が音声断片同士の接続
点における合成単位の基本周波数の差を示し、縦軸が音
声断片同士を接続して合成したときの品質を示してい
る。品質評価を示す値は、合成音声を人が聞いたときの
主観評価値を元にして算出している。

【００４６】図５では、音声断片同士の接続点がフレー
ズ境界にあるときの接続点における基本周波数の差に対
する評価値と、音声断片同士の接続点がフレーズ内にあ
るときの接続点における基本周波数の差に対する評価値
が表されている。

【００４７】上記接続点がフレーズ境界にあるときは、
上記基本周波数の差が０，３０，６０，９０，１２０，
１５０（Ｈｚ）のときの評価値がそれぞれ、９８，１０
０，９３，８５，９３，８７（％）である。また、上記
接続点がフレーズ内にあるときは、上記基本周波数の差
が０，３０，６０，９０，１２０（Ｈｚ）のときの評価
値がそれぞれ、９８，８０，５８，４８，１８（％）で
ある。

【００４８】このように、接続点がフレーズ境界にある
ときは、接続点における基本周波数の差が大きくなって
も良好な評価値が得られる。また、接続点がフレーズ内
にあるときは、基本周波数の差が大きくなるにつれて評
価値が徐々に低下している。

【００４９】図５のグラフから解るように、音声断片同
士の接続点における基本周波数の差（ギャップ）が大き
くなるに従って品質が劣化していき、その劣化度合いが
接続点の条件（ここではフレーズの境界かどうか）によ
って違ってくる。本実施形態では、そのことを「接続点
の条件から定まる品質劣化パターン」と称している。

【００５０】上記品質劣化パターン（以下、劣化パター
ンと称する）から合成単位を絞り込む方法として、本実
施形態では、音声断片同士の接続点における基本周波数
の差と、接続点の条件から定まる劣化パターンをもとに
して、その基本周波数の差における品質評価値を算出す
ることで合成単位を絞り込んでいる。

【００５１】即ち、本実施形態では、評価値として、予
め合成した音声波形を複数用意し、これらの音声波形に
よる音声を受聴者に評価してもらった値に基づいて設定
した値を用いている。例えば、フレーズ境界で接続し且
つ接続点前後の基本周波数の差が異なる複数の音声波形
による音声を受聴者が評価した値と、フレーズ内で接続
し且つ接続点前後の基本周波数の差が異なる複数の音声
波形による音声を受聴者が評価した値、及び接続点前後
の基本周波数の変動パターンが異なり且つ接続点前後の
基本周波数の差が異なる複数の音声波形による音声を受
聴者が評価した値に基づいて設定した値を用いている。
これらの評価値としては、例えば、２つの合成単位を接
続して得られた１つの音声に対して複数の受聴者が評価
した値を標準化した値（例えば平均値）を用いる。この
評価値も上記評価値情報１９に含めて記憶部１２に蓄積
されている。ここでは、評価値として百分率を用い、１
００％において肉声と変わらず、０％に近づくほど品質
が劣化しているという尺度を用いている。尚、受聴者が
評価した値に代えてコンピュータ処理によって評価した
値を用いても良い。

【００５２】さらに、本実施形態では、目標のテキスト
に対応した音声を合成可能な全ての合成単位の組合せに
ついて総合評価値を算出し、その評価値が最大となるよ
うな合成単位の組合せを求めている。

【００５３】即ち、合成単位の選択によって目標のテキ
ストを音声合成するための合成単位の数に違いが生じ
る。合成単位の数が多くなると劣化も大きくなるので、
例えば各接続点における評価値の平均値を総合評価値と
し、この総合評価値が最も高い合成単位を選択してい
る。尚、評価値の平均値以外の値を総合評価値として用
いても良いことは言うまでもない。

【００５４】一方、高次の言語的情報として利用するフ
レーズ境界情報２４としては、音声断片同士の接続点が
フレーズの境界なのか或いはフレーズの中（フレーズ
内）なのかを示す情報を用いている。音声断片同士の接
続点がフレーズの境界にあるか否かで、図５に示す劣化
パターンが異なったものとなる。例えば、上記接続点が
フレーズの境界に存在する場合はグラフの傾斜が緩やか
になり品質は余り劣化しないが、フレーズの中に存在す
る場合は逆に劣化しやすくなる。

【００５５】フレーズの境界を用いて合成単位の候補を
絞り込む方法としては、例えば、「ASITAWAKUMORI」
と、「NOTIAMEDESYOU」という合成単位を抽出した場
合、前者の末尾と後者の先頭との間で基本周波数差が３
０Ｈｚで、品質評価値が８０％だったとする。この接続
点はフレーズの境界ではなく、フレーズの途中で接続し
ているため、接続したときの品質劣化を評価するため
に、フレーズ内部で接続したときの劣化パターンを用い
る。

【００５６】その他の例として、「ASITAWA」と「KUMOR
INOTIAMEDESYOU」を合成単位として接続するときは、接
続点がフレーズの境界と判断される。フレーズ境界であ
るか否（フレーズの内部）かを判断するには、データベ
ース２０に蓄積されいているフレーズ境界情報２４を用
いている。

【００５７】フレーズの境界で接続した場合の劣化パタ
ーンはフレーズの内部で接続した場合の劣化パターンよ
り緩やかであるため、例えばこのフレーズ境界における
２つの合成単位の間の基本周波数の差が９０Ｈｚ以下で
あれば品質評価値は８５％より大きくなり、従って前述
のフレーズ内部で接続するより品質評価値が高くなる。
また、フレーズ内で接続した場合における２つの合成単
位の間の基本周波数の差が９０Ｈｚ以上であれば、品質
評価値が４８％以下となるためフレーズ境界で接続した
方が品質が良くなる（図５参照）。例えば、「ASITAW
A」と「KUMORINOTIAMEDESYOU」の２つの合成単位の間の
接続点における基本周波数の差が９０Ｈｚであったら、
この評価値は１００％（フレーズ境界）であるので、前
述した「ASITAWAKUMORI」と「NOTIAMEDESYOU」の評価値
が８０％（フレーズ内）であるから、「ASITAWA」と「K
UMORINOTIAMEDESYOU」が合成単位として選択されること
になる。

【００５８】単語の役割情報２５としては、単語が強調
されているかどうかを表す情報を用いている。ここで、
単語の「強調」とは、「プロミネンス」或いは「対比強
調」とも称されるもので、文音声における強めや弱め
は、文中の他の部分との相対的な強弱によって行われ、
このように多の部分に対して相対的に引き立たせること
である。また、強調されている単語とは、文章中で重要
な意味を持つ単語であり、パワーやピッチが上がってい
ることが多い。このため、単語が強調されているか否か
で、前述したフレーズ境界の場合のように、２つの合成
単位の間の基本周波数の差に違いが生じるので、劣化パ
ターンが異なったものとなる。

【００５９】韻律パターン情報は、音声断片同士の接続
点における韻律パターンの連続性や整合性及び基本周波
数の変動パターンを判定するために用いる。

【００６０】韻律パターンの連続性では、例えば、末尾
で基本周波数が緩やかに下がっている音声断片の後に、
先頭において基本周波数が高い音声断片を接続すると、
基本周波数が下がるはずのところが上がるため、基本周
波数の変動パターンが大きく変化するので、品質が劣化
しやすい。逆に、末尾で基本周波数が緩やかに下がって
いる音声断片の後に、先頭において基本周波数が低い音
声断片を接続すると、下がり具合が大きくなるだけなの
で、品質は劣化し難くなる。

【００６１】韻律パターンの整合性としては、音声断片
同士の接続点における基本周波数の差の方向の±（プラ
ス・マイナス）を見て、それが文章の持つ連続した韻律
パターンの傾斜方向（変化傾向）と整合しているか否か
によって、劣化パターンが異なる。

【００６２】これら３種類の情報のうちの１つ以上を用
いて、最適な合成単位を絞り込む。複数の候補の中から
最後的に１つまで絞り込むと、それが選択された合成単
位となる。

【００６３】また、上記フレーズ境界情報２４、単語の
役割情報２５、韻律パターン情報２６の３種類全ての情
報を用いて合成単位の候補を選択する場合、例えば、２
つの合成単位「ASITAWA」と「KUMORINOTIAMEDESYOU」の
接続では、フレーズ境界での接続で、接続点前の合成単
位の末尾及び接続点後の先頭において、強調ではなく、
韻律パターンの方向性があっているという条件の劣化パ
ターンを用いて評価値を算出している。

【００６４】尚、本実施形態では、接続点が１箇所のみ
の場合を例として説明したが、接続点が複数になって
も、上記の接続点が１箇所における場合と同様の選択処
理を繰り返して行い、最終的に評価値が最大になるよう
な合成単位を選択する。

【００６５】また、本実施形態は、例えば音素の一つ一
つに対応する音声波形を接続して合成音声を生成する場
合にも適用可能であるが、接続点が増えるに従って、合
成された音声に対する品質評価値が相対的に低くなるの
で、品質が低下することは言うまでもない。従って、本
実施形態では、もし接続点が少なくてすむ合成単位が存
在し、それが抽出されれば、そちらが合成単位として選
択されることになる。

【００６６】しかし、データベース２０の中に音素毎に
音声波形が記憶されており、これらを接続せざるを得な
い状況においても、本発明の音声合成方法を用いること
により、従来例に比べて、可能な限り良い合成単位を選
択できるようになる。

【００６７】また、上記音声合成プログラム１７を光デ
ィスクや磁気ディスク、光磁気ディスク、半導体メモリ
などの情報記録媒体やネットワーク、その他の通信網を
介して配布することにより、多くのユーザーに容易に普
及させることができることは言うまでもない。

【００６８】

【発明の効果】以上説明したように本発明の請求項１及
び請求項２に記載の音声合成方法によれば、高次の言語
的情報を利用して合成単位を選択しているので、高品質
な合成音声を安定して得ることができる。その結果、放
送の分野で要求される品質を持った合成音声を作成でき
るので、有線放送やインターネットの多チャンネル時代
においてコンテンツの不足を補うために自動でコンテン
ツを作成・更新することも可能になる。

【００６９】また、請求項３及び請求項４に記載の音声
合成装置によれば、高次の言語的情報を利用して合成単
位を選択しているので、高品質な合成音声を安定して得
ることができる。その結果、放送の分野で要求される品
質を持った合成音声を作成でき、有線放送やインターネ
ットの多チャンネル時代においてコンテンツの不足を補
うために自動でコンテンツを作成・更新することも可能
になる。

【００７０】また、請求項５乃至請求項６に記載の音声
合成プログラムによれば、情報記録媒体やネットワー
ク、その他の通信網を介してコンピュータにインストー
ルすることにより音声合成装置を容易に構成することが
できる。さらに、高次の言語的情報を利用して合成単位
を選択しているので、高品質な合成音声を安定して得る
ことができる。その結果、放送の分野で要求される品質
を持った合成音声を作成でき、有線放送やインターネッ
トの多チャンネル時代においてコンテンツの不足を補う
ために自動でコンテンツを作成・更新することも可能に
なる。

【図面の簡単な説明】

【図１】本発明の一実施形態における音声合成装置を示
す構成図

【図２】本発明の一実施形態における音声合成プログラ
ムの処理を説明するフローチャート

【図３】本発明の一実施形態における音声合成プログラ
ムによって行う高次の言語的情報用いた音声合成の流れ
を示す図

【図４】本発明の一実施形態における音声合成の要部を
説明する図

【図５】本発明の一実施形態における品質劣化パターン
のグラフの一例を示す図

【符号の説明】

１…コンピュータ、１１…中央処理部、１２…記憶部、
１３…表示部、１４…入力部、１５…メモリ、１６…音
響部、１７…音声合成プログラム、１８…テキスト解析
辞書、１９…評価値情報、２０…音声合成データベー
ス、２１…音声波形、２２…音素列、２３…音素の境界
情報、２４…フレーズの境界情報、２５…単語の役割情
報、２６…韻律パターン情報、101…テキスト、102…テ
キスト解析、103…合成単位の検索、104…合成単位の候
補、105…候補の絞り込み、106…合成単位の候補、107
…接続、108…合成音声。

Claims

【特許請求の範囲】

【請求項１】テキストデータに基づいてテキストを音
声に変換する音声合成方法において、フレーズの境界を示す情報、フレーズが強調音声か否か
を示す単語の役割情報、音声の韻律パターン情報の３種
類の情報のうちの少なくとも何れか１つと、音声波形、
音素列データ、音素の境界を示すデータとが対応付けら
れて蓄積されているデータベースを用い、前記データベースに記録された前記音素列のうちの少な
くとも一部からなる小音素列を合成単位の候補とし、前記テキストデータで示される音素列の一部と適合する
前記合成単位の候補を前記データベースから検索し、前記検索された合成単位の候補毎に、合成単位の候補同
士の接続点における音声波形の基本周波数の差に対し
て、前記フレーズの境界を示す情報と、前記単語の役割
情報、前記韻律パターン情報のうちの少なくとも１つに
対応する評価値を求め、前記評価値が最も高い合成単位の候補を合成単位として
選択し、前記選択された合成単位に対応した音声波形を前記デー
タベースから抽出し、前記テキストデータで示される音素列に対応させて、前
記抽出した音声波形を接続することを特徴とする音声合
成方法。
【請求項２】前記評価値は、フレーズ境界で接続され
且つ接続点前後の基本周波数の差が異なる複数の音声波
形による評価値か、フレーズ内で接続され且つ接続点前
後の基本周波数の差が異なる複数の音声波形による評価
値か、前記接続点前後の基本周波数の変動パターンが異
なり且つ前記接続点前後の基本周波数の差が異なる複数
の音声波形による評価値のうちの少なくとも１つに基づ
いて設定された値を用いることを特徴とする請求項１に
記載の音声合成方法。
【請求項３】テキストデータに基づいてテキストを音
声に変換する音声合成装置において、フレーズの境界を示す情報、フレーズが強調音声か否か
を示す単語の役割情報、音声の韻律パターン情報の３種
類の情報のうちの少なくとも何れか１つと、音声波形、
音素列データ、音素の境界を示すデータとが対応付けら
れて蓄積されているデータベースと、前記データベースに記録された前記音素列のうちの少な
くとも一部からなる小音素列を合成単位の候補とし、前
記テキストデータで示される音素列の一部と適合する前
記合成単位の候補を前記データベースで検索して抽出す
る抽出手段と、前記抽出手段によって抽出された合成単位の候補毎に、
合成単位の候補同士の接続点における音声波形の基本周
波数の差に対して、前記フレーズの境界を示す情報と、
前記単語の役割情報、前記韻律パターン情報のうちの少
なくとも１つに対応する評価値を求め、該評価値が最も
高い合成単位の候補を合成単位として選択する選択手段
と、前記選択手段によって選択された合成単位に対応した音
声波形を前記データベースから抽出し、前記テキストデ
ータで示される音素列に対応させて前記抽出した音声波
形を接続する接続手段とを備えたことを特徴とする音声
合成装置。
【請求項４】フレーズ境界で接続され且つ接続点前後
の基本周波数の差が異なる複数の音声波形による評価値
か、フレーズ内で接続され且つ接続点前後の基本周波数
の差が異なる複数の音声波形による評価値か、前記接続
点前後の基本周波数の変動パターンが異なり且つ前記接
続点前後の基本周波数の差が異なる複数の音声波形によ
る評価値のうちの少なくとも１つが情報として記録され
ている記憶手段を備えていると共に、前記選択手段は、前記記憶手段に記憶されている情報に
基づいて前記評価値を決定する手段を有することを特徴
とする請求項３に記載の音声合成装置。
【請求項５】フレーズの境界を示す情報、フレーズが
強調音声か否かを示す単語の役割情報、音声の韻律パタ
ーン情報の３種類の情報のうちの少なくとも何れか１つ
と、音声波形、音素列データ、音素の境界を示すデータ
とが対応付けられて蓄積されているデータベースに接続
可能なコンピュータに対して、テキストデータに基づい
てテキストを音声に変換する音声合成処理を行わせる音
声合成プログラムにおいて、前記データベースに記録された前記音素列のうちの少な
くとも一部からなる小音素列を合成単位の候補とし、前
記テキストデータで示される音素列の一部と適合する前
記合成単位の候補を前記データベースから検索するステ
ップと、前記検索された合成単位の候補毎に、合成単位の候補同
士の接続点における音声波形の基本周波数の差に対し
て、前記フレーズの境界を示す情報と、前記単語の役割
情報、前記韻律パターン情報のうちの少なくとも１つに
対応する評価値を求めるステップと、前記評価値が最も高い合成単位の候補を合成単位として
選択するステップと、前記選択された合成単位に対応した音声波形を前記デー
タベースから抽出するステップと、前記テキストデータで示される音素列に対応させて、前
記抽出した音声波形を接続するステップとを含むことを
特徴とする音声合成プログラム。
【請求項６】前記データベースには、フレーズ境界で
接続され且つ接続点前後の基本周波数の差が異なる複数
の音声波形による評価値か、フレーズ内で接続され且つ
接続点前後の基本周波数の差が異なる複数の音声波形に
よる評価値か、前記接続点前後の基本周波数の変動パタ
ーンが異なり且つ前記接続点前後の基本周波数の差が異
なる複数の音声波形による評価値のうちの少なくとも１
つが評価情報として記憶されており、前記評価値を求めるときに前記評価情報に基づいて評価
値を決定するステップを含むことを特徴とする請求項５
に記載の音声合成プログラム。