JPH10153998A

JPH10153998A - 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置

Info

Publication number: JPH10153998A
Application number: JP9239775A
Authority: JP
Inventors: Masanobu Abe; 匡伸阿部
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1996-09-24
Filing date: 1997-09-04
Publication date: 1998-06-09
Also published as: EP0831460B1; DE69719270T2; US5940797A; EP0831460A3; DE69719270D1; EP0831460A2

Abstract

(57)【要約】【課題】規則合成によるテキスト合成音声の特徴を自
由に変更可能にする。【解決手段】実音声を補助情報として使用し、規則合
成により音声を合成する方法及び装置であり、単語辞書
を参照して入力テキストの解析により得た単語系列の各
単語の音素系列に対する韻律情報を設定し、音声波形辞
書を参照して各単語の音素系列から音素波形系列を求め
る。一方、入力実音声から韻律情報を抽出し、設定され
た韻律情報と抽出された韻律情報のいずれかを選択し、
その選択された韻律情報により音声波形系列を制御し、
合成音声とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、補助情報利用型
音声合成方法およびこの方法を実施する装置に関し、特
に、テキスト情報の他に実際に人間の発声した音声情報
を補助情報として付加的に使用して自然な合成音声を生
成する補助情報利用型音声合成方法、この方法を実施す
る手順を記録した記録媒体、おおよびこの方法を実施す
る装置に関する。

【０００２】

【従来の技術】テキストから音声を合成するテキスト音
声合成によれば、音声メッセージの作成は比較的に容
易、且つ廉価に実施することができる。しかし、テキス
ト合成音声の品質は充分であるとはいえず、人間の発声
した音声とはかけ離れたものである。即ち、テキスト音
声合成の従来例においては、音声合成に必要とされる全
てのパラメータはテキスト分析の結果に基づいて音声合
成の規則により推定された値であった。そのために、テ
キスト分析の誤り、或は音声合成の規則の不備に起因し
て不自然な音声が合成される場合がある。また、例え同
じ文章であっても人間はこれを２度と同じ音声で発声を
することができないと言われる程人間の発声過程にはゆ
らぎを含んでいる。これに対して、音声合成の規則は平
均的な傾向をモデル化しているに過ぎないものであると
ころから、合成された音声は単調になる。現状の規則に
よる合成音声のイントネーションが不自然であると評価
される理由は、以上の２つが主なものである。この理由
を解消して合成音声の品質を向上させることができれば
テキスト音声合成は音声メッセージ作成の有効な方法と
なる。

【０００３】一方、人間が直接発声することにより音声
メッセージを作成するには、専門のナレータを雇い、ス
タジオその他の録音環境の整備されたところを準備する
ことが必須となる。録音時においては、ナレータといえ
ども間違った発声をしたり、明瞭な発声をすることがで
きなかったりして発声のやり直しが生じ、膨大な時間を
要する。更に、発声の速度を一定に保持したり、ナレー
タの体調により変動する声の質にも注意を払わなければ
ならない。以上の通り、音声メッセージの作成には種々
の経費がかさむ上に、作成に長時間を必要とする。

【０００４】例えば、展示場の一連の展示室の音声案内
のように、専門のナレータが予め一連の説明を必要に応
じて映像と共に録音しておき、利用者にそれを繰り返し
再生して提供するような要求は、様々な分野において存
在する。その際、録音される説明の音声は、明確で、標
準的であることが要求される。また、表示画面を使う場
合は、その画面と説明が同期する必要がある。従って、
そのような要求を満足させるためには、そのような目的
の音声を発声する専門のナレータが原稿（テキスト）を
読んで、その音声を録音する。その録音には、要求され
る品質で、間違いのないものが得られるまで、繰り返し
録音が行われるので、時間もコストもかかる。

【０００５】

【発明が解決しようとする課題】ところで、この様にし
て得られた音声データが、何ヵ月、或いは何年か後に、
一部修正や、追加を必要とされる場合、修正すべき部分
の音声を、それ以外の部分の音声と同様の特徴（音質、
ピッチ、抑揚、スピード、等）とする事が望まれる。従
って、先に録音したと同一のナレータに再度修正、追加
録音してもらうのが望ましい。しかしながら、修正追加
録音が必要とされたときに、必ずしもその同じナレータ
の協力が得られるとは限らない。協力が得られたとして
も、前回と同じ特徴で発声することは難しい。そこで、
そのナレータの音声の特徴を抽出し、それを使って所望
のテキストに従った音声、或いは任意の人の発声音声
を、任意の時期に再現性のある特徴で合成できれば非常
に都合がよい。

【０００６】或いは、アニメーション映画における音声
の録音では、登場キャラクタ毎に異なる特徴の音声が必
要であり、キャラクタの数が多ければそれだけ多くの声
優がスタジオで長時間をかけて音声の吹き込みを行う。
もし、声優でなく、特徴的な音声を有する一般の人の音
声の特徴情報を抽出し、それを使ってテキストから音声
を合成することができれば、アニメーション映画製作の
費用を削減することができる。

【０００７】この発明の目的は、規則合成によるテキス
ト合成音声の特徴を自由に変更可能な音声合成方法、そ
の方法による処理手順を記録した記録媒体、及びその方
法を実施する装置を提供するものである。

【０００８】

【課題を解決するための手段】この発明による音声合成
方法は、以下のステップを含む： (a) 単語辞書を参照して入力テキストを解析し、入力テ
キストの単語系列を判定し、それによって各単語の音素
の系列を得て、(b) 各単語中の音素の韻律情報を設定
し、(c) 各単語中の音素に対応する音素波形を音声波形
辞書から選択し、それによって音素波形系列を生成し、
(d) 入力実音声から韻律情報を抽出し、(e) 上記抽出し
た韻律情報の少なくとも一部と、上記設定した韻律情報
の少なくとも一部のいずれかを選択し、(f) 上記音声波
形系列を選択された韻律情報で制御して合成音声を生成
する。

【０００９】この発明の記録媒体は、上記方法を処理手
順として記録してある。この発明による音声合成装置
は、以下を含む：単語辞書を参照して入力テキストを形
成する単語の系列を順次判定し、それによって各単語の
音素の系列を得るテキスト解析手段と、各上記単語に付
随して上記単語辞書に設けられている、その単語中の各
音素の韻律情報を設定する韻律情報設定手段と、上記判
定された単語中の各音素に対応する音声波形を音声波形
辞書から選択読み出しする音声素片選択手段と、入力実
音声から韻律情報を抽出する韻律情報抽出手段と、上記
設定された韻律情報の少なくとも一部と、上記抽出され
た韻律情報の少なくとも一部のいずれか一方を選択する
韻律情報選択手段と、上記選択された音声波形を、上記
選択された韻律情報により制御し、合成音声を出力する
音声合成手段。

【００１０】

【発明を実施する形態】この発明の実施の形態を図１を
参照して説明する。図１はテキストとテキストを発声し
た音声の双方を入力として音声を合成する流れを説明す
る図である。第１に、テキスト情報の入力について説明
する。図１において、１００は従来と同様の規則合成法
による音声合成部を示し、テキスト解析部１１と、単語
辞書１２と、韻律情報設定部１０と、音声波形辞書１６
と、音素片選択部１７と、音声合成部１８とから構成さ
れている。テキスト解析部１１は、ワープロその他の入
力装置を介して作成入力されるテキスト情報である文章
の文字列を解析して解析結果を出力する。単語辞書１２
には、単語の読み、単語のアクセント型、単語の品詞が
格納されている。テキスト解析部１１においては、先
ず、入力されるテキスト情報の文字列の内から句読点を
探しだし、この句読点によってテキスト情報を分割し、
分割した文字列を得る。この分割切り出された文字列毎
に以下の処理を施す。即ち、文字列の先頭から１文字、
２文字と順次切り出すと共に、切り出された文字列と単
語辞書１２に格納されている単語との間の照合を行な
う。その結果、両者が一致したものの内の文字列の長い
方から優先度の高い単語の候補として登録する。次に、
候補単語の品詞情報と既に決定されている直前の単語の
品詞情報から、単語の連なり易さを計算する。最後に、
この計算値と候補単語の長さを考慮し、尤らしい単語を
解析結果とする。以上の処理は文字列の第１文字から開
始して、文字列の最後の文字に到るまで順次に繰り返し
ながら、逐次的に単語を解析、決定し、単語辞書１２を
参照して文字列の読み、およびアクセント型を決定す
る。ここで、文字列の読みが決定されたので、単語を構
成する音素の数が得られる。テキスト解析部１１は以上
の様にテキスト解析し、文字列の単語の境界、単語の読
み、単語のアクセント、単語の品詞、単語を構成する音
素数を解析結果として出力する。

【００１１】韻律情報設定部１０は基本周波数設定部１
３と、音声パワー設定部１４と、継続時間町設定部１５
とから構成されている。基本周波数設定部１３は、テキ
スト解析部１１の出力の内の単語のアクセント型および
単語の長さを使用して基本周波数を決定する。この基本
周波数を決定する方法は数通りあるが、この内の一つの
方法について説明する。基本周波数の設定処理は、性別
による代表的基本周波数、年齢による代表的基本周波
数、に基づいて決めると共に、合成音声にイントネーシ
ョンを付与することを目的としてなされる処理である。
単語のアクセント又はストレスは、英語の場合、一般に
パワーの大小が原因であり、日本語の場合、基本周波数
の高低が主な原因である。従って、基本周波数設定処理
は単語固有のアクセントを設定する処理と、各単語のア
クセントの大きさの相対的な関係を設定する処理とより
成る。ストレスの付与の方法に付いては、例えばJonath
an Allen et al "From text to speech", Cambridge Un
iversity Press, pp.?? に詳しく説明されている。

【００１２】テキスト解析部１１から出力される単語の
アクセント型は、単語固有のアクセントを簡略化して表
記したものであり、日本語の場合、「高」（以下"Ｈ"と
表す）「低」（以下"Ｌ"と表す）の２値により表現され
る。例えば日本語で「橋」を意味する/hashi/は、"Ｌ
Ｈ"であり、日本語で「箸」を意味する/hashi/ は"Ｈ
Ｌ"である。ここで、"Ｈ"或は"Ｌ"は音節/hashi/ の内
の母音である/a/ と/i/ の基本周波数の高さを意味して
いる。例えば、"Ｌ"として100Hz、"Ｈ"として150Hzを与
えることにより、各母音の基本周波数の値は決定され
る。この場合の"Ｈ"と"Ｌ"の周波数の違いは50Hzである
が、この違いを一般にアクセントの大きさという。

【００１３】基本周波数設定部１３は更に、この様にし
てそれぞれの各単語のアクセントの大きさの相対的な関
係を設定する。例えば、単語を構成する音素数が多い単
語は、少ない単語と比較してアクセントの大きさを大き
くする。単語の品詞について形容詞と名詞の連なりがあ
る場合は、形容詞のアクセントの大きさを大きくし、名
詞のアクセントの大きさを小さくする。以上の100Hz、1
50Hzという値、アクセントの相対的な大きさを設定する
規則は、人間の発声した音声を参考にして予め値を求め
ておく。この様にして、各母音毎の基本周波数が決定さ
れる。ところで、各母音を物理的現象としてみると、こ
れは基本周波数を有する波形が20msec〜30msecのあいだ
繰り返される信号である。この様な母音が順次発声さ
れ、ある母音から基本周波数の異なる隣接母音に移る場
合、それら隣接母音間の基本周波数の変化をなだらかに
するため、隣接母音間の基本周波数を直線で補間する。
以上の処理により基本周波数の設定が行なわれる。

【００１４】音声パワー設定部１４は、合成する音声の
パワーを音素毎に設定する。音声のパワーを設定するに
は、各音素が有する固有の値が最も重要な値である。そ
こで、人間に多量のテキストを発声させて各音素別に固
有のパワーを計算し、これをテーブルとして格納してお
く。このテーブルを参照しながらパワー値を設定する。

【００１５】継続時間長設定部１５は音素の継続時間を
設定する。音素の継続時間は各音素に固有なものである
が、その値は各音素の前後に接続する音素により影響を
受ける。そこで、各音素毎に前後に接続する音素を変化
させた全ての組み合わせを作成し、人間に発声させて各
音素の継続時間を測定し、これをテーブルとして格納し
ておく。このテーブルを参照しながら継続時間を設定す
る。

【００１６】音声波形辞書１６には、使用される言語に
出現する音素を人間が発声した標準の音声波形が格納さ
れている。この音声波形には音素の種別を示す記号と、
その音素がどの時刻から開始され、どの時刻で終了する
かを示す記号と、音声波形の基本周波数を示す記号とが
付加されている。これらの情報は人間によって予め付加
しておく。

【００１７】音声素片選択部１７は、先ず、テキスト解
析部１１から出力される各単語の読みに基づいて、その
単語を、これを構成する音素列に変換し、各音素に対応
する波形とこれに付随する情報を音声波形辞書１６から
取り出す。音声合成部１８は音声素片選択部１７で音声
波形辞書１６から選択した一連の音素に対応する音素波
形に対し、各設定部１３、１４、１５で設定された基本
周波数F₀、パワーPw、継続時間Drに従って音声を合成
し、出力する。

【００１８】上述したこの様な音声合成法は規則合成法
と呼ばれ、周知である。音声波形を制御する基本周波数
F₀、パワーPw、継続時間Drなどのパラメータは韻律情報
と呼ばれる。これに対し、辞書１６に格納されている音
素波形は音韻情報と呼ばれる。図１に示すこの発明によ
る実施例では、補助情報として、人間の実音声から抽出
された韻律情報の一部又は全部を選択的に利用可能とす
るよう、基本周波数抽出部２３と、音声パワー抽出部２
４と、継続時間長抽出部２５とから成る補助情報抽出部
２０と、切り替えスイッチSW1, SW2, SW3 が設けられて
いる。

【００１９】次に、補助情報である実際に人間の発声し
た音声情報の入力について説明する。基本周波数抽出部
２３は、人間がテキストを発声して生成した音声信号波
形の基本周波数を抽出する。基本周波数の抽出は、一定
時間毎に例えば20msecの窓幅で音声波形の自己相関関数
を求め、基本周波数が通常存在する範囲である80Hz〜30
0Hz に亘って自己相関関数の最大値を探索し、その最大
値を与える時間遅れの逆数をとることにより求めること
ができる。

【００２０】音声パワー抽出部２４は、入力された音声
信号波形の音声パワーを計算する。音声のパワーは、20
msec程度の一定の窓長を設定し、この窓内の音声波形の
自乗和をとることにより求めることができる。継続時間
長抽出部２５は、入力された音声信号波形の各音素の継
続時間長を測定する。継続時間長は、音声波形、音声ス
ペクトル情報を視察して音素の開始時刻と終了時刻を予
め設定しておき、そこから求めることができる。

【００２１】音声合成部１８において音声を合成するに
際して、基本周波数は基本周波数設定部１３及び基本周
波数抽出部２３の出力する基本周波数の内の何れか一方
を基本周波数選択スイッチSW1 により選択使用する。音
声パワーについても、音声パワー設定部１４および音声
パワー抽出部２４の出力する音声パワーの内の何れか一
方を音声パワー選択スイッチSW2 により選択使用する。
継続時間長についても、継続時間長設定部１５および継
続時間長抽出部２５の出力する継続時間長の内の何れか
一方を継続時間長選択スイッチSW3 により選択使用す
る。

【００２２】先ず、音声合成部１８は音声素片選択部１
７において音声波形辞書１６から各音素に対応して選択
した音素波形に付随する基本周波数情報からその逆数で
ある基本周期を求め、その基本周期の２倍の窓長で音素
波形から波形セグメントを切り出す。次に、基本周波数
設定部１３又は基本周波数抽出部２３で設定又は抽出し
た基本周波数の値から逆数を取って基本周期を算出し、
波形セグメントをこの周期毎に繰り返し接続する。この
繰り返し接続は、接続波形長が継続時間長設定部１５又
は継続時間長抽出部２５で設定又は抽出された継続時間
長になるまで繰り返す。この接続波形のパワーが音声パ
ワー設定部１４又は音声パワー抽出部２４により設定又
は抽出された値に一致するよう接続波形に定数を乗じ
る。人間の発声した音声から抽出した韻律情報である基
本周波数抽出部２３、音声パワー抽出部２４、継続時間
長抽出部２５の出力する値を利用する程、自然性の高い
合成音声が得られる。これらの選択は、利用者により用
途に応じた合成音声の品質、パラメータの蓄積量その他
の条件に応じて適宜になされる図１の実施例では、音声合成部１８から出力される合成
音声は出力音声切り替えスイッチSW4 を介してそのまま
出力するだけでなく、合成音声フィルタ３２によりフィ
ルタリングを施して、入力音声フィルタ３１によりフィ
ルタリングされた入力音声と重ね合わせ回路３３におい
て重ね合わせて出力することもできる。この様にするこ
とにより、入力音声とも異なり、また音声波形辞書１６
に格納されている音声とも異なる合成音を出力すること
ができる。この場合、例えば入力音声フィルタ３１は基
本周波数より十分高い帯域を有するハイパスフィルタで
あり、合成音声フィルタ３２はハイパスフィルタの帯域
より低く、基本周波数を含む帯域を有するローパスフィ
ルタとする。

【００２３】継続時間長設定部１５又は継続時間長抽出
部２５の何れかにより設定された音素継続時間長、音素
の開始、終了時刻を、同期信号として切り替え出力スイ
ッチＳＷ３を介して直接出力することにより、アニメー
ション合成装置の如き他の装置との間の同期を取るため
に利用することができる。即ち、各音素の開始時刻と終
了時刻を参照しながら、例えば/a/ を発声している間は
アニメーションの口を大きく開口しておき、/ma/を合成
する場合は/m/ の区間は口を閉じ、/a/ に到って口を大
きく開口するという様に音声と同期を取りながらアニメ
ーションの口を動かすことができる。

【００２４】また、韻律情報抽出部２０により抽出され
た韻律情報をメモリ３４に蓄積し、任意の時点で、任意
の入力テキストに付いて、メモリ３４から読みだした韻
律情報を使って音声合成部１８で音声を合成してもよ
い。図１で任意の入力テキストに対し、実音声の韻律情
報を使って音声合成を行うには、予め使用が予測される
全ての韻律パターンに付いて実音声の韻律情報を求めて
おく。韻律情報パターンとしては、例えば前述のパワー
の大小の「大」("L"で表す）、「小」（"S"で表す）で
表されるアクセントパターンを使うことができる。例え
ば/bat/、/hat/、/good/などは同じアクセントパター
ン"L" であるとする。/fe/de/ral/、/ge/ne/ral/、/te/
le/phone/ などは同じパターン"LSS"を有する。また、/
con/fuse/、/dis/charge/、/sus/pend/ などは同じパタ
ーン"SL"を有する。

【００２５】実音声として、それぞれのアクセントパタ
ーンを代表する１つの単語をそれぞれ発音して入力し、
一定時間毎に韻律情報F₀, Pw, Drを得る。これらの韻律
情報をその代表アクセントパターンと対応させてメモリ
３４に蓄積する。この様な韻律情報のセットを異なる複
数の話者に付いてメモリ３４に蓄積しておき、音声合成
時に所望の話者の韻律情報のセットから入力テキストの
各単語のアクセントパターンに対応する韻律情報を読み
だし、使用するようにしてもよい。

【００２６】メモリ３４の韻律情報を使って入力テキス
トに従った音声を合成するには、テキスト解析部１１で
単語辞書１２を参照して入力テキストの一連の単語を判
定し、それらの単語に付随して辞書１２に記録されてい
る単語のアクセントパターンをそれぞれ読み出す。それ
らのアクセントパターンに対応してメモリ３４に蓄積さ
れている韻律情報を読みだし、音声合成部１８に与え
る。一方、テキスト解析部１１で判定された音素系列は
音声素片選択部１７に与えられ、音声波形辞書１６を参
照して対応する音素波形が読みだされ、音声合成部１８
に与えられる。それら一連の音素波形は、メモリ３４か
らの韻律情報F₀, Pw, Drにより前述したように制御さ
れ、合成音声として出力される。

【００２７】図１に示すこの発明の音声合成装置の実施
例では、３通りの利用形態がある。第１の利用形態は、
テキスト解析部１１に入力したテキストの音声を合成す
る場合であり、その際に、前述のようにそのテキストと
同じ文章又は異なる任意の文章を話者が読んで発声した
音声の韻律情報F₀, Pw, Drを韻律情報抽出部２０で抽出
し、選択的に利用する。第２の利用形態は、上述したよ
うに、予め様々なアクセントパターンの単語に付いて韻
律情報を抽出してメモリ３４に蓄積しておき、音声合成
時に入力テキスト中の単語のアクセントパターンに対応
する韻律情報をメモリ３４から読みだし、選択的に音声
合成に使用する。第３の利用形態は、上記合成音声の低
周波帯域と、テキストと同じ文章の入力実音声とから異
なる周波数帯域を取り出して混合して音声を出力する。

【００２８】ところで、図１に示した実施例の基本周波
数抽出部２３における基本周波数F₀の抽出、及び、継続
時間長抽出部２５における継続時間長Drの抽出には、一
般に誤りが生じる。抽出誤りは最終的な合成音声の品質
に悪影響を与えるため、高品質な合成音声を得るために
は、抽出誤りをできるだけ少なくすることが重要であ
る。その解決方法として、韻律情報パラメータの自動抽
出を行う機能と、得られた韻律情報パラメータを手動で
修正できる機能を有する実施例を図２に示す。

【００２９】図２の構成は、図１の構成に、更に音声シ
ンボルエディタ４１、基本周波数エディタ４２、音声パ
ワーエディタ４３、継続時間長エディタ４４、音声分析
部４５、表示部４６が設けられている。エディタ４１〜
４４はいずれもグラフィカルユーザインタフェース（Ｇ
ＵＩ）を構成し、表示部４６の表示画面に表示されたパ
ラメータをキーボードやマウスで操作して修正するもの
である。

【００３０】継続時間長抽出部２５は音素始終時点付与
部２５Ａと、HMM 音素モデル辞書２５Ｂと、継続時間長
計算部２５Ｃとから構成されている。HMM 音素モデル辞
書２５Ｂには各音素をスペクトル分布、例えばケプスト
ラム分布の状態遷移で表す標準的HMM が格納されてい
る。HMM モデル構成については、例えば、S.Takahashi,
S.Sagayama, "Four-level tied structure for efficie
nt representation ofacoustic modeling," Proc.ICASS
P95, pp.520-523, 1995 に詳細に述べられている。音声
分析部４５は、一定時間毎に、例えば20msecの分析窓で
入力音声信号の自己相関関数を求め、音声パワー抽出部
２４に与え、更に、自己相関関数から例えばケプストラ
ムのような音声スペクトル特徴を求め、継続時間長抽出
部２５内の音素始終時点付与部２５Ａに与える。音素始
終時点付与部２５Ａは音声シンボルエディタ４１からの
修正されたシンボル系列のそれぞれの音素に対応するHM
MをHMM モデル辞書２５Ｂから読みだし、HMM 系列を得
る。このHMM 系列を音声分析部４５からのケプストラム
系列と比較し、テキストの音素境界に対応するHMM系列
中の境界を求め、各音素に対応してその始点と終点が決
定される。各音素の始点と終点の差を継続時間長計算部
２５Ｃで求め、その音素の継続時間長とする。これによ
り、入力音声波形上の各音素の区間、即ち、開始時点と
終了時点が決定される。これを音素のラベリングと呼
ぶ。

【００３１】基本周波数抽出部２３は音声分析部４５か
ら自己相関関数が与えられ、それを最大にする相関遅延
時間の逆数から基本周波数を求める。基本周波数を抽出
するアルゴリズムは、例えばL.Rabiner et at, "A comp
arative performance studyof several pitch detectio
n algorithms," IEEE Trans. ASSP, ASSP-24, pp.300-4
28, 1976 に示されている。基本周波数を抽出する際、
継続時間長抽出部２５で決定された各音素の始点と終点
との間で抽出することにより、その音素の正確な区間に
おける基本周波数を得ることができる。

【００３２】音声パワー抽出部２４は音声分析部４５か
ら与えられた自己相関関数の０次の項をパワーとして求
める。音声シンボルエディタ（ＧＵＩ）４１は、テキス
ト解析部１１により判定された単語の音声シンボル系列
とそのアクセントパターン（例えば基本周波数F₀の
「高」、「低」）が与えられ、それを表示画面に表示す
る。表示された音声シンボル系列は、その内容を読めば
テキスト解析部１１による判定誤りを直ちに発見するこ
とができる。また、表示されたアクセントパターンから
もテキスト解析部１１の判定誤りを見つけることができ
る。

【００３３】ＧＵＩ４２、４３、４４は韻律パラメータ
エディタであり、基本周波数抽出部２３、音声パワー抽
出部２４及び継続時間長抽出部２５で抽出された基本周
波数F₀, 音声パワーPw, 継続時間長Drを同一表示画面上
に表示すると共に、それらの韻律パラメータを表示画面
上でマウスやキーボードの操作に従って修正する。図３
は韻律パラメータF₀, Pw, Drを、入力テキストシンボル
系列"soredewa/tsugino/nyusudesu"及び合成音声波形Ws
と共に表示部４６の同一画面上に表示した画面の例を示
す。各音素の継続時間長Drは音素の開始、終了時点を表
す縦の実線で区切られた区間である。この様に、シンボ
ル系列と、各韻律パラメータF₀, Pwを対応させて表示す
ることにより、例えば、本来母音に比べて短いはずの子
音の区間が異常に長ければ誤りであることが一目に判定
できる。同様に、不自然な基本周波数や音声パワーも目
視により発見することができる。それらの誤りは表示画
面上でキーボードやマウスの操作により修正することに
より、対応するＧＵＩがパラメータの修正を行う。

【００３４】図２の実施例の韻律エディタ４２、４３、
４４の効果を調べるために実験を行った。合成音声を被
験者に聞かせ、その音質を５段階（悪い１点〜良い５
点）で評価させた。その結果を図４に示す。図中、縦軸
はプレファレンススコアであり、TTS とは従来のテキス
トからの音声合成方式であり、システム１とは、テキス
トと音声とを入力し、入力音声から自動的に抽出した韻
律パラメータで音声を合成する方式であり、システム2
とは、先に述べたエディタを用いて合成した方法であ
る。図から明らかなように、システム1 では、自動抽出
の誤りを含んでいるため、補助情報として音声を入力し
たことの効果はそれほど大きくない。一方、システム2
の場合には、大きな品質の改善が見られる。以上から、
自動抽出の誤りを訂正することの必要さが確認でき、Ｇ
ＵＩによるエディタ４２、４３、４４の有効性は明かで
ある。

【００３５】図１及び２の実施例で説明したこの発明に
よる音声合成法方はコンピュータによって実施される。
即ち、コンピュータは記録媒体に記録されたこの発明の
方法による処理手順に従って、入力テキスト及び入力実
音声を処理し、音声を合成する。以上の通り、この発明
に依れば、テキストばかりではなく、そのテキストを読
み上げた音声を利用し、或いはそのテキストに類似した
テキストを読み上げた音声を利用し、これらの音声に含
まれる韻律情報、所望の帯域の音声信号のような補助情
報を抽出して利用することにより、従来技術のテキスト
音声合成によっては達成し得なかった高品質で自然な合
成音声を合成することができる。

【００３６】そして、音声合成の規則の内、特に、音声
の高さ、音素の時間長および音声パワーに関する韻律情
報は、発話が行なわれる状況および文脈の影響を受け、
更に、感情、意図にも強く関係する。従って、このよう
な実音声の韻律情報を使って規則合成を制御することに
より、表現力の豊富な制御が可能となる。これに対し、
入力されたテキスト情報のみから得られる韻律情報は、
予め決められたものであり、合成音の表現は単調にな
る。このように、人間の発声した音声、或は人間の発声
した音声の一部の情報を有効に利用することにより、テ
キスト合成音声を人間の発声した音声に近づけることが
できる。しかし、ここで、繰り返すが、人間の発声した
音声の韻律情報を利用してテキストＡの音声を合成する
場合、必ずしも人間がそのテキストＡを読む必要はな
い。即ち、テキストＡの音声を合成するに使用する韻律
情報をテキストＡとは内容の異なるテキストを読んだ実
音声から抽出して使用することができる。この様にする
ことにより、或る有限な韻律情報から無限の韻律情報の
組み合わせを生成することができる。

【００３７】また、補助情報として人間の発声した音声
から一部の帯域の信号を取りだし、これに規則により合
成した音声を加え合わせることにより、或る特定の人間
の音声に類似した合成音を合成することができる。従来
の音声合成方法は、高だか数種類程度の相異なる話者の
音声しか合成することができなかったため、その応用分
野に限りがあったが、この発明により適用分野の拡大を
図ることができるに到った。

【００３８】更に、この発明の先の実施例は、各音素に
付いて設定した、或いは抽出した継続時間長Drを同期信
号として出力することにより他の画像生成装置との同期
をとることもできる。例えば、アニメーションの人物に
喋らせることを考える。自然なアニメを制作するには、
口の動きと音声信号との間の時間的な同期を取ることが
重要であるが、音声に合わせてアニメを動かすにして
も、或はアニメに合わせて人が喋るにしても、同期をと
るには多大な労力を必要としていた。一方、規則による
音声合成においては、音素の種別、音素の開始および終
了の時刻を明確に指定することができる。従って、これ
らの情報を補助情報として出力し、この情報を利用して
アニメの動作を決定すれば、口の動きと音声信号との間
の同期を容易にとることができる。

【００３９】

【発明の効果】以上の通りであって、この発明に依れ
ば、主に次の様な効果が得られる。自然音声から抽出さ
れた韻律に関する補助情報を利用することにより従来技
術に依っては実現することができなかった自然性の高い
音声を合成することができる。そして、自然音声の或る
特定の帯域情報を利用することができるので、様々な種
類の音声を合成することができる。

【００４０】また、従来の規則音声合成はテキストのみ
から音声合成していたが、この発明では、実音声から得
られる補助情報を全て、或いはその一部を利用するの
で、その補助情報の利用度（又は種類）に応じて様々な
レベルの向上した品質の合成音声を実現することができ
る。更に、通常の符号化音声とは異なり、テキスト情報
と音声情報の対応がとれているので、継続時間その他の
情報を制御したり或いは出力したりすることができるの
で、顔の動画像その他の部分の動画像との間の同期を容
易にとることができる。

【図面の簡単な説明】

【図１】この発明による実施例を説明する図。

【図２】この発明の他の実施例を説明する図。

【図３】図２の実施例における韻律情報の表示例を示す
図。

【図４】図２の実施例の効果を説明するためのグラフ。

Claims

【特許請求の範囲】

【請求項１】テキストを入力して任意な音声を合成す
る規則によるテキスト音声合成方法であり、以下のステ
ップを含む： (a) 単語辞書を参照して入力テキストを解析し、入力テ
キストの単語系列を判定し、それによって各単語の音素
の系列を得て、 (b) 各単語中の音素の韻律情報を設定し、 (c) 各単語中の音素に対応する音素波形を音声波形辞書
から選択し、それによって音素波形系列を生成し、 (d) 入力実音声から韻律情報を抽出し、 (e) 上記抽出した韻律情報の少なくとも一部と、上記設
定した韻律情報の少なくとも一部のいずれかを選択し、 (f) 上記音声波形系列を選択された韻律情報で制御して
合成音声を生成する。
【請求項２】請求項１の方法において、上記韻律情報
抽出ステップ(d) は、上記音声から基本周波数と、音声
パワーと、音素継続時間長とを韻律パラメータとして抽
出するステップを含む。
【請求項３】請求項２の方法において、上記韻律情報
設定ステップ(b) は、上記単語辞書に基づいて各単語の
音素に対して指定された基本周波数と、パワーと、その
音素の継続時間長を設定するステップを含む。
【請求項４】請求項２又は３の方法において、上記選
択ステップ(e) は、上記抽出された韻律パラメータの少
なくとも１つを選択し、残りの抽出された韻律パラメー
タに対応する設定された韻律パラメータを選択するステ
ップを含む。
【請求項５】請求項１〜４のいずれかの方法におい
て、上記入力実音声の所望の帯域を抽出し、上記合成さ
れた音声の他の帯域と結合して合成音声として出力する
ステップを含む。
【請求項６】請求項１〜４のいずれかの方法におい
て、上記選択した韻律情報中の、各音素の開始時点と終
了時点を表す継続時間長を音声同期信号として出力す
る。
【請求項７】請求項１〜４のいずれかの方法におい
て、上記実音声の文章と上記テキストの文章は同じであ
る。
【請求項８】請求項１〜４のいずれかの方法におい
て、上記実音声の文章と上記テキストの文章は異なる。
【請求項９】請求項１〜４のいずれかの方法におい
て、上記ステップ(d) は、上記抽出された韻律情報をメ
モリに蓄積するステップを含み、上記ステップ(e)は、
上記メモリから上記抽出した韻律情報の少なくとも一部
を読みだすステップを含む。
【請求項１０】請求項２、３又は４の方法において、
上記抽出された基本周波数と、音声パワーと、音素継続
時間長の少なくとも１つを表示画面に表示し、抽出誤り
を修正するステップを含む。
【請求項１１】規則合成に基づいて入力テキストに対
応する音声を合成する音声合成装置であり、以下を含
む：単語辞書を参照して入力テキストを形成する単語の
系列を順次判定し、それによって各単語の音素の系列を
得るテキスト解析手段と、各上記単語に付随して上記単語辞書に設けられている、
その単語中の各音素の韻律情報を設定する韻律情報設定
手段と、上記判定された単語中の各音素に対応する音声波形を音
声波形辞書から選択読みだする音声素片選択手段と、入力実音声から韻律情報を抽出する韻律情報抽出手段
と、上記設定された韻律情報の少なくとも一部と、上記抽出
された韻律情報の少なくとも一部のいずれか一方を選択
する韻律情報選択手段と、上記選択された音声波形を、上記選択された韻律情報に
より制御し、合成音声を出力する音声合成手段。
【請求項１２】請求項１１の装置において、上記韻律
情報設定手段は、各単語に付随して上記単語辞書に設け
られているその単語の各音素の基本周波数と、音声パワ
ーと、継続時間長とをそれぞれ設定する基本周波数設定
手段と、音声パワー設定手段と、及び継続時間長設定手
段とを含む。
【請求項１３】請求項１２の装置において、上記韻律
情報抽出手段は、一定時間毎に一定分析窓で上記入力実
音声から基本周波数と、音声パワーと、音素継続時間長
とをそれぞれ抽出する基本周波数抽出手段と、音声パワ
ー抽出手段と、継続時間長抽出手段とを含む。
【請求項１４】請求項１２又は１３の装置において、
上記選択手段により選択された、上記設定された継続時
間長と上記抽出された継続時間長のいずれかは同期信号
として上記合成音声と共に出力される。
【請求項１５】請求項１１〜１４のいずれかの装置に
おいて、上記抽出された韻律情報を記憶するメモリ手段
が設けられ、上記選択手段は、上記抽出された韻律情報
の少なくとも一部を上記メモリ手段から読みだす。
【請求項１６】請求項１１〜１４のいずれかの装置に
おいて、上記入力自然音声の予め決めた第１帯域を通過
させる第１フィルタ手段と、上記音声合成手段からの合
成音声の、上記帯域と異なる第２帯域と通過させる第２
フィルタ手段と、上記第１フィルタ手段と上記第２フィ
ルタ手段の出力を重ね合わせ、合成音声として出力する
重ね合わせ手段とを含む。
【請求項１７】請求項１６の装置において、上記第１
フィルタ手段は基本周波数より高い帯域のハイパスフィ
ルタであり、上記第２フィルタは基本周波数を含み上記
第１フィルタ手段より低い帯域のローパスフィルタであ
る。
【請求項１８】請求項１１〜１４のいずれかの装置に
おいて、上記抽出された韻律情報を表示する表示手段
と、上記表示された韻律情報の誤りを表示画面上で修正
することにより、上記抽出された韻律情報を修正する韻
律情報グラフィカルユーザインタフェース手段とが設け
られている。
【請求項１９】請求項１８の装置において、上記韻律
情報抽出手段は一定時間毎に一定分析窓で上記入力実音
声から基本周波数と、音声パワーと、音素継続時間長と
をそれぞれ抽出する基本周波数抽出手段と、音声パワー
抽出手段と、継続時間長抽出手段とを含み、上記表示手
段は上記韻律情報としての上記抽出された基本周波数、
音声パワー、継続時間長の任意のものを表示し、上記韻
律情報グラフィカルユーザインタフェース手段は、表示
基本周波数の修正に応じて上記抽出された基本周波数を
修正する基本周波数エディタ手段と、表示音声パワーの
修正に応じて上記抽出された音声パワーを修正する音声
パワーエディタ手段と、表示された継続時間長の修正に
応じて上記抽出された継続時間長を修正する継続時間長
エディタ手段とを含む。
【請求項２０】請求項１９の装置において、上記表示
手段は、上記テキスト解析手段からの音声シンボル系列
を表示し、上記表示手段の表示音声シンボル系列中の誤
りを修正することにより上記音声シンボル系列中の対応
する誤りを修正する音声エディタ手段が設けられてい
る。
【請求項２１】テキストを入力して任意な音声を規則
合成する処理手順を記録した記録媒体であり、上記処理
手順は以下の手順を含む： (a) 単語辞書を参照して入力テキストを解析し、入力テ
キストの単語系列を判定し、それによって各単語の音素
の系列を得て、 (b) 各単語中の音素の韻律情報を設定し、 (c) 各単語中の音素に対応する音素波形を音声波形辞書
から選択し、それによって音素波形系列を生成し、 (d) 入力実音声から韻律情報を抽出し、 (e) 上記抽出した韻律情報の少なくとも一部と、上記設
定した韻律情報の少なくとも一部のいずれかを選択し、 (f) 上記音声波形系列を選択された韻律情報で制御して
合成音声を生成する。
【請求項２２】請求項２１の記録媒体において、上記
韻律情報抽出手順(d) は、上記音声から基本周波数と、
音声パワーと、音素継続時間長とを韻律パラメータとし
て抽出する手順を含む。
【請求項２３】請求項２１の記録媒体において、上記
入力実音声の所望の帯域を抽出し、上記合成された音声
の他の帯域と結合して合成音声として出力する手順を含
む。
【請求項２４】請求項２１の記録媒体において、上記
手順(d) は、上記抽出された韻律情報をメモリに蓄積す
る手順を含み、上記手順(e) は、上記メモリから上記抽
出した韻律情報の少なくとも一部を読みだす手順を含
む。
【請求項２５】請求項２２の記録媒体において、上記
抽出された基本周波数と、音声パワーと、音素継続時間
長の少なくとも１つを表示画面に表示し、抽出誤りを修
正する手順を含む。