JP2003295882A

JP2003295882A - 音声合成用テキスト構造、音声合成方法、音声合成装置及びそのコンピュータ・プログラム

Info

Publication number: JP2003295882A
Application number: JP2002100467A
Authority: JP
Inventors: Masahiro Rikuno; 将弘陸野; Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-02
Filing date: 2002-04-02
Publication date: 2003-10-15
Also published as: DE60325191D1; KR100591655B1; CN1643572A; EP1490861A4; EP1490861B1; WO2003088208A1; KR20040086432A; US7487093B2; ES2316786T3; AU2003226446A1; EP1490861A1; US20050065795A1; CN1269104C

Abstract

(57)【要約】【課題】出力対象のテキストのうち、所望の範囲の韻
律を連続的且つ容易に変化させる。【解決手段】出力対象の入力文のうち所望の範囲を、
例えば、開始タグ＜morphing type="express" start="h
appy" end="angry"＞と、終了タグ＜/morphing＞とによ
って囲むことにより、合成音声の出力に際して、徐々に
楽しい音声から怒ったような音声に変化しながら、韻律
を連続的に変化させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力された文章
（テキスト）を、合成音声としてスピーカから出力する
音声合成装置の分野に関する。

【０００２】

【従来の技術】従来より、入力された文章（テキスト）
を、合成音声としてスピーカから出力する音声合成装置
が提案されている。

【０００３】このような装置を使用してテキストから合
成音声を作成する場合には、聞き手であるユーザが自然
な音声として聞き取り易いように、発声（出力）する音
声に強さ、速度、ピッチ等の変化を与えそれにより表現
力を高めるため、合成音声を出力する際の韻律を制御す
る必要がある。

【０００４】このため、テキストの文字列に含まれる所
定の規則に基づく合成音声の出力する場合においても、
そのテキスト内に所望の言語情報を付加することが試み
られている。

【０００５】この場合、テキストに与えられる付加情報
には、例えば、タグと呼ばれる所謂ＨＴＭＬ(Hyper Tex
t Markup Language)で用いられるような、付加情報を”
＜＞”で表わされるタグによって囲む書式が使われてお
り、このタグを用いて、入力文に対する音声合成音の制
御を用いて行なうという方式が提案されている。

【０００６】

【発明が解決しようとする課題】しかしながら、このよ
うな従来のタグ付け方式では、文や単語等の離散的な単
位でタグ付けを行なうことによって所定の固定値を設定
するため、入力文内の様々な文字や単語に対応する合成
音声を適当な韻律を連続的に変化させながら出力するこ
とを目的としているものの、実際に合成音声が出力され
る際には、離散的な変化しか行なうことができず、聞き
手にとって不自然な韻律となる。

【０００７】また、音声の韻律を連続的に変化させる技
術としては、例えば、音声モーフィングという方法が特
開平９−２４４６９３に提案されているが、この方法で
は、ピッチパターンしか補間することができず、聞き手
にとってやはり不自然な韻律となる。

【０００８】更にこれらの方法では、入力文中のタグで
囲まれた部分の韻律を出力に際して連続的に変化させる
場合、韻律の変化点に的確にタグを付与しなければなら
ないため、タグ付けの作業が面倒であり、結局、離散的
な変化しか得られない。また、音声モーフィングの場合
も、変化させる対象が、感情であった場合、楽しい声か
ら怒った声等といった変化は連続的には行なうことがで
きない。

【０００９】そこで本発明は、出力対象のテキストのう
ち、所望の範囲の韻律を連続的且つ容易に変化させるこ
とを目的とする。

【００１０】

【課題を解決するための手段】上記の目的を達成するた
め、本発明に係る音声合成方法は、以下の構成を特徴と
する。

【００１１】即ち、入力されたテキストに対応する合成
音声を出力するに際して、そのテキストに含まれる所定
の識別子が付与された範囲の韻律が変化するように、音
声波形を合成する音声合成方法であって、出力対象のテ
キストのうち、韻律を連続的に変化させようとする所望
の範囲を、韻律の変化の態様を表わす属性情報を含む所
定の識別子を用いて設定する設定工程と、前記設定工程
にて設定された識別子付きのテキストを対象として、前
記所定の識別子及びその中に含まれる属性情報の種類を
認識する認識工程と、前記識別子付きのテキストのう
ち、前記所望の範囲内のテキストに対応する標準音声波
形を、前記認識工程における認識結果に従って補間する
ことにより、前記所定の識別子に含まれる属性情報に従
って、韻律が連続的に変化する音声波形を合成する音声
合成工程とを有することを特徴とする。

【００１２】好適な実施形態において、前記所定の識別
子に含まれる属性情報は、その識別子によって設定され
た範囲に関して、その範囲の開始位置における韻律の変
化の態様と、終了位置における韻律の変化の態様とを表
わすと良い。

【００１３】また、例えば、前記属性情報が表わす韻律
の変化の態様は、音量の変化、発話者の変化、発話者数
の変化、感情の変化、発話スピードの変化、並びに基本
周波数の変化のうち、少なくとも何れかであることを特
徴とする。

【００１４】また、例えば前記音声合成工程では、前記
所定の識別子に含まれる識別子によって設定された範囲
の開始位置及び終了位置に関する属性情報と、その開始
位置以前の韻律の態様とに基づいて、前記所望の範囲内
のテキストに対応する標準音声波形を補間することを特
徴とし、より具体的には、・前記開始位置及び終了位置に関する属性情報として設
定されている発話スピードを表わす値と、前記開始位置
以前の発話スピードを表わす値との比率に基づいて、前
記所望の範囲内のテキストに対応する標準音声波形を補
間する、或いは、・前記開始位置及び終了位置に関する属性情報として設
定されている音量を表わす値と、前記開始位置以前の音
量を表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間すると良い。

【００１５】或いは、同目的を達成すべく、音声合成に
よる出力対象のテキストのうち、所望の範囲の韻律を変
化させるべく所定の識別子が付与された音声合成用テキ
スト構造であって、前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る。

【００１６】尚、同目的は、上記の各構成を有する音声
合成方法に対応する音声合成装置によっても達成され
る。

【００１７】また、同目的は、上記の各構成を有する音
声合成方法または装置を、コンピュータによって実現す
るプログラムコード、及びそのプログラムコードが格納
されている、コンピュータ読み取り可能な記憶媒体によ
っても達成される。

【００１８】

【発明の実施の形態】以下、本発明に係る音声合成装置
の実施形態を、図面を参照して詳細に説明する。

【００１９】［第１の実施形態］はじめに、本実施形態
に係る音声合成装置の構成について、図１を参照して概
説する。

【００２０】図１は、第１の実施形態における音声合成
装置のブロック構成図であり、採用可能なハードウエア
としては、例えばパーソナルコンピュータ等の一般的な
情報処理装置を採用することができる。

【００２１】同図において、音声出力の対象となるタグ
付きテキストの作成に関しては、テキスト本文を作成す
るテキスト作成部１０１、そのテキスト内の所望位置に
所定のタグおよびそのタグ内に属性を挿入することによ
り、タグ付きテキスト１０３を作成するタグ作成部１０
２を備える。テキスト作成部１０１では、メールやニュ
ース、雑誌、書籍等の様々な情報源に基づくテキストが
作成される。その際、タグおよびテキストを書くための
エディタは、どのようなソフトウエアを用いてもよい。

【００２２】尚、テキスト作成部１０１及びタグ作成部
１０２は、外部装置であっても、音声合成装置自体が備
えていても良い。

【００２３】タグ付きテキスト１０３は、通信回線また
は携帯可能な記憶媒体（ＣＤ−Ｒ等）を介して、テキス
ト入力部１０４に入力される。テキスト入力部１０４に
入力されたタグ付きテキスト１０３は、テキスト解析部
１０５にてテキスト部分が解析され、タグ解析部１０６
にてタグ部分が解析される。更に本実施形態では、タグ
属性解析部１０７においてタグの内部に含まれる属性情
報が解析される（祖父際は後述する）。

【００２４】言語処理部１０８は、言語情報が予め記憶
されている言語辞書１１０を参照しながら、アクセント
等の音声を出力する上で必要となる言語情報を処理す
る。そして、音声合成部１０９は、韻律音素等が予め記
憶されている韻律・波形辞書１１１を参照しながら、実
際に出力すべき音声を表わす合成波形を生成すると共
に、その合成波形に基づいて、スピーカ（不図示）から
合成音声を出力する。

【００２５】次に、本実施形態における特徴的な構成に
ついて説明する。

【００２６】タグ作成部１０２では、テキスト作成部１
０１にて作成されたテキスト内に、所定のタグおよび属
性が挿入される。その際、タグは、テキスト内のユーザ
所望の位置に挿入可能であって、所謂画像処理における
モーフィングの如く、滑らかに音声の韻律を変化させた
い部分に付与することができる。また、個々のタグ内に
は、属性（属性情報）と呼ぶ付加情報を書き込むことが
できる。即ち、文字や単語が並ぶテキストのうち、韻律
を滑らかに変化させたい部分の始点と終点とに所定のタ
グ＜morphing ・・・＞及び＜/morphing＞が付与され、
そのタグ内には、韻律を連続的に変化させるべき対象、
換言すれば、韻律を連続的に変化させる際の変化の態様
を表わす属性情報が書き込まれる。

【００２７】ここで、属性情報の書き込みは、テキスト
の作成に際してユーザが行なう。また、。タグの設定及
びタグ内の各種属性の設定についても、ユーザによって
行なわれる。尚、これらのタグの設定及び属性値の設定
は、高機能エディタなどにより、自動または半自動で設
定されるように構成しても良い。

【００２８】タグ内に埋め込まれる属性情報は、例え
ば、音量、発話者、発話者数、感情、発話スピード、基
本周波数等に関する情報である。この他にも、合成音声
の出力に際して連続的に変化させること（本実施形態で
は「モーフィング」と称する）ができる事項であれば、
他のものであっても良い。

【００２９】また、属性情報は、テキスト内に設定され
た始点タグと終点タグとで異なっても良いし同じでも良
い。始点と終点とで属性情報が同じ場合には、合成音声
の実際の出力に際して、その属性情報に関して韻律の変
化はなく始点タグによって設定された当該属性情報に応
じた音声が出力される。

【００３０】また、タグ内に埋め込まれる属性情報に対
応する値は、属性が音量であれば、数値である。また、
発話者であれば、男性や女性もしくは話者の識別番号
（ID）等を指定することができる。

【００３１】図２は、テキストに付与されたタグの例を
示す図であり、この例では、韻律を連続的に変化させる
べき範囲が、開始タグ＜morphing ・・・＞と、終了タ
グ＜/morphing＞とで囲まれた範囲であることを示す。
そして開始タグ＜morphing・・・・＞内の属性には、韻
律を連続的に変化させるべき対象である感情(express)
と、始点(start)における感情と終点(end)における感情
とが記述されている。このため、この文の合成音声が実
際に出力された際には、タグ内で囲まれた文章が、徐々
に楽しい音声から怒ったような音声に変化しながら発音
される。

【００３２】本実施形態に係る音声合成装置のテキスト
入力部１０４には、前記の如くタグが付与されたタグ付
きテキスト１０３が入力され、テキスト解析部１０５で
は、入力されたタグ付きテキスト１０３のフォーマット
およびテキストのヘッダ部の情報に基づいて、テキスト
の種類、内容等に関する情報が取得される。

【００３３】次に、タグ解析部１０６では、入力された
タグ付きテキスト１０３内に埋め込まれたタグがどのよ
うな種類であるかが判定される。タグ属性解析部１０７
では、タグ内に記述されている属性および属性値がどの
ようなものであるかが解析される。

【００３４】そして、言語処理部１０８および音声合成
部１０９では、テキスト解析部１０５にて解析されたテ
キストに対応する音素として韻律・波形辞書１１１から
読み出された標準音声波形に対して、タグ属性解析部１
０７にて取得した属性値に基づく補間が施されることに
より、出力すべき音声波形が生成され、その音声波形に
応じた合成音声が出力される（尚、属性値に基づく補間
については後述する）。

【００３５】次に、タグ解析部１０６において＜morphi
ng＞・・・・・＜/morphing＞タグ内の属性値を取り出
す方法について、図３を用いて説明する。

【００３６】図３は、第１の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のＣＰＵが行なう処理の手順を表わす。

【００３７】同図において、テキスト入力部１０４によ
って入力されたタグ付きテキスト１０３に対して、テキ
スト解析部１０５、タグ解析部１０６、タグ属性解析部
１０７によるテキスト解析、タグ解析、タグ属性解析を
行なう（ステップＳ３０１〜ステップＳ３０３）。

【００３８】次に開始タグ＜morphing・・・・＞内に、
属性、対象、始点、終点が存在するかどうか調べる（ス
テップＳ３０４）。まず、モーフィング対象の属性値が
存在するかを調べ、モーフィング対象の属性値がなけれ
ば、そのタグの前文で読み上げれられていた音声に従っ
て、開始タグと終了タグとに挟まれた文字や単語を読み
上げる（ステップＳ３０５）。一方、モーフィング対象
の属性値が存在する場合には、始点および終点の属性が
どちらか一方でも存在するかどうかを調べる（ステップ
Ｓ３０６）。

【００３９】始点及び終点共に属性値が存在しなけれ
ば、予め設定されているモーフィング対象のデフォルト
の属性値に応じた合成音で、開始タグと終了タグとに挟
まれた文字や単語を読み上げる（ステップＳ３０７）。
一方、始点または終点に属性値が存在する場合には、始
点に対する属性値が存在するかについて調べる（ステッ
プＳ３０８）。そして、始点の属性値が存在しなけれ
ば、終点の属性値と、モーフィング対象の属性値とが一
致するかを判断することにより、それらが正当なもの
（一致する）であるかを調べ（ステップＳ３０９）、一
致する場合には終点の属性値を用いる（ステップＳ３１
１）。ステップＳ３０９では、例えば、モーフィング対
象がボリュームなら、終点の属性値はボリューム値であ
るかどうかを調べ、その結果、異なっていなければ、終
点の情報で読み上げ、異なっていれば対象の属性値に対
して予め用意されたデフォルトの合成音で、開始タグと
終了タグとに挟まれた文字や単語を読み上げる（ステッ
プＳ３１０）。

【００４０】また、ステップＳ３０８において始点の属
性値が存在すると判断された場合であって終点の属性値
がない場合には、始点の属性値に従い読み上げる（ステ
ップＳ３１２、ステップＳ３１５）。この場合も同様
に、対象との正当性を調べ一致していれば、始点の属性
値に従い、読み上げる（ステップＳ３１３、ステップＳ
３１４）。

【００４１】そして、始点及び終点とも属性値が存在し
ており、その対象に対する値も正当なもの（一致する）
であれば、属性値による補間を行なった上で合成音を出
力する（ステップＳ３１６、ステップＳ３２０）。始点
と終点とでの属性値が正当な場合とは、例えば対象がボ
リュームであれば、始点はボリューム値、終点もボリュ
ーム値でなければならないということである。ここで、
例えば始点がボリューム値、終点が感情等のように、始
点と終点とで属性値が異なる場合は、対象と一致してい
るものの属性値を用いる（ステップＳ３１７、ステップ
Ｓ３１９）。また、これら始点及び終点の属性値がお互
いに異なり、かつモーフィング対象とも異なっていた場
合は、対象の属性値に対するデフォルトの合成音で、開
始タグと終了タグとに挟まれた文字や単語を読み上げる
（ステップＳ３１８）。判断対象となったタグの属性値
が異なっていた場合における音声出力の優先度は、対象
＞始点＞終点とする。

【００４２】次に、音声作成の手順として、属性値に基
づいて行われる補間について、図４を参照して説明す
る。

【００４３】図４は、合成音声の出力に際して発話スピ
ードを補間する例を説明する図である。

【００４４】補間方法の例として、まず、発話スピード
の補間を行なう場合は、出力対象のテキスト（図４の場
合には、あ(a)、い(i)、う(u)、え(e)）に従って、その
テキスト全体の波形が出力される際の所要時間を算出す
ると共に、そのテキストを構成する音素毎の時間長ｔも
求める。本実施形態において、韻律・波形辞書１１１に
は、複数の音素に関して、標準的な韻律及び音声波形が
予め登録されているので、出力対象のテキスト全体の波
形が出力される際の所要時間は、韻律・波形辞書１１１
から読み出した合成音声の出力に必要な音素（図４の場
合には、あ(a)、い(i)、う(u)、え(e)）について、音素
毎の時間長ｔを積算すれば良い。

【００４５】そして始点及び終点の属性値として設定さ
れている値と、現在の発話スピードとの比ｒを求める。
その際、始点及び終点の属性値として設定されている値
が現在のスピードに対する比ｒと同じ場合には、この補
間処理は必要ない。

【００４６】そして求められた比に基づいて、各音素に
おける補間関数を、（補間値）＝ｔ×ｒによって算出す
る。求められた補間値に応じて波形の周期を縮めたり、
伸ばしたりすることにより、発話スピードを変化させる
ことができる。また、各音素の特長に合わせて時間長を
変化させる処理を行なっても良い。

【００４７】次に、音量の補間を行なう場合は、出力対
象のテキスト（図５の場合には、あ(a)、い(i)、う
(u)、え(e)）に従って、上述した発話スピードを補間す
る場合と同様に、そのテキストを構成する音素毎の時間
長ｔを用いる。そして始点及び終点の属性値として設定
されている値と、現在の音量に対する比ｒ’を求める。

【００４８】図５は、合成音声の出力に際して音量を補
間する例を説明する図であり、補間関数を、（補間値）
＝ｆ×ｒ’によって算出する。この場合も、各音素の標
準的な音声波形及びその振幅は、韻律・波形辞書１１１
から読み出したものである。

【００４９】そして、求められた補間値に応じて波形の
振幅ｆを縮めたり伸ばしたりする。また、振幅を変える
のではなく出力ハードウエアの音量を直接変化させる方
法を採用しても良い。基本周波数についても同様の方法
で算出する。

【００５０】更に、感情や発話スタイルに対する補間を
行う場合は、出力対象のテキストの始点及び終点の属性
値として設定されている値に対する音声合成用データの
補間をすることによって合成音声を生成する。

【００５１】例えば、PSOLA等の波形編集方式による音
声合成方法では、出力対象のテキスト中の開始位置に設
定された感情に対する音声波形辞書の素片と、終了位置
に設定された感情に対する音声波形辞書の素片とを、所
望の継続時間長および基本周波数に対してPSOLA処理を
施し、音量の場合と同様に得られる補間関数に従って音
声波形素片を補間することによって求めれば良い。

【００５２】他にも、ケプストラム等のパラメータ分析
合成方式による音声合成方法では、出力対象のテキスト
中の開始位置に設定された感情に対する音声パラメータ
辞書の素片と、終了位置に設定された感情に対する音声
パラメータ辞書の素片とを補間することによってパラメ
ータを生成し、このパラメータを用いて所望の継続時間
長および基本周波数に対する合成音声を生成することに
よっても補間を行なうことができる。更に、男性から女
性等のように、話者間の補間に対しても同様の方法によ
って補間することができる。

【００５３】また、話者数（話し手の人数）に対する補
間を行う場合は、図６のような補間関数で求める。

【００５４】図６は、合成音声の出力に際して話者数を
補間する例を説明する図であり、同図に示す例では、１
人の話者から５人の話者へのモーフィングが実現され
る。この場合、出力対象のテキストから求めた波形の時
間長を５分割する。そして各分割時間が経過する度に話
者を１人ずつ増やすと共に、図６に示す補間関数(０乃
至１の間で変化する関数)に基づき線形にその合成音の
大きさを変化させていく。また、振幅が所定値以上に大
きくならないように、波形のレベルは正規化しているも
のとする。

【００５５】本実施形態では、上述した各種の補間処理
を施すことによって作成された音声波形に従って合成音
声が出力される。これにより、韻律が離散的に変化する
従来の音声合成装置と比較して、韻律が連続的に変化す
る自然な合成音声を実現することができる。

【００５６】［第２の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第２の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００５７】本実施形態では、タグ付きテキスト１０３
に含まれる所定のタグは、＜morphing・・・＞及び＜/m
orphing＞からなる第１実施形態と同様のタグに加え
て、それら２つのタグの中に、図７に例示する如く入れ
子構造にすることにより、変化する対象を複数設定す
る。このような入れ子構造を採用することで、複数変化
の音声合成モーフィングを行なうことが可能となる。即
ち、図７の例では、出力対象のテキストが合成音声とし
て発せられる際の韻律は、はじめは楽しげな口調で音量
が大きいが、その後、怒ったような口調に変化すると共
に、音量も始めと比較して小さく変化することになる。

【００５８】その他の構成については、上述した第１の
実施形態と同様であるため重複する説明は省略する。

【００５９】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００６０】［第３の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第３の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００６１】上述した第１及び第２の実施形態におい
て、開始タグ＜morphing・・・・＞に含まれる属性情報
は、韻律を連続的に変化させるべき対象と、その対象に
対する始点の属性値および、終点の属性値を記述してい
た。これに対して、第３の実施形態では、開始タグ＜mo
rphing・・・・＞内には、始点および終点に変化対象と
なるもののラベルを付ける。

【００６２】図８は、第３の実施形態においてテキスト
に付与されたタグの例を示す図であり、タグ間に挟まれ
るテキスト自体は第２の実施形態の場合の図７と同様で
ある。そして、本実施形態では、変化の対象を感情(exp
ress)とする。そのため、始点及び終点ではそれぞれ、e
xpressstartとexpressendというように始点と終点に変
化対象のラベルを記述している。第３の実施形態におけ
る音声合成装置の構成は第１の実施形態と同様な構成で
あるため重複する説明は省略する。次に、第１の実施形
態と第３の実施形態の相違について説明する。

【００６３】まず、第１の実施形態と同様にテキスト解
析部１０５において、入力されたタグ付きテキスト１０
３のフォーマットおよびヘッダ部の情報に基づいて、当
該テキストの種類、内容等を解析して、これらに関する
情報を取得する。そして、タグ解析部１０５では、当該
テキスト内に埋め込まれているタグがどのような種類か
を判定する。タグ属性解析部１０７では、タグ内に記述
されている属性および属性値がどのようなものであるか
を解析する。本実施形態において解析するのは、始点と
終点のみであり、その始点と終点がどのような対象であ
るかもタグ属性解析部１０７で調べる。音声合成部１０
９は、タグ属性解析部１０７により得られた属性値に基
づいて補間を行ない、その結果得られる音声波形に従っ
て、当該テキストの内容に対応する合成音声を生成す
る。

【００６４】タグ内に埋め込まれる属性情報は、第１の
実施形態と同様な構成であるため重複する説明は省略す
る。第１の実施形態と第３の実施形態の相違は、開始タ
グ＜morphing・・・・・＞内の属性として、韻律を連続
的に変化させるべき対象である感情(express)、始点(st
art)における感情、並びに終点(end)における感情を記
述するに際して、係る始点に対してexpressstartという
変化対象のラベルを付け、係る終点に対してexpressend
という変化対象のラベルを付けることである。また、本
実施形態では、このようなタグの書式の変化に応じて、
例外処理も一部異なるため、この点について図９を参照
して説明する。

【００６５】図９は、第３の実施形態における音声合成
装置の制御処理を示すフローチャートであり、同装置の
不図示のＣＰＵが行なう処理の手順を表わす。

【００６６】同図において、テキスト入力部１０４によ
って入力されたタグ付きテキスト１０３に対して、テキ
スト解析部１０５、タグ解析部１０６、タグ属性解析部
１０７によるテキスト解析、タグ解析、並びにタグ属性
解析を行なう（ステップＳ９０１〜ステップＳ９０
３）。

【００６７】開始タグ＜morphing・・・・＞内の属性、
始点、終点が存在するかどうか調べる。即ち、始点およ
び終点の属性がどちらか一方でもあるかどうかを調べる
（ステップＳ９０４）。始点及び終点共に属性値がなけ
れば、そのタグの前文で読み上げられていた音声に従い
読み上げる（ステップＳ９０５）。次に始点に対する属
性値が存在するかについて調べ、始点に属性値が存在し
なければ、終点の属性値を用いる（ステップＳ９０６、
ステップＳ９０７）。逆に、始点の属性値が存在し終点
の属性値がない場合は、始点の属性値に従い読み上げる
（ステップＳ９０８、ステップＳ９０９）。そして、始
点及び終点共に属性値が存在しており、属性が異なって
いなければ属性値により補間を行ない、補間によって得
られた音声波形に従って合成音声を出力する（ステップ
Ｓ９１０、ステップＳ９１２）。

【００６８】始点及び終点における属性値は、韻律を連
続的に変化させるべき対象がボリュームであれば、始点
はボリューム値、終点もボリューム値でなければならな
い。始点がボリューム値、終点が感情等というように、
始点と終点とで属性値の種類が異なる場合は、始点の属
性値を用いる（ステップＳ９１１）。このタグの属性値
が間違っていた場合における音声出力の優先度の順位付
けは、（始点の順位）＞（終点の順位）、とする。

【００６９】その他の形態については、第１の実施形態
と同様な構成であるため重複する説明は省略する。

【００７０】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００７１】［第４の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第４の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００７２】第１乃至第３の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第４の実施形態で
は、モーフィング変化のための属性も付加できることを
特徴とする。その例を図１０に示す。

【００７３】図１０は、第４の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、開始タグ＜morphing・・・・＞内の属性に、更にモ
ーフィングの変化率のための属性情報を設定する。モー
フィングの変化率を表わす属性値としては、線形、非線
形、ログ等の変化に用いる関数のタイプを、functionに
記述する。

【００７４】そして、本実施形態では、タグ属性解析部
１０７によってタグを解析する際、対象、始点、終点だ
けではなく、モーフィングの変化率を表わす属性値に従
って、モーフィング変化の属性も解析する。解析の結
果、function欄に線形、非線形、ログ等の属性値が記述
されていれば、その属性値で与えられた変化率に従って
補間を行ない、補間によって得られた合成波形に従って
合成音声を出力する。一方、この属性値が記述されてい
なければ、モーフィングアルゴリズムで予め決められた
変化方法に従って補間を行なう。

【００７５】その他の形態については、第１の実施形態
と同様な構成であるため重複する説明は省略する。

【００７６】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００７７】［第５の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第５の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００７８】第１乃至第３の実施形態において、モーフ
ィングの変化は一定すなわち、モーフィングアルゴリズ
ム自体の変化率に依存していたが、第５の実施形態で
は、モーフィング変化のための属性をタグ内に個々に付
加できることを特徴とする。その例を図１１に示す。

【００７９】図１１は、第５の実施形態においてテキス
トに付与されたタグの例を示す図であり、本実施形態で
は、＜morphing・・・＞・・・・＜/morphing＞タグ内
で囲まれたテキスト内に、さらにモーフィング変化のた
めの中間タグを挿入する。

【００８０】そして、本実施形態においては、タグ解析
部１０６によってタグが解析される際、＜morphing＞タ
グだけではなく、モーフィング変化を発生させる中間タ
グも解析される。中間タグは、＜rate value ="＊．
＊"/＞のようなタグを用い、value属性部分に変化率０
乃至１の割合で記入する。そして、韻律を連続的に変化
させるべきテキスト内の所望位置に個々に埋め込む。こ
れにより、補間後の実際の合成音声の出力に際して、図
１２に例示する如く、更に複雑な韻律の変化を起こすこ
とが可能となる。

【００８１】また、第４の実施形態で用いられたモーフ
ィング変化のための関数functionが指定されていれば、
＜rate/＞タグから次の＜rate/＞タグへの補間関数は、
先に指定された関数が用いられる。

【００８２】その他の形態については、第１の実施形態
と同様な構成であるため重複する説明は省略する。

【００８３】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００８４】［第６の実施形態］次に、上述した第１乃
至第３の実施形態に係る音声合成装置を基本とする第６
の実施形態を説明する。以下の説明においては、第１の
実施形態と同様な構成については重複する説明を省略
し、本実施形態における特徴的な部分を中心に説明す
る。

【００８５】上述した各実施形態では、開始タグ＜morp
hing・・・＞の中に始点及び終点の属性値を設定した
が、本実施形態では、図１３のように終点の属性値をタ
グの終わり部分に設定する。

【００８６】図１３は、第６の実施形態においてテキス
トに付与されたタグの例を示す図である。

【００８７】第１の実施形態のようなタグ構成であれ
ば、開始タグ＜morphing・・・＞内に始点の属性および
対象として、＜morphing type= "express" start="hap
py"＞を記述すると共に、終了タグには、＜/morphing
end="angry"＞のように終点の属性を記述した。これに
対して、本実施形態では、開始タグには、＜morphingex
pressstart="happy"＞、終了タグには、＜/morphing e
xpressend="angry"＞というように記述する。また、本
実施形態において第４の実施形態のような補間関数を指
定する場合は、開始タグに記述する。

【００８８】その他の形態については、第１の実施形態
と同様な構成であるため重複する説明は省略する。

【００８９】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００９０】［第７の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第７の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００９１】本実施形態では、上述した各実施形態にお
いて、タグ内の属性が始点と終点とで異なっていた場合
には、エラーと判断して処理を行なわない。

【００９２】即ち、第１の実施形態におけるタグ構成に
当てはめて説明すれば、＜morphingtype= "express" st
art="happy" end="10"＞・・・・・・＜/morphing ＞と
いうように、startとendの属性が異なる場合、エラーと
して何もしない。また、対象と始点及び終点の属性が違
っていた場合もエラーとして何もしない。ここで、始点
と終点がない場合やどちらか一方でもない場合は、第１
の実施形態と同様に処理する。第３の実施形態では、こ
こで、始点と終点がない場合やどちらか一方でもない場
合は第３の実施形態と同様に処理する。その他の形態に
ついては、第１乃至第５の実施形態と同様な構成である
ため重複する説明は省略する。

【００９３】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００９４】［第８の実施形態］次に、上述した第１の
実施形態に係る音声合成装置を基本とする第８の実施形
態を説明する。以下の説明においては、第１の実施形態
と同様な構成については重複する説明を省略し、本実施
形態における特徴的な部分を中心に説明する。

【００９５】上述した各実施形態においては、タグ内に
設定される属性情報のうち何れかが存在しない場合であ
っても合成音声を出力していたが、本実施形態では、始
点および終点の属性が異なっていた場合や、始点および
終点と対象の属性が異なっていた場合も、エラーとして
何も処理しない。

【００９６】その他の構成については、第１乃至第７の
実施形態と同様な構成であるため重複する説明は省略す
る。

【００９７】このような構成の本実施形態によっても、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【００９８】従って、上述した各実施形態によれば、出
力対象の入力文のうち所望の範囲をタグで囲むことによ
り、合成音声の出力に際して、モーフィングのように韻
律を連続的に変化させることができ、従来のような離散
的な音声発音となるテキスト読み上げの機能を、聞き手
に対してより自然なものにすることができる。

【００９９】

【他の実施形態】上述した各実施形態を例に説明した本
発明は、複数の機器から構成されるシステムに適用して
も良いし、また、一つの機器からなる装置に適用しても
良い。

【０１００】尚、本発明は、前述した各実施形態におい
て説明したフローチャートの機能を実現するソフトウェ
ア・プログラムを、上述した音声合成装置として動作す
るシステム或いは装置に直接或いは遠隔から供給し、そ
のシステム或いは装置のコンピュータが該供給されたプ
ログラムコードを読み出して実行することによっても達
成される場合を含む。その場合、プログラムの機能を有
していれば、形態は、プログラムである必要はない。

【０１０１】従って、本発明の機能処理をコンピュータ
で実現するために、該コンピュータにインストールされ
るプログラムコード自体も本発明を実現するものであ
る。つまり、本発明のクレームでは、本発明の機能処理
を実現するためのコンピュータプログラム自体も含まれ
る。

【０１０２】その場合、プログラムの機能を有していれ
ば、オブジェクトコード、インタプリタにより実行され
るプログラム、ＯＳに供給するスクリプトデータ等、プ
ログラムの形態を問わない。

【０１０３】プログラムを供給するための記録媒体とし
ては、例えば、フロッピー（登録商標）ディスク、ハー
ドディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ
−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発
性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，
ＤＶＤ−Ｒ）などがある。

【０１０４】その他、プログラムの供給方法としては、
クライアントコンピュータのブラウザを用いてインター
ネットのホームページに接続し、該ホームページから本
発明のコンピュータプログラムそのもの、もしくは圧縮
され自動インストール機能を含むファイルをハードディ
スク等の記録媒体にダウンロードすることによっても供
給できる。また、本発明のプログラムを構成するプログ
ラムコードを複数のファイルに分割し、それぞれのファ
イルを異なるホームページからダウンロードすることに
よっても実現可能である。つまり、本発明の機能処理を
コンピュータで実現するためのプログラムファイルを複
数のユーザに対してダウンロードさせるＷＷＷ(World W
ide Web)サーバも、本発明のクレームに含まれるもので
ある。

【０１０５】また、本発明のプログラムを暗号化してＣ
Ｄ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所
定の条件をクリアしたユーザに対し、インターネットを
介してホームページから暗号化を解く鍵情報をダウンロ
ードさせ、その鍵情報を使用することにより暗号化され
たプログラムを実行してコンピュータにインストールさ
せて実現することも可能である。

【０１０６】また、コンピュータが、読み出したプログ
ラムを実行することによって、前述した実施形態の機能
が実現される他、そのプログラムの指示に基づき、コン
ピュータ上で稼動しているＯＳなどが、実際の処理の一
部または全部を行ない、その処理によっても前述した実
施形態の機能が実現され得る。

【０１０７】さらに、記録媒体から読み出されたプログ
ラムが、コンピュータに挿入された機能拡張ボードやコ
ンピュータに接続された機能拡張ユニットに備わるメモ
リに書き込まれた後、そのプログラムの指示に基づき、
その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ
などが実際の処理の一部または全部を行ない、その処理
によっても前述した実施形態の機能が実現される。

【０１０８】

【発明の効果】以上説明したように、本発明によれば、
出力対象のテキストのうち、所望の範囲の韻律を連続的
且つ容易に変化させることができる。

【図面の簡単な説明】

【図１】第１の実施形態における音声合成装置のブロッ
ク構成図である。

【図２】テキストに付与されたタグの例を示す図であ
る。

【図３】第１の実施形態における音声合成装置の制御処
理を示すフローチャートである。

【図４】合成音声の出力に際して発話スピードを補間す
る例を説明する図である。

【図５】合成音声の出力に際して音量を補間する例を説
明する図である。

【図６】合成音声の出力に際して話者数を補間する例を
説明する図である。

【図７】第２の実施形態においてテキストに付与された
タグの例を示す図である。

【図８】第３の実施形態においてテキストに付与された
タグの例を示す図である。

【図９】第３の実施形態における音声合成装置の制御処
理を示すフローチャートである。

【図１０】第４の実施形態においてテキストに付与され
たタグの例を示す図である。

【図１１】第５の実施形態においてテキストに付与され
たタグの例を示す図である。

【図１２】第５の実施形態における合成音出力時の韻律
の変化の様子を説明する図である。

【図１３】第６の実施形態においてテキストに付与され
たタグの例を示す図である。

【符号の説明】

１０１：テキスト作成部，１０２：タグ作成部，１０３：タグ付きテキスト，１０４：テキスト入力部，１０５：テキスト解析部，１０６：タグ解析部，１０７：タグ属性解析部，１０８：言語処理部，１０９：音声合成部，１１０：言語辞書，１１１：韻律・波形辞書，

Claims

【特許請求の範囲】

【請求項１】入力されたテキストに対応する合成音声
を出力するに際して、そのテキストに含まれる所定の識
別子が付与された範囲の韻律が変化するように、音声波
形を合成する音声合成方法であって、出力対象のテキストのうち、韻律を連続的に変化させよ
うとする所望の範囲を、韻律の変化の態様を表わす属性
情報を含む所定の識別子を用いて設定する設定工程と、前記設定工程にて設定された識別子付きのテキストを対
象として、前記所定の識別子及びその中に含まれる属性
情報の種類を認識する認識工程と、前記識別子付きのテキストのうち、前記所望の範囲内の
テキストに対応する標準音声波形を、前記認識工程にお
ける認識結果に従って補間することにより、前記所定の
識別子に含まれる属性情報に従って、韻律が連続的に変
化する音声波形を合成する音声合成工程と、を有するこ
とを特徴とする音声合成方法。
【請求項２】前記所定の識別子に含まれる属性情報
は、その識別子によって設定された範囲に関して、その
範囲の開始位置における韻律の変化の態様と、終了位置
における韻律の変化の態様とを表わすことを特徴とする
請求項１記載の音声合成方法。
【請求項３】前記属性情報が表わす韻律の変化の態様
は、音量の変化、発話者の変化、発話者数の変化、感情
の変化、発話スピードの変化、並びに基本周波数の変化
のうち、少なくとも何れかであることを特徴とする請求
項１または請求項２記載の音声合成方法。
【請求項４】前記音声合成工程では、前記所定の識別
子に含まれる識別子によって設定された範囲の開始位置
及び終了位置に関する属性情報と、その開始位置以前の
韻律の態様とに基づいて、前記所望の範囲内のテキスト
に対応する標準音声波形を補間することを特徴とする請
求項１記載の音声合成方法。
【請求項５】前記音声合成工程では、前記開始位置及
び終了位置に関する属性情報として設定されている発話
スピードを表わす値と、前記開始位置以前の発話スピー
ドを表わす値との比率に基づいて、前記所望の範囲内の
テキストに対応する標準音声波形を補間することを特徴
とする請求項４記載の音声合成方法。
【請求項６】前記音声合成工程では、前記開始位置及
び終了位置に関する属性情報として設定されている音量
を表わす値と、前記開始位置以前の音量を表わす値との
比率に基づいて、前記所望の範囲内のテキストに対応す
る標準音声波形を補間することを特徴とする請求項４記
載の音声合成方法。
【請求項７】入力されたテキストに対応する合成音声
を出力するに際して、そのテキストに含まれる所定の識
別子が付与された範囲の韻律が変化するように、音声波
形を合成する音声合成装置であって、出力対象のテキストのうち、韻律を連続的に変化させよ
うとする所望の範囲を表わすところの、韻律の変化の態
様を表わす属性情報を含む所定の識別子が設定設定され
た識別子付きのテキストを対象として、該所定の識別子
及びその中に含まれる属性情報の種類を認識する認識手
段と、前記識別子付きのテキストのうち、前記所望の範囲内の
テキストに対応する標準音声波形を、前記認識手段によ
る認識結果に従って補間することにより、前記所定の識
別子に含まれる属性情報に従って、韻律が連続的に変化
する音声波形を合成する音声合成手段と、を備えること
を特徴とする音声合成装置。
【請求項８】音声合成による出力対象のテキストのう
ち、所望の範囲の韻律を変化させるべく所定の識別子が
付与された音声合成用テキスト構造であって、前記所定の識別子には、韻律を連続的に変化させる際の
変化の態様を表わす属性情報が含まれることを特徴とす
る音声合成用テキスト構造。
【請求項９】請求項１乃至請求項６の何れかに記載の
音声合成方法を、コンピュータによって実現可能な動作
指示をなすことを特徴とするコンピュータ・プログラ
ム。
【請求項１０】請求項７記載の音声合成装置として、
コンピュータを動作させる指示をなすことを特徴とする
コンピュータ・プログラム。