JP2003302992A

JP2003302992A - 音声合成方法及び装置

Info

Publication number: JP2003302992A
Application number: JP2002109439A
Authority: JP
Inventors: Toshiaki Fukada; 俊明深田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-04-11
Filing date: 2002-04-11
Publication date: 2003-10-24

Abstract

(57)【要約】【課題】入力テキストの言語解析結果と大局的な属性情
報から、テキスト内における局所的な属性情報を決定
し、この促成情報を用いて合成音声を生成することによ
り、より自然な合成音声を生成する。【解決手段】言語処理部２０１は、テキストを言語解析
し、形態素、品詞、読み、アクセントなどの言語解析結
果を求める。このテキストには、合成音声の感情及び／
又は発話スタイルを示す大局的な属性情報が含まれてお
り、大局的な属性情報が設定される。局所的感情・発話
スタイル決定部２０２は、言語解析結果と設定された大
局的な属性情報とに基づいて、テキスト内の各アクセン
ト句の感情及び／又は発話スタイルを示す局所的な属性
情報を決定する。音声合成部２０３は、言語解析結果と
局所的な属性情報に基づいて合成音声信号を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、感情や発話スタイ
ルを制御可能な音声合成方法およびその装置、並びに該
音声合成方法をコンピュータによって実施するためのプ
ログラムを記憶したコンピュータ可読媒体に関する。

【０００２】

【従来の技術】近年、任意の文字系列を音韻系列に変換
し、その音韻系列を所定の音声規則合成方式に従って合
成音声に変換する音声合成装置が開発されている。一般
に音声合成装置では、怒り、悲しみなどの感情のない合
成音声が生成される。

【０００３】

【発明が解決しようとする課題】しかしながら、音声合
成装置の適用範囲を拡大していく上で、怒り、悲しみ、
楽しいなどの感情や、アニメ調、ＤＪ調、アナウンサ調
などの発話スタイルなど、様々な合成音声を高音質に生
成できることが望ましい。これまでにも感情や発話スタ
イルなどを適応させた合成音声を生成する技術はいくつ
か開発されてきている。しかしながら、この種の技術に
おいては、例えば、特開平5-100692や特開平7-92986な
どに記載されているように、一般に、ある感情や発話ス
タイルに対応して感情のない合成音声の基本周波数や継
続時間長を一様に変化させたり、スペクトルや波形を所
望の感情や発話スタイルのものに一様に変更させること
が多い。

【０００４】その結果、得られる合成音声は一本調子で
不自然なものであった。これに対して、実際に人が発声
する音声は、例えば、怒りであっても、怒りが強く現れ
る部分や全く現れない部分など、単語の出現位置、持つ
意味、品詞などのコンテキストによって変化している。
すなわち、より自然な感情や発話スタイルを表現するた
めには、これらのコンテキストを考慮して音声合成を行
う必要がある。

【０００５】本発明は上記の課題に鑑みてなされたもの
であり、感情及び／又は発話スタイル等をきめ細かく制
御可能とし、より自然な合成音声を生成可能とすること
を目的とする。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に本発明の音声合成方法は以下のような工程を備える。
即ち、テキストに基づいて音声信号を生成する音声合成
方法であって、テキストに関して、合成音声の感情及び
／又は発話スタイルを示す大局的な属性情報を設定する
設定工程と、前記テキストを言語解析し、言語解析結果
を求める解析工程と、前記言語解析結果と前記設定され
た大局的な属性情報とに基づいて、前記テキスト内の各
部の感情及び／又は発話スタイルを示す局所的な属性情
報を決定する決定工程と、言語解析結果と前記局所的な
属性情報に基づいて合成音声信号を生成する生成工程と
を備える。

【０００７】また、上記目的を達成するために本発明の
音声合成装置は以下のような構成を備える。即ち、テキ
ストに基づいて音声信号を生成する音声合成装置であっ
て、テキストに関して、合成音声の感情及び／又は発話
スタイルを示す大局的な属性情報を設定する設定手段
と、前記テキストを言語解析し、形態素、品詞、読み、
アクセントなどの言語解析結果を求める解析手段と、前
記言語解析結果と前記設定された大局的な属性情報とに
基づいて、前記テキスト内の各部の感情及び／又は発話
スタイルを示す局所的な属性情報を決定する決定手段
と、言語解析結果と前記局所的な属性情報に基づいて合
成音声信号を生成する生成手段とを備える。

【０００８】

【発明の実施の形態】以下、添付図面を参照して本発明
の好適な実施の形態を詳細に説明する。

【０００９】＜第１実施形態＞図１は、本発明の第１実
施形態に係る音声合成装置の構成を示すブロック図であ
る。

【００１０】図１において、１０１はＣＰＵであり、Ｒ
ＯＭ１０２に記憶された制御プログラム或いは外部記憶
装置１０４からＲＡＭ１０３にロードされた制御プログ
ラムに従って、例えば、本実施形態による音声合成用波
形辞書の作成処理における各種制御を行う。１０２はＲ
ＯＭであり、各種パラメータやＣＰＵ１０１が実行する
制御プログラムなどを格納している。１０３はＲＡＭで
あり、ＣＰＵ１０１による各種制御の実行時に作業領域
を提供するとともに、ＣＰＵ１０１により実行される制
御プログラムを記憶する。

【００１１】１０４はハードディスク、フレキシブルデ
ィスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、メモリカード
等の外部記憶装置である。この外部記憶装置１０４がハ
ードディスクの場合には、ＣＤ−ＲＯＭやフレキシブル
ディスク等からインストールされた各種プログラムが記
憶される。

【００１２】１０５はキーボード、マウス、ペン、スイ
ッチ、タッチパネルなどの補助入力装置であり、読み上
げ対象のテキストの入力などを行う。１０６は液晶やＣ
ＲＴ等のディスプレイで、ＣＰＵ１０１の制御により各
種データの表示を行う。１０７はスピーカ等の補助出力
装置であり、音声合成によりテキストから変換された音
声信号(電気信号)を可聴音である音声に変換して出力す
る。１０８は上記各部を接続するバスである。

【００１３】図２は、第１実施形態による音声合成方法
の処理を説明する流れ図である。なお、図２に示される
各部（言語処理部２０１、局所的感情・発話スタイル決
定部、音声合成部２０３）の機能は、ＣＰＵ１０１が所
定の制御プログラムを実行することにより実現される。
また、言語解析辞書２０４、感情・発話スタイルモデル
２０５、音声合成辞書２０６は外部記憶装置１０４によ
って提供されるものとする。

【００１４】まず、大局的な感情・発話スタイルが指定
されたテキストが言語処理部２０１に入力される。入力
されたテキストは、例えば、（感情・発話スタイル）：
（テキスト）の形式であるとすると、「怒：一体何時だ
と思っているんだ。」、「ＤＪ：この番組はABC株式会
社の提供でお送り致します。」などとなる。以下では、
「怒：一体何時だと思っているんだ。」が入力された場
合についての処理を説明する。

【００１５】言語処理部２０１では、まず、入力から音
声合成対象のテキスト部分である「一体何時だと思って
いるんだ。」を取り出す。次に、言語解析辞書を２０４
用いて、取り出したテキスト部分について言語解析を行
う。言語解析結果の例を図３に示す。この例では、アク
セント句単位ごとに、読み、アクセント型、各アクセン
ト句を構成する形態素列に対する品詞が言語解析結果と
して得られている。ここで、言語処理部２０１は、一般
に用いられている音声合成用のテキスト解析方法を利用
することによって実現できる。

【００１６】局所的感情・発話スタイル決定部２０２で
は、図３に示される言語解析結果と大局的な感情・発話
スタイルを入力とし、局所的感情・発話スタイルモデル
２０５を用いて、局所的な感情・発話スタイルを決定
し、出力する。本実施形態では、入力されるテキストに
大局的な感情（本例では「怒」）が明示的に記載されて
おり、これを大局的な属性情報に用いる。但し、ユーザ
が不図示の入力装置を用いて、マニュアルで大局的な属
性情報を設定するなど、他の方法で大局的な属性情報を
設定するようにしてもよい。

【００１７】局所的感情・発話スタイル決定部２０２の
出力の例としては、「通常：イッタイ／怒：ナ↓ンジダ
ト／通常：オモ↓ッテイルンダ」である。これは、「一
体何時だと思っているんだ」というテキストを怒りの感
情で音声合成するという言語処理部２０１への入力に対
して、テキスト全体を一本調子に怒りの感情で音声合成
するのではなく、「何時だと」という部分に対して怒り
の感情を与え、「一体」および「思っているんだ」に対
しては、感情を持たない通常の音声合成を行うことを表
している。すなわち、局所的に感情・発話スタイルが付
与される。なお、この出力例における矢印↓はアクセン
トが高から低に変化する場所を示す記号である。

【００１８】次に音声合成部２０３では、局所的感情・
発話スタイル決定部２０２の出力である、局所的感情・
発話スタイル情報、読み、アクセントの情報から、音声
合成辞書２０６を用いて合成音声を生成する。

【００１９】音声合成辞書２０６は、基本周波数生成モ
デル、継続時間長推定モデル、パワー推定モデルなどの
韻律モデルと、音声波形やパラメータ素片などの音声モ
デルを含み、感情や発話スタイル別に用意されている。
音声合成部２０３は、局所的感情・発話スタイル決定部
２０２から得られた局所的感情・発話スタイルに従って
波形生成に用いる音声合成辞書を切り替えることによ
り、合成音声の生成を行うことができる。

【００２０】次に、局所的感情・発話スタイル決定部２
０２および感情・発話スタイルモデル２０５の実現方法
について説明する。

【００２１】まず、感情・発話スタイルモデル２０５の
作成方法について説明する。モデルの作成を行うため
に、事前に学習データを準備する必要がある。様々な感
情・発話スタイルを持つ音声データを用意し、これに対
して大局的な感情・発話スタイルおよび局所的な感情・
発話スタイルの属性情報を自動もしくは人手によって付
与する。

【００２２】ここで、大局的な感情・発話スタイルの属
性情報は、一般的には文を単位として付与するが、他に
も句、段落、文章全体などの単位に対して付与してもよ
い。また、局所的な感情・発話スタイルの属性情報は、
音素、音節、モーラ、形態素、単語、文節、アクセント
句、ポーズ句、文などを単位として付与する。但し、局
所的な属性情報は、大局的な属性情報よりも長さが短い
言語単位に対して付与する。

【００２３】感情・発話スタイルモデル２０５は、大局
的な感情・発話スタイルの属性情報および言語解析結果
の情報から局所的な感情・発話スタイルの属性情報を推
定する予測モデルである。学習データの例を図４に示
す。この例では、局所的な感情・発話スタイルの単位は
アクセント句とし、予測モデルに用いる言語解析結果情
報として、先行、当該、後続のアクセント句の品詞情報
を用いている。

【００２４】なお、１つのアクセント句に複数の品詞が
割り当てられる場合には、例えば最初の品詞情報を用い
るなどにより代表となる品詞を１つ選ぶ。また、感情・
発話スタイルの属性としては、怒り、楽しい、悲しいな
どの感情に関するもの、ＤＪ調、アナウンサ調、アニメ
調、朗読調など発話スタイルに関するものとする。大局
的な属性情報と局所的な属性情報とで同じ属性を用いて
もよいし、局所的な属性情報に対しては、熱い怒り、冷
たい怒りなどより詳細に定義された属性を用いてもよ
い。

【００２５】以上のような学習データを用いて予測モデ
ルを作成する。予測モデルには、ニューラルネットワー
ク、N-gramモデル、決定木などによって作成することが
できる。例えば、大局的感情・発話スタイルごとの予測
モデルを多層パーセプトロン（ＭＬＰ）型のニューラル
ネットワークによって作成する場合には、例えば図５の
ような構成とすることができる。ここで、入力層には先
行、当該、後続のアクセント句に対する品詞情報が入力
される。例えば、図４の最初の例では、入力層における
先行品詞が文頭、当該品詞が副詞、後続品詞が名詞の各
ノードを１にし、それ以外のノードには０とする。ま
た、出力層は通常のノードを１にし、それ以外のノード
は０とする。

【００２６】大局的感情・発話スタイルが怒である学習
データに対して、同様の入力を行い、バックプロパゲー
ションアルゴリズムなど一般的な学習アルゴリズムによ
ってニューラルネットワークの学習を行う。同様に、他
の感情や発話スタイルについてもそれぞれ図５と同じ構
成のニューラルネットワークを用いて学習を行うことに
よって、大局的感情・発話スタイル別に３アクセント句
の品詞情報から局所的感情・発話スタイルを推定する予
測モデルを作成することができる。局所的感情・発話ス
タイル決定部２０２は、大局的感情・発話スタイルに応
じた予測モデルを選択し、この予測モデルに対して、言
語解析結果の先行、当該、後続アクセント句の品詞情報
を入力した場合に、出力層において最大値となるノード
を局所的感情・発話スタイルとする。

【００２７】以上説明したように、第１実施形態によれ
ば、入力テキストの言語解析結果と感情や発話スタイル
に関する大局的な属性情報とに基づいて、入力テキスト
内における感情や発話スタイルの局所的な属性情報を決
定し、この情報を用いて合成音声を生成する。このた
め、実際に人が発声する感情や発話スタイルに近い、自
然な合成音声を生成することが可能となる。

【００２８】＜第２実施形態＞第１実施形態では、予測
モデルの入力として、先行、当該、後続の３アクセント
句に対する品詞情報を用いていたが、これらの情報に加
えて、先行のアクセント句に対して予測された局所的感
情・発話スタイルを用いるようにしてもよい。この場合
の学習データの例を図６に、ニューラルネットワークの
構成を図７にそれぞれ示す。

【００２９】先行、当該、後続の３つのアクセント句に
対する品詞情報と先行の感情・発話スタイルに対する属
性を第１実施形態と同様に入力層の各ノードに入力し、
当該アクセント句の感情・発話スタイルに対する属性を
出力層の各ノードに入力することによって、ニューラル
ネットワークの学習を行う。局所的感情・発話スタイル
決定部２０２では、このようにして作成されたモデルを
感情・発話スタイルモデル２０５に対して、言語解析結
果から得られる３つのアクセント句の品詞情報と、先行
アクセント句に対して予測された局所的感情・発話スタ
イルを入力し、出力層において最大値を有するノードを
求めることによって当該アクセント句の局所的感情・発
話スタイルを得る。

【００３０】なお、入力層の先行アクセント句に対する
局所的感情・発話スタイルは、１もしくは０の離散的な
値でもよいし、出力層から得られる値をそのまま入力し
てもよい。例えば、第１の実施形態では、先行、当該、
後続という３アクセント句に対する品詞情報、すなわち
離散値（該当品詞のノードに１、それ以外には０）を入
力する。これに対する出力（出力層の各ノードにおける
出力値）は、連続値（小数値）となる。また、第２の実
施形態における先行アクセント句に対する入力は、この
連続値（すなわち、先行アクセント句に関する入力を行
った際に出力層から得られる値）をそのまま用いること
ができる。ここで、先行アクセント句に関する入力を行
った際に出力層から得られる値を、最大値のノードのも
のを１、それ以外を０などの操作を行うことによって、
１もしくは０の離散値にすることもできる。以上説明し
たように、第２実施形態によれば、先行するアクセント
句にたいして予測された品詞をも考慮に入れるので、よ
り自然な合成音声の生成が可能である。

【００３１】＜第３実施形態＞上記第１及び第２実施形
態では、局所的感情・発話スタイルの予測モデルとし
て、中間層が１層のＭＬＰ型のニューラルネットワーク
を用いたが、中間層を持たないものあるいは２層以上の
ネットワークを用いてもよい。また、ＭＬＰ型の代わり
に、リカレントニューラルネットワーク、双方向リカレ
ントニューラルネットワークなどを用いてもよい。

【００３２】＜第４実施形態＞また、上記第１及び第２
実施形態では、局所的感情・発話スタイルの予測モデル
として、ニューラルネットワークを用いたが、N-gramモ
デルに基づく方法によって予測を行うこともできる。

【００３３】例えば、先行アクセント句の品詞情報およ
び当該アクセント句の品詞情報ｃ_t- ₁（１≦ｔ≦Ｎ、Ｎ
は入力テキストに対するアクセント句の総数）を用い
て、当該アクセント句の局所的感情・発話スタイルｌ^_t
を求めることを考える。これは、局所的感情・発話スタ
イルの集合をＬ＝｛ｌ₁,…,ｌ_J｝（Ｊは局所的感情・発
話スタイルの総数）としたとき、各感情・発話スタイル
ｌ_jに対する品詞情報ｃ_t _-1およびｃ_tの条件付き確率Ｐ
_gi（ｌ_j｜ｃ_t-1,ｃ_t）の最大値を求める。

【００３４】すなわち、

【数１】を求めることに得られる。ここで、ｇ_iは大局的感情・
発話スタイルの集合をＧ＝｛ｇ₁,…,ｇ_I｝（Ｉは大局的
感情・発話スタイルの総数）としたときの現在の入力テ
キストに対する大局的感情・発話スタイルを表す。

【００３５】なお、確率値Ｐ_gi（ｌ_j｜ｃ_t-1,ｃ_t）は、
学習データに出現する次式、

【数２】で求めることができる。なお、Ｆ_gi（ｌ_j,ｃ_t-1,
ｃ_t），Ｆ_gi（ｃ_t-1,ｃ_t）は、それぞれの頻度である。

【００３６】＜第５実施形態＞また、上記第４実施形態
では、先行および当該アクセント句の品詞情報を用いて
局所的感情・発話スタイルを求めていたが、これらの情
報に加えて、先行のアクセント句の局所的感情・発話ス
タイルを用いることもできる。

【００３７】この場合、次式、

【数３】を満たす局所的感情・発話スタイル系列を求めることに
より、全体の確率値が最も大きくなる最尤系列、

【数４】を得ることができる。なお、各記号や添字は実施形態４
と同じである。

【００３８】上式は、ＤＰマッチングなど種々の探索ア
ルゴリズムを利用することにより最尤系列Ｉ^は得られ
る。確率値Ｐ_gi（ｌ_j｜ｃ_t-1,ｃ_t,ｌ_t-1）は、学習デー
タに出現する次式、

【数５】で求めることができる。

【００３９】＜第６実施形態＞上記第１乃至第５実施形
態では、局所的感情・発話スタイルを求めるための言語
解析結果として、アクセント句に対する品詞情報を用い
ていたが、アクセント型、モーラ数、文内の位置、ポー
ズの有無、係り受け情報、単語ＩＤなど言語解析結果か
ら得られるいかなる情報の組み合わせを利用してもよ
い。また、コンテキストの長さも、先行もしくは先行と
後続に限らず、任意の長さもしくはこれらの組み合わせ
たものを用いてもよい。

【００４０】＜第７実施形態＞上記第１及び第２実施形
態では、大局的感情・発話スタイルごとに別のネットワ
ークを保持していたが、入力層に大局的感情・発話スタ
イルに関するノードを持つ１種類のネットワークを構成
してもよい。

【００４１】＜第８実施形態＞上記第１乃至第５実施形
態では、予測モデルを、ニューラルネットワークもしく
はN-gramモデルに基づいて作成していたが、C4.5など決
定木に基づくものや数量化I類などの手法を用いて作成
してもよい。

【００４２】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても達成される。この場合、
記憶媒体から読出されたプログラムコード自体が前述し
た実施形態の機能を実現することになり、そのプログラ
ムコードを記憶した記憶媒体は本発明を構成することに
なる。このようなプログラムコードを供給するための記
憶媒体としては、例えば、フレキシブルディスク、ハー
ドディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯ
Ｍ、ＣＤ−Ｒ、ＤＶＤ、磁気テープ、不揮発性のメモリ
カード、ＲＯＭなどを用いることができる。

【００４３】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行ない、その処理によって前述した実施形態の機能
が実現される場合も含まれる。

【００４４】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行ない、
その処理によって前述した実施形態の機能が実現される
場合も含まれる。

【００４５】

【発明の効果】以上説明したように本発明によれば、入
力テキストの言語解析結果と感情や発話スタイルに関す
る大局的な属性情報から、テキスト内における感情や発
話スタイルの局所的な属性情報を決定し、この情報を用
いて合成音声を生成することにより、より自然な合成音
声を生成することが可能となる。

【図面の簡単な説明】

【図１】本実施形態に係る音声合成装置のハードウェア
構成を示したブロック図である。

【図２】第１実施形態に係る音声合成方法の概要を説明
する流れ図である。

【図３】言語解析結果の例を示す図である。

【図４】言語解析結果の品詞情報を用いて局所的感情・
発話スタイルを決定する予測モデルの学習データの例を
示す図である。

【図５】言語解析結果の品詞情報を入力として局所的感
情・発話スタイルを決定するニューラルネットワークの
例を示す図である。

【図６】言語解析結果の品詞情報と先行の局所的感情・
発話スタイル情報を用いて局所的感情・発話スタイルを
決定する例を示す図である。

【図７】言語解析結果の品詞情報及び先行の局所的感情
・発話スタイル情報を入力として局所的感情・発話スタ
イルを決定するニューラルネットワークの例を示す図で
ある。

Claims

【特許請求の範囲】

【請求項１】テキストに基づいて音声信号を生成する
音声合成方法であって、テキストに関して、合成音声の感情及び／又は発話スタ
イルを示す大局的な属性情報を設定する設定工程と、前記テキストを言語解析し、言語解析結果を求める解析
工程と、前記言語解析結果と前記設定された大局的な属性情報と
に基づいて、前記テキスト内の各部の感情及び／又は発
話スタイルを示す局所的な属性情報を決定する決定工程
と、言語解析結果と前記局所的な属性情報に基づいて合成音
声信号を生成する生成工程とを備えることを特徴とする
音声合成方法。
【請求項２】前記テキストは、当該テキストに対する
感情及び／又は発話スタイルを示す情報を含み、前記設定工程は、前記テキストより前記情報を抽出し、
該情報に従って前記大局的な属性情報を設定することを
特徴とする請求項１に記載の音声合成方法。
【請求項３】前記決定工程は、前記テキストの各部に
ついて、当該部分とその前後の部分の品詞と、前記大局
的な属性情報とに基づいて、当該部分の局所的な属性情
報を決定することを特徴とする請求項１に記載の音声合
成方法。
【請求項４】前記決定工程は、前記テキストの各部に
ついて、当該部分とその前後の部分の品詞と、当該部分
よりも以前の部分に対して決定された局所的な属性情報
と、前記大局的な属性情報とに基づいて、当該部分の局
所的な属性情報を決定することを特徴とする請求項１に
記載の音声合成方法。
【請求項５】前記大局的な属性情報は、句、文、段
落、文章全体のいずれかを単位として付与されているこ
とを特徴とする請求項１乃至４のいずれかに記載の音声
合成方法。
【請求項６】前記局所的な属性情報は、音素、音節、
モーラ、形態素、単語、文節、アクセント句、ポーズ
句、文を単位として付与され、前記大局的な属性情報が
付与される言語単位よりも短い言語単位で付与されるこ
とを特徴とする請求項１乃至５のいずれかに記載の音声
合成方法。
【請求項７】前記決定工程は、予測モデルを参照して
前記局所的な属性情報を決定し、前記予測モデルを構築するための学習工程を更に備える
ことを特徴とする請求項１乃至６のいずれかに記載の音
声合成方法。
【請求項８】前記予測モデルは、ニューラルネットワ
ーク、N-gramモデル、決定木のいずれかの形態を有する
ことを特徴とする請求項７に記載の音声合成方法。
【請求項９】前記解析工程は、前記テキストを言語解
析し、形態素、品詞、読み、アクセントなどの言語解析
結果を求めることを特徴とする請求項１に記載の音声合
成方法。
【請求項１０】テキストに基づいて音声信号を生成す
る音声合成装置であって、テキストに関して、合成音声の感情及び／又は発話スタ
イルを示す大局的な属性情報を設定する設定手段と、前記テキストを言語解析し、形態素、品詞、読み、アク
セントなどの言語解析結果を求める解析手段と、前記言語解析結果と前記設定された大局的な属性情報と
に基づいて、前記テキスト内の各部の感情及び／又は発
話スタイルを示す局所的な属性情報を決定する決定手段
と、言語解析結果と前記局所的な属性情報に基づいて合成音
声信号を生成する生成手段とを備えることを特徴とする
音声合成装置。
【請求項１１】前記テキストは、当該テキストに対す
る感情及び／又は発話スタイルを示す情報を含み、前記設定手段は、前記テキストより前記情報を抽出し、
該情報に従って前記大局的な属性情報を設定することを
特徴とする請求項１０に記載の音声合成装置。
【請求項１２】前記決定手段は、前記テキストの各部
について、当該部分とその前後の部分の品詞と、前記大
局的な属性情報とに基づいて、当該部分の局所的な属性
情報を決定することを特徴とする請求項１０に記載の音
声合成装置。
【請求項１３】前記決定手段は、前記テキストの各部
について、当該部分とその前後の部分の品詞と、当該部
分よりも以前の部分に対して決定された局所的な属性情
報と、前記大局的な属性情報とに基づいて、当該部分の
局所的な属性情報を決定することを特徴とする請求項１
０に記載の音声合成装置。
【請求項１４】前記大局的な属性情報は、句、文、段
落、文章全体のいずれかを単位として付与されているこ
とを特徴とする請求項１０乃至１３のいずれかに記載の
音声合成装置。
【請求項１５】前記局所的な属性情報は、音素、音
節、モーラ、形態素、単語、文節、アクセント句、ポー
ズ句、文を単位として付与され、前記大局的な属性情報
が付与される言語単位よりも短い言語単位で付与される
ことを特徴とする請求項１０乃至１４のいずれかに記載
の音声合成装置。
【請求項１６】前記決定手段は、予測モデルを参照し
て前記局所的な属性情報を決定し、前記予測モデルを構築するための学習手段を更に備える
ことを特徴とする請求項１０乃至１５のいずれかに記載
の音声合成装置。
【請求項１７】前記予測モデルは、ニューラルネット
ワーク、N-gramモデル、決定木のいずれかの形態を有す
ることを特徴とする請求項１６に記載の音声合成装置。
【請求項１８】前記解析手段は、前記テキストを言語
解析し、形態素、品詞、読み、アクセントなどの言語解
析結果を求めることを特徴とする請求項１０に記載の音
声合成装置。
【請求項１９】請求項１乃至９のいずれかに記載の音
声合成方法をコンピュータに実行させるためのプログラ
ム。
【請求項２０】請求項１乃至９のいずれかに記載の音
声合成方法をコンピュータに実行させるためのプログラ
ムを格納した記憶媒体。