JP2003233388A

JP2003233388A - 音声合成装置および音声合成方法、並びに、プログラム記録媒体

Info

Publication number: JP2003233388A
Application number: JP2002031120A
Authority: JP
Inventors: Kazuhiro Miki; 一浩三木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2002-02-07
Filing date: 2002-02-07
Publication date: 2003-08-22

Abstract

(57)【要約】【課題】複数の感情変化を滑かに表現する音声を少数
の学習データで生成する。【解決手段】感情情報抽出部６は、入力テキストの意
味を認識して各種の感情強度を抽出する。感情制御情報
変換部７は、感情強度の経時変化である感情制御情報を
パラメータ変換情報に変換する。感情入力インタフェー
ス部９は、直接入力された感情制御情報を上記パラメー
タ変換情報に変換する。感情制御部８は、変換規則に従
ってパラメータ変換情報を参照パラメータに変換する。
韻律制御部３は、入力テキストに基づく韻律パターン
を、上記参照パラメータに基づいて感情韻律パターンに
変換する。パラメータ制御部４は、入力テキストに基づ
くパラメータを、上記参照パラメータに基づいて感情パ
ラメータに変換する。音声合成部５は、変換後の韻律パ
ターン及びパラメータに従って音素片を接続する。こう
して、連続して変化する感情を滑らかに表現できる合成
音声を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、感情のある音声
を合成して出力できる音声合成装置および音声合成方
法、並びに、音声合成プログラムを記録したプログラム
記録媒体に関する。

【０００２】

【従来の技術】従来、音声合成装置において、出力音声
に感情を付与する感情制御を行う第１の方法として、予
め設定された言葉を無感情および様々な感情で発話し、
それらの音声から得られる声の高さ,大きさ,発話速度,
スペクトル等の感情に関連するパラメータの変化をニュ
ーラルネットワークによって学習する方法(特開平７‐
７２９００号公報)がある。この方法によれば、無感情
音声のパラメータを感情音声のパラメータに変換して、
感情音声を合成することができるのである。

【０００３】また、感情制御を行う第２の方法として、
驚き,恐れ,嫌悪,怒り,幸福等の各感情毎にレジスタを設
置し、特定の文章や発話等から得られる感情喚起規則に
よって感情レジスタの値を変更させる方法(特開平７‐
１０４７７８号公報)がある。この方法によれば、任意
に設定できる感情の表出閾値を基準として、各感情値の
表出,非表出を決定して、感情を時間方向および強度方
向に離散的に制御することができる。

【０００４】

【発明が解決しようとする課題】しかしながら、上記従
来の出力音声に感情を付与する感情制御方法には、以下
のような問題がある。すなわち、上記第１の方法におい
ては、感情に関連するパラメータの学習にニューラルネ
ットワークが用いられている。ところが、ニューラルネ
ットワークの学習を行うためには、膨大な学習データと
学習時間が必要である。特に、感情音声に個人性を持た
せようとする場合等にはネットワークの再学習が必要と
なり、その度に話者毎の膨大な音声収録が必要であり、
膨大な時間と発話データとが必要になる。したがって、
上記第１の方法においては、ニューラルネットワーク学
習用の膨大な発話データと学習時間とが必要であるとい
う問題がある。

【０００５】また、上記第２の方法においては、各感情
のパラメータの表出閾値を任意に設定し、この設定され
た表出閾値に基づいて各感情の表出(オン)と非表出(オ
フ)とを決定するようにしている。ところが、表出(オ
ン)と非表出(オフ)とが決定された感情の組み合わせで
は、感情の微妙な変化やその感情が有する強度の動的な
変化を滑らかに表現することが難しいという問題があ
る。

【０００６】そこで、この発明の目的は、時々刻々変動
する複数の感情変化が滑らかに制御された音声を少数の
学習データで合成できる音声合成装置、および、音声合
成方法、並びに、音声合成プログラムを記録したプログ
ラム記録媒体を提供することにある。

【０００７】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明の音声合成装置は、入力された言語情報
から,感情の種類と各種類毎の強度とを含む感情情報を
抽出する感情情報抽出手段と、上記抽出された感情情報
の経時変化で成る感情制御情報を,音声合成用の韻律パ
ターンおよび音声合成用のパラメータを時間方向に連続
して制御するためのパラメータ変換情報に変換する感情
制御情報変換手段と、上記パラメータ変換情報に基づい
て,上記韻律パターンとパラメータとの制御を行う際に
参照される参照パラメータを生成する感情制御手段と、
上記参照パラメータを参照して上記韻律パターンを制御
する韻律制御手段と、上記参照パラメータを参照して上
記パラメータを制御するパラメータ制御手段と、上記制
御された韻律パターンおよびパラメータに基づいて合成
音声を生成する音声合成手段を備えて、上記入力された
言語情報から抽出された感情情報の連続変化に応じた合
成音声を生成することを特徴としている。

【０００８】上記構成によれば、入力された言語情報か
ら感情情報抽出手段で抽出された感情情報の経時変化で
成る感情制御情報が、感情制御情報変換手段によってパ
ラメータ変換情報に変換される。そして、上記パラメー
タ変換情報に基づいて、感情制御手段によって参照パラ
メータが生成される。そうすると、韻律制御手段および
パラメータ制御手段によって、上記参照パラメータを参
照して音声合成用の韻律パターンおよびパラメータが制
御される。そして、音声合成手段によって、上記制御さ
れた韻律パターンおよびパラメータに基づいて合成音声
が生成される。

【０００９】こうして、上記入力された言語情報から抽
出された感情情報の連続変化に基づいて生成された上記
参照パラメータが参照されて、複数の感情変化が滑らか
に制御された合成音声が生成される。

【００１０】また、１実施例では、上記第１の発明の音
声合成装置において、上記感情制御情報が入力されて,
この感情制御情報を上記パラメータ変換情報に変換する
感情入力インタフェース手段と、上記感情制御情報変換
手段からのパラメータ変換情報と上記感情入力インタフ
ェース手段からのパラメータ変換情報との何れか一方を
切り変え選択して,上記感情制御手段に出力するスイッ
チング手段を備えている。

【００１１】この実施例によれば、感情入力インタフェ
ース手段に上記感情制御情報が直接入力されると、上記
入力された感情制御情報が上記パラメータ変換情報に変
換される。そして、スイッチング手段によって、上記感
情制御情報変換手段からのパラメータ変換情報と上記感
情入力インタフェース手段からのパラメータ変換情報と
の何れか一方が切り変え選択されて、上記感情制御手段
に出力される。こうして、出力される合成音声に、外部
から入力された上記感情制御情報に基づいて感情を付与
することが可能になる。

【００１２】また、１実施例では、上記第１の発明の音
声合成装置において、感情強度の経時変化のパターンで
ある感情遷移パターンが複数登録されている感情遷移パ
ターンデータベースと、入力された指示に従って,上記
感情遷移パターンデータベースから感情遷移パターンを
選択すると共に,この選択された感情遷移パターンの形
状を変形して上記指示に基づく感情情報の経時変化で成
る上記感情制御情報を生成し,この生成された感情制御
情報を上記感情入力インタフェース手段に入力する感情
制御情報作成手段を備えている。

【００１３】この実施例によれば、感情制御情報作成手
段に入力された指示に従って、感情遷移パターンデータ
ベースから感情遷移パターンが選択され、この選択され
た感情遷移パターンの形状が変形されて上記感情制御情
報が生成されて上記感情入力インタフェース手段に入力
される。こうして、上記感情入力インタフェース手段に
入力される上記感情制御情報を外部からの指示に応じて
自動的に生成することによって、外部からの感情の付与
が非常に容易になる。

【００１４】また、１実施例では、上記第１の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは,入力されたテキストデータに対する言語
処理手段による言語処理で抽出された言語関連情報に基
づいて,韻律生成手段およびパラメータ生成手段によっ
て生成され、上記感情情報抽出手段による感情情報の抽
出は上記言語関連情報に基づいて行われ、上記音声合成
手段による上記合成音声の生成は,上記言語関連情報に
基づいて素片選択手段で選択された音声素片を接続して
行われるようになっている。

【００１５】この実施例によれば、テキスト音声合成装
置において、入力されたテキストデータに基づいて生成
された韻律パターンおよびパラメータが、上記テキスト
データから抽出された感情情報の連続変化に基づいて生
成された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。

【００１６】また、第２の発明の音声合成装置は、感情
の種類と各種類毎の強度とを含む感情情報の経時変化で
成る感情制御情報が入力されて,この感情制御情報を,音
声合成用の韻律パターンおよび音声合成用のパラメータ
を時間方向に連続して制御するためのパラメータ変換情
報に変換する感情入力インタフェース手段と、上記パラ
メータ変換情報に基づいて,上記韻律パターンとパラメ
ータとの制御を行う際に参照される参照パラメータを生
成する感情制御手段と、上記参照パラメータを参照して
上記韻律パターンを制御する韻律制御手段と、上記参照
パラメータを参照して上記パラメータを制御するパラメ
ータ制御手段と、上記制御された韻律パターン及びパラ
メータに基づいて合成音声を生成する音声合成手段を備
えて、上記入力された感情制御情報に応じた合成音声を
生成することを特徴としている。

【００１７】上記構成によれば、感情入力インタフェー
ス手段によって、入力された感情制御情報がパラメータ
変換情報に変換される。そして、上記パラメータ変換情
報に基づいて、感情制御手段によって参照パラメータが
生成される。そうすると、韻律制御手段およびパラメー
タ制御手段によって、上記参照パラメータを参照して音
声合成用の韻律パターンおよびパラメータが制御され
る。そして、音声合成手段によって、上記制御された韻
律パターンおよびパラメータに基づいて合成音声が生成
される。

【００１８】こうして、外部から直接入力された感情制
御情報に基づいて生成された上記参照パラメータが参照
されて、複数の感情変化が滑らかに制御された合成音声
が生成される。

【００１９】また、１実施例では、上記第２の発明の音
声合成装置において、感情強度の経時変化のパターンで
ある感情遷移パターンが複数登録されている感情遷移パ
ターンデータベースと、入力された指示に従って,上記
感情遷移パターンデータベースから感情遷移パターンを
選択すると共に,この選択された感情遷移パターンの形
状を変形して上記指示に基づく感情情報の経時変化で成
る上記感情制御情報を生成し,この生成された感情制御
情報を上記感情入力インタフェース手段に入力する感情
制御情報作成手段を備えている。

【００２０】この実施例によれば、感情制御情報作成手
段に入力された指示に従って、感情遷移パターンデータ
ベースから感情遷移パターンが選択され、この選択され
た感情遷移パターンの形状が変形されて上記感情制御情
報が生成されて上記感情入力インタフェース手段に入力
される。こうして、上記感情入力インタフェース手段に
入力される上記感情制御情報を外部からの指示に応じて
自動的に生成することによって、外部からの感情の付与
が非常に容易になる。

【００２１】また、１実施例では、上記第２の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは、発話者の音声から韻律抽出手段およびパ
ラメータ抽出手段によって抽出されるようになってい
る。

【００２２】この実施例によれば、パラメータ編集方式
による音声合成装置において、発話者の音声から抽出さ
れた韻律パターンおよびパラメータが、感情入力インタ
フェース手段に入力された感情制御情報に基づいて生成
された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。

【００２３】また、１実施例では、上記第２の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは,入力されたテキストデータに対する言語
処理手段による言語処理で抽出された言語関連情報に基
づいて,韻律生成手段およびパラメータ生成手段によっ
て生成され、上記音声合成手段による上記合成音声の生
成は,上記言語関連情報に基づいて素片選択手段で選択
された音声素片を接続して行われるようになっている。

【００２４】この実施例によれば、テキスト音声合成装
置において、入力されたテキストデータに基づいて生成
された韻律パターンおよびパラメータが、感情入力イン
タフェース手段に入力された感情制御情報に基づいて生
成された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。

【００２５】また、１実施例では、上記第１の発明ある
いは第２の発明の音声合成装置において、上記感情制御
手段による上記パラメータ変換情報に基づく参照パラメ
ータの生成は、学習によって得られた変換規則を用いて
行うように成っている。

【００２６】この実施例によれば、上記感情制御手段に
よる上記参照パラメータの生成が、学習によって得られ
た変換規則を用いて容易に行われる。

【００２７】また、第３の発明の音声合成方法は、入力
された言語情報から感情の種類と各種類毎の強度とを含
む感情情報を感情情報抽出手段で抽出し、上記抽出され
た感情情報の経時変化で成る感情制御情報を,感情制御
情報変換手段によって,音声合成用の韻律パターンおよ
び音声合成用のパラメータを時間方向に連続して制御す
るためのパラメータ変換情報に変換し、上記パラメータ
変換情報に基づいて,感情制御手段によって,上記韻律パ
ターンとパラメータとの制御を行う際に参照される参照
パラメータを生成し、上記参照パラメータを参照して,
韻律制御手段によって上記韻律パターンを制御し、上記
参照パラメータを参照して,パラメータ制御手段によっ
て上記パラメータを制御し、上記制御された韻律パター
ンおよびパラメータに基づいて,音声合成手段によって,
上記入力された言語情報から抽出された感情情報の連続
変化に応じた合成音声を生成することを特徴としてい
る。

【００２８】上記構成によれば、入力された言語情報か
ら抽出された感情情報の経時変化で成る感情制御情報が
パラメータ変換情報に変換され、このパラメータ変換情
報に基づいて参照パラメータが生成される。そして、上
記参照パラメータが参照されて音声合成用の韻律パター
ンおよびパラメータが制御され、この制御された韻律パ
ターンおよびパラメータに基づいて合成音声が生成され
る。

【００２９】こうして、上記第１の発明の場合と同様
に、入力言語情報から抽出された感情情報の連続変化に
基づいて生成された上記参照パラメータが参照されて、
複数の感情変化が滑らかに制御された合成音声が生成さ
れる。

【００３０】また、第４の発明の音声合成方法は、感情
の種類と各種類毎の強度とを含む感情情報の経時変化で
成る感情制御情報が感情入力インタフェース手段に入力
されると,この感情入力インタフェース手段によって,上
記感情制御情報を,音声合成用の韻律パターンおよび音
声合成用のパラメータを時間方向に連続して制御するた
めのパラメータ変換情報に変換し、上記パラメータ変換
情報に基づいて,感情制御手段によって,上記韻律パター
ンとパラメータとの制御を行う際に参照される参照パラ
メータを生成し、上記参照パラメータを参照して,韻律
制御手段によって上記韻律パターンを制御し、上記参照
パラメータを参照して,パラメータ制御手段によって上
記パラメータを制御し、上記制御された韻律パターンお
よびパラメータに基づいて,音声合成手段によって,上記
入力された感情制御情報に応じた合成音声を生成するこ
とを特徴としている。

【００３１】上記構成によれば、直接入力された感情制
御情報がパラメータ変換情報に変換され、この変換され
たパラメータ変換情報に基づいて参照パラメータが生成
される。そして、この参照パラメータが参照されて音声
合成用の韻律パターンおよびパラメータが制御され、上
記制御された韻律パターンおよびパラメータに基づいて
合成音声が生成される。

【００３２】こうして、上記第２の発明の場合と同様
に、直接入力された感情制御情報に基づいて生成された
上記参照パラメータが参照されて、複数の感情変化が滑
らかに制御された合成音声が生成される。

【００３３】また、第５の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における感情情報
抽出手段,感情制御情報変換手段,感情制御手段,韻律制
御手段,パラメータ制御手段および音声合成手段として
機能させる音声合成プログラムが記録されたことを特徴
としている。

【００３４】上記構成によれば、上記第１の発明の場合
と同様に、入力された言語情報から抽出された感情情報
の連続変化に基づいて生成された上記参照パラメータが
参照されて、複数の感情変化が滑らかに制御された合成
音声が生成される。

【００３５】また、第６の発明のプログラム記録媒体
は、コンピュータを、上記第２の発明における感情入力
インタフェース手段,感情制御手段,韻律制御手段,パラ
メータ制御手段および音声合成手段として機能させる音
声合成プログラムが記録されたことを特徴としている。

【００３６】上記構成によれば、上記第２の発明の場合
と同様に、直接入力された感情制御情報に基づいて生成
された上記参照パラメータが参照されて、複数の感情変
化が滑らかに制御された合成音声が生成される。

【００３７】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。

【００３８】＜第１実施の形態＞本実施の形態において
は、説明を簡単にするために、テキスト音声合成装置を
例に上げて説明する。図１は、本実施の形態のテキスト
音声合成装置におけるブロック図である。

【００３９】図１において、言語処理部１は、入力され
たテキストデータから読み情報,品詞情報,係り受け情報
等の言語関連情報を抽出する。素片選択部２は、言語処
理部１で得られた読み情報に基づいて、音声合成に適し
た音素片を選択する。ここで、上記音素片としては、各
音声合成方法に応じて、各音素,ＣＶＣ(子音‐母音‐子
音),単語あるいは短い文章が用いられる。そうすると、
韻律制御部３は、言語処理部１によって抽出された言語
関連情報等を用いて各文章の韻律パターンを生成する。
さらに、後に詳述するように、上記生成された韻律パタ
ーンの制御を行う。パラメータ制御部４は、こうして生
成された韻律パターンおよび上記選択された音素片の情
報(素片情報)等に基づいて、スペクトルや発話速度等の
様々なパラメータの生成を行う。さらに、後に詳述する
ように、上記生成されたパラメータの制御を行って音声
合成部５に送出する。音声合成部５は、素片情報,韻律
情報および各種パラメータに基づいて上記選択された音
素片を接続することによって、合成音声を生成するので
ある。

【００４０】その際に、感情情報抽出部６は、上記言語
処理部１によって抽出された上記言語関連情報に基づい
て、上記入力されたテキストの意味を解析して認識す
る。そして、認識された意味が予め規定された感情喚起
に該当する場合は、例えば「感情喚起Ｘの入力を認知し
たなら感情成分Ｙの強度をＺだけ増加せよ」等の規則に
従って、経過時間における感情の各種類毎の強度(以
下、感情強度と言う)を変更する。こうして、感情情報
が抽出されるのである。

【００４１】以上までの構成は、上記特開平７‐１０４
７７８号公報に開示された第２の感情制御方法と、概念
的には同じである。そして、上記第２の感情制御方法で
は、以後、上述のようにして得られた感情強度が予め設
定された感情表出閾値を超えたか超えないかで各感情の
オン・オフを設定し、オン・オフが設定された感情の組み
合せ(例えば、「驚き:オン,恐れ:オフ,嫌悪:オフ,怒り:
オフ,幸福:オン」等)によって、現在の感情を一意に決定
する。そして、決定された現在の感情に応じて音声合成
時に用いる各種パラメータの調整を行うことによって、
感情音声を作成するようにしている。

【００４２】これに対して、本実施の形態においては、
微妙な感情の変化を滑らかに表現できる最適な感情音声
を合成して出力するものである。感情の変化は、通常、
韻律の変化やスペクトルの変形や発話速度の変化等とし
て発話音声に影響を与える。本実施の形態では、それら
韻律やスペクトルや発話速度のパラメータを連続時間で
制御することによって、感情の連続的な変化を制御する
のである。

【００４３】そのために、感情制御情報変換部７では、
上記感情情報抽出部６によって感情情報として抽出され
た複数の感情強度の経時変化である感情制御情報を各種
パラメータの制御情報(パラメータ変換情報)に変換し、
得られたパラメータ変換情報を感情制御部８に出力す
る。感情制御部８は、後に詳述するような変換規則に従
って、上記パラメータ変換情報を、韻律制御部３および
パラメータ制御部４が上記制御を行う場合に参照する参
照パラメータに変換する。そして、変換された韻律の参
照パラメータを韻律制御部３に送出し、その他の参照パ
ラメータをパラメータ制御部４に送出する。そうする
と、韻律制御部３は、上述のようにして生成された無感
情音声の韻律パターン(以下、「無感情韻律パターン」や
「感情を伴わない韻律パターン」という場合もある)を、
感情制御部８からの参照パラメータを参照して感情音声
の韻律パターン(以下、「感情韻律パターン」や「感情を伴
う韻律パターン」という場合もある)に変換する。一方、
パラメータ制御部４は、上述のようにして生成された無
感情音声のパラメータ(以下、「無感情パラメータ」や「感
情を伴わないパラメータ」という場合もある)を、感情制
御部８からの参照パラメータを参照して感情音声のパラ
メータ(以下、「感情パラメータ」や「感情を伴うパラメー
タ」という場合もある)に変換する。その結果、音声合成
部５からは、連続して変化する感情を滑らかに表現でき
る合成音声が出力されるのである。

【００４４】感情入力インタフェース部９には、上記感
情制御情報(各種の感情強度の経時変化)が外部から直接
入力される。そうすると、感情入力インタフェース部９
は感情制御情報変換部７と同様に、入力された感情制御
情報をパラメータ変換情報に変換する。スイッチング部
１０は、通常は、感情制御情報変換部７側に切り換え接
続されており、感情入力インタフェース部９からのパラ
メータ変換情報の出力がある場合には、感情入力インタ
フェース部９側に切り換る。こうして、感情入力インタ
フェース部９からのパラメータ変換情報を優先的に感情
制御部８に出力するのである。

【００４５】以下、上記感情制御情報変換部７(感情入
力インタフェース部９)および感情制御部８によって行
われる感情音声制御法について詳細に説明する。

【００４６】上記感情制御部８は、上述したように、予
め学習された変換規則に従って感情の変化から上記参照
パラメータを求める。この参照パラメータは、韻律制御
部３およびパターン制御部４が、予め生成した韻律,発
話速度等の各パラメータを、時々刻々と変化する感情の
変化に伴って制御する際に参照される。

【００４７】図２(a)は、上記変換規則の学習手順を示
す。この学習においては、先ず、ステップＳ1におい
て、様々な感情強度で発話された音声から、基本周波
数,パワー,ポーズ時間長等の韻律に関するパラメータを
抽出する。次に、ステップＳ2において、上記発話の感
情強度と抽出された韻律に関するパラメータとに基づい
て、図２(b)に示すような感情強度とパラメータとの関
係を表すグラフを作成し、このグラフを変換規則とする
のである。その際に、スペクトル包絡(以下、単にスペ
クトルと言う)等のごとく、感情の強度に応じて振幅の
ピーク位置が細かい時間長で変化するようなパラメータ
に関しては、ＤＰマッチング等を用いて上記抽出された
スペクトルを変換する言語単位毎に無感情時のスペクト
ル(無感情スペクトル)に対応付け、対応点の系列を変換
規則とするのである。

【００４８】図２の場合には、感情「怒り」の強度を発話
速度に変換する場合の変換規則作成が例示されている。
この場合、上記発話速度はスカラー値で表現されるた
め、図２(b)に●で示すように、「無感情」,「弱」,「中」,
「強」の各感情強度に話者の発話速度を対応させる。ま
た、各感情強度間は、感情強度と発話速度との対応点●
を通る一次関数で線形に補完する。こうして、屈曲した
直線でなる変換規則１１が得られるのである。

【００４９】この変換規則１１を用いた参照パラメータ
(発話速度)への変換は、図２(b)において矢印１２で示
すように、変換規則１１によって感情強度に対応付けら
れた発話速度を求めることによって行われる。矢印１２
の場合は、怒[強]と怒[中]との間の感情強度が発話速度
１８０に変換されるのである。尚、本実施の形態におい
ては、各感情強度間における学習データの無い部分に関
しては、感情強度とパラメータとの対応点間を線形に補
完して変換規則を作成するようにしている。しかしなが
ら、この発明においては、上記感情強度とパラメータ変
換情報との対応点間の補完方法について特に限定するも
のではなく、如何様な補完方法を用いても構わない。

【００５０】ところで、スカラー値で表現できるパラメ
ータに関しては、図２に示すようにして変換規則１１を
作成することができるのであるが、スペクトル等のよう
にベクトル値の列として与えられるパラメータに関して
は、図２に示す変換規則作成方法をそのまま適用するこ
とはできない。そこで、ベクトルで表現されるパラメー
タへの変換規則の作成は、以下のようにして行うのであ
る。

【００５１】図３には、上記感情強度を、ベクトルで表
現されるパラメータに変換する際の変換規則の作成例を
示す。ここでは、スペクトルの変換規則の作成例を示
す。スペクトルの変換規則は、ＤＰマッチングを用い
て、「無感情」,「弱」,「中」,「強」の各感情強度でのスペク
トル(感情スペクトル)と話者の無感情スペクトルとを変
換する言語単位毎に対応付け、各対応点の系列を求める
ことによって作成される。図３において、１５は「無感
情」の変換規則であり、１６は怒[弱]の変換規則であ
り、１７は怒[中]の変換規則であり、１８は怒[強]の変
換規則である。尚、図３においては、無感情スペクトル
および感情スペクトルは、周波数軸のみで代表して図示
しており、その実体の図示は省略している。

【００５２】また、各感情強度間は線形に補完する。す
なわち、怒[強]と怒[中]との中間の変換規則１９は、無
感情スペクトルにおける同一周波数に対応付けられた怒
[強]の感情スペクトルの周波数値と怒[中]の感情スペク
トルの周波数値との間を線形に補完し、これを無感情ス
ペクトルの各周波数について行うことによって求めるの
である。

【００５３】図３に示す変換規則を用いた変換処理は、
取り扱うパラメータがベクトル(本例の場合はスペクト
ル)であること以外は、スカラー値で表されるパラメー
タの変換の場合とほぼ同様である。図４に、変換方法を
具体的に示す。例えば怒[強]をスペクトルに変換する場
合は、図３における変換規則１８を用いる。そして、無
感情スペクトルにおける曲線上の各点の周波数を変換規
則１８に基づいて非線形に移動させることによって、怒
[強]の感情スペクトルに変換するのである。その結果、
無感情スペクトルの周波数ａ1と感情スペクトルの周波
数ａ1'とが対応付けられ、以下同様にして、対応関係ａ
1‐ａ1',ａ2‐ａ2',…,ａ6‐ａ6'が得られる。こうし
て、感情強度を上記参照パラメータとしての感情スペク
トルに変換できるのである。

【００５４】上記感情制御部８は、以上のようにして学
習された変換規則を用いることによって、感情強度をス
カラーあるいはベクトルで表現される参照パラメータに
変換することができる。したがって、韻律制御部３およ
びパラメータ制御部４は、上記参照パラメータを参照す
ることによって、予め生成したスカラーあるいはベクト
ルで表現される無感情パラメータを、感情強度に応じた
感情パラメータに容易に変換することが可能になるので
ある。

【００５５】その際に、時々刻々変化する感情の種類と
強度とに伴って、適用する変換規則を逐次取り換えるこ
とによって、各参照パラメータを時間的に連続して求め
ることが可能になる。また、スペクトルのようにパラメ
ータがベクトルで定義されている場合においても、変換
規則を時間軸方向に例えば線形に補完して連続に変形さ
せることで時間的に連続した変換規則を得ることがで
き、時間的に連続した参照パラメータを求めることが可
能になる。

【００５６】以下、時間的に連続した参照パラメータへ
の変換方法について説明する。これまでは、一般的な動
作の説明を行うために、感情強度として[弱],[中],[強]
なる離散した表記を用いてきた。しかしながら、実際に
感情パラメータへの変換処理を行うに際しては、感情強
度[強]を「１」とし、無感情を「０」として、正規化した感
情強度を用いる。

【００５７】１つの感情の感情強度に関する変化を扱う
場合には、上述した方法を用いることによって感情を有
する音声を合成することができるのであるが、実際に使
用する場合には複数の感情が入り混じった音声を合成す
る必要がある。

【００５８】そこで、本実施の形態においては、複数の
感情が入り混じった音声合成を実現するために、感情制
御情報変換部７は、感情制御情報として与えられる複数
種の感情強度の経時変化情報を各種パラメータの制御情
報に変換し、パラメータ変換情報として感情制御部８に
出力するのである。

【００５９】上記感情制御情報変換部７による処理の一
例を以下に説明する。図５に、各感情強度の時間的変化
である感情制御情報を示す。この感情制御情報をパラメ
ータ変換情報に変換することによって、合成音声におけ
る複数の感情を制御することが可能になるのである。説
明を簡単にするため、以下においては、「驚き」と「怒り」
との２つの感情が存在する場合ついて説明する。

【００６０】尚、実際の感情強度の時間的変化は、上記
感情情報抽出部６によって、感情強度を変更する毎に、
前回の感情強度変更時における感情強度と現在の感情強
度との間が線形に補完されて、線分２１,２２(図５参
照)として求められる。こうすることによって、複数の
感情に関して感情強度の経時変化(感情制御情報)を得る
ことができるのである。尚、上記感情制御情報の他の作
成方法については後に詳しく述べる。

【００６１】上記感情制御情報変換部７は、上記感情情
報抽出部６から入力された図５に示すような「怒り」の経
時変化(一点鎖線)２３と「驚き」の経時変化(破線)２４と
の２つの感情の変化を、各時点毎に、感情強度[強]を
「１」とする一方無感情を「０」として、正規化する。その
際に、感情「怒り」の正規化感情強度と感情「驚き」の正規
化感情強度との加算値が１を超える場合には、各時点に
おける両感情の正規化感情強度の和で夫々の感情の正規
化感情強度を正規化する。以上の処理によって、図６に
示すように、怒りの割合の経時変化２５、驚きの割合の
経時変化２６、無感情の割合の経時変化２７を、求める
ことができるのである。

【００６２】上記感情制御情報変換部７は、こうして得
られた各感情の割合の経時変化を、上記パラメータ変換
情報として感情制御部８に出力する。例えば、図６にお
ける時点ｔにおいては、驚きの感情の割合が「０.６」で
あり、怒りの感情の割合が「０.４」であるというパラメ
ータ変換情報が、感情制御部８に送られることになる。

【００６３】そうすると、上記感情制御部８は、与えら
れた上記パラメータ変換情報に基づいて、以下のように
して時点ｔでの参照パラメータを求める。すなわち、ス
カラー値で表現される参照パラメータの場合には、例え
ば発話速度の場合は、先ず、図２(b)に示す発話速度に
関する感情「怒り」の変換規則１１を用い、上記感情の割
合を感情強度と見なして感情強度「０.４」に対応する発
話速度Ｖ1を求める。同様にして、発話速度に関する感
情「驚き」の変換規則を用いて感情強度「０.６」に対応す
る発話速度Ｖ2を求める。そして、各感情の割合を重み
として両発話速度の重み付き平均 (０.４×Ｖ1＋０.６×Ｖ2)/(０.４＋０.６) を求め、時点ｔの発話速度とするのである。

【００６４】また、スペクトルのようにベクトルで表さ
れる参照パラメータの場合は、感情「驚き」の感情強度
０.６の変換規則と感情「怒り」の感情強度０.４の変換規
則とを平均して得られる変換規則を用いることによっ
て、時点ｔの感情スペクトルを得るのである。

【００６５】そうすると、上述したように、上記韻律制
御部３及びパラメータ制御部４は、予め上記テキストデ
ータに基づいて生成した感情を伴わない韻律パターンお
よびパラメータを感情制御部８からの上記参照パラメー
タを参照して制御し、感情を伴った韻律パターンおよび
パラメータを生成するのである。

【００６６】以上の処理によって、入力されたテキスト
データから、連続的に変化する感情音声を合成すること
ができるのである。さらに、本実施の形態においては、
テキストデータに基づく感情制御だけではなく、上述し
たように、外部から感情入力インタフェース部９に感情
制御情報を直接入力することによって、感情入力インタ
フェース部９は感情制御情報変換部７と同様に動作し
て、各感情の各時点における割合を求めて上記パラメー
タ変換情報として感情制御部８に出力するようになって
いる。

【００６７】こうすることによって、入力されたテキス
ト文章に基づく合成音声に対して自由に感情を付与する
ことができるのである。また、予め感情制御情報変換部
７および感情制御部８によって付与されたテキストデー
タに基づく感情に対して変更を行うことも可能になる。

【００６８】以上のように、本実施の形態においては、
上記感情情報抽出部６によって、言語処理部１に入力さ
れたテキストの意味を解析して認識し、認識結果に基づ
いて感情の種類と各種類毎の感情強度とを感情情報とし
て抽出する。そうすると、感情制御情報変換部７は、上
記抽出された複数の感情強度の経時変化である感情制御
情報を、各感情の割合の経時変化であるパラメータ変換
情報に変換して感情制御部８に出力する。感情入力イン
タフェース部９は、直接入力された感情制御情報を上記
パラメータ変換情報に変換して感情制御部８に出力す
る。

【００６９】上記感情制御部８は、予め求められた上記
変換規則に従って、スイッチング部１０で切り換え入力
されたパラメータ変換情報を参照パラメータに変換し、
韻律制御部３およびパラメータ制御部４に送出する。そ
うすると、韻律制御部３は、言語処理部１によって抽出
された言語関連情報等を用いて生成した無感情韻律パタ
ーンを、上記参照パラメータを参照して感情韻律パター
ンに変換する。一方、パラメータ制御部４は、予め生成
したスペクトルや発話速度等の無感情パラメータを、上
記参照パラメータを参照して感情パラメータに変換す
る。

【００７０】したがって、本実施の形態によれば、上記
音声合成部５によって、感情を伴った韻律パターンおよ
びパラメータに従って素片選択部２で選択された音素片
を接続して、連続して変化する感情を滑らかに表現でき
る合成音声を生成することができるのである。

【００７１】また、外部から入力された感情情報に基づ
いて、テキスト文章に基づく無感情の合成音声に対して
自由に感情を付与することができる。また、予め感情制
御情報変換部７および感情制御部８によって付与された
テキストデータに基づく感情に対して変更を行うことが
できるのである。

【００７２】さらに、上記感情制御部８が用いる変換規
則は予め学習によって求めるのであるが、その際に必要
な学習データは、上記従来のニューラルネットワークを
用いる場合に比しておよそ１/１０程度(条件によって異
なる)でよく、学習用の発話データ数と学習時間とを削
減することができるのである。

【００７３】尚、本実施の形態における上記感情入力イ
ンタフェース部９に対する感情制御情報の入力は、例え
ば、各時間毎の各感情強度を数字と記号とを用いて記述
してキーボードから入力する方法や、各感情強度の経時
変化をグラフで表記してイメージスキャナで読み取らせ
てディジタル化する方法等、時間の経過と感情強度の遷
移とを対応付けて入力することが可能な入力方法であれ
ば、如何なる入力方法を用いても差し支えない。

【００７４】また、本実施の形態においては、上記パラ
メータ変換情報を生成する際に、複数の感情の重み無し
の割合を用いている。しかしながら、表出し易い感情の
重みを重くする等、感情の割合の決定方法を任意に変更
しても構わない。また、感情入力インタフェース部９お
よびスイッチング部１０を有して、外部から感情制御情
報を直接入力可能にしているが、感情入力インタフェー
ス部９およびスイッチング部１０は必ずしも必要ではな
い。

【００７５】また、上記感情情報抽出部６による感情強
度変更時の感情強度間の補完方法、上記ベクトルで定義
されるパラメータ用の変換規則の時間軸方向への補完方
法、複数の変換規則の平均方法については、特に限定す
るものではない。

【００７６】＜第２実施の形態＞図７は、本実施の形態
におけるテキスト音声合成装置におけるブロック図であ
る。本テキスト音声合成装置は、外部から入力する感情
制御情報を作成する手段を備えている点が、上記第１実
施の形態におけるテキスト音声合成装置とは異なる。

【００７７】図７において、言語処理部３１,素片選択
部３２,韻律制御部３３,パラメータ制御部３４,音声合
成部３５,感情情報抽出部３６,感情制御情報変換部３
７,感情制御部３８,感情入力インタフェース部３９およ
びスイッチング部４０は、上記第１実施の形態において
図１に示す言語処理部１,素片選択部２,韻律制御部３,
パラメータ制御部４,音声合成部５,感情情報抽出部６,
感情制御情報変換部７,感情制御部８,感情入力インタフ
ェース部９およびスイッチング部１０と同じであり、詳
細な説明は省略する。

【００７８】本実施の形態においては、上記感情入力イ
ンタフェース部３９に入力される感情制御情報は、上記
第１実施の形態において感情制御情報変換部７に入力さ
れる感情制御情報(図５参照)と同様に「感情強度の経時
変化」であるとする。

【００７９】感情遷移パターンＤＢ(データベース)４１
には、図８に示すように、様々な感情強度の変化パター
ンである感情遷移パターンが、夫々にラベル(図８では
番号)が付されて格納されている。感情制御情報作成部
４２は、外部から入力される指示に従って、指定された
感情遷移パターンを感情遷移パターンＤＢ４１から読み
出し、後に詳述するように変形して感情制御情報を作成
する。そして、こうして作成された感情制御情報を感情
入力インタフェース部３９に入力するのである。

【００８０】図８は、上記感情制御情報作成部４２によ
る感情制御情報作成動作の説明図である。感情制御情報
作成部４２には、各感情(例えば、感情「怒り」と感情「驚
き」)毎に、感情遷移パターンのラベル,最大の感情強度
値(正規化値)および感情遷移パターンの制御時間で成る
設定情報４３が入力される。そうすると、感情制御情報
作成部４２は、入力された設定情報４３の感情遷移パタ
ーンのラベルに基づいて、感情遷移パターンＤＢ４１か
ら該当する感情遷移パターンを読み出す。図８に示す例
では、感情「怒り」の感情遷移パターンとして「５」番目の
感情遷移パターンが読み出され、感情「驚き」の感情遷移
パターンとして「１」番目の感情遷移パターンが読み出さ
れる。そして、各感情遷移パターンの最大値が設定情報
４３の最大の感情強度値(正規化値)になり、各感情遷移
パターンの継続時間長が設定情報４３の制御時間になる
ように、上記読み出された感情遷移パターンが幅方向と
高さ方向に変形されて、「怒り」と「驚き」との感情制御情
報４４が生成されるのである。

【００８１】テキストデータに因らずに感情を制御する
に当って、上記第１実施の形態のように、感情入力イン
タフェース部９に対して手作業で各感情の経時変化(感
情制御情報)を入力する場合には手間が掛る。これに対
して、本実施の形態においては、感情制御情報作成部４
２に対して僅かな数字等を入力するだけの簡単な操作
で、自動的に所望の感情強度および継続時間の感情制御
情報を作成して感情入力インタフェース部３９に入力す
ることができる。したがって、感情入力インタフェース
部３９に対して直接感情制御情報を入力する必要がな
く、短時間に簡単に合成音声の感情を外部から制御する
ことができるのである。

【００８２】尚、本実施の形態においては、上記感情遷
移パターンＤＢ４１に５種類の感情遷移パターンが格納
されている場合を例示しているが、この登録感情遷移パ
ターン数は可能な限り増やすことができる。また、所望
の感情遷移パターンを読み出して変形する際に、感情制
御パターンのラベル,最大の感情強度値(正規化値)及び
感情遷移パターンの制御時間で成る設定情報４３を入力
するようにしている。しかしながら、この発明はこれに
限定されるものではなく、設定情報４３にはその他のパ
ラメータに関する設定情報を含めて、さらに木目細かい
感情制御情報を作成可能にすることもできる。

【００８３】さらに、上記感情制御情報作成部４２に対
して、マニュアルによって直接設定情報４３を入力する
だけではなく、文章中に感情制御タグを埋め込んでお
き、この感情制御タグを入力装置によって読み込み、設
定情報に変換して感情制御情報作成部４２に出力するよ
うに成すことも可能である。

【００８４】また、上記第１,第２実施の形態において
は、感情情報抽出部６,３６によってテキストデータに
基づいて感情強度を抽出し、感情制御情報変換部７,３
７によって、上記抽出された感情強度を各感情の割合の
経時変化であるパラメータ変換情報に変換して感情制御
部８に出力するようにしている。しかしながら、この発
明はこれに限定されるものではなく、図９あるいは図１
０に示すように構成することによって、テキストデータ
に因らずに、外部からの指示のみによってパラメータ変
換情報を得るようにしても差し支えない。尚、図９にお
いて、言語処理部５１,素片選択部５２,韻律制御部５
３,パラメータ制御部５４,音声合成部５５,感情入力イ
ンタフェース部５６および感情制御部５７は、上記第１
実施の形態において図１に示す言語処理部１,素片選択
部２,韻律制御部３,パラメータ制御部４,音声合成部５,
感情入力インタフェース部９および感情制御部８と同じ
であって、感情入力インタフェース部５６には感情制御
情報が直接入力される。また、図１０において、言語処
理部６１,素片選択部６２,韻律制御部６３,パラメータ
制御部６４,音声合成部６５,感情遷移パターンＤＢ６
６,感情制御情報作成部６７,感情入力インタフェース部
６８および感情制御部６９は、上記第２実施の形態にお
いて図７に示す言語処理部３１,素片選択部３２,韻律制
御部３３,パラメータ制御部３４,音声合成部３５,感情
遷移パターンＤＢ４１,感情制御情報作成部４２,感情入
力インタフェース部３９および感情制御部３８と同じで
ある。

【００８５】また、上記第１,第２実施の形態において
は、テキスト音声合成装置を例として説明しているが、
この発明はこれに限定されるものではない。例えば、パ
ラメータ編集方式による音声合成装置において、無感情
に発話された音声から無感情パラメータを抽出し、感情
遷移パターンＤＢ,感情制御情報作成部,感情入力インタ
フェース部および感情制御部によって、上記抽出された
無感情パラメータを感情パラメータに変換して、感情音
声を合成するようにしても差し支えない。この場合であ
っても、２つ以上の感情が同時に存在しても感情の制御
を行うことは可能である。

【００８６】ところで、上記各実施の形態における言語
処理部１・３１・５１・６１,素片選択部２・３２・５２・６
２,韻律制御部３・３３・５３・６３,パラメータ制御部４・
３４・５４・６４,音声合成部５・３５・５５・６５,感情情
報抽出部６・３６,感情制御情報変換部７・３７,感情制御
部８・３８・５７・６９,感情入力インタフェース部９・３
９・５６・６８および感情制御情報作成部４２・６７とし
ての機能は、プログラム記録媒体に記録された音声合成
プログラムによって実現される。上記各実施の形態にお
ける上記プログラム記録媒体は、ＲＯＭ(リード・オンリ
・メモリ)でなるプログラムメディアである。あるいは、
外部補助記憶装置に装着されて読み出されるプログラム
メディアであってもよい。尚、何れの場合においても、
上記プログラムメディアから音声合成プログラムを読み
出すプログラム読み出し手段は、上記プログラムメディ
アに直接アクセスして読み出す構成を有していてもよい
し、ＲＡＭ(ランダム・アクセス・メモリ)に設けられたプ
ログラム記憶エリア(図示せず)にダウンロードし、上記
プログラム記憶エリアにアクセスして読み出す構成を有
していてもよい。尚、上記プログラムメディアからＲＡ
Ｍ上記プログラム記憶エリアにダウンロードするための
ダウンロードプログラムは、予め本体装置に格納されて
いるものとする。

【００８７】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタル多用途ディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【００８８】また、上記各実施の形態におけるテキスト
音声合成装置は、モデムを備えてインターネットを含む
通信ネットワークと接続可能に構成してもよい。その場
合には、上記プログラムメディアは、通信ネットワーク
からのダウンロード等によって流動的にプログラムを坦
持する媒体であっても差し支えない。尚、その場合にお
ける上記通信ネットワークからダウンロードするための
ダウンロードプログラムは、予め本体装置に格納されて
いるものとする。あるいは、別の記録媒体からインスト
ールされるものとする。

【００８９】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【００９０】

【発明の効果】以上より明らかなように、第１の発明の
音声合成装置は、入力された言語情報から感情情報抽出
手段によって感情情報を抽出し、この抽出された感情情
報の経時変化で成る感情制御情報を感情制御情報変換手
段によってパラメータ変換情報に変換し、このパラメー
タ変換情報に基づいて感情制御手段によって参照パラメ
ータを生成し、上記参照パラメータを参照して韻律制御
手段およびパラメータ制御手段によって音声合成用の韻
律パターンおよびパラメータを制御し、音声合成手段に
よって上記制御された韻律パターンおよびパラメータに
基づいて合成音声を生成するので、上記入力された言語
情報から抽出された時々刻々変動する感情情報の連続変
化に応じて、複数の感情変化が滑らかに制御された合成
音声を生成することができる。

【００９１】また、１実施例の音声合成装置は、直接入
力された感情制御情報を上記パラメータ変換情報に変換
する感情入力インタフェース手段と、上記感情制御情報
変換手段および感情入力インタフェース手段の何れかか
らのパラメータ変換情報を選択して上記感情制御手段に
出力するスイッチング手段を備えているので、外部から
上記感情制御情報を入力することによって、出力される
合成音声に任意に感情を付与したり、出力される合成音
声の感情を変更したりすることができる。

【００９２】また、１実施例の音声合成装置は、感情強
度の経時変化のパターンである感情遷移パターンを感情
遷移パターンデータベースに複数登録し、感情制御情報
作成手段によって、入力された指示に従って、上記感情
遷移パターンデータベースから感情遷移パターンを選択
してその形状を変形することによって、上記感情制御情
報を生成して上記感情入力インタフェース手段に入力す
るので、上記感情入力インタフェース手段に入力される
上記感情制御情報を、外部からの指示に応じて自動的に
生成することができる。したがって、外部からの感情の
付与や制御を非常に簡単に行うことができる。

【００９３】また、１実施例の音声合成装置は、上記制
御される上記韻律パターンおよびパラメータを、テキス
トデータから言語処理手段で抽出された言語関連情報に
基づいて韻律生成手段およびパラメータ生成手段によっ
て生成し、上記感情情報の抽出を上記言語関連情報に基
づいて行い、上記合成音声の生成を、上記言語関連情報
に基づいて素片選択手段で選択された音声素片を接続し
て行うので、テキスト音声合成装置において、上記入力
されたテキストデータから抽出された時々刻々変動する
感情情報の連続変化に応じて、複数の感情変化が滑らか
に制御された合成音声を生成することができる。

【００９４】また、第２の発明の音声合成装置は、感情
入力インタフェース手段によって、入力された感情制御
情報を上記パラメータ変換情報に変換し、このパラメー
タ変換情報に基づいて感情制御手段によって参照パラメ
ータを生成し、上記参照パラメータを参照して韻律制御
手段およびパラメータ制御手段によって音声合成用の韻
律パターンおよびパラメータを制御し、音声合成手段に
よって上記制御された韻律パターンおよびパラメータに
基づいて合成音声を生成するので、外部から上記感情制
御情報を入力することによって、時々刻々変動する複数
の感情変化が滑らかに制御された合成音声を生成するこ
とができる。

【００９５】また、１実施例の音声合成装置は、感情強
度の経時変化のパターンである感情遷移パターンを感情
遷移パターンデータベースに複数登録し、感情制御情報
作成手段によって、入力された指示に従って、上記感情
遷移パターンデータベースから感情遷移パターンを選択
してその形状を変形することによって、上記感情制御情
報を生成して上記感情入力インタフェース手段に入力す
るので、上記感情入力インタフェース手段に入力される
上記感情制御情報を、外部からの指示に応じて自動的に
生成することができる。したがって、外部からの感情の
付与や制御を非常に簡単に行うことができる。

【００９６】また、１実施例の音声合成装置は、上記制
御される韻律パターンおよびパラメータを、韻律抽出手
段およびパラメータ抽出手段によって、発話者の音声か
ら抽出するので、パラメータ編集方式による音声合成装
置において、外部から上記感情制御情報を入力すること
によって、時々刻々変動する複数の感情変化が滑らかに
制御された合成音声を生成することができる。

【００９７】また、１実施例の音声合成装置は、上記制
御される韻律パターンおよびパラメータを、テキストデ
ータから言語処理手段で抽出された言語関連情報に基づ
いて韻律生成手段及びパラメータ生成手段によって生成
し、上記合成音声の生成を、上記言語関連情報に基づい
て素片選択手段で選択された音声素片を接続して行うの
で、テキスト音声合成装置において、外部から上記感情
制御情報を入力することによって、時々刻々変動する複
数の感情変化が滑らかに制御された合成音声を生成する
ことができる。

【００９８】また、１実施例の音声合成装置は、上記感
情制御手段による上記パラメータ変換情報に基づく参照
パラメータの生成を、学習によって得られた変換規則を
用いて行うので、上記参照パラメータの生成を容易に行
うことができる。その際における学習は、ニューラルネ
ットワークを用いる場合に比しておよそ１/１０程度の
少ない学習データで行うことができる。

【００９９】また、第３の発明の音声合成方法は、入力
された言語情報から抽出された感情情報の経時変化で成
る感情制御情報をパラメータ変換情報に変換し、このパ
ラメータ変換情報に基づいて参照パラメータを生成し、
この参照パラメータを参照して音声合成用の韻律パター
ンおよびパラメータを制御し、この制御された韻律パタ
ーンおよびパラメータに基づいて合成音声を生成するの
で、上記第１の発明の場合と同様に、上記入力された言
語情報から抽出された時々刻々変動する感情情報の連続
変化に応じて、複数の感情変化が滑らかに制御された合
成音声を生成することができる。

【０１００】また、第４の発明の音声合成方法は、直接
入力された感情制御情報をパラメータ変換情報に変換
し、この変換されたパラメータ変換情報に基づいて参照
パラメータを生成し、この参照パラメータを参照して音
声合成用の韻律パターンおよびパラメータを制御し、上
記制御された韻律パターンおよびパラメータに基づいて
合成音声を生成するので、上記第２の発明の場合と同様
に、外部から上記感情制御情報を入力することによっ
て、時々刻々変動する複数の感情変化が滑らかに制御さ
れた合成音声を生成することができる。

【０１０１】また、第５の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における感情情報
抽出手段,感情制御情報変換手段,感情制御手段,韻律制
御手段,パラメータ制御手段および音声合成手段として
機能させる音声合成プログラムを記録しているので、上
記第１の発明の場合と同様に、上記入力された言語情報
から抽出された時々刻々変動する感情情報の連続変化に
応じて、複数の感情変化が滑らかに制御された合成音声
を生成することができる。

【０１０２】また、第６の発明のプログラム記録媒体
は、コンピュータを、上記第２の発明における感情入力
インタフェース手段,感情制御手段,韻律制御手段,パラ
メータ制御手段および音声合成手段として機能させる音
声合成プログラムを記録しているので、上記第２の発明
の場合と同様に、外部から上記感情制御情報を入力する
ことによって、時々刻々変動する複数の感情変化が滑ら
かに制御された合成音声を生成することができる。

【図面の簡単な説明】

【図１】この発明の音声合成装置の一例としてのテキ
スト音声合成装置におけるブロック図である。

【図２】図１における感情制御部が用いる変換規則の
学習手順および変換規則を用いたパラメータへの変換手
順の説明図である。

【図３】感情強度をベクトルで表現するパラメータに
変換する変換規則の作成例を示す図である。

【図４】図３に示す変換規則を用いたパラメータへの
変換手順の説明図である。

【図５】各感情強度の時間的変化である感情制御情報
を示す図である。

【図６】各感情の割合の経時変化であるパラメータ変
換情報を示す図である。

【図７】図１とは異なるテキスト音声合成装置のブロ
ック図である。

【図８】図７における感情制御情報作成部による感情
制御情報作成動作の説明図である。

【図９】図１および図７とは異なるテキスト音声合成
装置のブロック図である。

【図１０】図１,図７および図９とは異なるテキスト
音声合成装置のブロック図である。

【符号の説明】

１,３１,５１,６１…言語処理部、２,３２,５２,６２…素片選択部、３,３３,５３,６３…韻律制御部、４,３４,５４,６４…パラメータ制御部、５,３５,５５,６５…音声合成部、６,３６…感情情報抽出部、７,３７…感情制御情報変換部、８,３８,５７,６９…感情制御部、９,３９,５６,６８…感情入力インタフェース部、１０,４０…スイッチング部、１１…変換規則、１５〜１９…スペクトルの変換規則、４１,６６…感情遷移パターンＤＢ、４２,６７…感情制御情報作成部。

Claims

【特許請求の範囲】

【請求項１】入力された言語情報から、感情の種類と
各種類毎の強度とを含む感情情報を抽出する感情情報抽
出手段と、上記抽出された感情情報の経時変化で成る感情制御情報
を、音声合成用の韻律パターンおよび音声合成用のパラ
メータを時間方向に連続して制御するためのパラメータ
変換情報に変換する感情制御情報変換手段と、上記パラメータ変換情報に基づいて、上記韻律パターン
とパラメータとの制御を行う際に参照される参照パラメ
ータを生成する感情制御手段と、上記参照パラメータを参照して上記韻律パターンを制御
する韻律制御手段と、上記参照パラメータを参照して上記パラメータを制御す
るパラメータ制御手段と、上記制御された韻律パターンおよびパラメータに基づい
て合成音声を生成する音声合成手段を備えて、上記入力
された言語情報から抽出された感情情報の連続変化に応
じた合成音声を生成することを特徴とする音声合成装
置。
【請求項２】請求項１に記載の音声合成装置におい
て、上記感情制御情報が入力されて、この感情制御情報を上
記パラメータ変換情報に変換する感情入力インタフェー
ス手段と、上記感情制御情報変換手段からのパラメータ変換情報と
上記感情入力インタフェース手段からのパラメータ変換
情報との何れか一方を切り変え選択して、上記感情制御
手段に出力するスイッチング手段を備えたことを特徴と
する音声合成装置。
【請求項３】請求項２に記載の音声合成装置におい
て、感情強度の経時変化のパターンである感情遷移パターン
が複数登録されている感情遷移パターンデータベース
と、入力された指示に従って、上記感情遷移パターンデータ
ベースから感情遷移パターンを選択すると共に、この選
択された感情遷移パターンの形状を変形して上記指示に
基づく感情情報の経時変化で成る上記感情制御情報を生
成し、この生成された感情制御情報を上記感情入力イン
タフェース手段に入力する感情制御情報作成手段を備え
たことを特徴とする音声合成装置。
【請求項４】請求項１乃至請求項３の何れか一つに記
載の音声合成装置において、上記韻律制御手段およびパラメータ制御手段によって制
御される上記韻律パターンおよびパラメータは、入力さ
れたテキストデータに対する言語処理手段による言語処
理で抽出された言語関連情報に基づいて、韻律生成手段
およびパラメータ生成手段によって生成され、上記感情情報抽出手段による感情情報の抽出は、上記言
語関連情報に基づいて行われ、上記音声合成手段による上記合成音声の生成は、上記言
語関連情報に基づいて素片選択手段で選択された音声素
片を接続して行われるようになっていることを特徴とす
る音声合成装置。
【請求項５】感情の種類と各種類毎の強度とを含む感
情情報の経時変化で成る感情制御情報が入力されて、こ
の感情制御情報を、音声合成用の韻律パターンおよび音
声合成用のパラメータを時間方向に連続して制御するた
めのパラメータ変換情報に変換する感情入力インタフェ
ース手段と、上記パラメータ変換情報に基づいて、上記韻律パターン
とパラメータとの制御を行う際に参照される参照パラメ
ータを生成する感情制御手段と、上記参照パラメータを参照して上記韻律パターンを制御
する韻律制御手段と、上記参照パラメータを参照して上記パラメータを制御す
るパラメータ制御手段と、上記制御された韻律パターンおよびパラメータに基づい
て合成音声を生成する音声合成手段を備えて、上記入力
された感情制御情報に応じた合成音声を生成することを
特徴とする音声合成装置。
【請求項６】請求項５に記載の音声合成装置におい
て、感情強度の経時変化のパターンである感情遷移パターン
が複数登録されている感情遷移パターンデータベース
と、入力された指示に従って、上記感情遷移パターンデータ
ベースから感情遷移パターンを選択すると共に、この選
択された感情遷移パターンの形状を変形して上記指示に
基づく感情情報の経時変化で成る上記感情制御情報を生
成し、この生成された感情制御情報を上記感情入力イン
タフェース手段に入力する感情制御情報作成手段を備え
たことを特徴とする音声合成装置。
【請求項７】請求項５あるいは請求項６に記載の音声
合成装置において、上記韻律制御手段およびパラメータ制御手段によって制
御される上記韻律パターンおよびパラメータは、発話者
の音声から韻律抽出手段およびパラメータ抽出手段によ
って抽出されるようになっていることを特徴とする音声
合成装置。
【請求項８】請求項５あるいは請求項６に記載の音声
合成装置において、上記韻律制御手段およびパラメータ制御手段によって制
御される上記韻律パターンおよびパラメータは、入力さ
れたテキストデータに対する言語処理手段による言語処
理で抽出された言語関連情報に基づいて、韻律生成手段
およびパラメータ生成手段によって生成され、上記音声合成手段による上記合成音声の生成は、上記言
語関連情報に基づいて素片選択手段で選択された音声素
片を接続して行われるようになっていることを特徴とす
る音声合成装置。
【請求項９】請求項１乃至請求項７の何れか１つに記
載の音声合成装置において、上記感情制御手段による上記パラメータ変換情報に基づ
く参照パラメータの生成は、学習によって得られた変換
規則を用いて行うように成っていることを特徴とする音
声合成装置。
【請求項１０】入力された言語情報から、感情の種類
と各種類毎の強度とを含む感情情報を感情情報抽出手段
で抽出し、上記抽出された感情情報の経時変化で成る感情制御情報
を、感情制御情報変換手段によって、音声合成用の韻律
パターンおよび音声合成用のパラメータを時間方向に連
続して制御するためのパラメータ変換情報に変換し、上記パラメータ変換情報に基づいて、感情制御手段によ
って、上記韻律パターンとパラメータとの制御を行う際
に参照される参照パラメータを生成し、上記参照パラメータを参照して、韻律制御手段によって
上記韻律パターンを制御し、上記参照パラメータを参照して、パラメータ制御手段に
よって上記パラメータを制御し、上記制御された韻律パターンおよびパラメータに基づい
て、音声合成手段によって、上記入力された言語情報か
ら抽出された感情情報の連続変化に応じた合成音声を生
成することを特徴とする音声合成方法。
【請求項１１】感情の種類と各種類毎の強度とを含む
感情情報の経時変化で成る感情制御情報が感情入力イン
タフェース手段に入力されると、この感情入力インタフ
ェース手段によって、上記感情制御情報を、音声合成用
の韻律パターンおよび音声合成用のパラメータを時間方
向に連続して制御するためのパラメータ変換情報に変換
し、上記パラメータ変換情報に基づいて、感情制御手段によ
って、上記韻律パターンとパラメータとの制御を行う際
に参照される参照パラメータを生成し、上記参照パラメータを参照して、韻律制御手段によって
上記韻律パターンを制御し、上記参照パラメータを参照して、パラメータ制御手段に
よって上記パラメータを制御し、上記制御された韻律パターンおよびパラメータに基づい
て、音声合成手段によって、上記入力された感情制御情
報に応じた合成音声を生成することを特徴とする音声合
成方法。
【請求項１２】コンピュータを、請求項１における感情情報抽出手段,感情制御情報変換
手段,感情制御手段,韻律制御手段,パラメータ制御手段
および音声合成手段として機能させる音声合成プログラ
ムが記録されたことを特徴とするコンピュータ読出し可
能なプログラム記録媒体。
【請求項１３】コンピュータを、請求項５における感情入力インタフェース手段,感情制
御手段,韻律制御手段,パラメータ制御手段および音声合
成手段として機能させる音声合成プログラムが記録され
たことを特徴とするコンピュータ読出し可能なプログラ
ム記録媒体。