JP2003233388A - 音声合成装置および音声合成方法、並びに、プログラム記録媒体 - Google Patents

音声合成装置および音声合成方法、並びに、プログラム記録媒体

Info

Publication number
JP2003233388A
JP2003233388A JP2002031120A JP2002031120A JP2003233388A JP 2003233388 A JP2003233388 A JP 2003233388A JP 2002031120 A JP2002031120 A JP 2002031120A JP 2002031120 A JP2002031120 A JP 2002031120A JP 2003233388 A JP2003233388 A JP 2003233388A
Authority
JP
Japan
Prior art keywords
emotion
information
parameter
prosody
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002031120A
Other languages
English (en)
Inventor
Kazuhiro Miki
一浩 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002031120A priority Critical patent/JP2003233388A/ja
Publication of JP2003233388A publication Critical patent/JP2003233388A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 複数の感情変化を滑かに表現する音声を少数
の学習データで生成する。 【解決手段】 感情情報抽出部6は、入力テキストの意
味を認識して各種の感情強度を抽出する。感情制御情報
変換部7は、感情強度の経時変化である感情制御情報を
パラメータ変換情報に変換する。感情入力インタフェー
ス部9は、直接入力された感情制御情報を上記パラメー
タ変換情報に変換する。感情制御部8は、変換規則に従
ってパラメータ変換情報を参照パラメータに変換する。
韻律制御部3は、入力テキストに基づく韻律パターン
を、上記参照パラメータに基づいて感情韻律パターンに
変換する。パラメータ制御部4は、入力テキストに基づ
くパラメータを、上記参照パラメータに基づいて感情パ
ラメータに変換する。音声合成部5は、変換後の韻律パ
ターン及びパラメータに従って音素片を接続する。こう
して、連続して変化する感情を滑らかに表現できる合成
音声を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、感情のある音声
を合成して出力できる音声合成装置および音声合成方
法、並びに、音声合成プログラムを記録したプログラム
記録媒体に関する。
【0002】
【従来の技術】従来、音声合成装置において、出力音声
に感情を付与する感情制御を行う第1の方法として、予
め設定された言葉を無感情および様々な感情で発話し、
それらの音声から得られる声の高さ,大きさ,発話速度,
スペクトル等の感情に関連するパラメータの変化をニュ
ーラルネットワークによって学習する方法(特開平7‐
72900号公報)がある。この方法によれば、無感情
音声のパラメータを感情音声のパラメータに変換して、
感情音声を合成することができるのである。
【0003】また、感情制御を行う第2の方法として、
驚き,恐れ,嫌悪,怒り,幸福等の各感情毎にレジスタを設
置し、特定の文章や発話等から得られる感情喚起規則に
よって感情レジスタの値を変更させる方法(特開平7‐
104778号公報)がある。この方法によれば、任意
に設定できる感情の表出閾値を基準として、各感情値の
表出,非表出を決定して、感情を時間方向および強度方
向に離散的に制御することができる。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の出力音声に感情を付与する感情制御方法には、以下
のような問題がある。すなわち、上記第1の方法におい
ては、感情に関連するパラメータの学習にニューラルネ
ットワークが用いられている。ところが、ニューラルネ
ットワークの学習を行うためには、膨大な学習データと
学習時間が必要である。特に、感情音声に個人性を持た
せようとする場合等にはネットワークの再学習が必要と
なり、その度に話者毎の膨大な音声収録が必要であり、
膨大な時間と発話データとが必要になる。したがって、
上記第1の方法においては、ニューラルネットワーク学
習用の膨大な発話データと学習時間とが必要であるとい
う問題がある。
【0005】また、上記第2の方法においては、各感情
のパラメータの表出閾値を任意に設定し、この設定され
た表出閾値に基づいて各感情の表出(オン)と非表出(オ
フ)とを決定するようにしている。ところが、表出(オ
ン)と非表出(オフ)とが決定された感情の組み合わせで
は、感情の微妙な変化やその感情が有する強度の動的な
変化を滑らかに表現することが難しいという問題があ
る。
【0006】そこで、この発明の目的は、時々刻々変動
する複数の感情変化が滑らかに制御された音声を少数の
学習データで合成できる音声合成装置、および、音声合
成方法、並びに、音声合成プログラムを記録したプログ
ラム記録媒体を提供することにある。
【0007】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明の音声合成装置は、入力された言語情報
から,感情の種類と各種類毎の強度とを含む感情情報を
抽出する感情情報抽出手段と、上記抽出された感情情報
の経時変化で成る感情制御情報を,音声合成用の韻律パ
ターンおよび音声合成用のパラメータを時間方向に連続
して制御するためのパラメータ変換情報に変換する感情
制御情報変換手段と、上記パラメータ変換情報に基づい
て,上記韻律パターンとパラメータとの制御を行う際に
参照される参照パラメータを生成する感情制御手段と、
上記参照パラメータを参照して上記韻律パターンを制御
する韻律制御手段と、上記参照パラメータを参照して上
記パラメータを制御するパラメータ制御手段と、上記制
御された韻律パターンおよびパラメータに基づいて合成
音声を生成する音声合成手段を備えて、上記入力された
言語情報から抽出された感情情報の連続変化に応じた合
成音声を生成することを特徴としている。
【0008】上記構成によれば、入力された言語情報か
ら感情情報抽出手段で抽出された感情情報の経時変化で
成る感情制御情報が、感情制御情報変換手段によってパ
ラメータ変換情報に変換される。そして、上記パラメー
タ変換情報に基づいて、感情制御手段によって参照パラ
メータが生成される。そうすると、韻律制御手段および
パラメータ制御手段によって、上記参照パラメータを参
照して音声合成用の韻律パターンおよびパラメータが制
御される。そして、音声合成手段によって、上記制御さ
れた韻律パターンおよびパラメータに基づいて合成音声
が生成される。
【0009】こうして、上記入力された言語情報から抽
出された感情情報の連続変化に基づいて生成された上記
参照パラメータが参照されて、複数の感情変化が滑らか
に制御された合成音声が生成される。
【0010】また、1実施例では、上記第1の発明の音
声合成装置において、上記感情制御情報が入力されて,
この感情制御情報を上記パラメータ変換情報に変換する
感情入力インタフェース手段と、上記感情制御情報変換
手段からのパラメータ変換情報と上記感情入力インタフ
ェース手段からのパラメータ変換情報との何れか一方を
切り変え選択して,上記感情制御手段に出力するスイッ
チング手段を備えている。
【0011】この実施例によれば、感情入力インタフェ
ース手段に上記感情制御情報が直接入力されると、上記
入力された感情制御情報が上記パラメータ変換情報に変
換される。そして、スイッチング手段によって、上記感
情制御情報変換手段からのパラメータ変換情報と上記感
情入力インタフェース手段からのパラメータ変換情報と
の何れか一方が切り変え選択されて、上記感情制御手段
に出力される。こうして、出力される合成音声に、外部
から入力された上記感情制御情報に基づいて感情を付与
することが可能になる。
【0012】また、1実施例では、上記第1の発明の音
声合成装置において、感情強度の経時変化のパターンで
ある感情遷移パターンが複数登録されている感情遷移パ
ターンデータベースと、入力された指示に従って,上記
感情遷移パターンデータベースから感情遷移パターンを
選択すると共に,この選択された感情遷移パターンの形
状を変形して上記指示に基づく感情情報の経時変化で成
る上記感情制御情報を生成し,この生成された感情制御
情報を上記感情入力インタフェース手段に入力する感情
制御情報作成手段を備えている。
【0013】この実施例によれば、感情制御情報作成手
段に入力された指示に従って、感情遷移パターンデータ
ベースから感情遷移パターンが選択され、この選択され
た感情遷移パターンの形状が変形されて上記感情制御情
報が生成されて上記感情入力インタフェース手段に入力
される。こうして、上記感情入力インタフェース手段に
入力される上記感情制御情報を外部からの指示に応じて
自動的に生成することによって、外部からの感情の付与
が非常に容易になる。
【0014】また、1実施例では、上記第1の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは,入力されたテキストデータに対する言語
処理手段による言語処理で抽出された言語関連情報に基
づいて,韻律生成手段およびパラメータ生成手段によっ
て生成され、上記感情情報抽出手段による感情情報の抽
出は上記言語関連情報に基づいて行われ、上記音声合成
手段による上記合成音声の生成は,上記言語関連情報に
基づいて素片選択手段で選択された音声素片を接続して
行われるようになっている。
【0015】この実施例によれば、テキスト音声合成装
置において、入力されたテキストデータに基づいて生成
された韻律パターンおよびパラメータが、上記テキスト
データから抽出された感情情報の連続変化に基づいて生
成された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。
【0016】また、第2の発明の音声合成装置は、感情
の種類と各種類毎の強度とを含む感情情報の経時変化で
成る感情制御情報が入力されて,この感情制御情報を,音
声合成用の韻律パターンおよび音声合成用のパラメータ
を時間方向に連続して制御するためのパラメータ変換情
報に変換する感情入力インタフェース手段と、上記パラ
メータ変換情報に基づいて,上記韻律パターンとパラメ
ータとの制御を行う際に参照される参照パラメータを生
成する感情制御手段と、上記参照パラメータを参照して
上記韻律パターンを制御する韻律制御手段と、上記参照
パラメータを参照して上記パラメータを制御するパラメ
ータ制御手段と、上記制御された韻律パターン及びパラ
メータに基づいて合成音声を生成する音声合成手段を備
えて、上記入力された感情制御情報に応じた合成音声を
生成することを特徴としている。
【0017】上記構成によれば、感情入力インタフェー
ス手段によって、入力された感情制御情報がパラメータ
変換情報に変換される。そして、上記パラメータ変換情
報に基づいて、感情制御手段によって参照パラメータが
生成される。そうすると、韻律制御手段およびパラメー
タ制御手段によって、上記参照パラメータを参照して音
声合成用の韻律パターンおよびパラメータが制御され
る。そして、音声合成手段によって、上記制御された韻
律パターンおよびパラメータに基づいて合成音声が生成
される。
【0018】こうして、外部から直接入力された感情制
御情報に基づいて生成された上記参照パラメータが参照
されて、複数の感情変化が滑らかに制御された合成音声
が生成される。
【0019】また、1実施例では、上記第2の発明の音
声合成装置において、感情強度の経時変化のパターンで
ある感情遷移パターンが複数登録されている感情遷移パ
ターンデータベースと、入力された指示に従って,上記
感情遷移パターンデータベースから感情遷移パターンを
選択すると共に,この選択された感情遷移パターンの形
状を変形して上記指示に基づく感情情報の経時変化で成
る上記感情制御情報を生成し,この生成された感情制御
情報を上記感情入力インタフェース手段に入力する感情
制御情報作成手段を備えている。
【0020】この実施例によれば、感情制御情報作成手
段に入力された指示に従って、感情遷移パターンデータ
ベースから感情遷移パターンが選択され、この選択され
た感情遷移パターンの形状が変形されて上記感情制御情
報が生成されて上記感情入力インタフェース手段に入力
される。こうして、上記感情入力インタフェース手段に
入力される上記感情制御情報を外部からの指示に応じて
自動的に生成することによって、外部からの感情の付与
が非常に容易になる。
【0021】また、1実施例では、上記第2の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは、発話者の音声から韻律抽出手段およびパ
ラメータ抽出手段によって抽出されるようになってい
る。
【0022】この実施例によれば、パラメータ編集方式
による音声合成装置において、発話者の音声から抽出さ
れた韻律パターンおよびパラメータが、感情入力インタ
フェース手段に入力された感情制御情報に基づいて生成
された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。
【0023】また、1実施例では、上記第2の発明の音
声合成装置において、上記韻律制御手段およびパラメー
タ制御手段によって制御される上記韻律パターンおよび
パラメータは,入力されたテキストデータに対する言語
処理手段による言語処理で抽出された言語関連情報に基
づいて,韻律生成手段およびパラメータ生成手段によっ
て生成され、上記音声合成手段による上記合成音声の生
成は,上記言語関連情報に基づいて素片選択手段で選択
された音声素片を接続して行われるようになっている。
【0024】この実施例によれば、テキスト音声合成装
置において、入力されたテキストデータに基づいて生成
された韻律パターンおよびパラメータが、感情入力イン
タフェース手段に入力された感情制御情報に基づいて生
成された上記参照パラメータに応じて制御される。そし
て、この制御後の韻律パターンおよびパラメータに基づ
いて、複数の感情変化が滑らかに制御された合成音声が
生成される。
【0025】また、1実施例では、上記第1の発明ある
いは第2の発明の音声合成装置において、上記感情制御
手段による上記パラメータ変換情報に基づく参照パラメ
ータの生成は、学習によって得られた変換規則を用いて
行うように成っている。
【0026】この実施例によれば、上記感情制御手段に
よる上記参照パラメータの生成が、学習によって得られ
た変換規則を用いて容易に行われる。
【0027】また、第3の発明の音声合成方法は、入力
された言語情報から感情の種類と各種類毎の強度とを含
む感情情報を感情情報抽出手段で抽出し、上記抽出され
た感情情報の経時変化で成る感情制御情報を,感情制御
情報変換手段によって,音声合成用の韻律パターンおよ
び音声合成用のパラメータを時間方向に連続して制御す
るためのパラメータ変換情報に変換し、上記パラメータ
変換情報に基づいて,感情制御手段によって,上記韻律パ
ターンとパラメータとの制御を行う際に参照される参照
パラメータを生成し、上記参照パラメータを参照して,
韻律制御手段によって上記韻律パターンを制御し、上記
参照パラメータを参照して,パラメータ制御手段によっ
て上記パラメータを制御し、上記制御された韻律パター
ンおよびパラメータに基づいて,音声合成手段によって,
上記入力された言語情報から抽出された感情情報の連続
変化に応じた合成音声を生成することを特徴としてい
る。
【0028】上記構成によれば、入力された言語情報か
ら抽出された感情情報の経時変化で成る感情制御情報が
パラメータ変換情報に変換され、このパラメータ変換情
報に基づいて参照パラメータが生成される。そして、上
記参照パラメータが参照されて音声合成用の韻律パター
ンおよびパラメータが制御され、この制御された韻律パ
ターンおよびパラメータに基づいて合成音声が生成され
る。
【0029】こうして、上記第1の発明の場合と同様
に、入力言語情報から抽出された感情情報の連続変化に
基づいて生成された上記参照パラメータが参照されて、
複数の感情変化が滑らかに制御された合成音声が生成さ
れる。
【0030】また、第4の発明の音声合成方法は、感情
の種類と各種類毎の強度とを含む感情情報の経時変化で
成る感情制御情報が感情入力インタフェース手段に入力
されると,この感情入力インタフェース手段によって,上
記感情制御情報を,音声合成用の韻律パターンおよび音
声合成用のパラメータを時間方向に連続して制御するた
めのパラメータ変換情報に変換し、上記パラメータ変換
情報に基づいて,感情制御手段によって,上記韻律パター
ンとパラメータとの制御を行う際に参照される参照パラ
メータを生成し、上記参照パラメータを参照して,韻律
制御手段によって上記韻律パターンを制御し、上記参照
パラメータを参照して,パラメータ制御手段によって上
記パラメータを制御し、上記制御された韻律パターンお
よびパラメータに基づいて,音声合成手段によって,上記
入力された感情制御情報に応じた合成音声を生成するこ
とを特徴としている。
【0031】上記構成によれば、直接入力された感情制
御情報がパラメータ変換情報に変換され、この変換され
たパラメータ変換情報に基づいて参照パラメータが生成
される。そして、この参照パラメータが参照されて音声
合成用の韻律パターンおよびパラメータが制御され、上
記制御された韻律パターンおよびパラメータに基づいて
合成音声が生成される。
【0032】こうして、上記第2の発明の場合と同様
に、直接入力された感情制御情報に基づいて生成された
上記参照パラメータが参照されて、複数の感情変化が滑
らかに制御された合成音声が生成される。
【0033】また、第5の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における感情情報
抽出手段,感情制御情報変換手段,感情制御手段,韻律制
御手段,パラメータ制御手段および音声合成手段として
機能させる音声合成プログラムが記録されたことを特徴
としている。
【0034】上記構成によれば、上記第1の発明の場合
と同様に、入力された言語情報から抽出された感情情報
の連続変化に基づいて生成された上記参照パラメータが
参照されて、複数の感情変化が滑らかに制御された合成
音声が生成される。
【0035】また、第6の発明のプログラム記録媒体
は、コンピュータを、上記第2の発明における感情入力
インタフェース手段,感情制御手段,韻律制御手段,パラ
メータ制御手段および音声合成手段として機能させる音
声合成プログラムが記録されたことを特徴としている。
【0036】上記構成によれば、上記第2の発明の場合
と同様に、直接入力された感情制御情報に基づいて生成
された上記参照パラメータが参照されて、複数の感情変
化が滑らかに制御された合成音声が生成される。
【0037】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。
【0038】<第1実施の形態>本実施の形態において
は、説明を簡単にするために、テキスト音声合成装置を
例に上げて説明する。図1は、本実施の形態のテキスト
音声合成装置におけるブロック図である。
【0039】図1において、言語処理部1は、入力され
たテキストデータから読み情報,品詞情報,係り受け情報
等の言語関連情報を抽出する。素片選択部2は、言語処
理部1で得られた読み情報に基づいて、音声合成に適し
た音素片を選択する。ここで、上記音素片としては、各
音声合成方法に応じて、各音素,CVC(子音‐母音‐子
音),単語あるいは短い文章が用いられる。そうすると、
韻律制御部3は、言語処理部1によって抽出された言語
関連情報等を用いて各文章の韻律パターンを生成する。
さらに、後に詳述するように、上記生成された韻律パタ
ーンの制御を行う。パラメータ制御部4は、こうして生
成された韻律パターンおよび上記選択された音素片の情
報(素片情報)等に基づいて、スペクトルや発話速度等の
様々なパラメータの生成を行う。さらに、後に詳述する
ように、上記生成されたパラメータの制御を行って音声
合成部5に送出する。音声合成部5は、素片情報,韻律
情報および各種パラメータに基づいて上記選択された音
素片を接続することによって、合成音声を生成するので
ある。
【0040】その際に、感情情報抽出部6は、上記言語
処理部1によって抽出された上記言語関連情報に基づい
て、上記入力されたテキストの意味を解析して認識す
る。そして、認識された意味が予め規定された感情喚起
に該当する場合は、例えば「感情喚起Xの入力を認知し
たなら感情成分Yの強度をZだけ増加せよ」等の規則に
従って、経過時間における感情の各種類毎の強度(以
下、感情強度と言う)を変更する。こうして、感情情報
が抽出されるのである。
【0041】以上までの構成は、上記特開平7‐104
778号公報に開示された第2の感情制御方法と、概念
的には同じである。そして、上記第2の感情制御方法で
は、以後、上述のようにして得られた感情強度が予め設
定された感情表出閾値を超えたか超えないかで各感情の
オン・オフを設定し、オン・オフが設定された感情の組み
合せ(例えば、「驚き:オン,恐れ:オフ,嫌悪:オフ,怒り:
オフ,幸福:オン」等)によって、現在の感情を一意に決定
する。そして、決定された現在の感情に応じて音声合成
時に用いる各種パラメータの調整を行うことによって、
感情音声を作成するようにしている。
【0042】これに対して、本実施の形態においては、
微妙な感情の変化を滑らかに表現できる最適な感情音声
を合成して出力するものである。感情の変化は、通常、
韻律の変化やスペクトルの変形や発話速度の変化等とし
て発話音声に影響を与える。本実施の形態では、それら
韻律やスペクトルや発話速度のパラメータを連続時間で
制御することによって、感情の連続的な変化を制御する
のである。
【0043】そのために、感情制御情報変換部7では、
上記感情情報抽出部6によって感情情報として抽出され
た複数の感情強度の経時変化である感情制御情報を各種
パラメータの制御情報(パラメータ変換情報)に変換し、
得られたパラメータ変換情報を感情制御部8に出力す
る。感情制御部8は、後に詳述するような変換規則に従
って、上記パラメータ変換情報を、韻律制御部3および
パラメータ制御部4が上記制御を行う場合に参照する参
照パラメータに変換する。そして、変換された韻律の参
照パラメータを韻律制御部3に送出し、その他の参照パ
ラメータをパラメータ制御部4に送出する。そうする
と、韻律制御部3は、上述のようにして生成された無感
情音声の韻律パターン(以下、「無感情韻律パターン」や
「感情を伴わない韻律パターン」という場合もある)を、
感情制御部8からの参照パラメータを参照して感情音声
の韻律パターン(以下、「感情韻律パターン」や「感情を伴
う韻律パターン」という場合もある)に変換する。一方、
パラメータ制御部4は、上述のようにして生成された無
感情音声のパラメータ(以下、「無感情パラメータ」や「感
情を伴わないパラメータ」という場合もある)を、感情制
御部8からの参照パラメータを参照して感情音声のパラ
メータ(以下、「感情パラメータ」や「感情を伴うパラメー
タ」という場合もある)に変換する。その結果、音声合成
部5からは、連続して変化する感情を滑らかに表現でき
る合成音声が出力されるのである。
【0044】感情入力インタフェース部9には、上記感
情制御情報(各種の感情強度の経時変化)が外部から直接
入力される。そうすると、感情入力インタフェース部9
は感情制御情報変換部7と同様に、入力された感情制御
情報をパラメータ変換情報に変換する。スイッチング部
10は、通常は、感情制御情報変換部7側に切り換え接
続されており、感情入力インタフェース部9からのパラ
メータ変換情報の出力がある場合には、感情入力インタ
フェース部9側に切り換る。こうして、感情入力インタ
フェース部9からのパラメータ変換情報を優先的に感情
制御部8に出力するのである。
【0045】以下、上記感情制御情報変換部7(感情入
力インタフェース部9)および感情制御部8によって行
われる感情音声制御法について詳細に説明する。
【0046】上記感情制御部8は、上述したように、予
め学習された変換規則に従って感情の変化から上記参照
パラメータを求める。この参照パラメータは、韻律制御
部3およびパターン制御部4が、予め生成した韻律,発
話速度等の各パラメータを、時々刻々と変化する感情の
変化に伴って制御する際に参照される。
【0047】図2(a)は、上記変換規則の学習手順を示
す。この学習においては、先ず、ステップS1におい
て、様々な感情強度で発話された音声から、基本周波
数,パワー,ポーズ時間長等の韻律に関するパラメータを
抽出する。次に、ステップS2において、上記発話の感
情強度と抽出された韻律に関するパラメータとに基づい
て、図2(b)に示すような感情強度とパラメータとの関
係を表すグラフを作成し、このグラフを変換規則とする
のである。その際に、スペクトル包絡(以下、単にスペ
クトルと言う)等のごとく、感情の強度に応じて振幅の
ピーク位置が細かい時間長で変化するようなパラメータ
に関しては、DPマッチング等を用いて上記抽出された
スペクトルを変換する言語単位毎に無感情時のスペクト
ル(無感情スペクトル)に対応付け、対応点の系列を変換
規則とするのである。
【0048】図2の場合には、感情「怒り」の強度を発話
速度に変換する場合の変換規則作成が例示されている。
この場合、上記発話速度はスカラー値で表現されるた
め、図2(b)に●で示すように、「無感情」,「弱」,「中」,
「強」の各感情強度に話者の発話速度を対応させる。ま
た、各感情強度間は、感情強度と発話速度との対応点●
を通る一次関数で線形に補完する。こうして、屈曲した
直線でなる変換規則11が得られるのである。
【0049】この変換規則11を用いた参照パラメータ
(発話速度)への変換は、図2(b)において矢印12で示
すように、変換規則11によって感情強度に対応付けら
れた発話速度を求めることによって行われる。矢印12
の場合は、怒[強]と怒[中]との間の感情強度が発話速度
180に変換されるのである。尚、本実施の形態におい
ては、各感情強度間における学習データの無い部分に関
しては、感情強度とパラメータとの対応点間を線形に補
完して変換規則を作成するようにしている。しかしなが
ら、この発明においては、上記感情強度とパラメータ変
換情報との対応点間の補完方法について特に限定するも
のではなく、如何様な補完方法を用いても構わない。
【0050】ところで、スカラー値で表現できるパラメ
ータに関しては、図2に示すようにして変換規則11を
作成することができるのであるが、スペクトル等のよう
にベクトル値の列として与えられるパラメータに関して
は、図2に示す変換規則作成方法をそのまま適用するこ
とはできない。そこで、ベクトルで表現されるパラメー
タへの変換規則の作成は、以下のようにして行うのであ
る。
【0051】図3には、上記感情強度を、ベクトルで表
現されるパラメータに変換する際の変換規則の作成例を
示す。ここでは、スペクトルの変換規則の作成例を示
す。スペクトルの変換規則は、DPマッチングを用い
て、「無感情」,「弱」,「中」,「強」の各感情強度でのスペク
トル(感情スペクトル)と話者の無感情スペクトルとを変
換する言語単位毎に対応付け、各対応点の系列を求める
ことによって作成される。図3において、15は「無感
情」の変換規則であり、16は怒[弱]の変換規則であ
り、17は怒[中]の変換規則であり、18は怒[強]の変
換規則である。尚、図3においては、無感情スペクトル
および感情スペクトルは、周波数軸のみで代表して図示
しており、その実体の図示は省略している。
【0052】また、各感情強度間は線形に補完する。す
なわち、怒[強]と怒[中]との中間の変換規則19は、無
感情スペクトルにおける同一周波数に対応付けられた怒
[強]の感情スペクトルの周波数値と怒[中]の感情スペク
トルの周波数値との間を線形に補完し、これを無感情ス
ペクトルの各周波数について行うことによって求めるの
である。
【0053】図3に示す変換規則を用いた変換処理は、
取り扱うパラメータがベクトル(本例の場合はスペクト
ル)であること以外は、スカラー値で表されるパラメー
タの変換の場合とほぼ同様である。図4に、変換方法を
具体的に示す。例えば怒[強]をスペクトルに変換する場
合は、図3における変換規則18を用いる。そして、無
感情スペクトルにおける曲線上の各点の周波数を変換規
則18に基づいて非線形に移動させることによって、怒
[強]の感情スペクトルに変換するのである。その結果、
無感情スペクトルの周波数a1と感情スペクトルの周波
数a1'とが対応付けられ、以下同様にして、対応関係a
1‐a1',a2‐a2',…,a6‐a6'が得られる。こうし
て、感情強度を上記参照パラメータとしての感情スペク
トルに変換できるのである。
【0054】上記感情制御部8は、以上のようにして学
習された変換規則を用いることによって、感情強度をス
カラーあるいはベクトルで表現される参照パラメータに
変換することができる。したがって、韻律制御部3およ
びパラメータ制御部4は、上記参照パラメータを参照す
ることによって、予め生成したスカラーあるいはベクト
ルで表現される無感情パラメータを、感情強度に応じた
感情パラメータに容易に変換することが可能になるので
ある。
【0055】その際に、時々刻々変化する感情の種類と
強度とに伴って、適用する変換規則を逐次取り換えるこ
とによって、各参照パラメータを時間的に連続して求め
ることが可能になる。また、スペクトルのようにパラメ
ータがベクトルで定義されている場合においても、変換
規則を時間軸方向に例えば線形に補完して連続に変形さ
せることで時間的に連続した変換規則を得ることがで
き、時間的に連続した参照パラメータを求めることが可
能になる。
【0056】以下、時間的に連続した参照パラメータへ
の変換方法について説明する。これまでは、一般的な動
作の説明を行うために、感情強度として[弱],[中],[強]
なる離散した表記を用いてきた。しかしながら、実際に
感情パラメータへの変換処理を行うに際しては、感情強
度[強]を「1」とし、無感情を「0」として、正規化した感
情強度を用いる。
【0057】1つの感情の感情強度に関する変化を扱う
場合には、上述した方法を用いることによって感情を有
する音声を合成することができるのであるが、実際に使
用する場合には複数の感情が入り混じった音声を合成す
る必要がある。
【0058】そこで、本実施の形態においては、複数の
感情が入り混じった音声合成を実現するために、感情制
御情報変換部7は、感情制御情報として与えられる複数
種の感情強度の経時変化情報を各種パラメータの制御情
報に変換し、パラメータ変換情報として感情制御部8に
出力するのである。
【0059】上記感情制御情報変換部7による処理の一
例を以下に説明する。図5に、各感情強度の時間的変化
である感情制御情報を示す。この感情制御情報をパラメ
ータ変換情報に変換することによって、合成音声におけ
る複数の感情を制御することが可能になるのである。説
明を簡単にするため、以下においては、「驚き」と「怒り」
との2つの感情が存在する場合ついて説明する。
【0060】尚、実際の感情強度の時間的変化は、上記
感情情報抽出部6によって、感情強度を変更する毎に、
前回の感情強度変更時における感情強度と現在の感情強
度との間が線形に補完されて、線分21,22(図5参
照)として求められる。こうすることによって、複数の
感情に関して感情強度の経時変化(感情制御情報)を得る
ことができるのである。尚、上記感情制御情報の他の作
成方法については後に詳しく述べる。
【0061】上記感情制御情報変換部7は、上記感情情
報抽出部6から入力された図5に示すような「怒り」の経
時変化(一点鎖線)23と「驚き」の経時変化(破線)24と
の2つの感情の変化を、各時点毎に、感情強度[強]を
「1」とする一方無感情を「0」として、正規化する。その
際に、感情「怒り」の正規化感情強度と感情「驚き」の正規
化感情強度との加算値が1を超える場合には、各時点に
おける両感情の正規化感情強度の和で夫々の感情の正規
化感情強度を正規化する。以上の処理によって、図6に
示すように、怒りの割合の経時変化25、驚きの割合の
経時変化26、無感情の割合の経時変化27を、求める
ことができるのである。
【0062】上記感情制御情報変換部7は、こうして得
られた各感情の割合の経時変化を、上記パラメータ変換
情報として感情制御部8に出力する。例えば、図6にお
ける時点tにおいては、驚きの感情の割合が「0.6」で
あり、怒りの感情の割合が「0.4」であるというパラメ
ータ変換情報が、感情制御部8に送られることになる。
【0063】そうすると、上記感情制御部8は、与えら
れた上記パラメータ変換情報に基づいて、以下のように
して時点tでの参照パラメータを求める。すなわち、ス
カラー値で表現される参照パラメータの場合には、例え
ば発話速度の場合は、先ず、図2(b)に示す発話速度に
関する感情「怒り」の変換規則11を用い、上記感情の割
合を感情強度と見なして感情強度「0.4」に対応する発
話速度V1を求める。同様にして、発話速度に関する感
情「驚き」の変換規則を用いて感情強度「0.6」に対応す
る発話速度V2を求める。そして、各感情の割合を重み
として両発話速度の重み付き平均 (0.4×V1+0.6×V2)/(0.4+0.6) を求め、時点tの発話速度とするのである。
【0064】また、スペクトルのようにベクトルで表さ
れる参照パラメータの場合は、感情「驚き」の感情強度
0.6の変換規則と感情「怒り」の感情強度0.4の変換規
則とを平均して得られる変換規則を用いることによっ
て、時点tの感情スペクトルを得るのである。
【0065】そうすると、上述したように、上記韻律制
御部3及びパラメータ制御部4は、予め上記テキストデ
ータに基づいて生成した感情を伴わない韻律パターンお
よびパラメータを感情制御部8からの上記参照パラメー
タを参照して制御し、感情を伴った韻律パターンおよび
パラメータを生成するのである。
【0066】以上の処理によって、入力されたテキスト
データから、連続的に変化する感情音声を合成すること
ができるのである。さらに、本実施の形態においては、
テキストデータに基づく感情制御だけではなく、上述し
たように、外部から感情入力インタフェース部9に感情
制御情報を直接入力することによって、感情入力インタ
フェース部9は感情制御情報変換部7と同様に動作し
て、各感情の各時点における割合を求めて上記パラメー
タ変換情報として感情制御部8に出力するようになって
いる。
【0067】こうすることによって、入力されたテキス
ト文章に基づく合成音声に対して自由に感情を付与する
ことができるのである。また、予め感情制御情報変換部
7および感情制御部8によって付与されたテキストデー
タに基づく感情に対して変更を行うことも可能になる。
【0068】以上のように、本実施の形態においては、
上記感情情報抽出部6によって、言語処理部1に入力さ
れたテキストの意味を解析して認識し、認識結果に基づ
いて感情の種類と各種類毎の感情強度とを感情情報とし
て抽出する。そうすると、感情制御情報変換部7は、上
記抽出された複数の感情強度の経時変化である感情制御
情報を、各感情の割合の経時変化であるパラメータ変換
情報に変換して感情制御部8に出力する。感情入力イン
タフェース部9は、直接入力された感情制御情報を上記
パラメータ変換情報に変換して感情制御部8に出力す
る。
【0069】上記感情制御部8は、予め求められた上記
変換規則に従って、スイッチング部10で切り換え入力
されたパラメータ変換情報を参照パラメータに変換し、
韻律制御部3およびパラメータ制御部4に送出する。そ
うすると、韻律制御部3は、言語処理部1によって抽出
された言語関連情報等を用いて生成した無感情韻律パタ
ーンを、上記参照パラメータを参照して感情韻律パター
ンに変換する。一方、パラメータ制御部4は、予め生成
したスペクトルや発話速度等の無感情パラメータを、上
記参照パラメータを参照して感情パラメータに変換す
る。
【0070】したがって、本実施の形態によれば、上記
音声合成部5によって、感情を伴った韻律パターンおよ
びパラメータに従って素片選択部2で選択された音素片
を接続して、連続して変化する感情を滑らかに表現でき
る合成音声を生成することができるのである。
【0071】また、外部から入力された感情情報に基づ
いて、テキスト文章に基づく無感情の合成音声に対して
自由に感情を付与することができる。また、予め感情制
御情報変換部7および感情制御部8によって付与された
テキストデータに基づく感情に対して変更を行うことが
できるのである。
【0072】さらに、上記感情制御部8が用いる変換規
則は予め学習によって求めるのであるが、その際に必要
な学習データは、上記従来のニューラルネットワークを
用いる場合に比しておよそ1/10程度(条件によって異
なる)でよく、学習用の発話データ数と学習時間とを削
減することができるのである。
【0073】尚、本実施の形態における上記感情入力イ
ンタフェース部9に対する感情制御情報の入力は、例え
ば、各時間毎の各感情強度を数字と記号とを用いて記述
してキーボードから入力する方法や、各感情強度の経時
変化をグラフで表記してイメージスキャナで読み取らせ
てディジタル化する方法等、時間の経過と感情強度の遷
移とを対応付けて入力することが可能な入力方法であれ
ば、如何なる入力方法を用いても差し支えない。
【0074】また、本実施の形態においては、上記パラ
メータ変換情報を生成する際に、複数の感情の重み無し
の割合を用いている。しかしながら、表出し易い感情の
重みを重くする等、感情の割合の決定方法を任意に変更
しても構わない。また、感情入力インタフェース部9お
よびスイッチング部10を有して、外部から感情制御情
報を直接入力可能にしているが、感情入力インタフェー
ス部9およびスイッチング部10は必ずしも必要ではな
い。
【0075】また、上記感情情報抽出部6による感情強
度変更時の感情強度間の補完方法、上記ベクトルで定義
されるパラメータ用の変換規則の時間軸方向への補完方
法、複数の変換規則の平均方法については、特に限定す
るものではない。
【0076】<第2実施の形態>図7は、本実施の形態
におけるテキスト音声合成装置におけるブロック図であ
る。本テキスト音声合成装置は、外部から入力する感情
制御情報を作成する手段を備えている点が、上記第1実
施の形態におけるテキスト音声合成装置とは異なる。
【0077】図7において、言語処理部31,素片選択
部32,韻律制御部33,パラメータ制御部34,音声合
成部35,感情情報抽出部36,感情制御情報変換部3
7,感情制御部38,感情入力インタフェース部39およ
びスイッチング部40は、上記第1実施の形態において
図1に示す言語処理部1,素片選択部2,韻律制御部3,
パラメータ制御部4,音声合成部5,感情情報抽出部6,
感情制御情報変換部7,感情制御部8,感情入力インタフ
ェース部9およびスイッチング部10と同じであり、詳
細な説明は省略する。
【0078】本実施の形態においては、上記感情入力イ
ンタフェース部39に入力される感情制御情報は、上記
第1実施の形態において感情制御情報変換部7に入力さ
れる感情制御情報(図5参照)と同様に「感情強度の経時
変化」であるとする。
【0079】感情遷移パターンDB(データベース)41
には、図8に示すように、様々な感情強度の変化パター
ンである感情遷移パターンが、夫々にラベル(図8では
番号)が付されて格納されている。感情制御情報作成部
42は、外部から入力される指示に従って、指定された
感情遷移パターンを感情遷移パターンDB41から読み
出し、後に詳述するように変形して感情制御情報を作成
する。そして、こうして作成された感情制御情報を感情
入力インタフェース部39に入力するのである。
【0080】図8は、上記感情制御情報作成部42によ
る感情制御情報作成動作の説明図である。感情制御情報
作成部42には、各感情(例えば、感情「怒り」と感情「驚
き」)毎に、感情遷移パターンのラベル,最大の感情強度
値(正規化値)および感情遷移パターンの制御時間で成る
設定情報43が入力される。そうすると、感情制御情報
作成部42は、入力された設定情報43の感情遷移パタ
ーンのラベルに基づいて、感情遷移パターンDB41か
ら該当する感情遷移パターンを読み出す。図8に示す例
では、感情「怒り」の感情遷移パターンとして「5」番目の
感情遷移パターンが読み出され、感情「驚き」の感情遷移
パターンとして「1」番目の感情遷移パターンが読み出さ
れる。そして、各感情遷移パターンの最大値が設定情報
43の最大の感情強度値(正規化値)になり、各感情遷移
パターンの継続時間長が設定情報43の制御時間になる
ように、上記読み出された感情遷移パターンが幅方向と
高さ方向に変形されて、「怒り」と「驚き」との感情制御情
報44が生成されるのである。
【0081】テキストデータに因らずに感情を制御する
に当って、上記第1実施の形態のように、感情入力イン
タフェース部9に対して手作業で各感情の経時変化(感
情制御情報)を入力する場合には手間が掛る。これに対
して、本実施の形態においては、感情制御情報作成部4
2に対して僅かな数字等を入力するだけの簡単な操作
で、自動的に所望の感情強度および継続時間の感情制御
情報を作成して感情入力インタフェース部39に入力す
ることができる。したがって、感情入力インタフェース
部39に対して直接感情制御情報を入力する必要がな
く、短時間に簡単に合成音声の感情を外部から制御する
ことができるのである。
【0082】尚、本実施の形態においては、上記感情遷
移パターンDB41に5種類の感情遷移パターンが格納
されている場合を例示しているが、この登録感情遷移パ
ターン数は可能な限り増やすことができる。また、所望
の感情遷移パターンを読み出して変形する際に、感情制
御パターンのラベル,最大の感情強度値(正規化値)及び
感情遷移パターンの制御時間で成る設定情報43を入力
するようにしている。しかしながら、この発明はこれに
限定されるものではなく、設定情報43にはその他のパ
ラメータに関する設定情報を含めて、さらに木目細かい
感情制御情報を作成可能にすることもできる。
【0083】さらに、上記感情制御情報作成部42に対
して、マニュアルによって直接設定情報43を入力する
だけではなく、文章中に感情制御タグを埋め込んでお
き、この感情制御タグを入力装置によって読み込み、設
定情報に変換して感情制御情報作成部42に出力するよ
うに成すことも可能である。
【0084】また、上記第1,第2実施の形態において
は、感情情報抽出部6,36によってテキストデータに
基づいて感情強度を抽出し、感情制御情報変換部7,3
7によって、上記抽出された感情強度を各感情の割合の
経時変化であるパラメータ変換情報に変換して感情制御
部8に出力するようにしている。しかしながら、この発
明はこれに限定されるものではなく、図9あるいは図1
0に示すように構成することによって、テキストデータ
に因らずに、外部からの指示のみによってパラメータ変
換情報を得るようにしても差し支えない。尚、図9にお
いて、言語処理部51,素片選択部52,韻律制御部5
3,パラメータ制御部54,音声合成部55,感情入力イ
ンタフェース部56および感情制御部57は、上記第1
実施の形態において図1に示す言語処理部1,素片選択
部2,韻律制御部3,パラメータ制御部4,音声合成部5,
感情入力インタフェース部9および感情制御部8と同じ
であって、感情入力インタフェース部56には感情制御
情報が直接入力される。また、図10において、言語処
理部61,素片選択部62,韻律制御部63,パラメータ
制御部64,音声合成部65,感情遷移パターンDB6
6,感情制御情報作成部67,感情入力インタフェース部
68および感情制御部69は、上記第2実施の形態にお
いて図7に示す言語処理部31,素片選択部32,韻律制
御部33,パラメータ制御部34,音声合成部35,感情
遷移パターンDB41,感情制御情報作成部42,感情入
力インタフェース部39および感情制御部38と同じで
ある。
【0085】また、上記第1,第2実施の形態において
は、テキスト音声合成装置を例として説明しているが、
この発明はこれに限定されるものではない。例えば、パ
ラメータ編集方式による音声合成装置において、無感情
に発話された音声から無感情パラメータを抽出し、感情
遷移パターンDB,感情制御情報作成部,感情入力インタ
フェース部および感情制御部によって、上記抽出された
無感情パラメータを感情パラメータに変換して、感情音
声を合成するようにしても差し支えない。この場合であ
っても、2つ以上の感情が同時に存在しても感情の制御
を行うことは可能である。
【0086】ところで、上記各実施の形態における言語
処理部1・31・51・61,素片選択部2・32・52・6
2,韻律制御部3・33・53・63,パラメータ制御部4・
34・54・64,音声合成部5・35・55・65,感情情
報抽出部6・36,感情制御情報変換部7・37,感情制御
部8・38・57・69,感情入力インタフェース部9・3
9・56・68および感情制御情報作成部42・67とし
ての機能は、プログラム記録媒体に記録された音声合成
プログラムによって実現される。上記各実施の形態にお
ける上記プログラム記録媒体は、ROM(リード・オンリ
・メモリ)でなるプログラムメディアである。あるいは、
外部補助記憶装置に装着されて読み出されるプログラム
メディアであってもよい。尚、何れの場合においても、
上記プログラムメディアから音声合成プログラムを読み
出すプログラム読み出し手段は、上記プログラムメディ
アに直接アクセスして読み出す構成を有していてもよい
し、RAM(ランダム・アクセス・メモリ)に設けられたプ
ログラム記憶エリア(図示せず)にダウンロードし、上記
プログラム記憶エリアにアクセスして読み出す構成を有
していてもよい。尚、上記プログラムメディアからRA
M上記プログラム記憶エリアにダウンロードするための
ダウンロードプログラムは、予め本体装置に格納されて
いるものとする。
【0087】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタル多用途ディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0088】また、上記各実施の形態におけるテキスト
音声合成装置は、モデムを備えてインターネットを含む
通信ネットワークと接続可能に構成してもよい。その場
合には、上記プログラムメディアは、通信ネットワーク
からのダウンロード等によって流動的にプログラムを坦
持する媒体であっても差し支えない。尚、その場合にお
ける上記通信ネットワークからダウンロードするための
ダウンロードプログラムは、予め本体装置に格納されて
いるものとする。あるいは、別の記録媒体からインスト
ールされるものとする。
【0089】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0090】
【発明の効果】以上より明らかなように、第1の発明の
音声合成装置は、入力された言語情報から感情情報抽出
手段によって感情情報を抽出し、この抽出された感情情
報の経時変化で成る感情制御情報を感情制御情報変換手
段によってパラメータ変換情報に変換し、このパラメー
タ変換情報に基づいて感情制御手段によって参照パラメ
ータを生成し、上記参照パラメータを参照して韻律制御
手段およびパラメータ制御手段によって音声合成用の韻
律パターンおよびパラメータを制御し、音声合成手段に
よって上記制御された韻律パターンおよびパラメータに
基づいて合成音声を生成するので、上記入力された言語
情報から抽出された時々刻々変動する感情情報の連続変
化に応じて、複数の感情変化が滑らかに制御された合成
音声を生成することができる。
【0091】また、1実施例の音声合成装置は、直接入
力された感情制御情報を上記パラメータ変換情報に変換
する感情入力インタフェース手段と、上記感情制御情報
変換手段および感情入力インタフェース手段の何れかか
らのパラメータ変換情報を選択して上記感情制御手段に
出力するスイッチング手段を備えているので、外部から
上記感情制御情報を入力することによって、出力される
合成音声に任意に感情を付与したり、出力される合成音
声の感情を変更したりすることができる。
【0092】また、1実施例の音声合成装置は、感情強
度の経時変化のパターンである感情遷移パターンを感情
遷移パターンデータベースに複数登録し、感情制御情報
作成手段によって、入力された指示に従って、上記感情
遷移パターンデータベースから感情遷移パターンを選択
してその形状を変形することによって、上記感情制御情
報を生成して上記感情入力インタフェース手段に入力す
るので、上記感情入力インタフェース手段に入力される
上記感情制御情報を、外部からの指示に応じて自動的に
生成することができる。したがって、外部からの感情の
付与や制御を非常に簡単に行うことができる。
【0093】また、1実施例の音声合成装置は、上記制
御される上記韻律パターンおよびパラメータを、テキス
トデータから言語処理手段で抽出された言語関連情報に
基づいて韻律生成手段およびパラメータ生成手段によっ
て生成し、上記感情情報の抽出を上記言語関連情報に基
づいて行い、上記合成音声の生成を、上記言語関連情報
に基づいて素片選択手段で選択された音声素片を接続し
て行うので、テキスト音声合成装置において、上記入力
されたテキストデータから抽出された時々刻々変動する
感情情報の連続変化に応じて、複数の感情変化が滑らか
に制御された合成音声を生成することができる。
【0094】また、第2の発明の音声合成装置は、感情
入力インタフェース手段によって、入力された感情制御
情報を上記パラメータ変換情報に変換し、このパラメー
タ変換情報に基づいて感情制御手段によって参照パラメ
ータを生成し、上記参照パラメータを参照して韻律制御
手段およびパラメータ制御手段によって音声合成用の韻
律パターンおよびパラメータを制御し、音声合成手段に
よって上記制御された韻律パターンおよびパラメータに
基づいて合成音声を生成するので、外部から上記感情制
御情報を入力することによって、時々刻々変動する複数
の感情変化が滑らかに制御された合成音声を生成するこ
とができる。
【0095】また、1実施例の音声合成装置は、感情強
度の経時変化のパターンである感情遷移パターンを感情
遷移パターンデータベースに複数登録し、感情制御情報
作成手段によって、入力された指示に従って、上記感情
遷移パターンデータベースから感情遷移パターンを選択
してその形状を変形することによって、上記感情制御情
報を生成して上記感情入力インタフェース手段に入力す
るので、上記感情入力インタフェース手段に入力される
上記感情制御情報を、外部からの指示に応じて自動的に
生成することができる。したがって、外部からの感情の
付与や制御を非常に簡単に行うことができる。
【0096】また、1実施例の音声合成装置は、上記制
御される韻律パターンおよびパラメータを、韻律抽出手
段およびパラメータ抽出手段によって、発話者の音声か
ら抽出するので、パラメータ編集方式による音声合成装
置において、外部から上記感情制御情報を入力すること
によって、時々刻々変動する複数の感情変化が滑らかに
制御された合成音声を生成することができる。
【0097】また、1実施例の音声合成装置は、上記制
御される韻律パターンおよびパラメータを、テキストデ
ータから言語処理手段で抽出された言語関連情報に基づ
いて韻律生成手段及びパラメータ生成手段によって生成
し、上記合成音声の生成を、上記言語関連情報に基づい
て素片選択手段で選択された音声素片を接続して行うの
で、テキスト音声合成装置において、外部から上記感情
制御情報を入力することによって、時々刻々変動する複
数の感情変化が滑らかに制御された合成音声を生成する
ことができる。
【0098】また、1実施例の音声合成装置は、上記感
情制御手段による上記パラメータ変換情報に基づく参照
パラメータの生成を、学習によって得られた変換規則を
用いて行うので、上記参照パラメータの生成を容易に行
うことができる。その際における学習は、ニューラルネ
ットワークを用いる場合に比しておよそ1/10程度の
少ない学習データで行うことができる。
【0099】また、第3の発明の音声合成方法は、入力
された言語情報から抽出された感情情報の経時変化で成
る感情制御情報をパラメータ変換情報に変換し、このパ
ラメータ変換情報に基づいて参照パラメータを生成し、
この参照パラメータを参照して音声合成用の韻律パター
ンおよびパラメータを制御し、この制御された韻律パタ
ーンおよびパラメータに基づいて合成音声を生成するの
で、上記第1の発明の場合と同様に、上記入力された言
語情報から抽出された時々刻々変動する感情情報の連続
変化に応じて、複数の感情変化が滑らかに制御された合
成音声を生成することができる。
【0100】また、第4の発明の音声合成方法は、直接
入力された感情制御情報をパラメータ変換情報に変換
し、この変換されたパラメータ変換情報に基づいて参照
パラメータを生成し、この参照パラメータを参照して音
声合成用の韻律パターンおよびパラメータを制御し、上
記制御された韻律パターンおよびパラメータに基づいて
合成音声を生成するので、上記第2の発明の場合と同様
に、外部から上記感情制御情報を入力することによっ
て、時々刻々変動する複数の感情変化が滑らかに制御さ
れた合成音声を生成することができる。
【0101】また、第5の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における感情情報
抽出手段,感情制御情報変換手段,感情制御手段,韻律制
御手段,パラメータ制御手段および音声合成手段として
機能させる音声合成プログラムを記録しているので、上
記第1の発明の場合と同様に、上記入力された言語情報
から抽出された時々刻々変動する感情情報の連続変化に
応じて、複数の感情変化が滑らかに制御された合成音声
を生成することができる。
【0102】また、第6の発明のプログラム記録媒体
は、コンピュータを、上記第2の発明における感情入力
インタフェース手段,感情制御手段,韻律制御手段,パラ
メータ制御手段および音声合成手段として機能させる音
声合成プログラムを記録しているので、上記第2の発明
の場合と同様に、外部から上記感情制御情報を入力する
ことによって、時々刻々変動する複数の感情変化が滑ら
かに制御された合成音声を生成することができる。
【図面の簡単な説明】
【図1】 この発明の音声合成装置の一例としてのテキ
スト音声合成装置におけるブロック図である。
【図2】 図1における感情制御部が用いる変換規則の
学習手順および変換規則を用いたパラメータへの変換手
順の説明図である。
【図3】 感情強度をベクトルで表現するパラメータに
変換する変換規則の作成例を示す図である。
【図4】 図3に示す変換規則を用いたパラメータへの
変換手順の説明図である。
【図5】 各感情強度の時間的変化である感情制御情報
を示す図である。
【図6】 各感情の割合の経時変化であるパラメータ変
換情報を示す図である。
【図7】 図1とは異なるテキスト音声合成装置のブロ
ック図である。
【図8】 図7における感情制御情報作成部による感情
制御情報作成動作の説明図である。
【図9】 図1および図7とは異なるテキスト音声合成
装置のブロック図である。
【図10】 図1,図7および図9とは異なるテキスト
音声合成装置のブロック図である。
【符号の説明】
1,31,51,61…言語処理部、 2,32,52,62…素片選択部、 3,33,53,63…韻律制御部、 4,34,54,64…パラメータ制御部、 5,35,55,65…音声合成部、 6,36…感情情報抽出部、 7,37…感情制御情報変換部、 8,38,57,69…感情制御部、 9,39,56,68…感情入力インタフェース部、 10,40…スイッチング部、 11…変換規則、 15〜19…スペクトルの変換規則、 41,66…感情遷移パターンDB、 42,67…感情制御情報作成部。

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 入力された言語情報から、感情の種類と
    各種類毎の強度とを含む感情情報を抽出する感情情報抽
    出手段と、 上記抽出された感情情報の経時変化で成る感情制御情報
    を、音声合成用の韻律パターンおよび音声合成用のパラ
    メータを時間方向に連続して制御するためのパラメータ
    変換情報に変換する感情制御情報変換手段と、 上記パラメータ変換情報に基づいて、上記韻律パターン
    とパラメータとの制御を行う際に参照される参照パラメ
    ータを生成する感情制御手段と、 上記参照パラメータを参照して上記韻律パターンを制御
    する韻律制御手段と、 上記参照パラメータを参照して上記パラメータを制御す
    るパラメータ制御手段と、 上記制御された韻律パターンおよびパラメータに基づい
    て合成音声を生成する音声合成手段を備えて、上記入力
    された言語情報から抽出された感情情報の連続変化に応
    じた合成音声を生成することを特徴とする音声合成装
    置。
  2. 【請求項2】 請求項1に記載の音声合成装置におい
    て、 上記感情制御情報が入力されて、この感情制御情報を上
    記パラメータ変換情報に変換する感情入力インタフェー
    ス手段と、 上記感情制御情報変換手段からのパラメータ変換情報と
    上記感情入力インタフェース手段からのパラメータ変換
    情報との何れか一方を切り変え選択して、上記感情制御
    手段に出力するスイッチング手段を備えたことを特徴と
    する音声合成装置。
  3. 【請求項3】 請求項2に記載の音声合成装置におい
    て、 感情強度の経時変化のパターンである感情遷移パターン
    が複数登録されている感情遷移パターンデータベース
    と、 入力された指示に従って、上記感情遷移パターンデータ
    ベースから感情遷移パターンを選択すると共に、この選
    択された感情遷移パターンの形状を変形して上記指示に
    基づく感情情報の経時変化で成る上記感情制御情報を生
    成し、この生成された感情制御情報を上記感情入力イン
    タフェース手段に入力する感情制御情報作成手段を備え
    たことを特徴とする音声合成装置。
  4. 【請求項4】 請求項1乃至請求項3の何れか一つに記
    載の音声合成装置において、 上記韻律制御手段およびパラメータ制御手段によって制
    御される上記韻律パターンおよびパラメータは、入力さ
    れたテキストデータに対する言語処理手段による言語処
    理で抽出された言語関連情報に基づいて、韻律生成手段
    およびパラメータ生成手段によって生成され、 上記感情情報抽出手段による感情情報の抽出は、上記言
    語関連情報に基づいて行われ、 上記音声合成手段による上記合成音声の生成は、上記言
    語関連情報に基づいて素片選択手段で選択された音声素
    片を接続して行われるようになっていることを特徴とす
    る音声合成装置。
  5. 【請求項5】 感情の種類と各種類毎の強度とを含む感
    情情報の経時変化で成る感情制御情報が入力されて、こ
    の感情制御情報を、音声合成用の韻律パターンおよび音
    声合成用のパラメータを時間方向に連続して制御するた
    めのパラメータ変換情報に変換する感情入力インタフェ
    ース手段と、 上記パラメータ変換情報に基づいて、上記韻律パターン
    とパラメータとの制御を行う際に参照される参照パラメ
    ータを生成する感情制御手段と、 上記参照パラメータを参照して上記韻律パターンを制御
    する韻律制御手段と、 上記参照パラメータを参照して上記パラメータを制御す
    るパラメータ制御手段と、 上記制御された韻律パターンおよびパラメータに基づい
    て合成音声を生成する音声合成手段を備えて、上記入力
    された感情制御情報に応じた合成音声を生成することを
    特徴とする音声合成装置。
  6. 【請求項6】 請求項5に記載の音声合成装置におい
    て、 感情強度の経時変化のパターンである感情遷移パターン
    が複数登録されている感情遷移パターンデータベース
    と、 入力された指示に従って、上記感情遷移パターンデータ
    ベースから感情遷移パターンを選択すると共に、この選
    択された感情遷移パターンの形状を変形して上記指示に
    基づく感情情報の経時変化で成る上記感情制御情報を生
    成し、この生成された感情制御情報を上記感情入力イン
    タフェース手段に入力する感情制御情報作成手段を備え
    たことを特徴とする音声合成装置。
  7. 【請求項7】 請求項5あるいは請求項6に記載の音声
    合成装置において、 上記韻律制御手段およびパラメータ制御手段によって制
    御される上記韻律パターンおよびパラメータは、発話者
    の音声から韻律抽出手段およびパラメータ抽出手段によ
    って抽出されるようになっていることを特徴とする音声
    合成装置。
  8. 【請求項8】 請求項5あるいは請求項6に記載の音声
    合成装置において、 上記韻律制御手段およびパラメータ制御手段によって制
    御される上記韻律パターンおよびパラメータは、入力さ
    れたテキストデータに対する言語処理手段による言語処
    理で抽出された言語関連情報に基づいて、韻律生成手段
    およびパラメータ生成手段によって生成され、 上記音声合成手段による上記合成音声の生成は、上記言
    語関連情報に基づいて素片選択手段で選択された音声素
    片を接続して行われるようになっていることを特徴とす
    る音声合成装置。
  9. 【請求項9】 請求項1乃至請求項7の何れか1つに記
    載の音声合成装置において、 上記感情制御手段による上記パラメータ変換情報に基づ
    く参照パラメータの生成は、学習によって得られた変換
    規則を用いて行うように成っていることを特徴とする音
    声合成装置。
  10. 【請求項10】 入力された言語情報から、感情の種類
    と各種類毎の強度とを含む感情情報を感情情報抽出手段
    で抽出し、 上記抽出された感情情報の経時変化で成る感情制御情報
    を、感情制御情報変換手段によって、音声合成用の韻律
    パターンおよび音声合成用のパラメータを時間方向に連
    続して制御するためのパラメータ変換情報に変換し、 上記パラメータ変換情報に基づいて、感情制御手段によ
    って、上記韻律パターンとパラメータとの制御を行う際
    に参照される参照パラメータを生成し、 上記参照パラメータを参照して、韻律制御手段によって
    上記韻律パターンを制御し、 上記参照パラメータを参照して、パラメータ制御手段に
    よって上記パラメータを制御し、 上記制御された韻律パターンおよびパラメータに基づい
    て、音声合成手段によって、上記入力された言語情報か
    ら抽出された感情情報の連続変化に応じた合成音声を生
    成することを特徴とする音声合成方法。
  11. 【請求項11】 感情の種類と各種類毎の強度とを含む
    感情情報の経時変化で成る感情制御情報が感情入力イン
    タフェース手段に入力されると、この感情入力インタフ
    ェース手段によって、上記感情制御情報を、音声合成用
    の韻律パターンおよび音声合成用のパラメータを時間方
    向に連続して制御するためのパラメータ変換情報に変換
    し、 上記パラメータ変換情報に基づいて、感情制御手段によ
    って、上記韻律パターンとパラメータとの制御を行う際
    に参照される参照パラメータを生成し、 上記参照パラメータを参照して、韻律制御手段によって
    上記韻律パターンを制御し、 上記参照パラメータを参照して、パラメータ制御手段に
    よって上記パラメータを制御し、 上記制御された韻律パターンおよびパラメータに基づい
    て、音声合成手段によって、上記入力された感情制御情
    報に応じた合成音声を生成することを特徴とする音声合
    成方法。
  12. 【請求項12】 コンピュータを、 請求項1における感情情報抽出手段,感情制御情報変換
    手段,感情制御手段,韻律制御手段,パラメータ制御手段
    および音声合成手段として機能させる音声合成プログラ
    ムが記録されたことを特徴とするコンピュータ読出し可
    能なプログラム記録媒体。
  13. 【請求項13】 コンピュータを、 請求項5における感情入力インタフェース手段,感情制
    御手段,韻律制御手段,パラメータ制御手段および音声合
    成手段として機能させる音声合成プログラムが記録され
    たことを特徴とするコンピュータ読出し可能なプログラ
    ム記録媒体。
JP2002031120A 2002-02-07 2002-02-07 音声合成装置および音声合成方法、並びに、プログラム記録媒体 Pending JP2003233388A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002031120A JP2003233388A (ja) 2002-02-07 2002-02-07 音声合成装置および音声合成方法、並びに、プログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002031120A JP2003233388A (ja) 2002-02-07 2002-02-07 音声合成装置および音声合成方法、並びに、プログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2003233388A true JP2003233388A (ja) 2003-08-22

Family

ID=27774613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002031120A Pending JP2003233388A (ja) 2002-02-07 2002-02-07 音声合成装置および音声合成方法、並びに、プログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2003233388A (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
JP2009157220A (ja) * 2007-12-27 2009-07-16 Hitachi Ltd 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
US8065157B2 (en) 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2015148750A (ja) * 2014-02-07 2015-08-20 ヤマハ株式会社 歌唱合成装置
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
CN111192568A (zh) * 2018-11-15 2020-05-22 华为技术有限公司 一种语音合成方法及语音合成装置
WO2020196979A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법
CN115547296A (zh) * 2022-11-29 2022-12-30 零犀(北京)科技有限公司 一种语音合成方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH07104778A (ja) * 1993-10-07 1995-04-21 Fuji Xerox Co Ltd 感情表出装置
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04199098A (ja) * 1990-11-29 1992-07-20 Meidensha Corp 規則音声合成装置
JPH05100692A (ja) * 1991-05-31 1993-04-23 Oki Electric Ind Co Ltd 音声合成装置
JPH0772900A (ja) * 1993-09-02 1995-03-17 Nippon Hoso Kyokai <Nhk> 音声合成の感情付与方法
JPH07104778A (ja) * 1993-10-07 1995-04-21 Fuji Xerox Co Ltd 感情表出装置
JPH07244496A (ja) * 1994-03-07 1995-09-19 N T T Data Tsushin Kk テキスト朗読装置
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JPH11202884A (ja) * 1997-05-21 1999-07-30 Nippon Telegr & Teleph Corp <Ntt> 合成音声メッセージ編集作成方法、その装置及びその方法を記録した記録媒体
JPH11231885A (ja) * 1998-02-19 1999-08-27 Fujitsu Ten Ltd 音声合成装置
JP2001209820A (ja) * 2000-01-25 2001-08-03 Nec Corp 感情表出装置及びプログラムを記録した機械読み取り可能な記録媒体
JP2001242882A (ja) * 2000-02-29 2001-09-07 Toshiba Corp 音声合成方法及び音声合成装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006123539A1 (ja) * 2005-05-18 2006-11-23 Matsushita Electric Industrial Co., Ltd. 音声合成装置
US8073696B2 (en) 2005-05-18 2011-12-06 Panasonic Corporation Voice synthesis device
JP2006330060A (ja) * 2005-05-23 2006-12-07 Univ Waseda 音声合成装置、音声処理装置、およびプログラム
US8065157B2 (en) 2005-05-30 2011-11-22 Kyocera Corporation Audio output apparatus, document reading method, and mobile terminal
JP2009157220A (ja) * 2007-12-27 2009-07-16 Hitachi Ltd 音声編集合成システム、音声編集合成プログラム及び音声編集合成方法
US8626489B2 (en) 2009-08-19 2014-01-07 Samsung Electronics Co., Ltd. Method and apparatus for processing data
JP2015072490A (ja) * 2012-03-14 2015-04-16 株式会社東芝 テキスト音声合成方法及びシステム
JP2016066088A (ja) * 2012-03-14 2016-04-28 株式会社東芝 音声合成方法、装置及びプログラム
JP2015180966A (ja) * 2012-07-18 2015-10-15 株式会社東芝 音声処理システム
JP2015148750A (ja) * 2014-02-07 2015-08-20 ヤマハ株式会社 歌唱合成装置
CN111192568A (zh) * 2018-11-15 2020-05-22 华为技术有限公司 一种语音合成方法及语音合成装置
CN111192568B (zh) * 2018-11-15 2022-12-13 华为技术有限公司 一种语音合成方法及语音合成装置
WO2020196979A1 (ko) * 2019-03-25 2020-10-01 한국과학기술원 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
WO2021060591A1 (ko) * 2019-09-26 2021-04-01 미디어젠 주식회사 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치
CN115547296A (zh) * 2022-11-29 2022-12-30 零犀(北京)科技有限公司 一种语音合成方法、装置、电子设备及存储介质
CN115547296B (zh) * 2022-11-29 2023-03-10 零犀(北京)科技有限公司 一种语音合成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
Black et al. Generating F/sub 0/contours from ToBI labels using linear regression
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
US11763797B2 (en) Text-to-speech (TTS) processing
US20050144002A1 (en) Text-to-speech conversion with associated mood tag
JP2002530703A (ja) 音声波形の連結を用いる音声合成
GB2392592A (en) Speech synthesis
US6212501B1 (en) Speech synthesis apparatus and method
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP2002258885A (ja) テキスト音声合成装置およびプログラム記録媒体
JP2003233388A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
KR102473685B1 (ko) 발화 스타일 인코딩 네트워크 이용한 스타일 음성 합성 장치 및 음성 합성 방법
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
O'Shaughnessy Modern methods of speech synthesis
JP2001265375A (ja) 規則音声合成装置
KR20010018064A (ko) 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
JPH0887297A (ja) 音声合成システム
Chettri et al. Nepali text to speech synthesis system using ESNOLA method of concatenation
JPH08335096A (ja) テキスト音声合成装置
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
WO2004027753A1 (en) Method of synthesis for a steady sound signal
EP1589524B1 (en) Method and device for speech synthesis
KR0134707B1 (ko) 다이폰 단위를 이용한 엘에스피(lsp)방식의 음성 합성 방법
JPH05224688A (ja) テキスト音声合成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060925

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071002