JP2003337592A

JP2003337592A - 音声合成方法及び音声合成装置及び音声合成プログラム

Info

Publication number: JP2003337592A
Application number: JP2002146162A
Authority: JP
Inventors: Ryutaro Tokuda; 龍太郎徳田; Takehiko Kagoshima; 岳彦籠嶋; Takeshi Hirabayashi; 剛平林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-05-21
Filing date: 2002-05-21
Publication date: 2003-11-28

Abstract

(57)【要約】【課題】人の感情、発話スタイル、個性などの発話特性
の異なる様々な音声を柔軟にしかも容易に合成すること
ができる音声合成方法及び装置を提供する。【解決手段】テキストを解析することによって得られる
言語情報を基に標準的な発話特性を有する音声の韻律的
な特徴を表した第１のパラメータを求めるとともに、言
語情報と指定された発話特性とを基に、指定された発話
特性に対応する韻律的な特徴を表すよう、第１のパラメ
ータを補正するための第２のパラメータを求め、音声の
韻律的な特徴を制御するための音声の単位としての韻律
制御単位毎に、少なくとも第１および第２のパラータを
重畳して、指定された発話特性に対応する韻律的な特徴
を表す第３のパラメータを生成し、この第３のパラメー
タを基に、指定された発話特性に対応する合成音声を生
成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、人の感情や個性、
発話スタイルなどの発話特性の付与された合成音声の生
成方法および装置に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。このようなテキス
ト音声合成では、人間が文章を読み上げるような調子
（いわゆる朗読調）の音声を合成することが普通であっ
たが、近年、感情や発話スタイルの違いや、方言、なま
りなどの人の個性の違いなどを発話特性として付与した
合成音声を生成する方法が提案されている。

【０００３】例えば、第１の従来技術として、特開２０
０１−２４２８８２号公報に記載された「音声合成方法
及び音声合成装置」では、複数の韻律制御辞書部を用い
て生成された韻律パラメータを、任意の重みで内挿処理
して韻律パラメータを生成し、その韻律パラメータを用
いて音声合成を行うことで、多種多様な韻律的特徴を持
つ合成音声を生成する方法が開示されている。

【０００４】この第１の従来技術に類似するものとし
て、特開平１０−１１０８３号公報に記載されたテキス
ト音声変換装置もある。

【０００５】また、第２の従来技術として、感情の付与
された音声を合成するための、特開平５−１００６９２
号公報に記載された「音声合成装置」がある。この装置
は、予め種々の感情に対応する韻律パラメータのレベル
の組み合わせを記憶手段（音声制御パラメータ記憶部）
に記憶しておき、「明朗」、「落胆」、「怒り」等の感
情毎にこれら組み合わせを読み出し、レベル設定手段に
一括設定することで、個々のレベル設定の煩雑さを回避
して種々の発話スタイルを容易に実現しようとするもの
である。

【０００６】また、第３の従来技術として、特開平７−
２４４４９６号公報に記載された「テキスト朗読装置」
がある。この装置は、予め感情毎の韻律パラメータ変更
情報と、操作対象韻律パラメータの変更限度情報を保持
しておき、音韻毎にパラメータ変更限度に従って韻律パ
ラメータを操作することで、必要以上の操作による合成
音声の品質劣化を防止しようとするものである。

【０００７】

【発明が解決しようとする課題】第１の従来技術では、
例えば個人性を保ったまま、基準となる韻律パラメータ
に指定した発話特性を付与する場合、指定した発話特性
を持つ韻律制御辞書部は基準となる韻律制御辞書部と同
一人物のものを用意しなければならないので、この場合
に複数の人物の発話特性を制御するには人物毎に複数の
韻律制御辞書部を用意する必要があり、韻律制御辞書部
作成に手間がかかるという問題があった。

【０００８】また、第２と第３の従来技術のように、基
準となる韻律パラメータに発話特性を付与するための発
話特性制御パラメータを、予め発話特性ごとに文中で一
定に設定しておく構成では、パラメータ変更情報の生成
に言語情報を用いることが出来ないので、文中の言語情
報によって変化する発話特性特有の韻律を表現できない
という問題があった。

【０００９】そこで、本発明は、上記問題点に鑑みてな
されたものであり、人の感情や個性、発話スタイルなど
の発話特性の異なる様々な音声を柔軟にしかも容易に合
成することができる音声合成方法及び音声合成装置を提
供することを目的とする。

【００１０】

【課題を解決するための手段】本発明は、入力されたテ
キストと指定された発話特性に対応する音声の韻律的な
特徴を表す韻律パラメータを生成して、指定された発話
特性に対応する合成音声を生成するものであって、前記
テキストを解析することによって得られる言語情報を基
に、標準的な発話特性を有する音声の韻律的な特徴を表
した第１のパラメータを求めるとともに、少なくとも前
記言語情報と前記指定された発話特性とを基に、当該指
定された発話特性に対応する韻律的な特徴を表すよう、
前記第１のパラメータを補正するための第２のパラメー
タを求め、音声の韻律的な特徴を制御するための音声の
単位としての韻律制御単位毎に、少なくとも前記第１お
よび第２のパラータを重畳して、前記指定された発話特
性に対応する韻律的な特徴を表す第３のパラメータを生
成し、この第３のパラメータを基に、前記指定された発
話特性に対応する合成音声を生成することを特徴とす
る。

【００１１】本発明によれば、標準的な発話特性を有す
る音声の韻律的な特徴を表した第１のパラメータを人の
感情や個性、発話スタイルなどの発話特性の違いに応じ
て補正するための第２のパラメータを求めるための辞書
と、それを選択するための規則を作成・記憶しておくだ
けで、人の感情や個性、発話スタイルなどの発話特性の
違いに応じた様々な韻律的な特徴を表すパラメータ（上
記第３のパラメータ）を生成することができ、この第３
のパラメータを用いて、発話特性の異なる様々な音声を
柔軟にしかも容易に合成することができる。

【００１２】

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。

【００１３】図１は、本実施形態に係る音声合成装置の
機能構成例を示したブロック図である。

【００１４】図１に示す音声合成装置では、人の平静時
の発話特性を基準とし、それに対し、怒っているとき、
喜んでいるとき、悲しんでいるときなどの発話特性を
「感情」として、指定するようになっている。そして、
この指定された感情に対応する韻律的な特徴をもつ音声
を合成するようになっている。

【００１５】図1に示した音声合成装置は、テキスト解
析部１０、韻律パラメータ生成部１２、感情制御パラメ
ータ生成部１３、感情付き韻律パラメータ生成部１７、
音声合成部１９、韻律制御辞書部１１、例えば、「怒
り」や「喜び」などの各種感情毎の複数（例えば、図１
では、３つ）の感情制御辞書部１４ａ〜１４ｃ（以下、
これらを区別する必要がない場合（例えば共通点を説明
する場合）には、感情制御辞書部１４と呼ぶことがあ
る）、音声素片辞書部１８から構成されている。

【００１６】韻律制御辞書部１１、感情制御辞書部１４
ａ〜１４ｃ、音声素片辞書部１８は、例えば、ＲＯＭな
どの半導体メモリなどに上記各辞書を記憶させて構成さ
れたものである。

【００１７】以下、図４に示す、テキストが入力されて
から当該テキストに対応する合成音声が生成されるまで
の処理の流れに沿って、上記各部について説明する。

【００１８】ユーザは、テキストを入力するとともに、
所望の感情１０２と、例えば、１つの文に、所望の感情
を複数指定するときには、そのそれぞれに対する重み１
０３とを入力する。

【００１９】例えば、「この宝くじ当たっている、これ
で一生遊んで暮らせるよ」というテキスト対応の音声
に、「驚き」と「喜び」といった２つの感情をのせる場
合、図６に示すように、「驚き」と「喜び」という各感
情に対する重みの変化を入力するようにしてもよい。

【００２０】テキスト解析部１０は、入力されたテキス
ト１０１に対して、形態素解析や構文解析などを行い、
言語情報１０４を生成する（図４のステップＳ１）。言
語情報１０４は、例えば、図７に示すように、韻律制御
の単位となる例えばアクセント句毎の、テキストの読み
に対応する音声記号列や、アクセントの位置（アクセン
ト型）、品詞など、韻律パラメータの生成に必要な様々
な情報を含んでいる。なお、言語情報１０４には、さら
に、図８に示すような、各アクセント句を構成する各音
素について、その音素の前や後に存在する音素、アクセ
ント型なども含まれている。

【００２１】テキスト解析部１０で生成された言語情報
１０４は、韻律パラメータ生成部１２と感情制御パラメ
ータ生成部１３に送られる。

【００２２】韻律パラメータ生成部１２は、言語情報１
０４に従って、韻律制御辞書部１１を参照して基準韻律
パラメータ１０９を生成する（ステップＳ２）。

【００２３】韻律パラメータは、音声の韻律的な特徴を
表した情報であって、例えば、ここでは、各音素の時間
的な長さを表した音韻継続時間長や、基本周波数（以下
ではＦ０と簡単に表記することもある）の時間経過に伴
う変化を表したパターン（基本周波数（Ｆ０）パター
ン）を例にとり説明する。

【００２４】すなわち、韻律パラメータ生成部１２で
は、感情の表れていない平静時の音声の韻律的な特徴を
表した基準韻律パラメータとして、上記音韻継続時間長
に対応する基準時間長と、上記Ｆ０パターンに対応する
基準パターンと、当該基準パターンの基本周波数の高さ
の平均値を表した基準オフセットとを生成する。

【００２５】感情制御パラメータ生成部１３は、各種感
情毎に設けられた複数の感情制御辞書部１４のうち、指
定された感情１０２に対応する感情制御辞書部１４を用
いて、当該指定された感情１０２に対応するよう、基準
韻律パラメータを補正するための感情制御パラメータを
生成する（ステップＳ３）。ここで生成される感情制御
パラメータは、上記韻律パラメータ生成部１３で生成さ
れる基準韻律パラメータに対応して、入力されたテキス
トに対応する音声で指定された感情１０２を表現させる
ための音韻継続時間を生成することのできる、上記基準
時間長に重畳すべき差分時間と、入力されたテキストに
対応する音声で指定された感情１０２を表現させるため
のＦ０パターンを生成することのできる、上記基準パタ
ーンに重畳すべき差分パターンと、入力されたテキスト
に対応する音声で指定された感情１０２を表現させるた
めのＦ０パターンを生成することのできる、上記基準オ
フセットに重畳すべきオフセット差分とを生成する。

【００２６】感情付き韻律パラメータ生成部１７は、基
準韻律パラメータ１０９に表されている基準となる韻律
的な特徴に、感情制御パラメータ１１０に表されてい
る、指定された感情に対応する韻律的な特徴を重畳し
て、感情付き韻律パラメータ１１１を生成する（ステッ
プＳ４）。

【００２７】音声合成部１９は、感情付き韻律パラメー
タ１１１に従って、音声素片辞書部１８を参照して、入
力されたテキスト１０１と、入力された感情１０２とに
応じた合成音声１１３を生成し、出力する（ステップＳ
５、ステップＳ６）。

【００２８】図２は、図１の韻律パラメータ生成部１２
と韻律制御辞書部１１の構成例を示したもので、韻律パ
ラメータ生成部１２は、基準パターン選択部４１と、基
準オフセット生成部４２と基準時間長生成部４６とから
構成されており、韻律制御辞書部１１は、代表パターン
辞書部４３と代表パターン選択規則部４４とオフセット
生成規則部４５と音韻継続時間長生成規則部４７とから
構成されている。

【００２９】代表パターン辞書部４３には、例えばアク
セント句単位の基準となる標準的な（典型的な）複数の
Ｆ０パターン（代表パターン）が記憶されている。

【００３０】図９に複数個（ここでは、例えば５つ）の
アクセント句毎の代表パターンの具体例を示す。縦軸は
対数スケールの基本周波数を表している。また、横軸は
時間に相当するが、１音節の長さが「１」となるように
正規化されているため、１目盛りが１音節に対応する。

【００３１】基準パターン選択部４１は、言語情報１０
４に含まれる各アクセント句毎に、代表パターン選択規
則部４４に記憶されて規則に従って、代表パターン辞書
部４３に格納されている代表パターンのうち、当該アク
セント句に最適な代表パターンを選択する。ここで選択
された各アクセント句毎の代表パターンを、ここでは、
基準パターン４０１と呼ぶ。

【００３２】なお、例えば、図７、図８に示したような
言語情報から、例えばアクセント句に、当該アクセント
句に最適な代表パターンを選択するための規則は代表パ
ターン選択規則部４４に記憶されている。この規則は、
何らかの公知の機械学習手法を用いて生成することがで
き、例えば、従来と同様、言語情報に含まれる各アクセ
ント句についての音韻記号列、アクセント型、品詞、係
り先などから最適な代表パターンに辿り着けるように構
築された決定木形式のものであってもよい。

【００３３】基準オフセット生成部４２は、オフセット
生成規則部４５に記憶されている規則に従って、言語情
報１０４に含まれる各アクセント句毎に、当該アクセン
ト句に対応する基本周波数の平均的な高さを指定するオ
フセット値を求める。ここで求められた各アクセント句
毎のオフセット値を、ここでは、基準オフセット４０２
と呼ぶ。

【００３４】なお、例えば、図７、図８に示したような
言語情報から、例えばアクセント句に、当該アクセント
句に対応する基本周波数の基準オフセットを求めるため
の規則はオフセット生成規則部４５に記憶されている。
この規則は、何らかの公知の機械学習手法を用いて生成
することができ、例えば、従来と同様、言語情報に含ま
れる各アクセント句についての音韻記号列、アクセント
型、品詞、係り先などから最適なオフセット値（基準オ
フセット）に辿り着けるように構築された決定木形式の
ものであってもよい。あるいは、数量化Ｉ類などの数量
化手法を用いて、基準オフセットを求めてもよい。

【００３５】基準時間長生成部４６は、音韻継続時間長
生成規則部４７に記憶されている規則に従って、言語情
報１０４に含まれる各アクセント句毎に、当該アクセン
ト句を構成する各音素の時間的な長さである音韻継続時
間長を求める。ここで求められた各音素毎の音韻継続時
間長を、ここでは基準時間長４０３と呼ぶ。

【００３６】なお、図７、図８に示したような言語情報
から、例えばアクセント句に、当該アクセント句を構成
する各音素について基準時間長を求めるための規則は音
韻継続時間長生成規則部４７に記憶されている。この規
則は、何らかの公知の機械学習手法を用いて生成するこ
とができ、例えば、従来と同様、言語情報に含まれる、
例えば、各アクセント句のモーラ数や品詞、当該アクセ
ント句を構成する各音素について、当該音素の前や後に
存在する音素や、アクセント型などから基準時間長に辿
り着けるように構築された決定木形式のものであっても
よい。あるいは、数量化Ｉ類などの数量化手法を用い
て、基準時間長を求めてもよい。

【００３７】基準パターン選択部４１で選択された各ア
クセント句毎の基準パターン４０１と、基準オフセット
生成部４２で生成された各アクセント句毎の基準オフセ
ット４０２と、基準時間長生成部４６で生成された各ア
クセント句毎の基準時間長４０３は、基準韻律パラメー
タ１０９として感情付き韻律パラメータ生成部１７へ出
力される。

【００３８】図３は、図１の感情制御パラメータ生成部
１３と感情制御辞書部１４の構成例を示したもので、感
情制御パラメータ生成部１３は、差分パラメー生成部５
１とオフセット差分生成部５２と差分時間長生成部５６
とから構成されており、複数の感情のそれぞれに対応す
る感情制御辞書部１４は、差分パターン辞書部５３と差
分パターン選択規則部５４とオフセット差分生成規則部
５５と差分時間長生成規則部５７とから構成されてい
る。

【００３９】各感情に対応する差分パターン辞書部５３
には、例えば、アクセント句単位の複数の差分パターン
が記憶されている。

【００４０】図１０に複数個（ここでは、例えば５つ）
のアクセント句毎の差分パターンの具体例を示す。縦軸
は対数スケールの基本周波数を表している。また、横軸
は時間に相当するが、１音節の長さが「１」となるよう
に正規化されているため、１目盛りが１音節に対応す
る。

【００４１】差分パターン生成部５１は、言語情報１０
４に含まれる各アクセント句毎に、指定された感情１０
２に対応する感情制御辞書部１４の差分パターン選択規
則部５４に記憶されて規則に従って、差分パターン辞書
部５３に格納されている差分パターンのうち、当該アク
セント句に最適な差分パターンを選択する。ここで選択
された各アクセント句毎の差分パターンを、ここでは、
差分パターン５０１と呼ぶ。

【００４２】なお、例えば、図７、図８に示したような
言語情報から、例えばアクセント句に、当該アクセント
句に最適な差分パターンを選択するための規則は差分パ
ターン選択規則部５４に記憶されている。この規則は、
何らかの公知の機械学習手法を用いて生成することがで
き、例えば、従来と同様、言語情報に含まれる各アクセ
ント句についての音韻記号列、アクセント型、品詞、係
り先などから最適な差分パターンに辿り着けるように構
築された決定木形式のものであってもよい。

【００４３】なお、所望の感情を複数指定するときに
は、それとともに、図６に示したように、各感情のそれ
ぞれに対する重み１０３も入力するようになっている。
重み１０３は、指定されたｎ個（ｎは複数）の感情のそ
れぞれに対応する、所定時間（例えば、音節や音素など
の単位長さ）毎の、ｎ個の重み値（重み係数）の組で表
されている。

【００４４】例えば、図６に示したように、「当たって
いる」という発声部分では、「驚き」と「喜び」の２つ
の感情に対する重みが音節毎に変化するように指定され
ていて、例えば、音節「る」では、「驚き」と「喜び」
に対し、重みの値として、全体が「１」に対し「０．
５」がそれぞれ指定されている。

【００４５】このように、複数の感情が指定されている
ときは、アクセント句毎に、指定された複数の感情のそ
れぞれに対応する選択された差分パターンのそれぞれ
に、各感情に対し指定された重みの値でウエートをつけ
ることにより加重平均を求めて、それを当該アクセント
句の差分パターン５０１とする。

【００４６】オフセット差分生成部５２は、指定された
感情１０２に対応する感情制御辞書部１４のオフセット
差分生成規則部５５に記憶されている規則に従って、言
語情報１０４に含まれる各アクセント句毎に、当該アク
セント句に対応する基本周波数の平均的な高さを、指定
された感情１０２に対応するように補正するためのオフ
セット差分を求める。ここで求められた各アクセント句
毎のオフセット差分を、ここでは、オフセット差分４０
２と呼ぶ。

【００４７】なお、例えば、図７、図８に示したような
言語情報から、例えばアクセント句に、当該アクセント
句に対応するオフセット差分を求めるための規則はオフ
セット差分生成規則部４５に記憶されている。この規則
は、何らかの公知の機械学習手法を用いて生成すること
ができ、例えば、従来と同様、言語情報に含まれる各ア
クセント句についての音韻記号列、アクセント型、品
詞、係り先などから最適なオフセット差分に辿り着ける
ように構築された決定木形式のものであってもよい。あ
るいは、数量化Ｉ類などの数量化手法を用いて、オフセ
ット差分を求めてもよい。

【００４８】なお、複数の感情が指定されているとき
は、アクセント句毎に、指定された複数の感情のそれぞ
れに対応する、生成されたオフセット差分のそれぞれ
に、各感情に対し指定された重みの値でウエートをつけ
ることにより加重平均を求めて、それを当該アクセント
句のオフセット差分５０２とする。

【００４９】差分時間長生成部５６は、指定された感情
１０２に対応する感情制御辞書部１４の差分時間長生成
規則部５７に記憶されている規則に従って、言語情報１
０４に含まれる各アクセント句毎に、当該アクセント句
を構成する各音素の時間的な長さである音韻継続時間長
を補正するための差分時間長を求める。ここで求められ
た各音素毎の差分時間長を、ここでは差分時間長５０３
と呼ぶ。

【００５０】なお、図７、図８に示したような言語情報
から、例えばアクセント句に、当該アクセント句を構成
する各音素について差分時間長を求めるための規則は差
分時間長生成規則部５７に記憶されている。この規則
は、何らかの公知の機械学習手法を用いて生成すること
ができ、例えば、従来と同様、言語情報に含まれる、例
えば、各アクセント句のモーラ数や品詞、当該アクセン
ト句を構成する各音素について、当該音素の前や後に存
在する音素や、アクセント型などから差分時間長に辿り
着けるように構築された決定木形式のものであってもよ
い。あるいは、数量化Ｉ類などの数量化手法を用いて、
差分時間長を求めてもよい。

【００５１】なお、複数の感情が指定されているとき
は、アクセント句毎に、当該アクセント句を構成する各
音素に対し、指定された複数の感情のそれぞれに対応す
る差分時間長のそれぞれに、各感情に対し指定された重
みの値でウエートをつけることにより加重平均を求め
て、それを音素毎の差分時間長５０３とする。

【００５２】差分パターン生成部５１で生成された各ア
クセント句毎の差分パターン５０１と、オフセット差分
生成部５２で生成された各アクセント句毎のオフセット
差分５０２と、差分時間長生成部５６で生成された各ア
クセント句毎の差分時間長５０３は、感情制御パラメー
タ１１０として感情付き韻律パラメータ生成部１７へ出
力される。

【００５３】図１１は、図１の感情付き韻律パラメータ
生成部１７の構成例を示したもので、パターン重畳部８
１と時間長重畳部８２とオフセット重畳部８３とオフセ
ット制御部８４とＦ０パターン変形部８５から構成され
ている。

【００５４】パターン重畳部８１は、韻律パターン生成
部１２から出力された基準パターン４０１と、感情制御
パラメータ生成部１３から出力された差分パターン５０
１とを重畳して、アクセント句毎の第１の感情付きＦ０
パターン８０５を生成する。例えば、対数スケールで表
された両者の基本周波数同士で加算することで、アクセ
ント句毎の第１の感情付きＦ０パターン８０５を生成す
る。

【００５５】時間長重畳部８２は、韻律パターン生成部
１２から出力された基準時間長４０３と、感情制御パラ
メータ生成部１３から出力された差分時間長５０３とを
重畳（ここでは、両者を加算）して、各アクセント句を
構成する各音節毎の感情付き音韻継続時間長８０７を生
成する。

【００５６】オフセット重畳部８３は、韻律パターン生
成部１２から出力された基準オフセット４０２と、感情
制御パラメータ生成部１３から出力されたオフセット差
分５０２とを重畳して、アクセント句毎の感情付きオフ
セット８０６を生成する。例えば、対数スケールで表さ
れた両者の基本周波数同士で加算することで、アクセン
ト句毎の感情付きオフセット８０５を生成する。

【００５７】オフセット制御部８４は、パターン重畳部
８１で生成された、アクセント句毎の第１の感情付きＦ
０パターン８０５の基本周波数の平均的な高さを感情付
きオフセット８０６で調節する。すなわち、第１の感情
付きＦ０パターン８０５を、感情付きオフセット８０６
に従って周波数軸上で平行移動させることで、アクセン
ト句毎の第１の感情付きＦ０パターンの基本周波数の平
均的な高さが、各アクセント句毎に生成された感情付き
オフセット８０６になるように調節して、その結果とし
て、アクセント句毎の第２の感情付きＦ０パターン８０
８を出力する。

【００５８】Ｆ０パターン変形部８５は、第２の感情付
きＦ０パターン８０８を感情付き音韻継続時間長８０７
に従って時間軸方向に線形伸縮を行う。このとき、音節
単位で全体を伸縮しても良いし、子音と母音の継続時間
長に従って、部分的に伸縮するようにしても良い。Ｆ０
パターン変形部８５は、さらに、言語情報１０４から基
準パターン４０１あるいは第２の感情付きＦ０パターン
８０８の周波数方向の伸縮率を推定し、第２の感情付き
Ｆ０パターン８０８を周波数軸方向に線形伸縮するよう
にしてもよい。なお、伸縮率の推定には、従来と同様、
数量化Ｉ類などの公知の数量化手法を用いることができ
る。

【００５９】このようにして、Ｆ０パターン変形部８５
は、第２の感情付きＦ０パターン８０８を少なくとも時
間軸方向に伸縮して第３の感情付きＦ０パターン８０９
を生成する。この第３の感情付きＦ０パターン８０９
は、さらに、上記したように、周波数軸方向に伸縮され
ていてもよい。

【００６０】Ｆ０パターン変形部８５から出力される第
３の感情付きＦ０パターン８０９と、時間長重畳部８２
から出力される感情付き音韻継続時間長８０７と、オフ
セット重畳部８３から出力される感情付きオフセット８
０６は、感情付き韻律パラメー１１１として音声合成部
１９へ出力される。

【００６１】次に、図５に示すフローチャートを参照し
て、図３に示した感情付き韻律パラメータ生成部１７に
おける感情付き韻律パラメータの生成処理動作（図４の
ステップＳ４）について、より具体的に説明する。

【００６２】すなわち、ここでは、入力されたテキスト
１０１が「昨日のこと／まだ／許したわけじゃ／ないか
ら」というテキスト１０１が入力したときの場合を例に
とり、このテキストに対応する音声に「怒り」の感情を
のせる場合を例にとり、図１２、図１３を参照しなが
ら、図５に示したフローチャートに従って説明を行う。

【００６３】上記テキストの各アクセント句「昨日のこ
と」「まだ」「許したわけじゃ」「ないから」につい
て、韻律パラメータ生成部１２で求められた基準パター
ンを図１２（ａ）に示し、上記各アクセント句に対し、
感情制御パラメータ生成部１３で求められた「怒り」に
対応する差分パターンを図１２（ｂ）に示す。

【００６４】また、上記テキストの「昨日のこと」とい
うアクセント句を構成する各音素に対し、韻律パラメー
タ生成部１２、感情制御パラメータ生成部１３のそれぞ
れで求められた基準時間長と差分時間長を図１３に示
す。

【００６５】この場合、感情付き韻律パラメータ生成部
１７のパターン重畳部８１は、図１２（ａ）に示した基
準パターン４０１と図１２（ｂ）に示した差分パターン
５０１とを重畳して、図１２（ｃ）に示したような第１
の感情付きＦ０パターンを生成する（ステップＳ１
１）。

【００６６】一方、時間長重畳情部８２は、図１３に示
したような、各音素毎の基準時間長４０３と差分時間長
５０３を重畳（加算）して、同じく図１３に示したよう
な各音素毎の感情付き音韻継続時間長８０７を生成する
（ステップＳ１２）。

【００６７】また、オフセット重畳部８３は、各アクセ
ント句毎の基準オフセット４０２とオフセット差分５０
２とを重畳して、アクセント句毎の感情付きオフセット
８０６を生成する（ステップＳ１３）。

【００６８】次に、オフセット制御部８４は、図１２
（ｃ）に示したような、アクセント句毎の第１の感情付
きＦ０パターンを、対数スケールで表された周波数軸上
で感情付きオフセット８０６だけ並行移動させて、図１
２（ｄ）に示したようなアクセント毎の第２の感情付き
Ｆ０パターン８０８を生成する（ステップＳ１４）。

【００６９】さらに、Ｆ０パターン変形部８５は、図１
２（ｄ）に示した第２の感情付きＦ０パターンの時間軸
方向を図１３に示したような感情付き音韻継続時間長に
従って伸縮させて、第３の感情付きＦ０パターン８０９
を生成する（ステップＳ１５）。

【００７０】以上のようにして生成された感情付き韻律
パラメータ１１１を基に、音声合成部１９は、音声素片
辞書部１８を参照して、入力されたテキスト１０１と、
入力された感情１０２とに対応した合成音声１１３を生
成し、出力する。なお、音声合成部１９における上記音
声合成のため手法は、従来技術を用いればよく、また、
本発明の要旨ではないので説明は省略する。

【００７１】以上説明したように、上記実施形態に係
る、入力されたテキストと指定された感情に対応する音
声の韻律的な特徴を表す韻律パラメータを生成して、指
定された感情に対応する合成音声を生成する音声合成装
置は、入力されたテキストを解析することによって得ら
れる言語情報を基に、感情の表れていない平静時の音声
の韻律的な特徴を表した第１のパラメータ（基準韻律パ
ラメータ）と、指定された感情に対応して、第１のパラ
メータを補正するための第２のパラメータ（感情制御パ
ラメータ）とを求めて、少なくとも、音声の韻律的な特
徴を制御するための音声の単位としての韻律制御単位
（例えばアクセント句単位）毎に、第１のパラータと第
２のパラメータとを重畳することにより、当該指定され
た感情に対応する第３のパラメータ（感情付き韻律パラ
メータ）を生成し、この第３のパラメータを基に、指定
された感情に対応する合成音声を生成することにより、
所望の感情に対応する音声を容易に合成することができ
る。

【００７２】なお、上記実施形態では、発話特性が、感
情である場合を例にとり説明したが、この場合に限ら
ず、発話スタイル（読み上げ調・会話調など）や、方
言、なまりなどの人の個性であってもよい。この場合
も、上記実施形態の説明において、「感情」に対応する
部分が「発話スタイル」、「個性」に置き変わるだけ
で、所望の感情に対応する感情付き韻律パラメータを生
成する場合と全く同様にして、指定された所望の発話ス
タイル、個性に対応する韻律パラメータを生成して、所
望の発話スタイル、個性に対応する合成音声を生成する
ことができる。

【００７３】この場合、上記実施形態における感情制御
辞書１４は、異なる複数の発話スタイルあるいは個性の
それぞれに応じて設けられた、各発話スタイルあるいは
個性を表現するために基準韻律パラメータを補正するた
めのパラメータ、すなわち、発話スタイル制御パラメー
タあるいは個性制御パラメータなるものを記憶した発話
スタイル制御辞書あるいは個性制御辞書に置き換わる。
また、感情制御パラメータ生成部１３は発話制御パラメ
ータ生成部あるいは個性制御パラメータ生成部に、感情
付き韻律パラメータ生成部１７は発話スタイル付き韻律
パラメータ生成部あるいは個性付き韻律パラメータ生成
部に置き換わる。

【００７４】そして、入力されたテキスト１０１を解析
することによって得られる言語情報１０４を基に、韻律
パラメータ生成部１２では、発話スタイルや個性の表れ
ていない標準的な音声の韻律的な特徴を表した基準韻律
パラメータ１０９を求め、少なくとも言語情報と指定さ
れた発話スタイルあるいは個性とを基に、個性制御パラ
メータ生成部では、当該指定された発話スタイルあるい
は個性に対応するよう、基準韻律パラメータを補正する
ための発話スタイル制御パラメータあるいは個性制御パ
ラメータを求める。

【００７５】発話スタイル制御パラメータあるいは個性
付き韻律パラメータ生成部では、音声の韻律的な特徴を
制御するための音声の単位としての韻律制御単位毎に、
少なくとも基準韻律パラメータと発話スタイル制御パラ
メータあるいは個性制御パラメータを重畳して、指定さ
れた発話スタイルあるいは個性に対応する韻律的な特徴
を表す発話スタイル付き韻律パラメータあるいは個性付
き韻律パラメータを生成し、音声合成部１９では、この
発話スタイル付き韻律パラメータあるいは個性付き韻律
パラメータを基に、指定された発話スタイルあるいは個
性に対応する合成音声を生成する。

【００７６】また、上記実施形態では、１つの韻律制御
辞書１１に対応する、例えば、ある１つの個性の音声の
基準韻律パラメータについて、異なる感情を表現する場
合を例にとり説明した。図１に示した構成において、こ
れとは異なる個性の音声について、上記同様、異なる感
情を表現する際には、韻律制御辞書１１を所望の個性の
音声に対応する他の韻律制御辞書１１で置き換えればよ
い。このように、個人対応に韻律制御辞書１１が異なっ
ていても、感情制御辞書１４は１組あればよい。１組の
感情制御辞書１４があれば、各個性の全ての基準韻律パ
ラメータに対応することができるのである。従って、辞
書作成の手間と辞書の記憶領域に割り当てるメモリ容量
を削減することができる。

【００７７】また、上記実施形態では、感情対応に基準
韻律パラメータを補正するための差分を感情制御パラメ
ータとして用いる場合について説明したが、この場合に
限らず、感情制御パラメータとして、相対値を用いるよ
うにしてもよい。

【００７８】また、上記実施形態では、代表パターンに
基づく基本周波数制御モデルを用いて説明したが、この
他に、いわゆる藤崎モデルのような、パターンを関数近
似するモデルなど種々の基本周波数制御モデルを用いる
ことが可能である。

【００７９】また、上記実施形態では、第１の感情付き
Ｆ０パターン８０５に対し、まず、オフセットを調節
（制御）してから、変形を行っているが、この場合に限
らず、変形を行ってから、オフセットを調節するように
してもよい。

【００８０】また、上記実施形態に係る本発明の手法
は、韻律パラメータとして、基本周波数パターンと音韻
継続時間長を例にとり説明したが、この場合に限らず、
パワーやポーズなどであっても、上記同様に適用可能で
ある。

【００８１】また、上記実施形態では、Ｆ０パターンを
周波数軸上で平行移動させるためのオフセットとして、
Ｆ０パターンの平均値を用いる場合について説明した
が、この場合に限らず、オフセットとして、Ｆ０パター
ンの最大値あるいはＦ０パターンの誤差を最小にする最
適な移動量を用いるようにしてもよい。

【００８２】このように、上記実施形態によれば、基準
となる韻律パラメータに感情、発話特性、人の個性など
の発話特性を付与するために、言語情報を用いて韻律制
御単位毎に発話特性制御パラメータを生成することで、
文中の言語情報による韻律の変化を表現した多種多様な
発話特性を持つ音声合成を生成できる。

【００８３】本発明の実施の形態に記載した本発明の手
法は、コンピュータに実行させることのできるプログラ
ムとして、磁気ディスク（フロッピー（登録商標）ディ
スク、ハードディスクなど）、光ディスク（ＣＤ−ＲＯ
Ｍ、ＤＶＤなど）、半導体メモリなどの記録媒体に格納
して頒布することもできる。すなわち、図１において、
テキスト解析部１０，韻律パラメータ生成部１２，感情
制御パラメータ生成部１３，感情付き韻律パラメータ生
成部１７，音声合成部１９の上記処理動作をプログラム
として記述し、それをコンピュータに実行させることも
できる。

【００８４】なお、本発明は、上記実施形態に限定され
るものではなく、実施段階ではその要旨を逸脱しない範
囲で種々に変形することが可能である。さらに、上記実
施形態には種々の段階の発明は含まれており、開示され
る複数の構成用件における適宜な組み合わせにより、種
々の発明が抽出され得る。例えば、実施形態に示される
全構成要件から幾つかの構成要件が削除されても、発明
が解決しようとする課題の欄で述べた課題（の少なくと
も１つ）が解決でき、発明の効果の欄で述べられている
効果（のなくとも１つ）が得られる場合には、この構成
要件が削除された構成が発明として抽出され得る。

【００８５】

【発明の効果】以上説明したように、本発明によれば、
人の感情、発話スタイル、個性などの発話特性の異なる
様々な音声を柔軟にしかも容易に合成することができ
る。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る音声合成装置の構成
例を示した図。

【図２】韻律パラメータ生成部１２と韻律制御辞書部１
１の構成例を示した図。

【図３】感情制御パラメータ生成部１３と感情制御辞書
部１４の構成例を示した図。

【図４】図１の音声合成装置の処理動作を説明するため
のフローチャート。

【図５】感情付き韻律パラメータを生成する際の処理動
作を説明するためのフローチャート。

【図６】複数の異なる感情が指定されたときに、当該複
数の感情のそれぞれについての重みをテキスト中で変化
させて指定する場合を説明するための図。

【図７】言語情報の具体例を示した図。

【図８】言語情報の具体例を示した図。

【図９】アクセント句毎の代表パターンの具体例を示し
た図。

【図１０】アクセント句毎の差分パターンの具体例を示
した図。

【図１１】感情付き韻律パラメータ生成部の構成例を示
した図。

【図１２】感情付き韻律パラメータの１つである第３の
感情付きＦ０パターンの生成処理動作を説明するための
図。

【図１３】感情付き韻律パラメータの他の１つである感
情付き音韻継続時間長の生成処理動作を説明するための
図。

【符号の説明】

１０…テキスト解析部１１…韻律制御辞書部１２…韻律パラメータ生成部１３…発話特性（感情、個性、発話スタイル）制御パラ
メータ生成部１４…発話特性（感情、個性、発話スタイル）制御辞書
部１７…発話特性（感情、個性、発話スタイル）付き韻律
パラメータ生成部１８…音声素片辞書部１９…音声合成部４１…基準パターン生成部４２…基準オフセット生成部４３…代表パターン辞書部４４…代表パターン選択規則部４５…オフセット生成規則部４６…基準時間長生成部４７…音韻継続時間長生成規則部５１…差分パターン生成部５２…オフセット差分生成部５３…差分パターン辞書部５４…差分パターン選択規則部５５…オフセット差分生成規則部５６…差分時間長生成部５７…差分時間長生成規則部８１…パターン重畳部８２…時間長重畳部８３…オフセット重畳部８４…オフセット制御部８５…Ｆ０パターン変形部

───────────────────────────────────────────────────── フロントページの続き (72)発明者平林剛神奈川県川崎市幸区小向東芝町１番地株式会社東芝研究開発センター内Ｆターム(参考） 5D045 AA07

Claims

【特許請求の範囲】

【請求項１】入力されたテキストと指定された発話特性
に対応する音声の韻律的な特徴を表す韻律パラメータを
生成して、指定された発話特性に対応する合成音声を生
成する音声合成方法であって、前記テキストを解析することによって得られる言語情報
を基に、標準的な発話特性を有する音声の韻律的な特徴
を表した第１のパラメータを求めるとともに、少なくと
も前記言語情報と前記指定された発話特性とを基に、当
該指定された発話特性に対応する韻律的な特徴を表すよ
う、前記第１のパラメータを補正するための第２のパラ
メータを求め、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された発話特性に対応す
る韻律的な特徴を表す第３のパラメータを生成し、この
第３のパラメータを基に、前記指定された発話特性に対
応する合成音声を生成することを特徴とする音声合成方
法。
【請求項２】前記発話特性は、感情、人の個性、発話ス
タイルのうちのいずれか１つであることを特徴とする請
求項１記載の音声合成方法。
【請求項３】前記第３のパラメータとして、前記指定さ
れた発話特性に対応する音声の基本周波数の時間的変化
を表した基本周波数パターンと、音素の時間的な長さで
ある音韻継続時間長を生成することを特徴とする請求項
１記載の音声合成方法。
【請求項４】入力されたテキストと指定された感情に対
応する音声の韻律的な特徴を表す韻律パラメータを生成
して、指定された感情に対応する合成音声を生成する音
声合成方法であって、前記テキストを解析することによって得られる言語情報
を基に、感情の表れていない平静時の音声の韻律的な特
徴を表した第１のパラメータを求めるとともに、少なく
とも前記言語情報と前記指定された感情とを基に、当該
指定された感情に対応するよう、前記第１のパラメータ
を補正するための第２のパラメータを求め、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された感情に対応する韻
律的な特徴を表す第３のパラメータを生成し、この第３
のパラメータを基に、前記指定された感情に対応する合
成音声を生成することを特徴とする音声合成方法。
【請求項５】異なる複数の感情と、この複数の感情のそ
れぞれに対応する重みとが指定されたとき、前記言語情報と前記指定された複数の感情と当該複数の
感情のそれぞれに対応する重みを基に、前記第２のパラ
メータを生成することを特徴とする請求項４記載の音声
合成方法。
【請求項６】入力されたテキストと指定された発話特性
に対応する音声の韻律的な特徴を表す韻律パラメータを
生成して、指定された発話特性に対応する合成音声を生
成する音声合成装置であって、前記テキストを解析することによって得られる言語情報
を基に、標準的な発話特性を有する音声の韻律的な特徴
を表した第１のパラメータを求める第１の手段と、少なくとも前記言語情報と前記指定された発話特性を基
に、前記指定された発話特性に対応する韻律的な特徴を
表すよう、前記第１のパラメータを補正するための第２
のパラメータを求める第２の手段と、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された発話特性に対応す
る韻律的な特徴を表す第３のパラメータを生成する生成
手段と、前記第３のパラメータを基に、前記指定された発話特性
に対応する合成音声を生成する音声合成手段と、を具備したことを特徴とする音声合成装置。
【請求項７】入力されたテキストと指定された感情に対
応する音声の韻律的な特徴を表す韻律パラメータを生成
して、指定された感情に対応する合成音声を生成する音
声合成装置であって、前記テキストを解析することによって得られる言語情報
を基に、感情の表れていない平静時の音声の韻律的な特
徴を表した第１のパラメータを求める第１の手段と、少なくとも前記言語情報と前記指定された感情とを基
に、当該指定された感情に対応するよう、前記第１のパ
ラメータを補正するための第２のパラメータを求める第
２の手段と、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された感情に対応する韻
律的な特徴を表す第３のパラメータを生成する生成手段
と、前記第３のパラメータを基に、前記指定された感情に対
応する合成音声を生成する音声合成手段と、を具備したことを特徴とする音声合成装置。
【請求項８】入力されたテキストと指定された人の個性
に対応する音声の韻律的な特徴を表す韻律パラメータを
生成して、指定された個性に対応する合成音声を生成す
る音声合成装置であって、前記テキストを解析することによって得られる言語情報
を基に、個性の表れていない標準的な音声の韻律的な特
徴を表した第１のパラメータを求める第１の手段と、少なくとも前記言語情報と前記指定された個性とを基
に、当該指定された個性に対応するよう、前記第１のパ
ラメータを補正するための第２のパラメータを求める第
２の手段と、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された個性に対応する韻
律的な特徴を表す第３のパラメータを生成する生成手段
と、前記第３のパラメータを基に、前記指定された個性に対
応する合成音声を生成する音声合成手段と、を具備したことを特徴とする音声合成装置。
【請求項９】感情の表れていない平静時の音声の韻律的
な特徴を表した複数の標準パラメータを記憶する第１の
記憶手段と複数の感情のそれぞれに対応して設けられ、
各感情に対応するよう、前記第１のパラメータを補正す
るための複数の補正パラメータを記憶した第２の記憶手
段と、をさらに具備し、前記第１の手段は、前記第１の記憶手段に記憶された標
準パラメータのうち、前記言語情報を基に、前記テキス
トに対応する標準パラメータを選択することにより前記
第１のパラメータを求め、前記第２の手段は、前記第２の記憶手段に記憶された補
正パラメータのうち、少なくとも、前記言語情報を基に前記指定された感情と
前記テキストに対応する補正パラメータを選択すること
により前記第２のパラメータを求めることを特徴とする
請求項７記載の音声合成装置。
【請求項１０】異なる複数の感情と、この複数の感情の
それぞれに対応する重みとが指定されたとき、前記第２の手段は、前記言語情報と前記指定された複数
の感情と当該複数の感情のそれぞれに対応する重みを基
に、前記第２のパラメータを生成することを特徴とする
請求項７記載の音声合成装置。
【請求項１１】個性の表れていない標準的な音声の韻律
的な特徴を表した複数の標準パラメータを記憶する第１
の記憶手段と複数の個性のそれぞれに対応して設けら
れ、各個性に対応するよう、前記第１のパラメータを補
正するための複数の補正パラメータを記憶した第２の記
憶手段と、をさらに具備し、前記第１の手段は、前記第１の記憶手段に記憶された標
準パラメータのうち、前記言語情報を基に、前記テキス
トに対応する標準パラメータを選択することにより前記
第１のパラメータを求め、前記第２の手段は、前記第２の記憶手段に記憶された補
正パラメータのうち、少なくとも、前記言語情報を基に
前記指定された個性と前記テキストに対応する補正パラ
メータを選択することにより前記第２のパラメータを求
めることを特徴とする請求項８記載の音声合成装置。
【請求項１２】入力されたテキストと指定された発話特
性に対応する音声の韻律的な特徴を表す韻律パラメータ
を生成して、指定された発話特性に対応する合成音声を
生成する音声合成プログラムであって、コンピュータに、前記テキストを解析することによって得られる言語情報
を基に、標準的な発話特性を有する音声の韻律的な特徴
を表した第１のパラメータを求める第１のステップと、少なくとも前記言語情報と前記指定された発話特性を基
に、前記指定された発話特性に対応する韻律的な特徴を
表すよう、前記第１のパラメータを補正するための第２
のパラメータを求める第２のステップと、音声の韻律的な特徴を制御するための音声の単位として
の韻律制御単位毎に、少なくとも前記第１および第２の
パラータを重畳して、前記指定された発話特性に対応す
る韻律的な特徴を表す第３のパラメータを生成する第３
のステップと、前記第３のパラメータを基に、前記指定された感情に対
応する合成音声を生成する第４のステップと、を実行させる音声合成プログラム。