JP2002258885A

JP2002258885A - テキスト音声合成装置およびプログラム記録媒体

Info

Publication number: JP2002258885A
Application number: JP2001052049A
Authority: JP
Inventors: Tomokazu Morio; 智一森尾; Osamu Kimura; 治木村; Kazuhiro Miki; 一浩三木
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-02-27
Filing date: 2001-02-27
Publication date: 2002-09-11

Abstract

(57)【要約】【課題】任意の話者の韻律でテキスト合成音声を生成
する。【解決手段】韻律生成器４４は、テキスト解析器４１
で生成された読みと品詞との情報に基づいて韻律情報を
生成する。韻律学習器５１は、韻律生成器４４で生成さ
れた韻律情報に対する音声入力端子５０から入力された
目標話者の声から抽出された韻律情報の比率を表わす制
御パラメータを抽出する。韻律制御器４６は、上記抽出
された制御パラメータに基づいて、韻律生成器４４の動
作を制御して上記生成された韻律情報を目標話者の韻律
情報に修正する。こうして、合成音声の韻律的特徴を目
標話者の韻律的特徴に似せることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、テキストから任
意の話者の声に似せて合成音声信号を生成するテキスト
音声合成装置およびテキスト音声合成処理プログラムを
記録したプログラム記録媒体に関する。

【０００２】

【従来の技術】図６は、従来の一般的なテキスト音声合
成装置の構成を示す。図６に示すテキスト音声合成装置
は、テキスト入力端子１,テキスト解析器２,言語辞書
３,韻律生成器４,アクセント辞書５,韻律制御器６,音声
合成器７,音声素片辞書８および出力器９で構成され
る。以下、上記従来のテキスト音声合成装置の動作につ
いて説明する。

【０００３】上記テキスト解析器２は、単語や文章など
の日本語の漢字仮名混じりテキスト情報(例：「今朝は晴
天です。」)が入力端子１から入力されると、言語辞書３
を用いて読みと品詞との情報を生成して出力する（例え
ば、kesa：名詞、wa：助詞、se-teN：名詞、desu：助
詞、.：句点)。尚、入力テキストとしては、日本語の漢
字仮名混じりテキスト以外にもアルファベット等の読み
記号を直接入力することも可能である。但し、その場合
には、テキスト解析器２は不必要となる。

【０００４】上記韻律生成器４は、上記アクセント辞書
５を参照しながら、入力された読みと品詞との情報に基
づいて、文の係り受けを判断して韻律情報(声の高さ,声
の大きさ,声の継続時間長)を生成する。その際に、上記
声の高さは母音のピッチ(基本周波数)で制御される。上
述の例で説明すると、時間順に入力された母音ｅ,ａ,
ａ,…(以下省略)におけるピッチは、フレーズ成分と呼
ばれる一つの呼気段落で文を発声する際の声の高さの起
伏制御と、アクセント成分と呼ばれる単語に関する声の
高さの起伏制御との２つのパラメータで、規則によって
作成される(例えば：電子情報通信学会論文誌、Vol.J72
-A,No.1,pp.32-40,1989年1月)。この様子を、図７に示
す。

【０００５】以下、図７を簡単に説明する。図７に示す
例の場合は「kesa wa」および「se-teNdesu」の２つのアク
セント句から文が構成されており、二つのフレーズ成分
１１と、アクセント成分１２と、ベースピッチ１３と呼
ばれる声の高さの最低周波数との３つのパラメータで制
御される。これらのパラメータから韻律生成器４のピッ
チ制御器(図示せず)で生成されたピッチの時系列は、右
の図に実線１４で示されている。因みに、図中の点線１
５は、声の音量の時系列を示している。また、１６は、
横軸(時間軸)の長さで表した発声速度を示している。

【０００６】また、声の大きさおよび継続時間長は、各
音素(例：ｋ,ｅ,ｓ,ａ,…)毎に音声波形の振幅情報およ
び継続時間長を決定する。

【０００７】上記音声素片辞書８は、音声合成に必要な
音声素片データを予め設定された単位で記録している。
音声合成単位として、子音＋母音(ＣＶ：Consonant,Vow
el)の音節単位(例：「ｋｅ」,「ｓａ」)や、高音質化を目的
に音素連鎖における過渡部の特微量を保持した母音＋子
音＋母音(ＶＣＶ)単位(例：「ａｋｉ」,「ｉｔｏ」)等が広
く使われている。以後の説明においては、音声素片の基
本単位としてＶＣＶ単位を用いることにする。

【０００８】最後に、上記音声合成器７は、上記韻律生
成器４からの読みに相当するＶＣＶ音声素片データ系列
を音声素片辞書８から選択する。そして、予め設定され
ている選択ＶＣＶ音声素片データの声の高さや大きさや
継続時間長を、韻律生成器４からの韻律情報に基づいて
変形しながら、ＶＣＶ音声素片データ系列を母音区間で
滑らかに接続して合成音声を生成し、出力器９から出力
するのである。上述の例の場合は、「−ｋｅ」,「ｅｓａ」,
「ａｗａ」,…の順でＶＣＶ系列が接続される。ここで、
「−」は無音を表す。

【０００９】尚、上記韻律制御器６は、発声する声の全
体的な高さや、高さの変動幅,大きさおよび速度等を操
作するものである。このように、韻律を制御することに
よって、全体的に声(ピッチ)を高くして子供の声を作成
したり、図７に示すフレーズ成分１１やアクセント成分
１２を小さくすることによって、声の高さの変動幅を狭
めてロボット的な声を作成する等を行うことができる。
テキスト音声合成装置によっては、この韻律制御器６を
備えていない場合もある。

【００１０】さらに、任意の話者の声でテキスト音声合
成を行うことを目的とした声質変換技術も開発されてい
る(例えば、特開平８-３２８５７５号公報)。この声質
変換機能を備えたテキスト音声合成装置は、図８に示す
ような構成を有している。図８において、テキスト入力
端子２１,テキスト解析器２２,言語辞書２３,韻律生成
器２４,アクセント辞書２５,韻律制御器２６,音声合成
器２７,音声素片辞書２８および出力器２９は、図６に
示すテキスト入力端子１,テキスト解析器２,言語辞書
３,韻律生成器４,アクセント辞書５,韻律制御器６,音声
合成器７,音声素片辞書８および出力器９と同様であ
る。

【００１１】本テキスト音声合成装置は、更に任意の話
者の音声を入力する音声入力端子３０と声質変換器３１
とを備えている。声質変換手法については種々の方法が
提案されているが、声質の個人性には母音のホルマント
周波数の位置が重要である故に、学習用の音声として母
音を発声して音声入力端子３０から入力し、声質変換器
３１によってそのホルマント周波数位置を分析し、音声
素片辞書２８の母音のホルマント周波数位置を変更する
手法が一般的である(例えば、特開平４‐１４７３００
号公報)。

【００１２】また、声質だけでなく、韻律も任意の話者
の韻律に近づける方法もある。例えば、テキスト音声合
成装置が発声する単語アクセントを、任意の話者のアク
セントに設定したり、発声文章が固定ならば、任意の話
者のイントネーションデータを抽出してテキスト音声合
成装置にデータとして与えることも行われている(例え
ば、特開平１１‐１７５０８２号公報)。

【００１３】

【発明が解決しようとする課題】しかしながら、上記従
来の音声変換機能を備えたテキスト音声合成装置には、
以下のような問題がある。テキスト音声合成装置の出力
音声を、任意の話者の声で発声させるためには、声質を
上記任意の話者の声質に近づけるだけでなく、韻律も近
づける必要がある。しかしながら、上記特開平１１‐１
７５０８２号公報に開示された従来のテキスト音声合成
装置においては、単語アクセント(アクセント成分に相
当)位置を任意の話者の単語アクセントと同じに変更す
る処理は行われているが、声の高さやその変動幅,声の
大きさ,発声速度といった種々の要素を含む韻律情報の
うちの極一部のみを近似しているだけであり、話者性を
表現するには不十分である。

【００１４】さらに、上述のごとく、発声内容が固定の
場合には、任意の話者のイントネーションデータを抽出
し、直接データとして利用可能にしてはいるが、テキス
ト音声合成で発声できる内容が固定されてしまい、任意
の内容を発声できないという問題もある。

【００１５】そこで、この発明の目的は、任意の話者の
韻律でテキスト合成音声を生成できるテキスト音声合成
装置、および、テキスト音声合成処理プログラムを記録
したプログラム記録媒体を提供することにある。

【００１６】

【課題を解決するための手段】上記目的を達成するた
め、第１の発明は、入力されたテキストの読みと品詞情
報とに基づいてアクセント辞書を用いて声の高さや大き
さや継続時間長を含む韻律情報を生成する韻律生成手段
と,音声信号を所定の単位での音声素片として保存する
音声素片辞書と,上記読みと韻律情報とに基づいて上記
音声素片辞書を用いて音声信号を生成する音声合成手段
を有するテキスト音声合成装置において、音声入力部か
ら入力された任意の話者の音声信号に基づいて当該話者
の韻律情報を学習する韻律学習手段と、上記韻律情報の
学習結果に基づいて,上記韻律生成手段の動作を制御し
て,当該話者の韻律情報を真似た韻律情報を生成させる
韻律制御手段を備えたことを特徴としている。

【００１７】上記構成によれば、韻律学習手段による入
力話者の韻律情報の学習結果に基づいて、韻律制御手段
によって、韻律生成手段の動作が制御されて、当該話者
の韻律情報を真似た韻律情報が生成される。したがっ
て、入力テキストに基づいて、任意の話者の韻律的特徴
を真似た韻律的特徴を有する合成音声が生成される。

【００１８】また、第１の実施例は、上記第１の発明の
テキスト音声合成装置において、上記アクセント辞書は
方言毎の複数の部分アクセント辞書で構成されると供
に、当該話者の音声信号に基づいて,当該話者の方言を
判定して対応する方言用の部分アクセント辞書を選択す
る方言判定手段を備えたことを特徴としている。

【００１９】この実施例によれば、方言判定手段によっ
て、入力話者の方言が判定されて上記アクセント辞書か
ら対応する方言用の部分アクセント辞書が選択される。
こうして、上記入力話者の方言アクセント型をも真似る
ことによって、上記入力話者の韻律に更に近い韻律的特
徴を有する合成音声が生成される。

【００２０】また、第２の実施例は、上記第１の発明の
テキスト音声合成装置において、当該話者の音声信号に
基づいて、当該話者の声質に近付くように上記音声素片
辞書に格納された音声素片の周波数特性を変換する声質
変換手段を備えたことを特徴としている。

【００２１】この実施例によれば、声質変換手段によっ
て、上記入力話者の声質に近付くように上記音声素片辞
書に格納された音声素片の周波数特性が変換される。し
たがって、上記音声素片を用いて合成音声を生成するこ
とによって、上記韻律的特徴のみならず、声質までもが
上記入力話者の発声に似せたテキスト音声合成が生成さ
れる。

【００２２】また、第３の実施例は、上記第１の発明の
テキスト音声合成装置において、上記韻律学習手段は、
予め定められた単語や文章に関して,当該話者の音声信
号に基づく韻律情報と上記韻律生成手段によって生成さ
れた韻律情報とに基づいて,上記韻律生成手段によって
設定されたピッチに対する制御パラメータを抽出するピ
ッチ制御パラメータ抽出手段と、当該話者の音声信号に
基づく韻律情報と上記韻律生成手段によって生成された
韻律情報とに基づいて,上記韻律生成手段によって設定
された音量に対する制御パラメータを抽出する音量制御
パラメータ抽出手段と、当該話者の音声信号に基づく韻
律情報と上記韻律生成手段によって生成された韻律情報
とに基づいて,上記韻律生成手段によって設定された発
声速度に対する制御パラメータを抽出する発声速度制御
パラメータ抽出手段で構成されることを特徴としてい
る。

【００２３】この実施例によれば、上記韻律制御手段に
よって、上記各制御パラメータ抽出手段で抽出された各
制御パラメータに基づいて、上記韻律生成手段の動作が
制御されて、上記入力話者の韻律情報を真似た韻律情報
が生成される。

【００２４】また、第４の実施例は、上記第３の実施例
のテキスト音声合成装置において、上記ピッチ制御パラ
メータ抽出手段は、上記制御パラメータとして、声の高
さの最低周波数と、単語アクセントにおける周波数の起
伏量と、１つの呼気段落で文を発声する際の周波数の起
伏量との制御パラメータを抽出するようになっているこ
とを特徴している。

【００２５】この実施例によれば、上記ピッチ制御パラ
メータ抽出手段によって、ピッチに対する制御パラメー
タが、声の高さの最低周波数(ベースピッチ)と、単語ア
クセントにおける周波数の起伏量(アクセント成分)と、
１つの呼気段落で文を発声する際の周波数の起伏量(フ
レーズ成分)との各要素に分けて、的確に抽出される。

【００２６】また、第２の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における韻律生成
手段,音声合成手段,韻律学習手段および韻律制御手段と
して機能させるテキスト音声合成処理プログラムが記録
されたことを特徴としている。

【００２７】上記構成によれば、上記第１の発明の場合
と同様に、テキストに基づいて、任意の話者の韻律的特
徴を真似た韻律的特徴を有する合成音声が生成される。

【００２８】

【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。＜第１実施の形態＞図１は、本実施の形態のテキスト音
声合成装置におけるブロック図である。テキスト入力端
子４１,テキスト解析器４２,言語辞書４３,韻律生成器
４４,アクセント辞書４５,韻律制御器４６,音声合成器
４７,音声素片辞書４８および出力器４９は、図６に示
すテキスト入力端子１,テキスト解析器２,言語辞書３,
韻律生成器４,アクセント辞書５,韻律制御器６,音声合
成器７,音声素片辞書８および出力器９と同様である。

【００２９】本テキスト音声合成装置は、さらに、韻律
変換を行う目標話者の声を入力する音声入力端子５０
と、目標話者の韻律を学習する韻律学習器５１を備えて
いる。そして、韻律学習器５１で学習した結果に基づい
て、韻律制御器４６が制御されて、韻律生成器４４で生
成された韻律を目標話者の韻律に修正するようなってい
る。

【００３０】こうすることによって、任意の話者の韻律
特性(例えば、声の高さ,抑揚の幅,発声速度,声の大きさ
の変動幅等)を真似た合成音声を生成することができる
のである。

【００３１】図２に、上記韻律学習器５１の具体的構成
を示す。韻律学習器５１は、音声入力端子５０から入力
された任意話者の音声データを取り込むと供に、韻律生
成器４４で生成された韻律データをも取り込む。そし
て、任意の話者の音声データから抽出された韻律データ
と韻律生成器４４からの韻律データとを、ピッチ制御パ
ラメータ抽出器５２,音量制御パラメータ抽出器５３お
よび発声速度パラメータ抽出器５４に送出し、夫々分析
して得た制御パラメータを韻律制御器４６へ出力するよ
うになっている。

【００３２】以下、上記構成を有する韻律学習器５１の
動作について説明する。任意の話者に関する声の高さ,
抑揚の幅,発声速度および声の大きさの変動幅を調査す
るために、ある話者に予め指定された単語や文章の発声
を行ってもらい、その音声データを入力端子５０から取
り込む。取り込まれた音声データは、韻律学習器５１に
よって、韻律生成器４４によって規則に従って作成され
た韻律データと比較されて、入力話者の韻律に近付ける
ような声の高さ,抑揚の幅,発声速度および声の大きさの
変動幅等の制御パラメータが抽出される。この様子を図
３に示す。

【００３３】図３において、上半分における「規則で作
成した韻律」の部分は、図７と同じであり、韻律生成器
４４によって規則に従って作成された韻律情報、即ち声
の高さ５５と音量５６と発声速度５７の情報が示されて
いる。ここで、声の高さ５５は実線で示し、音量５６は
破線で示しており、発声速度５７は横軸(時間軸)の長さ
で示している。尚、５８はフレーズ成分であり、５９は
アクセント成分であり、６０はベースピッチである。

【００３４】図３において、下半分における「任意の話
者の音声分析」の部分は、入力話者に対する音声分析の
様子を示している。すなわち、入力話者の韻律データと
上記規則に基づく韻律データとにおける声の高さと音量
と発声速度を比較することで、入力話者の韻律制御に近
づけるための制御パラメータを抽出するのである。

【００３５】先ず、ピッチに関して説明する。上記規則
で生成したピッチデータ５５と、任意話者の発声による
ピッチデータ６１とを、ピッチ制御パラメータ抽出器５
２に入力し、フレーズ成分とアクセント成分とベースピ
ッチの制御パラメータを抽出する。ここで、上記各制御
パラメータの抽出は、特定の単語や文章に対して、規則
によって生成されたピッチデータ５５と任意話者の発声
によるピッチデータ６１との比較によって行われる。す
なわち、入力話者のフレーズ成分６３,アクセント成分
６４およびベースピッチ６５が、規則によるフレーズ成
分５８,アクセント成分５９およびベースピッチ６０に
対してどのような比率であるかが調べられるのである。
その場合、先ずは、単語を発声してアクセント成分６４
の比率とベースピッチ６５の比率とを決定する。次に、
先の単語を含む文に拡張してフレーズ成分６３の比率を
決定することによって、各比率を抽出することができ
る。

【００３６】これらの制御パラメータは話者による変動
が大きく、アナウンサーのように抑揚を大きく発声する
場合や、話者によっては殆ど抑揚を小さく発声する場合
があり、話者の発声の特徴を表現している。しかしなが
ら、学習に用いる単語や文章による変動もあるので、複
数種類の学習データから平均して求めても良い。

【００３７】上記音量の制御パラメータ抽出も同様にし
て行われる。すなわち、規則によって生成された音量デ
ータ５６と任意話者が発声した音量データ６２とを音量
制御パラメータ抽出器５３に入力して、規則に対する入
力話者の比率を抽出するのである。また、発声速度の制
御パラメータ抽出も同様にして行われる。すなわち、規
則によって生成された発声時間長データ５７と任意話者
が発声した発声時間長データ６６とを発声速度制御パラ
メータ抽出器６４に入力して、規則に対する入力話者の
比率を抽出するのである。

【００３８】例えば、図３の場合は、学習に用いた話者
の発声を真似るには、発声速度を規則より２０％遅く設
定し、ベースピッチを６０％に設定し、更に抑揚の幅を
制御するフレーズ成分およびアクセント成分を供に７０
％に設定する。つまり、テキスト音声合成の規則に従っ
て発声させるよりも、全体的に声が低く、抑揚の幅も小
さく、そしてゆつくりと発声するように修正する場合を
示している。

【００３９】上記のようにして、上記韻律学習器５１で
抽出された韻律特徴(比率)を表す制御パラメータは、韻
律制御器４６に設定される。そして、韻律制御器４６に
よって、韻律生成器４４の動作が制御されて、規則に従
って生成された韻律情報が韻律学習器５１で抽出された
制御パラメータに基づいて修正される。その結果、発声
する声の全体的な高さ,高さの変動幅,大きさおよび速度
等が、学習に用いた話者の発声に似せた値に設定される
のである。

【００４０】以上のごとく、本テキスト音声合成装置に
おいては、韻律変換を行う目標話者の声を入力する音声
入力端子５０と、目標話者の韻律を学習する韻律学習器
５１と、韻律制御器４６を備えている。さらに、韻律学
習器５１は、ピッチ制御パラメータ抽出器５２と音量制
御パラメータ抽出器５３と発声速度制御パラメータ抽出
器５４を有している。

【００４１】そして、上記ピッチ制御パラメータ抽出器
５２は、韻律生成器４４によって規則に従って生成され
たピッチデータ５５と目標話者の発声によるピッチデー
タ６１とを比較して、上記規則に基づくフレーズ成分５
８,アクセント成分５９およびベースピッチ６０に対す
る目標話者のフレーズ成分６３,アクセント成分６４お
よびベースピッチ６５の比率を制御パラメータとして抽
出する。

【００４２】また、上記音量制御パラメータ抽出器５３
は、上記韻律生成器４４によって規則に従って生成され
た音量データ５６に対する目標話者の発声による音量デ
ータ６２の比率を制御パラメータとして抽出する。同様
に、発声速度制御パラメータ抽出器５４は、韻律生成器
４４によって規則に従って生成された発声時間長データ
５７に対する目標話者の発声による発声時間長データ６
６の比率を制御パラメータとして抽出する。

【００４３】そして、こうして上記韻律学習器５１で抽
出された各制御パラメータに基づいて、韻律制御器４６
によって韻律生成器４４の動作が制御されて、規則に従
って生成された韻律情報を目標話者の韻律情報に修正す
るようにしている。

【００４４】したがって、本テキスト音声合成装置によ
って発声する音声の韻律的特徴を、目標話者の韻律的特
徴に似せることができ、合成音声による発声を目的話者
の発声様式に近づけることができるのである。

【００４５】＜第２実施の形態＞本実施の形態は、任意
の話者の方言アクセント型を抽出して、方言に応じたア
クセント辞書を用いて任意の話者の韻律情報を生成する
ことで、任意の話者の発声様式を真似するテキスト音声
合成装置に関する。

【００４６】図４は、この実施の形態におけるテキスト
音声合成装置のブロック図を示す。テキスト入力端子７
１,テキスト解析器７２,言語辞書７３,韻律生成器７４,
韻律制御器７６,音声合成器７７,音声素片辞書７８,出
力器７９および韻律学習器８１は、図１に示すテキスト
入力端子４１,テキスト解析器４２,言語辞書４３,韻律
生成器４４,韻律制御器４６,音声合成器４７,音声素片
辞書４８,出力器４９および韻律学習器５１と同様であ
る。

【００４７】本テキスト音声合成装置は、さらに、任意
の話者の発声からその話者が話す方言特有のアクセント
型(方言アクセント型)を判定する方言判定器８２を備え
ている。そして、音声入力端子８０は、韻律学習器８１
と方言判定器８２とに目標話者の音声を入力するように
なっている。また、アクセント辞書７５には、代表的な
方言毎に第１アクセント辞書〜第Ｎアクセント辞書の複
数の部分アクセント辞書を格納しておく。

【００４８】日本語におけるアクセントの分類は、大き
くは近畿アクセントと東京アクセントとに分類される。
その他に、二型アクセントと呼ばれる大きくは２種類の
アクセント型しか無い方言、無形アクセントと呼ばれる
アクセント型が意味の判別に用いられない方言等があ
る。

【００４９】本実施の形態においては、これら代表的な
方言毎のアクセント辞書を予めアクセント辞書７５に設
定しておく。そして、話者の方言を判定する目的で、予
め決められた指定の単語の発声を行ってもらい、その音
声を音声入力端子８０から取り込む。上記特定の単語と
しては、方言毎のアクセント特徴が表現され易い単語を
予め決めておく。例えば「赤」という発声は、東京アクセ
ントでは「あ」が高く発声されるが、近畿アクセントでは
「か」の方が高く発声される。こうして音声入力端子８０
から取り込まれた音声に基づいて方言判定器８２で方言
(方言アクセント型)が判定され、アクセント辞書７５の
中から発声話者の方言に応じたアクセント辞書が選択さ
れるのである。

【００５０】このように、本実施の形態においては、第
１実施の形態の構成に加えて、方言判定器８２を備える
と供に、アクセント辞書７５には代表的な方言毎に複数
のアクセント辞書を格納しておく。したがって、任意の
話者の方言アクセント型を真似た上で、さらに、声の高
さ,抑揚の幅,発声速度および声の大きさの変動幅等を真
似ることができる。すなわち、上記第１実施の形態の場
合よりも更に任意の話者の韻律に近い合成音声で発声す
ることができるのである。

【００５１】尚、上記特開平１１‐１７５０８２号公報
に開示された従来のテキスト音声合成装置においては、
任意の話者のアクセントを抽出してアクセント辞書を切
り換えることで発声を目的話者の発声様式に近づける際
に、方言辞書の切り換えを行うことが記述されている。
しかしながら、任意の話者の韻律的特徴を抽出すること
は記述されてはおらず、個々の特定単語の韻律データを
保持して利用する仕組みが説明されている。すなわち、
任意の話者の韻律的特徴を抽出し、その抽出結果に基づ
いて、任意の入力テキストに基づく単語や文章の発声様
式を制御するような拡張については記述されてはいない
のである。

【００５２】＜第３実施の形態＞上記第１実施の形態お
よび第２実施の形態においては、任意の話者の韻律的特
徴を真似るようにしている。本実施の形態は、任意の話
者の声質も真似るようにしたテキスト音声合成装置に関
する。

【００５３】図５は、この実施の形態におけるテキスト
音声合成装置のブロック図を示す。テキスト入力端子９
１,テキスト解析器９２,言語辞書９３,韻律生成器９４,
アクセント辞書９５,韻律制御器９６,音声合成器９７,
音声素片辞書９８,出力器９９,韻律学習器１０１および
方言判定器１０２は、図４に示すテキスト入力端子７
１,テキスト解析器７２,言語辞書７３,韻律生成器７４,
アクセント辞書７５,韻律制御器７６,音声合成器７７,
音声素片辞書７８,出力器７９,韻律学習器８１および方
言判定器８２と同様である。

【００５４】本テキスト音声合成装置は、さらに、声質
変換器１０３を備えると共に、音声入力端子１００は韻
律学習器１０１と方言判定器１０２と声質変換器１０３
とに目標話者の音声を入力するようになっている。そし
て、声質変換器１０３は、任意の話者の発声に基づい
て、音声素片辞書９８に格納された音声素片(音声デー
タ)の周波数特性を当該話者の声質に近づくように変換
する。したがって、音声合成器９７によって上記音声素
片を用いて合成音声を生成することによって、任意の話
者の声質に似せた声質の合成音声を生成することができ
るのである。尚、上記声質変換の方法としては種々の方
法が開発されており、例えば従来技術でも説明したホル
マント周波数位置を変更する方法を用いればよい。

【００５５】このように、本実施の形態によれば、任意
の話者の韻律的特徴に加えて声質的特徴も真似ることに
よって、より一層任意の話者の発声に似せたテキスト音
声合成装置を実現することができるのである。

【００５６】尚、上記第３の実施の形態においては、上
記第２実施の形態におけるテキスト音声合成装置に声質
変換器１０３を設けているが、上記第１実施の形態にお
けるテキスト音声合成装置に声質変換器１０３を設けて
も一向に差し支えない。

【００５７】ところで、上記各実施の形態における上記
テキスト解析手段,韻律生成手段,音声合成手段,韻律学
習手段,韻律制御手段,方言判定手段および声質変換手段
としての機能は、プログラム記録媒体に記録されたテキ
スト音声合成処理プログラムによって実現される。上記
プログラム記録媒体は、ＲＯＭ(リード・オンリ・メモリ)
でなるプログラムメディアである。または、外部補助記
憶装置に装着されて読み出されるプログラムメディアで
あってもよい。尚、何れの場合においても、上記プログ
ラムメディアからテキスト音声合成処理プログラムを読
み出すプログラム読み出し手段は、上記プログラムメデ
ィアに直接アクセスして読み出す構成を有していてもよ
いし、ＲＡＭ(ランダム・アクセス・メモリ)に設けられた
プログラム記憶エリア(図示せず)にダウンロードして、
上記プログラム記憶エリアにアクセスして読み出す構成
を有していてもよい。尚、上記プログラムメディアから
ＲＡＭの上記プログラム記憶エリアにダウンロードする
ためのダウンロードプログラムは、予め本体装置に格納
されているものとする。

【００５８】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー（登録商標）ディスク,ハ
ードディスク等の磁気ディスクやＣＤ(コンパクトディ
スク)‐ＲＯＭ,ＭＯ(光磁気)ディスク,ＭＤ(ミニディス
ク),ＤＶＤ(ディジタルビデオディスク)等の光ディスク
のディスク系、ＩＣ(集積回路)カードや光カード等のカ
ード系、マスクＲＯＭ,ＥＰＲＯＭ（紫外線消去型ＲＯ
Ｍ),ＥＥＰＲＯＭ(電気的消去型ＲＯＭ),フラッシュＲ
ＯＭ等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。

【００５９】また、上記各実施の形態におけるテキスト
音声合成装置は、モデムを備えてインターネットを含む
通信ネットワークと接続可能な構成を有していれば、上
記プログラムメディアは、通信ネットワークからのダウ
ンロード等によって流動的にプログラムを坦持する媒体
であっても差し支えない。尚、その場合における上記通
信ネットワークからダウンロードするためのダウンロー
ドプログラムは、予め本体装置に格納されているものと
する。または、別の記録媒体からインストールされるも
のとする。

【００６０】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。

【００６１】

【発明の効果】以上より明らかなように、第１の発明の
テキスト音声合成装置は、韻律学習手段によって、入力
された任意の話者の音声信号に基づいて上記入力話者の
韻律情報を学習し、この学習結果に基づいて、韻律制御
手段によって、韻律生成手段の動作を制御して当該話者
の韻律情報を真似た韻律情報を生成させるので、入力テ
キストに基づいて、任意の話者の韻律的特徴を真似た韻
律的特徴を有する合成音声を生成することができる。

【００６２】また、第１の実施例のテキスト音声合成装
置は、上記アクセント辞書を方言毎の複数の部分アクセ
ント辞書で構成し、方言判定手段によって、上記入力話
者の方言を判定して対応する方言用の部分アクセント辞
書を選択するので、上記入力話者の方言アクセント型を
も真似ることができる。したがって、上記入力話者の韻
律に更に近い韻律的特徴を有するテキスト合成音声を生
成することができる。

【００６３】また、第２の実施例のテキスト音声合成装
置は、声質変換手段によって、上記音声素片辞書に格納
された音声素片の周波数特性を上記入力話者の声質に近
付くように変換するので、上記音声素片を用いて合成音
声を生成することによって、上記韻律的特徴のみなら
ず、声質までも上記入力話者の発声に似せたテキスト音
声合成を生成することができる。

【００６４】また、第３の実施例のテキスト音声合成装
置は、上記韻律学習手段を、上記韻律生成手段によって
設定されたピッチ,音量および発声速度に対する制御パ
ラメータを抽出するピッチ制御パラメータ抽出手段,音
量制御パラメータ抽出手段および発声速度制御パラメー
タ抽出手段で構成したので、上記抽出された各制御パラ
メータに基づいて上記韻律生成手段の動作を制御するこ
とによって、上記入力話者の韻律情報を真似た韻律情報
を生成することができる。

【００６５】また、第４の実施例のテキスト音声合成装
置は、上記ピッチ制御パラメータ抽出手段を、上記制御
パラメータとして、声の高さの最低周波数と、単語アク
セントにおける周波数の起伏量と、１つの呼気段落で文
を発声する際の周波数の起伏量との制御パラメータを抽
出するように成したので、上記ピッチに対する制御パラ
メータを、声の高さの最低周波数と、単語アクセントに
おける周波数の起伏量と、１つの呼気段落で文を発声す
る際の周波数の起伏量との各要素に分けて、的確に抽出
することができる。

【００６６】また、第２の発明のプログラム記録媒体
は、コンピュータを、上記第１の発明における韻律生成
手段,音声合成手段,韻律学習手段および韻律制御手段と
して機能させるテキスト音声合成処理プログラムが記録
されているので、上記第１の発明の場合と同様に、テキ
ストに基づいて、任意の話者の韻律的特徴を真似た韻律
的特徴を有する合成音声を生成することができる。

【図面の簡単な説明】

【図１】この発明のテキスト音声合成装置におけるブ
ロック図である。

【図２】図１における韻律学習器の具体的構成を示す
ブロック図である。

【図３】任意の話者の韻律に近付けるための制御パラ
メータ抽出の説明図である。

【図４】図１とは異なるテキスト音声合成装置のブロ
ック図である。

【図５】図１および図４とは異なるテキスト音声合成
装置のブロック図である。

【図６】従来の一般的なテキスト音声合成装置のブロ
ック図である。

【図７】図６における韻律生成器による韻律生成の説
明図である。

【図８】従来の声質変換機能を備えたテキスト音声合
成装置のブロック図である。

【符号の説明】

４１,７１,９１…テキスト入力端子、４２,７２,９２…テキスト解析器、４３,７３,９３…言語辞書、４４,７４,９４…韻律生成器、４５,７５,９５…アクセント辞書、４６,７６,９６…韻律制御器、４７,７７,９７…音声合成器、４８,７８,９８…音声素片辞書、４９,７９,９９…出力器、５０,８０,１００…音声入力端子、５１,８１,１０１…韻律学習器、５２…ピッチ制御パラメータ抽出器、５３…音量制御パラメータ抽出器、５４…発声速度パラメータ抽出器、８２,１０２…方言判定器、１０３…声質変換器。

───────────────────────────────────────────────────── フロントページの続き (72)発明者三木一浩大阪府大阪市阿倍野区長池町22番22号シャープ株式会社内Ｆターム(参考） 5D045 AA07 AA09

Claims

【特許請求の範囲】

【請求項１】入力されたテキストの読みと品詞情報と
に基づいてアクセント辞書を用いて声の高さや大きさや
継続時間長を含む韻律情報を生成する韻律生成手段と、
音声信号を所定の単位での音声素片として保存する音声
素片辞書と、上記読みと韻律情報とに基づいて上記音声
素片辞書を用いて音声信号を生成する音声合成手段を有
するテキスト音声合成装置において、音声入力部から入力された任意の話者の音声信号に基づ
いて、当該話者の韻律情報を学習する韻律学習手段と、上記韻律情報の学習結果に基づいて、上記韻律生成手段
の動作を制御して、当該話者の韻律情報を真似た韻律情
報を生成させる韻律制御手段を備えたことを特徴とする
テキスト音声合成装置。
【請求項２】請求項１に記載のテキスト音声合成装置
において、上記アクセント辞書は、方言毎の複数の部分アクセント
辞書で構成されると供に、当該話者の音声信号に基づいて、当該話者の方言を判定
して対応する方言用の部分アクセント辞書を選択する方
言判定手段を備えたことを特徴とするテキスト音声合成
装置。
【請求項３】請求項１あるいは請求項２に記載のテキ
スト音声合成装置において、当該話者の音声信号に基づいて、当該話者の声質に近付
くように上記音声素片辞書に格納された音声素片の周波
数特性を変換する声質変換手段を備えたことを特徴とす
るテキスト音声合成装置。
【請求項４】請求項１乃至請求項３の何れか一つに記
載のテキスト音声合成装置において、上記韻律学習手段は、予め定められた単語や文章に関して、当該話者の音声信
号に基づく韻律情報と上記韻律生成手段によって生成さ
れた韻律情報とに基づいて、上記韻律生成手段によって
設定されたピッチに対する制御パラメータを抽出するピ
ッチ制御パラメータ抽出手段と、当該話者の音声信号に基づく韻律情報と上記韻律生成手
段によって生成された韻律情報とに基づいて、上記韻律
生成手段によって設定された音量に対する制御パラメー
タを抽出する音量制御パラメータ抽出手段と、当該話者の音声信号に基づく韻律情報と上記韻律生成手
段によって生成された韻律情報とに基づいて、上記韻律
生成手段によって設定された発声速度に対する制御パラ
メータを抽出する発声速度制御パラメータ抽出手段で構
成されることを特徴とするテキスト音声合成装置。
【請求項５】請求項４に記載のテキスト音声合成装置
において、上記ピッチ制御パラメータ抽出手段は、上記制御パラメ
ータとして、声の高さの最低周波数と、単語アクセント
における周波数の起伏量と、１つの呼気段落で文を発声
する際の周波数の起伏量との制御パラメータを抽出する
ようになっていることを特徴するテキスト音声合成装
置。
【請求項６】コンピュータを、請求項１における韻律生成手段,音声合成手段,韻律学習
手段および韻律制御手段として機能させるテキスト音声
合成処理プログラムが記録されたことを特徴とするコン
ピュータ読出し可能なプログラム記録媒体。