JP2002258885A - テキスト音声合成装置およびプログラム記録媒体 - Google Patents

テキスト音声合成装置およびプログラム記録媒体

Info

Publication number
JP2002258885A
JP2002258885A JP2001052049A JP2001052049A JP2002258885A JP 2002258885 A JP2002258885 A JP 2002258885A JP 2001052049 A JP2001052049 A JP 2001052049A JP 2001052049 A JP2001052049 A JP 2001052049A JP 2002258885 A JP2002258885 A JP 2002258885A
Authority
JP
Japan
Prior art keywords
prosody
speech
text
speaker
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001052049A
Other languages
English (en)
Inventor
Tomokazu Morio
智一 森尾
Osamu Kimura
治 木村
Kazuhiro Miki
一浩 三木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001052049A priority Critical patent/JP2002258885A/ja
Publication of JP2002258885A publication Critical patent/JP2002258885A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 任意の話者の韻律でテキスト合成音声を生成
する。 【解決手段】 韻律生成器44は、テキスト解析器41
で生成された読みと品詞との情報に基づいて韻律情報を
生成する。韻律学習器51は、韻律生成器44で生成さ
れた韻律情報に対する音声入力端子50から入力された
目標話者の声から抽出された韻律情報の比率を表わす制
御パラメータを抽出する。韻律制御器46は、上記抽出
された制御パラメータに基づいて、韻律生成器44の動
作を制御して上記生成された韻律情報を目標話者の韻律
情報に修正する。こうして、合成音声の韻律的特徴を目
標話者の韻律的特徴に似せることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、テキストから任
意の話者の声に似せて合成音声信号を生成するテキスト
音声合成装置およびテキスト音声合成処理プログラムを
記録したプログラム記録媒体に関する。
【0002】
【従来の技術】図6は、従来の一般的なテキスト音声合
成装置の構成を示す。図6に示すテキスト音声合成装置
は、テキスト入力端子1,テキスト解析器2,言語辞書
3,韻律生成器4,アクセント辞書5,韻律制御器6,音声
合成器7,音声素片辞書8および出力器9で構成され
る。以下、上記従来のテキスト音声合成装置の動作につ
いて説明する。
【0003】上記テキスト解析器2は、単語や文章など
の日本語の漢字仮名混じりテキスト情報(例:「今朝は晴
天です。」)が入力端子1から入力されると、言語辞書3
を用いて読みと品詞との情報を生成して出力する(例え
ば、kesa:名詞、wa:助詞、se-teN:名詞、desu:助
詞、.:句点)。尚、入力テキストとしては、日本語の漢
字仮名混じりテキスト以外にもアルファベット等の読み
記号を直接入力することも可能である。但し、その場合
には、テキスト解析器2は不必要となる。
【0004】上記韻律生成器4は、上記アクセント辞書
5を参照しながら、入力された読みと品詞との情報に基
づいて、文の係り受けを判断して韻律情報(声の高さ,声
の大きさ,声の継続時間長)を生成する。その際に、上記
声の高さは母音のピッチ(基本周波数)で制御される。上
述の例で説明すると、時間順に入力された母音e,a,
a,…(以下省略)におけるピッチは、フレーズ成分と呼
ばれる一つの呼気段落で文を発声する際の声の高さの起
伏制御と、アクセント成分と呼ばれる単語に関する声の
高さの起伏制御との2つのパラメータで、規則によって
作成される(例えば:電子情報通信学会論文誌、Vol.J72
-A,No.1,pp.32-40,1989年1月)。この様子を、図7に示
す。
【0005】以下、図7を簡単に説明する。図7に示す
例の場合は「kesa wa」および「se-teNdesu」の2つのアク
セント句から文が構成されており、二つのフレーズ成分
11と、アクセント成分12と、ベースピッチ13と呼
ばれる声の高さの最低周波数との3つのパラメータで制
御される。これらのパラメータから韻律生成器4のピッ
チ制御器(図示せず)で生成されたピッチの時系列は、右
の図に実線14で示されている。因みに、図中の点線1
5は、声の音量の時系列を示している。また、16は、
横軸(時間軸)の長さで表した発声速度を示している。
【0006】また、声の大きさおよび継続時間長は、各
音素(例:k,e,s,a,…)毎に音声波形の振幅情報およ
び継続時間長を決定する。
【0007】上記音声素片辞書8は、音声合成に必要な
音声素片データを予め設定された単位で記録している。
音声合成単位として、子音+母音(CV:Consonant,Vow
el)の音節単位(例:「ke」,「sa」)や、高音質化を目的
に音素連鎖における過渡部の特微量を保持した母音+子
音+母音(VCV)単位(例:「aki」,「ito」)等が広
く使われている。以後の説明においては、音声素片の基
本単位としてVCV単位を用いることにする。
【0008】最後に、上記音声合成器7は、上記韻律生
成器4からの読みに相当するVCV音声素片データ系列
を音声素片辞書8から選択する。そして、予め設定され
ている選択VCV音声素片データの声の高さや大きさや
継続時間長を、韻律生成器4からの韻律情報に基づいて
変形しながら、VCV音声素片データ系列を母音区間で
滑らかに接続して合成音声を生成し、出力器9から出力
するのである。上述の例の場合は、「−ke」,「esa」,
「awa」,…の順でVCV系列が接続される。ここで、
「−」は無音を表す。
【0009】尚、上記韻律制御器6は、発声する声の全
体的な高さや、高さの変動幅,大きさおよび速度等を操
作するものである。このように、韻律を制御することに
よって、全体的に声(ピッチ)を高くして子供の声を作成
したり、図7に示すフレーズ成分11やアクセント成分
12を小さくすることによって、声の高さの変動幅を狭
めてロボット的な声を作成する等を行うことができる。
テキスト音声合成装置によっては、この韻律制御器6を
備えていない場合もある。
【0010】さらに、任意の話者の声でテキスト音声合
成を行うことを目的とした声質変換技術も開発されてい
る(例えば、特開平8-328575号公報)。この声質
変換機能を備えたテキスト音声合成装置は、図8に示す
ような構成を有している。図8において、テキスト入力
端子21,テキスト解析器22,言語辞書23,韻律生成
器24,アクセント辞書25,韻律制御器26,音声合成
器27,音声素片辞書28および出力器29は、図6に
示すテキスト入力端子1,テキスト解析器2,言語辞書
3,韻律生成器4,アクセント辞書5,韻律制御器6,音声
合成器7,音声素片辞書8および出力器9と同様であ
る。
【0011】本テキスト音声合成装置は、更に任意の話
者の音声を入力する音声入力端子30と声質変換器31
とを備えている。声質変換手法については種々の方法が
提案されているが、声質の個人性には母音のホルマント
周波数の位置が重要である故に、学習用の音声として母
音を発声して音声入力端子30から入力し、声質変換器
31によってそのホルマント周波数位置を分析し、音声
素片辞書28の母音のホルマント周波数位置を変更する
手法が一般的である(例えば、特開平4‐147300
号公報)。
【0012】また、声質だけでなく、韻律も任意の話者
の韻律に近づける方法もある。例えば、テキスト音声合
成装置が発声する単語アクセントを、任意の話者のアク
セントに設定したり、発声文章が固定ならば、任意の話
者のイントネーションデータを抽出してテキスト音声合
成装置にデータとして与えることも行われている(例え
ば、特開平11‐175082号公報)。
【0013】
【発明が解決しようとする課題】しかしながら、上記従
来の音声変換機能を備えたテキスト音声合成装置には、
以下のような問題がある。テキスト音声合成装置の出力
音声を、任意の話者の声で発声させるためには、声質を
上記任意の話者の声質に近づけるだけでなく、韻律も近
づける必要がある。しかしながら、上記特開平11‐1
75082号公報に開示された従来のテキスト音声合成
装置においては、単語アクセント(アクセント成分に相
当)位置を任意の話者の単語アクセントと同じに変更す
る処理は行われているが、声の高さやその変動幅,声の
大きさ,発声速度といった種々の要素を含む韻律情報の
うちの極一部のみを近似しているだけであり、話者性を
表現するには不十分である。
【0014】さらに、上述のごとく、発声内容が固定の
場合には、任意の話者のイントネーションデータを抽出
し、直接データとして利用可能にしてはいるが、テキス
ト音声合成で発声できる内容が固定されてしまい、任意
の内容を発声できないという問題もある。
【0015】そこで、この発明の目的は、任意の話者の
韻律でテキスト合成音声を生成できるテキスト音声合成
装置、および、テキスト音声合成処理プログラムを記録
したプログラム記録媒体を提供することにある。
【0016】
【課題を解決するための手段】上記目的を達成するた
め、第1の発明は、入力されたテキストの読みと品詞情
報とに基づいてアクセント辞書を用いて声の高さや大き
さや継続時間長を含む韻律情報を生成する韻律生成手段
と,音声信号を所定の単位での音声素片として保存する
音声素片辞書と,上記読みと韻律情報とに基づいて上記
音声素片辞書を用いて音声信号を生成する音声合成手段
を有するテキスト音声合成装置において、音声入力部か
ら入力された任意の話者の音声信号に基づいて当該話者
の韻律情報を学習する韻律学習手段と、上記韻律情報の
学習結果に基づいて,上記韻律生成手段の動作を制御し
て,当該話者の韻律情報を真似た韻律情報を生成させる
韻律制御手段を備えたことを特徴としている。
【0017】上記構成によれば、韻律学習手段による入
力話者の韻律情報の学習結果に基づいて、韻律制御手段
によって、韻律生成手段の動作が制御されて、当該話者
の韻律情報を真似た韻律情報が生成される。したがっ
て、入力テキストに基づいて、任意の話者の韻律的特徴
を真似た韻律的特徴を有する合成音声が生成される。
【0018】また、第1の実施例は、上記第1の発明の
テキスト音声合成装置において、上記アクセント辞書は
方言毎の複数の部分アクセント辞書で構成されると供
に、当該話者の音声信号に基づいて,当該話者の方言を
判定して対応する方言用の部分アクセント辞書を選択す
る方言判定手段を備えたことを特徴としている。
【0019】この実施例によれば、方言判定手段によっ
て、入力話者の方言が判定されて上記アクセント辞書か
ら対応する方言用の部分アクセント辞書が選択される。
こうして、上記入力話者の方言アクセント型をも真似る
ことによって、上記入力話者の韻律に更に近い韻律的特
徴を有する合成音声が生成される。
【0020】また、第2の実施例は、上記第1の発明の
テキスト音声合成装置において、当該話者の音声信号に
基づいて、当該話者の声質に近付くように上記音声素片
辞書に格納された音声素片の周波数特性を変換する声質
変換手段を備えたことを特徴としている。
【0021】この実施例によれば、声質変換手段によっ
て、上記入力話者の声質に近付くように上記音声素片辞
書に格納された音声素片の周波数特性が変換される。し
たがって、上記音声素片を用いて合成音声を生成するこ
とによって、上記韻律的特徴のみならず、声質までもが
上記入力話者の発声に似せたテキスト音声合成が生成さ
れる。
【0022】また、第3の実施例は、上記第1の発明の
テキスト音声合成装置において、上記韻律学習手段は、
予め定められた単語や文章に関して,当該話者の音声信
号に基づく韻律情報と上記韻律生成手段によって生成さ
れた韻律情報とに基づいて,上記韻律生成手段によって
設定されたピッチに対する制御パラメータを抽出するピ
ッチ制御パラメータ抽出手段と、当該話者の音声信号に
基づく韻律情報と上記韻律生成手段によって生成された
韻律情報とに基づいて,上記韻律生成手段によって設定
された音量に対する制御パラメータを抽出する音量制御
パラメータ抽出手段と、当該話者の音声信号に基づく韻
律情報と上記韻律生成手段によって生成された韻律情報
とに基づいて,上記韻律生成手段によって設定された発
声速度に対する制御パラメータを抽出する発声速度制御
パラメータ抽出手段で構成されることを特徴としてい
る。
【0023】この実施例によれば、上記韻律制御手段に
よって、上記各制御パラメータ抽出手段で抽出された各
制御パラメータに基づいて、上記韻律生成手段の動作が
制御されて、上記入力話者の韻律情報を真似た韻律情報
が生成される。
【0024】また、第4の実施例は、上記第3の実施例
のテキスト音声合成装置において、上記ピッチ制御パラ
メータ抽出手段は、上記制御パラメータとして、声の高
さの最低周波数と、単語アクセントにおける周波数の起
伏量と、1つの呼気段落で文を発声する際の周波数の起
伏量との制御パラメータを抽出するようになっているこ
とを特徴している。
【0025】この実施例によれば、上記ピッチ制御パラ
メータ抽出手段によって、ピッチに対する制御パラメー
タが、声の高さの最低周波数(ベースピッチ)と、単語ア
クセントにおける周波数の起伏量(アクセント成分)と、
1つの呼気段落で文を発声する際の周波数の起伏量(フ
レーズ成分)との各要素に分けて、的確に抽出される。
【0026】また、第2の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における韻律生成
手段,音声合成手段,韻律学習手段および韻律制御手段と
して機能させるテキスト音声合成処理プログラムが記録
されたことを特徴としている。
【0027】上記構成によれば、上記第1の発明の場合
と同様に、テキストに基づいて、任意の話者の韻律的特
徴を真似た韻律的特徴を有する合成音声が生成される。
【0028】
【発明の実施の形態】以下、この発明を図示の実施の形
態により詳細に説明する。 <第1実施の形態>図1は、本実施の形態のテキスト音
声合成装置におけるブロック図である。テキスト入力端
子41,テキスト解析器42,言語辞書43,韻律生成器
44,アクセント辞書45,韻律制御器46,音声合成器
47,音声素片辞書48および出力器49は、図6に示
すテキスト入力端子1,テキスト解析器2,言語辞書3,
韻律生成器4,アクセント辞書5,韻律制御器6,音声合
成器7,音声素片辞書8および出力器9と同様である。
【0029】本テキスト音声合成装置は、さらに、韻律
変換を行う目標話者の声を入力する音声入力端子50
と、目標話者の韻律を学習する韻律学習器51を備えて
いる。そして、韻律学習器51で学習した結果に基づい
て、韻律制御器46が制御されて、韻律生成器44で生
成された韻律を目標話者の韻律に修正するようなってい
る。
【0030】こうすることによって、任意の話者の韻律
特性(例えば、声の高さ,抑揚の幅,発声速度,声の大きさ
の変動幅等)を真似た合成音声を生成することができる
のである。
【0031】図2に、上記韻律学習器51の具体的構成
を示す。韻律学習器51は、音声入力端子50から入力
された任意話者の音声データを取り込むと供に、韻律生
成器44で生成された韻律データをも取り込む。そし
て、任意の話者の音声データから抽出された韻律データ
と韻律生成器44からの韻律データとを、ピッチ制御パ
ラメータ抽出器52,音量制御パラメータ抽出器53お
よび発声速度パラメータ抽出器54に送出し、夫々分析
して得た制御パラメータを韻律制御器46へ出力するよ
うになっている。
【0032】以下、上記構成を有する韻律学習器51の
動作について説明する。任意の話者に関する声の高さ,
抑揚の幅,発声速度および声の大きさの変動幅を調査す
るために、ある話者に予め指定された単語や文章の発声
を行ってもらい、その音声データを入力端子50から取
り込む。取り込まれた音声データは、韻律学習器51に
よって、韻律生成器44によって規則に従って作成され
た韻律データと比較されて、入力話者の韻律に近付ける
ような声の高さ,抑揚の幅,発声速度および声の大きさの
変動幅等の制御パラメータが抽出される。この様子を図
3に示す。
【0033】図3において、上半分における「規則で作
成した韻律」の部分は、図7と同じであり、韻律生成器
44によって規則に従って作成された韻律情報、即ち声
の高さ55と音量56と発声速度57の情報が示されて
いる。ここで、声の高さ55は実線で示し、音量56は
破線で示しており、発声速度57は横軸(時間軸)の長さ
で示している。尚、58はフレーズ成分であり、59は
アクセント成分であり、60はベースピッチである。
【0034】図3において、下半分における「任意の話
者の音声分析」の部分は、入力話者に対する音声分析の
様子を示している。すなわち、入力話者の韻律データと
上記規則に基づく韻律データとにおける声の高さと音量
と発声速度を比較することで、入力話者の韻律制御に近
づけるための制御パラメータを抽出するのである。
【0035】先ず、ピッチに関して説明する。上記規則
で生成したピッチデータ55と、任意話者の発声による
ピッチデータ61とを、ピッチ制御パラメータ抽出器5
2に入力し、フレーズ成分とアクセント成分とベースピ
ッチの制御パラメータを抽出する。ここで、上記各制御
パラメータの抽出は、特定の単語や文章に対して、規則
によって生成されたピッチデータ55と任意話者の発声
によるピッチデータ61との比較によって行われる。す
なわち、入力話者のフレーズ成分63,アクセント成分
64およびベースピッチ65が、規則によるフレーズ成
分58,アクセント成分59およびベースピッチ60に
対してどのような比率であるかが調べられるのである。
その場合、先ずは、単語を発声してアクセント成分64
の比率とベースピッチ65の比率とを決定する。次に、
先の単語を含む文に拡張してフレーズ成分63の比率を
決定することによって、各比率を抽出することができ
る。
【0036】これらの制御パラメータは話者による変動
が大きく、アナウンサーのように抑揚を大きく発声する
場合や、話者によっては殆ど抑揚を小さく発声する場合
があり、話者の発声の特徴を表現している。しかしなが
ら、学習に用いる単語や文章による変動もあるので、複
数種類の学習データから平均して求めても良い。
【0037】上記音量の制御パラメータ抽出も同様にし
て行われる。すなわち、規則によって生成された音量デ
ータ56と任意話者が発声した音量データ62とを音量
制御パラメータ抽出器53に入力して、規則に対する入
力話者の比率を抽出するのである。また、発声速度の制
御パラメータ抽出も同様にして行われる。すなわち、規
則によって生成された発声時間長データ57と任意話者
が発声した発声時間長データ66とを発声速度制御パラ
メータ抽出器64に入力して、規則に対する入力話者の
比率を抽出するのである。
【0038】例えば、図3の場合は、学習に用いた話者
の発声を真似るには、発声速度を規則より20%遅く設
定し、ベースピッチを60%に設定し、更に抑揚の幅を
制御するフレーズ成分およびアクセント成分を供に70
%に設定する。つまり、テキスト音声合成の規則に従っ
て発声させるよりも、全体的に声が低く、抑揚の幅も小
さく、そしてゆつくりと発声するように修正する場合を
示している。
【0039】上記のようにして、上記韻律学習器51で
抽出された韻律特徴(比率)を表す制御パラメータは、韻
律制御器46に設定される。そして、韻律制御器46に
よって、韻律生成器44の動作が制御されて、規則に従
って生成された韻律情報が韻律学習器51で抽出された
制御パラメータに基づいて修正される。その結果、発声
する声の全体的な高さ,高さの変動幅,大きさおよび速度
等が、学習に用いた話者の発声に似せた値に設定される
のである。
【0040】以上のごとく、本テキスト音声合成装置に
おいては、韻律変換を行う目標話者の声を入力する音声
入力端子50と、目標話者の韻律を学習する韻律学習器
51と、韻律制御器46を備えている。さらに、韻律学
習器51は、ピッチ制御パラメータ抽出器52と音量制
御パラメータ抽出器53と発声速度制御パラメータ抽出
器54を有している。
【0041】そして、上記ピッチ制御パラメータ抽出器
52は、韻律生成器44によって規則に従って生成され
たピッチデータ55と目標話者の発声によるピッチデー
タ61とを比較して、上記規則に基づくフレーズ成分5
8,アクセント成分59およびベースピッチ60に対す
る目標話者のフレーズ成分63,アクセント成分64お
よびベースピッチ65の比率を制御パラメータとして抽
出する。
【0042】また、上記音量制御パラメータ抽出器53
は、上記韻律生成器44によって規則に従って生成され
た音量データ56に対する目標話者の発声による音量デ
ータ62の比率を制御パラメータとして抽出する。同様
に、発声速度制御パラメータ抽出器54は、韻律生成器
44によって規則に従って生成された発声時間長データ
57に対する目標話者の発声による発声時間長データ6
6の比率を制御パラメータとして抽出する。
【0043】そして、こうして上記韻律学習器51で抽
出された各制御パラメータに基づいて、韻律制御器46
によって韻律生成器44の動作が制御されて、規則に従
って生成された韻律情報を目標話者の韻律情報に修正す
るようにしている。
【0044】したがって、本テキスト音声合成装置によ
って発声する音声の韻律的特徴を、目標話者の韻律的特
徴に似せることができ、合成音声による発声を目的話者
の発声様式に近づけることができるのである。
【0045】<第2実施の形態>本実施の形態は、任意
の話者の方言アクセント型を抽出して、方言に応じたア
クセント辞書を用いて任意の話者の韻律情報を生成する
ことで、任意の話者の発声様式を真似するテキスト音声
合成装置に関する。
【0046】図4は、この実施の形態におけるテキスト
音声合成装置のブロック図を示す。テキスト入力端子7
1,テキスト解析器72,言語辞書73,韻律生成器74,
韻律制御器76,音声合成器77,音声素片辞書78,出
力器79および韻律学習器81は、図1に示すテキスト
入力端子41,テキスト解析器42,言語辞書43,韻律
生成器44,韻律制御器46,音声合成器47,音声素片
辞書48,出力器49および韻律学習器51と同様であ
る。
【0047】本テキスト音声合成装置は、さらに、任意
の話者の発声からその話者が話す方言特有のアクセント
型(方言アクセント型)を判定する方言判定器82を備え
ている。そして、音声入力端子80は、韻律学習器81
と方言判定器82とに目標話者の音声を入力するように
なっている。また、アクセント辞書75には、代表的な
方言毎に第1アクセント辞書〜第Nアクセント辞書の複
数の部分アクセント辞書を格納しておく。
【0048】日本語におけるアクセントの分類は、大き
くは近畿アクセントと東京アクセントとに分類される。
その他に、二型アクセントと呼ばれる大きくは2種類の
アクセント型しか無い方言、無形アクセントと呼ばれる
アクセント型が意味の判別に用いられない方言等があ
る。
【0049】本実施の形態においては、これら代表的な
方言毎のアクセント辞書を予めアクセント辞書75に設
定しておく。そして、話者の方言を判定する目的で、予
め決められた指定の単語の発声を行ってもらい、その音
声を音声入力端子80から取り込む。上記特定の単語と
しては、方言毎のアクセント特徴が表現され易い単語を
予め決めておく。例えば「赤」という発声は、東京アクセ
ントでは「あ」が高く発声されるが、近畿アクセントでは
「か」の方が高く発声される。こうして音声入力端子80
から取り込まれた音声に基づいて方言判定器82で方言
(方言アクセント型)が判定され、アクセント辞書75の
中から発声話者の方言に応じたアクセント辞書が選択さ
れるのである。
【0050】このように、本実施の形態においては、第
1実施の形態の構成に加えて、方言判定器82を備える
と供に、アクセント辞書75には代表的な方言毎に複数
のアクセント辞書を格納しておく。したがって、任意の
話者の方言アクセント型を真似た上で、さらに、声の高
さ,抑揚の幅,発声速度および声の大きさの変動幅等を真
似ることができる。すなわち、上記第1実施の形態の場
合よりも更に任意の話者の韻律に近い合成音声で発声す
ることができるのである。
【0051】尚、上記特開平11‐175082号公報
に開示された従来のテキスト音声合成装置においては、
任意の話者のアクセントを抽出してアクセント辞書を切
り換えることで発声を目的話者の発声様式に近づける際
に、方言辞書の切り換えを行うことが記述されている。
しかしながら、任意の話者の韻律的特徴を抽出すること
は記述されてはおらず、個々の特定単語の韻律データを
保持して利用する仕組みが説明されている。すなわち、
任意の話者の韻律的特徴を抽出し、その抽出結果に基づ
いて、任意の入力テキストに基づく単語や文章の発声様
式を制御するような拡張については記述されてはいない
のである。
【0052】<第3実施の形態>上記第1実施の形態お
よび第2実施の形態においては、任意の話者の韻律的特
徴を真似るようにしている。本実施の形態は、任意の話
者の声質も真似るようにしたテキスト音声合成装置に関
する。
【0053】図5は、この実施の形態におけるテキスト
音声合成装置のブロック図を示す。テキスト入力端子9
1,テキスト解析器92,言語辞書93,韻律生成器94,
アクセント辞書95,韻律制御器96,音声合成器97,
音声素片辞書98,出力器99,韻律学習器101および
方言判定器102は、図4に示すテキスト入力端子7
1,テキスト解析器72,言語辞書73,韻律生成器74,
アクセント辞書75,韻律制御器76,音声合成器77,
音声素片辞書78,出力器79,韻律学習器81および方
言判定器82と同様である。
【0054】本テキスト音声合成装置は、さらに、声質
変換器103を備えると共に、音声入力端子100は韻
律学習器101と方言判定器102と声質変換器103
とに目標話者の音声を入力するようになっている。そし
て、声質変換器103は、任意の話者の発声に基づい
て、音声素片辞書98に格納された音声素片(音声デー
タ)の周波数特性を当該話者の声質に近づくように変換
する。したがって、音声合成器97によって上記音声素
片を用いて合成音声を生成することによって、任意の話
者の声質に似せた声質の合成音声を生成することができ
るのである。尚、上記声質変換の方法としては種々の方
法が開発されており、例えば従来技術でも説明したホル
マント周波数位置を変更する方法を用いればよい。
【0055】このように、本実施の形態によれば、任意
の話者の韻律的特徴に加えて声質的特徴も真似ることに
よって、より一層任意の話者の発声に似せたテキスト音
声合成装置を実現することができるのである。
【0056】尚、上記第3の実施の形態においては、上
記第2実施の形態におけるテキスト音声合成装置に声質
変換器103を設けているが、上記第1実施の形態にお
けるテキスト音声合成装置に声質変換器103を設けて
も一向に差し支えない。
【0057】ところで、上記各実施の形態における上記
テキスト解析手段,韻律生成手段,音声合成手段,韻律学
習手段,韻律制御手段,方言判定手段および声質変換手段
としての機能は、プログラム記録媒体に記録されたテキ
スト音声合成処理プログラムによって実現される。上記
プログラム記録媒体は、ROM(リード・オンリ・メモリ)
でなるプログラムメディアである。または、外部補助記
憶装置に装着されて読み出されるプログラムメディアで
あってもよい。尚、何れの場合においても、上記プログ
ラムメディアからテキスト音声合成処理プログラムを読
み出すプログラム読み出し手段は、上記プログラムメデ
ィアに直接アクセスして読み出す構成を有していてもよ
いし、RAM(ランダム・アクセス・メモリ)に設けられた
プログラム記憶エリア(図示せず)にダウンロードして、
上記プログラム記憶エリアにアクセスして読み出す構成
を有していてもよい。尚、上記プログラムメディアから
RAMの上記プログラム記憶エリアにダウンロードする
ためのダウンロードプログラムは、予め本体装置に格納
されているものとする。
【0058】ここで、上記プログラムメディアとは、本
体側と分離可能に構成され、磁気テープやカセットテー
プ等のテープ系、フロッピー(登録商標)ディスク,ハ
ードディスク等の磁気ディスクやCD(コンパクトディ
スク)‐ROM,MO(光磁気)ディスク,MD(ミニディス
ク),DVD(ディジタルビデオディスク)等の光ディスク
のディスク系、IC(集積回路)カードや光カード等のカ
ード系、マスクROM,EPROM(紫外線消去型RO
M),EEPROM(電気的消去型ROM),フラッシュR
OM等の半導体メモリ系を含めた、固定的にプログラム
を坦持する媒体である。
【0059】また、上記各実施の形態におけるテキスト
音声合成装置は、モデムを備えてインターネットを含む
通信ネットワークと接続可能な構成を有していれば、上
記プログラムメディアは、通信ネットワークからのダウ
ンロード等によって流動的にプログラムを坦持する媒体
であっても差し支えない。尚、その場合における上記通
信ネットワークからダウンロードするためのダウンロー
ドプログラムは、予め本体装置に格納されているものと
する。または、別の記録媒体からインストールされるも
のとする。
【0060】尚、上記記録媒体に記録されるものはプロ
グラムのみに限定されるものではなく、データも記録す
ることが可能である。
【0061】
【発明の効果】以上より明らかなように、第1の発明の
テキスト音声合成装置は、韻律学習手段によって、入力
された任意の話者の音声信号に基づいて上記入力話者の
韻律情報を学習し、この学習結果に基づいて、韻律制御
手段によって、韻律生成手段の動作を制御して当該話者
の韻律情報を真似た韻律情報を生成させるので、入力テ
キストに基づいて、任意の話者の韻律的特徴を真似た韻
律的特徴を有する合成音声を生成することができる。
【0062】また、第1の実施例のテキスト音声合成装
置は、上記アクセント辞書を方言毎の複数の部分アクセ
ント辞書で構成し、方言判定手段によって、上記入力話
者の方言を判定して対応する方言用の部分アクセント辞
書を選択するので、上記入力話者の方言アクセント型を
も真似ることができる。したがって、上記入力話者の韻
律に更に近い韻律的特徴を有するテキスト合成音声を生
成することができる。
【0063】また、第2の実施例のテキスト音声合成装
置は、声質変換手段によって、上記音声素片辞書に格納
された音声素片の周波数特性を上記入力話者の声質に近
付くように変換するので、上記音声素片を用いて合成音
声を生成することによって、上記韻律的特徴のみなら
ず、声質までも上記入力話者の発声に似せたテキスト音
声合成を生成することができる。
【0064】また、第3の実施例のテキスト音声合成装
置は、上記韻律学習手段を、上記韻律生成手段によって
設定されたピッチ,音量および発声速度に対する制御パ
ラメータを抽出するピッチ制御パラメータ抽出手段,音
量制御パラメータ抽出手段および発声速度制御パラメー
タ抽出手段で構成したので、上記抽出された各制御パラ
メータに基づいて上記韻律生成手段の動作を制御するこ
とによって、上記入力話者の韻律情報を真似た韻律情報
を生成することができる。
【0065】また、第4の実施例のテキスト音声合成装
置は、上記ピッチ制御パラメータ抽出手段を、上記制御
パラメータとして、声の高さの最低周波数と、単語アク
セントにおける周波数の起伏量と、1つの呼気段落で文
を発声する際の周波数の起伏量との制御パラメータを抽
出するように成したので、上記ピッチに対する制御パラ
メータを、声の高さの最低周波数と、単語アクセントに
おける周波数の起伏量と、1つの呼気段落で文を発声す
る際の周波数の起伏量との各要素に分けて、的確に抽出
することができる。
【0066】また、第2の発明のプログラム記録媒体
は、コンピュータを、上記第1の発明における韻律生成
手段,音声合成手段,韻律学習手段および韻律制御手段と
して機能させるテキスト音声合成処理プログラムが記録
されているので、上記第1の発明の場合と同様に、テキ
ストに基づいて、任意の話者の韻律的特徴を真似た韻律
的特徴を有する合成音声を生成することができる。
【図面の簡単な説明】
【図1】 この発明のテキスト音声合成装置におけるブ
ロック図である。
【図2】 図1における韻律学習器の具体的構成を示す
ブロック図である。
【図3】 任意の話者の韻律に近付けるための制御パラ
メータ抽出の説明図である。
【図4】 図1とは異なるテキスト音声合成装置のブロ
ック図である。
【図5】 図1および図4とは異なるテキスト音声合成
装置のブロック図である。
【図6】 従来の一般的なテキスト音声合成装置のブロ
ック図である。
【図7】 図6における韻律生成器による韻律生成の説
明図である。
【図8】 従来の声質変換機能を備えたテキスト音声合
成装置のブロック図である。
【符号の説明】
41,71,91…テキスト入力端子、 42,72,92…テキスト解析器、 43,73,93…言語辞書、 44,74,94…韻律生成器、 45,75,95…アクセント辞書、 46,76,96…韻律制御器、 47,77,97…音声合成器、 48,78,98…音声素片辞書、 49,79,99…出力器、 50,80,100…音声入力端子、 51,81,101…韻律学習器、 52…ピッチ制御パラメータ抽出器、 53…音量制御パラメータ抽出器、 54…発声速度パラメータ抽出器、 82,102…方言判定器、 103…声質変換器。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 三木 一浩 大阪府大阪市阿倍野区長池町22番22号 シ ャープ株式会社内 Fターム(参考) 5D045 AA07 AA09

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストの読みと品詞情報と
    に基づいてアクセント辞書を用いて声の高さや大きさや
    継続時間長を含む韻律情報を生成する韻律生成手段と、
    音声信号を所定の単位での音声素片として保存する音声
    素片辞書と、上記読みと韻律情報とに基づいて上記音声
    素片辞書を用いて音声信号を生成する音声合成手段を有
    するテキスト音声合成装置において、 音声入力部から入力された任意の話者の音声信号に基づ
    いて、当該話者の韻律情報を学習する韻律学習手段と、 上記韻律情報の学習結果に基づいて、上記韻律生成手段
    の動作を制御して、当該話者の韻律情報を真似た韻律情
    報を生成させる韻律制御手段を備えたことを特徴とする
    テキスト音声合成装置。
  2. 【請求項2】 請求項1に記載のテキスト音声合成装置
    において、 上記アクセント辞書は、方言毎の複数の部分アクセント
    辞書で構成されると供に、 当該話者の音声信号に基づいて、当該話者の方言を判定
    して対応する方言用の部分アクセント辞書を選択する方
    言判定手段を備えたことを特徴とするテキスト音声合成
    装置。
  3. 【請求項3】 請求項1あるいは請求項2に記載のテキ
    スト音声合成装置において、 当該話者の音声信号に基づいて、当該話者の声質に近付
    くように上記音声素片辞書に格納された音声素片の周波
    数特性を変換する声質変換手段を備えたことを特徴とす
    るテキスト音声合成装置。
  4. 【請求項4】 請求項1乃至請求項3の何れか一つに記
    載のテキスト音声合成装置において、 上記韻律学習手段は、 予め定められた単語や文章に関して、当該話者の音声信
    号に基づく韻律情報と上記韻律生成手段によって生成さ
    れた韻律情報とに基づいて、上記韻律生成手段によって
    設定されたピッチに対する制御パラメータを抽出するピ
    ッチ制御パラメータ抽出手段と、 当該話者の音声信号に基づく韻律情報と上記韻律生成手
    段によって生成された韻律情報とに基づいて、上記韻律
    生成手段によって設定された音量に対する制御パラメー
    タを抽出する音量制御パラメータ抽出手段と、 当該話者の音声信号に基づく韻律情報と上記韻律生成手
    段によって生成された韻律情報とに基づいて、上記韻律
    生成手段によって設定された発声速度に対する制御パラ
    メータを抽出する発声速度制御パラメータ抽出手段で構
    成されることを特徴とするテキスト音声合成装置。
  5. 【請求項5】 請求項4に記載のテキスト音声合成装置
    において、 上記ピッチ制御パラメータ抽出手段は、上記制御パラメ
    ータとして、声の高さの最低周波数と、単語アクセント
    における周波数の起伏量と、1つの呼気段落で文を発声
    する際の周波数の起伏量との制御パラメータを抽出する
    ようになっていることを特徴するテキスト音声合成装
    置。
  6. 【請求項6】 コンピュータを、 請求項1における韻律生成手段,音声合成手段,韻律学習
    手段および韻律制御手段として機能させるテキスト音声
    合成処理プログラムが記録されたことを特徴とするコン
    ピュータ読出し可能なプログラム記録媒体。
JP2001052049A 2001-02-27 2001-02-27 テキスト音声合成装置およびプログラム記録媒体 Pending JP2002258885A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001052049A JP2002258885A (ja) 2001-02-27 2001-02-27 テキスト音声合成装置およびプログラム記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001052049A JP2002258885A (ja) 2001-02-27 2001-02-27 テキスト音声合成装置およびプログラム記録媒体

Publications (1)

Publication Number Publication Date
JP2002258885A true JP2002258885A (ja) 2002-09-11

Family

ID=18912738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001052049A Pending JP2002258885A (ja) 2001-02-27 2001-02-27 テキスト音声合成装置およびプログラム記録媒体

Country Status (1)

Country Link
JP (1) JP2002258885A (ja)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005110726A (ja) * 2003-10-02 2005-04-28 Toshiba Corp 学習装置及びその方法
JP2008185911A (ja) * 2007-01-31 2008-08-14 Arcadia:Kk 音声合成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム
WO2010050103A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 音声合成装置
JP2012145802A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 音声合成装置および音声合成プログラム
US8357559B2 (en) 2003-05-14 2013-01-22 Nantero Inc. Method of making sensor platform using a non-horizontally oriented nanotube element
US8551806B2 (en) 2009-10-23 2013-10-08 Nantero Inc. Methods for passivating a carbonic nanolayer
US8586424B2 (en) 2008-11-19 2013-11-19 Nantero Inc. Switching materials comprising mixed nanoscopic particles and carbon nanotubes and method of making and using the same
US8630091B2 (en) 2005-09-06 2014-01-14 Nantero Inc. Carbon nanotubes for the selective transfer of heat from electronics
US8771628B2 (en) 2004-12-16 2014-07-08 Nantero Inc. Aqueous carbon nanotube applicator liquids and methods for producing applicator liquids thereof
US8895950B2 (en) 2009-10-23 2014-11-25 Nantero Inc. Methods for passivating a carbonic nanolayer
US9299430B1 (en) 2015-01-22 2016-03-29 Nantero Inc. Methods for reading and programming 1-R resistive change element arrays
US9406349B2 (en) 2005-05-09 2016-08-02 Nantero Inc. Memory elements and cross point switches and arrays for same using nonvolatile nanotube blocks
US9617151B2 (en) 2010-02-12 2017-04-11 Nantero Inc. Methods for controlling density, porosity, and/or gap size within nanotube fabric layers and films
US9650732B2 (en) 2013-05-01 2017-05-16 Nantero Inc. Low defect nanotube application solutions and fabrics and methods for making same
US10096363B2 (en) 2001-07-25 2018-10-09 Nantero, Inc. Methods of forming nanotube films and articles
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
JP7069386B1 (ja) 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10096363B2 (en) 2001-07-25 2018-10-09 Nantero, Inc. Methods of forming nanotube films and articles
US8357559B2 (en) 2003-05-14 2013-01-22 Nantero Inc. Method of making sensor platform using a non-horizontally oriented nanotube element
JP2005110726A (ja) * 2003-10-02 2005-04-28 Toshiba Corp 学習装置及びその方法
US8771628B2 (en) 2004-12-16 2014-07-08 Nantero Inc. Aqueous carbon nanotube applicator liquids and methods for producing applicator liquids thereof
US9406349B2 (en) 2005-05-09 2016-08-02 Nantero Inc. Memory elements and cross point switches and arrays for same using nonvolatile nanotube blocks
US8630091B2 (en) 2005-09-06 2014-01-14 Nantero Inc. Carbon nanotubes for the selective transfer of heat from electronics
JP2008185911A (ja) * 2007-01-31 2008-08-14 Arcadia:Kk 音声合成装置
JP2008292587A (ja) * 2007-05-22 2008-12-04 Fujitsu Ltd 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP2010026223A (ja) * 2008-07-18 2010-02-04 Nippon Hoso Kyokai <Nhk> 目標パラメータ決定装置、合成音声修正装置、及びコンピュータプログラム
JPWO2010050103A1 (ja) * 2008-10-28 2012-03-29 日本電気株式会社 音声合成装置
WO2010050103A1 (ja) * 2008-10-28 2010-05-06 日本電気株式会社 音声合成装置
US8586424B2 (en) 2008-11-19 2013-11-19 Nantero Inc. Switching materials comprising mixed nanoscopic particles and carbon nanotubes and method of making and using the same
US9337423B2 (en) 2008-11-19 2016-05-10 Nantero Inc. Two-terminal switching device using a composite material of nanoscopic particles and carbon nanotubes
US8969142B2 (en) 2008-11-19 2015-03-03 Nantero Inc. Switching materials comprising mixed nanoscopic particles and carbon nanotubes and methods of making and using the same
US8551806B2 (en) 2009-10-23 2013-10-08 Nantero Inc. Methods for passivating a carbonic nanolayer
US9281185B2 (en) 2009-10-23 2016-03-08 Nantero Inc. Methods for passivating a carbonic nanolayer
US8895950B2 (en) 2009-10-23 2014-11-25 Nantero Inc. Methods for passivating a carbonic nanolayer
US9617151B2 (en) 2010-02-12 2017-04-11 Nantero Inc. Methods for controlling density, porosity, and/or gap size within nanotube fabric layers and films
JP2012145802A (ja) * 2011-01-13 2012-08-02 Fujitsu Ltd 音声合成装置および音声合成プログラム
US9650732B2 (en) 2013-05-01 2017-05-16 Nantero Inc. Low defect nanotube application solutions and fabrics and methods for making same
US9299430B1 (en) 2015-01-22 2016-03-29 Nantero Inc. Methods for reading and programming 1-R resistive change element arrays
JP2021511533A (ja) * 2018-01-11 2021-05-06 ネオサピエンス株式会社Neosapience, Inc. 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
JP7069386B1 (ja) 2021-06-30 2022-05-17 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
WO2023276539A1 (ja) * 2021-06-30 2023-01-05 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
JP2023006218A (ja) * 2021-06-30 2023-01-18 株式会社ドワンゴ 音声変換装置、音声変換方法、プログラム、および記録媒体
JP7372402B2 (ja) 2021-08-18 2023-10-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 音声合成方法、装置、電子機器及び記憶媒体

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US7418389B2 (en) Defining atom units between phone and syllable for TTS systems
JP3408477B2 (ja) フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ
KR100811568B1 (ko) 대화형 음성 응답 시스템들에 의해 스피치 이해를 방지하기 위한 방법 및 장치
EP0688011B1 (en) Audio output unit and method thereof
JP2002258885A (ja) テキスト音声合成装置およびプログラム記録媒体
CN115485766A (zh) 使用bert模型的语音合成韵律
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
WO2006106182A1 (en) Improving memory usage in text-to-speech system
Chen et al. Polyglot speech synthesis based on cross-lingual frame selection using auditory and articulatory features
O'Shaughnessy Modern methods of speech synthesis
Stan et al. Generating the Voice of the Interactive Virtual Assistant
Bonafonte Cávez et al. A billingual texto-to-speech system in spanish and catalan
Chettri et al. Nepali text to speech synthesis system using esnola method of concatenation
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Iyanda et al. Development of a Yorúbà Textto-Speech System Using Festival
Govender et al. The CSTR entry to the 2018 Blizzard Challenge
Ng Survey of data-driven approaches to Speech Synthesis
Klabbers Text-to-Speech Synthesis
Datta et al. Epoch Synchronous Overlap Add (ESOLA)
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Trinh et al. HMM-based Vietnamese speech synthesis
Deng et al. Speech Synthesis
KR100608643B1 (ko) 음성 합성 시스템의 억양 모델링 장치 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040623

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040720