JP3515406B2 - 音声合成方法及び装置 - Google Patents

音声合成方法及び装置

Info

Publication number
JP3515406B2
JP3515406B2 JP03068499A JP3068499A JP3515406B2 JP 3515406 B2 JP3515406 B2 JP 3515406B2 JP 03068499 A JP03068499 A JP 03068499A JP 3068499 A JP3068499 A JP 3068499A JP 3515406 B2 JP3515406 B2 JP 3515406B2
Authority
JP
Japan
Prior art keywords
speech
data
phoneme
voice
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP03068499A
Other languages
English (en)
Other versions
JP2000231395A (ja
Inventor
秀之 水野
公人 田中
信弥 中嶌
匡伸 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP03068499A priority Critical patent/JP3515406B2/ja
Publication of JP2000231395A publication Critical patent/JP2000231395A/ja
Application granted granted Critical
Publication of JP3515406B2 publication Critical patent/JP3515406B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、テキストを入力
しそのテキストに応じた任意の音声を合成する音声合成
方法及び装置に関し、特に、主に音韻列と韻律情報とか
ら音声を合成する規則音声合成方法及びこの方法を実現
するための装置に関するものである。
【0002】
【従来の技術】従来の音声合成方法では、あらかじめ、
音声素片として音素単位や、CV,VCV,CVC
(C:子音,V:母音)など音韻の調音結合を考慮した
単位、3音韻以上のフォルマントを考慮した単位、また
は前記全ての単位で音声データベースを作成しておき、
音声を合成する際に、入力テキストや韻律情報に応じて
音声データベース中から適切な素片データを選択して接
続することによって音声合成を行っているものが多い
(特開昭59−204097号公報,特開平1−078
300号公報,特開平6−095692号公報,特開平
9−090972号公報)。この音声合成方法では、合
成音声の品質はおおよそ使用する音声データベースの容
量と比例しており、容量は少ないが自然音声よりかなり
劣ったものから、容量は大きいがある程度高品質なもの
まで様々なものが開発・製品化されている。しかし、そ
れらの製品は全く独立に開発されており互換性等がない
ため、容量,品質,応答時間などの使用条件に応じて使
い分けることが困難である。
【0003】さらに、近年では大容量な記憶装置の使用
コストの低下にともなって、数十分から数時間に及ぶ音
声データをそのまま大容量の記憶装置に蓄積し、入力さ
れたテキスト及び韻律情報に応じた適当な基準で大容量
の音声データから適当な長さの音声素片を切り出すとと
もに、入力された韻律情報に従って切り出された音声素
片を適切に変形し接続することによって合成する音声合
成方法も提案されている(特許第2761552号)。
この方法では大容量の音声データを用意することで、理
論的には高品質な合成音声を作成することが可能である
が、大容量の音声データとそれを格納する記憶装置が必
要であるためシステム価格が高くなることや、音声デー
タを収集する基準または方法が確立されていないため、
必要な品質に見合った最適な規模の音声データを収集す
ることが不可能であること、存在する音声データから適
切な音声素片を切り出す最適な規則や方法が確立されて
いないため、切り出された音声素片が必ずしも適切でな
く合成音声全体の品質が安定しないこと等の問題があ
る。
【0004】
【発明が解決しようとする課題】この発明は上述した問
題点に鑑みてなされたものであり、その目的は、音素ま
たは音節等の長さの音声素片を使用した低容量の音声デ
ータに基づく音声合成方法によって得られる程度の品質
の合成音声から、大容量の音声データベースに基づく自
然音声と同様の高品質な合成音声まで、用途に応じてス
ケーラブルに音声データと合成品質を変更することが可
能な音声合成方法及び装置を提供することにある。ま
た、この発明の目的は、大容量の音声データにもとづく
音声合成方式の問題を解決し、音声データの収集基準と
音声素片の選択規則を明確化することにより、常に適切
な音声素片データの選択が保証された高品質な合成音声
を実現できる音声合成方法及び装置を提供することにあ
る。
【0005】
【課題を解決するための手段】以上の課題を解決するた
めに、請求項1記載の発明は、入力された音韻列と韻律
情報に対応づけられた音声素片データを音声データベー
スから選択して順次接続することにより音声信号を合成
する音声合成方法において、前記入力された音韻列を
クセント句単位の部分音韻列に分解する第1の分解過程
と、前記第1の分解過程において分解された部分音韻列
と一致し、かつ、該部分音韻列の前後の音韻環境が一致
する音声素片データの前記音声データベース中における
存在の有無を判断し、該音声素片データが存在する場合
には、当該音声素片データを選択する第1の選択過程
と、前記第1の選択過程において音声素片データが選択
できなかった前記部分音韻列を母音や撥音の連続を含む
単位の部分音韻列にさらに分解する第2の分解過程と、
前記第2の分解過程において分解された部分音韻列と一
致し、かつ、該部分音韻列の前後の音韻環境が一致する
音声素片データの前記音声データベース中における存在
の有無を判断し、該音声素片データが存在する場合に
は、当該音声素片データを選択する第2の選択過程と、
前記第2の選択過程において音声素片データが選択でき
なかった前記部分音韻列を音節単位の部分音韻列にさら
に分解する第3の分解過程と、前記第3の分解過程にお
いて分解された部分音韻列と一致し、かつ、該部分音韻
列の前後の音韻環境が一致する音声素片データの前記音
声データベース中における存在の有無を判断し、該音声
素片データが存在する場合には、当該音声素片データを
選択する第3の選択過程と、前記第1、第2及び第3の
選択過程において、選択された前記音声素片データを韻
律変形する過程と、前記韻律変形を受けた音声素片デー
タを順次接続して音声信号を合成する過程とを有するこ
とを特徴としている。
【0006】また、請求項2記載の発明は、請求項1記
載の発明において、前記第3の選択過程において音声素
片データが選択できなかった前記部分音韻列の音韻長が
2である場合、前記部分音韻列と該部分音韻列の前後の
音韻を含む部分音韻列を連鎖音韻に分解する過程をさら
に有し、前記選択過程では前記連鎖音韻に対応する音声
素片データを選択することを特徴としている。また、請
求項3記載の発明は、請求項1乃至2記載の発明におい
て、一個の部分音韻列について選択可能な音声素片デー
タが複数個存在する場合、それら音声素片データに対応
する韻律と前記部分音韻列に対応する韻律との類似性を
判断する過程をさらに有し、前記第1、第2及び第3の
選択過程では、前記複数個の音声素片データのうち、最
も類似性の高い音声素片データを選択することを特徴と
している。
【0007】また、請求項4記載の発明は、入力された
音韻列と韻律情報に対応づけられた音声素片データを音
声データベースから選択して順次接続することにより音
声信号を合成する音声合成装置において、前記入力され
た音韻列をアクセント句単位の部分音韻列に分解する
1の分解手段と、前記第1の分解手段において分解され
部分音韻列と一致し、かつ、該部分音韻列の前後の音
韻環境が一致する音声素片データの前記音声データベー
ス中における存在の有無を判断し、該音声素片データが
存在する場合には、当該音声素片データを選択する第1
選択手段と、前記第1の選択手段において音声素片デ
ータが選択できなかった前記部分音韻列を母音や撥音の
連続を含む単位の部分音韻列にさらに分解する第2の分
解手段と、前記第2の分解手段において分解された部分
音韻列と一致し、かつ、該部分音韻列の前後の音韻環境
が一致する音声素片データの前記音声データベース中に
おける存在の有無を判断し、該音声素片データが存在す
る場合には、当該音声素片データを選択する第2の選択
手段と、前記第2の選択手段において音声素片データが
選択できなかった前記部分音韻列を音節単位の部分音韻
列にさらに分解する第3の分解手段と、前記第3の分解
手段において分解された部分音韻列と一致し、かつ、該
部分音韻列の前後の音韻環境が一致する音声素片データ
の前記音声データベース中における存在の有無を判断
し、該音声素片データが存在する場合には、当該音声素
片データを選択する第3の選択手段と、前記第1、第2
及び第3の選択手段において、選択された前記音声素片
データを韻律変形する手段と、前記韻律変形を受けた音
声素片データを順次接続して音声信号を合成する手段と
を具備することを特徴としている。
【0008】また、請求項5記載の発明は、請求項4記
載の発明において、前記第3の選択手段において音声素
片データが選択できなかった前記部分音韻列の音韻長が
2である場合、前記部分音韻列と該部分音韻列の前後の
音韻を含む部分音韻列を連鎖音韻に分解する手段をさら
に有し、前記選択手段では前記連鎖音韻に対応する音声
素片データを選択することを特徴としている。また、請
求項6記載の発明は、請求項4乃至5記載の発明におい
て、一個の部分音韻列について選択可能な音声素片デー
タが複数個存在する場合、それら音声素片データに対応
する韻律と前記部分音韻列に対応する韻律との類似性を
判断する手段をさらに有し、前記第1、第2及び第3の
選択手段では、前記複数個の音声素片データのうち、最
も類似性の高い音声素片データを選択することを特徴と
している。
【0009】以上のように、本発明は、音韻情報と韻律
情報とから音声を合成する規則音声合成方法及び装置に
適用されるものである。そして本発明は、入力された音
韻情報に従って音声データベースから音声素片データを
選択する際に、音素や音節などの一定の単位での選択ま
たは複雑な規則や計算に基づく選択を行うのではなく、
音韻情報をある単純な規則に従って部分音韻列に分解
し、分解された音韻列およびその前後の音韻環境に適合
する音声素片データを音声データベースから選択し、適
合する音声素片データが無かった部分音韻列のみをさら
に別の単純な規則に従って分解し、その分解された音韻
列に適合する音声素片データを音声データベースから選
択し、さらに適合する音声素片データが無かった部分音
韻列のみ分解し、という多段階の分解と選択を入力音韻
列に対応する全ての音声素片データが見つかるまで行う
ことに特徴を有している。
【0010】このように多段階の選択を行うことで、最
下段の分解規則に対応した最小単位で音声データベース
を構成した場合が最も低容量・低品質な用途に対応する
とともに、それより上の段階の分解規則に対応した単位
の音声素片データを音声データベースに追加すること
で、より高品質な用途に対応させることが可能となり、
また、最上段の分解規則に対応した最長単位の音声素片
データが全て音声データベースに存在する場合は最高品
質の用途に対応させることが可能となる。そして各段階
に対応する音声素片データを音声データベースに追加ま
たは削除するだけで、音声合成システムの変更が簡単に
実現できる。
【0011】また、本発明では最終段階の音声素片選択
においては、環境を考慮しない連鎖音韻(CV,VV,
VC)にもとづく合成方法も適用可能であることに特徴
を有している。このようにすることで、環境を考慮して
音韻単位で音声素片データを用意した場合は数千〜数万
個の音声素片データが必要となるのに対し、本発明のよ
うに連鎖音韻単位で音声素片データを用意した場合は約
千個程度の音声素片データを用意すればよい。そのため
少量の記憶装置やメモリなどに音声データベースを格納
でき、LSI(大規模集積回路)への内蔵用途等にも対
応可能となる。
【0012】また、本発明では各段階で複数の音声素片
データが選択された場合、音声素片のピッチパタンが合
成すべきピッチパタンともっとも類似する音声素片デー
タを選択することにも特徴を有している。このようにす
ることで、音声合成時のピッチの変更量を少なくするこ
とができ、合成音声の品質を向上させることが可能とな
る。また合成すべきピッチパタンと同一のピッチデータ
をもつ音声素片データを追加することで、ピッチの変形
処理が不要になり、その場合の品質は編集音声合成の品
質とほぼ同等となる。
【0013】
【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を述べる。図1に本実施形態による音声合成
処理を実現するための音声合成装置の基本構成を示す。
図示したように、この音声合成装置は音声データベース
12,素片選択処理を行う素片選択部101,韻律変形
処理を行う韻律変形部102,素片接続処理を行う素片
接続部103から構成されている。これら各部が行うそ
れぞれの処理については以下に詳述する。また、図2は
この音声合成処理の手順を示したフローチャートであ
る。最初に図1を参照しながら音声合成装置の全体動作
について説明し、その後に、図3及び図4を参照して音
声合成装置を構成する幾つかの機能ブロックの構成及び
その動作の詳細について説明する。
【0014】図1に示すように、音韻列と韻律情報が素
片選択部101に入力される(図2のステップS1)
と、素片選択部101は入力された音韻列と韻律情報を
参照して音声データベース12より最適な波形(素片デ
ータ)を選択して韻律変形部102に送る(ステップS
2)。ここで、音声データベース12には音声波形,音
韻情報,音韻境界情報などが格納されているものとす
る。なお、素片選択部101の詳細な構成については後
述する。次に、韻律変形部102は、入力された韻律情
報に適合するように、部分音韻列に対応する韻律情報を
構成している部分韻律情報に応じて、前記素片選択部1
01で選択された素片データを変形して素片接続部10
3に送る(ステップS3)。
【0015】ここで、波形の変形方法としては、PSO
LA法(E.Moulines and F.Charpentier,“Pitch-sync
hro-nous waveform processing techniques for text-t
o-speech synthesis using diphones”,Speech Commun
ication ,Vol.9,pp.453-467,1990.12)、IPSE法
(田中ら,「基本周波数に応じてスペクトル包絡を変形
するテキスト合成システム」,信学技報,SP96-130,p
p.23-30,1997.3)、STRAIGHT法(河原,「聴
覚の情景分析と高品質音声分析変換合成法STRAIG
HT」,音響学会講演論文集,pp.189-192,1997.9)な
どがある。従って、音声データベース12には、それら
の合成方式に応じて最適な形で格納すればよく、必ずし
も波形データをそのまま格納する必要はない。例えばS
TRAIGHT法を用いるのであれば、事前にSTRA
IGHT分析で得られたパラメータを格納しておくこと
で音声合成時の計算時間が削減できる。そして最後に、
素片接続部103は、前記韻律変形部102で変形され
た素片データを順に接続し合成音声を生成する(ステッ
プS4)。以上が本実施形態による音声合成装置におい
て行われる処理の全体的な流れである。
【0016】次に、素片選択部101における処理の1
例について、図3のブロック図と前掲した図2のフロー
チャートを参照して説明する。なお、図3において図1
に示したものと同じ構成要素については同一の符号を付
してある。図3に示したように、素片選択部101は第
一段階分解部201,第一段階選択部202,韻律マッ
チング部203,第二段階分解部204,第二段階選択
部205,第三段階分解部206,第三段階選択部20
7,最終段選択部208から構成されている。まず、例
えば入力音韻列を”bakuoNga/giNsekaino”(ここで、
記号/はアクセント境界を示す)とした場合、第一段階
分解部201で入力音韻列を例えばアクセント句単位に
分解する(ステップS21)。これは、日本語ではアク
セント単位でまとまって発声される場合が多く、アクセ
ント句が発声現象の大きなまとまりと考えられるためで
ある。この例では、前記入力音韻列が部分音韻列”baku
oNga”とgiNsekaino”に分解される。
【0017】次に、第一段階選択部202は音声データ
ベース12から音韻列”bakuoNga”,前音韻環境が語頭
(図中の記号#),後音韻環境が”g” という素片デー
タ、および、音韻列 ”giNsekaino”,前音韻環境が”
a”,後音韻環境が語尾(図中の記号#)という素片デ
ータを音声データベース12からそれぞれ検索する(ス
テップS22)。図で示すとおり、音韻列”giNsekain
o”に対応する素片データが見つからず(同ステップが
“NO”)に、音韻列”bakuoNga”に対応する素片デー
タ21のみ見つかった(同ステップが“YES”)場
合、第一段階選択部202は素片データ21のみを韻律
マッチング部203に送る。この場合、音韻列”bakuoN
ga”に対応する素片データは1つしかない(ステップS
25が“NO”)ため、韻律マッチング部203は素片
データ21をそのまま図1の韻律変形部102に送る。
また、第一段階選択部202は音韻列”giNsekaino”を
第二段階分解部204に送る(ステップS24)。
【0018】次に、第二段階分解部204は、前記第一
段階選択部202による音声データベース12の検索で
見つからなかった音韻列”giNsekaino”を例えば音節に
母音や撥音の連続を含む単位で分解する(ステップS2
1)。これは撥音や母音が連続している場合、発声現象
的に連続しており音響的にも境界を設定するのが困難で
あるためである。そしてこの例では、”giN”,“s
e”,“kai”,“no”の4つの部分音韻列に分解され
る。次に、第二段階選択部205は第一段階選択部20
2と同様に、音声データベース12から、音韻列 ”gi
N”,前音韻環境が”a”,後音韻環境が”s”の素片デ
ータと、音韻列”se”,前音韻環境が”N”,後音韻環
境が”k”の素片データと、音韻列 ”kai”,前音韻環
境が”e”,後音韻環境が”n”の素片データと、音韻
列”no”,前音韻環境が”i”,後音韻環境が語尾(図
中の記号#)の素片データをそれぞれ検索する(ステッ
プS22)。
【0019】この結果、図で示すとおり第二段階選択部
205は ”giN”に対応する素片データ22及び素片デ
ータ23,”se”に対応する素片データ24,”no”に
対応する素片データ25を韻律マッチング部203に送
る(ステップS23が“YES”)。この場合、素片デ
ータ24と素片データ25はいずれも音韻列に対応する
素片が1つである(ステップS25が“NO”)ため、
韻律マッチング部203は素片データ21と同様にこれ
らをそのまま図1の韻律変形部102に送る。一方、素
片データ22と素片データ23(ステップS25が“Y
ES”)については、韻律マッチング部203が入力さ
れた韻律情報とマッチングを行い、入力韻律情報と最も
近い素片データを選択してから図1の韻律変形部102
に送る(ステップS26)。
【0020】ここで、韻律の近さの判定方法は使用する
音声データベース12の構成による。例えば、音声デー
タベース12がピッチのバリエーションについてのみ考
慮した音声データベースであれば、入力ピッチパタンと
最も近い(最も類似性の高い)ピッチパタンをもつ素片
データを選ぶことで十分である。また、特に韻律等を考
慮していない音声データベースを使用するのであれば、
平均ピッチ,ピッチ形状,時間長,パワーの各韻律パラ
メータについて、入力された値と素片データの持つ値と
の差分の絶対値を求め、これら絶対値に対して各韻律パ
ラメータ毎の重み係数を掛けて足し合わせることで韻律
コストを求め、その値の小さいものを選ぶことが望まし
いと考えられる(広川ら,“波形編集型規則合成法にお
ける波形選択関数の検討”,音響学会講演論文集,pp.1
57-158,1989.3)。この例では、素片データ22が入力
ピッチパタンに近いと判断されたとして、韻律マッチン
グ部203は素片データ22を図1の韻律変形部102
に送る。
【0021】次に、第三段階分解部206は、前記第二
段階選択部205による音声データベース12の検索で
見つからなかった(ステップS23が“NO”,ステッ
プS24)部分音韻列 ”kai”を例えば音節に分解する
(ステップS21)。これは、音節の構成要素である子
音と母音は音響的にも発声現象的にも密接に結びついて
いるため、分離して取り扱うのは音質の劣化を招く可能
性が大きいためである。この例では、部分音韻列 ”ka
i”が”ka”と“i” の2つの部分音韻列に分解され
る。次に、第三段階選択部207は第一段階選択部20
2及び第二段階選択部205と同様に、音声データベー
ス12から、音韻列”ka”,前音韻環境が”e”,後音
韻環境が”i”の素片データと、音韻列”i”,前音韻環
境が”a”,後音韻環境が”n”の素片データをそれぞれ
検索する(ステップS22)。
【0022】図で示すとおり音韻列”i” に対応する素
片データ26が一つ見つかり(ステップS23が“YE
S”)、音韻列”ka”に対応する素片データが見つから
なかった(ステップS23が“NO”)とする。すると
第三段階選択部207は、韻律マッチング部203に素
片データ26を送り、韻律マッチング部203は音韻
列”i” に対応する素片が1つだけ(ステップS25が
“NO”)のため、前記同様に素片データ26を図1の
韻律変形部102に送る。最後に、最終段選択部208
は前記第三段階選択部207による音声データベース1
2の検索で見つからなかった部分音韻列”ka”を選択す
る(ステップS24,ステップS21〜S26)。
【0023】次に、最終段選択部208の詳細について
図4を参照して以下に説明する。なお、図4において図
1又は図3に示したものと同じ構成要素については同一
の符号を付してある。この図4には2種類の分解・選択
方法の一例について示してある。図4(a)では、前記
の第一から第三までの分解処理および選択処理と同様
に、前記第三段階選択部207による音声データベース
12の検索で見つからなかった部分音韻列”ka”を音声
の基本単位である音韻に分解する方法の一例について示
してある。この例では音韻分解部301にて部分音韻
列”ka”が”k” と“a” に分解される。
【0024】次に、音韻選択部302では第一段階選択
部202,第二段階選択部205と同様に、音声データ
ベース12から、音韻”k”,前音韻環境が”e”,後音
韻環境が”a”の素片データと,音韻列”a” ,前音韻
環境が”k”,後音韻環境が”i”の素片データをそれぞ
れ検索する。図4(a)で示すとおり”k”に対応する
素片データ31および”a” に対応する素片データ32
が見つかったとして、音韻選択部302は図3の韻律マ
ッチング部203に素片データ31と素片データ32を
送る。韻律マッチング部203はこれら各音韻に対応す
る素片が各々1つのみのため、前記同様にこれら素片デ
ータを図1の韻律変形部102に送る。なお、もしも対
応する素片データが複数あった場合は、前記同様に韻律
マッチング部203にて入力された韻律情報と最も近い
韻律を持つ素片データを選択しそれを韻律変形部102
に送る。
【0025】一方、図4(b)では、前記第三段階選択
部207による音声データベース12の検索で見つから
なかった部分音韻列”ka”を連鎖音韻に分解する方法の
一例について示してある。連鎖音韻に分解する理由は、
前記図4(a)で示す方法と比較した場合に、少ないデ
ータ量であらゆる音韻列の合成が可能となるためであ
る。前記図4(a)に基づく方法では数千〜数万の素片
データが必要なのに対し、図4(b)で示す方法では約
1000個程度の素片データのみでよいため、より少な
い記憶容量で音声合成が実現可能となる。この例では、
部分音韻列”ka”の前音韻環境が”e”,後音韻環境
が”i”であったことから、連鎖音韻分解部303はこ
れを”ek”,“ka”,”ai”に分解して連鎖音韻選択部
304に送る。
【0026】次に、連鎖音韻選択部304は音声データ
ベース12から”ek”,”ka”,”ai”である連鎖音韻
の素片データをそれぞれ検索する。図4(b)で示すと
おり”ek”に対応する素片データ33,”ka”に対応す
る素片データ34,”ai”に対応する素片データ35が
見つかったとして、連鎖音韻選択部304は図3の韻律
マッチング部203に素片データ33〜素片データ35
を送る。この場合、各連鎖音韻に対応する素片データは
各々1つのみのため、韻律マッチング部203は前記同
様にこれら素片データを図1の韻律変形部102に送
る。なお、もしも対応する素片データが複数ある場合
は、前記同様に韻律マッチング部203にて入力韻律情
報と最も近い韻律を持つ素片データを選択しそれを韻律
変形部102に送る。またこの後、素片接続部103が
韻律変形部102で変形された素片データ(ステップS
3)を順に接続して合成音声を生成する(ステップS
4)が、図4(b)の場合は”k”と“a”が重複するの
で、このまま素片データを接続するだけでは音韻の重複
が避けられない。そのため、素片接続部103は素片接
続に先立って重複しないように音韻の中間部分をつなぐ
ようにしている。
【0027】
【発明の効果】以上述べたように、この発明によれば、
入力音韻列と入力韻律情報に対して段階的に音声データ
ベースから音声素片データを選択してそれら音声素片デ
ータを接続することで出力音声を合成している。このた
め、低コストの合成システムから高コストではあるが高
品質な合成システムまで用途に応じてシステム規模をス
ケーラブルに変更可能であり、実用性に優れた合成シス
テムの提供が可能である。また、最低段階の選択規則に
対応した音声素片データに基づく合成品質は保証されて
いるため、一定以上の品質が保証された合成音声の提供
が可能である。
【0028】また、請求項2又は5記載の発明では、部
分音韻列を前後の音韻環境を含めて連鎖音韻に分解して
連鎖音韻単位で音声素片データを選択するようにしてい
る。このため、環境を考慮して音韻単位で音声素片デー
タを用意した場合には数千〜数万個の音声素片データが
必要となるのに対し、連鎖音韻単位で音声素片データを
用意することで約千個程度の音声素片データを用意すれ
ば良くなる。そのため、音声データベースを少容量のメ
モリ等に格納することができ、LSIに内蔵するなどの
用途にも対応することができる。
【0029】また、請求項3又は6記載の発明では、あ
る部分音韻列について複数の音声素片データが選択され
た場合に、例えば、音声素片データのピッチパタンが合
成すべきピッチパタンに最も類似するものを選択してい
る。このため、例えば音声合成時のピッチの変更量が少
なくなって合成音声の品質を向上できるほか、合成すべ
きピッチパタンと同一のピッチデータを持つ音声素片デ
ータを追加すればピッチの変形処理が不要になるため、
編集音声合成の品質とほぼ同等の合成音声が得られる。
【図面の簡単な説明】
【図1】 本発明の一実施形態による音声合成装置の構
成を示すブロック図である。
【図2】 同実施形態における音声合成方法の手順を示
したフローチャートである。
【図3】 図1に示す素片選択部101の詳細な構成を
示すブロック図である。
【図4】 図3に示す最終段選択部208の詳細な構成
を示すブロック図であって、(a)は部分音韻列を音韻
に分解するようにした場合の構成例,(b)は部分音韻
列を連鎖音韻に分解するようにした場合の構成例であ
る。
【符号の説明】
12 音声データベース 21〜26,31〜35 素片データ 101 素片選択部 102 韻律変形部 103 素片接続部 201 第一段階分解部 202 第一段階選択部 203 韻律マッチング部 204 第二段階分解部 205 第二段階選択部 206 第三段階分解部 207 第三段階選択部 208 最終段選択部 301 音韻分解部 302 音韻選択部 303 連鎖音韻分解部 304 連鎖音韻選択部
フロントページの続き (72)発明者 阿部 匡伸 東京都新宿区西新宿三丁目19番2号 日 本電信電話株式会社内 (56)参考文献 特開 平10−97290(JP,A) 特開 平9−44191(JP,A) 特開 平8−87297(JP,A) 特開 平7−92997(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 G10L 13/04 G10L 13/08

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 入力された音韻列と韻律情報に対応づけ
    られた音声素片データを音声データベースから選択して
    順次接続することにより音声信号を合成する音声合成方
    法において、 前記入力された音韻列をアクセント句単位の部分音韻列
    に分解する第1の分解過程と、前記第1の分解過程において分解された 部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中における存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第1の選択過程と、前記第1の選択過程において音声素片データが選択でき
    なかった前記部分音韻列を母音や撥音の連続を含む単位
    の部分音韻列にさらに分解する第2の分解過程と、 前記第2の分解過程において分解された部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中における存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第2の選択過程と、 前記第2の選択過程において音声素片データが選択でき
    なかった前記部分音韻列を音節単位の部分音韻列にさら
    に分解する第3の分解過程と、 前記第3の分解過程において分解された部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中における存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第3の選択過程と、 前記第1、第2及び第3の選択過程において、 選択され
    た前記音声素片データを韻律変形する過程と、 前記韻律変形を受けた音声素片データを順次接続して音
    声信号を合成する過程とを有することを特徴とする音声
    合成方法。
  2. 【請求項2】 前記第3の選択過程において音声素片デ
    ータが選択できなかった前記部分音韻列の音韻長が2で
    ある場合、前記部分音韻列と該部分音韻列の前後の音韻
    を含む部分音韻列を連鎖音韻に分解する過程をさらに有
    し、 前記選択過程では前記連鎖音韻に対応する音声素片デー
    タを選択することを特徴とする請求項1記載の音声合成
    方法。
  3. 【請求項3】 一個の部分音韻列について選択可能な
    声素片データが複数個存在する場合、それら音声素片デ
    ータに対応する韻律と前記部分音韻列に対応する韻律と
    の類似性を判断する過程をさらに有し、前記第1、第2及び第3の 選択過程では、前記複数個の
    音声素片データのうち、最も類似性の高い音声素片デー
    タを選択することを特徴とする請求項1乃至2記載の音
    声合成方法。
  4. 【請求項4】 入力された音韻列と韻律情報に対応づけ
    られた音声素片データを音声データベースから選択して
    順次接続することにより音声信号を合成する音声合成装
    置において、 前記入力された音韻列をアクセント句単位の部分音韻列
    に分解する第1の分解手段と、前記第1の分解手段において分解された 部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中における存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第1の選択手段と、前記第1の選択手段において音声素片データが選択でき
    なかった前記部分音韻列を母音や撥音の連続を含む単位
    の部分音韻列にさらに分解する第2の分解手段と、 前記第2の分解手段において分解された部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中における存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第2の選択手段と、 前記第2の選択手段において音声素片データが選択でき
    なかった前記部分音韻列を音節単位の部分音韻列にさら
    に分解する第3の分解手段と、 前記第3の分解手段において分解された部分音韻列と一
    致し、かつ、該部分音韻列の前後の音韻環境が一致する
    音声素片データの前記音声データベース中にお ける存在
    の有無を判断し、該音声素片データが存在する場合に
    は、当該音声素片データを選択する第3の選択手段と、 前記第1、第2及び第3の選択手段において、 選択され
    た前記音声素片データを韻律変形する手段と、 前記韻律変形を受けた音声素片データを順次接続して音
    声信号を合成する手段とを具備することを特徴とする音
    声合成装置。
  5. 【請求項5】 前記第3の選択手段において音声素片デ
    ータが選択できなかった前記部分音韻列の音韻長が2で
    ある場合、前記部分音韻列と該部分音韻列の前後の音韻
    を含む部分音韻列を連鎖音韻に分解する手段をさらに有
    し、 前記選択手段では前記連鎖音韻に対応する音声素片デー
    タを選択することを特徴とする請求項4記載の音声合成
    装置。
  6. 【請求項6】 一個の部分音韻列について選択可能な
    声素片データが複数個存在する場合、それら音声素片デ
    ータに対応する韻律と前記部分音韻列に対応する韻律と
    の類似性を判断する手段をさらに有し、前記第1、第2及び第3の 選択手段では、前記複数個の
    音声素片データのうち、最も類似性の高い音声素片デー
    タを選択することを特徴とする請求項4乃至5記載の音
    声合成装置。
JP03068499A 1999-02-08 1999-02-08 音声合成方法及び装置 Expired - Lifetime JP3515406B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03068499A JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03068499A JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Publications (2)

Publication Number Publication Date
JP2000231395A JP2000231395A (ja) 2000-08-22
JP3515406B2 true JP3515406B2 (ja) 2004-04-05

Family

ID=12310527

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03068499A Expired - Lifetime JP3515406B2 (ja) 1999-02-08 1999-02-08 音声合成方法及び装置

Country Status (1)

Country Link
JP (1) JP3515406B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271172A (ja) * 2002-03-15 2003-09-25 Sony Corp 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP4532862B2 (ja) * 2002-09-25 2010-08-25 日本放送協会 音声合成方法、音声合成装置および音声合成プログラム
JP4884212B2 (ja) * 2004-03-29 2012-02-29 株式会社エーアイ 音声合成装置
JP5062178B2 (ja) * 2006-11-06 2012-10-31 日本電気株式会社 音声収録システム、音声収録方法、および収録処理プログラム
JP5648347B2 (ja) * 2010-07-14 2015-01-07 ヤマハ株式会社 音声合成装置

Also Published As

Publication number Publication date
JP2000231395A (ja) 2000-08-22

Similar Documents

Publication Publication Date Title
US7013278B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3361066B2 (ja) 音声合成方法および装置
US7454343B2 (en) Speech synthesizer, speech synthesizing method, and program
JP2002530703A (ja) 音声波形の連結を用いる音声合成
JP2001034283A (ja) 音声合成方法、音声合成装置及び音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JPWO2005109399A1 (ja) 音声合成装置および方法
JPH11249677A (ja) 音声合成装置の韻律制御方法
JPS62231998A (ja) 音声合成方法および装置
JPH0573100A (ja) 音声合成方法及びその装置
JP3515406B2 (ja) 音声合成方法及び装置
JP2003108178A (ja) 音声合成装置及び音声合成用素片作成装置
JP2761552B2 (ja) 音声合成方法
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP3109778B2 (ja) 音声規則合成装置
JPH07319497A (ja) 音声合成装置
JP3622990B2 (ja) 音声合成装置及び方法
JPH11249679A (ja) 音声合成装置
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JPH09230893A (ja) 規則音声合成方法及び音声合成装置
JP3423276B2 (ja) 音声合成方法
JP4603290B2 (ja) 音声合成装置および音声合成プログラム
JPH1097268A (ja) 音声合成装置
JP2004125843A (ja) 音声合成方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040115

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080123

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term