JP3583852B2 - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP3583852B2 JP3583852B2 JP03998196A JP3998196A JP3583852B2 JP 3583852 B2 JP3583852 B2 JP 3583852B2 JP 03998196 A JP03998196 A JP 03998196A JP 3998196 A JP3998196 A JP 3998196A JP 3583852 B2 JP3583852 B2 JP 3583852B2
- Authority
- JP
- Japan
- Prior art keywords
- waveform
- speech
- unit
- phoneme symbol
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は音声合成装置に関し、特にたとえば音声案内、音声応答および音声 読み上げ等に用いられ、入力文字列に対応する音韻記号列に従って音声波形を合成して出力する、音声合成装置に関する。
【0002】
【従来の技術】
従来のこの種の音声合成装置が、平成4年12月22日に出願公開された特開 平4−369693号公報に開示されている。これは、音声合成を行う音韻系列に対応するかつデータベースに含まれる音声単位の中から、平均的な音響特性を有する音声単位を優先的に選択して、それぞれを接続するものである。
【0003】
また、音声波形を編集して音声合成する方法としては、発表論文「波形辞書を用いた規則合成法」(電子情報通信学会音声研資SP88−9, pp65−pp72, (1988年),発表者:広川智久)が周知となっている。これには、類似する音声波形から代表音声波形を抽出し、その代表音声波形を編集して音声合成をする方式や、繁茂に出現する音声波形をデータベース化し、発生頻度の高い音声波形単位を編集して音声合成をする方式が開示されている。
【0004】
【発明が解決しようとする課題】
しかし、特開平4−369693号公報の音声合成装置では、著しく異なった 音響特性を有する音声単位が選択されることによる合成音の音質劣化はなくなるものの、相変わらず音質は優れているとはいえなかった。
【0005】
また、それぞれの音声単位は、波形としてではなくケプスラム係数等のパラメータに変換してデータベースに蓄積されているため、パラメータを音声波形に復元してから音声合成をしなければならず、これも音質の向上を妨げる原因となっていた。
【0006】
更に、「波形辞書を用いた規則合成法」による音声合成方式では、いずれの方 式も音節などを単位としているため、合成音の音質が優れているとはいえなかった。
【0007】
それゆえに、この発明の主たる目的は、優れた音質の合成音を出力することが できる、音声合成装置を提供することである。
【0008】
【課題を解決するための手段】
本発明は、入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、あらかじめ単位音声波形を含む音声波形が蓄積された音声波形メモリと、音韻記号列を所定の優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補について、対応する音声波形が前記音声波形メモリに存在するか否かを前記優先順位に基づいて判断し、分割点を決定する分割手段と、前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段とを備えたものである。
【0009】
【発明の実施の形態】
本発明の実施の形態を図1乃至図9に基づいて説明する。
【0010】
図1を参照して、この実施例のテキスト音声合成装置10は、マイコン12を 含む。マイコン12は、テキスト文章データからなる入力文字例を受け、まずテキスト解析用辞書14を用いて、形態素解析手段12eにて入力文字列の形態素解析を行う。而して、分割手段12fにて入力文字列を音韻記号部分列に分割して、その入力文字列を分割点が設定された音韻記号列に変換するとともに、この入力文字列のピッチパターンおよびパワーパターンを生成する。
【0011】
次に、波形接続手段12gは、波形読出手段12hにて音声波形データベース16から読み出された単位音声波形をピッチパターンおよびパワーパターンに基づいて、整形および接続編集し、これによって生成された合成音を出力する。
【0012】
音声波形データベース16には、音声波形と各々の音声波形に対する音韻ラベ ル情報とが登録されている。音韻ラベル情報は音韻記号列および記号列番号を含む。この実施例では、以下の記号列番号および音韻記号列が音声波形データベース16に登録される。なお、音韻記号列に含まれる“−”は20msec以上の無音区間を表している。
【0013】
(1)−niNgeN−towa−kaNgaeruasi−dearu−
(人間とは、考える葦である)
(2)−korewa−bimyo−dearu−(これは、微妙である)
(3)−fu−kuza−tu−(複雑)
(4)−yunyusi−tefu−kasase−(輸入してふ化させ)
(5)−teo−tunai−deu−tau−(手をつないで歌う)
(6)−hi−toi−kireni−(人いきれに)
(7)−minimoaru−(ミニもある)
(8)−geNsa−kusonomono−(原作そのもの)
(9)−syo−kodearu−(証拠である)
ここで、入力文字列に対応する音韻文字列,パワーパターンおよびピッチパタ ーンを生成するためのアルゴリズムを図2に示す。
【0014】
マイコン12はまず、ステップS1で、入力文字列を1文単位でメモリ12aに書き込む。次に、ステップS3で形態素解析手段12eにて入力文字列の形態素解析をする。すなわち、テキスト解析用辞書14には、単語の表記とそれに対する音韻記号列(読み)やアクセント、品詞などの情報が蓄えられているため、これを用いて入力文字列がどのような単語から成り立っているかを解析する。続いて、ステップS5で解析結果に基づいて入力文字列の音韻記号列を生成する。
【0015】
その後、ステップS7でテキスト解析用辞書14を用いて入力文字列のポーズ(PAUSE)情報を解析し、この解析結果からステップS9で入力文字列のパワーパターンを生成する。
【0016】
さらに、ステップS11で、テキスト解析用辞書14を用いて入力文字列のアクセント情報を解析し、この解析結果からステップS13で入力文字列のピッチパターンを生成する。
【0017】
ここで、「人間とは、微妙で複雑な生き物である」という文字列が入力された 場合のパワーパターンおよびピッチパターンを図3に実線で示す。パワーパターンは、それぞれの音韻記号に対応する単位音声波形の振幅倍率(0≦pw≦2)を時間関数pw(t)で表したものである。なお、音韻継続時間は日本語モーラ時間単位で換算されている。
【0018】
一方、音声波形データベース16に登録された音声波形に含まれるそれぞれの単位音声波形は、予め平均振幅が基準振幅“1”となるように正規化されている。すなわち、音声波形は20kHzサンプリングの16bitPCMデータ(量子化値は、−32768−32767の範囲をとり得る)として登録されており、これに含まれる単位音声波形の平均振幅が16384 になるように正規化されている。
【0019】
図3からわかるように、入力文字列に対応する音韻記号列に含まれる/niNgen/の頭の部分、および/ikimono/の全体の振幅倍率を強調のため上げているが、その他の部分は振幅倍率1となっており、この部分については音声波形データベース16に登録されている単位音声波形の振幅を変えずにそのまま接続編集することができる。参考までに、波形整形後の振幅変化を点線で示す。また、ピッチパターンは音声波形の周波数(50≦pt≦300〔Hz〕)を時間関数pt(t)で表したものであり、周知のモデル(藤崎モデル:比企静雄編、「音声情報処理」東京大学出版会、1973)により算出されている。
【0020】
次に、入力文字列に対応する音韻記号列、パワーパターンおよびピッチパター ンに基づいて出力音声を生成するアルゴリズムを図4に示す。
【0021】
分割手段12fは、まずステップS15で入力文字列に対応する音韻記号列の分割点を決定し、この音韻記号列を複数の音韻記号部分列に分割する。
【0022】
次に、ステップS17で波形接続手段12gは部分列ナンバーnを“1”に設定し、さらにステップS19で、波形読出手段12hはn番目の音韻記号部分列に対応する単位音声波形およびラベル情報を音声波形データベース16より抽出する。
【0023】
続いて、ステップS21で、波形接続手段12gは入力文字列に対応するパワーパターンに一致するように単位音声波形の音韻継続時間長およびゲインを波形整形によって修正する。
【0024】
その後、ステップS23で、波形接続手段12g中の波形整形手段は、入力文字列に対応するピッチパターンに対応するように単位音声波形のピッチを波形整形によって修正する。
【0025】
続いて、ステップS25で波形を接続し、接続した合成音声波形をステップS27でメモリ12bに記憶する。その後ステップS29で部分列ナンバーnをインクリメントし、ステップS31でn番目の単位音声波形が存在するかどうか判断する。ここで“YES”であればステップS19に戻るが、“NO”であればステップS33で合成音声波形をアナログ音声波形に変換して出力する。
【0026】
ステップS15は、具体的には図5に示すアルゴリズムによって表される。マ イコン12は、まずステップS1501で音韻記号列を解析し、無音部分割点を優先順位第1位の分割点として検索する。
【0027】
すなわち、音響学的解析によってその音韻記号列を音声に変換して出力したとき20msec以上の無音が継続する箇所を無音部分割点とし、この点を検索する。
【0028】
具体的には、文脈解析によって検出できるポーズ発生箇所の他に、日本語発声学的な解析によって、促音“Q”や子音“p”、“t”、“k”、“d”、“b”、“z”等の直前にクロージャと呼ばれる20〜70msec程度の無音区間箇所があることがわかっており、これらを音響学的解析により判定する。
【0029】
したがって、この実施例の音韻記号列については、ステップS1501で以下の無音部分割点が検索される。ここでは、無音部分割点を/で表し、無音部を“−”で表している。
【0030】
/−niNgeN−/−towa−/−bimyo−/
−defu−/−kuza−/−tunai−/
−kimonodearu−/
次にステップS1503で、“s”、“sh”、“h”、“hy”、“f”等 の無声音部分(無声子音部分)を優先順位第2位の分割点とし、これを検索する。したがって、この実施例の音韻記号列では以下のような分割点が選出される。区別のために無声音部分割点を//で表す。
【0031】
/−niNgeN−/−towa−/−bimyo−/
−def//fu−/−kuza−/−tunai−/
−kimonodearu−/
さらに、ステップS1505では、“a”、“i”、“u”、“e”、“o”等の有声音部分(母音部分)を優先順位第3位の分割点とし、これを検索する。したがって、この実施例の音韻記号列では、以下のような分割点が追加される。区別のため、有声音部分割点を/// で表す。
【0032】
/−ni/// iNge/// eN−/−to/// owa−/
−bi/// imyo−/
−de/// ef//fu/// u−/−ku/// uza/// a−/
−tu/// una/// ai−/
−ki/// imo/// ono/// ode/// ea/// aru−/
したがって、この音韻記号列は、最大23個の音韻記号部分列に分割可能とな る。なお、音声波形データベース16に登録されている音韻記号列も無音部分割点,無声音部分割点および有声音部分割点を持ち、音声波形はこれらの分割点に対応する波形分割点を持つ。
【0033】
分割手段12fは以下のステップS1507〜S1529で、優先順位を考慮 して、なるべく音韻記号部分列の数が少なくなるように、最終的な分割点を決定していく。ステップS1507では、分割手段12fは無音部分割点によって分割される音韻記号部分列の1つをメモリ12cに書き込む。本発明の実施の形態では、まず最初に入力音韻記号列の頭から次の優先順位第1位までの分割点までの以下の音韻記号部分列がメモリ12cに書き込まれる。
【0034】
/−niNgeN−/
次に、ステップS1509で、分割手段12fは音声波形データベース16の ラベル情報にステップS1507で書き込んだ音韻記号部分列に対応する音韻記号部分列が含まれていないかどうか判断する。そして、分割手段12fは音韻記号部分列が存在すれば、ステップS1511で分割点を決定する。
【0035】
すなわち、分割手段12fは部分列ナンバーn及び、その音韻記号部分列を含む音声波形データベース16内の音韻記号列の記号列番号l(本実施の形態では(1)〜(9))とその音韻記号部分列に対応する音声波形の開始点sと終了点eの情報をメモリ12dに書き込む。その後、ステップS1507に戻り、次の音韻記号部分列に対しての処理をする。
【0036】
この実施例では、/−niNgeN−/は音声波形データベース16の中の1 番目の音韻記号列に存在するので、分割点/−niNgeN−/が決定され、メモリ12dに/−niNgeN−/の存在する記号列番号1と対応する音声波形の波形開始点及び終了点が記憶される。
【0037】
その後ステップS1507に戻り、同様に次の音韻記号部分列/−towa−/をメモリ12cに上書きし、ステップS1509で音声波形データベース16に含まれる音韻記号部分列を検索する。ここで、/−towa−/は音声波形データベース16の中の1番目の音韻記号列に存在するので、ステップS1511で分割点/−towa−/が決定される。同様に次の音韻記号部分列/−bimyo−/も、音声波形データベース16の中の2番目の音韻記号列に存在するので、分割点/−bimyo−/が決定される。
【0038】
このようにして、/−niNgeN−/−towa−/−bimyo−/の分 割点が決定される。
【0039】
ステップS1509で“NO”と判断されると、分割手段12fはステップS 1513で、優先順位第2位の分割点、すなわち無声音部分割点によって分割されるなるべく長い音韻記号部分列を抽出し、これをメモリ12cに書き込む。
【0040】
次に、ステップS1515で、ステップS1509と同様に、メモリ12cに記憶された音韻記号部分列が音声波形データベース16に存在するかどうか判断する。
【0041】
ここで“YES”であれば、ステップS1517でステップS1511と同様にして、分割手段12fは無声音部による分割点を決定し、ステップS1507に戻るが、“NO”であれば、ステップS1519で無声音部分割点によってこれ以上の分割が可能であるかどうか判断する。そして、“YES”であればステップS1513に戻り、“NO”であればステップS1521に移行する。
【0042】
本発明の実施の形態では、次の音韻記号部分列/−defu−/は音声波形デ ータベース16に存在しないので、ステップS1513では/−def//がメモリ12cに上書きされ、次にステップS1515でこの音韻記号部分列が音声波形データベース16に存在するかどうか判断する。
【0043】
しかし、/−def//は音声波形データベース16に存在しない。この実施例では、/−def//の音韻記号列は音声波形データベース16に存在せず、これ以上優先順位第2位での分割点による分割が不可能なため、ステップS1519を経てステップS1521に移行する。
【0044】
ステップS1521では、優先順位第3位の分割点、すなわち有声音部分割点 で分割されるなるべく長い音韻記号部分列を抽出し、これをメモリ12cに書き込む。次にステップS1523で、ステップS1509およびS1515と同様に、この音韻記号部分列が音声波形データベース16に含まれているかどうか判断する。そして、含まれていれば、ステップS1525でステップS1511およびS1517と同様にして有声音部分割点を決定し、ステップS1507に戻るが、含まれていなければ、ステップS1527で有声音部分割点によってこれ以上の分割が可能であるかどうか判断する。
【0045】
そして、可能であればステップS1521に戻り、不可能であればステップS1529でエラー処理をしてステップS1507に戻る。すなわち、ステップS1529では、ステップS1527で最終的にこれ以上分割できないと判定された音韻記号部分列を無視して、検索すべき音韻記号部分列を更新し、ステップS1507に移る。
【0046】
本発明の実施の形態では、ステップS1521において以下の如く判定する。 ここでは、/−de/// が音声波形データベース16の1、2、及び5番目の 音韻記号列に存在する。しかし、音韻記号部分列は1番目の音韻記号列から昇べきの順に検索され、見つかった時点で検索は中止されるため、ステップS1521において/−de/// は2番目の音韻記号列から選ばれ、ステップS1525で対応する分割点が決定される。もし、ステップS1527でこれ以上分割不可能と判定されれば、ステップS1529でエラー処理をし、ステップS1507に戻る。
【0047】
以上の処理により、最終的には以下のように分割点が決定される。
【0048】
/−niNgeN−/−towa−/−bimyo−/
−de/// ef//fu−/−kuza−/
−tunai−/−ki/// imo/// ono/// odearu−/
他方、分割手段12fは分割点の決定に関して、次の手法を採用することも可能である。
【0049】
本手法では、入力音韻記号列の分割点の組み合わせからできるすべての音韻記号部分列について以下に示す「評価関数score」により決定される評価点を算出 し、各々の音韻記号部分列に対応する評価点の累積が最小になる組み合わせより分割点を決定する。
【0050】
ここで、評価関数scoreは、分割点の優先順位により決定される値type、分割 点点前後の音韻の種類により決定される値link、分割された音韻長により決定される値len、及び分割点に対応する波形接続点における理論値とのピッチ周期の 差により決定される値f0のそれぞれの数値にw1〜w4の重みをかけて足し合わせた値とする。w1〜w4の重みは、それぞれ0〜1までの実数定数である。
【0051】
評価関数:score=w1*type+w2*link+w3*len+w4*f0
但し、type=0(分割点が前記優先順位第1位である場合)
type=1(分割点が前記優先順位第2位である場合)
type=3(分割点が前記優先順位第3位である場合)
type=9(それ以外の場合)
link=0(分割点前後の音韻の種類が一致する場合)
link=9(それ以外の場合)
len =−(分割点で区切られた音韻記号部分列の音韻記号数)
f0 =|log(実波形のピッチ周期)−log(理論ピッチ周期)|
である。
【0052】
以下、入力文字列/−amenotameka−/ (雨のためか)
について、分割点の決定方法について述べる。説明の簡略のため本実施例では、
w1=1,w2=1,w3=1,w4=0
とした。
【0053】
音韻記号部分列の組み合わせは、図7に示す木検索により行う。
【0054】
同図中、選択された音韻記号部分列(この音韻記号部分列は音声波形デ−タベ−ス16のラベル情報に存在し、かつ、すべての音韻分割点前後の音韻が一致するものが選択されたとした)の下側にscore値が示されている。説明のため、各 音韻記号部分列の選択された状態を便宜上ノ−ド0からノ−ド8と呼ぶ。
【0055】
まず、はじめにノ−ド0において/−/(無音)で始まり、/−ameno.../と続く音韻記号部分列を音声波形デ−タベ−ス16のラベル情報より検索し、その中で最もscore値が小さい音韻記号部分列から所定の数m個(本実施の 形態では、2個とする)選択し、下位にm個のノ−ドを作成する。図7では、ノ−ド1/−ameno−/とノ−ド4/−ameno−tam//が選択された。/−ameno−/のscore値は、
type = 9:優先順位外の分割点で終わっている。
【0056】
link = 0:後続の音韻記号がtで一致している。
【0057】
len = −10
score = 9+0−10=−1
/−ameno−tam/のscore値は、
type = 0:優先順位第1位の分割点で終わっている。
【0058】
link = 0:後続の音韻記号がmで一致している。
【0059】
len = −7
score = 0+0−7 = −7
である。ここで、ノ−ド1およびノ−ド4を音韻分割部分列候補とする。従って、それぞれのノ−ドでの累計score値は、それぞれ
ノ−ド1での累計score = −1
ノ−ド4での累計score = −7
となる。分割毎に累計scoreの小さいものからm個の音韻部分列の探索系列を残 すため実施例ではノ−ド1およびノ−ド4の音韻部分列は候補として残る。従って、次の探索として、ノ−ド2、3、5及び6が候補となり、
ノ−ド2での累計score = −3
ノ−ド3での累計score = −7
ノ−ド5での累計score = −7
ノ−ド6での累計score = −9
この場合、ノ−ド3、5が同点であるが、同点の場合はそのノ−ドでのscore値 の小さいほうを優先し、結果としてノ−ド3、6が候補として残る。
【0060】
ここでノ−ド3は分割が終了したので、ノ−ド3での累計scoreは、常に候補 として残る。ノ−ド2および5からの探索はこれ以上行わない。同様に分割を繰り返し最終的に残ったノ−ドは、図7より、ノ−ド3およびノ−ド8となり、それぞれの累積score値は、
ノ−ド3での累計score = −7
ノ−ド8での累計score = −14
であるから、scoreが小さいほうのノ−ド8までの検索による音韻分割が最適と なり、実際の分割は、
/−ameno−/−tame/e−ka−/
に決定される。
【0061】
次に、図4のステップS21およびS23の波形整形に関する具体的な処理について説明する。
【0062】
マイコン12は、ステップS1511,S1517およびS1525で決定された分割点に従って、波形読出手段12hは音声波形データベース16に登録されている単位音声波形を抽出し、波形接続手段12gはパワーパターンおよびピッチパターンによってその単位音声波形を整形する。
【0063】
単位音声波形の振幅および音韻継続時間長はパワーパターンpw(t)に従って、また、音程(ピッチ)はピッチパターンpt(t)に従って整形される。単位音声波形の振幅制御においては、時刻tにおけるpw(t)を基準として振幅ゲインを調整する。音韻継続時間長および音程制御は、PSOLA法(F.Charpentier他、「Pitch−Synchronous Waveform Processing Techniques for Text−to−speech Synthesis Using Diphones」Proc. Eurospeech ’89を用いる。
【0064】
たとえば、音韻記号列/−de/// に対応する単位音声波形の抽出と波形整形 について述べる。音声波形の分割点に関してより詳しく説明すると、無音部分割点は無音区間の開始点あるいは終了点に設けられ、無声音部分割点は無声音区間のほぼ中心に設けられ、そして、有声音部分割点は周期性が安定している母音中心部等の1ピッチ波形の開始点と終了点とにおける右下がりのゼロクロスポイントに設けられる。
【0065】
そして、これらの波形分割点がマーキングされるとともに、そのマーキングが各々の音声波形の先頭サンプルから何サンプル目にあるかが、上述のステップS1511,S1517およびS1525でメモリ12dに書き込まれる。
【0066】
したがって、単位音声波形/−de/// の波形終端は、音韻記号“e”に相当する音声波形のうち周波数の安定している1ピッチの終了点であり、この波形終端までの波形が単位音声波形として抽出される。抽出された単位音声波形は、前述の方法により波形整形される。
【0067】
このうち、音程制御にあたっては、接続箇所である1ピッチ波形の終了点を基準時とし、その基準時の基準ピッチ周期Tをピッチパターンに基づいて算出する。
【0068】
ここで、基準ピッチとは入力文字列に対応する音韻記号列の当該基準時におけるピッチ周期である。そして、算出された基準ピッチ周期Tにマーキングされた1ピッチ波形のピッチ周期が一致するように単位音声波形全体をPSOLA法で整形する。
【0069】
このとき、次の単位音声波形の接続のために、波形整形の後に接続された単位音声波形の波形分割点は、ステップS23で合成音声波形の始めからのサンプル数に換算して記憶保持される。
【0070】
また、音韻継続時間長の制御にあたっては、パワーパターンに合わせて、無音区間の補間・削除またはPSOLA法によって、ピッチが安定している母音区間における1ピッチ波形を補間または間引きする。振幅の調整にあたっては、音声単位波形毎にパワーパターンより導かれる振幅倍率を乗じる。
【0071】
続いて、図4のステップS25における波形接続処理について説明する。有声 音区間の接続に関しては、互いに接続する単位音声波形の特定の1ピッチがマーキングされているため、この期間Tにおいて、それぞれの波形に重みをかけて足し合わせることによって、両波形を接続する。
【0072】
すなわち、先行する単位音声波形の特定の1ピッチに対しては、1から0へ直線的に変化する重み(窓関数W1=1−i/(T−1)(i=0,1,…,T−1))をかけ、後行する単位音声波形の特定の1ピッチに対しては、0から1へ直線的に変化する重み(窓関数W2=i/(T−1))をかけて、両波形を足し合わせる。また、無音区間の波形接続および無声音区間の波形接続に関しては、互いに接続する単位音声波形のマーキングされた分割点で単純に接続する。
【0073】
たとえば、/−de/// と/// ef//の接続に関して、図8を用いて説明する 。図8(a)は、音声波形データベース16に登録されている/−de/// (2番目に存在)の音韻記号“e”に相当する波形整形済みの音声波形の一部分であり、図8(b)は、音声波形データベース16に登録されている/// ef//(4番目に存在)の音韻記号“e”に相当する波形整形済みの音声波形の一部分である。この2つの波形を接続して、/−def//に相当する合成波形である図8(c)を得る。
【0074】
この場合は有声音区間の波形接続であるので、互いに接続する図8(a)、(b)各々の単位音声波形の1ピッチ分がA、BおよびC、Dでマーキングされており、図の破線で示すように、各々の波形に重みを付けて足し合わせることにより両者が接続される。このとき、音声波形の図8(a)、(b)の接続箇所AからB、CからDの時間長は、前述の基準ピッチ周期Tになるよう波形整形されている。
【0075】
次に、たとえば、/// ef//と//fu/の接続に関して、図9を用いて説明す る。
【0076】
図9(d)は、音声波形データベース16に登録されている/// ef//(4番目に存在)の音韻記号“f”に相当する波形整形済みの音声波形の一部分であり、図9(e)は、音声波形データベース16に登録されている//fu/(3番目に存在)の音韻記号“f”に相当する波形整形済みの音声波形の一部分である。この2つの波形を接続して、−defu−/の“f”に相当する合成波形である図9(f)を得る。この場合は、無声音区間の波形接続であるので、互いに接続する図9(d)、(e)各々の単位音声波形のマーキングされた波形分割点E、Fで単純に接続する。
【0077】
【発明の効果】
この発明によれば、所定の優先順位で分割された第1の音韻記号部分列に対応 する最適な単位音声波形が読出手段によって波形メモリから読み出され、波形接続手段によって接続されるため、音質が優れた合成音声波形を出力することができる。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示すブロック図である。
【図2】本発明の動作の一部を示すフロー図である。
【図3】音韻記号列、パワーパターンおよびピッチパターンを示す図解図である。
【図4】本発明の動作の一部を示すフロー図である。
【図5】本発明の動作の一部を示すフロー図である。
【図6】本発明の動作の一部を示すフロー図である。
【図7】本発明の動作の一部を示す木構造図である。
【図8】(a)および(b)は単位音声波形の一部を示す波形図であり、(c)は合成された音声波形の一部を示す波形図である。
【図9】(d)および(e)は単位音声波形の一部を示す波形図であり、(f)は合成された音声波形の一部を示す波形図である。
【符号の説明】
10 …テキスト音声合成装置
12e…形態素解析手段
12f…分割手段
12g…波形接続手段
12h…波形読出手段
12i…韻律情報生成手段
14 …テキスト解析用辞書
16 …音声波形データベース
Claims (6)
- 入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、
あらかじめ単位音声波形を含む音声波形が蓄積された音声波形メモリと、
音韻記号列を所定の優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補について、対応する音声波形が前記音声波形メモリに存在するか否かを前記優先順位に基づいて判断し、分割点を決定する分割手段と、
前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および
前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段と、を備えることを特徴とする音声合成装置。 - 前記所定の優先順位の要素として無音部、無声音部および有声音部を含む、請求項1記載の音声合成装置。
- 前記音声合成装置は前記入力文字列に対応する韻律情報を生成する韻律情報生成手段を備え、前記波形接続手段は前記単位音声波形を前記韻律情報に従って波形整形する波形整形手段を含む、請求項2記載の音声合成装置。
- 前記韻律情報はピッチパターンおよびパワーパターンの少なくとも一方を含む、請求項3記載の音声合成装置。
- 前記有声音部で分割された単位音声波形を接続するとき、前記波形接続手段はそれぞれの単位音声波形に含まれる1ピッチ分の波形に適当な重み付けをして加算する加算手段を含む、請求項2ないし4のいずれかに記載の音声合成装置。
- 入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、
あらかじめ単位音声波形を含む音声波形と各々の音声波形に対する音韻記号列が蓄積された音声波形メモリと、
音韻記号列を無音部、無声音部および有声音部を含む優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補を分割する分割点において、音韻分割点の前記優先順位、音韻分割点前後の音韻の種類の一致度、音韻分割点数、及び接続点前後の波形のピッチの差を夫々量子化し、その量子化された夫々の値に所定の重みを付加した評価関数により分割点を決定する分割手段と、
前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および
前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段と、を備えることを特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP03998196A JP3583852B2 (ja) | 1995-05-25 | 1996-02-27 | 音声合成装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP12649195 | 1995-05-25 | ||
JP7-126491 | 1995-05-25 | ||
JP03998196A JP3583852B2 (ja) | 1995-05-25 | 1996-02-27 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0944191A JPH0944191A (ja) | 1997-02-14 |
JP3583852B2 true JP3583852B2 (ja) | 2004-11-04 |
Family
ID=26379391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP03998196A Expired - Fee Related JP3583852B2 (ja) | 1995-05-25 | 1996-02-27 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3583852B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004066271A1 (ja) * | 2003-01-20 | 2004-08-05 | Fujitsu Limited | 音声合成装置,音声合成方法および音声合成システム |
JP4264030B2 (ja) * | 2003-06-04 | 2009-05-13 | 株式会社ケンウッド | 音声データ選択装置、音声データ選択方法及びプログラム |
JP4574333B2 (ja) * | 2004-11-17 | 2010-11-04 | 株式会社ケンウッド | 音声合成装置、音声合成方法及びプログラム |
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
JP6519097B2 (ja) * | 2014-02-14 | 2019-05-29 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
-
1996
- 1996-02-27 JP JP03998196A patent/JP3583852B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0944191A (ja) | 1997-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
JP4130190B2 (ja) | 音声合成システム | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
US8639507B2 (en) | Voice recognition system, voice recognition method, and program for voice recognition | |
CN115485766A (zh) | 使用bert模型的语音合成韵律 | |
JPH031200A (ja) | 規則型音声合成装置 | |
JP2002221980A (ja) | テキスト音声変換装置 | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
US6212501B1 (en) | Speech synthesis apparatus and method | |
JP3587048B2 (ja) | 韻律制御方法及び音声合成装置 | |
JP3583852B2 (ja) | 音声合成装置 | |
JP4264030B2 (ja) | 音声データ選択装置、音声データ選択方法及びプログラム | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
JPH0887297A (ja) | 音声合成システム | |
JP3060276B2 (ja) | 音声合成装置 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
EP1589524B1 (en) | Method and device for speech synthesis | |
JPH1097290A (ja) | 音声合成装置 | |
JP3302874B2 (ja) | 音声合成方式 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2577372B2 (ja) | 音声合成装置および方法 | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JPH0358100A (ja) | 規則型音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040705 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040730 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070806 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080806 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090806 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |