JP3583852B2

JP3583852B2 - 音声合成装置

Info

Publication number: JP3583852B2
Application number: JP03998196A
Authority: JP
Inventors: 秀治西田; 啓之平井; 正典宮武; 宏樹大西
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1995-05-25
Filing date: 1996-02-27
Publication date: 2004-11-04
Anticipated expiration: 2016-02-27
Also published as: JPH0944191A

Description

【０００１】
【発明の属する技術分野】
この発明は音声合成装置に関し、特にたとえば音声案内、音声応答および音声読み上げ等に用いられ、入力文字列に対応する音韻記号列に従って音声波形を合成して出力する、音声合成装置に関する。
【０００２】
【従来の技術】
従来のこの種の音声合成装置が、平成４年１２月２２日に出願公開された特開平４−３６９６９３号公報に開示されている。これは、音声合成を行う音韻系列に対応するかつデータベースに含まれる音声単位の中から、平均的な音響特性を有する音声単位を優先的に選択して、それぞれを接続するものである。
【０００３】
また、音声波形を編集して音声合成する方法としては、発表論文「波形辞書を用いた規則合成法」（電子情報通信学会音声研資ＳＰ８８−９，ｐｐ６５−ｐｐ７２，（１９８８年），発表者：広川智久）が周知となっている。これには、類似する音声波形から代表音声波形を抽出し、その代表音声波形を編集して音声合成をする方式や、繁茂に出現する音声波形をデータベース化し、発生頻度の高い音声波形単位を編集して音声合成をする方式が開示されている。
【０００４】
【発明が解決しようとする課題】
しかし、特開平４−３６９６９３号公報の音声合成装置では、著しく異なった音響特性を有する音声単位が選択されることによる合成音の音質劣化はなくなるものの、相変わらず音質は優れているとはいえなかった。
【０００５】
また、それぞれの音声単位は、波形としてではなくケプスラム係数等のパラメータに変換してデータベースに蓄積されているため、パラメータを音声波形に復元してから音声合成をしなければならず、これも音質の向上を妨げる原因となっていた。
【０００６】
更に、「波形辞書を用いた規則合成法」による音声合成方式では、いずれの方式も音節などを単位としているため、合成音の音質が優れているとはいえなかった。
【０００７】
それゆえに、この発明の主たる目的は、優れた音質の合成音を出力することができる、音声合成装置を提供することである。
【０００８】
【課題を解決するための手段】
本発明は、入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、あらかじめ単位音声波形を含む音声波形が蓄積された音声波形メモリと、音韻記号列を所定の優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補について、対応する音声波形が前記音声波形メモリに存在するか否かを前記優先順位に基づいて判断し、分割点を決定する分割手段と、前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段とを備えたものである。
【０００９】
【発明の実施の形態】
本発明の実施の形態を図１乃至図９に基づいて説明する。
【００１０】
図１を参照して、この実施例のテキスト音声合成装置１０は、マイコン１２を含む。マイコン１２は、テキスト文章データからなる入力文字例を受け、まずテキスト解析用辞書１４を用いて、形態素解析手段１２ｅにて入力文字列の形態素解析を行う。而して、分割手段１２ｆにて入力文字列を音韻記号部分列に分割して、その入力文字列を分割点が設定された音韻記号列に変換するとともに、この入力文字列のピッチパターンおよびパワーパターンを生成する。
【００１１】
次に、波形接続手段１２ｇは、波形読出手段１２ｈにて音声波形データベース１６から読み出された単位音声波形をピッチパターンおよびパワーパターンに基づいて、整形および接続編集し、これによって生成された合成音を出力する。
【００１２】
音声波形データベース１６には、音声波形と各々の音声波形に対する音韻ラベル情報とが登録されている。音韻ラベル情報は音韻記号列および記号列番号を含む。この実施例では、以下の記号列番号および音韻記号列が音声波形データベース１６に登録される。なお、音韻記号列に含まれる“−”は２０ｍｓｅｃ以上の無音区間を表している。
【００１３】
（１）−ｎｉＮｇｅＮ−ｔｏｗａ−ｋａＮｇａｅｒｕａｓｉ−ｄｅａｒｕ−
（人間とは、考える葦である）
（２）−ｋｏｒｅｗａ−ｂｉｍｙｏ−ｄｅａｒｕ−（これは、微妙である）
（３）−ｆｕ−ｋｕｚａ−ｔｕ−（複雑）
（４）−ｙｕｎｙｕｓｉ−ｔｅｆｕ−ｋａｓａｓｅ−（輸入してふ化させ）
（５）−ｔｅｏ−ｔｕｎａｉ−ｄｅｕ−ｔａｕ−（手をつないで歌う）
（６）−ｈｉ−ｔｏｉ−ｋｉｒｅｎｉ−（人いきれに）
（７）−ｍｉｎｉｍｏａｒｕ−（ミニもある）
（８）−ｇｅＮｓａ−ｋｕｓｏｎｏｍｏｎｏ−（原作そのもの）
（９）−ｓｙｏ−ｋｏｄｅａｒｕ−（証拠である）
ここで、入力文字列に対応する音韻文字列，パワーパターンおよびピッチパターンを生成するためのアルゴリズムを図２に示す。
【００１４】
マイコン１２はまず、ステップＳ１で、入力文字列を１文単位でメモリ１２ａに書き込む。次に、ステップＳ３で形態素解析手段１２ｅにて入力文字列の形態素解析をする。すなわち、テキスト解析用辞書１４には、単語の表記とそれに対する音韻記号列（読み）やアクセント、品詞などの情報が蓄えられているため、これを用いて入力文字列がどのような単語から成り立っているかを解析する。続いて、ステップＳ５で解析結果に基づいて入力文字列の音韻記号列を生成する。
【００１５】
その後、ステップＳ７でテキスト解析用辞書１４を用いて入力文字列のポーズ（ＰＡＵＳＥ）情報を解析し、この解析結果からステップＳ９で入力文字列のパワーパターンを生成する。
【００１６】
さらに、ステップＳ１１で、テキスト解析用辞書１４を用いて入力文字列のアクセント情報を解析し、この解析結果からステップＳ１３で入力文字列のピッチパターンを生成する。
【００１７】
ここで、「人間とは、微妙で複雑な生き物である」という文字列が入力された場合のパワーパターンおよびピッチパターンを図３に実線で示す。パワーパターンは、それぞれの音韻記号に対応する単位音声波形の振幅倍率（０≦ｐｗ≦２）を時間関数ｐｗ（ｔ）で表したものである。なお、音韻継続時間は日本語モーラ時間単位で換算されている。
【００１８】
一方、音声波形データベース１６に登録された音声波形に含まれるそれぞれの単位音声波形は、予め平均振幅が基準振幅“１”となるように正規化されている。すなわち、音声波形は２０ｋＨｚサンプリングの１６ｂｉｔＰＣＭデータ（量子化値は、−３２７６８−３２７６７の範囲をとり得る）として登録されており、これに含まれる単位音声波形の平均振幅が１６３８４になるように正規化されている。
【００１９】
図３からわかるように、入力文字列に対応する音韻記号列に含まれる／ｎｉＮｇｅｎ／の頭の部分、および／ｉｋｉｍｏｎｏ／の全体の振幅倍率を強調のため上げているが、その他の部分は振幅倍率１となっており、この部分については音声波形データベース１６に登録されている単位音声波形の振幅を変えずにそのまま接続編集することができる。参考までに、波形整形後の振幅変化を点線で示す。また、ピッチパターンは音声波形の周波数（５０≦ｐｔ≦３００〔Ｈｚ〕）を時間関数ｐｔ（ｔ）で表したものであり、周知のモデル（藤崎モデル：比企静雄編、「音声情報処理」東京大学出版会、１９７３）により算出されている。
【００２０】
次に、入力文字列に対応する音韻記号列、パワーパターンおよびピッチパターンに基づいて出力音声を生成するアルゴリズムを図４に示す。
【００２１】
分割手段１２ｆは、まずステップＳ１５で入力文字列に対応する音韻記号列の分割点を決定し、この音韻記号列を複数の音韻記号部分列に分割する。
【００２２】
次に、ステップＳ１７で波形接続手段１２ｇは部分列ナンバーｎを“１”に設定し、さらにステップＳ１９で、波形読出手段１２ｈはｎ番目の音韻記号部分列に対応する単位音声波形およびラベル情報を音声波形データベース１６より抽出する。
【００２３】
続いて、ステップＳ２１で、波形接続手段１２ｇは入力文字列に対応するパワーパターンに一致するように単位音声波形の音韻継続時間長およびゲインを波形整形によって修正する。
【００２４】
その後、ステップＳ２３で、波形接続手段１２ｇ中の波形整形手段は、入力文字列に対応するピッチパターンに対応するように単位音声波形のピッチを波形整形によって修正する。
【００２５】
続いて、ステップＳ２５で波形を接続し、接続した合成音声波形をステップＳ２７でメモリ１２ｂに記憶する。その後ステップＳ２９で部分列ナンバーｎをインクリメントし、ステップＳ３１でｎ番目の単位音声波形が存在するかどうか判断する。ここで“ＹＥＳ”であればステップＳ１９に戻るが、“ＮＯ”であればステップＳ３３で合成音声波形をアナログ音声波形に変換して出力する。
【００２６】
ステップＳ１５は、具体的には図５に示すアルゴリズムによって表される。マイコン１２は、まずステップＳ１５０１で音韻記号列を解析し、無音部分割点を優先順位第１位の分割点として検索する。
【００２７】
すなわち、音響学的解析によってその音韻記号列を音声に変換して出力したとき２０ｍｓｅｃ以上の無音が継続する箇所を無音部分割点とし、この点を検索する。
【００２８】
具体的には、文脈解析によって検出できるポーズ発生箇所の他に、日本語発声学的な解析によって、促音“Ｑ”や子音“ｐ”、“ｔ”、“ｋ”、“ｄ”、“ｂ”、“ｚ”等の直前にクロージャと呼ばれる２０〜７０ｍｓｅｃ程度の無音区間箇所があることがわかっており、これらを音響学的解析により判定する。
【００２９】
したがって、この実施例の音韻記号列については、ステップＳ１５０１で以下の無音部分割点が検索される。ここでは、無音部分割点を／で表し、無音部を“−”で表している。
【００３０】
／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂｉｍｙｏ−／
−ｄｅｆｕ−／−ｋｕｚａ−／−ｔｕｎａｉ−／
−ｋｉｍｏｎｏｄｅａｒｕ−／
次にステップＳ１５０３で、“ｓ”、“ｓｈ”、“ｈ”、“ｈｙ”、“ｆ”等の無声音部分（無声子音部分）を優先順位第２位の分割点とし、これを検索する。したがって、この実施例の音韻記号列では以下のような分割点が選出される。区別のために無声音部分割点を／／で表す。
【００３１】
／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂｉｍｙｏ−／
−ｄｅｆ／／ｆｕ−／−ｋｕｚａ−／−ｔｕｎａｉ−／
−ｋｉｍｏｎｏｄｅａｒｕ−／
さらに、ステップＳ１５０５では、“ａ”、“ｉ”、“ｕ”、“ｅ”、“ｏ”等の有声音部分（母音部分）を優先順位第３位の分割点とし、これを検索する。したがって、この実施例の音韻記号列では、以下のような分割点が追加される。区別のため、有声音部分割点を／／／で表す。
【００３２】
／−ｎｉ／／／ｉＮｇｅ／／／ｅＮ−／−ｔｏ／／／ｏｗａ−／
−ｂｉ／／／ｉｍｙｏ−／
−ｄｅ／／／ｅｆ／／ｆｕ／／／ｕ−／−ｋｕ／／／ｕｚａ／／／ａ−／
−ｔｕ／／／ｕｎａ／／／ａｉ−／
−ｋｉ／／／ｉｍｏ／／／ｏｎｏ／／／ｏｄｅ／／／ｅａ／／／ａｒｕ−／
したがって、この音韻記号列は、最大２３個の音韻記号部分列に分割可能となる。なお、音声波形データベース１６に登録されている音韻記号列も無音部分割点，無声音部分割点および有声音部分割点を持ち、音声波形はこれらの分割点に対応する波形分割点を持つ。
【００３３】
分割手段１２ｆは以下のステップＳ１５０７〜Ｓ１５２９で、優先順位を考慮して、なるべく音韻記号部分列の数が少なくなるように、最終的な分割点を決定していく。ステップＳ１５０７では、分割手段１２ｆは無音部分割点によって分割される音韻記号部分列の１つをメモリ１２ｃに書き込む。本発明の実施の形態では、まず最初に入力音韻記号列の頭から次の優先順位第１位までの分割点までの以下の音韻記号部分列がメモリ１２ｃに書き込まれる。
【００３４】
／−ｎｉＮｇｅＮ−／
次に、ステップＳ１５０９で、分割手段１２ｆは音声波形データベース１６のラベル情報にステップＳ１５０７で書き込んだ音韻記号部分列に対応する音韻記号部分列が含まれていないかどうか判断する。そして、分割手段１２ｆは音韻記号部分列が存在すれば、ステップＳ１５１１で分割点を決定する。
【００３５】
すなわち、分割手段１２ｆは部分列ナンバーｎ及び、その音韻記号部分列を含む音声波形データベース１６内の音韻記号列の記号列番号ｌ（本実施の形態では（１）〜（９））とその音韻記号部分列に対応する音声波形の開始点ｓと終了点ｅの情報をメモリ１２ｄに書き込む。その後、ステップＳ１５０７に戻り、次の音韻記号部分列に対しての処理をする。
【００３６】
この実施例では、／−ｎｉＮｇｅＮ−／は音声波形データベース１６の中の１番目の音韻記号列に存在するので、分割点／−ｎｉＮｇｅＮ−／が決定され、メモリ１２ｄに／−ｎｉＮｇｅＮ−／の存在する記号列番号１と対応する音声波形の波形開始点及び終了点が記憶される。
【００３７】
その後ステップＳ１５０７に戻り、同様に次の音韻記号部分列／−ｔｏｗａ−／をメモリ１２ｃに上書きし、ステップＳ１５０９で音声波形データベース１６に含まれる音韻記号部分列を検索する。ここで、／−ｔｏｗａ−／は音声波形データベース１６の中の１番目の音韻記号列に存在するので、ステップＳ１５１１で分割点／−ｔｏｗａ−／が決定される。同様に次の音韻記号部分列／−ｂｉｍｙｏ−／も、音声波形データベース１６の中の２番目の音韻記号列に存在するので、分割点／−ｂｉｍｙｏ−／が決定される。
【００３８】
このようにして、／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂｉｍｙｏ−／の分割点が決定される。
【００３９】
ステップＳ１５０９で“ＮＯ”と判断されると、分割手段１２ｆはステップＳ１５１３で、優先順位第２位の分割点、すなわち無声音部分割点によって分割されるなるべく長い音韻記号部分列を抽出し、これをメモリ１２ｃに書き込む。
【００４０】
次に、ステップＳ１５１５で、ステップＳ１５０９と同様に、メモリ１２ｃに記憶された音韻記号部分列が音声波形データベース１６に存在するかどうか判断する。
【００４１】
ここで“ＹＥＳ”であれば、ステップＳ１５１７でステップＳ１５１１と同様にして、分割手段１２ｆは無声音部による分割点を決定し、ステップＳ１５０７に戻るが、“ＮＯ”であれば、ステップＳ１５１９で無声音部分割点によってこれ以上の分割が可能であるかどうか判断する。そして、“ＹＥＳ”であればステップＳ１５１３に戻り、“ＮＯ”であればステップＳ１５２１に移行する。
【００４２】
本発明の実施の形態では、次の音韻記号部分列／−ｄｅｆｕ−／は音声波形データベース１６に存在しないので、ステップＳ１５１３では／−ｄｅｆ／／がメモリ１２ｃに上書きされ、次にステップＳ１５１５でこの音韻記号部分列が音声波形データベース１６に存在するかどうか判断する。
【００４３】
しかし、／−ｄｅｆ／／は音声波形データベース１６に存在しない。この実施例では、／−ｄｅｆ／／の音韻記号列は音声波形データベース１６に存在せず、これ以上優先順位第２位での分割点による分割が不可能なため、ステップＳ１５１９を経てステップＳ１５２１に移行する。
【００４４】
ステップＳ１５２１では、優先順位第３位の分割点、すなわち有声音部分割点で分割されるなるべく長い音韻記号部分列を抽出し、これをメモリ１２ｃに書き込む。次にステップＳ１５２３で、ステップＳ１５０９およびＳ１５１５と同様に、この音韻記号部分列が音声波形データベース１６に含まれているかどうか判断する。そして、含まれていれば、ステップＳ１５２５でステップＳ１５１１およびＳ１５１７と同様にして有声音部分割点を決定し、ステップＳ１５０７に戻るが、含まれていなければ、ステップＳ１５２７で有声音部分割点によってこれ以上の分割が可能であるかどうか判断する。
【００４５】
そして、可能であればステップＳ１５２１に戻り、不可能であればステップＳ１５２９でエラー処理をしてステップＳ１５０７に戻る。すなわち、ステップＳ１５２９では、ステップＳ１５２７で最終的にこれ以上分割できないと判定された音韻記号部分列を無視して、検索すべき音韻記号部分列を更新し、ステップＳ１５０７に移る。
【００４６】
本発明の実施の形態では、ステップＳ１５２１において以下の如く判定する。ここでは、／−ｄｅ／／／が音声波形データベース１６の１、２、及び５番目の音韻記号列に存在する。しかし、音韻記号部分列は１番目の音韻記号列から昇べきの順に検索され、見つかった時点で検索は中止されるため、ステップＳ１５２１において／−ｄｅ／／／は２番目の音韻記号列から選ばれ、ステップＳ１５２５で対応する分割点が決定される。もし、ステップＳ１５２７でこれ以上分割不可能と判定されれば、ステップＳ１５２９でエラー処理をし、ステップＳ１５０７に戻る。
【００４７】
以上の処理により、最終的には以下のように分割点が決定される。
【００４８】
／−ｎｉＮｇｅＮ−／−ｔｏｗａ−／−ｂｉｍｙｏ−／
−ｄｅ／／／ｅｆ／／ｆｕ−／−ｋｕｚａ−／
−ｔｕｎａｉ−／−ｋｉ／／／ｉｍｏ／／／ｏｎｏ／／／ｏｄｅａｒｕ−／
他方、分割手段１２ｆは分割点の決定に関して、次の手法を採用することも可能である。
【００４９】
本手法では、入力音韻記号列の分割点の組み合わせからできるすべての音韻記号部分列について以下に示す「評価関数ｓｃｏｒｅ」により決定される評価点を算出し、各々の音韻記号部分列に対応する評価点の累積が最小になる組み合わせより分割点を決定する。
【００５０】
ここで、評価関数ｓｃｏｒｅは、分割点の優先順位により決定される値ｔｙｐｅ、分割点点前後の音韻の種類により決定される値ｌｉｎｋ、分割された音韻長により決定される値ｌｅｎ、及び分割点に対応する波形接続点における理論値とのピッチ周期の差により決定される値ｆ０のそれぞれの数値にｗ１〜ｗ４の重みをかけて足し合わせた値とする。ｗ１〜ｗ４の重みは、それぞれ０〜１までの実数定数である。
【００５１】
評価関数：ｓｃｏｒｅ＝ｗ１＊ｔｙｐｅ＋ｗ２＊ｌｉｎｋ＋ｗ３＊ｌｅｎ＋ｗ４＊ｆ０
但し、ｔｙｐｅ＝０（分割点が前記優先順位第１位である場合）
ｔｙｐｅ＝１（分割点が前記優先順位第２位である場合）
ｔｙｐｅ＝３（分割点が前記優先順位第３位である場合）
ｔｙｐｅ＝９（それ以外の場合）
ｌｉｎｋ＝０（分割点前後の音韻の種類が一致する場合）
ｌｉｎｋ＝９（それ以外の場合）
ｌｅｎ＝−（分割点で区切られた音韻記号部分列の音韻記号数）
ｆ０＝｜ｌｏｇ（実波形のピッチ周期）−ｌｏｇ（理論ピッチ周期）｜
である。
【００５２】
以下、入力文字列／−ａｍｅｎｏｔａｍｅｋａ−／（雨のためか）
について、分割点の決定方法について述べる。説明の簡略のため本実施例では、
ｗ１＝１，ｗ２＝１，ｗ３＝１，ｗ４＝０
とした。
【００５３】
音韻記号部分列の組み合わせは、図７に示す木検索により行う。
【００５４】
同図中、選択された音韻記号部分列（この音韻記号部分列は音声波形デ−タベ−ス１６のラベル情報に存在し、かつ、すべての音韻分割点前後の音韻が一致するものが選択されたとした）の下側にｓｃｏｒｅ値が示されている。説明のため、各音韻記号部分列の選択された状態を便宜上ノ−ド０からノ−ド８と呼ぶ。
【００５５】
まず、はじめにノ−ド０において／−／（無音）で始まり、／−ａｍｅｎｏ．．．／と続く音韻記号部分列を音声波形デ−タベ−ス１６のラベル情報より検索し、その中で最もｓｃｏｒｅ値が小さい音韻記号部分列から所定の数ｍ個（本実施の形態では、２個とする）選択し、下位にｍ個のノ−ドを作成する。図７では、ノ−ド１／−ａｍｅｎｏ−／とノ−ド４／−ａｍｅｎｏ−ｔａｍ／／が選択された。／−ａｍｅｎｏ−／のｓｃｏｒｅ値は、
ｔｙｐｅ＝９：優先順位外の分割点で終わっている。
【００５６】
ｌｉｎｋ＝０：後続の音韻記号がｔで一致している。
【００５７】
ｌｅｎ＝ −１０
ｓｃｏｒｅ＝９＋０−１０＝−１
／−ａｍｅｎｏ−ｔａｍ／のｓｃｏｒｅ値は、
ｔｙｐｅ＝０：優先順位第１位の分割点で終わっている。
【００５８】
ｌｉｎｋ＝０：後続の音韻記号がｍで一致している。
【００５９】
ｌｅｎ＝ −７
ｓｃｏｒｅ＝０＋０−７＝ −７
である。ここで、ノ−ド１およびノ−ド４を音韻分割部分列候補とする。従って、それぞれのノ−ドでの累計ｓｃｏｒｅ値は、それぞれ
ノ−ド１での累計ｓｃｏｒｅ＝ −１
ノ−ド４での累計ｓｃｏｒｅ＝ −７
となる。分割毎に累計ｓｃｏｒｅの小さいものからｍ個の音韻部分列の探索系列を残すため実施例ではノ−ド１およびノ−ド４の音韻部分列は候補として残る。従って、次の探索として、ノ−ド２、３、５及び６が候補となり、
ノ−ド２での累計ｓｃｏｒｅ＝ −３
ノ−ド３での累計ｓｃｏｒｅ＝ −７
ノ−ド５での累計ｓｃｏｒｅ＝ −７
ノ−ド６での累計ｓｃｏｒｅ＝ −９
この場合、ノ−ド３、５が同点であるが、同点の場合はそのノ−ドでのｓｃｏｒｅ値の小さいほうを優先し、結果としてノ−ド３、６が候補として残る。
【００６０】
ここでノ−ド３は分割が終了したので、ノ−ド３での累計ｓｃｏｒｅは、常に候補として残る。ノ−ド２および５からの探索はこれ以上行わない。同様に分割を繰り返し最終的に残ったノ−ドは、図７より、ノ−ド３およびノ−ド８となり、それぞれの累積ｓｃｏｒｅ値は、
ノ−ド３での累計ｓｃｏｒｅ＝ −７
ノ−ド８での累計ｓｃｏｒｅ＝ −１４
であるから、ｓｃｏｒｅが小さいほうのノ−ド８までの検索による音韻分割が最適となり、実際の分割は、
／−ａｍｅｎｏ−／−ｔａｍｅ／ｅ−ｋａ−／
に決定される。
【００６１】
次に、図４のステップＳ２１およびＳ２３の波形整形に関する具体的な処理について説明する。
【００６２】
マイコン１２は、ステップＳ１５１１，Ｓ１５１７およびＳ１５２５で決定された分割点に従って、波形読出手段１２ｈは音声波形データベース１６に登録されている単位音声波形を抽出し、波形接続手段１２ｇはパワーパターンおよびピッチパターンによってその単位音声波形を整形する。
【００６３】
単位音声波形の振幅および音韻継続時間長はパワーパターンｐｗ（ｔ）に従って、また、音程（ピッチ）はピッチパターンｐｔ（ｔ）に従って整形される。単位音声波形の振幅制御においては、時刻ｔにおけるｐｗ（ｔ）を基準として振幅ゲインを調整する。音韻継続時間長および音程制御は、ＰＳＯＬＡ法（Ｆ．Ｃｈａｒｐｅｎｔｉｅｒ他、「Ｐｉｔｃｈ−ＳｙｎｃｈｒｏｎｏｕｓＷａｖｅｆｏｒｍＰｒｏｃｅｓｓｉｎｇＴｅｃｈｎｉｑｕｅｓｆｏｒＴｅｘｔ−ｔｏ−ｓｐｅｅｃｈＳｙｎｔｈｅｓｉｓＵｓｉｎｇＤｉｐｈｏｎｅｓ」Ｐｒｏｃ．Ｅｕｒｏｓｐｅｅｃｈ ’８９を用いる。
【００６４】
たとえば、音韻記号列／−ｄｅ／／／に対応する単位音声波形の抽出と波形整形について述べる。音声波形の分割点に関してより詳しく説明すると、無音部分割点は無音区間の開始点あるいは終了点に設けられ、無声音部分割点は無声音区間のほぼ中心に設けられ、そして、有声音部分割点は周期性が安定している母音中心部等の１ピッチ波形の開始点と終了点とにおける右下がりのゼロクロスポイントに設けられる。
【００６５】
そして、これらの波形分割点がマーキングされるとともに、そのマーキングが各々の音声波形の先頭サンプルから何サンプル目にあるかが、上述のステップＳ１５１１，Ｓ１５１７およびＳ１５２５でメモリ１２ｄに書き込まれる。
【００６６】
したがって、単位音声波形／−ｄｅ／／／の波形終端は、音韻記号“ｅ”に相当する音声波形のうち周波数の安定している１ピッチの終了点であり、この波形終端までの波形が単位音声波形として抽出される。抽出された単位音声波形は、前述の方法により波形整形される。
【００６７】
このうち、音程制御にあたっては、接続箇所である１ピッチ波形の終了点を基準時とし、その基準時の基準ピッチ周期Ｔをピッチパターンに基づいて算出する。
【００６８】
ここで、基準ピッチとは入力文字列に対応する音韻記号列の当該基準時におけるピッチ周期である。そして、算出された基準ピッチ周期Ｔにマーキングされた１ピッチ波形のピッチ周期が一致するように単位音声波形全体をＰＳＯＬＡ法で整形する。
【００６９】
このとき、次の単位音声波形の接続のために、波形整形の後に接続された単位音声波形の波形分割点は、ステップＳ２３で合成音声波形の始めからのサンプル数に換算して記憶保持される。
【００７０】
また、音韻継続時間長の制御にあたっては、パワーパターンに合わせて、無音区間の補間・削除またはＰＳＯＬＡ法によって、ピッチが安定している母音区間における１ピッチ波形を補間または間引きする。振幅の調整にあたっては、音声単位波形毎にパワーパターンより導かれる振幅倍率を乗じる。
【００７１】
続いて、図４のステップＳ２５における波形接続処理について説明する。有声音区間の接続に関しては、互いに接続する単位音声波形の特定の１ピッチがマーキングされているため、この期間Ｔにおいて、それぞれの波形に重みをかけて足し合わせることによって、両波形を接続する。
【００７２】
すなわち、先行する単位音声波形の特定の１ピッチに対しては、１から０へ直線的に変化する重み（窓関数Ｗ１＝１−ｉ／（Ｔ−１）（ｉ＝０，１，…，Ｔ−１））をかけ、後行する単位音声波形の特定の１ピッチに対しては、０から１へ直線的に変化する重み（窓関数Ｗ２＝ｉ／（Ｔ−１））をかけて、両波形を足し合わせる。また、無音区間の波形接続および無声音区間の波形接続に関しては、互いに接続する単位音声波形のマーキングされた分割点で単純に接続する。
【００７３】
たとえば、／−ｄｅ／／／と／／／ｅｆ／／の接続に関して、図８を用いて説明する。図８（ａ）は、音声波形データベース１６に登録されている／−ｄｅ／／／（２番目に存在）の音韻記号“ｅ”に相当する波形整形済みの音声波形の一部分であり、図８（ｂ）は、音声波形データベース１６に登録されている／／／ｅｆ／／（４番目に存在）の音韻記号“ｅ”に相当する波形整形済みの音声波形の一部分である。この２つの波形を接続して、／−ｄｅｆ／／に相当する合成波形である図８（ｃ）を得る。
【００７４】
この場合は有声音区間の波形接続であるので、互いに接続する図８（ａ）、（ｂ）各々の単位音声波形の１ピッチ分がＡ、ＢおよびＣ、Ｄでマーキングされており、図の破線で示すように、各々の波形に重みを付けて足し合わせることにより両者が接続される。このとき、音声波形の図８（ａ）、（ｂ）の接続箇所ＡからＢ、ＣからＤの時間長は、前述の基準ピッチ周期Ｔになるよう波形整形されている。
【００７５】
次に、たとえば、／／／ｅｆ／／と／／ｆｕ／の接続に関して、図９を用いて説明する。
【００７６】
図９（ｄ）は、音声波形データベース１６に登録されている／／／ｅｆ／／（４番目に存在）の音韻記号“ｆ”に相当する波形整形済みの音声波形の一部分であり、図９（ｅ）は、音声波形データベース１６に登録されている／／ｆｕ／（３番目に存在）の音韻記号“ｆ”に相当する波形整形済みの音声波形の一部分である。この２つの波形を接続して、−ｄｅｆｕ−／の“ｆ”に相当する合成波形である図９（ｆ）を得る。この場合は、無声音区間の波形接続であるので、互いに接続する図９（ｄ）、（ｅ）各々の単位音声波形のマーキングされた波形分割点Ｅ、Ｆで単純に接続する。
【００７７】
【発明の効果】
この発明によれば、所定の優先順位で分割された第１の音韻記号部分列に対応する最適な単位音声波形が読出手段によって波形メモリから読み出され、波形接続手段によって接続されるため、音質が優れた合成音声波形を出力することができる。
【図面の簡単な説明】
【図１】本発明の一実施の形態を示すブロック図である。
【図２】本発明の動作の一部を示すフロー図である。
【図３】音韻記号列、パワーパターンおよびピッチパターンを示す図解図である。
【図４】本発明の動作の一部を示すフロー図である。
【図５】本発明の動作の一部を示すフロー図である。
【図６】本発明の動作の一部を示すフロー図である。
【図７】本発明の動作の一部を示す木構造図である。
【図８】（ａ）および（ｂ）は単位音声波形の一部を示す波形図であり、（ｃ）は合成された音声波形の一部を示す波形図である。
【図９】（ｄ）および（ｅ）は単位音声波形の一部を示す波形図であり、（ｆ）は合成された音声波形の一部を示す波形図である。
【符号の説明】
１０ …テキスト音声合成装置
１２ｅ…形態素解析手段
１２ｆ…分割手段
１２ｇ…波形接続手段
１２ｈ…波形読出手段
１２ｉ…韻律情報生成手段
１４ …テキスト解析用辞書
１６ …音声波形データベース

Claims

入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、
あらかじめ単位音声波形を含む音声波形が蓄積された音声波形メモリと、
音韻記号列を所定の優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補について、対応する音声波形が前記音声波形メモリに存在するか否かを前記優先順位に基づいて判断し、分割点を決定する分割手段と、
前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および
前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段と、を備えることを特徴とする音声合成装置。
前記所定の優先順位の要素として無音部、無声音部および有声音部を含む、請求項１記載の音声合成装置。
前記音声合成装置は前記入力文字列に対応する韻律情報を生成する韻律情報生成手段を備え、前記波形接続手段は前記単位音声波形を前記韻律情報に従って波形整形する波形整形手段を含む、請求項２記載の音声合成装置。
前記韻律情報はピッチパターンおよびパワーパターンの少なくとも一方を含む、請求項３記載の音声合成装置。
前記有声音部で分割された単位音声波形を接続するとき、前記波形接続手段はそれぞれの単位音声波形に含まれる１ピッチ分の波形に適当な重み付けをして加算する加算手段を含む、請求項２ないし４のいずれかに記載の音声合成装置。
入力文字列に対応する音韻記号列に含まれる複数の音韻記号部分列に対応する単位音声波形を合成して合成音声出力する音声合成装置において、
あらかじめ単位音声波形を含む音声波形と各々の音声波形に対する音韻記号列が蓄積された音声波形メモリと、
音韻記号列を無音部、無声音部および有声音部を含む優先順位で複数の音韻記号部分列候補に分割し、当該音韻記号部分列候補を分割する分割点において、音韻分割点の前記優先順位、音韻分割点前後の音韻の種類の一致度、音韻分割点数、及び接続点前後の波形のピッチの差を夫々量子化し、その量子化された夫々の値に所定の重みを付加した評価関数により分割点を決定する分割手段と、
前記分割手段で決定された分割点により分割された音韻記号部分列に対応する単位音声波形を前記音声波形メモリから読み出す波形読出手段と、および
前記音声波形メモリから読み出された単位音声波形を接続して合成音声波形を生成する波形接続手段と、を備えることを特徴とする音声合成装置。