JPH06149281A

JPH06149281A - ピッチパターンの生成方法

Info

Publication number: JPH06149281A
Application number: JP4258389A
Authority: JP
Inventors: Makoto Hashimoto; 誠橋本
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1992-09-21
Filing date: 1992-09-28
Publication date: 1994-05-27
Anticipated expiration: 2017-05-27
Also published as: JP3286354B2

Abstract

(57)【要約】【目的】本発明は、合成音声の自然性を向上させるた
めに、合成音声の自然性に大きな影響を及ぼすピッチ周
波数の変化量を考慮すると共に、基準ピッチ周波数を設
定することによって、喋り終わり付近、又は呼気段落内
の後方部分でのピッチ周波数の極端な降下を防止しなが
らピッチパターンを生成しようとするものである。【構成】本発明は、隣接するｎ、（ｎ＋１）（ｎは整
数）モーラの重心点間のピッチ差ａ（ｎ＋１）を、少な
くともアクセント型のパラメータ情報、又はモーラ数の
パラメータ情報に基づいて推定するピッチ差推定部と、
該ピッチ差推定部から出力されるピッチ差ａ（ｎ＋１）
に基づいて所望の音声のピッチパターンを生成するピッ
チパターン生成部と、該ピッチパターン生成部によって
生成されるピッチパターンの最小閾値となる基準ピッチ
周波数を設定する基準ピッチ周波数設定部と、を具備す
る。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声の音韻やアクセン
トの自然性に大きく影響する合成音声のピッチパターン
の生成方法に関する。

【０００２】

【従来の技術】近年、音声合成の研究が、ヒューマンイ
ンタフェースの重要な技術として盛んに行われている。
音声合成は、文字列等から形態素解析によって品詞情報
を決定し、単語辞書との照合により単語の読みを決定し
た後に、この読みに応じた単語のアクセント型、アクセ
ント結合、フレーズ等を求め、これらの情報からピッチ
パターンの決定を行うと共に、単語の読みに応じた音声
素片（例えばパーコール係数やＬＳＰ係数）を接続する
ことにより音声データを生成するものである。

【０００３】即ち、音声データとは、パーコール係数
列、これに応じたピッチパターン及びアンプ情報であ
り、この中でもピッチパターンは、合成音声の自然性の
善し悪しに大きな影響を及ぼすものとして位置付けられ
ている。

【０００４】従来のピッチパターン生成には、文章の構
造からフレーズ成分とアクセント成分を決定した後に、
各モーラの母音重心点のピッチを推定し、直線補間する
ことによりピッチパターンを生成する点ピッチモデルを
用いる方法が知られている（電子通信学会論文誌Ｖｏ
ｌ.Ｊ63-ＤＮｏ.9 ｐｐ.715-722, 1980.9）。

【０００５】また、ニューラルネットにより各フレーズ
に対する先頭モーラ、ピッチ周波数がピークをとるモー
ラ、末尾モーラの各ピッチ周波数の値を推定する方法な
ども知られている（音声研究会資料ＳＰ89-111, 1990.
1）。

【０００６】これら従来のピッチパターンの生成方法
は、いずれも各モーラに対するピッチ周波数の絶対値を
一義的に推定する方法であり、隣接する２モーラ間の繋
がり（ピッチ周波数の変化量）については考慮されてい
なかった。

【０００７】一方、通常、人間が喋った場合のピッチ周
波数は喋り始めが高く、喋り終わり付近が低かったり、
また呼気段落内の後方部分で低かったりして、そのピッ
チパターンの形状は上に凸の山型を示す傾向にある。

【０００８】斯くして、上述のピッチ周波数の絶対値を
一義的に推定する方法では、ピッチパターンは喋り終わ
り付近、又は呼気段落内の後方部分で極端な降下が起こ
り得る可能性があり、実際、人間が喋った場合と比べて
違和感を招いてしまうという問題があった。

【０００９】

【発明が解決しようとする課題】本発明は、このような
問題を解決するためになされたものであり、合成音声の
自然性を向上させるために、合成音声の自然性に大きな
影響を及ぼすピッチ周波数の変化量を考慮すると共に、
基準ピッチ周波数を設定することによって、喋り終わり
付近、又は呼気段落内の後方部分でのピッチ周波数の極
端な降下を防止しながらピッチパターンを生成しようと
するものである。

【００１０】

【課題を解決するための手段】本発明は、隣接するｎ、
（ｎ＋１）（ｎは整数）モーラの重心点間のピッチ差ａ
（ｎ＋１）を、少なくともアクセント型のパラメータ情
報、又はモーラ数のパラメータ情報に基づいて推定する
ピッチ差推定部と、該ピッチ差推定部から出力されるピ
ッチ差ａ（ｎ＋１）に基づいて所望の音声のピッチパタ
ーンを生成するピッチパターン生成部と、該ピッチパタ
ーン生成部によって生成されるピッチパターンの最小閾
値となる基準ピッチ周波数を設定する基準ピッチ周波数
設定部と、を具備し、上記ピッチパターン生成部は、上
記ピッチ差推定部によって推定されるピッチ差ａ（ｎ＋
１）に基づいて、上記基準ピッチ周波数設定部にて設定
される基準ピッチ周波数より大きい値を取りながら、ピ
ッチパターンを生成する。

【００１１】

【作用】推定すべき隣接するｎ、（ｎ＋１）モーラ（ｎ
は整数）の重心点間のピッチ差ａ（ｎ＋１）、及び少な
くともアクセント型のパラメータ情報、又はモーラ数の
パラメータ情報に基づいて推定される（ｎ＋１）モーラ
目のピッチ周波数が、基準ピッチ周波数設定部にて設定
される基準ピッチ周波数より大きい値となる。

【００１２】

【実施例】本発明の実施例を図１乃至図１１に基づいて
説明する。

【００１３】図１は、本発明の一実施例を示すブロック
図であり、１は音声合成させる文字列の入力を行なう文
字コード記号列入力部、２はその文字列を単語単位に分
割し、品詞情報を決定する形態素解析部、３はその単語
の読みを決定する読み決定部、４は単語の読みを記憶し
ている単語辞書、５は単語の読みに基づくアクセントを
決定するアクセント決定部、６は単語毎のアクセントを
記憶しているアクセント辞書、７は上記文字列のフレー
ズを決定するフレーズ決定部である。尚、フレーズとは
文頭乃至読点、読点乃至読点、読点乃至句点、息継ぎ乃
至息継ぎ、又はポーズ乃至ポーズ等の呼気段落をいう。

【００１４】８は上記文字列のピッチパターンを生成す
るピッチパターン生成部、９ａは上記文字列のモーラの
母音重心点のピッチ周波数とそのモーラに対する先行モ
ーラの母音重心点のピッチ周波数との差を、ニューラル
ネットワーク、又は対応表に基づいて推定するピッチ差
推定部、９ｂは本発明の特徴である、ピッチ差推定部９
ａによって隣接するモーラのピッチ周波数の差を推定す
るに当って、人間が実際に喋った場合と比べて、任意の
モーラのピッチ周波数が極端に降下しないように基準ピ
ッチ周波数を設定する基準ピッチ周波数設定部、１０は
音声の素片を接続する素片接続部、１１は音声素片を格
納した素片テーブル、１２はＤＡ変換部、１３はスピー
カである。

【００１５】図２は、入力文字列「道を尋ねる」を形態
素解析した結果である。

【００１６】図３は、図２にて入力文字列の形態素解析
結果に対して読み決定を行った結果である。

【００１７】図４は、図３で読み決定を行った後、入力
文字列をアクセント句単位で表したものであり、４１は
入力文字列の第２アクセント句の第２モーラ、４２は入
力文字列の第１アクセント句、４３は入力文字列の第２
アクセント句である。

【００１８】図５は、入力文字列のピッチパターンであ
る。ここで、あるアクセント句において、第Ｎモーラ目
にアクセントが存在するアクセント型を「Ｎ型」と呼ぶ
ことにする。従って、「みちを／たずねる」において、
第１アクセント句「みちを」はアクセントが存在しない
ので、アクセント型は０型となり、また第２アクセント
句「たずねる」は第３モーラ「ね」にアクセントが存在
するので、アクセント型は３型となる。

【００１９】図６は、２つのアクセント句からなる１フ
レーズの短文を複数用いて、隣接するモーラの母音重心
点間のピッチ周波数の差を、５つのパラメータ情報毎に
対応付けた対応表である。

【００２０】図７は、ニューラルネットを用いたピッチ
差推定部９ａを模式的に示したものであり、７１は５ユ
ニット１層からなる入力層、７２は１０ユニット３層か
らなる中間層、７３は１ユニット１層からなる出力層で
あり、シグモイド関数による非線形処理は中間層７２に
用いている。

【００２１】図８は、ピッチ差推定部９ａのニューラル
ネットワークに学習させる学習データのピッチパターン
の一例である。

【００２２】図９は、基準ピッチ周波数設定部９ｂにて
設定する基準ピッチ周波数Ｆbの決定方法を説明する図
である。

【００２３】図９において、基準ピッチ周波数設定部９
ｂにて、実際、人間が喋ったときと比べて極端にピッチ
周波数が降下しないように最小閾値となる基準ピッチ周
波数Ｆbを設定する。このとき、基準ピッチ周波数Ｆb
は、学習に用いる学習データの最小ピッチ周波数より小
さいことが好ましく、その値としては学習データの最小
ピッチ周波数より１０乃至７０％小さい値とする。更
に、その基準ピッチ周波数Ｆbは第１アクセント句の第
１モーラに先行する仮想モーラのピッチ周波数Ｐ（０）
より小さい値に設定しなければならない。

【００２４】ところで、基準ピッチ周波数設定部９ｂに
て設定した基準ピッチ周波数Ｆbに基づいて、隣接する
モーラの母音重心点間のピッチ差を求める算出式を導出
する。

【００２５】

【数１】

【００２６】（ｎ＋１）番目のモーラの母音重心点ピッ
チ周波数は、ｎ番目のモーラの母音重心点のピッチ周波
数を基準にして考えると、（１）式で表すことができ、
この（１）式を変形すると、（２）式になる。ここで、
第１アクセント句の第１モーラに先行する仮想モーラの
ピッチ周波数Ｐ（０）は、上述より基準ピッチ周波数Ｆ
bより大きい値であり、またｅ^a(n+1)（ｎは整数）の値
は、ａ（ｎ＋１）に拘らず常に正の値となるから、
（３）式の左辺も常に正の値となる。従って、Ｐ（ｎ＋
１）とＦbとの関係は（４）式のように変形できる。

【００２７】斯くして、本発明のピッチパターンの生成
方法によって推定した夫々のモーラのピッチ周波数は、
基準ピッチ周波数Ｆbより小さくなることはない。

【００２８】次に、（１）式を用いて、図７のピッチ差
推定部９ａにて、例えば、２アクセント句からなる複数
の短文の学習データを入力層７１に入力し、学習を行わ
せる。具体的には、図８に示す２アクセント句からなる
１フレーズの文字列「たいふうが／くる」の「る」に注
目し、この第７モーラ「る」とこの直前の第６モ−ラ
「く」との母音重心点間のピッチ周波数の差をニューラ
ルネットワークに学習させる場合について説明する。

【００２９】本実施例のピッチ差推定部９ａで用いるニ
ューラルネットワークでは、入力層７１に、１）注目モーラを含むアクセント句の文中での位置２）注目モーラを含むアクセント句のモーラ数３）注目モーラのアクセント句中での位置４）注目モーラを含むアクセント句のアクセント型５）注目モーラを含むアクセント句の先行アクセント句
のアクセント型の５個のパラメータ情報を入力する。

【００３０】また、このニューラルネットワークは、入
力層７１に上記５個のパラメータ情報から構成された学
習データを入力すると、出力層７３から注目モーラの母
音重心点のピッチ周波数とこれに先行するモーラの母音
重心点のピッチ周波数との差を出力するように学習され
ている。

【００３１】ここで、文字列「たいふうが／くる」につ
いて考えてみると、注目モ−ラである第７モ−ラ「る」
は、モ−ラ数が２でアクセント型が１型である第２アク
セント句の第２モ−ラであるので、ニューラルネットの
入力層７１へのパラメータ情報は、注目モーラを含むア
クセント句の文中での位置「２」、注目モーラを含むア
クセント句のモーラ数「２」、注目モーラのアクセント
句中での位置「２」、注目モーラを含むアクセント句の
アクセント型「１」、注目モーラを含むアクセント句の
先行アクセント句のアクセント型「３」となり、そのパ
ラメータ情報は「２，２，２，１，３」となることがわ
かる。

【００３２】ところで、本方法では、注目モーラとこれ
に先行する先行モーラとの母音重心点のピッチ周波数の
差を推定しているので、第１アクセント句の第１モーラ
（文頭の第１モーラ）「た」に対する先行モーラとのピ
ッチ周波数の差の推定、並びに注目モーラのアクセント
句が第１アクセント句であるときの先行アクセント句の
アクセント型をどのように取り扱うかという問題が生じ
る。

【００３３】そこで、第１アクセント句の第１モーラ
「た」と、このモーラに先行する先行モーラ（以下、仮
想モーラという。）との母音重心点のピッチ周波数の差
を推定する場合、本実施例では、学習データ中の１型以
外の第１アクセント句の第１モーラの平均ピッチ周波
数、並びに第１アクセント句の第１モーラに対する先行
アクセント句のアクセント型を起伏式に属する１型とし
て、仮想モーラと第１アクセント句の第１モーラとの母
音重心点のピッチ周波数の差を求めることとしている。

【００３４】これは、仮想モーラとして、学習データ中
の１型以外の第１アクセント句の第１モーラの平均ピッ
チ周波数を採用したのは、アクセント型が１型以外の第
１アクセント句の第１モーラの平均ピッチ周波数の値
は、経験的に低い値となるからであり、また、第１アク
セント句の第１モーラに対する先行アクセント句のアク
セント型として１型を採用したのは、その１型のアクセ
ント句の後方部分はピッチ周波数の値が下降しているか
らである。

【００３５】この結果、仮想モーラから、第１アクセン
ト句の第１モーラへの繋がりは違和感がなく、自然な音
声発声と看做せることとなる。

【００３６】斯くして、注目モーラが第１アクセント句
の第１モーラに当る場合には、ピッチ差推定部９のニュ
ーラルネットワークの入力層７１に入力する「注目モー
ラを含むアクセント句の先行アクセント句のアクセント
型」を、１型にすることとしている。

【００３７】ところで、仮想モーラとして、例えば学習
データ中の１型アクセントのみの第１アクセント句の第
１モーラの平均ピッチ周波数を採用することも考えられ
る。この場合、その平均ピッチ周波数の値は経験的に高
くなる傾向にあるため、第１アクセント句の第１モーラ
に対する先行アクセント句のアクセント型を、例えば後
方部分のピッチ下降の少ない平板式とすることによっ
て、仮想モーラから、第１アクセント句の第１モーラへ
の繋がりは違和感がなくなる。

【００３８】このように、文字列「たいふうがくる」
の第１モーラ「た」に注目した場合、入力層７１に入力
する５個のパラメータ情報は、注目モーラを含むアクセ
ント句の文中での位置「１」、注目モーラを含むアクセ
ント句のモーラ数「５」、注目モーラのアクセント句中
での位置「１」、注目モーラを含むアクセント句のアク
セント型「３」、注目モーラを含むアクセント句の先行
アクセント句のアクセント型「１」、の５個のパラメー
タ情報「１，５，１，３，１」で表される。この５個の
パラメータ「１，５，１，３，１」をニューラルネット
ワークの入力層７１に入力することによって、注目モ−
ラ「た」と先行モーラとの夫々の母音重心点ピッチ周波
数の差が推定される。

【００３９】そこで、上述のニューラルネットワークに
おいて、アクセント句数、アクセント型、及びモーラ数
が夫々異なる複数の文字列の学習データを上述の５個の
パラメータで表したそれらの情報を入力層７１に入力し
ながら、基準ピッチ周波数に基づいて隣接するモーラの
母音重心点間のピッチ差を教師データとして、誤差逆伝
搬法に基づいて、ニューラルネットワークの出力値が所
望のピッチ周波数の差、即ち（１）式で求めた自然音声
のピッチパターンより求められたピッチ差の値の近傍で
収束するまでニューラルネットワークの各ユニット間の
結合の強さ（重み付け）を逐次変更し、学習を繰り返
す。

【００４０】これにより、ニューラルネットワークの各
ユニット間の最適な、又は準最適な結合の強さが決ま
る。

【００４１】以下には、各ユニット間の最終的な結合の
強さが決まったニューラルネットワークから構成された
ピッチ差推定部９ａを用いて、例えば、未学習の文字列
「道を尋ねる」を音声合成させる場合の処理動作を述べ
る。

【００４２】文字コード記号列入力部（１）から入力さ
れた上記文字列は、形態素解析部２によって、まず単語
単位に分割された後、各単語の品詞が図２に示すように
決定される。

【００４３】形態素解析部２にて品詞が決定されると、
その品詞データは読み決定部３に送られ、単語辞書４と
の照合により図３に示すように、各単語の読みが決定さ
れる。

【００４４】読み決定部３にて単語の読みが決定される
と、その単語データはアクセント決定部５に送られ、ア
クセント辞書６との照合により単語のアクセントが決定
され、規則によりアクセント結合が行われてアクセント
句が形成されるとともに、アクセント句に対するアクセ
ントが決定される。これにより、文字列「みちを／たず
ねる」は、図４に示されるように、第１アクセント句
「みちを」４２と第２アクセント句「たずねる」４３の
２つのアクセント句に分けられる。

【００４５】アクセント句並びにアクセントが決定され
た後、フレーズ決定部７でフレーズの決定が行われる。
本実施例の文字列では、文字列全体で１つのフレーズを
形成しており、例えば「こうばんまでいって／みちをた
ずねる」といった文字列であれば、「こうばんまでいっ
て」と「みちをたずねる」との２つのフレーズに分割さ
れる。

【００４６】次に、ピッチ差推定部９ａにて、ピッチ差
の推定が行われる。即ち、本実施例の文字列の場合、注
目モ−ラである第５モ−ラ「ず」は、モ−ラ数が４でア
クセント型が３型である第２アクセント句４３の第２モ
−ラ４１である。従って、入力層７１に入力する５個の
パラメータ情報は、注目モーラを含むアクセント句の文
中での位置「２」、注目モーラを含むアクセント句のモ
ーラ数「４」、注目モーラのアクセント句中での位置
「２」、注目モーラを含むアクセント句のアクセント型
「３」、注目モーラを含むアクセント句の先行アクセン
ト句のアクセント型「０」、の５個のパラメータ情報
「２，４，２，３，０」で表される。この５個のパラメ
ータ「２，４，２，３，０」をニューラルネットワーク
の入力層７１に入力することによって、注目モ−ラ
「ず」と先行モーラ「た」との夫々の母音重心点間のピ
ッチ周波数の差は自然対数で、「＋０．４２６」と推定
される。

【００４７】このようにして、文字列「みちを／たずね
る」の各モ−ラに対して、注目モ−ラの母音重心点のピ
ッチ周波数と先行モ−ラの母音重心点のピッチ周波数と
の差が、自然対数で、第１モ−ラから順次、「−0.100,
0.456, −0.270, −0.241,0.426，−0.293，−0.903」
と推定される。

【００４８】この後、ピッチパターン生成部８では、あ
らかじめ設定された音声区間の始端、および、終端のピ
ッチ周波数と、ピッチ差推定部９ａで推定された隣接す
るモーラの母音重心点間のピッチ周波数の差に基づい
て、図５に示される点ピッチパターンが生成される。

【００４９】点ピッチパターンが生成されると、素片接
続部１０において、ＣＶＣ（子音＋母音＋子音）などの
音声素片（例えば、パーコール係数、あるいはＬＳＰ係
数）を予め格納している素片テーブル１１から、入力さ
れた文字列の音声発声に必要な音声素片が選ばれて各素
片が接続され、デジタル信号である音声データが作成さ
れる。音声データはＤＡ変換部１２によってアナログ信
号に変換され、スピーカ１３から合成音声として出力さ
れる。

【００５０】上述の実施例では、学習データとして２ア
クセント句からなる短文を用いてニューラルネットワー
クの学習を行ったが、これには限られず、３アクセント
句以上の文を用いて、ニューラルネットワークの学習を
行わせてもよいことはいうまでもない。例えば、図１０
は３アクセント句の未学習の文字列「しょくじの／じか
んが／まちど−しい」のピッチパターンを、また図１１
は４アクセント句の未学習の文字列「さと−と／しおを
／くわえて／まぜる」のピッチパターンを示したもので
ある。この場合、第１アクセント句の第１モーラの先行
モーラ（仮想モーラ）のピッチ周波数をＰ(０)＝１３５
(Ｈｚ)に設定し、また基準ピッチ周波数をＦb＝５０(Ｈ
ｚ)に設定して、隣接するモーラの母音重心点間のピッ
チ差を推定した。

【００５１】これによると、基準ピッチ周波数を設定し
た方が、全く設定しないときと比べて、人間が喋ったと
きの音声（自然音声）のピッチパターンに近付く傾向に
あることが分かる。

【００５２】以上の実施例では、ニューラルネットワー
クから構成されたピッチ差推定部９ａにおいて、複数の
短文を用いて学習させ乍ら、各ユニット間の結合の強さ
を変更していき、最終的に決定された各ユニット間の結
合の強さを記憶したニューラルネットワークを用いて、
隣接するモーラの母音重心点間のピッチ周波数の差の推
定を行ったが、これには限られず、ニューラルネットワ
ークに入力した５個のパラメータ情報、及び隣接するモ
ーラの母音重心点間のピッチ周波数の差を図６のように
対応表で記憶させておいても良いことはいうまでもな
い。

【００５３】この場合、上述と同様に文字列「みちを／
たずねる」の第５モーラ「ず」に注目すると、５個のパ
ラメータ情報は「２，４，２，３，０」６０となり、こ
れより注目モーラ「ず」と先行モーラ「た」との母音重
心点間のピッチ周波数の差は自然対数で、ニューラルネ
ットワークの場合と同様に「＋０．４２６」６１とな
る。

【００５４】尚、本実施例では、ニューラルネットワー
クの入力層７１を５ユニット１層、中間層７２を１０ユ
ニット３層としているが、各ユニット数、層数はこの限
りではない。

【００５５】また、本実施例では、学習データとして２
アクセント句からなる短文を用いてニューラルネットワ
ークの学習、並びに対応表の作成を行ったが、これには
限られず、３アクセント句以上の文を用いて、ニューラ
ルネットワークの学習、並びに対応表の作成を行っても
良いことはいうまでもない。

【００５６】更に、上述の図１０、及び図１１に示す実
施例では、共に基準ピッチ周波数Ｆbを５０(Ｈｚ)に設
定したが、これには限られず、他の学習データにおいて
は基準ピッチ周波数Ｆbを、本発明の要旨を変更しない
範囲で適宜設定してよい。

【００５７】ところで、上述の実施例では、５つのパラ
メータを入力することによって学習したニューラルネッ
ト、又は５つのパラメータから構成された対応表を用い
て、１フレーズからなる文字列のピッチパターンの生成
を行ったが、この５つのパラメータの一部に代えて、又
はこの５つのパラメータに加えて言語情報に関するパラ
メータ、例えば注目モーラが無声音であるか否か、注目
モーラが撥音であるか否か、注目モーラが拗音であるか
否か、注目モーラが有声子音を伴うか否か、注目モーラ
の子音が、注目モーラの子音が摩擦音であるか否か、注
目モーラの子音が半母音であるか否か、注目モーラの子
音が鼻音であるか否か、注目モーラの子音が破擦音であ
るか否か、注目モーラの子音が破裂音であるか否か、注
目モーラを含む単語の品詞が何であるか否か、又は注目
モーラを含むアクセント句が強調されるか否か、等を採
用して学習を行わせたニューラルネット、又は対応表を
用いてもよい。

【００５８】また、５つのパラメータ、上述の言語情報
に関するパラメータ、フレーズ位置、又はフレーズ数等
のパラメータを用いて学習させたニューラルネット、又
は対応表によって複数フレーズの文字列のピッチパター
ンの生成を行うことも可能である。

【００５９】

【発明の効果】以上説明したように、本発明によれば、
基準ピッチ周波数設定部にて基準ピッチ周波数を設定す
ることによって、隣接するモーラの重心点間のピッチ差
を、少なくともアクセント型のパラメータ情報、又はモ
ーラ数のパラメータ情報に基づいて推定する。

【００６０】これによって、該モーラのピッチ周波数は
基準ピッチ周波数より大きな値となり、喋り終わり付
近、又は呼気段落の後方部分でピッチ周波数の極端な降
下が防止できる結果、人間が喋った場合と比べて違和感
がなくなる。

【図面の簡単な説明】

【図１】本発明を用いた音声合成の一実施例を示すブロ
ック図

【図２】入力文字列を形態素解析した結果を示す図

【図３】入力文字列の形態素解析結果の読みを決定した
結果を示す図

【図４】入力文字列をアクセント句単位で表した図

【図５】入力文字列のピッチパターンを表す図

【図６】２アクセント句からなる文字列における隣接す
るモーラの母音重心点間のピッチ差を５つのパラメータ
情報毎に対応付けた対応表

【図７】ピッチ差推定部９ａに用いるニューラルネット
ワークの構成図

【図８】ピッチ差推定部９ａのニューラルネットワーク
に学習させる学習データのピッチパターンの一例

【図９】本発明による基準ピッチ周波数設定部９ｂにて
設定する基準ピッチ周波数Ｆbの決定方法を示す図

【図１０】本発明による３アクセント句からなる文字列
の推定ピッチパターンと自然音声のピッチパターン

【図１１】本発明による４アクセント句からなる文字列
の推定ピッチパターンと自然音声のピッチパターン

【符号の説明】

１文字コード記号列入力部２形態素解析部８ピッチパターン生成部９ａピッチ差推定部９ｂピッチ周波数設定部１１素片テーブル７１ニューラルネットワークの入力層７２ニューラルネットワークの中間層７３ニューラルネットワークの出力層

─────────────────────────────────────────────────────

【手続補正書】

【提出日】平成５年６月１５日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】図６

【補正方法】変更

【補正内容】

【図６】２アクセント句からなる文字列における隣接す
るモーラの母音重心点間のピッチ差を５つのパラメータ
情報毎に対応付けた対応図表

Claims

【特許請求の範囲】

【請求項１】隣接するｎ、（ｎ＋１）（ｎは整数）モ
ーラの重心点間のピッチ差ａ（ｎ＋１）を、少なくとも
アクセント型のパラメータ情報、又はモーラ数のパラメ
ータ情報に基づいて推定するピッチ差推定部と、該ピッ
チ差推定部から出力されるピッチ差ａ（ｎ＋１）に基づ
いて所望の音声のピッチパターンを生成するピッチパタ
ーン生成部と、該ピッチパターン生成部によって生成さ
れるピッチパターンの最小閾値となる基準ピッチ周波数
を設定する基準ピッチ周波数設定部と、を具備し、上記ピッチパターン生成部は、上記ピッチ差推定部によ
って推定されるピッチ差ａ（ｎ＋１）に基づいて、上記
基準ピッチ周波数設定部にて設定される基準ピッチ周波
数より大きい値を取りながら、ピッチパターンを生成す
ることを特徴とするピッチパターンの生成方法。
【請求項２】上記ピッチ差推定部は、入力層へ少なく
ともアクセント型のパラメータ情報、又はモーラ数のパ
ラメータ情報を入力すると出力層から、隣接するモーラ
の重心点間のピッチ差を出力するようなニューラルネッ
トから構成され、上記基準ピッチ周波数設定部にて設定
される基準ピッチ周波数は、上記ニューラルネットの学
習データの構成要素である全てのモーラ中の最小ピッチ
周波数より小さい値に設定され、上記ニューラルネット
は上記基準ピッチ周波数に基づいて隣接するモーラの重
心点間のピッチ差を教師データとして学習したことを特
徴とする請求項１記載のピッチパターンの生成方法。
【請求項３】上記ピッチ差推定部は、少なくともアク
セント型のパラメータ情報、又はモーラ数のパラメータ
情報に対応して、隣接するモーラの重心点間のピッチ差
を記憶した対応表に基づいて推定し、上記基準ピッチ周
波数設定部にて設定される基準ピッチ周波数は、上記対
応表の構成要素である全てのモーラ中の最小ピッチ周波
数より小さい値に設定されることを特徴とする請求項１
記載のピッチパターンの生成方法。
【請求項４】あるモーラが区切られた範囲内の先頭に
位置する場合には、上記あるモーラとピッチ周波数が一
定値の仮想モーラとのピッチ差を推定すると共に、上記
基準ピッチ周波数は上記一定値より小さい値に設定され
ることを特徴とする請求項１、２、又は３記載のピッチ
パターンの生成方法。