JPH06149281A - ピッチパターンの生成方法 - Google Patents

ピッチパターンの生成方法

Info

Publication number
JPH06149281A
JPH06149281A JP4258389A JP25838992A JPH06149281A JP H06149281 A JPH06149281 A JP H06149281A JP 4258389 A JP4258389 A JP 4258389A JP 25838992 A JP25838992 A JP 25838992A JP H06149281 A JPH06149281 A JP H06149281A
Authority
JP
Japan
Prior art keywords
pitch
mora
accent
difference
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4258389A
Other languages
English (en)
Other versions
JP3286354B2 (ja
Inventor
Makoto Hashimoto
誠 橋本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP25838992A priority Critical patent/JP3286354B2/ja
Publication of JPH06149281A publication Critical patent/JPH06149281A/ja
Application granted granted Critical
Publication of JP3286354B2 publication Critical patent/JP3286354B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【目的】 本発明は、合成音声の自然性を向上させるた
めに、合成音声の自然性に大きな影響を及ぼすピッチ周
波数の変化量を考慮すると共に、基準ピッチ周波数を設
定することによって、喋り終わり付近、又は呼気段落内
の後方部分でのピッチ周波数の極端な降下を防止しなが
らピッチパターンを生成しようとするものである。 【構成】 本発明は、隣接するn、(n+1)(nは整
数)モーラの重心点間のピッチ差a(n+1)を、少な
くともアクセント型のパラメータ情報、又はモーラ数の
パラメータ情報に基づいて推定するピッチ差推定部と、
該ピッチ差推定部から出力されるピッチ差a(n+1)
に基づいて所望の音声のピッチパターンを生成するピッ
チパターン生成部と、該ピッチパターン生成部によって
生成されるピッチパターンの最小閾値となる基準ピッチ
周波数を設定する基準ピッチ周波数設定部と、を具備す
る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声の音韻やアクセン
トの自然性に大きく影響する合成音声のピッチパターン
の生成方法に関する。
【0002】
【従来の技術】近年、音声合成の研究が、ヒューマンイ
ンタフェースの重要な技術として盛んに行われている。
音声合成は、文字列等から形態素解析によって品詞情報
を決定し、単語辞書との照合により単語の読みを決定し
た後に、この読みに応じた単語のアクセント型、アクセ
ント結合、フレーズ等を求め、これらの情報からピッチ
パターンの決定を行うと共に、単語の読みに応じた音声
素片(例えばパーコール係数やLSP係数)を接続する
ことにより音声データを生成するものである。
【0003】即ち、音声データとは、パーコール係数
列、これに応じたピッチパターン及びアンプ情報であ
り、この中でもピッチパターンは、合成音声の自然性の
善し悪しに大きな影響を及ぼすものとして位置付けられ
ている。
【0004】従来のピッチパターン生成には、文章の構
造からフレーズ成分とアクセント成分を決定した後に、
各モーラの母音重心点のピッチを推定し、直線補間する
ことによりピッチパターンを生成する点ピッチモデルを
用いる方法が知られている(電子通信学会論文誌 Vo
l.J63-D No.9 pp.715-722, 1980.9)。
【0005】また、ニューラルネットにより各フレーズ
に対する先頭モーラ、ピッチ周波数がピークをとるモー
ラ、末尾モーラの各ピッチ周波数の値を推定する方法な
ども知られている(音声研究会資料 SP89-111, 1990.
1)。
【0006】これら従来のピッチパターンの生成方法
は、いずれも各モーラに対するピッチ周波数の絶対値を
一義的に推定する方法であり、隣接する2モーラ間の繋
がり(ピッチ周波数の変化量)については考慮されてい
なかった。
【0007】一方、通常、人間が喋った場合のピッチ周
波数は喋り始めが高く、喋り終わり付近が低かったり、
また呼気段落内の後方部分で低かったりして、そのピッ
チパターンの形状は上に凸の山型を示す傾向にある。
【0008】斯くして、上述のピッチ周波数の絶対値を
一義的に推定する方法では、ピッチパターンは喋り終わ
り付近、又は呼気段落内の後方部分で極端な降下が起こ
り得る可能性があり、実際、人間が喋った場合と比べて
違和感を招いてしまうという問題があった。
【0009】
【発明が解決しようとする課題】本発明は、このような
問題を解決するためになされたものであり、合成音声の
自然性を向上させるために、合成音声の自然性に大きな
影響を及ぼすピッチ周波数の変化量を考慮すると共に、
基準ピッチ周波数を設定することによって、喋り終わり
付近、又は呼気段落内の後方部分でのピッチ周波数の極
端な降下を防止しながらピッチパターンを生成しようと
するものである。
【0010】
【課題を解決するための手段】本発明は、隣接するn、
(n+1)(nは整数)モーラの重心点間のピッチ差a
(n+1)を、少なくともアクセント型のパラメータ情
報、又はモーラ数のパラメータ情報に基づいて推定する
ピッチ差推定部と、該ピッチ差推定部から出力されるピ
ッチ差a(n+1)に基づいて所望の音声のピッチパタ
ーンを生成するピッチパターン生成部と、該ピッチパタ
ーン生成部によって生成されるピッチパターンの最小閾
値となる基準ピッチ周波数を設定する基準ピッチ周波数
設定部と、を具備し、上記ピッチパターン生成部は、上
記ピッチ差推定部によって推定されるピッチ差a(n+
1)に基づいて、上記基準ピッチ周波数設定部にて設定
される基準ピッチ周波数より大きい値を取りながら、ピ
ッチパターンを生成する。
【0011】
【作用】推定すべき隣接するn、(n+1)モーラ(n
は整数)の重心点間のピッチ差a(n+1)、及び少な
くともアクセント型のパラメータ情報、又はモーラ数の
パラメータ情報に基づいて推定される(n+1)モーラ
目のピッチ周波数が、基準ピッチ周波数設定部にて設定
される基準ピッチ周波数より大きい値となる。
【0012】
【実施例】本発明の実施例を図1乃至図11に基づいて
説明する。
【0013】図1は、本発明の一実施例を示すブロック
図であり、1は音声合成させる文字列の入力を行なう文
字コード記号列入力部、2はその文字列を単語単位に分
割し、品詞情報を決定する形態素解析部、3はその単語
の読みを決定する読み決定部、4は単語の読みを記憶し
ている単語辞書、5は単語の読みに基づくアクセントを
決定するアクセント決定部、6は単語毎のアクセントを
記憶しているアクセント辞書、7は上記文字列のフレー
ズを決定するフレーズ決定部である。尚、フレーズとは
文頭乃至読点、読点乃至読点、読点乃至句点、息継ぎ乃
至息継ぎ、又はポーズ乃至ポーズ等の呼気段落をいう。
【0014】8は上記文字列のピッチパターンを生成す
るピッチパターン生成部、9aは上記文字列のモーラの
母音重心点のピッチ周波数とそのモーラに対する先行モ
ーラの母音重心点のピッチ周波数との差を、ニューラル
ネットワーク、又は対応表に基づいて推定するピッチ差
推定部、9bは本発明の特徴である、ピッチ差推定部9
aによって隣接するモーラのピッチ周波数の差を推定す
るに当って、人間が実際に喋った場合と比べて、任意の
モーラのピッチ周波数が極端に降下しないように基準ピ
ッチ周波数を設定する基準ピッチ周波数設定部、10は
音声の素片を接続する素片接続部、11は音声素片を格
納した素片テーブル、12はDA変換部、13はスピー
カである。
【0015】図2は、入力文字列「道を尋ねる」を形態
素解析した結果である。
【0016】図3は、図2にて入力文字列の形態素解析
結果に対して読み決定を行った結果である。
【0017】図4は、図3で読み決定を行った後、入力
文字列をアクセント句単位で表したものであり、41は
入力文字列の第2アクセント句の第2モーラ、42は入
力文字列の第1アクセント句、43は入力文字列の第2
アクセント句である。
【0018】図5は、入力文字列のピッチパターンであ
る。ここで、あるアクセント句において、第Nモーラ目
にアクセントが存在するアクセント型を「N型」と呼ぶ
ことにする。従って、「みちを/たずねる」において、
第1アクセント句「みちを」はアクセントが存在しない
ので、アクセント型は0型となり、また第2アクセント
句「たずねる」は第3モーラ「ね」にアクセントが存在
するので、アクセント型は3型となる。
【0019】図6は、2つのアクセント句からなる1フ
レーズの短文を複数用いて、隣接するモーラの母音重心
点間のピッチ周波数の差を、5つのパラメータ情報毎に
対応付けた対応表である。
【0020】図7は、ニューラルネットを用いたピッチ
差推定部9aを模式的に示したものであり、71は5ユ
ニット1層からなる入力層、72は10ユニット3層か
らなる中間層、73は1ユニット1層からなる出力層で
あり、シグモイド関数による非線形処理は中間層72に
用いている。
【0021】図8は、ピッチ差推定部9aのニューラル
ネットワークに学習させる学習データのピッチパターン
の一例である。
【0022】図9は、基準ピッチ周波数設定部9bにて
設定する基準ピッチ周波数Fbの決定方法を説明する図
である。
【0023】図9において、基準ピッチ周波数設定部9
bにて、実際、人間が喋ったときと比べて極端にピッチ
周波数が降下しないように最小閾値となる基準ピッチ周
波数Fbを設定する。このとき、基準ピッチ周波数Fb
は、学習に用いる学習データの最小ピッチ周波数より小
さいことが好ましく、その値としては学習データの最小
ピッチ周波数より10乃至70%小さい値とする。更
に、その基準ピッチ周波数Fbは第1アクセント句の第
1モーラに先行する仮想モーラのピッチ周波数P(0)
より小さい値に設定しなければならない。
【0024】ところで、基準ピッチ周波数設定部9bに
て設定した基準ピッチ周波数Fbに基づいて、隣接する
モーラの母音重心点間のピッチ差を求める算出式を導出
する。
【0025】
【数1】
【0026】(n+1)番目のモーラの母音重心点ピッ
チ周波数は、n番目のモーラの母音重心点のピッチ周波
数を基準にして考えると、(1)式で表すことができ、
この(1)式を変形すると、(2)式になる。ここで、
第1アクセント句の第1モーラに先行する仮想モーラの
ピッチ周波数P(0)は、上述より基準ピッチ周波数F
bより大きい値であり、またea(n+1)(nは整数)の値
は、a(n+1)に拘らず常に正の値となるから、
(3)式の左辺も常に正の値となる。従って、P(n+
1)とFbとの関係は(4)式のように変形できる。
【0027】斯くして、本発明のピッチパターンの生成
方法によって推定した夫々のモーラのピッチ周波数は、
基準ピッチ周波数Fbより小さくなることはない。
【0028】次に、(1)式を用いて、図7のピッチ差
推定部9aにて、例えば、2アクセント句からなる複数
の短文の学習データを入力層71に入力し、学習を行わ
せる。具体的には、図8に示す2アクセント句からなる
1フレーズの文字列「たいふうが/くる」の「る」に注
目し、この第7モーラ「る」とこの直前の第6モ−ラ
「く」との母音重心点間のピッチ周波数の差をニューラ
ルネットワークに学習させる場合について説明する。
【0029】本実施例のピッチ差推定部9aで用いるニ
ューラルネットワークでは、入力層71に、 1)注目モーラを含むアクセント句の文中での位置 2)注目モーラを含むアクセント句のモーラ数 3)注目モーラのアクセント句中での位置 4)注目モーラを含むアクセント句のアクセント型 5)注目モーラを含むアクセント句の先行アクセント句
のアクセント型 の5個のパラメータ情報を入力する。
【0030】また、このニューラルネットワークは、入
力層71に上記5個のパラメータ情報から構成された学
習データを入力すると、出力層73から注目モーラの母
音重心点のピッチ周波数とこれに先行するモーラの母音
重心点のピッチ周波数との差を出力するように学習され
ている。
【0031】ここで、文字列「たいふうが/くる」につ
いて考えてみると、注目モ−ラである第7モ−ラ「る」
は、モ−ラ数が2でアクセント型が1型である第2アク
セント句の第2モ−ラであるので、ニューラルネットの
入力層71へのパラメータ情報は、注目モーラを含むア
クセント句の文中での位置「2」、注目モーラを含むア
クセント句のモーラ数「2」、注目モーラのアクセント
句中での位置「2」、注目モーラを含むアクセント句の
アクセント型「1」、注目モーラを含むアクセント句の
先行アクセント句のアクセント型「3」となり、そのパ
ラメータ情報は「2,2,2,1,3」となることがわ
かる。
【0032】ところで、本方法では、注目モーラとこれ
に先行する先行モーラとの母音重心点のピッチ周波数の
差を推定しているので、第1アクセント句の第1モーラ
(文頭の第1モーラ)「た」に対する先行モーラとのピ
ッチ周波数の差の推定、並びに注目モーラのアクセント
句が第1アクセント句であるときの先行アクセント句の
アクセント型をどのように取り扱うかという問題が生じ
る。
【0033】そこで、第1アクセント句の第1モーラ
「た」と、このモーラに先行する先行モーラ(以下、仮
想モーラという。)との母音重心点のピッチ周波数の差
を推定する場合、本実施例では、学習データ中の1型以
外の第1アクセント句の第1モーラの平均ピッチ周波
数、並びに第1アクセント句の第1モーラに対する先行
アクセント句のアクセント型を起伏式に属する1型とし
て、仮想モーラと第1アクセント句の第1モーラとの母
音重心点のピッチ周波数の差を求めることとしている。
【0034】これは、仮想モーラとして、学習データ中
の1型以外の第1アクセント句の第1モーラの平均ピッ
チ周波数を採用したのは、アクセント型が1型以外の第
1アクセント句の第1モーラの平均ピッチ周波数の値
は、経験的に低い値となるからであり、また、第1アク
セント句の第1モーラに対する先行アクセント句のアク
セント型として1型を採用したのは、その1型のアクセ
ント句の後方部分はピッチ周波数の値が下降しているか
らである。
【0035】この結果、仮想モーラから、第1アクセン
ト句の第1モーラへの繋がりは違和感がなく、自然な音
声発声と看做せることとなる。
【0036】斯くして、注目モーラが第1アクセント句
の第1モーラに当る場合には、ピッチ差推定部9のニュ
ーラルネットワークの入力層71に入力する「注目モー
ラを含むアクセント句の先行アクセント句のアクセント
型」を、1型にすることとしている。
【0037】ところで、仮想モーラとして、例えば学習
データ中の1型アクセントのみの第1アクセント句の第
1モーラの平均ピッチ周波数を採用することも考えられ
る。この場合、その平均ピッチ周波数の値は経験的に高
くなる傾向にあるため、第1アクセント句の第1モーラ
に対する先行アクセント句のアクセント型を、例えば後
方部分のピッチ下降の少ない平板式とすることによっ
て、仮想モーラから、第1アクセント句の第1モーラへ
の繋がりは違和感がなくなる。
【0038】このように、文字列「たいふうが くる」
の第1モーラ「た」に注目した場合、入力層71に入力
する5個のパラメータ情報は、注目モーラを含むアクセ
ント句の文中での位置「1」、注目モーラを含むアクセ
ント句のモーラ数「5」、注目モーラのアクセント句中
での位置「1」、注目モーラを含むアクセント句のアク
セント型「3」、注目モーラを含むアクセント句の先行
アクセント句のアクセント型「1」、の5個のパラメー
タ情報「1,5,1,3,1」で表される。この5個の
パラメータ「1,5,1,3,1」をニューラルネット
ワークの入力層71に入力することによって、注目モ−
ラ「た」と先行モーラとの夫々の母音重心点ピッチ周波
数の差が推定される。
【0039】そこで、上述のニューラルネットワークに
おいて、アクセント句数、アクセント型、及びモーラ数
が夫々異なる複数の文字列の学習データを上述の5個の
パラメータで表したそれらの情報を入力層71に入力し
ながら、基準ピッチ周波数に基づいて隣接するモーラの
母音重心点間のピッチ差を教師データとして、誤差逆伝
搬法に基づいて、ニューラルネットワークの出力値が所
望のピッチ周波数の差、即ち(1)式で求めた自然音声
のピッチパターンより求められたピッチ差の値の近傍で
収束するまでニューラルネットワークの各ユニット間の
結合の強さ(重み付け)を逐次変更し、学習を繰り返
す。
【0040】これにより、ニューラルネットワークの各
ユニット間の最適な、又は準最適な結合の強さが決ま
る。
【0041】以下には、各ユニット間の最終的な結合の
強さが決まったニューラルネットワークから構成された
ピッチ差推定部9aを用いて、例えば、未学習の文字列
「道を尋ねる」を音声合成させる場合の処理動作を述べ
る。
【0042】文字コード記号列入力部(1)から入力さ
れた上記文字列は、形態素解析部2によって、まず単語
単位に分割された後、各単語の品詞が図2に示すように
決定される。
【0043】形態素解析部2にて品詞が決定されると、
その品詞データは読み決定部3に送られ、単語辞書4と
の照合により図3に示すように、各単語の読みが決定さ
れる。
【0044】読み決定部3にて単語の読みが決定される
と、その単語データはアクセント決定部5に送られ、ア
クセント辞書6との照合により単語のアクセントが決定
され、規則によりアクセント結合が行われてアクセント
句が形成されるとともに、アクセント句に対するアクセ
ントが決定される。これにより、文字列「みちを/たず
ねる」は、図4に示されるように、第1アクセント句
「みちを」42と第2アクセント句「たずねる」43の
2つのアクセント句に分けられる。
【0045】アクセント句並びにアクセントが決定され
た後、フレーズ決定部7でフレーズの決定が行われる。
本実施例の文字列では、文字列全体で1つのフレーズを
形成しており、例えば「こうばんまでいって/みちをた
ずねる」といった文字列であれば、「こうばんまでいっ
て」と「みちをたずねる」との2つのフレーズに分割さ
れる。
【0046】次に、ピッチ差推定部9aにて、ピッチ差
の推定が行われる。即ち、本実施例の文字列の場合、注
目モ−ラである第5モ−ラ「ず」は、モ−ラ数が4でア
クセント型が3型である第2アクセント句43の第2モ
−ラ41である。従って、入力層71に入力する5個の
パラメータ情報は、注目モーラを含むアクセント句の文
中での位置「2」、注目モーラを含むアクセント句のモ
ーラ数「4」、注目モーラのアクセント句中での位置
「2」、注目モーラを含むアクセント句のアクセント型
「3」、注目モーラを含むアクセント句の先行アクセン
ト句のアクセント型「0」、の5個のパラメータ情報
「2,4,2,3,0」で表される。この5個のパラメ
ータ「2,4,2,3,0」をニューラルネットワーク
の入力層71に入力することによって、注目モ−ラ
「ず」と先行モーラ「た」との夫々の母音重心点間のピ
ッチ周波数の差は自然対数で、「+0.426」と推定
される。
【0047】このようにして、文字列「みちを/たずね
る」の各モ−ラに対して、注目モ−ラの母音重心点のピ
ッチ周波数と先行モ−ラの母音重心点のピッチ周波数と
の差が、自然対数で、第1モ−ラから順次、「−0.100,
0.456, −0.270, −0.241,0.426,−0.293,−0.903」
と推定される。
【0048】この後、ピッチパターン生成部8では、あ
らかじめ設定された音声区間の始端、および、終端のピ
ッチ周波数と、ピッチ差推定部9aで推定された隣接す
るモーラの母音重心点間のピッチ周波数の差に基づい
て、図5に示される点ピッチパターンが生成される。
【0049】点ピッチパターンが生成されると、素片接
続部10において、CVC(子音+母音+子音)などの
音声素片(例えば、パーコール係数、あるいはLSP係
数)を予め格納している素片テーブル11から、入力さ
れた文字列の音声発声に必要な音声素片が選ばれて各素
片が接続され、デジタル信号である音声データが作成さ
れる。音声データはDA変換部12によってアナログ信
号に変換され、スピーカ13から合成音声として出力さ
れる。
【0050】上述の実施例では、学習データとして2ア
クセント句からなる短文を用いてニューラルネットワー
クの学習を行ったが、これには限られず、3アクセント
句以上の文を用いて、ニューラルネットワークの学習を
行わせてもよいことはいうまでもない。例えば、図10
は3アクセント句の未学習の文字列「しょくじの/じか
んが/まちど−しい」のピッチパターンを、また図11
は4アクセント句の未学習の文字列「さと−と/しおを
/くわえて/まぜる」のピッチパターンを示したもので
ある。この場合、第1アクセント句の第1モーラの先行
モーラ(仮想モーラ)のピッチ周波数をP(0)=135
(Hz)に設定し、また基準ピッチ周波数をFb=50(H
z)に設定して、隣接するモーラの母音重心点間のピッ
チ差を推定した。
【0051】これによると、基準ピッチ周波数を設定し
た方が、全く設定しないときと比べて、人間が喋ったと
きの音声(自然音声)のピッチパターンに近付く傾向に
あることが分かる。
【0052】以上の実施例では、ニューラルネットワー
クから構成されたピッチ差推定部9aにおいて、複数の
短文を用いて学習させ乍ら、各ユニット間の結合の強さ
を変更していき、最終的に決定された各ユニット間の結
合の強さを記憶したニューラルネットワークを用いて、
隣接するモーラの母音重心点間のピッチ周波数の差の推
定を行ったが、これには限られず、ニューラルネットワ
ークに入力した5個のパラメータ情報、及び隣接するモ
ーラの母音重心点間のピッチ周波数の差を図6のように
対応表で記憶させておいても良いことはいうまでもな
い。
【0053】この場合、上述と同様に文字列「みちを/
たずねる」の第5モーラ「ず」に注目すると、5個のパ
ラメータ情報は「2,4,2,3,0」60となり、こ
れより注目モーラ「ず」と先行モーラ「た」との母音重
心点間のピッチ周波数の差は自然対数で、ニューラルネ
ットワークの場合と同様に「+0.426」61とな
る。
【0054】尚、本実施例では、ニューラルネットワー
クの入力層71を5ユニット1層、中間層72を10ユ
ニット3層としているが、各ユニット数、層数はこの限
りではない。
【0055】また、本実施例では、学習データとして2
アクセント句からなる短文を用いてニューラルネットワ
ークの学習、並びに対応表の作成を行ったが、これには
限られず、3アクセント句以上の文を用いて、ニューラ
ルネットワークの学習、並びに対応表の作成を行っても
良いことはいうまでもない。
【0056】更に、上述の図10、及び図11に示す実
施例では、共に基準ピッチ周波数Fbを50(Hz)に設
定したが、これには限られず、他の学習データにおいて
は基準ピッチ周波数Fbを、本発明の要旨を変更しない
範囲で適宜設定してよい。
【0057】ところで、上述の実施例では、5つのパラ
メータを入力することによって学習したニューラルネッ
ト、又は5つのパラメータから構成された対応表を用い
て、1フレーズからなる文字列のピッチパターンの生成
を行ったが、この5つのパラメータの一部に代えて、又
はこの5つのパラメータに加えて言語情報に関するパラ
メータ、例えば注目モーラが無声音であるか否か、注目
モーラが撥音であるか否か、注目モーラが拗音であるか
否か、注目モーラが有声子音を伴うか否か、注目モーラ
の子音が、注目モーラの子音が摩擦音であるか否か、注
目モーラの子音が半母音であるか否か、注目モーラの子
音が鼻音であるか否か、注目モーラの子音が破擦音であ
るか否か、注目モーラの子音が破裂音であるか否か、注
目モーラを含む単語の品詞が何であるか否か、又は注目
モーラを含むアクセント句が強調されるか否か、等を採
用して学習を行わせたニューラルネット、又は対応表を
用いてもよい。
【0058】また、5つのパラメータ、上述の言語情報
に関するパラメータ、フレーズ位置、又はフレーズ数等
のパラメータを用いて学習させたニューラルネット、又
は対応表によって複数フレーズの文字列のピッチパター
ンの生成を行うことも可能である。
【0059】
【発明の効果】以上説明したように、本発明によれば、
基準ピッチ周波数設定部にて基準ピッチ周波数を設定す
ることによって、隣接するモーラの重心点間のピッチ差
を、少なくともアクセント型のパラメータ情報、又はモ
ーラ数のパラメータ情報に基づいて推定する。
【0060】これによって、該モーラのピッチ周波数は
基準ピッチ周波数より大きな値となり、喋り終わり付
近、又は呼気段落の後方部分でピッチ周波数の極端な降
下が防止できる結果、人間が喋った場合と比べて違和感
がなくなる。
【図面の簡単な説明】
【図1】本発明を用いた音声合成の一実施例を示すブロ
ック図
【図2】入力文字列を形態素解析した結果を示す図
【図3】入力文字列の形態素解析結果の読みを決定した
結果を示す図
【図4】入力文字列をアクセント句単位で表した図
【図5】入力文字列のピッチパターンを表す図
【図6】2アクセント句からなる文字列における隣接す
るモーラの母音重心点間のピッチ差を5つのパラメータ
情報毎に対応付けた対応表
【図7】ピッチ差推定部9aに用いるニューラルネット
ワークの構成図
【図8】ピッチ差推定部9aのニューラルネットワーク
に学習させる学習データのピッチパターンの一例
【図9】本発明による基準ピッチ周波数設定部9bにて
設定する基準ピッチ周波数Fbの決定方法を示す図
【図10】本発明による3アクセント句からなる文字列
の推定ピッチパターンと自然音声のピッチパターン
【図11】本発明による4アクセント句からなる文字列
の推定ピッチパターンと自然音声のピッチパターン
【符号の説明】
1 文字コード記号列入力部 2 形態素解析部 8 ピッチパターン生成部 9a ピッチ差推定部 9b ピッチ周波数設定部 11 素片テーブル 71 ニューラルネットワークの入力層 72 ニューラルネットワークの中間層 73 ニューラルネットワークの出力層
─────────────────────────────────────────────────────
【手続補正書】
【提出日】平成5年6月15日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】図6
【補正方法】変更
【補正内容】
【図6】2アクセント句からなる文字列における隣接す
るモーラの母音重心点間のピッチ差を5つのパラメータ
情報毎に対応付けた対応図表

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 隣接するn、(n+1)(nは整数)モ
    ーラの重心点間のピッチ差a(n+1)を、少なくとも
    アクセント型のパラメータ情報、又はモーラ数のパラメ
    ータ情報に基づいて推定するピッチ差推定部と、該ピッ
    チ差推定部から出力されるピッチ差a(n+1)に基づ
    いて所望の音声のピッチパターンを生成するピッチパタ
    ーン生成部と、該ピッチパターン生成部によって生成さ
    れるピッチパターンの最小閾値となる基準ピッチ周波数
    を設定する基準ピッチ周波数設定部と、を具備し、 上記ピッチパターン生成部は、上記ピッチ差推定部によ
    って推定されるピッチ差a(n+1)に基づいて、上記
    基準ピッチ周波数設定部にて設定される基準ピッチ周波
    数より大きい値を取りながら、ピッチパターンを生成す
    ることを特徴とするピッチパターンの生成方法。
  2. 【請求項2】 上記ピッチ差推定部は、入力層へ少なく
    ともアクセント型のパラメータ情報、又はモーラ数のパ
    ラメータ情報を入力すると出力層から、隣接するモーラ
    の重心点間のピッチ差を出力するようなニューラルネッ
    トから構成され、上記基準ピッチ周波数設定部にて設定
    される基準ピッチ周波数は、上記ニューラルネットの学
    習データの構成要素である全てのモーラ中の最小ピッチ
    周波数より小さい値に設定され、上記ニューラルネット
    は上記基準ピッチ周波数に基づいて隣接するモーラの重
    心点間のピッチ差を教師データとして学習したことを特
    徴とする請求項1記載のピッチパターンの生成方法。
  3. 【請求項3】 上記ピッチ差推定部は、少なくともアク
    セント型のパラメータ情報、又はモーラ数のパラメータ
    情報に対応して、隣接するモーラの重心点間のピッチ差
    を記憶した対応表に基づいて推定し、上記基準ピッチ周
    波数設定部にて設定される基準ピッチ周波数は、上記対
    応表の構成要素である全てのモーラ中の最小ピッチ周波
    数より小さい値に設定されることを特徴とする請求項1
    記載のピッチパターンの生成方法。
  4. 【請求項4】 あるモーラが区切られた範囲内の先頭に
    位置する場合には、上記あるモーラとピッチ周波数が一
    定値の仮想モーラとのピッチ差を推定すると共に、上記
    基準ピッチ周波数は上記一定値より小さい値に設定され
    ることを特徴とする請求項1、2、又は3記載のピッチ
    パターンの生成方法。
JP25838992A 1992-09-21 1992-09-28 ピッチパターンの生成方法 Expired - Fee Related JP3286354B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25838992A JP3286354B2 (ja) 1992-09-21 1992-09-28 ピッチパターンの生成方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP25118592 1992-09-21
JP4-251185 1992-09-21
JP25838992A JP3286354B2 (ja) 1992-09-21 1992-09-28 ピッチパターンの生成方法

Publications (2)

Publication Number Publication Date
JPH06149281A true JPH06149281A (ja) 1994-05-27
JP3286354B2 JP3286354B2 (ja) 2002-05-27

Family

ID=26540091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25838992A Expired - Fee Related JP3286354B2 (ja) 1992-09-21 1992-09-28 ピッチパターンの生成方法

Country Status (1)

Country Link
JP (1) JP3286354B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020536265A (ja) * 2017-10-03 2020-12-10 グーグル エルエルシー 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020536265A (ja) * 2017-10-03 2020-12-10 グーグル エルエルシー 作成者が提供したコンテンツに基づいて対話型ダイアログアプリケーションを調整すること

Also Published As

Publication number Publication date
JP3286354B2 (ja) 2002-05-27

Similar Documents

Publication Publication Date Title
US5668926A (en) Method and apparatus for converting text into audible signals using a neural network
JP3720136B2 (ja) ピッチ輪郭を決定するためのシステムおよび方法
US6499014B1 (en) Speech synthesis apparatus
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Nose et al. Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency
WO2008056590A1 (fr) Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
JP2001265375A (ja) 規則音声合成装置
Sakai et al. A probabilistic approach to unit selection for corpus-based speech synthesis.
US6317713B1 (en) Speech synthesis based on cricothyroid and cricoid modeling
JP4684770B2 (ja) 韻律生成装置及び音声合成装置
JPH06149281A (ja) ピッチパターンの生成方法
Sawada et al. Overview of NITECH HMM-based text-to-speech system for Blizzard Challenge 2014
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
Chouireb et al. Towards a high quality Arabic speech synthesis system based on neural networks and residual excited vocal tract model
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP3286353B2 (ja) 音声合成方法
JP3742206B2 (ja) 音声合成方法及び装置
JPH0580791A (ja) 音声規則合成装置および方法
JP3270668B2 (ja) テキストからスピーチへの人工的ニューラルネットワークに基づく韻律の合成装置
JP3485586B2 (ja) 音声合成方法
Matsuda et al. Applying generation process model constraint to fundamental frequency contours generated by hidden-Markov-model-based speech synthesis
i Barrobes Voice Conversion applied to Text-to-Speech systems
Sawada et al. The NITECH HMM-based text-to-speech system for the Blizzard Challenge 2015
JP3078073B2 (ja) 基本周波数パタン生成方法
JP2755478B2 (ja) テキスト音声合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees