JPH0954599A - 規則音声合成における抑揚制御方法および規則音声合成装置 - Google Patents

規則音声合成における抑揚制御方法および規則音声合成装置

Info

Publication number
JPH0954599A
JPH0954599A JP7210334A JP21033495A JPH0954599A JP H0954599 A JPH0954599 A JP H0954599A JP 7210334 A JP7210334 A JP 7210334A JP 21033495 A JP21033495 A JP 21033495A JP H0954599 A JPH0954599 A JP H0954599A
Authority
JP
Japan
Prior art keywords
pitch
sentence
neural network
intonation
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7210334A
Other languages
English (en)
Inventor
Kiyoshi Ishida
清 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Original Assignee
Meidensha Corp
Meidensha Electric Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meidensha Corp, Meidensha Electric Manufacturing Co Ltd filed Critical Meidensha Corp
Priority to JP7210334A priority Critical patent/JPH0954599A/ja
Publication of JPH0954599A publication Critical patent/JPH0954599A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 自然性の高い合成音声が得られるようにする
こと。 【解決手段】 音素記号列とアクセントパターンを単語
版と文章版ネット入力パターン生成部23,24に与
え、次段の各FNNへの入力パターンA,Bを得る。こ
れら入力パターンA,Bを、学習済み単語版及び文章版
FNN25,26へ与える。この入力パターンA,Bに
基づき各FNN25,26は、ピッチパターン(各モー
ラ2点)を出力する。この出力は直線補間部27、28
に与えられ、ここで、対数周波数軸上で直線補間されて
単語版のピッチパターン29と文章版のピッチパターン
30を生成する。このように生成された単語版のピッチ
パターン29のの疑似アクセント成分と、文章版のピッ
チパターン30の文章版ピッチパターンのベース成分を
抽出した後に、ピッチパターン加工処理部31にて加算
処理して、新しいピッチパターン32を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、人間の実音声の
抑揚パターンを出力するように学習されたファジーニュ
ーラルネット(FNN)を用いた規則音声合成における
抑揚制御方法および人間の実音声の抑揚に近い合成音声
を得る規則音声合成装置に関する。
【0002】
【従来の技術】規則音声合成は、任意の日本語文章を漢
字かな混じり文として与えれば、音声として出力する装
置である。図7は規則音声合成装置のブロック構成図
で、図7において、テキスト入力部1に入力されている
漢字かな混じり文(文章)を日本語処理部2に与える。
すると、日本語処理部2では、与えられた上記文章を内
蔵の日本語辞書を参照しながら音素記号列に変換する。
次に、この音素記号列は韻律パターン生成部3に入力さ
れ、ここで、音素記号列に基づき韻律パターン(時間長
パターン、ピッチパターンおよびエネルギパターン)を
生成する。韻律パターン生成部3は時間長パターン生成
部4、ピッチパターン生成部5、エネルギパターン生成
部6から構成されていて、各パターンを生成する際に
は、それぞれ時間長パターンデータベース4a、ピッチ
パターンデータベース5a、エネルギパターン6aに格
納されているデータに基づき、各音素毎に目標値が決定
されて行く。このようにして得られた韻律パターンと音
素記号列を音声合成部7に与え、この音声合成部7で韻
律パターンと音素記号列に基づいて音声素片データベー
ス7aから必要なデータを参照し、所望の韻律パターン
を実現しながら音声波形を生成して、音声出力部8から
音声を送出する。
【0003】前記図7で示した音声を合成する基となる
音声素片データベース7aのデータは、図8に示すよう
に実音声から線形予測分析をベースにした音声分析部1
1により算出し、算出された声道特性を表す音響管断面
積と音源波形を音声素片毎にデータベース化してデータ
ベース12に保管する。この素片データは、子音→母音
(CVデータ)、母音→子音(VCデータ)、母音→母
音(VVデータ)等の単位で用意する。合成時には、こ
れを対象文章に応じて参照し、音声合成部7を構成する
音響管演算部13により音声波形を生成する。
【0004】上記のように構成された規則音声合成装置
において、規則合成音声の品質は、波形を生成する基と
なる音声素片データベース7aの質と、合成時の韻律パ
ターンに大きく左右される。すなわち、人間らしい豊か
な声、女性らしい声を実現するには、いろいろなパラメ
ータ(高さ、強さ、早さ等)で合成しても音声波形の歪
みの少ないような音声素片データを用意する必要がある
し、聞き易い自然な音声を実現するには、人間が実際に
喋るときの韻律パターンにより近い韻律制御を行う必要
がある。
【0005】このため、従来韻律制御には、3つの韻律
制御用データベースをテーブル化(音韻環境、アクセン
ト環境別に登録)したテーブルを参照する方式を採用し
ているが、このテーブル方式は注目する音素とその前後
の音素に関する環境(音素の種類、アクセント環境等)
に注目して分類を行い、各パラメータを登録する方式で
ある。この方式では、各音素の全組み合わせに対するテ
ーブルのチューニングが本来必要になる。しかし、組み
合わせは膨大となるので、十分なチューニングを行うに
は膨大な作業量が伴う。一方、音声素片データの品質に
ついては、これまで改善を行って来た結果ある程度の品
質が実現されつつある。従って、より自然な合成音を実
現するには、韻律制御改善がより重要となり、特に抑揚
制御(ピッチ制御)法の改善は合成音声には不可欠であ
る。
【0006】上記抑揚制御法を改善するために、ファジ
ーニューラルネット(FNN)を使用して人間が実際に
発声した単語の抑揚パターンを出力するように学習さ
せ、その結果を単語規則合成の抑揚パターンとして用い
る方式が考えられている。この単語抑揚制御用FNNで
は、ピッチ制御に関連の深い要因として以下の6アイテ
ムを設定して、これらをFNNの入力として用いてい
る。
【0007】アイテムA:アクセントの高/低 アイテムB:アクセントの変化位置からのモーラ(音
節)位置 アイテムC:語頭からのモーラ位置 アイテムD:語尾からのモーラ位置 アイテムE:当該モーラ内母音の種類 アイテムF:当該モーラ内子音の種類 上記FNNでは、このFNNの重みの初期値の設定方法
として、数量化I類でピッチ周波数を出力するように係
数を算出し、その結果を初期値に変換して用いる方法を
採用していた。これを検証するために、2つのニューラ
ルネットを用意し、各モーラ毎に図9に示すように2点
ずつのピッチ周波数P1〜P6(FNN1ではP1,P3
5を、FNN2ではP2,P4,P6を出力する)を、そ
れぞれで出力するように学習させて抑揚パターンの推定
を行っている。学習データとしては、女性(アナウンサ
1名)の単語(約500単語分)発声から分析したピッ
チデータを用いている。このネットワークの出力を実際
の規則合成に適用する際は、得られた各モーラ2点のピ
ッチパターンから直線補間を行い、合成時のピッチとし
て使用する。
【0008】上記ネットワークを用いた単語抑揚学習実
験の結果、未学習の単語ピッチデータ生成において、実
音声のピッチに対する平均推定誤差6.84%を実現し
た(各データの実測値と、推定値とをプロットしたFN
Nの推定結果の図を図10に示す)。また、この出力結
果を実際に単語音声合成に適用した結果、非常に自然な
(つながりの良いなめらかな)単語規則合成が実現され
るようになった。
【0009】
【発明が解決しようとする課題】上述したFNNを用い
た単語抑揚パターン生成システムを、文章規則合成の抑
揚制御に適用する場合、図11に示す手順で合成音を作
成する。まず、1つ1つの文節を1つの単語(内部の各
音素の環境、アクセント環境が一致するもの)に対応さ
せ、上記システムで得られた結果を文節の抑揚パターン
として算出する。その後、得られた各文節のピッチパタ
ーンを順に接続したものを、合成時の抑揚制御結果とし
て合成に持ち込む(図7に示したピッチパターン生成部
5の出力と置き換える)。
【0010】しかし、上記方式では、用いる単語抑揚パ
ターン生成システムが単語データでしか学習されていな
いため、個々の文節パターンを組み合わせたときの文節
間のバランス(文全体としての自然性)が崩れてしまう
という問題がある。
【0011】また、規則合成における大きな問題とし
て、合成時にピッチ制御を行うと、音声素片データを作
成する基となった原音の高さからずれ、波形が大きく歪
むという現象(特に女性音合成において顕著である)が
生じ、音質が劣化することである。このピッチ制御は、
規則合成にとって欠かせないもので、現行の分析に基づ
く方式(線形予測分析に基づく方式)では、音質劣化は
避けられない。このため、女性音の場合、女性らしい豊
かさに欠け、機械的な声になり易くなってしまう問題が
ある。
【0012】この他、規則合成で不可欠なピッチ制御を
行う際、原音声のピッチからのズレが大きいほど、音質
そのものの劣化が激しくなる、一方、自然な抑揚を実現
するには、かなりの周波数幅でピッチ制御を行う必要が
ある。この矛盾を解決するため、ピッチの変化幅を抑え
る方向で、ピッチテーブルのチューニングを行ってき
た。従って、結果的に滑らかだが、抑揚の少ない単調な
合成音声になってしまう問題がある。このように、規則
音声合成方式では十分自然な抑揚でかつ、女性らしい豊
かな合成音声を実現するのは困難となっている。
【0013】この発明は上記の事情に鑑みてなされたも
ので、自然性の高い合成音声が得られるようにするとと
もに、高品質な合成音声が得られるようにした規則音声
合成における抑揚制御方法および規則音声合成装置を提
供することを目的とする。
【0014】
【課題を解決するための手段】この発明は、上記の目的
を達成するために、第1発明は、合成音を生成する対象
文章を単語および文章抑揚制御用ファジーニューラルネ
ット入力パターン生成部に与え、その出力にそれぞれ入
力パターンA,Bを得る。一方、あらかじめ、複数の単
語のピッチデータを単語抑揚制御用ファジーニューラル
ネットで学習させてピッチ周波数を出力するように学習
させた単語抑揚制御用ファジーニューラルネットおよび
複数の文章のピッチデータを文章抑揚制御用ファジーニ
ューラルネットで学習させてピッチ周波数を出力するよ
うに学習させた文章抑揚制御用ファジーニューラルネッ
トを設けて、これら出力にピッチパターンを得る。
【0015】その後、得られたピッチパターンをそれぞ
れ直線補間を行った後に、単語用ピッチパターンおよび
文章用ピッチパターンを生成して、単語用ピッチパター
ンの内疑似アクセント成分と文章用ピッチパターンの内
ベース成分を抽出し、両成分を加算処理して新しいピッ
チパターンを生成することを特徴とするものである。第
2発明は、前記単語抑揚用ファジーニューラルネットと
文章抑揚制御用ファジーニューラルネットには、モーラ
内第1点を出力する第1ファジーニューラルネットと、
モーラ内第2点を出力する第2ファジーニューラルネッ
トの2つのファジーニューラルネットを設けたことを特
徴とするものである。
【0016】第3発明は、テキスト入力部に入力された
漢字かな混じり文を、日本語処理部で内蔵の日本語辞書
を参照しながら音素記号列に変換する。変換された音素
記号列に基づき韻律パターン生成部で韻律パターンを生
成する。生成された韻律パターンと前記音素記号列を基
に音声合成部で音声素片データベースを参照しながら合
成音声を生成する。このときに、前記韻律パターン生成
部に使用するピッチパターン生成部を、次のように構成
する。
【0017】複数の単語のピッチデータを単語抑揚制御
用ファジーニューラルネットで学習させてピッチ周波数
を出力するように学習させた単語抑揚制御用ファジーニ
ューラルネットおよび複数の文章のピッチデータを文章
抑揚制御用ファジーニューラルネットで学習させてピッ
チ周波数を出力するように学習させた文章抑揚制御用フ
ァジーニューラルネットを用いてファジーニューラルネ
ットピッチパターン生成部を構成する。かつ、前記音声
合成部を、単位応答波形重畳合成方式と非線形窓掛け制
御を組み合わせて構成したものである。
【0018】第4発明は、前記音声素片データベース
を、ピッチ周期毎に声道特性と音源特性から演算した単
位応答波形データを用いてデータベース化したことを特
徴とするものである。
【0019】
【発明の実施の形態】以下この発明の実施の形態を図面
に基づいて説明する。この発明の実施の第1形態は文章
抑揚制御用FNNを使用したことである。このFNNは
文章のピッチデータ(人間が発声した実音声から算出)
を学習に用い、出力するように学習させるものである。
また、単語抑揚制御用FNNと同様に、2つの第1、第
2FNNを用意し、それぞれ各モーラ毎の第1点(第1
目標値)、第2点(第2目標値)を出力する。この文章
抑揚制御用FNNの入力アイテムを以下に示す。このF
NNでは単語版FNNのアイテムに新たに2つのアイテ
ムを追加し、元のアイテムも一部修正している。
【0020】前述したアイテムA〜Dは前記のものと同
様であるが、アイテムEとFは次のように修正される アイテムE:当該モーラの母音部が長音か非長音か アイテムF:当該モーラの種類;CVモーラ(C部が有
声子音)、CVモーラ(C部が無声子音)およびVモー
ラ アイテムG:1文に含まれる文節数 アイテムH:文内文節番号(第何文節か) 上記のFNNを用いて、女性の文章発声(文節毎にポー
ズを挿入している)から得たピッチパターンデータによ
る学習実験を行った。実験で使用した学習データの数
は、約3000モーラ分のピッチデータで、これらデー
タが2500個程度の入力グループに分類され、各グル
ープ毎に、1つのピッチ周波数を出力するよう各FNN
を学習させる。ここで、上記学習検証実験結果を次に述
べる。
【0021】A:学習データに対する平均推定誤差は約
9%(各データの実測値と推定値とをプロットした特性
図を図2に示す)であり、推定誤差は次の式で算出し
た。
【0022】各データに対する推定誤差(%)=│各デ
ータに実ピッチ周波数−出力周波数│÷(各データの実
ピッチ周波数)×100 B:合成音評価(未学習の文を合成、評価) 文節間の相互のバランスは良いが、文節内音素間のつな
がりが悪いものが目立った(ピッチの推移がなめらかで
ない) 原因として、単語学習時は1つの入力として与えられる
学習データは平均16個程度だったのに対し、文章学習
時は平均1.2個程度(学習データ数不足)であるた
め、学習対象文以外の音素の組み合わせに弱い(滑らか
なピッチ推移が得られない)。
【0023】上記の検証結果をもとに、より自然性の高
い文音声を実現するための実施の形態である抑揚制御シ
ステムの構築方法を次に述べる。この方法は学習用デー
タは増加させないで、現行データだけで自然性を向上さ
せるもので、従来の技術で述べた単語抑揚制御用FNN
(以下単語版ネットと称す)と、前述した文章抑揚制御
用FNN(以下文章版ネットと称す)とを組み合わせて
ピッチパターンを生成するものである。この方法では、
単語版ネットのつながりの良さと、文章版ネットの文節
間のバランスの良さというそれぞれの長所を生かして、
両者を組み合わせるようにしたものである。以下図1に
より実施の形態を述べる。
【0024】図1に示すように、あらかじめ、単語版ネ
ット21を学習データ4000個(ピッチデータ)を用
いてFNN1(モーラ内第1点目を出力するFNN)と
FNN2(モーラ内第2点目を出力するFNN)により
学習させておくとともに、文章版ネット22を学習デー
タ3000個(ピッチデータ)を用いてFNN1,FN
N2により学習させおき、この2つのネット21,22
を後述の学習済み単語版および文章版FNN25、26
に用いる。
【0025】次に、図1において、合成音を生成する対
象文章が「赤坂を、右方向です。」の場合を例にとって
以下述べる。まず、「赤坂を」の音素記号列(AKASAKA
O)とアクセントパターン(低、高、低、低、低)を表
す発音記号“AKA ̄SAKAO”を単語版と文章版ネット入力
パターン生成部23,24に与え、次段の各FNNへの
入力パターンA,Bを得る。これら入力パターンA,B
を、前述のようにして得られた学習済み単語版及び文章
版FNN25,26へ与える。この入力パターンA,B
に基づき各FNN25,26は、「赤坂を」のピッチパ
ターン(各モーラ2点)を出力する。この出力は直線補
間部27、28に与えられ、ここで、対数周波数軸上で
直線補間されて単語版のピッチパターン29と文章版の
ピッチパターン30を生成する。このように生成された
単語版のピッチパターン29の図示A1部分(単語版ピ
ッチパターンの疑似アクセント成分)と、文章版のピッ
チパターン30の図示B2部分(文章版ピッチパターン
のベース成分)を抽出した後に、ピッチパターン加工処
理部31にて加算処理して、新しいピッチパターン32
を生成する。このようにして得られたピッチパターン3
2の出力を、図7に示すピッチパターン生成部5の出力
として用い合成音を作成する。なお、「右方向です」の
文章についても上記と同様にして処理し、上述のように
して得られた「赤坂を」とともに2つの合成音をつない
だ文章の合成音を得る。
【0026】上記方法によるFNNで出力したピッチパ
ターンを用いて合成音を作成した結果、2〜4文節から
なる例文で自然性の向上が確認された。そのうちの1例
文(「池袋で、乗り換える。」)に対して、従来の単語
版FNN、文章版FNNおよび両者の組み合わせによる
3種類の方法を用いたピッチパターンを図3に示す。図
3において、単語版FNNによるピッチパターンを菱形
“◇”で示しているが、このピッチパターンを見ると、
第1文節、第2文節共にピッチの上がり下がりが大き
く、合成音も抑揚がつき過ぎてわざとらしい感じが強
い。また、文章版FNNによるピッチパターンを図示実
線で示しているが、「池袋」の“い”から“ぶ”にかけ
て変動が激しく、不自然な合成音になってしまってい
る。これらに対して組み合わせ型の場合には、図示
“+”で示しているが、文章版FNNの全体的な推移、
単語版FNNのモーラ間推移を良く表現しており、合成
音においても、両者の長所が生かされた自然な合成音を
得ることができる。
【0027】以上のように豊富な単語データを用いて人
間の実際の抑揚を学習させたFNNと、データ数は極端
に少ないが、文章の全体バランスを表現するように学習
を行った文章版FNNを、両者の特徴を生かす形で比較
的簡単に組み合わせてピッチパターン生成を行うことに
より、自然性の高い合成音が得られるようになる。
【0028】次に、この発明の実施の第2形態について
述べる。図4は実施の第2形態を示すブロック構成図
で、図7と同一部分は同一符号を付して示す。図4にお
いて、41は実施の第1形態により得られた単語版と文
章版を組み合わせ型FNNからなるピッチパターン生成
部で、この生成部41は文章の抑揚パターンを生成する
FNNであり、人間の文章の実音声のピッチパターンを
学習し、実発声の抑揚に近いパターンを出力するように
構成されている。このように構成されたピッチパターン
生成部41を備えた韻律パターン生成部3の出力は音声
合成部42に入力され、ここで、合成音声に変換され
る。
【0029】音声合成部42は単位応答波形重畳型合成
方式と、波形重畳方式においてリアルタイムで波形の加
工が可能な、単位応答波形への非線形窓掛け制御(後述
する)とを組み合わせた合成系を用いる。また、波形重
畳方式に用いる新音声素片データ43は、図5に示すよ
うに、作成される。図5において、S1は音響管断面積
と音源波形から音声素片データを得る従来の音声素片デ
ータで、このデータを基に、次に、あらかじめ、1ピッ
チ周期毎にオフラインで音響管演算を行って、1周期波
形応答をステップS2の1周期波形応答算出部で算出
し、その結果得られた応答波形群を全音節データ(CV
データ、VCデータ等)について揃え、その結果をステ
ップS3で新音声素片データベースとして得るものであ
る。なお、前述した非線形窓掛け制御は次式の窓関数に
より行われる。
【0030】
【数1】
【0031】この窓関数演算は、合成時ピッチ周波数
(韻律パターン生成部で算出されたもの)が分析時ピッ
チ周波数(音声素片データベースを作るために用いた人
間の肉声のピッチ周波数)より低いとき、つまり音声素
片データベースから切り出す長さが長いときは、エネル
ギwが図6に示すように時間t=p0からt=p1にかけ
て単調に増加するようになり、w=w0に到達する。こ
のことは、時間的に徐々に振幅を大きくして長くなった
部分の振幅を大きく使用するものである。
【0032】逆に、合成時ピッチ周波数が分析時ピッチ
周波数より高いとき、つまり音声素片データベースから
切り出す長さが短いときは、wがt=p0からt=p1
かけて単調に減少するようになる。このことは、短くな
った分だけ平均振幅は大きくなるので、それを小さくす
るものである。
【0033】上記の窓関数演算処理は、各音声素片デー
タの時間的に浅い方の形状を残している。つまり、接続
したい音声素片データの形状を残すというところに重点
を置いてもので、接続される音声素片データの形を変形
することにより実現できる。ただし、各パラメータは、
人間の調整により行われるが、パラメータ数が少ないの
で、調整しやすい。実際に、調整するパラメータは
0,p1,k(定数)である。
【0034】上記のように波形重畳方式を適用すること
により、合成演算が単純加算で済むようになるので、従
来のリアルタイム音響管演算方式(10kHz合成→1
00μsec毎に1回ずつ複雑な音響管演算を実行)に比
べて、演算量が大幅に減少する。また、波形レベルでデ
ータを持つので、波形のリアルタイム加工(音源+音響
管断面積方式では困難)も可能となり、処理時間に余裕
ができることと併せて、ピッチ周波数に応じた加工(非
線形窓掛けにより)が可能となる。このピッチに応じた
窓掛けが可能となることで、ピッチ制御に伴う各ピッチ
毎の音源の応答どうしの重なりの位相による波形の歪み
を、低減することが可能となる。こうして、ピッチ周期
に応じてリアルタイムに窓掛け制御を掛けることで、ピ
ッチ制御に伴う波形劣化の少ない音声合成方式が実現で
きるようになる。
【0035】前記音声合成部42に送られるピッチパタ
ーンは、人間の自然な抑揚に近いもの(変動が大きい)
が実現されている。従来では歪みが大きすぎて実現でき
なかった自然なピッチパターン(変動の大きな抑揚)を
持つ合成音を、FNNによるピッチパターン生成部41
と、上記音声合成部42と組み合わせることで、音質劣
化を少なくすることができる。
【0036】
【発明の効果】以上述べたように、この発明によれば、
人間の実音声の抑揚(単語、文章)を実現するように構
築された2つのFNNを組み合わせてピッチパターンを
生成しているので、単純な加工により自然性の高い(滑
らかで、かつ全体のバランスの良い)合成音声が得られ
るようになるとともに、学習用文章データを多量に用意
する必要がなくなり、文章データの学習は、文全体の抑
揚の傾向をうまく表現することができるようになる。
【0037】また、人間の実音声の抑揚をうまく表現す
る文抑揚制御用FNNと、ピッチの変動に強い音声合成
方式とをくみあわせるようにしたので、自然な抑揚を持
つ合成音声を無理なく(歪みが少なく)合成することが
可能になるとともに、抑揚制御に関して、テーブル方式
で必要な膨大なチューニング作業が不要になる。
【図面の簡単な説明】
【図1】この発明の実施の第1形態を示す処理説明図。
【図2】文章データで学習したFNNの推定結果の特性
図。
【図3】第1形態におけるピッチパターンの生成と単
語、文章FNNによるピッチパターンの説明図。
【図4】この発明の実施の第2形態を示す構成説明図。
【図5】新音声素片データ作成方法をフローチャート。
【図6】窓関数演算の説明図。
【図7】従来の音声合成方式の構成説明図。
【図8】従来の音声素片データの作成方法説明図。
【図9】2つのFNNによる抑揚パターン推定説明図。
【図10】数量化I類で初期値設定したFNNの推定結
果を示す特性図。
【図11】単語版抑揚パターンの文章への拡張方法説明
図。
【符号の説明】
21…単語版FNN 22…文章版FNN 23…単語版FNN入力パターン生成部 24…文章版FNN入力パターン生成部 25…学習済み単語版FNN 26…学習済み文章版FNN 27、28…直線補間部 29…単語版ピッチパターン 30…文章版ピッチパターン 31…ピッチパターン加工処理部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 合成音対象文章を単語および文章抑揚制
    御用ファジーニューラルネット入力パターン生成部に与
    えて、出力にそれぞれ入力パターンを得、得られたそれ
    ぞれの入力パターンを、 あらかじめ、複数の単語のピッチデータを単語抑揚制御
    用ファジーニューラルネットで学習させてピッチ周波数
    を出力するように学習させた単語抑揚制御用ファジーニ
    ューラルネットおよび複数の文章のピッチデータを文章
    抑揚制御用ファジーニューラルネットで学習させてピッ
    チ周波数を出力するように学習させた文章抑揚制御用フ
    ァジーニューラルネットに与えて出力にピッチパターン
    をそれぞれ得、得られたピッチパターンを、 それぞれ直線補間を行った後に、単語用ピッチパターン
    および文章用ピッチパターンを生成し、単語用ピッチパ
    ターンの内疑似アクセント成分と文章用ピッチパターン
    の内ベース成分を抽出し、両成分を加算処理して新しい
    ピッチパターンを生成することを特徴とする規則音声合
    成における抑揚制御方法。
  2. 【請求項2】 前記単語抑揚用ファジーニューラルネッ
    トと文章抑揚制御用ファジーニューラルネットはモーラ
    内第1点を出力する第1ファジーニューラルネットとモ
    ーラ内第2点を出力する第2ファジーニューラルネット
    からなることを特徴とする請求項1記載の規則音声合成
    における抑揚制御方法。
  3. 【請求項3】 テキスト入力部に入力された漢字かな混
    じり文を、日本語処理部で内蔵の日本語辞書を参照しな
    がら音素記号列に変換し、この音素記号列に基づき韻律
    パターン生成部で韻律パターンを生成し、得られた韻律
    パターンと音素記号列を基に音声合成部で音声素片デー
    タベースを参照しながら合成音声を生成する規則音声合
    成装置において、 前記韻律パターン生成部に使用するピッチパターン生成
    部を、複数の単語のピッチデータを単語抑揚制御用ファ
    ジーニューラルネットで学習させてピッチ周波数を出力
    するように学習させた単語抑揚制御用ファジーニューラ
    ルネットおよび複数の文章のピッチデータを文章抑揚制
    御用ファジーニューラルネットで学習させてピッチ周波
    数を出力するように学習させた文章抑揚制御用ファジー
    ニューラルネットに与えて出力にピッチパターンを生成
    するファジーニューラルネットピッチパターン生成部に
    より構成し、 かつ、前記音声合成部を、単位応答波形重畳合成方式と
    非線形窓掛け制御を組み合わせて構成したことを特徴と
    する規則音声合成装置。
  4. 【請求項4】 前記音声素片データベースは、ピッチ周
    期毎に声道特性と音源特性から演算した単位応答波形デ
    ータをデータベース化したことを特徴とする請求項3記
    載の規則音声合成装置。
JP7210334A 1995-08-18 1995-08-18 規則音声合成における抑揚制御方法および規則音声合成装置 Pending JPH0954599A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7210334A JPH0954599A (ja) 1995-08-18 1995-08-18 規則音声合成における抑揚制御方法および規則音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7210334A JPH0954599A (ja) 1995-08-18 1995-08-18 規則音声合成における抑揚制御方法および規則音声合成装置

Publications (1)

Publication Number Publication Date
JPH0954599A true JPH0954599A (ja) 1997-02-25

Family

ID=16587699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7210334A Pending JPH0954599A (ja) 1995-08-18 1995-08-18 規則音声合成における抑揚制御方法および規則音声合成装置

Country Status (1)

Country Link
JP (1) JPH0954599A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013011902A (ja) * 2000-09-05 2013-01-17 Alcatel-Lucent Usa Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013011902A (ja) * 2000-09-05 2013-01-17 Alcatel-Lucent Usa Inc 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN107678309B (zh) * 2017-09-01 2021-07-06 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质

Similar Documents

Publication Publication Date Title
Tabet et al. Speech synthesis techniques. A survey
US6625575B2 (en) Intonation control method for text-to-speech conversion
WO2005109399A1 (ja) 音声合成装置および方法
JP2002023775A (ja) 音声合成における表現力の改善
JPH031200A (ja) 規則型音声合成装置
JP2002268659A (ja) 音声合成装置
JPH0772900A (ja) 音声合成の感情付与方法
JP2002358090A (ja) 音声合成方法、音声合成装置及び記録媒体
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
JP2904279B2 (ja) 音声合成方法および装置
JP3281266B2 (ja) 音声合成方法及び装置
JP2001242882A (ja) 音声合成方法及び音声合成装置
JPH0954599A (ja) 規則音声合成における抑揚制御方法および規則音声合成装置
JPH0580791A (ja) 音声規則合成装置および方法
JP2755478B2 (ja) テキスト音声合成装置
JP6552146B1 (ja) 音声処理装置、および音声処理方法
JP7280605B2 (ja) 音声処理装置、および音声処理方法
JP3078073B2 (ja) 基本周波数パタン生成方法
JP3314116B2 (ja) 音声規則合成装置
JP2000010581A (ja) 音声合成装置
JPH06250685A (ja) 音声合成方式および規則合成装置
JP3368948B2 (ja) 音声規則合成装置
JPH0836397A (ja) 音声合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
Javidan et al. Concatenative Synthesis of Persian Language Based on Word, Diphone and Triphone Databases