JP2623586B2 - 音声合成におけるピッチ制御方式 - Google Patents

音声合成におけるピッチ制御方式

Info

Publication number
JP2623586B2
JP2623586B2 JP62190387A JP19038787A JP2623586B2 JP 2623586 B2 JP2623586 B2 JP 2623586B2 JP 62190387 A JP62190387 A JP 62190387A JP 19038787 A JP19038787 A JP 19038787A JP 2623586 B2 JP2623586 B2 JP 2623586B2
Authority
JP
Japan
Prior art keywords
accent
phrase
component
value
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP62190387A
Other languages
English (en)
Other versions
JPS6435599A (en
Inventor
宜男 樋口
誠一 山本
徹 清水
Original Assignee
国際電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国際電信電話株式会社 filed Critical 国際電信電話株式会社
Priority to JP62190387A priority Critical patent/JP2623586B2/ja
Priority to US07/217,520 priority patent/US4907279A/en
Publication of JPS6435599A publication Critical patent/JPS6435599A/ja
Application granted granted Critical
Publication of JP2623586B2 publication Critical patent/JP2623586B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声合成方式に関し、特にかな文字列とそ
れに付加されたアクセント、イントネーション等の韻律
記号列を入力することにより、滑らかで自然で、且つ強
調やイントネーションを自由に調節し得るピッチ制御方
式に関する。
(従来の技術) 従来、規則による音声合成方式においては、各音節の
代表点におけるピッチ周波数を与え、その間を線形補間
するのが一般的であった。しかしながら、この方式では
文章の始めから終わりに向かう自然下降成分(以下、フ
レーズ成分という)と、それぞれの単語アクセント型で
決まるアクセントの成分(以下、アクセント成分とい
う)が明確に分離されていないため、単語の強調の度合
を自由に変えることは困難であった。
一方、藤崎らが提案したピッチ制御方式(藤崎、須
藤:“日本語単語アクセントの基本周波数パターンとそ
の生成機構モデル",日本音響学会誌,27,445−453(197
1)、以下、藤崎方式という)は上記の2成分を独立に
制御し得るため、種々のアクセントレベル及びイントネ
ーションレベルの実現が可能となった。しかしながら、
藤崎方式は導出過程において指数計算を行う等、ピッチ
制御のための計算量が増大するという欠点を有してい
た。
(発明が解決しようとする問題点) 本発明の目的は、藤崎方式と同様のピッチ制御を簡単
な四則演算によって行うことにより、ピッチ変化が自然
で滑らかで、かつ単語の強調等が極めて容易に行い得る
規則による音声合成方式を提供することである。
(問題点を解決するための手段) 本発明による規則による音声合成方式は、かな文字列
若しくはそれをローマ字表記したものに対応する任意の
文章の音声を出力可能な音声合成方式においてかな文字
列に付加された韻律記号に基づき、アクセント、イント
ネーションの強さをそれぞれ独立に指定し、アクセント
については単語のアクセント型及び強調の度合に応じた
複数のアクセント成分テーブルから該当するアクセント
強度のアクセント成分の部分を選択し、該当する時刻の
値を読み取ることによりアクセント成分値を算出し、イ
ントネーションについては、単一のフレーズ成分テーブ
ルの該当する時刻の値を読み取りフレーズ成分の大きさ
に応じた乗率を乗ずることによりフレーズ成分値を算出
することによってピッチ制御に関して自然性と多様性に
富んだ合成音声を出力するものである。
藤崎方式においてはアクセント成分とフレーズ成分の
それぞれの変化に要する時間が異なり、1つの入力に対
して後者の値が定常値に達するまでの時間、即ち、テー
ブルとして記憶する必要のある応答曲線の長さは、前者
のそれの数倍である。このため前者に関しては計算量を
減ずるために予め複数のテーブルを記憶しておき、後者
に関しては記憶量を減ずるために単一のテーブルを基に
乗率を乗ずることにより種々のイントネーションを実現
することを特徴とする。
(実施例) 本発明においては、かな文字列若しくはそれをローマ
字表記したものに付加された韻律記号に基づき、藤崎方
式によってアクセント、イントネーションの強さをそれ
ぞれ独立に指定し、アクセントについては単語のアクセ
ント型及び強調の度合に応じた複数のアクセント成分テ
ーブルに基づいて種々のアクセント強度を実現すると共
に、イントネーションについては単一のフレーズ成分テ
ーブルに場合毎の乗率を乗ずることにより種々のフレー
ズ強度を実現することによって、表現内容の重点の置き
方に多様性を持たせることを可能とする。
第1図は、本発明の実施態様の一例の構成を示す。図
中、1は韻律記号が付加されたかな文字列が入力される
入力端子、2はホルマント周波数あるいは線形予測係数
等の各音素の調音的特徴パラメータ値のベクトル(以
下、調音特徴ベクトルという)を選定する回路、3は調
音特徴ベクトルに同期したアクセント成分のコマンドを
生成する回路、4はアクセントコマンドを平滑化し、ア
クセント成分値を算出する回路、5は調音特徴ベクトル
に同期したフレーズ成分のコマンドを生成する回路、6
はフレーズコマンドを平滑化し、フレーズ成分値を算出
する回路、7はアクセント成分値及びフレーズ成分値に
基づいて実ピッチ周波数を算出する回路、8はホルマン
ト型あるいはPARCOR型等の合成器のうち、2で選択した
調音特徴ベクトルに適合するもの、9は合成された音声
波形を出力する出力端子である。
以下、図に沿ってその動作を説明する。入力端子1よ
り入力されるかな文字列には、単語等のアクセント型と
強調の度合を同時に示すためのアクセント記号数種と、
単語や句の区切りを示す区切り記号数種が付加されてい
る。調音特徴ベクトル選定回路2はまず日本語音韻結合
の性質に基づいて入力文字列を音素記号列に変換した
後、各音素の音素時間長を決定し、次に各音素に対し、
調音特徴ベクトルを選定する。ここで用いる調音特徴ベ
クトルは音声合成器8と適合するものであれば良い。ま
た、調音特徴ベクトル選定回路における調音特徴ベクト
ルの選定方式は、規則に基づいて計算する方式(例え
ば、山本、樋口、松崎:“概念からの音声合成のための
実験システム,"日本音響学会秋季研究発表会講演論文
集,185−186(1985))であっても、調音特徴ベクトル
素片の接続による方式(例えば、佐藤:“PARCOR−VCV
連鎖を用いた音声合成方式,"電子通信学会論文誌,61−
D,858−865(1978))であっても良い。
アクセントコマンド生成回路3は入力端子1からの入
力文中のアクセント記号に基づき、調音特徴ベクトル選
定回路2で決定された調音特徴ベクトルの変化に同期し
たアクセントコマンドを生成する。アクセントコマンド
はステップ関数として近似されるのでステップ高と開始
時点・終了時点の3値1組で表現される。ただし、音声
合成器の調音特徴ベクトル・ピッチ周波数共、一定時間
(例えば5msec、以下ではこれをフレームという)毎に
更新するため、開始時点・終了時点はフレーム番号を単
位として表わす。アクセント成分演算回路4はステップ
高に基づいて、複数のアクセント成分テーブルの中から
最適のものを選定し、現フレーム番号と開始フレーム番
号・終了フレーム番号の差に基づいて該当するアクセン
ト成分値を算出する。アクセント成分値はアクセントコ
マンドの開始から100フレーム以内に定常値(ステップ
高に同じ)に達し、アクセントコマンドの終了から100
フレーム以内で0に戻る。このため、各アクセント成分
テーブルは100程度(フレームの長さに依存するが、フ
レーム長5msecの場合)のアクセント成分値で構成され
る。同一文中には複数のアクセント句があるため、アク
セント成分はステップ高・開始時点・終了時点の3値で
表現される単一アクセントコマンドから算出される単一
アクセント成分を複数個重ね合わせることにより求めら
れ、これらの複数のアクセントコマンドはアクセントバ
ッファに蓄積される。なお、現フレームが開始時点以前
の場合にはそのアクセントコマンドが無視できるのは勿
論、一旦値が0に戻った分のアクセントコマンドはそれ
以後常に0のままなので、アクセントバッファから削除
して良い。
フレーズコマンド生成回路5は入力端子1からの入力
文中の区切り記号に基づき、調音特徴ベクトル選定回路
2で決定された調音特徴ベクトルの変化に同期したフレ
ーズコマンドを生成する。フレーズコマンドはインパル
ス関数で近似される(H.Fujisaki and K.Hirose:“Anal
ysis of voice fundamental frequency contours for d
eclarative sentences of Japanese,"J.Acoust.Soc.Jp
n,5,233−242(1984)参照)ので、インパルス高と入力
時点の2値1組で表現される。フレーズ成分値は入力時
点から再び0に戻る時点までの時間がかなり長いため、
インパルス高に応じて複数のテーブルを記憶しておくこ
とは不適当である。そこで、基準インパルス高に対する
フレーズ成分テーブルを記憶しておき、入力インパルス
高と基準インパルス高の比の値を乗率とし、これをフレ
ーズ成分テーブル値に乗ずることにより、フレーズ成分
値を算出する。なお、フレーズ成分値は一旦急激に増加
した後、緩やかに0に漸近するため、応答曲線すべてを
テーブル化する必要はなく、最後の緩やかな部分は区間
とそれに対応するフレーズ成分値を記憶するのが適当で
ある。またアクセントの場合と同様にフレーズコマンド
もフレーズバッファに蓄積され、現フレーズが入力時点
以前の場合にはそのフレーズコマンドは無視でき、一旦
0に戻った分のフレーズコマンドはフレーズバッファか
ら削除して良い。
実ピッチ周波数演算回路7はアクセント成分演算回路
4とフレーズ成分演算回路6の出力結果の和の指数関数
値(予めテーブル化されている)に話者固有の基準ピッ
チ周波数(Fmin)を乗じ、実際のピッチ周波数に変換す
る。音声合成器8はホルマント型あるいはPARCOR型等の
うち、調音特徴ベクトル選定回路2で選択した調音特徴
ベクトルに適合するもので、いずれの形式も公知である
(例えば、D.H.Klatt:“Software for a cascade/paral
lel formant synthesizer,"J.Acoust.Soc.Am.,67,971−
995(1980)や前出の佐藤の発表論文)ので、ここでは
説明を省略する。
(発明の効果) 単語のアクセント型及び強調の度合に応じて互いに異
なる複数のアクセント成分テーブルを予め設けておき、
アクセント・コマンドが入力される毎に該アクセント成
分テーブルを参照して種々のアクセント強度を実現する
と共に、フレーズ成分値の前半に関する単一のフレーズ
成分テーブルを予め設けておき、フレーズ・コマンドが
入力される毎にフレーズ成分値の前半に関しては、該フ
レーズ成分テーブルを参照してフレーズ成分テーブル値
を求め、該求めたフレーズ成分テーブル値に乗率を乗ず
ることにより、フレーズ成分値の後半に関しては、範囲
を指定して記憶されたフレーム成分値から求めることに
より、複数のフレーズ強度を実現するように構成されて
いるので、種々のアクセント強度やイントネーションの
実現が異なる形式の種々のテーブルを参照することによ
り極めて簡単に行える。このように、本発明では、応答
関数の長さ及び使用頻度が互いに異なるアクセント成分
及びフレーズ成分に関して、それぞれ全く違った形のテ
ーブルを用意して対処することにより、計算量の低減化
が各成分の特性に応じた最適の形で行われることとな
る。
【図面の簡単な説明】
第1図は本発明の実施例の構成を示す図である。 1:入力端子、2:調音特徴ベクトル選定回路、3:アクセン
トコマンド生成回路、4:アクセント成分演算回路、5:フ
レーズコマンド生成回路、6:フレーズ成分演算回路、7:
実ピッチ周波数演算回路、8:音声合成器、9:出力端子。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−81697(JP,A) 特開 昭59−3496(JP,A) J.Acoust.Soc.Jpn. (E)5,4(1984),Hiroya Fujisaki and Keiki chi Hiroce,“Analys is of voice furdam ental frequeucy co ntours for cleclar ative seuteuces of Japanese”,P.233−242

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】かな文字列又はそれをローマ字表記した文
    字列と、該文字列に付加された韻律記号列とを入力する
    ことにより任意の文章の音声波形を合成する規則による
    音声合成方式において、 単語のアクセント型及び強調の度合に応じて互いに異な
    る複数のアクセント成分テーブルを予め設けておき、ア
    クセント・コマンドが入力される毎に該アクセント成分
    テーブルを参照して種々のアクセント強度を実現すると
    共に、フレーズ成分値の前半に関する単一のフレーズ成
    分テーブルを予め設けておき、フレーズ・コマンドが入
    力される毎にフレーズ成分値の前半に関しては、該フレ
    ーズ成分テーブルを参照してフレーズ成分テーブル値を
    求め、該求めたフレーズ成分テーブル値に乗率を乗ずる
    ことにより、フレーズ成分値の後半に関しては、範囲を
    指定して記憶されたフレーズ成分値から求めることによ
    り、複数のフレーズ強度を実現することを特徴とする音
    声合成におけるピッチ制御方式。
JP62190387A 1987-07-31 1987-07-31 音声合成におけるピッチ制御方式 Expired - Lifetime JP2623586B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP62190387A JP2623586B2 (ja) 1987-07-31 1987-07-31 音声合成におけるピッチ制御方式
US07/217,520 US4907279A (en) 1987-07-31 1988-07-11 Pitch frequency generation system in a speech synthesis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62190387A JP2623586B2 (ja) 1987-07-31 1987-07-31 音声合成におけるピッチ制御方式

Publications (2)

Publication Number Publication Date
JPS6435599A JPS6435599A (en) 1989-02-06
JP2623586B2 true JP2623586B2 (ja) 1997-06-25

Family

ID=16257319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62190387A Expired - Lifetime JP2623586B2 (ja) 1987-07-31 1987-07-31 音声合成におけるピッチ制御方式

Country Status (2)

Country Link
US (1) US4907279A (ja)
JP (1) JP2623586B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69028072T2 (de) * 1989-11-06 1997-01-09 Canon Kk Verfahren und Einrichtung zur Sprachsynthese
US5278943A (en) * 1990-03-23 1994-01-11 Bright Star Technology, Inc. Speech animation and inflection system
US5475796A (en) * 1991-12-20 1995-12-12 Nec Corporation Pitch pattern generation apparatus
US5384893A (en) * 1992-09-23 1995-01-24 Emerson & Stern Associates, Inc. Method and apparatus for speech synthesis based on prosodic analysis
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JPH086591A (ja) * 1994-06-15 1996-01-12 Sony Corp 音声出力装置
US5761640A (en) * 1995-12-18 1998-06-02 Nynex Science & Technology, Inc. Name and address processor
US5832433A (en) * 1996-06-24 1998-11-03 Nynex Science And Technology, Inc. Speech synthesis method for operator assistance telecommunications calls comprising a plurality of text-to-speech (TTS) devices
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP5361104B2 (ja) * 2000-09-05 2013-12-04 アルカテル−ルーセント ユーエスエー インコーポレーテッド 非言語依存韻律マークアップを用いてテキストからスピーチに処理する方法および装置
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US9870769B2 (en) 2015-12-01 2018-01-16 International Business Machines Corporation Accent correction in speech recognition systems

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3704345A (en) * 1971-03-19 1972-11-28 Bell Telephone Labor Inc Conversion of printed text into synthetic speech
JPS5981697A (ja) * 1982-11-01 1984-05-11 株式会社日立製作所 規則による音声合成方法
US4692941A (en) * 1984-04-10 1987-09-08 First Byte Real-time text-to-speech conversion system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J.Acoust.Soc.Jpn.(E)5,4(1984),Hiroya Fujisaki and Keikichi Hiroce,"Analysis of voice furdamental frequeucy contours for cleclarative seuteuces of Japanese",P.233−242

Also Published As

Publication number Publication date
US4907279A (en) 1990-03-06
JPS6435599A (en) 1989-02-06

Similar Documents

Publication Publication Date Title
JP3913770B2 (ja) 音声合成装置および方法
JPH031200A (ja) 規則型音声合成装置
JPH0833744B2 (ja) 音声合成装置
JP2623586B2 (ja) 音声合成におけるピッチ制御方式
JPH0632020B2 (ja) 音声合成方法および装置
JP3513071B2 (ja) 音声合成方法及び音声合成装置
JPH08335096A (ja) テキスト音声合成装置
van Rijnsoever A multilingual text-to-speech system
JP3785892B2 (ja) 音声合成装置及び記録媒体
JP3344487B2 (ja) 音声基本周波数パターン生成装置
JPH0580791A (ja) 音声規則合成装置および方法
JPH06318094A (ja) 音声規則合成装置
JPH09179576A (ja) 音声合成方法
JP3575919B2 (ja) テキスト音声変換装置
JP2577372B2 (ja) 音声合成装置および方法
JP2703253B2 (ja) 音声合成装置
JP3292218B2 (ja) 音声メッセージ作成装置
JPH09292897A (ja) 音声合成装置
JP3023957B2 (ja) 音声合成装置
JPH06214585A (ja) 音声合成装置
JP2573586B2 (ja) 規則型音声合成装置
JPH06149283A (ja) 音声合成装置
JP2573585B2 (ja) 音声スペクトルパタン生成装置
JP3313310B2 (ja) 音声合成装置及び合成方法
JP2573587B2 (ja) ピッチパタン生成装置