JP2003005775A - テキスト音声変換装置における高速読上げ制御方法 - Google Patents

テキスト音声変換装置における高速読上げ制御方法

Info

Publication number
JP2003005775A
JP2003005775A JP2001192778A JP2001192778A JP2003005775A JP 2003005775 A JP2003005775 A JP 2003005775A JP 2001192778 A JP2001192778 A JP 2001192778A JP 2001192778 A JP2001192778 A JP 2001192778A JP 2003005775 A JP2003005775 A JP 2003005775A
Authority
JP
Japan
Prior art keywords
unit
phoneme
text
voice
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001192778A
Other languages
English (en)
Other versions
JP4680429B2 (ja
Inventor
Keiichi Kayahara
桂一 茅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2001192778A priority Critical patent/JP4680429B2/ja
Priority to US10/058,104 priority patent/US7240005B2/en
Publication of JP2003005775A publication Critical patent/JP2003005775A/ja
Application granted granted Critical
Publication of JP4680429B2 publication Critical patent/JP4680429B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 発声速度を速くした時に高負荷になって音切
れが発生するという問題点を解決したテキスト音声変換
装置における高速読み上げ制御方法を提供する。 【解決手段】 テキスト解析部(102)と、音声素片
・音韻継続時間・基本周波数の合成パラメータを生成す
るパラメータ生成部(102)と、素片辞書(105)
を参照しながら合成波形を生成する波形生成部(10
3)とを備え、パラメータ生成手部は、音韻継続時間を
予め経験的に求めた継続時間規則テーブルと、音韻継続
時間を統計的手法を用いて予測した継続時間予測テーブ
ルとを併せ持ち、ユーザから指定される発声速度が閾値
を超えた時には前記継続時間規則テーブルを用い、閾値
を超えていない時には前記継続時間予測テーブルを用い
て音韻継続時間の決定を行う構成とした。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日常読み書きして
いる漢字・仮名混じり文を音声として出力するテキスト
音声変換技術に係わり、特に高速読上げ時の韻律制御に
関するものである。
【0002】
【従来の技術】テキスト音声変換技術は、我々が日常読
み書きしている漢字かな混じり文を入力し、それを音声
に変換して出力するもので、出力語彙の制限がないこと
から録音・再生型の音声合成に代わる技術として種々の
利用分野での応用が期待できる。従来、この種の音声合
成装置としては、図15に示すような処理形態となって
いるものが代表的である。
【0003】日常読み書きしている漢字仮名混じり文
(以下テキストと呼ぶ)を入力すると、テキスト解析部
101は、文字情報から音韻・韻律記号列を生成する。
ここで、音韻・韻律記号列とは、入力文の読みに加え
て、アクセント、イントネーション等の韻律情報を文字
列として記述したもの(以下中間言語と呼ぶ)である。
単語辞書104は個々の単語の読みやアクセント等が登
録された発音辞書で、テキスト解析部101はこの発音
辞書を参照しながら、形態素解析ならびに構文解析等の
言語処理を施して中間言語を生成する。
【0004】テキスト解析部101で生成された中間言
語に基づいて、パラメータ生成部102で、音声素片
(音の種類)、声質変換係数(声色の種別)、音韻継続
時間(音の長さ)、音韻パワー(音の強さ)、基本周波
数(声の高さ、以下ピッチと呼ぶ)等の各パタンから成
る合成パラメータが決定され、波形生成部103に送ら
れる。
【0005】ここで音声素片とは、接続して合成波形を
作るための音声の基本単位で、音の種類等に応じて様々
なものが用意されている。一般的に、CV、VV、VC
V、CVC(C:子音、V:母音)といった音韻連鎖で
構成されている場合が多い。
【0006】パラメータ生成部102で生成された各種
パラメータに基づいて、波形生成部103において音声
素片等を蓄積するROM等から構成された素片辞書10
5を参照しながら、合成波形が生成され、スピーカを通
して合成音声が出力される。音声合成方法としては、予
め音声波形にピッチマーク(基準点)を付けておき、そ
の位置を中心に切り出して、合成時には合成ピッチ周期
に合わせて、ピッチマーク位置をずらしながら重ね合わ
せる方法が知られている。以上がテキスト音声変換処理
の簡単な流れである。
【0007】次に、パラメータ生成部102における従
来の処理を図16を参照して詳細に説明する。
【0008】パラメータ生成部102に入力される中間
言語は、アクセント位置・ポーズ位置などの韻律情報を
含んだ音韻文字列であり、これより、ピッチの時間的な
変化(以下ピッチパタン)、音声パワー、それぞれの音
韻継続時間、素片辞書内に格納されている音声素片アド
レス等の波形を生成する上でのパラメータ(以下、総称
して合成パラメータと呼ぶ)を決定する。またこの時、
ユーザの好みに合わせた発声様式(発声速度、声の高
さ、抑揚の大きさ、声の大きさ、発声話者、声質など)
を指定するための制御パラメータも入力される場合があ
る。
【0009】入力された中間言語に対して、中間言語解
析部201で文字列の解析が行われ、中間言語上に記さ
れた呼気段落記号・単語区切り記号から単語境界を判定
し、アクセント記号からアクセント核のモーラ(音節)
位置を得る。呼気段落とは、一息で発声する区間の区切
り単位である。アクセント核とは、アクセントが下降す
る位置のことで、1モーラ目にアクセント核が存在する
単語を1型アクセント、nモーラ目にアクセント核が存
在する単語をn型アクセントと呼び、総称して起伏型ア
クセント単語と呼ぶ。逆に、アクセント核の存在しない
単語(例えば「新聞」や「パソコン」)を0型アクセン
トまたは平板型アクセント単語と呼ぶ。これらの韻律に
関わる情報は、ピッチパタン決定部202、音韻継続時
間決定部203、音韻パワー決定部204、音声素片決
定部205、声質係数決定部206に送られる。
【0010】ピッチパタン決定部202は、中間言語上
の韻律情報などからアクセント句あるいはフレーズ単位
でのピッチ周波数の時間的変化パタンの算出を行う。従
来では「藤崎モデル」と呼ばれる、臨界制動2次線形系
で記述されるピッチ制御機構モデルが用いられてきた。
声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルであ
る。声帯振動の周波数、すなわち基本周波数は、フレー
ズの切り替わりごとに発せられるインパルス指令と、ア
クセントの上げ下げごとに発せられるステップ指令によ
って制御される。そのとき、生理機構の遅れ特性によ
り、フレーズのインパルス指令は文頭から文末に向かう
緩やかな下降曲線(フレーズ成分)となり、アクセント
のステップ指令は局所的な起伏の激しい曲線(アクセン
ト成分)となる。これらの二つの成分は、各指令の臨界
制動2次線形系の応答としてモデル化され、対数基本周
波数の時間変化パターンは、これら両成分の和(以降、
抑揚成分と呼ぶ)として表現される。
【0011】図18はピッチ制御機構モデルを示す。対
数基本周波数ln F(t)(tは時刻)は、次式の
ように定式化される。 ここで、Fminは最低周波数(以下、基底ピッチと呼
ぶ)、Iは文中のフレーズ指令の数、Apiは文中i番
目のフレーズ指令の大きさ、T0iは文中i番目のフレ
ーズ指令の開始時点、Jは文内のアクセント指令の数、
ajは文内j番目のアクセント指令の大きさ、
1j、T2jはそれぞれj番目のアクセント指令の開
始時点と終了時点である。
【0012】また、Gpi(t)、Gaj(t)はそれ
ぞれ、フレーズ制御機構のインパルス応答関数、アクセ
ント制御機構のステップ応答関数であり、次式で与えら
れる。 Gpi(t)= α texp(―αt) …(2) Gaj(t)=min[1−(1+βt)exp(−βt),θ]…(3) 上式は、t≧0の範囲での応答関数であり、t<0では
pi(t)=Gaj(t)=0である。式(3)の記
号min[x,y]は、x,yのうち小さい方をとるこ
とを意味しており、実際の音声でアクセント成分が有限
の時間で上限に達することに対応している。ここで、α
はi番目のフレーズ指令に対するフレーズ制御機構の
固有角周波数であり、例えば3.0などに選ばれる。β
はj番目のアクセント指令に対するアクセント制御機
構の固有角周波数であり、例えば20.0などに選ばれ
る。また、θはアクセント成分の上限値であり、例えば
0.9などに選ばれる。
【0013】なおここで、基本周波数およびピッチ制御
パラメータ(Api,Aaj,T ,T1j
2j,α,β,Fmin)の値の単位は次のよう
に定義される。すなわち、F(t)およびFmin
単位は[Hz]、T0i,T1jおよびT2jの単位は
[sec]、αおよびβの単位は[rad/se
c]とする。またApiおよびAajの値は、基本周波
数およびピッチ制御パラメータの値の単位を上記のよう
に定めたときの値を用いる。
【0014】以上で述べた生成過程に基づき、ピッチパ
タン決定部202では、中間言語からピッチ制御パラメ
ータの決定を行う。例えば、フレーズ指令の生起時点T
0iは中間言語上での句読点が存在する位置に設定し、
アクセント指令の開始時点T 1jは単語境界記号直後に
設定し、アクセント指令の終了時点T2jはアクセント
記号が存在する位置、あるいはアクセント記号がない平
板型アクセント単語の場合は、次単語との単語境界記号
直前に設定する。フレーズ指令の大きさを表わすApi
とアクセント指令の大きさを表わすAajは、数量化I
類などの統計的手法を用いて決定する場合が多い。数量
化I類については公知であるのでここでは特に説明はし
ない。
【0015】図19にピッチパタン生成に関する機能ブ
ロック図を示す。中間言語解析部201からの解析結果
が制御要因設定部501に入力される。制御要因設定部
501では、フレーズ成分、アクセント成分の大きさを
予測するために必要な制御要因の設定を行う。フレーズ
成分予測には、例えば、該当するフレーズを構成してい
るモーラ総数、文内位置、先頭単語のアクセント型とい
った情報が用いられ、フレーズ成分推定部503に送ら
れる。一方、アクセント成分予測には、例えば、該当す
るアクセント句のアクセント型、構成しているモーラ総
数、品詞、フレーズ内位置といった情報が用いられ、ア
クセント成分推定部502に送られる。それぞれの成分
値予測には、自然発声データを基に数量化I類などの統
計的手法を用いて予め学習した予測テーブル506を用
いて行われる。
【0016】予測された結果は、ピッチパタン修正部5
04に送られ、ユーザから抑揚指定があった場合は、推
定された値Api、Aajに対しての修正を行う。この
機能は、文中のある単語を特に強調あるいは抑制したい
時に用いることを想定した制御機構である。通常、抑揚
指定は3〜5段階に制御され、それぞれのレベルに対し
てあらかじめ割り当てられた定数を乗ずることにより行
われる。抑揚指定がない場合は修正は行われない。
【0017】フレーズ・アクセント両成分値の修正が施
された後、基底ピッチ加算部505に送られ、式(1)
に従ってピッチパタンの時系列データが生成される。こ
の時、ユーザからの声の高さ指定レベルに従って、基底
ピッチテーブル507から指定レベルに応じたデータが
基底ピッチとして呼び出され加算される。ユーザから特
に指定がない場合は、予め定められたデフォルト値が呼
び出され加算される。対数化基底ピッチln Fmin
は合成音声の最低ピッチを表わしており、このパラメー
タが声の高さの制御に用いられている。通常ln F
minは、5〜10段階に量子化されてテーブルとして
保持されておりユーザの好みによって、全体的に声を高
くしたい場合はln Fminを大きくし、逆に声を低
くしたい場合はln Fminを小さくするといった処
理を行う。
【0018】基底ピッチテーブル507は、男声音用と
女声音用とに分けられており、ユーザから入力される話
者指定によって読み出す基底ピッチを選択する。通常男
性音の場合は3.0〜4.0の範囲内、女性音の場合は
4.0〜5.0の範囲内で声の高さ指定の段階数に応じ
て量子化されている。以上がピッチパタン生成過程であ
る。
【0019】次に音韻継続時間制御について述べる。音
韻継続時間決定部203は、音韻文字列・韻律記号など
からそれぞれの音韻の長さ、休止区間長を決定する。休
止区間とは、フレーズ間、あるいは文章間でのポーズの
長さである(以後ポーズ長と呼ぶ)。音韻長は通常、音
節を構成している子音・母音の長さの他、破裂性を有す
る音韻(p,t,kなど)の直前に現れる無音長(閉鎖
区間長)を、それぞれ決定する。音韻継続時間長、ポー
ズ長を総称して継続時間長と呼ぶことにする。音韻継続
時間の決定方法は通常、目標となる音韻の前後近傍の音
韻の種別あるいは、単語内・呼気段落内の音節位置など
により、数量化I類などの統計的手法が用いられる場合
が多い。一方、ポーズ長は、前後隣接するフレーズのモ
ーラ総数などにより同じく、数量化I類などの統計的手
法が用いられる。またこの時、ユーザから発声速度を指
定された場合は、それに応じて音韻継続時間の伸縮を行
う。通常、発声速度指定は、5〜10段階程度に制御さ
れ、それぞれのレベルに対してあらかじめ割り当てられ
た定数を乗ずることにより行われる。発声速度を遅くし
たい場合は音韻継続時間を長くし、発声速度を速くした
い場合は音韻継続時間を短くする。音韻継続時間制御に
関しては、本発明の主題であるので後述する。
【0020】音韻パワー決定部204は、音韻文字列か
らそれぞれの音韻の波形振幅値の算出を行う。波形振幅
値は、/a,i,u,e,o/などの音韻の種類・呼気
段落内での音節位置などから経験的に決められる。ま
た、音節内においても、立ち上がりの徐々に振幅値が大
きくなる区間と、定常状態にある区間と、立ち下がりの
徐々に振幅値が小さくなる区間のパワー遷移も同時に決
定している。これらパワー制御は通常、テーブル化され
た係数値を用いることにより実行される。またこの時、
ユーザからの声の大きさ指定があった場合は、それに応
じて振幅値を増減する。通常、声の大きさ指定は、10
段階程度に制御され、それぞれのレベルに対してあらか
じめ割り当てられた定数を乗ずることにより行われる。
【0021】音声素片決定部205は、音韻文字列を表
現するために必要な音声素片の、素片辞書105内アド
レスの決定を行う。素片辞書105は、例えば男声音と
女性音といった具合に複数話者の音声素片が格納されて
おり、ユーザからの話者指定により素片アドレスの決定
を行う。素片辞書105に格納されている音声素片デー
タは、CV、VCVなど前後の音韻環境に応じた形で様
々な単位で構築されているため、入力テキストの音韻文
字列の並びから最適な合成単位を選択する。
【0022】声質係数決定部206は、ユーザから声質
変換指定があった場合に、変換パラメータの決定を行
う。声質変換とは、素片辞書105に登録されている素
片データに、信号処理等の加工を施すことにより、聴感
上、別話者として取り扱えるようにした機能である。一
般に、素片データを線形に伸縮する処理を施して実現す
る場合が多い。伸長処理は、素片データのオーバーサン
プリング処理で実現され、太い声となる。逆に縮小処理
は、素片データのダウンサンプリング処理で実現され、
細い声となる。通常、声質変換指定は、5〜10段階程
度に制御され、それぞれのレベルに対してあらかじめ割
り当てられたリサンプリング・レートにより変換を行
う。
【0023】以上の処理により生成されたピッチパタン
・音韻パワー・音韻継続時間・音声素片アドレス・伸縮
パラメータは合成パラメータ生成部207に送られ、合
成パラメータが生成される。合成パラメータは、フレー
ム(通常8ms程度の長さ)を一つの単位とした波形生
成用のパラメータであり、波形生成部103に送られ
る。
【0024】図17に波形生成部の機能ブロック図を示
す。素片復号部301では、合成パラメータのうち、素
片アドレスを参照ポインタとして素片辞書105から素
片データをロードし、必要に応じて復号処理を行う。素
片辞書105には、音声を合成するための元となる音声
素片データが格納されており、何らかの圧縮処理が施さ
れている場合は、復号処理を施す。復号された音素片デ
ータは、振幅制御部302で振幅係数が乗じられてパワ
ー制御が行われる。素片加工部303では、声質変換の
ための素片伸縮処理が施される。声質を太くする場合は
素片全体を伸長し、声質を細くする場合は素片全体を縮
小するといった処理が施される。重畳制御部304で
は、合成パラメータのうち、ピッチパタンや音韻継続時
間といった情報から、素片データの重畳を制御し、合成
波形を生成する。波形重畳が完了したデータから逐次D
Aリングバッファ305に書き込み、出力サンプリング
周期でDAコンバータに転送し、スピーカから出力す
る。
【0025】次に音韻継続時間制御について詳細に説明
する。図20に従来技術による音韻継続時間決定部の機
能ブロック図を示す。中間言語解析部201から解析結
果が制御要因設定部601に入力される。制御要因設定
部601では、例えば、音韻個々の継続時間長あるい
は、単語全体での継続時間長などを予測するために必要
な制御要因の設定を行う。予測には、例えば、対象とな
る音韻、前後の音韻の種類、構成しているフレーズのモ
ーラ総数、文内位置といった情報が用いられ、継続時間
推定部602に送られる。アクセント成分、フレーズ成
分の各成分値予測には、自然発声データを基に数量化I
類などの統計的手法を用いて予め学習した継続時間予測
テーブル604が用いられる。予測された結果は継続時
間修正部603に送られ、ユーザから発声速度指定があ
った場合は予測値の修正が施される。通常、発声速度指
定は、5〜10段階程度に制御され、それぞれのレベル
に対してあらかじめ割り当てられた定数を乗ずることに
より行われる。発声速度を遅くしたい場合は音韻継続時
間を長くし、発声速度を速くしたい場合は音韻継続時間
を短くする。例えば、発声速度レベルが5段階に制御さ
れ、レベル0からレベル4まで指定可能だとする。それ
ぞれのレベルnに対応した定数Tnを次のように定め
る。すなわち、 T=2.0、T=1.5、T=1.0、T
0.75、T=0.5 とする。
【0026】先に予測された音韻継続時間のうち、母音
長とポーズ長に対して、ユーザから指定されたレベルn
に対応した定数Tが乗じられる。レベル0の場合は
2.0が乗じられるので生成される波形は長くなり発声
速度は遅くなる。レベル4の場合は0.5が乗じられる
ので生成される波形は短くなり発声速度は速くなる。上
記の例では、レベル2が通常発声速度(デフォルト)と
なっている。
【0027】発声速度制御が施された合成波形の例を図
21に示す。図示したように、音韻継続時間の発声速度
制御は通常、母音のみで行う。閉鎖区間長あるいは子音
長は、発声速度に依らずほぼ一定と考えられるからであ
る。発声速度を速くした(a)図では母音長だけが0.
5倍されており、重畳される音声素片数を減じて実現し
ている。逆に発声速度を遅くした(c)図では母音長だ
けが1.5倍されており、重畳される音声素片数を繰り
返し使うなどして実現している。また、ポーズ長に対し
ては母音長制御と同様に、指定レベルに応じた定数が乗
じられるため、発声速度が遅くなるほどポーズ長も長く
なり、発声速度が速くなるほどポーズ長も短くなる。
【0028】ここで発声速度が速い場合を考える。前述
の例ではレベル4に当たる。テキスト音声変換システム
の利用特性上、最大発声速度レベルは「早聞き機能」と
いう意味合いが大きい。読上げ対象となるテキストの中
でも、ユーザにとって、重要な部分とそうでない部分が
存在するため、重要でない部分は発声速度を速くして読
み飛ばし、重要な部分は通常発声速度で合成する。この
ような利用方法が一般的である。最近のテキスト音声変
換装置では、早聞き機能用のボタンがあり、このボタン
を押下すると発声速度レベルが最大に設定され最高速度
で合成され、ボタンを離すと発声速度レベルが以前の設
定値に復帰するといったものがある。
【0029】
【発明が解決しようとする課題】しかしながら上記の従
来技術では、以下に述べる問題があった。 (1)早聞き機能を有効にすると、単純に音韻の継続時
間長を短くする、言い換えると、生成する波形の長さを
短くする処理を施しているため、波形生成部に負荷がか
かるといった問題があった。波形生成部では、波形重畳
が完了し、生成された波形データから逐次DAリングバ
ッファに書き込むという処理を行っているため、生成さ
れる波形長が短い場合はその分、波形生成処理に費やす
ことのできる時間が短くなることになる。波形データ長
が半分になると、処理時間も半分で終了させなければな
らない。例えば、音韻継続時間長が半分になったからと
いって、必ずしも演算量が半分になるわけではないた
め、DAコンバータへの転送処理に、波形生成処理が追
いつかない場合は、合成音が途中で止まる「音切れ」現
象が発生する場合がある。
【0030】(2)早聞き機能を有効にすると、単純に
音韻の継続時間長を短くする処理が施されるため、ピッ
チパタンも基本的に線形に縮小される。つまり抑揚も時
間的に速い周期で変動することになり、これは、不自然
なイントネーションで非常に聞き取りにくい合成音とな
っていた。早聞き機能は、読上げ対象となるテキストを
完全にスキップするのではなく、聞き流すという用途で
用いられるため、抑揚の激しい合成音は不向きであっ
た。従来技術において早聞き機能有効時の合成音声は、
抑揚変化が激しすぎるため聞き取りにくく理解しずらい
ものとなっていた。
【0031】(3)早聞き機能を有効にすると、音韻継
続時間と共に、文章間のポーズも同一比率で縮小され
る。そのため、文章と文章の境界がほとんどなくなり、
切れ目が分かり難くなっていた。1文の合成音声を出力
した直後に、さらに次の1文の合成音声が出力されるた
め、従来技術において早聞き機能有効時の合成音声は、
テキスト内容を理解しつつ読み飛ばす用途においては不
向きであった。
【0032】(4)早聞き機能を有効にすると、テキス
ト全体に渡って、発声速度が速くなるため、早聞き解除
のタイミングを取ることが難しかった。通常の早聞き機
能使用方法は、ある文章の中から所望の部分までを読み
飛ばし、以降を通常速度で合成するというものである。
従来技術によると、ユーザが欲した部分の読上げが行わ
れ、早聞き機能解除をした時点では、所望の部分を大き
く通り越してしまういった問題があった。この場合、早
聞き機能を解除した後に一旦、読上げ対象区間を前にさ
かのぼって設定した後に通常発声速度で合成開始すると
いった面倒な操作をしなければいけなかった。またユー
ザは、必要な部分と必要でない部分とを聞き分けなが
ら、早聞き機能の有効化・無効化の動作を行わなければ
ならず、非常に労力を必要としていた。
【0033】本発明は、(A)発声速度を速くした時に
高負荷になって音切れが発生するという問題点と、
(B)発声速度を速くした時にピッチ変動周期も速くな
り、不自然なイントネーションになってしまうという問
題点と、(C)発声速度を速くした時に、文と文との間
のポーズが短くなって理解しがたい合成音となってしま
うという問題点と、(D)早聞き機能解除タイミングが
取りづらいという問題点を解決したテキスト音声変換に
おける高速読み上げ制御方法を提供することを目的とす
る。
【0034】
【課題を解決するための手段】この発明は、上記課題
(A)を解決するために、ユーザの指定する発声速度が
最高速に設定された場合、すなわち早聞き機能が有効と
なった場合に、パラメータ生成手段における音韻継続時
間決定手段において、統計的手法を用いて予測した継続
時間予測テーブルに替えて、予め経験的に求めた継続時
間規則テーブルを用いて音韻継続時間を決定し、また、
ピッチパタン決定手段において、統計的手法により算出
した予測テーブルを用いる代わりに、予め経験的に求め
た規則テーブルを使用してピッチパタンを決定し、更
に、声質決定手段においては声質が変化しないような声
質変換係数を選択する。
【0035】また、この発明は、上記課題(B)を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合に、アクセント成分及びフレーズ成分の計算
を行わないようにすると共に基底ピッチを変更しないよ
うにしている。
【0036】また、この発明は、上記課題(C)を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合に、文章間に文章の区切りを示す合図音を挿
入するようにしている。
【0037】更に、この発明は、上記課題(D)を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合でも、少なくとも文章の先頭単語について
は、通常の発声速度で再生するようにしている。
【0038】
【発明の実施の形態】第1の実施の形態 [構成]以下、第1の実施の形態における構成を図面を
参照しながら詳細に説明する。従来技術と異なる点は、
発声速度が最高速に設定された場合、すなわち、早聞き
機能が有効となった場合に内部演算処理の一部を簡略
化、省略を行うことによって負荷軽減させた点である。
【0039】図1は、第1の実施の形態におけるパラメ
ータ生成部102の機能ブロック図である。パラメータ
生成部102への入力は従来と同じく、テキスト解析部
101から出力される中間言語および、ユーザが個別に
指定する韻律制御パラメータである。中間言語解析部8
01には一文毎の中間言語が入力され、以降の韻律生成
処理で必要となる音韻系列・フレーズ情報・アクセント
情報などといった中間言語解析結果が、それぞれピッチ
パタン決定部802、音韻継続時間決定部803、音韻
パワー決定部804、音声素片決定部805、声質係数
決定部806に出力される。
【0040】ピッチパタン決定部802には、前述の中
間言語解析結果に加えてユーザからの抑揚指定・声の高
さ指定・発声速度指定・話者指定の各パラメータが入力
され、ピッチパタンが合成パラメータ生成部807に出
力される。ピッチパタンとは基本周波数の時間的遷移の
ことである。
【0041】音韻継続時間決定部803には、前述の中
間言語解析結果に加えてユーザからの発声速度指定のパ
ラメータが入力され、それぞれの音韻の音韻継続時間・
ポーズ長といったデータが合成パラメータ生成部807
に出力される。
【0042】音韻パワー決定部804には、前述の中間
言語解析結果に加えてユーザからの声の大きさ指定パラ
メータが入力され、それぞれの音韻の音韻振幅係数が合
成パラメータ生成部807に出力される。
【0043】音声素片決定部805には、前述の中間言
語解析結果に加えてユーザからの話者指定パラメータが
入力され、波形重畳するための必要な音声素片アドレス
が合成パラメータ生成部807に出力される。
【0044】声質係数決定部806には、前述の中間言
語解析結果に加えてユーザからの声質指定・発声速度指
定の各パラメータが入力され、声質変換パラメータが合
成パラメータ生成部807に出力される。
【0045】合成パラメータ生成部807は、入力され
た各韻律パラメータ(前述したピッチパタン、音韻継続
時間、ポーズ長、音韻振幅係数、音声素片アドレス、声
質変換係数)から、フレーム(通常8ms程度の長さ)
を一つの単位とした波形生成用のパラメータを生成し、
波形生成部103に出力する。
【0046】パラメータ生成部102において、従来技
術と比較して異なる点は、発声速度指定パラメータが音
韻継続時間決定部803のほかに、ピッチパタン決定部
802、声質係数決定部806のそれぞれに入力されて
いる点と、ピッチパタン決定部802、音韻継続時間決
定部803、声質係数決定部806のそれぞれの内部処
理である。テキスト解析部101および波形生成部10
3においては、従来と同様であるため、その構成に関す
る説明は省略する。
【0047】ピッチパタン決定部802の構成について
図2を用いて説明する。第1の実施の形態においては、
アクセント成分およびフレーズ成分の決定に、数量化I
類等の統計的手法を用いる場合と規則による場合との2
通りの構成を有する。規則による制御の場合は、予め経
験的に求められた規則テーブル910を用い、統計的手
法による制御の場合は、自然発声データを基に数量化I
類などの統計的手法を用いて予め学習した予測テーブル
909を用いる。予測テーブル909のデータ出力はス
イッチ907のa端子に接続され、規則テーブル910
のデータ出力はスイッチ907のb端子に接続される。
いずれの端子が選択されるかは、セレクタ906の出力
によって決定される。
【0048】セレクタ906には、ユーザから指定され
る発声速度レベルが入力され、スイッチ907を制御す
るための信号がスイッチ907に接続される。発声速度
が最高レベルの場合はスイッチ907をb端子側に接続
し、それ以外の場合はスイッチ907をa端子側に接続
する。スイッチ907の出力は、アクセント成分決定部
902とフレーズ成分決定部903に接続される。
【0049】中間言語解析部801からの出力は制御要
因設定部901に入力され、アクセント・フレーズ両成
分の決定のための要因パラメータの解析が行われ、その
出力がアクセント成分決定部902とフレーズ成分決定
部903に接続される。
【0050】アクセント成分決定部902とフレーズ成
分決定部903には、スイッチ907からの出力が接続
されており、予測テーブル909もしくは規則テーブル
910を用いてそれぞれの成分値を決定しピッチパタン
修正部904に出力する。
【0051】ピッチパタン修正部904には、ユーザか
ら指定される抑揚指定レベルが入力され、該レベルに応
じて予め定められた定数が乗じられ、その結果が基底ピ
ッチ加算部905に接続される。
【0052】基底ピッチ加算部905にはさらに、ユー
ザから指定される声の高さレベル・話者指定および、基
底ピッチテーブル908が接続されている。基底ピッチ
テーブル908には、ユーザ指定された声の高さレベル
と性別とに応じて予め定められた定数値が格納されてお
り、ピッチパタン修正部904からの入力に加算してピ
ッチパタン時系列データとして合成パラメータ生成部8
07に出力する。
【0053】音韻継続時間決定部803の構成について
図3を用いて説明する。第1の実施の形態においては、
音韻継続時間の決定に、数量化I類等の統計的手法を用
いる場合と規則による場合との2通りの構成を有する。
規則による制御の場合は、予め経験的に求められた継続
時間規則テーブル1007を用い、統計的手法による制
御の場合は、自然発声データを基に数量化I類などの統
計的手法を用いて予め学習した継続時間予測テーブル1
006を用いる。継続時間予測テーブル1006のデー
タ出力はスイッチ1005のa端子に接続され、継続時
間規則テーブル1007のデータ出力はスイッチ100
5のb端子に接続される。いずれの端子が選択されるか
は、セレクタ1004の出力によって決定される。
【0054】セレクタ1004には、ユーザから指定さ
れる発声速度レベルが入力され、スイッチ1005を制
御するための信号がスイッチ1005に接続される。発
声速度が最高レベルの場合はスイッチ1005をb端子
側に接続し、それ以外の場合はスイッチ1005をa端
子側に接続する。スイッチ1005の出力は、継続時間
決定部1002に接続される。
【0055】中間言語解析部801からの出力は制御要
因設定部1001に入力され、音韻継続時間決定のため
の要因パラメータの解析が行われ、その出力が継続時間
決定部1002に接続される。
【0056】継続時間決定部1002には、スイッチ1
005からの出力が接続されており、継続時間予測テー
ブル1006もしくは継続時間規則テーブル1007を
用いて音韻継続時間長を決定し継続時間修正部1003
に出力する。継続時間修正部1003には、ユーザから
指定される発声速度レベルが入力され、該レベルに応じ
て予め定められた定数が乗じられて修正が施され、その
結果が合成パラメータ生成部807に出力される。
【0057】声質係数決定部806の構成について図4
を用いて説明する。この例では声質変換指定レベルは5
段階となっている。ユーザから指定される発声速度レベ
ルおよび声質指定レベルがセレクタ1102に入力さ
れ、スイッチ1103を制御するための信号がスイッチ
1103に接続される。この時のスイッチ制御信号は、
発声速度が最高レベルの場合は無条件でc端子有効に
し、それ以外の場合は、声質指定レベルに応じた端子が
有効となる。すなわち、声質レベルが0の時はa端子、
レベル1の時はb端子、以下同様にレベル4の時e端子
がそれぞれ有効となる。スイッチ1103のa〜eの各
端子は、声質変換係数テーブル1104に接続され、そ
れぞれに対応した声質変換係数データが呼び出され、ス
イッチ1103の出力として声質係数選択部1101に
接続される。声質係数選択部1101は入力された声質
変換係数を合成パラメータ生成部807に出力する。
【0058】[動作]以上のように構成された第1の実
施の形態における動作について詳細に説明する。従来技
術と異なる点は、パラメータ生成に関わる処理であるの
で、それ以外の処理については説明を省略する。
【0059】テキスト解析部101で生成された中間言
語は、パラメータ生成部102内部の中間言語解析部8
01に送られる。中間言語解析部801では、中間言語
上に記述されているフレーズ区切り記号、単語区切り記
号、アクセント核を示すアクセント記号、そして音韻記
号列から、韻律生成に必要なデータを抽出して、ピッチ
パタン決定部802、音韻継続時間決定部803、音韻
パワー決定部804、音声素片決定部805、声質係数
決定部806のそれぞれの機能ブロックへ送る。
【0060】ピッチパタン決定部802では、声の高さ
の遷移であるイントネーションが生成され、音韻継続時
間決定803では、音韻個々の継続時間のほか、フレー
ズとフレーズの切れ目あるいは、文と文との切れ目に挿
入するポーズ長を決定する。また、音韻パワー決定部8
04では、音声波形の振幅値の遷移である音韻パワーが
生成され、音声素片決定部805では合成波形を生成す
るために必要となる音声素片の、素片辞書105におけ
るアドレスを決定する。声質係数決定部806では、素
片データを信号処理で加工するためのパラメータの決定
が行われる。ユーザから指定される韻律制御指定のう
ち、抑揚指定および声の高さ指定はピッチパタン決定部
802に、発声速度指定はピッチパタン決定部802と
音韻継続時間決定部803と声質係数決定部806に、
声の大きさ指定は音韻パワー決定部804に、話者指定
はピッチパタン決定部802と音声素片決定部805
に、声質指定は声質係数決定部806にそれぞれ送られ
ている。
【0061】以下に、それぞれの機能ブロックごとに動
作の説明を行う。まず、図2を用いて、ピッチパタン決
定部802の動作を詳細に説明する。中間言語解析部2
01から解析結果が制御要因設定部901に入力され
る。制御要因設定部901では、フレーズ成分、アクセ
ント成分の大きさを決定するために必要な制御要因の設
定を行う。フレーズ成分の大きさの決定に必要なデータ
とは、例えば、該当するフレーズを構成しているモーラ
総数、文内での相対位置、先頭単語のアクセント型とい
った情報である。一方、アクセント成分の大きさの決定
に必要なデータとは、例えば、該当するアクセント句の
アクセント型、構成しているモーラ総数、品詞、フレー
ズ内での相対位置といった情報である。これらの成分値
を決定するために予測テーブル909あるいは、規則テ
ーブル910が使用される。前者は、自然発声データを
基に数量化I類などの統計的手法を用いて予め学習した
テーブルであり、後者は、予備実験等の実施により経験
的に導き出された成分値が格納されたテーブルである。
数量化I類に関しては公知であるのでここでは説明を省
略する。どちらが選択されるかはスイッチ907により
制御され、スイッチ907がa端子に接続された場合は
予測テーブル909が、b端子に接続された場合は規則
テーブル910が選択されることになる。
【0062】ピッチパタン決定部802には、ユーザか
ら指定される発声速度レベルが入力されており、これに
よりセレクタ906を介してスイッチ907が駆動され
ている。セレクタ906は、入力された発声速度レベル
が最高速度であった時、スイッチ907をb端子側に接
続するような制御信号を送信する。逆に、入力された発
声速度レベルが最高速度ではない時、スイッチ907を
a端子側に接続するような制御信号を送信する。例え
ば、発声速度が5段階、レベル0からレベル4まで設定
でき、数値が大きくなる程発声速度が速くなる仕様の場
合、セレクタ906は、入力された発声速度レベルが4
の時だけスイッチ907をb端子に接続するような制御
信号を送信し、それ以外の時はa端子に接続するような
制御信号を送信する。すなわち、発声速度が最高速度の
場合は規則テーブル910が選択され、そうでない場合
は予測テーブル909が選択されることになる。
【0063】アクセント成分決定部902とフレーズ成
分決定部903は、選択されたテーブルを用いてそれぞ
れの成分値の算出を行う。予測テーブル909が選択さ
れた場合は、統計的手法を用いてアクセント・フレーズ
両成分の大きさを決定する。規則テーブル910が選択
された場合は、あらかじめ決められた規則に従ってアク
セント・フレーズ両成分の大きさを決定する。例えばフ
レーズ成分の大きさの規則化の例としては、文内の位置
で決定し、文先頭フレーズは一律に0.3、文終端フレ
ーズは一律に0.1、それ以外の文中フレーズは0.2
などが考えられる。アクセント成分の大きさに関して
も、アクセント型が1型の時とそれ以外の時、フレーズ
内での単語位置が先頭の場合とそうでない場合といった
具合に場合分けして、それぞれの条件に対して成分値を
割り当てておく。このような構成にすることで、フレー
ズ・アクセント両成分値の決定はテーブル参照を行うだ
けで行える。本発明におけるピッチパタン決定部の主題
は、統計的手法を用いてフレーズ・アクセント成分の大
きさを決定する場合と比較して、演算量が少なく済み、
処理時間の短縮が図れるモードを有する構成にすること
である。したがって、規則化手順は上記に限られるもの
ではない。
【0064】以上のような処理が施され決定したアクセ
ント成分、フレーズ成分は、ピッチパタン修正部904
で抑揚制御が行われ、基底ピッチ加算部905で声の高
さ制御が施される。
【0065】ピッチパタン修正部904はユーザから指
定される抑揚制御レベルに応じた係数を乗ずる操作が行
われる。ユーザからの抑揚制御指定は例えば、3段階で
与えられ、レベル1が抑揚を1.5倍に、レベル2が抑
揚を1.0倍に、レベル3が抑揚を0.5倍にといった
具合に定められている。
【0066】基底ピッチ加算部905では、抑揚修正さ
れたアクセント成分、フレーズ成分に対して、ユーザか
ら指定される声の高さレベルあるいは、話者指定(性
別)に応じた定数を加算する操作が行われ、ピッチパタ
ン時系列データとして合成パラメータ生成部807に送
られる。例えば、声の高さレベルが5段階、レベル0か
らレベル4まで設定できるシステムの場合、基底ピッチ
テーブル908に格納されているデータは男声音の場
合、3.0、3.2、3.4、3.6、3.8といった
数値、女性音の場合は、4.0、4.2、4.4、4.
6、4.8といった数値が良く用いられる。
【0067】次に音韻継続時間制御について図3を用い
てその動作について詳細に説明する。中間言語解析部2
01から解析結果が制御要因設定部1001に入力され
る。制御要因設定部1001では、音韻継続時間(子音
長・母音長・閉鎖区間長)、ポーズ長を決定するために
必要な制御要因の設定を行う。音韻継続時間の決定に必
要なデータとは、例えば、目標となる音韻の種別、対象
音節の前後近傍の音韻の種別あるいは、単語内・呼気段
落内の音節位置といった情報である。一方、ポーズ長決
定に必要なデータとは、前後隣接するフレーズのモーラ
総数といった情報である。これらの継続時間長を決定す
るために継続時間予測テーブル1006あるいは、継続
時間規則テーブル1007が使用される。前者は、自然
発声データを基に数量化I類などの統計的手法を用いて
予め学習したテーブルであり、後者は、予備実験等の実
施により経験的に導き出された成分値が格納されたテー
ブルである。どちらが選択されるかはスイッチ1005
により制御され、スイッチ1005がa端子に接続され
た場合は継続時間予測テーブル1006が、b端子に接
続された場合は継続時間規則テーブル1007が選択さ
れることになる。
【0068】音韻継続時間決定部803には、ユーザか
ら指定される発声速度レベルが入力されており、これに
よりセレクタ1004を介してスイッチ1005が駆動
されている。セレクタ1004は、入力された発声速度
レベルが最高速度であった時、スイッチ1005をb端
子側に接続するような制御信号を送信する。逆に、入力
された発声速度レベルが最高速度ではない時は、スイッ
チ1005をa端子側に接続するような制御信号を送信
する。例えば、発声速度が5段階、レベル0からレベル
4まで設定でき、数値が大きくなる程発声速度が速くな
る仕様の場合、セレクタ1004は、入力された発声速
度レベルが4の時だけスイッチ1005をb端子に接続
するような制御信号を送信し、それ以外の時はa端子に
接続するような制御信号を送信する。すなわち、発声速
度が最高速度の場合は継続時間規則テーブル1007が
選択され、そうでない場合は継続時間予測テーブル10
06が選択されることになる。
【0069】継続時間決定部1002は、選択されたテ
ーブルを用いて音韻継続時間、ポーズ長の算出を行う。
継続時間予測テーブル1006が選択された場合は、統
計的手法を用いて決定する。継続時間規則テーブル10
07が選択された場合は、あらかじめ決められた規則に
従って決定する。例えば音韻継続時間の規則化の例とし
ては、その音韻の種類、文内の位置などに応じて基本長
を割り当てておく。大量の自然発声データから音韻毎に
平均を算出し、これを基本長としてもよい。ポーズ長に
関しては、一律に300msを割り当てるか、あるい
は、テーブル参照を行うだけで決定できるような構成が
望ましい。本実施の形態における音韻継続時間決定部の
主題は、統計的手法を用いて継続時間を決定する場合と
比較して、演算量が少なく済み、処理時間の短縮が図れ
るモードを有する構成にすることである。したがって、
規則化手順は上記に限られるものではない。
【0070】以上のような処理が施され決定した継続時
間は、継続時間修正部1003に送られる。継続時間修
正部1003には、ユーザから指定される発声速度レベ
ルも同時に入力されており、このレベルに応じて音韻継
続時間の伸縮を行う。通常、発声速度指定は、5〜10
段階程度に制御され、それぞれのレベルに対してあらか
じめ割り当てられた定数を母音の継続時間長あるいは、
ポーズ長に対して乗ずることにより行われる。発声速度
を遅くしたい場合は音韻継続時間を長くし、発声速度を
速くしたい場合は音韻継続時間を短くする。
【0071】次に声質係数決定について図4を用いてそ
の動作について詳細に説明する。声質係数決定部806
には、ユーザから指定される声質変換レベルと、発声速
度レベルが入力される。これらの韻律制御パラメータ
は、セレクタ1102を介してスイッチ1103を制御
するために用いられる。セレクタ1102はまず、発声
速度レベルの判定を行う。発声速度レベルが最高速度の
場合は、スイッチ1103をc端子に接続し、最高速度
以外の場合は、声質変換レベルの判定を行う。この時
は、声質変換レベルに応じた端子に接続するようにスイ
ッチ1103を制御する。声質指定レベルが0の時はa
端子、レベル1の時はb端子、以下同様にレベル4の時
はe端子に接続する。スイッチ1103のa〜eの各端
子は、声質変換係数テーブル1104に接続され、それ
ぞれに対応した声質変換係数データが呼び出される機能
になっている。
【0072】声質変換係数テーブル1104には、音声
素片の伸縮係数が格納されており、例えば声質変換レベ
ルnに対応する伸縮係数をKを次のように定める。す
なわち、 K=2.0、K=1.5、K=1.0、K
0.8、K=0.5 のように設定する。これらの数値は、元となる音声素片
の長さをK倍に伸縮した後に波形重畳して合成音声を
生成するという意味である。レベル2の時は、係数値が
1.0なので声質変換のための処理は一切行われないこ
とになる。スイッチ1103のa端子に接続されている
場合は、係数Kが選択されて声質係数選択部1101
に送られる。スイッチ1103のb端子に接続されてい
る場合は、係数Kが選択されて声質係数選択部110
1に送られるといった具合である。
【0073】ここで、図5を参照しながら素片の線形伸
縮の方法の一例について述べる。声質変換レベルnにお
ける音声素片のデータの第mサンプル目をXnmとす
る。このように定義すると、声質変換後のデータ系列
は、変換前のデータ系列X2nを用いて以下のようにし
て算出することができる。即ち、 レベル0では、 X00 = X2001 = X20 × 1/2 + X21 × 1/2 X02 = X21 レベル1では、 X10 = X2011 = X20 × 1/3 + X21 × 2/3 X12 = X21 × 2/3 + X22 × 1/3 X13 = X22 レベル3では、 X30 = X2031 = X21 × 3/4 + X22 × 1/4 X32 = X22 × 1/2 + X23 × 1/2 X33 = X23 × 1/4 + X24 × 3/4 X34 = X25 レベル4では、 X40 = X2041 = X22 のようになる。上記は、声質変換のための一例であっ
て、これに限られるものではない。本実施の形態におけ
る声質係数決定部の主題は、発声速度レベルが最高速の
時に声質変換指定を無効とする機能を有することによ
り、処理時間の短縮を図ることである。
【0074】以上詳細に説明したように、第1の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、テキスト音声変換処理の中で演算負荷が大きい機能
ブロックを簡略化あるいは、無効にする処理を施してい
るため、高負荷による音切れが発生する機会を減少さ
せ、聞き易い合成音声を生成することが可能となる。
【0075】この場合、発声速度が最高レベル以外に設
定された時の合成音と比較して、ピッチや継続時間など
の韻律性能の若干の違い、声質変換機能が有効とならな
い、といったことが起きるが、最高速度での合成音出力
は通常、読み飛ばしという意味合いで利用される場合が
ほとんどある。したがって、音声出力されるテキストの
内容を把握・理解できれば良い、という程度の使用方法
なので声質変換機能の有無、あるいは韻律性能低下とい
った点は音切れ現象と比較すると許容できるものと考え
られる。
【0076】第2の実施の形態 [構成]第2の実施の形態における構成を図面を参照し
ながら詳細に説明する。本実施の形態が従来技術と異な
る点は、発声速度が最高速に設定された場合、すなわ
ち、早聞き機能が有効となった時にピッチパタン生成処
理を変更する点である。したがって、従来と異なるパラ
メータ生成部、ピッチパタン決定部についてのみ説明す
る。
【0077】図6は第2の実施の形態におけるパラメー
タ生成部の機能ブロック図を示しており、このブロック
図を用いて説明する。パラメータ生成部102への入力
は従来と同じく、テキスト解析部101から出力される
中間言語および、ユーザが個別に指定する韻律制御パラ
メータである。中間言語解析部1301には一文毎の中
間言語が入力され、以降の韻律生成処理で必要となる音
韻系列・フレーズ情報・アクセント情報などといった中
間言語解析結果が、それぞれピッチパタン決定部130
2、音韻継続時間決定部1303、音韻パワー決定部1
304、音声素片決定部1305、声質係数決定部13
06に出力される。
【0078】ピッチパタン決定部1302には、前述の
中間言語解析結果に加えてユーザからの抑揚指定・声の
高さ指定・発声速度指定・話者指定の各パラメータが入
力され、ピッチパタンが合成パラメータ生成部1307
に出力される。
【0079】音韻継続時間決定部1303には、前述の
中間言語解析結果に加えてユーザからの発声速度指定の
パラメータが入力され、それぞれの音韻継続時間・ポー
ズ長といったデータが合成パラメータ生成部1307に
出力される。
【0080】音韻パワー決定部1304には、前述の中
間言語解析結果に加えてユーザからの声の大きさ指定パ
ラメータが入力され、それぞれの音韻振幅係数が合成パ
ラメータ生成部1307に出力される。
【0081】音声素片決定部1305には、前述の中間
言語解析結果に加えてユーザからの話者指定パラメータ
が入力され、波形重畳するための必要な音声素片アドレ
スが合成パラメータ生成部1307に出力される。
【0082】声質係数決定部1306には、前述の中間
言語解析結果に加えてユーザからの声質指定・発声速度
指定の各パラメータが入力され、声質変換パラメータが
合成パラメータ生成部1307に出力される。
【0083】合成パラメータ生成部1307は、入力さ
れた各韻律パラメータ(前述したピッチパタン、音韻継
続時間、ポーズ長、音韻振幅係数、音声素片アドレス、
声質変換係数)を、フレーム(通常8ms程度の長さ)
を一つの単位とした波形生成用のパラメータに変換し、
波形生成部103に出力する。
【0084】パラメータ生成部102において、従来技
術と比較して異なる点は、発声速度指定パラメータが音
韻継続時間決定部1303のほかに、ピッチパタン決定
部1302に入力されている点と、ピッチパタン決定部
1302の内部処理である。テキスト解析部101およ
び波形生成部103においては、従来と同様であるた
め、その構成に関する説明は省略する。また、パラメー
タ生成部102の内部機能ブロックにおいても、ピッチ
パタン決定部1302以外は従来と同様であるため、そ
の構成に関する説明は省略する。
【0085】ピッチパタン決定部1302の構成につい
て図7を用いて説明する。中間言語解析部1301から
の出力は制御要因設定部1401に入力され、アクセン
ト・フレーズ両成分の決定のための要因パラメータの解
析が行われ、その出力がアクセント成分決定部1402
とフレーズ成分決定部1403に接続される。
【0086】アクセント成分決定部1402とフレーズ
成分決定部1403には、予測テーブル1408が接続
され、数量化I類等の統計的手法を用いてそれぞれの成
分の大きさを予測する。予測されたアクセント成分値、
フレーズ成分値はピッチパタン修正部1404に接続さ
れる。
【0087】ピッチパタン修正部1404にはユーザか
ら指定される抑揚指定レベルが入力され、該レベルに応
じて予め定められた定数が前述のアクセント成分、フレ
ーズ成分に乗じられ、その結果がスイッチ1405のa
端子に接続される。スイッチ1405にはさらにb端子
が存在し、セレクタ1406から出力される制御信号に
より、端子a、端子bのいずれかに接続されるように構
成されている。
【0088】セレクタ1406には、ユーザから指定さ
れる発声速度レベルが入力され、発声速度が最高レベル
の場合はスイッチ1405をb端子に接続し、それ以外
の場合はスイッチ1405をa端子に接続する制御信号
を出力する。スイッチ1405のb端子は常にグランド
に接続されており、スイッチ1405は、a端子が有効
の時はピッチパタン修正部1404からの出力を、b端
子が有効の時は0を基底ピッチ加算部1407に出力す
る機能を有している。
【0089】基底ピッチ加算部1407にはさらに、ユ
ーザから指定される声の高さレベル・話者指定および、
基底ピッチテーブル1409が接続されている。基底ピ
ッチテーブル1409には、ユーザ指定された声の高さ
レベルと話者の性別に応じて予め定められた定数値が格
納されており、スイッチ1405からの入力に加算して
ピッチパタン時系列データとして合成パラメータ生成部
1307に出力する。
【0090】[動作]以上のように構成された本発明の
第2の実施の形態における動作について詳細に説明す
る。
【0091】まず、テキスト解析部101で生成された
中間言語は、パラメータ生成部102内部の中間言語解
析部1301に送られる。中間言語解析部1301で
は、中間言語上に記述されているフレーズ区切り記号、
単語区切り記号、アクセント核を示すアクセント記号、
そして音韻記号列から、韻律生成に必要なデータを抽出
して、ピッチパタン決定部1302、音韻継続時間決定
部1303、音韻パワー決定部1304、音声素片決定
部1305、声質係数決定部1306のそれぞれの機能
ブロックへ送る。
【0092】ピッチパタン決定部1302では、声の高
さの遷移であるイントネーションが生成され、音韻継続
時間決定1303では、音韻個々の継続時間のほか、フ
レーズとフレーズの切れ目あるいは、文と文との切れ目
に挿入するポーズ長を決定する。また、音韻パワー決定
部1304では、音声波形の振幅値の遷移である音韻パ
ワーが生成され、音声素片決定部1305では合成波形
を生成するために必要となる音声素片の、素片辞書10
5におけるアドレスを決定する。声質係数決定部130
6では、素片データを信号処理で加工するためのパラメ
ータの決定が行われる。
【0093】ユーザから指定される種々の韻律制御指定
のうち、抑揚指定および声の高さ指定はピッチパタン決
定部1302に、発声速度指定はピッチパタン決定部1
302と音韻継続時間決定部1303に、声の大きさ指
定は音韻パワー決定部1304に、話者指定はピッチパ
タン決定部1302と音声素片決定部1305に、声質
指定は声質係数決定部1306にそれぞれ送られてい
る。
【0094】以下に図7を用いてピッチパタン決定部1
302の動作に関して説明する。従来技術と異なる点
は、ピッチパタン生成に関わる処理であるので、それ以
外の処理については省略する。
【0095】中間言語解析部201から解析結果が制御
要因設定部1401に入力される。制御要因設定部14
01では、フレーズ成分、アクセント成分の大きさを予
測するために必要な制御要因の設定を行う。フレーズ成
分の大きさの予測に必要なデータとは、例えば、該当す
るフレーズを構成しているモーラ総数、文内での相対位
置、先頭単語のアクセント型といった情報である。一
方、アクセント成分の大きさの予測に必要なデータと
は、例えば、該当するアクセント句のアクセント型、構
成しているモーラ総数、品詞、フレーズ内での相対位置
といった情報である。これらの成分値を決定するために
予測テーブル1408が使用される。予測テーブル14
08は、自然発声データを基に数量化I類などの統計的
手法を用いて予め学習したテーブルである。数量化I類
に関しては公知であるのでここでは説明を省略する。
【0096】制御要因設定部1401で解析された予測
制御要因は、アクセント成分決定部1402とフレーズ
成分決定部1403に送られ、それぞれにおいてアクセ
ント成分の大きさ、フレーズ成分の大きさが予測テーブ
ル1408を用いて予測される。第1の実施の形態でも
示したように、予測モデルを使わずに規則でそれぞれの
成分値を決定しても構わない。算出されたアクセント成
分、フレーズ成分は、ピッチパタン修正部1404に送
られ、ユーザから指定される抑揚指定レベルに応じた係
数を乗ずる操作が行われる。
【0097】ユーザからの抑揚制御指定は例えば、3段
階で与えられ、レベル1が抑揚を1.5倍に、レベル2
が抑揚を1.0倍に、レベル3が抑揚を0.5倍にとい
った具合に定められている。
【0098】修正されたアクセント、フレーズ両成分は
スイッチ1405のa端子に送られる。スイッチ140
5は、a、b、2つの端子を有しており、セレクタ14
06からの制御信号によりどちらかの端子に接続するよ
うな機能になっている。一方のb端子は常に0が入力さ
れるようになっている。
【0099】セレクタ1406にはユーザからの発声速
度レベルが入力されており、これにより出力制御が行わ
れている。セレクタ1406は、入力された発声速度レ
ベルが最高速度であった時、スイッチ1405をb端子
側に接続するような制御信号を送信する。逆に、入力さ
れた発声速度レベルが最高速度ではない時、スイッチ1
405をa端子側に接続するような制御信号を送信す
る。例えば、発声速度が5段階、レベル0からレベル4
まで設定でき、数値が大きくなる程発声速度が速くなる
仕様の場合、セレクタ1406は、入力された発声速度
レベルが4の時だけスイッチ1405をb端子に接続す
るような制御信号を送信し、それ以外の時はa端子に接
続するような制御信号を送信する。すなわち、発声速度
が最高速度の場合は0が選択され、そうでない場合は、
ピッチパタン修正部1404の出力である修正されたア
クセント成分値とフレーズ成分値が選択されることにな
る。
【0100】選択されたデータは基底ピッチ加算部14
07に送られる。基底ピッチ加算部1407にはユーザ
からの声の高さ指定レベルが入力されており、基底ピッ
チテーブル1409から該レベルに対応する基底ピッチ
データが読み出され、前述のスイッチ1405からの出
力値との加算処理が施され、ピッチパタンの時系列デー
タとして合成パラメータ生成部1307に出力される。
【0101】例えば、声の高さレベルが5段階、レベル
0からレベル4まで設定できるシステムの場合、基底ピ
ッチテーブル1409に格納されているデータは男声音
の場合、3.0、3.2、3.4、3.6、3.8とい
った数値、女性音の場合は、4.0、4.2、4.4、
4.6、4.8といった数値が良く用いられる。
【0102】上記の例では、ピッチパタン修正部140
4の出力と数値0とをスイッチ1405で切り替える処
理を行っているが、無論、発声速度指定が最高レベルの
時は、制御要因設定部1401からピッチパタン修正部
1404までの処理は不要になる。
【0103】図8に第2の実施の形態におけるピッチパ
タン生成処理のフローチャートを示す。ここで図中の記
号は以下の通りとする。すなわち、入力文章中に含まれ
るフレーズ総数をI、単語総数をJ、第i番目のフレー
ズ成分の大きさをApi、第j番目のアクセント成分の
大きさをAaj、第j番目のアクセント句に対して指定
される抑揚制御係数E、とする。
【0104】ステップST101からステップST10
6にかけては、フレーズ成分の大きさApiの算出を行
う。まずステップST101で、フレーズカウンタiを
0に初期化する。次いでステップST102で発声速度
レベルの判定を行い、発声速度が最高速度である場合は
ステップST104に進み、そうでない場合はステップ
ST103に進む。ステップST104では、第i番目
のフレーズ成分の大きさApiを0に設定してステップ
ST105に進む。一方ステップST103では数量化
I類などの統計的手法を用いて第i番目のフレーズ成分
の大きさApiが予測され、ステップST105に進
む。ステップST105においては、フレーズカウンタ
iを1インクリメントする。次いでステップST106
で入力文章中のフレーズ総数Iとの比較を行い、フレー
ズカウンタiが文内フレーズ総数Iを超えた場合、すな
わち全てのフレーズに対する処理が終了した場合にフレ
ーズ成分生成処理を終え、ステップST107に進む。
そうでない場合は、ステップST102に戻り次のフレ
ーズに対する処理を前述と同様に繰り返す。
【0105】ステップST107からステップST11
3にかけては、アクセント成分の大きさAajの算出を
行う。まずステップST107で、単語カウンタjを0
に初期化する。次いでステップST108で発声速度レ
ベルの判定を行い、発声速度が最高速度である場合はス
テップST111に進み、そうでない場合はステップS
T109に進む。ステップST111では、第j番目の
アクセント成分の大きさAajを0に設定してステップ
ST112に進む。一方ステップST109では数量化
I類などの統計的手法を用いて第j番目のアクセント成
分の大きさA が予測され、ステップST110に進
む。ステップST110では、第j番目のアクセント句
に対して抑揚修正処理が下式により行われる。Aaj
= Aaj × E …(4)
【0106】ここでEjは、ユーザが指定する抑揚制御
レベルに応じてあらかじめ定められている抑揚制御係数
であり、先にも説明したように例えば抑揚制御レベルが
3段階で与えられ、レベル0が抑揚を1.5倍に、レベ
ル1が抑揚を1.0倍に、レベル2が抑揚を0.5倍に
といった場合は以下のようになる。 レベル0(抑揚を1.5倍) E = 1.5 レベル1(抑揚を1.0倍) E = 1.0 レベル2(抑揚を0.5倍) E = 0.5
【0107】抑揚修正終了後ステップST112に進
む。ステップST112においては、単語カウンタjを
1インクリメントする。次いでステップST113で入
力文章中の単語総数Jとの比較を行い、単語カウンタj
が文内単語総数Jを超えた場合、すなわち全て単語に対
する処理が終了した場合にアクセント成分生成処理を終
え、ステップST114に進む。そうでない場合は、ス
テップST108に戻り次のアクセント句に対する処理
を前述と同様に繰り返す。
【0108】ステップST114では、上記の処理で決
定されたフレーズ成分値Apiとアクセント成分値A
aj、基底ピッチテーブル1409を参照して得られる
基底ピッチln Fminとから式(1)によりピッチ
パタンを生成する。
【0109】以上詳細に説明したように本発明の第2の
実施の形態によれば、発声速度が既定値最大に設定され
た場合に、ピッチパタンの抑揚成分を0にしてピッチパ
タン生成を行うため、時間的に速い周期で抑揚が変動す
ることがなくなり、非常に聞き取りにくい合成音となる
ことが解消される。
【0110】図9は従来技術における発声速度によるピ
ッチパタンの違いの説明図である。上段(a)が通常発
声速度の場合であり、下段(b)が最高速度の場合であ
る。横軸が時間であり、図中点線で示す曲線がフレーズ
成分を表わし、実線で示す曲線がアクセント成分に対応
している。最高速度が通常速度の2倍だとすると、生成
される波形は通常時の約1/2となる。(T=T
2)ピッチパタンの遷移も発声速度に比例して速くなる
ため、合成音声の抑揚は非常に速い周期での変動となる
ことが図を見ても分かる。しかし実際の発声においては
発声速度に応じて、フレーズの結合によるフレーズ境界
の消失、アクセント結合によるアクセント句境界の消失
といった現象が見られるため図(b)のようにはならな
い。発声速度が速くなるにつれて、ピッチパタンの変化
も相対的に緩やかになることが多い。
【0111】例えば図9の例で言えば2つのフレーズで
構成されているが、これが1つのフレーズとして結合す
るといった現象が確認されている。従来技術において
は、この点を考慮に入れておらず、非常に聞きづらい合
成音声となっていたが、第2の実施の形態によれば、抑
揚成分を0にすることで聞き取り易い合成音声を生成す
ることが可能となる。
【0112】抑揚成分を0にすることで抑揚の全くな
い、平坦なロボット音声のようになってしまうが、最高
速度での合成音出力は通常、読み飛ばしという意味合い
で利用される場合がほとんどある。したがって、音声出
力されるテキストの内容を把握・理解できれば良い、と
いう程度の使用方法なので、抑揚のない合成音声は使用
に耐え得るものである。
【0113】第3の実施の形態 [構成]発明の第3の実施の形態における構成を図面を
参照しながら詳細に説明する。本実施の形態が従来技術
と異なる点は、文章間に合図音を入れることで文と文と
の境界を明示する点である。
【0114】図10は、第3の実施の形態におけるパラ
メータ生成部102の機能ブロック図であり、この図を
用いて説明する。パラメータ生成部102への入力は従
来と同じく、テキスト解析部101から出力される中間
言語および、ユーザが個別に指定する韻律制御パラメー
タである。ユーザからの韻律制御指定には、従来技術あ
るいは第1、第2の実施の形態にはないパラメータとし
て、合図音指定入力がある。これは後述する、文章間に
挿入する合図音の種類を指定するための入力である。
【0115】中間言語解析部1701には一文毎の中間
言語が入力され、以降の韻律生成処理で必要となる音韻
系列・フレーズ情報・アクセント情報などといった中間
言語解析結果が、それぞれピッチパタン決定部170
2、音韻継続時間決定部1703、音韻パワー決定部1
704、音声素片決定部1705、声質係数決定部17
06に出力される。
【0116】ピッチパタン決定部1702には、前述の
中間言語解析結果に加えてユーザからの抑揚指定・声の
高さ指定・発声速度指定・話者指定の各パラメータが入
力され、ピッチパタンが合成パラメータ生成部1708
に出力される。
【0117】音韻継続時間決定部1703には、前述の
中間言語解析結果に加えてユーザからの発声速度指定の
パラメータが入力され、それぞれの音韻継続時間・ポー
ズ長といったデータが合成パラメータ生成部1708に
出力される。
【0118】音韻パワー決定部1704には、前述の中
間言語解析結果に加えてユーザからの声の大きさ指定パ
ラメータが入力され、それぞれの音韻振幅係数が合成パ
ラメータ生成部1708に出力される。
【0119】音声素片決定部1705には、前述の中間
言語解析結果に加えてユーザからの話者指定パラメータ
が入力され、波形重畳するための必要な音声素片アドレ
スが合成パラメータ生成部1708に出力される。
【0120】声質係数決定部1706には、前述の中間
言語解析結果に加えてユーザからの声質指定パラメータ
が入力され、声質変換パラメータが合成パラメータ生成
部1708に出力される。
【0121】合図音決定部1707には、ユーザからの
発声速度指定・合図音指定パラメータが入力され、合図
音の種類および制御用のための合図音制御信号が波形生
成部103に出力される。
【0122】合成パラメータ生成部1708は、入力さ
れた各韻律パラメータ(前述したピッチパタン、音韻継
続時間、ポーズ長、音韻振幅係数、音声素片アドレス、
声質変換係数)から、フレーム(通常8ms程度の長
さ)を一つの単位とした波形生成用のパラメータに変換
し、波形生成部103に出力する。
【0123】パラメータ生成部102において、従来技
術と比較して異なる点は、合図音決定部1707が新た
な機能ブロックとして存在していることと、その入力パ
ラメータとしてユーザから合図音指定がある点および、
波形生成部103の内部構成である。テキスト解析部1
01においては、従来と同様であるため、その構成に関
する説明は省略する。
【0124】はじめに合図音決定部1707の構成につ
いて図11を用いて説明する。図に示すように、合図音
決定部1707は単にスイッチの役割を果たす機能ブロ
ックである。ユーザから指定される発声速度レベルはス
イッチ1801の制御用端子に接続され、同じくユーザ
から指定される合図音コードがスイッチ1801のa端
子に接続される。スイッチ1801のb端子は常にグラ
ンドに接続されている。スイッチ1801は、発声速度
レベルによって、端子a、端子bのいずかに接続される
ように構成されている。発声速度が最高レベルの場合は
スイッチ1801をa端子に接続し、それ以外の場合は
スイッチ1801をb端子に接続する。すなわちスイッ
チ1801は、発声速度が最高レベルの時には合図音コ
ードを、それ以外の時には0を出力する構成となってい
る。スイッチ1801の出力は、合図音制御信号として
波形生成部103に出力される。
【0125】次に波形生成部103の構成について図1
2を用いて説明する。第3の実施の形態においては、波
形生成部103は、素片復号部1901と振幅制御部1
902と素片加工部1903と重畳制御部1904と合
図音制御部1905とDAリングバッファ1906の各
機能ブロック、および合図音辞書1907とから構成さ
れている。
【0126】前述したパラメータ生成部102からの出
力は、合成パラメータとして素片復号部1901に入力
される。素片復号部1901には素片辞書105が接続
されており、入力された合成パラメータのうち、素片ア
ドレスを参照ポインタとして素片辞書105から素片デ
ータをロードし、必要に応じて復号処理を行い、復号素
片データを振幅制御部1902に出力する。素片辞書1
05には、音声を合成するための元となる音声素片デー
タが格納されており、記憶容量の節約のために何らかの
圧縮処理が施されている場合がある。この時は復号処理
を施し、その必要がない非圧縮素片の場合は、単に読み
込んでくるだけの処理となる。
【0127】振幅制御部1902には、前述の復号後の
音声素片データと合成パラメータとが入力されており、
合成パラメータのうち音韻振幅係数によって素片データ
のパワー制御が行われ、素片加工部1903に出力され
る。
【0128】素片加工部1903には、前述の振幅制御
された素片データと合成パラメータとが入力されてお
り、合成パラメータのうち声質変換係数によって素片デ
ータの伸縮処理が施され、重畳制御部1904に出力さ
れる。
【0129】重畳制御部1904には、前述の伸縮処理
が施された素片データと合成パラメータとが入力されて
おり、合成パラメータのうちピッチパタン、音韻継続時
間、ポーズ長といったパラメータを用いて素片データの
波形重畳処理を施す。重畳制御部1904で生成される
波形は、逐次DAリングバッファ1906に出力され書
き込まれる。DAリングバッファ1906に書き込まれ
たデータは、当該テキスト音声変換システムで設定され
ている出力サンプリング周期で、図示していないDAコ
ンバータに送られ、合成音がスピーカなどから出力され
る。
【0130】波形生成部103には、前述したパラメー
タ生成部102からの出力として合図音制御信号が合図
音制御部1905に入力される。合図音制御部1905
にはさらに合図音辞書1907が接続されており、これ
に格納されているデータを必要に応じて加工してDAリ
ングバッファ1906に出力する。ただし書き込むタイ
ミングは、重畳制御部1904が1文章分の合成波形を
出力し終えた後あるいは、合成波形を書き込む前とす
る。
【0131】合図音辞書1907には例えば、各種効果
音データのPCM(Pulse Code Modul
ation)データで構築されている構成でも、基準正
弦波データが格納された構成でも、どの形態でも構わな
い。この場合、合図音制御部1905は、前者の辞書構
成においては合図音辞書1907からデータを読み出し
てきて、そのままDAリングバッファ1906に出力
し、後者の辞書構成においては合図音辞書1907から
データを読み出し、それを繰り返しつなぎ合わせるなど
して出力する。合図音制御部1905に接続されている
合図音制御信号が0の場合は、DAリングバッファ19
06に出力する処理は行わない。
【0132】[動作]以上のように構成された第3の実
施の形態における動作について図10〜図12を用いて
詳細に説明する。従来技術と異なる点は、ピッチパタン
生成と波形生成に関わる処理であるので、それ以外の処
理については省略する。
【0133】まず、テキスト解析部101で生成された
中間言語は、パラメータ生成部102内部の中間言語解
析部1701に送られる。中間言語解析部1701で
は、中間言語上に記述されているフレーズ区切り記号、
単語区切り記号、アクセント核を示すアクセント記号、
そして音韻記号列から、韻律生成に必要なデータを抽出
して、ピッチパタン決定部1702、音韻継続時間決定
部1703、音韻パワー決定部1704、音声素片決定
部1705、声質係数決定部1706のそれぞれの機能
ブロックへ送る。
【0134】ピッチパタン決定部1702では、声の高
さの遷移であるイントネーションが生成され、音韻継続
時間決定1703では、音韻個々の継続時間のほか、フ
レーズとフレーズの切れ目あるいは、文と文との切れ目
に挿入するポーズ長を決定する。また、音韻パワー決定
部1704では、音声波形の振幅値の遷移である音韻パ
ワーが生成され、音声素片決定部1705では合成波形
を生成するために必要となる音声素片の、素片辞書10
5におけるアドレスを決定する。声質係数決定部170
6では、素片データを信号処理で加工するためのパラメ
ータの決定が行われる。ユーザから指定される韻律制御
指定のうち、抑揚指定および声の高さ指定はピッチパタ
ン決定部1702に、発声速度指定は音韻継続時間決定
部1703と合図音決定部1707に、声の大きさ指定
は音韻パワー決定部1704に、話者指定はピッチパタ
ン決定部1702と音声素片決定部1705に、声質指
定は声質係数決定部1706に、合図音指定は合図音決
定部1707に、それぞれ送られている。
【0135】各機能ブロックのうち、ピッチパタン決定
部1702、音韻継続時間決定部1703、音韻パワー
決定部1704、音声素片決定部1705、声質係数決
定部1706については、従来技術と同様であるのでこ
こでは説明を省略する。
【0136】第3の実施の形態におけるパラメータ生成
部102が従来技術と異なる点は、合図音決定部170
7が新たに加えられたことであるので、合図音決定部1
707の動作について図11を用いて説明する。図に示
すように、合図音決定部1707は単にスイッチの役割
を果たす機能ブロックである。スイッチ1801は、ユ
ーザから指定される発声速度レベルによって制御される
ような構成を有しており、これにより端子a、端子bの
いずれかに接続されるようになっている。制御信号であ
る発声速度レベルが最高速度の時は、スイッチ1801
をa端子に接続し、それ以外の場合はスイッチ1801
をb端子に接続する。a端子には、ユーザから指定され
る合図音コードが入力されており、b端子にはグランド
・レベルすなわち0が入力されている。すなわちスイッ
チ1801は、発声速度が最高レベルの時には合図音コ
ードを、それ以外の時には0を出力する構成となってい
る。スイッチ1801の出力は、合図音制御信号として
波形生成部103に送られる。
【0137】次に波形生成部103の動作について図1
2を用いて説明する。パラメータ生成部102内の合成
パラメータ生成部1708で生成された合成パラメータ
は、波形生成部103内の素片復号部1901と振幅制
御部1902と素片加工部1903と重畳制御部190
4に送られる。
【0138】素片復号部1901では、合成パラメータ
のうち、素片アドレスを参照ポインタとして素片辞書1
05から素片データをロードし、必要に応じて復号処理
を行い、復号素片データを振幅制御部1902に送る。
素片辞書105には合成波形を生成するための元となる
音声素片が格納されており、これをピッチパタンで示さ
れる周期で重ね合わせていくことにより音声波形を生成
するしくみとなっている。
【0139】ここで音声素片とは、接続して合成波形を
作るための音声の基本単位で、音の種類等に応じて様々
なものが用意されている。一般的に、CV、VV、VC
V、CVC(C:子音、V:母音)といった音韻連鎖で
構成されている場合が多い。上記のように、同じ音韻の
素片であっても、前後の音韻環境によって様々な単位で
構築されているためデータ容量は膨大となる。そのため
通常は、ADPCM(Adaptive Differ
ential PCM)符号化や、周波数パラメータと
駆動音源データの対で構成するといった、圧縮技術を施
す場合が多い。無論、圧縮を行わずPCMデータとして
構築されている場合もある。素片復号部1901によっ
て復元された音声素片データは、振幅制御部1902に
送られパワー制御が施される。
【0140】振幅制御部1902には、合成パラメータ
のうち振幅係数が入力されており、先の音声素片データ
に乗じられて振幅制御が施される。振幅係数は、ユーザ
から指定される声の大きさレベル、音韻の種類、呼気段
落内での音節位置、該音韻内での位置(立ち上がり区間
・定常区間・立ち下がり区間)など、様々な情報から経
験的に決定されている。振幅制御された音声素片は、素
片加工部1903に送られる。
【0141】素片加工部1903では、ユーザから指定
された声質変換レベルに応じて素片データの伸縮処理
(リサンプリング)が施される。声質変換とは、素片辞
書105に登録されている素片データに、信号処理等の
加工を施すことにより、聴感上、別話者として取り扱え
るようにした機能である。一般に、素片データを線形に
伸縮する処理を施して実現する場合が多い。伸長処理
は、素片データのオーバーサンプリング処理で実現さ
れ、太い声となる。逆に縮小処理は、素片データのダウ
ンサンプリング処理で実現され、細い声となる。同一デ
ータで別話者を実現するための機能であるため、声質変
換処理は上記の手法に限るものではない。また、ユーザ
からの声質変換指定がない場合は当然のことながら、素
片加工部1903での処理は一切行われない。
【0142】以上の処理によって生成された音声素片
は、重畳制御部1904で波形重畳処理が施される。一
般的に、ピッチパタンで示されたピッチ周期で素片デー
タをずらしながら重ね合わせて加算するという手法が用
いられる。
【0143】このようにして生成された合成波形は、逐
次DAリングバッファ1906に書き込まれ、当該テキ
スト音声変換システムで設定されている出力サンプリン
グ周期で、図示していないDAコンバータに送られ、合
成音がスピーカなどから出力される。
【0144】波形生成部103にはさらに、パラメータ
生成部102内の合図音決定部1707から送られる合
図音制御信号が入力されている。合図音制御信号は、合
図音制御部1905を介して合図音辞書1907に登録
されているデータをDAリングバッファ1906に書き
込むための信号である。合図音制御信号が0の場合、す
なわち前述したように、ユーザから指定される発声速度
が最高速度レベルではない時は、合図音制御部1905
は一切の処理を行わない。0以外の場合、すなわち前述
したように、ユーザから指定される発声速度が最高速度
レベルの時は、合図音制御信号を合図音の種類とみなし
て合図音辞書1907からのデータロードを行う。
【0145】例えば、合図音の種類を3種類設ける。合
図音辞書1907には、例えば、500Hzの正弦波デ
ータ、1KHzの正弦波データ、2KHzの正弦波デー
タがそれぞれ1周期分格納されており、それらを複数回
繰り返し接続することにより「ピッ」という合図音を生
成することとする。合図音制御信号の取り得る値は、
0、1、2、3の4種類となり、0の時は一切の処理を
行わず、1の時は合図音辞書1907から500Hzの
正弦波データを読み出してきて、それらを既定回繰り返
し接続してDAリングバッファ1906に書き込む。1
の時は合図音辞書1907から1KHzの正弦波データ
を読み出してきて、それらを既定回繰り返し接続してD
Aリングバッファ1906に書き込む。2の時は合図音
辞書1907から2KHzの正弦波データを読み出して
きて、それらを既定回繰り返し接続してDAリングバッ
ファ1906に書き込む。ただし書き込むタイミング
は、重畳制御部1904が1文章分の合成波形を出力し
終えた後あるいは、合成波形を書き込む前である。した
がって、合図音が出力されるのは文章間ということにな
る。出力される正弦波データは、100ms〜200m
s程度が適当と思われる。
【0146】また、正弦波データではなく、出力される
べき合図音を直接PCMデータとして合図音辞書190
7に格納しておくという構成でも構わない。この場合、
合図音辞書1907からデータを読み出してきて、その
ままDAリングバッファ1906に出力する処理が施さ
れることになる。
【0147】以上詳細に説明したように、第3の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、文章と文章の間に合図音を挿入する機能を有してい
るため、早聞き機能有効時での従来技術での問題点であ
る、文境界が把握しにくく、読上げテキストの内容理解
が困難であるといったことが解消される。
【0148】例えば、以下の文言をテキスト合成する場
合を考える。「出席予定者:開発部 山田部長。企画室
斉藤室長。営業1部 渡辺部長。」処理単位、すなわ
ち1文章の区切り記号は句点「。」とすると、上記の文
言は以下の3文章からなる。 (1)「出席予定者:開発部 山田部長。」 (2)「企画室 斉藤室長。」 (3)「営業1部 渡辺部長。」 従来技術によれば、発声速度が速くなるとそれぞれの文
終端におけるポーズ長も短くなるため、文章(1)の最
後の「山田部長」という合成音声と、文章(2)の先頭
の「企画室」という合成音声がほぼ連続して出力される
ため、「山田部長」=「企画室」というような誤った認
識を受ける場合も発生する。
【0149】しかしながら、第3の実施の形態によれ
ば、「山田部長」という合成音声と、「企画室」という
合成音声の間に、例えば「ピッ」という合図音が挿入さ
れるため、上記のような誤認識は発生しない。
【0150】第4の実施の形態 [構成]本発明の第4の実施の形態における構成を図1
3を参照しながら詳細に説明する。この実施の形態が従
来技術と異なる点は、早聞き機能有効時の音韻継続時間
の伸縮率決定の際に、現在処理中のテキストが文内にお
ける先頭単語あるいは先頭フレーズであるかを判定し
て、その結果により伸縮係数を決定する点である。した
がって、従来と異なる音韻継続時間決定部についてのみ
説明し、それ以外の機能ブロックすなわち、テキスト解
析部、波形生成部、音韻継続時間決定部以外のパラメー
タ生成部内部モジュールについては説明を省略する。
【0151】音韻継続時間決定部203への入力は従来
と同じく、中間言語解析部201からの音韻・韻律情報
を含んだ解析結果および、ユーザからの指定される発声
速度レベルである。1文章に対する中間言語解析結果は
制御要因設定部2001と単語カウンタ2005とに接
続されている。制御要因設定部2001では、音韻継続
時間決定のために必要な制御要因パラメータの解析が行
われ、その出力が継続時間推定部2002に接続され
る。継続時間の決定には数量化I類等の統計的手法を用
いており、例えば、音韻長は通常、目標となる音韻の前
後近傍の音韻の種別あるいは、単語内・呼気段落内の音
節位置などにより予測され、ポーズ長は、前後隣接する
フレーズのモーラ総数などといった情報から予測が行わ
れる場合が多い。制御要因設定部2001はこれら予測
に必要な情報の抽出を行っている。
【0152】継続時間推定部2002には、継続時間予
測テーブル2004が接続されており、これを用いて継
続時間の予測が行われ、継続時間修正部2003に出力
される。継続時間予測テーブル2004は、大量の自然
発声データを基に数量化I類などの統計的手法を用いて
予め学習されたデータである。
【0153】一方、単語カウンタ2005では、現在解
析中の音韻が、文章内のおける先頭単語あるいは先頭フ
レーズに含まれているのか、そうでないのかの判定を行
い、その結果を伸縮係数決定部2006に出力する。
【0154】伸縮係数決定部2006にはさらに、ユー
ザから指定される発声速度レベルが入力されており、現
在処理中の音韻に対する音韻継続時間長の修正係数を決
定する機能を有しており、これを継続時間修正部200
3に接続している。
【0155】継続時間修正部2003では、継続時間推
定部2002で予測された音韻継続時間に対して、伸縮
係数決定部2006で決定された伸縮係数を乗じること
により、音韻継続時間の修正を行い合成パラメータ生成
部に出力する。
【0156】[動作]以上のように構成された本発明の
第4の実施の形態における動作について図13〜図14
を用いて詳細に説明する。従来技術と異なる点は、音韻
継続時間決定に関わる処理であるので、それ以外の処理
については省略する。
【0157】中間言語解析部201から1文章に対応す
る解析結果が制御要因設定部2001と単語カウンタ2
005に入力される。制御要因設定部2001では、音
韻継続時間(子音長・母音長・閉鎖区間長)、ポーズ長
を決定するために必要な制御要因の設定を行う。音韻継
続時間の決定に必要なデータとは、例えば、目標となる
音韻の種別、対象音節の前後近傍の音韻の種別あるい
は、単語内・呼気段落内の音節位置といった情報であ
る。一方、ポーズ長決定に必要なデータとは、前後隣接
するフレーズのモーラ総数といった情報である。これら
の継続時間長を決定するために継続時間予測テーブル2
004が使用される。
【0158】継続時間予測テーブル2004は、自然発
声データを基に数量化I類などの統計的手法を用いて予
め学習したテーブルである。継続時間推定部2002
は、このテーブルを参照しながら音韻継続時間、ポーズ
長の予測を行う。継続時間推定部2002で算出される
個々の音韻継続時間長は、通常発声速度の場合のもので
ある。これらは、継続時間修正部2003において、ユ
ーザから指定された発声速度に応じて修正が施される構
成となっている。通常、発声速度指定は、5〜10段階
程度に制御され、それぞれのレベルに対してあらかじめ
割り当てられた定数を乗ずることにより行われる。発声
速度を遅くしたい場合は音韻継続時間を長くし、発声速
度を速くしたい場合は音韻継続時間を短くする。
【0159】一方、単語カウンタ2005にも、中間言
語解析部201から1文章に対応する解析結果が入力さ
れており、現在解析中の音韻が、文章内のおける先頭単
語あるいは先頭フレーズに含まれているのか、そうでな
いのかの判定が行われる。本実施の形態では、文章内に
おける先頭単語であるか否かの判定を行う機能として説
明を行う。単語カウンタ2005から送られる判定結果
は、該音韻が文内先頭単語に含まれている場合にTRU
E、そうでない場合にFALSEを出力することとす
る。単語カウンタ2005での判定結果は伸縮係数決定
部2006に送られる。
【0160】伸縮係数決定部2006には前述の単語カ
ウンタ2005からの判定結果に加えて、ユーザから指
定される発声速度レベルが入力されており、これら2つ
のパラメータから該音韻の伸縮係数の算出を行う。例え
ば、発声速度レベルが5段階に制御され、発声速度が遅
い方からレベル0、レベル1、レベル2、レベル3、レ
ベル4まで指定可能だとする。それぞれのレベルnに対
応した定数Tを次のように定める。すなわち、T
2.0、T=1.5、T=1.0、T=0.7
5、T=0.5とする。通常発声速度はレベル2とな
り、早聞き機能が有効とされると発声速度はレベル4に
設定されることになる。単語カウンタ2005からの信
号がTRUEの場合、発声速度レベルが0〜3まで範囲
であれば上記Tをそのまま継続時間修正部2003に
出力する。発声速度レベルが4であれば、通常発声時の
T2の数値を出力する。単語カウンタ2005からの信
号がFALSEの場合は、発声速度レベルに関わらず上
記Tをそのまま継続時間修正部2003に出力する。
【0161】継続時間修正部2003では、継続時間推
定部2002から送られる音韻継続時間長に対して、伸
縮係数決定部2006からの伸縮係数を乗じて修正を施
す。ただし修正を行うのは通常、母音長のみである。発
声速度レベルに応じた修正が施された音韻継続時間は合
成パラメータ生成部へ送られる。
【0162】さらに詳細に説明するために図14に継続
時間決定処理のフローチャートを示す。ここで図中の記
号は以下の通りとする。すなわち、入力文章中に含まれ
る単語総数をI、第i番目の単語を構成する音韻に対す
る継続時間修正係数をTC、ユーザから指定される発
声速度レベルをlev(ただし範囲は0〜4までの5段
階とし、数値が多いほど速度が速いこととする)、発声
速度がレベルnの時の伸縮係数をT(n)、第i番目の
単語の第j番目の母音長をTij、単語を構成する音節
数はそれぞれの単語によって変わるがここでは簡単化の
ために一律Jとする。
【0163】まずステップST201で単語数カウンタ
iを0に初期化する。次いでステップST202で単語
数と発声速度レベルの判定が行われる。現在処理中の単
語数カウンタが0でかつ、発声速度レベルが4の時、こ
れはすなわち、現在処理している音節が文内先頭単語に
属しており、かつ発声速度が最高レベルの時であるが、
この時はステップST204に進み、そうでないときは
ステップST203に進む。ステップST204では発
声速度レベル2の値が修正係数として選択され、ステッ
プST205に進む。すなわち、 TC = T(2) …(5) となる。
【0164】ステップST203では、ユーザから指定
されたレベル通りの修正係数が選択され、ステップST
205に進む。すなわち、 TC = T(lev) …(6) となる。
【0165】ステップST205では、音節カウンタj
が0に初期化されステップST206に進む。ステップ
ST206では第i番目の単語の第j番目の母音の継続
時間Tijが、先に求められた修正係数TCによって
下式を用いて行われる。 Tij = Tij × TC …(7)
【0166】次いでステップST207で音節カウンタ
jが1インクリメントされステップST208に進む。
ステップST208では、音節カウンタjと該単語の音
節総数Jとの比較を行い、音節カウンタjが音節総数J
を超えた場合、すなわち該単語の全ての音節に対する処
理が終了した場合にステップST209に進む。そうで
ない場合は、ステップST206に戻り次の音節に対す
る処理を前述と同様に繰り返す。
【0167】ステップST209では単語数カウンタi
が1インクリメントされ、次のステップST210に進
む。
【0168】ステップST210では、単語数カウンタ
iと単語総数Iとの比較を行い、単語数カウンタiが単
語総数Iを超えた場合、すなわち入力文章中の全て単語
に対する処理が終了した場合は処理を終了し、そうでな
い場合は、ステップST202に戻り次の単語に対する
処理を前述と同様に繰り返す。
【0169】上記の処理により、ユーザから指定される
発声速度レベルが最高速度となっても、文章先頭単語だ
けは通常の発声速度での合成音が生成されることにな
る。
【0170】以上詳細に説明したように、第4の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、文先頭の単語に対して音韻継続時間制御を通常の発
声速度として処理するため、ユーザが早聞き機能解除の
タイミングを計りやすいという効果がある。例えば、ソ
フトウェア仕様書などのマニュアル類には、「第3章」
あるいは「4.1.3」などの項目番号が付与されてい
る場合がほとんどある。こういったマニュアル類をテキ
スト音声変換で読上げを行う際に、第3章から聞きた
い、あるいは4.1.3節から聞きたいといった場合
に、従来技術においては、早聞き機能を有効にした後ユ
ーザが、高速で出力される合成音声の中から「ダイサン
ショー」あるいは「ヨンテンイッテンサン」といったキ
ーワードを聞き分け、早聞き機能を解除するといった面
倒な操作が必要であった。第4の実施の形態によれば、
ユーザに負担をかけずに早聞き機能の有効化・無効化を
実現することが可能となる。
【0171】尚、本発明は前述の実施の形態に限定され
るものではなく、本発明の趣旨に基づいて種々変形させ
ることが可能である。例えば、第1の実施の形態におい
て、発声速度が既定値最大に設定された場合に、テキス
ト音声変換処理の中で演算負荷が大きい機能ブロックを
簡略化あるいは、無効にする処理を施しているが、この
処理は最大発声速度に限らない。つまり、ある閾値を設
けて、その閾値を超えたときに前述の処理を施す構成で
も構わない。また、高負荷処理として数量化I類による
韻律パラメータの予測処理、声質変換のための素片デー
タ加工処理を挙げているが、これに限るものではない。
他に高負荷処理機能(例えばエコーや高域強調などの音
響処理など)を有している場合は当然のことながら、こ
れを無効化あるいは簡略化といった処理形態にすること
が望ましい。また、声質変換処理として波形そのものを
線形伸縮しているが、非線形伸縮でも、あるいは周波数
パラメータに対して規定の変換関数に通して変形すると
いった方法でも構わない。また、音韻継続時間決定規
則、ピッチパタン決定規則を挙げているが、本発明では
演算量が少なく済み、処理時間の短縮が図れるモードを
有する構成にすること目的としているため、規則化手順
は上記に限られるものではない。逆に、通常発声速度の
時には、統計的手法を用いた韻律パラメータの予測を行
っているが、規則化手順よりも演算負荷がかかる処理で
あればこれに限るものではない。また、その予測に用い
る制御要因を幾つか挙げているがこれはあくまでも一例
である。
【0172】第2の実施の形態において、発声速度が既
定値最大に設定された場合に、ピッチパタンの抑揚成分
を0にしてピッチパタン生成を行っているが、この処理
は最大発声速度に限らない。即ち、ある閾値を設けて、
その閾値を超えたときに前述の処理を施す構成でも構わ
ない。また、抑揚成分を完全に0にしているが、通常時
に比べて抑揚成分を弱めるといった方法でも構わない。
例えば、発声速度が既定値最大に設定された時は、抑揚
指定レベルを強制的に最低レベルに設定し、ピッチパタ
ン修正部において抑揚成分を縮小するといった構成でも
構わない。ただこの時の抑揚指定レベルは、高速合成時
においても聞き易いイントネーションとなる必要があ
る。また、ピッチパタンのアクセント成分、フレーズ成
分を数量化I類によって決定しているが規則によって決
定しても無論構わない。また、予測を行う際にその制御
要因を幾つか挙げているがこれはあくまでも一例であ
る。
【0173】第3の実施の形態において、発声速度が既
定値最大に設定された場合に、文章と文章の間に合図音
を挿入しているが、この処理は最大発声速度に限らな
い。即ち、ある閾値を設けて、その閾値を超えたときに
前述の処理を施す構成でも構わない。また、実施例では
基準正弦波の繰り返しにより合図音を生成しているが、
ユーザの注意を引けるものであればこれに限らない。録
音された効果音をそのまま出力する構成でも構わない。
無論、実施例で示したような合図音辞書を持たずに、内
部回路あるいはプログラムでその都度生成するような構
成でも構わない。またこの実施の形態では1文の合成波
形直後に合図音を挿入する構成となっているが、逆に合
成波形直前でも構わない。発声速度が既定値最大に設定
された時に、ユーザに対して文章境界が明示できればそ
れでよい。また、この実施の形態ではパラメータ生成部
に合図音の種類を指定するための入力が存在するが、ハ
ードウェア規模、ソフトウェア規模の制限などから、こ
れを省略してもよい。しかしながら、ユーザの好みによ
って合図音を変えることのできる構成の方が好ましい。
【0174】第4の実施の形態において、発声速度が既
定値最大に設定された場合に、文先頭の単語に対して音
韻継続時間制御を通常(デフォルト)の発声速度として
処理しているが、この処理は最大発声速度に限らない。
即ち、ある閾値を設けて、その閾値を超えたときに前述
の処理を施す構成でも構わない。また、通常発声速度で
処理する単位を文先頭の1単語としているが、先頭2単
語あるいは先頭フレーズという構成でも構わない。ま
た、通常の発声速度ではなく、レベルを1段階落とすと
いった方法も十分考えられる。
【0175】
【発明の効果】以上詳細に説明したように、請求項1に
係る発明によれば、入力されたテキストから音韻・韻律
記号列を生成するテキスト解析手段と、前記音韻・韻律
記号列に対して少なくとも音声素片・音韻継続時間・基
本周波数の合成パラメータを生成するパラメータ生成手
段と、音声の基本単位となる音声素片が登録された素片
辞書と前記パラメータ生成手段から生成される合成パラ
メータに基づいて前記素片辞書を参照しながら波形重畳
を行って合成波形を生成する波形生成手段とを備えたテ
キスト音声変換装置における高速読み上げ制御方法であ
って、前記パラメータ生成手段は、音韻継続時間を予め
経験的に求めた継続時間規則テーブルと、音韻継続時間
を統計的手法を用いて予測した継続時間予測テーブルと
を併せ持ち、ユーザから指定される発声速度が閾値を超
えた時には前記継続時間規則テーブルを用い、閾値を超
えていない時には前記継続時間予測テーブルを用いて音
韻継続時間の決定を行う音韻継続時間決定手段を有する
構成としたことにより、また、請求項3に係る発明によ
れば、前記パラメータ生成手段は、アクセント成分及び
フレーズ成分を決定するために必要となるデータを、予
め経験的に求めた規則テーブルと、統計的手法を用いて
予測した予測テーブルとを併せ持ち、ユーザから指定さ
れる発声速度が閾値を超えた時には前記規則テーブルを
用い、閾値を超えていない時には前記予測テーブルを用
いてアクセント成分及びフレーズ成分を決定することに
よりピッチパタンを決定するピッチパタン決定手段を有
する構成としたことにより、更に、請求項5に係る発明
によれば、前記パラメータ生成手段は、前記音声素片を
変形させて声質を切り換えるための声質変換係数テーブ
ルを備え、ユーザから指定される発声速度が閾値を超え
たときには、声質が変化しないような係数を前記声質変
換係数テーブルから選択する声質係数決定手段を有する
構成としたので、発声速度が既定値最大に設定された場
合に、テキスト音声変換処理の中で演算負荷が大きい機
能ブロックを簡略化あるいは、無効にする処理を施して
いるため、高負荷による音切れが発生する機会を減少さ
せ、聞き易い合成音声を生成することが可能となる。
【0176】また、請求項7に係る発明によれば、前記
パラメータ生成手段は、ユーザが指定した抑揚レベルに
応じて修正したピッチパタンを出力するするピッチパタ
ン修正手段と、ユーザが指定した発声速度に応じて前記
修正したピッチパタンを基底ピッチに加算するか否かを
選択する切り換え手段とを有し、前記発声速度が所定の
閾値を超えた場合には前記基底ピッチを変更しないよう
に前記切り換え手段を制御する構成としたので、発声速
度が既定値最大に設定された場合に、ピッチパタンの抑
揚成分を0にしてピッチパタン生成を行うため、時間的
に速い周期で抑揚が変動することがなくなり、非常に聞
き取りにくい合成音となることが解消される。
【0177】また、請求項10に係る発明によれば、前
記波形生成手段は、文章の切れ目であることを示す合図
音を文章間に挿入する合図音生成手段を備え、ユーザか
ら指定される発声速度が閾値を超えた時には前記合図音
を文章間に挿入する構成としたので、発声速度が既定値
最大に設定された場合に、文章と文章の間に合図音を挿
入する機能を有しているため、早聞き機能有効時での従
来技術での問題点である、文境界が把握しにくく、読上
げテキストの内容理解が困難であるといったことが解消
される。
【0178】更に、請求項12に係る発明によれば、前
記パラメータ生成手段は、ユーザから指定される発声速
度が閾値を超えた時には、少なくとも文章の先頭単語の
発声速度を通常の発声速度に戻す処理を行う音韻継続時
間決定手段を有する構成としたので、発声速度が既定値
最大に設定された場合に、文先頭の単語に対して音韻継
続時間制御を通常の発声速度として処理するため、ユー
ザが早聞き機能解除のタイミングを計りやすいという効
果がある。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態におけるパラメータ
生成部の機能ブロック図である。
【図2】本発明の第1の実施の形態におけるピッチパタ
ン決定部の機能ブロック図である。
【図3】本発明の第1の実施の形態における音韻継続時
間決定部の機能ブロック図である。
【図4】本発明の第1の実施の形態における声質係数決
定部の機能ブロック図である。
【図5】声質変換のためのデータのリサンプリング周期
の説明図である。
【図6】本発明の第2の実施の形態におけるパラメータ
生成部の機能ブロック図である。
【図7】本発明の第2の実施の形態におけるピッチパタ
ン決定部の機能ブロック図である。
【図8】本発明の第2の実施の形態におけるピッチパタ
ン生成フローチャートである。
【図9】発声速度によるピッチパタンの違いの説明図で
ある。
【図10】本発明の第3の実施の形態におけるパラメー
タ生成部の機能ブロック図である。
【図11】本発明の第3の実施の形態における合図音決
定部の機能ブロック図である。
【図12】本発明の第3の実施の形態における波形生成
部の機能ブロック図である。
【図13】本発明の第4の実施の形態における音韻継続
時間決定部の機能ブロック図である。
【図14】本発明の第4の実施の形態における継続時間
決定フローチャートである。
【図15】一般的なテキスト音声変換処理の機能ブロッ
ク図である。
【図16】従来技術によるパラメータ生成部の機能ブロ
ック図である。
【図17】従来技術による波形生成部の機能ブロック図
である。
【図18】ピッチパタン生成過程モデルの説明図であ
る。
【図19】従来技術によるピッチパタン決定部の機能ブ
ロック図である。
【図20】従来技術による音韻継続時間決定部の機能ブ
ロック図である。
【図21】発声速度の違いによる波形伸縮の説明図であ
る。
【符号の説明】
101 テキスト解析部 102 パラメータ生成部 103 波形生成部 104 単語辞書 105 素片辞書 801,1301,1701, 中間言語解析部 802,1302,1702, ピッチパタン決定部 803,1303,1703 音韻継続時間決定部 804,1304,1704 音韻パワー決定部 805,1305,1705 音声素片決定部 806,1306,1706 声質係数決定部 1707 合図音決定部 807,1307,1708 合成パラメータ生成部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力されたテキストから音韻・韻律記号
    列を生成するテキスト解析手段と、前記音韻・韻律記号
    列に対して少なくとも音声素片・音韻継続時間・基本周
    波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記パラメータ生成手段は、音韻継続時間を予め経験的
    に求めた継続時間規則テーブルと、音韻継続時間を統計
    的手法を用いて予測した継続時間予測テーブルとを併せ
    持ち、ユーザから指定される発声速度が閾値を超えた時
    には前記継続時間規則テーブルを用い、閾値を超えてい
    ない時には前記継続時間予測テーブルを用いて音韻継続
    時間の決定を行う音韻継続時間決定手段を有することを
    特徴とするテキスト音声変換装置における高速読み上げ
    制御方法。
  2. 【請求項2】 前記閾値は、所定の最大発声速度である
    ことを特徴とする請求項1記載のテキスト音声変換装置
    における高速読み上げ制御方法。
  3. 【請求項3】 入力されたテキストから音韻・韻律記号
    列を生成するテキスト解析手段と、前記音韻・韻律記号
    列に対して少なくとも音声素片・音韻継続時間・基本周
    波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記パラメータ生成手段は、アクセント成分及びフレー
    ズ成分を決定するために必要となるデータを、予め経験
    的に求めた規則テーブルと、統計的手法を用いて予測し
    た予測テーブルとを併せ持ち、ユーザから指定される発
    声速度が閾値を超えた時には前記規則テーブルを用い、
    閾値を超えていない時には前記予測テーブルを用いてア
    クセント成分及びフレーズ成分を決定することによりピ
    ッチパタンを決定するピッチパタン決定手段を有するこ
    とを特徴とするテキスト音声変換装置における高速読み
    上げ制御方法。
  4. 【請求項4】 前記閾値は、所定の最大発声速度である
    ことを特徴とする請求項3記載のテキスト音声変換装置
    における高速読み上げ制御方法。
  5. 【請求項5】 入力されたテキストから音韻・韻律記号
    列を生成するテキスト解析手段と、前記音韻・韻律記号
    列に対して少なくとも音声素片・音韻継続時間・基本周
    波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記パラメータ生成手段は、前記音声素片を変形させて
    声質を切り換えるための声質変換係数テーブルを備え、
    ユーザから指定される発声速度が閾値を超えたときに
    は、声質が変化しないような係数を前記声質変換係数テ
    ーブルから選択する声質係数決定手段を有することを特
    徴とするテキスト音声変換装置における高速読み上げ制
    御方法。
  6. 【請求項6】 前記閾値は、所定の最大発声速度である
    ことを特徴とする請求項5記載のテキスト音声変換装置
    における高速読み上げ制御方法。
  7. 【請求項7】 入力されたテキストから音韻・韻律記号
    列を生成するテキスト解析手段と、前記音韻・韻律記号
    列に対して少なくとも音声素片・音韻継続時間・基本周
    波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記パラメータ生成手段は、ユーザが指定した抑揚レベ
    ルに応じて修正したピッチパタンを出力するピッチパタ
    ン修正手段と、ユーザが指定した発声速度に応じて前記
    修正したピッチパタンを基底ピッチに加算するか否かを
    選択する切り換え手段とを有し、前記発声速度が所定の
    閾値を超えた場合には前記基底ピッチを変更しないよう
    に前記切り換え手段を制御することを特徴とするテキス
    ト音声変換装置における高速読み上げ制御方法。
  8. 【請求項8】 前記閾値は、所定の最大発声速度である
    ことを特徴とする請求項7記載のテキスト音声変換装置
    における高速読み上げ制御方法。
  9. 【請求項9】 前記ピッチパタン修正手段は、ユーザが
    指定した前記発声速度に応じて統計的手法によりフレー
    ズ成分を算出するか或いは当該フレーズ成分を零とする
    処理を入力文章中に含まれる全フレーズについて行うフ
    レーズ成分算出処理と、ユーザが指定した前記発声速度
    に応じて統計的手法によりアクセント成分を算出すると
    共にユーザが指定した前記抑揚レベルに応じて前記算出
    したアクセント成分を修正するか或いは当該アクセント
    成分を零とする処理を入力文章中の全ての単語について
    行う処理とを含むピッチパタン生成処理を行うことを特
    徴とする請求項7記載のテキスト音声変換装置における
    高速読み上げ制御方法。
  10. 【請求項10】 入力されたテキストから音韻・韻律記
    号列を生成するテキスト解析手段と、前記音韻・韻律記
    号列に対して少なくとも音声素片・音韻継続時間・基本
    周波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記波形生成手段は、文章の切れ目であることを示す合
    図音を文章間に挿入する合図音生成手段を備え、ユーザ
    から指定される発声速度が閾値を超えた時には前記合図
    音を文章間に挿入することを特徴とするテキスト音声変
    換装置における高速読み上げ制御方法。
  11. 【請求項11】前記閾値は、所定の最大発声速度である
    ことを特徴とする請求項10記載のテキスト音声変換装
    置における高速読み上げ制御方法。
  12. 【請求項12】 入力されたテキストから音韻・韻律記
    号列を生成するテキスト解析手段と、前記音韻・韻律記
    号列に対して少なくとも音声素片・音韻継続時間・基本
    周波数の合成パラメータを生成するパラメータ生成手段
    と、音声の基本単位となる音声素片が登録された素片辞
    書と前記パラメータ生成手段から生成される合成パラメ
    ータに基づいて前記素片辞書を参照しながら波形重畳を
    行って合成波形を生成する波形生成手段とを備えたテキ
    スト音声変換装置における高速読み上げ制御方法であっ
    て、 前記パラメータ生成手段は、ユーザから指定される発声
    速度が閾値を超えた時には、少なくとも文章の先頭単語
    の発声速度を通常の発声速度に戻す処理を行う音韻継続
    時間決定手段を有することを特徴とするテキスト音声変
    換装置における高速読み上げ制御方法。
  13. 【請求項13】 前記閾値は、所定の最大発声速度であ
    ることを特徴とする請求項12記載のテキスト音声変換
    装置における高速読み上げ制御方法。
  14. 【請求項14】 前記音韻継続時間決定手段は、処理中
    の単語が文章の先頭単語であり、かつユーザから指定さ
    れる前記発声速度が閾値を超えた時には音韻継続時間を
    修正しないようにする処理を行い、前記処理中の単語が
    文章の先頭単語でないか、ユーザから指定された前記発
    声速度が閾値を超えていない時には、音韻継続時間修正
    係数をユーザから指定された発声速度に応じて変更する
    第1の処理を行った後、当該単語を構成する母音長を前
    記音韻継続時間修正係数に従って修正する処理を当該単
    語の全ての音節について行う第2の処理を行い、前記第
    1及び第2の処理を当該文章に含まれる全ての単語につ
    いて行うことを特徴とする請求項12記載のテキスト音
    声変換装置における高速読み上げ制御方法。
JP2001192778A 2001-06-26 2001-06-26 テキスト音声変換装置における高速読上げ制御方法 Expired - Fee Related JP4680429B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001192778A JP4680429B2 (ja) 2001-06-26 2001-06-26 テキスト音声変換装置における高速読上げ制御方法
US10/058,104 US7240005B2 (en) 2001-06-26 2002-01-29 Method of controlling high-speed reading in a text-to-speech conversion system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001192778A JP4680429B2 (ja) 2001-06-26 2001-06-26 テキスト音声変換装置における高速読上げ制御方法

Publications (2)

Publication Number Publication Date
JP2003005775A true JP2003005775A (ja) 2003-01-08
JP4680429B2 JP4680429B2 (ja) 2011-05-11

Family

ID=19031180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001192778A Expired - Fee Related JP4680429B2 (ja) 2001-06-26 2001-06-26 テキスト音声変換装置における高速読上げ制御方法

Country Status (2)

Country Link
US (1) US7240005B2 (ja)
JP (1) JP4680429B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006040908A1 (ja) * 2004-10-13 2006-04-20 Matsushita Electric Industrial Co., Ltd. 音声合成装置及び音声合成方法
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
JP2009003395A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671223B2 (en) * 1996-12-20 2003-12-30 Westerngeco, L.L.C. Control devices for controlling the position of a marine seismic streamer
US6765178B2 (en) 2000-12-29 2004-07-20 Applied Materials, Inc. Chamber for uniform substrate heating
US6825447B2 (en) 2000-12-29 2004-11-30 Applied Materials, Inc. Apparatus and method for uniform substrate heating and contaminate collection
US6660126B2 (en) 2001-03-02 2003-12-09 Applied Materials, Inc. Lid assembly for a processing system to facilitate sequential deposition techniques
US6878206B2 (en) 2001-07-16 2005-04-12 Applied Materials, Inc. Lid assembly for a processing system to facilitate sequential deposition techniques
US8110489B2 (en) * 2001-07-25 2012-02-07 Applied Materials, Inc. Process for forming cobalt-containing materials
WO2003030224A2 (en) * 2001-07-25 2003-04-10 Applied Materials, Inc. Barrier formation using novel sputter-deposition method
US20080268635A1 (en) * 2001-07-25 2008-10-30 Sang-Ho Yu Process for forming cobalt and cobalt silicide materials in copper contact applications
US20090004850A1 (en) 2001-07-25 2009-01-01 Seshadri Ganguli Process for forming cobalt and cobalt silicide materials in tungsten contact applications
US20030029715A1 (en) * 2001-07-25 2003-02-13 Applied Materials, Inc. An Apparatus For Annealing Substrates In Physical Vapor Deposition Systems
US9051641B2 (en) * 2001-07-25 2015-06-09 Applied Materials, Inc. Cobalt deposition on barrier surfaces
US7085616B2 (en) 2001-07-27 2006-08-01 Applied Materials, Inc. Atomic layer deposition apparatus
US6718126B2 (en) * 2001-09-14 2004-04-06 Applied Materials, Inc. Apparatus and method for vaporizing solid precursor for CVD or atomic layer deposition
US6936906B2 (en) * 2001-09-26 2005-08-30 Applied Materials, Inc. Integration of barrier layer and seed layer
US7049226B2 (en) * 2001-09-26 2006-05-23 Applied Materials, Inc. Integration of ALD tantalum nitride for copper metallization
US6916398B2 (en) * 2001-10-26 2005-07-12 Applied Materials, Inc. Gas delivery apparatus and method for atomic layer deposition
US7780785B2 (en) 2001-10-26 2010-08-24 Applied Materials, Inc. Gas delivery apparatus for atomic layer deposition
US6773507B2 (en) * 2001-12-06 2004-08-10 Applied Materials, Inc. Apparatus and method for fast-cycle atomic layer deposition
US6729824B2 (en) 2001-12-14 2004-05-04 Applied Materials, Inc. Dual robot processing system
WO2003065424A2 (en) 2002-01-25 2003-08-07 Applied Materials, Inc. Apparatus for cyclical deposition of thin films
US6911391B2 (en) 2002-01-26 2005-06-28 Applied Materials, Inc. Integration of titanium and titanium nitride layers
US6866746B2 (en) * 2002-01-26 2005-03-15 Applied Materials, Inc. Clamshell and small volume chamber with fixed substrate support
US6998014B2 (en) 2002-01-26 2006-02-14 Applied Materials, Inc. Apparatus and method for plasma assisted deposition
US6972267B2 (en) * 2002-03-04 2005-12-06 Applied Materials, Inc. Sequential deposition of tantalum nitride using a tantalum-containing precursor and a nitrogen-containing precursor
US7299182B2 (en) * 2002-05-09 2007-11-20 Thomson Licensing Text-to-speech (TTS) for hand-held devices
US7186385B2 (en) * 2002-07-17 2007-03-06 Applied Materials, Inc. Apparatus for providing gas to a processing chamber
US7066194B2 (en) * 2002-07-19 2006-06-27 Applied Materials, Inc. Valve design and configuration for fast delivery system
US6772072B2 (en) 2002-07-22 2004-08-03 Applied Materials, Inc. Method and apparatus for monitoring solid precursor delivery
US6915592B2 (en) * 2002-07-29 2005-07-12 Applied Materials, Inc. Method and apparatus for generating gas to a processing chamber
US20040065255A1 (en) * 2002-10-02 2004-04-08 Applied Materials, Inc. Cyclical layer deposition system
US6821563B2 (en) 2002-10-02 2004-11-23 Applied Materials, Inc. Gas distribution system for cyclical layer deposition
US20040069227A1 (en) * 2002-10-09 2004-04-15 Applied Materials, Inc. Processing chamber configured for uniform gas flow
US6905737B2 (en) * 2002-10-11 2005-06-14 Applied Materials, Inc. Method of delivering activated species for rapid cyclical deposition
EP1420080A3 (en) * 2002-11-14 2005-11-09 Applied Materials, Inc. Apparatus and method for hybrid chemical deposition processes
US6868859B2 (en) * 2003-01-29 2005-03-22 Applied Materials, Inc. Rotary gas valve for pulsing a gas
US6994319B2 (en) * 2003-01-29 2006-02-07 Applied Materials, Inc. Membrane gas valve for pulsing a gas
US20040177813A1 (en) 2003-03-12 2004-09-16 Applied Materials, Inc. Substrate support lift mechanism
US7342984B1 (en) 2003-04-03 2008-03-11 Zilog, Inc. Counting clock cycles over the duration of a first character and using a remainder value to determine when to sample a bit of a second character
DE04735990T1 (de) * 2003-06-05 2006-10-05 Kabushiki Kaisha Kenwood, Hachiouji Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm
US7496032B2 (en) * 2003-06-12 2009-02-24 International Business Machines Corporation Method and apparatus for managing flow control in a data processing system
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
US20050067103A1 (en) * 2003-09-26 2005-03-31 Applied Materials, Inc. Interferometer endpoint monitoring device
US20050095859A1 (en) * 2003-11-03 2005-05-05 Applied Materials, Inc. Precursor delivery system with rate control
US20050252449A1 (en) * 2004-05-12 2005-11-17 Nguyen Son T Control of gas flow and delivery to suppress the formation of particles in an MOCVD/ALD system
US20060019033A1 (en) * 2004-05-21 2006-01-26 Applied Materials, Inc. Plasma treatment of hafnium-containing materials
US8323754B2 (en) * 2004-05-21 2012-12-04 Applied Materials, Inc. Stabilization of high-k dielectric materials
US20060153995A1 (en) * 2004-05-21 2006-07-13 Applied Materials, Inc. Method for fabricating a dielectric stack
US8119210B2 (en) * 2004-05-21 2012-02-21 Applied Materials, Inc. Formation of a silicon oxynitride layer on a high-k dielectric material
CN1918628A (zh) * 2004-12-28 2007-02-21 松下电器产业株式会社 声音合成方法和信息提供装置
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US20070020890A1 (en) * 2005-07-19 2007-01-25 Applied Materials, Inc. Method and apparatus for semiconductor processing
US20070049043A1 (en) * 2005-08-23 2007-03-01 Applied Materials, Inc. Nitrogen profile engineering in HI-K nitridation for device performance enhancement and reliability improvement
US7402534B2 (en) * 2005-08-26 2008-07-22 Applied Materials, Inc. Pretreatment processes within a batch ALD reactor
US20070065578A1 (en) * 2005-09-21 2007-03-22 Applied Materials, Inc. Treatment processes for a batch ALD reactor
US7464917B2 (en) * 2005-10-07 2008-12-16 Appiled Materials, Inc. Ampoule splash guard apparatus
WO2007142690A2 (en) * 2005-11-04 2007-12-13 Applied Materials, Inc. Apparatus and process for plasma-enhanced atomic layer deposition
US20070252299A1 (en) * 2006-04-27 2007-11-01 Applied Materials, Inc. Synchronization of precursor pulsing and wafer rotation
US20070259111A1 (en) * 2006-05-05 2007-11-08 Singh Kaushal K Method and apparatus for photo-excitation of chemicals for atomic layer deposition of dielectric film
US7798096B2 (en) * 2006-05-05 2010-09-21 Applied Materials, Inc. Plasma, UV and ion/neutral assisted ALD or CVD in a batch tool
US7601648B2 (en) 2006-07-31 2009-10-13 Applied Materials, Inc. Method for fabricating an integrated gate dielectric layer for field effect transistors
US8158526B2 (en) 2006-10-30 2012-04-17 Applied Materials, Inc. Endpoint detection for photomask etching
US20080099436A1 (en) * 2006-10-30 2008-05-01 Michael Grimbergen Endpoint detection for photomask etching
US7775508B2 (en) * 2006-10-31 2010-08-17 Applied Materials, Inc. Ampoule for liquid draw and vapor draw with a continuous level sensor
US8821637B2 (en) * 2007-01-29 2014-09-02 Applied Materials, Inc. Temperature controlled lid assembly for tungsten nitride deposition
JP5114996B2 (ja) * 2007-03-28 2013-01-09 日本電気株式会社 レーダ装置、レーダ送信信号生成方法、そのプログラムおよびプログラム記録媒体
JP4973337B2 (ja) * 2007-06-28 2012-07-11 富士通株式会社 音声読み上げのための装置、プログラム及び方法
US20100149933A1 (en) * 2007-08-23 2010-06-17 Leonard Cervera Navas Method and system for adapting the reproduction speed of a sound track to a user's text reading speed
JP5025550B2 (ja) * 2008-04-01 2012-09-12 株式会社東芝 音声処理装置、音声処理方法及びプログラム
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
JPWO2010050103A1 (ja) * 2008-10-28 2012-03-29 日本電気株式会社 音声合成装置
US8146896B2 (en) * 2008-10-31 2012-04-03 Applied Materials, Inc. Chemical precursor ampoule for vapor deposition processes
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics
WO2011066844A1 (en) * 2009-12-02 2011-06-09 Agnitio, S.L. Obfuscated speech synthesis
JP5961950B2 (ja) * 2010-09-15 2016-08-03 ヤマハ株式会社 音声処理装置
JP5728913B2 (ja) * 2010-12-02 2015-06-03 ヤマハ株式会社 音声合成情報編集装置およびプログラム
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
JP6047922B2 (ja) * 2011-06-01 2016-12-21 ヤマハ株式会社 音声合成装置および音声合成方法
US8961804B2 (en) 2011-10-25 2015-02-24 Applied Materials, Inc. Etch rate detection for photomask etching
US8808559B2 (en) 2011-11-22 2014-08-19 Applied Materials, Inc. Etch rate detection for reflective multi-material layers etching
US8900469B2 (en) 2011-12-19 2014-12-02 Applied Materials, Inc. Etch rate detection for anti-reflective coating layer and absorber layer etching
US9805939B2 (en) 2012-10-12 2017-10-31 Applied Materials, Inc. Dual endpoint detection for advanced phase shift and binary photomasks
JP5821824B2 (ja) * 2012-11-14 2015-11-24 ヤマハ株式会社 音声合成装置
US8778574B2 (en) 2012-11-30 2014-07-15 Applied Materials, Inc. Method for etching EUV material layers utilized to form a photomask
JP6244658B2 (ja) * 2013-05-23 2017-12-13 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6277739B2 (ja) * 2014-01-28 2018-02-14 富士通株式会社 通信装置
CN104112444B (zh) * 2014-07-28 2018-11-06 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN104575488A (zh) * 2014-12-25 2015-04-29 北京时代瑞朗科技有限公司 一种基于文本信息的波形拼接语音合成方法
TWI582755B (zh) * 2016-09-19 2017-05-11 晨星半導體股份有限公司 文字轉語音方法及系統
CN106601226B (zh) * 2016-11-18 2020-02-28 中国科学院自动化研究所 音素时长预测建模方法及音素时长预测方法
US10540432B2 (en) * 2017-02-24 2020-01-21 Microsoft Technology Licensing, Llc Estimated reading times
US10872598B2 (en) * 2017-02-24 2020-12-22 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
US11443732B2 (en) * 2019-02-15 2022-09-13 Lg Electronics Inc. Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
DK3823306T3 (da) 2019-11-15 2022-11-21 Sivantos Pte Ltd Høresystem, omfattende et høreapparat og fremgangsmåde til drift af høreapparatet
CN114746935A (zh) * 2019-12-10 2022-07-12 谷歌有限责任公司 基于注意力的时钟层次变分编码器

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59160348U (ja) * 1983-04-13 1984-10-27 オムロン株式会社 音声出力装置
JPH02195397A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声合成装置
JPH06149284A (ja) * 1992-11-11 1994-05-27 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH09179577A (ja) * 1995-12-22 1997-07-11 Meidensha Corp 音声合成における音韻エネルギ制御方法
JPH1173298A (ja) * 1997-08-27 1999-03-16 Internatl Business Mach Corp <Ibm> 音声出力装置およびその方法
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS54127360A (en) * 1978-03-25 1979-10-03 Sharp Corp Voice watch
JPS55147697A (en) * 1979-05-07 1980-11-17 Sharp Kk Sound synthesizer
JP3083640B2 (ja) * 1992-05-28 2000-09-04 株式会社東芝 音声合成方法および装置
FR2692070B1 (fr) * 1992-06-05 1996-10-25 Thomson Csf Procede et dispositif de synthese vocale a vitesse variable.
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JP3854713B2 (ja) * 1998-03-10 2006-12-06 キヤノン株式会社 音声合成方法および装置および記憶媒体
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
US6260016B1 (en) * 1998-11-25 2001-07-10 Matsushita Electric Industrial Co., Ltd. Speech synthesis employing prosody templates
US20030014253A1 (en) * 1999-11-24 2003-01-16 Conal P. Walsh Application of speed reading techiques in text-to-speech generation
US6810379B1 (en) * 2000-04-24 2004-10-26 Sensory, Inc. Client/server architecture for text-to-speech synthesis

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59160348U (ja) * 1983-04-13 1984-10-27 オムロン株式会社 音声出力装置
JPH02195397A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声合成装置
JPH06149284A (ja) * 1992-11-11 1994-05-27 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH08335096A (ja) * 1995-06-07 1996-12-17 Oki Electric Ind Co Ltd テキスト音声合成装置
JPH09179577A (ja) * 1995-12-22 1997-07-11 Meidensha Corp 音声合成における音韻エネルギ制御方法
JPH1173298A (ja) * 1997-08-27 1999-03-16 Internatl Business Mach Corp <Ibm> 音声出力装置およびその方法
JPH11167398A (ja) * 1997-12-04 1999-06-22 Mitsubishi Electric Corp 音声合成装置
JP2000305585A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置
JP2000305582A (ja) * 1999-04-23 2000-11-02 Oki Electric Ind Co Ltd 音声合成装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006040908A1 (ja) * 2004-10-13 2006-04-20 Matsushita Electric Industrial Co., Ltd. 音声合成装置及び音声合成方法
US7349847B2 (en) 2004-10-13 2008-03-25 Matsushita Electric Industrial Co., Ltd. Speech synthesis apparatus and speech synthesis method
CN1842702B (zh) * 2004-10-13 2010-05-05 松下电器产业株式会社 声音合成装置和声音合成方法
JP2009003394A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
JP2009003395A (ja) * 2007-06-25 2009-01-08 Fujitsu Ltd 音声読み上げのための装置、プログラム及び方法
WO2015025788A1 (ja) * 2013-08-23 2015-02-26 独立行政法人情報通信研究機構 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2016009061A (ja) * 2014-06-24 2016-01-18 日本放送協会 音声合成装置

Also Published As

Publication number Publication date
US20030004723A1 (en) 2003-01-02
US7240005B2 (en) 2007-07-03
JP4680429B2 (ja) 2011-05-11

Similar Documents

Publication Publication Date Title
JP4680429B2 (ja) テキスト音声変換装置における高速読上げ制御方法
JP4025355B2 (ja) 音声合成装置及び音声合成方法
US11763797B2 (en) Text-to-speech (TTS) processing
JP2001249677A (ja) テキスト音声変換装置におけるピッチパタン制御方法
JP2000305582A (ja) 音声合成装置
CN115485766A (zh) 使用bert模型的语音合成韵律
US10699695B1 (en) Text-to-speech (TTS) processing
CN115762466A (zh) 一种合成不同情感音频的方法和装置
US11404045B2 (en) Speech synthesis method and apparatus
JP2001265375A (ja) 規則音声合成装置
JP3425996B2 (ja) ピッチパターン生成装置
KR102277205B1 (ko) 오디오 변환 장치 및 방법
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
JP2010224418A (ja) 音声合成装置、方法およびプログラム
JP3681111B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2010224419A (ja) 音声合成装置、方法およびプログラム
JPH0580791A (ja) 音声規則合成装置および方法
JPH11249676A (ja) 音声合成装置
JP2000231395A (ja) 音声合成方法及び装置
JPH08297499A (ja) 音声速度変換制御装置および音声速度変換制御方法
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JP3302874B2 (ja) 音声合成方式
JPH0594199A (ja) 残差駆動型音声合成装置
JP2001350500A (ja) 話速変更装置
CN117877464A (zh) 语音合成的方法、电子设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060923

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060929

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080303

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20081126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100817

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110203

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees