JP2003005775A

JP2003005775A - テキスト音声変換装置における高速読上げ制御方法

Info

Publication number: JP2003005775A
Application number: JP2001192778A
Authority: JP
Inventors: Keiichi Kayahara; 桂一茅原
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2001-06-26
Filing date: 2001-06-26
Publication date: 2003-01-08
Anticipated expiration: 2021-06-26
Also published as: US20030004723A1; US7240005B2; JP4680429B2

Abstract

(57)【要約】【課題】発声速度を速くした時に高負荷になって音切
れが発生するという問題点を解決したテキスト音声変換
装置における高速読み上げ制御方法を提供する。【解決手段】テキスト解析部（１０２）と、音声素片
・音韻継続時間・基本周波数の合成パラメータを生成す
るパラメータ生成部（１０２）と、素片辞書（１０５）
を参照しながら合成波形を生成する波形生成部（１０
３）とを備え、パラメータ生成手部は、音韻継続時間を
予め経験的に求めた継続時間規則テーブルと、音韻継続
時間を統計的手法を用いて予測した継続時間予測テーブ
ルとを併せ持ち、ユーザから指定される発声速度が閾値
を超えた時には前記継続時間規則テーブルを用い、閾値
を超えていない時には前記継続時間予測テーブルを用い
て音韻継続時間の決定を行う構成とした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日常読み書きして
いる漢字・仮名混じり文を音声として出力するテキスト
音声変換技術に係わり、特に高速読上げ時の韻律制御に
関するものである。

【０００２】

【従来の技術】テキスト音声変換技術は、我々が日常読
み書きしている漢字かな混じり文を入力し、それを音声
に変換して出力するもので、出力語彙の制限がないこと
から録音・再生型の音声合成に代わる技術として種々の
利用分野での応用が期待できる。従来、この種の音声合
成装置としては、図１５に示すような処理形態となって
いるものが代表的である。

【０００３】日常読み書きしている漢字仮名混じり文
（以下テキストと呼ぶ）を入力すると、テキスト解析部
１０１は、文字情報から音韻・韻律記号列を生成する。
ここで、音韻・韻律記号列とは、入力文の読みに加え
て、アクセント、イントネーション等の韻律情報を文字
列として記述したもの（以下中間言語と呼ぶ）である。
単語辞書１０４は個々の単語の読みやアクセント等が登
録された発音辞書で、テキスト解析部１０１はこの発音
辞書を参照しながら、形態素解析ならびに構文解析等の
言語処理を施して中間言語を生成する。

【０００４】テキスト解析部１０１で生成された中間言
語に基づいて、パラメータ生成部１０２で、音声素片
（音の種類）、声質変換係数（声色の種別）、音韻継続
時間（音の長さ）、音韻パワー（音の強さ）、基本周波
数（声の高さ、以下ピッチと呼ぶ）等の各パタンから成
る合成パラメータが決定され、波形生成部１０３に送ら
れる。

【０００５】ここで音声素片とは、接続して合成波形を
作るための音声の基本単位で、音の種類等に応じて様々
なものが用意されている。一般的に、ＣＶ、ＶＶ、ＶＣ
Ｖ、ＣＶＣ（Ｃ：子音、Ｖ：母音）といった音韻連鎖で
構成されている場合が多い。

【０００６】パラメータ生成部１０２で生成された各種
パラメータに基づいて、波形生成部１０３において音声
素片等を蓄積するＲＯＭ等から構成された素片辞書１０
５を参照しながら、合成波形が生成され、スピーカを通
して合成音声が出力される。音声合成方法としては、予
め音声波形にピッチマーク（基準点）を付けておき、そ
の位置を中心に切り出して、合成時には合成ピッチ周期
に合わせて、ピッチマーク位置をずらしながら重ね合わ
せる方法が知られている。以上がテキスト音声変換処理
の簡単な流れである。

【０００７】次に、パラメータ生成部１０２における従
来の処理を図１６を参照して詳細に説明する。

【０００８】パラメータ生成部１０２に入力される中間
言語は、アクセント位置・ポーズ位置などの韻律情報を
含んだ音韻文字列であり、これより、ピッチの時間的な
変化（以下ピッチパタン）、音声パワー、それぞれの音
韻継続時間、素片辞書内に格納されている音声素片アド
レス等の波形を生成する上でのパラメータ（以下、総称
して合成パラメータと呼ぶ）を決定する。またこの時、
ユーザの好みに合わせた発声様式（発声速度、声の高
さ、抑揚の大きさ、声の大きさ、発声話者、声質など）
を指定するための制御パラメータも入力される場合があ
る。

【０００９】入力された中間言語に対して、中間言語解
析部２０１で文字列の解析が行われ、中間言語上に記さ
れた呼気段落記号・単語区切り記号から単語境界を判定
し、アクセント記号からアクセント核のモーラ（音節）
位置を得る。呼気段落とは、一息で発声する区間の区切
り単位である。アクセント核とは、アクセントが下降す
る位置のことで、１モーラ目にアクセント核が存在する
単語を１型アクセント、ｎモーラ目にアクセント核が存
在する単語をｎ型アクセントと呼び、総称して起伏型ア
クセント単語と呼ぶ。逆に、アクセント核の存在しない
単語（例えば「新聞」や「パソコン」）を０型アクセン
トまたは平板型アクセント単語と呼ぶ。これらの韻律に
関わる情報は、ピッチパタン決定部２０２、音韻継続時
間決定部２０３、音韻パワー決定部２０４、音声素片決
定部２０５、声質係数決定部２０６に送られる。

【００１０】ピッチパタン決定部２０２は、中間言語上
の韻律情報などからアクセント句あるいはフレーズ単位
でのピッチ周波数の時間的変化パタンの算出を行う。従
来では「藤崎モデル」と呼ばれる、臨界制動２次線形系
で記述されるピッチ制御機構モデルが用いられてきた。
声の高さの情報を与える基本周波数は、次のような過程
で生成されると考えるのがピッチ制御機構モデルであ
る。声帯振動の周波数、すなわち基本周波数は、フレー
ズの切り替わりごとに発せられるインパルス指令と、ア
クセントの上げ下げごとに発せられるステップ指令によ
って制御される。そのとき、生理機構の遅れ特性によ
り、フレーズのインパルス指令は文頭から文末に向かう
緩やかな下降曲線（フレーズ成分）となり、アクセント
のステップ指令は局所的な起伏の激しい曲線（アクセン
ト成分）となる。これらの二つの成分は、各指令の臨界
制動２次線形系の応答としてモデル化され、対数基本周
波数の時間変化パターンは、これら両成分の和（以降、
抑揚成分と呼ぶ）として表現される。

【００１１】図１８はピッチ制御機構モデルを示す。対
数基本周波数ｌｎＦ_０（ｔ）（ｔは時刻）は、次式の
ように定式化される。ここで、Ｆ_ｍｉｎは最低周波数（以下、基底ピッチと呼
ぶ）、Ｉは文中のフレーズ指令の数、Ａ_ｐｉは文中ｉ番
目のフレーズ指令の大きさ、Ｔ_０ｉは文中ｉ番目のフレ
ーズ指令の開始時点、Ｊは文内のアクセント指令の数、
Ａ_ａｊは文内ｊ番目のアクセント指令の大きさ、
Ｔ_１ｊ、Ｔ_２ｊはそれぞれｊ番目のアクセント指令の開
始時点と終了時点である。

【００１２】また、Ｇ_ｐｉ（ｔ）、Ｇ_ａｊ（ｔ）はそれ
ぞれ、フレーズ制御機構のインパルス応答関数、アクセ
ント制御機構のステップ応答関数であり、次式で与えら
れる。Ｇ_ｐｉ（ｔ）＝ α_ｉ ^２ｔｅｘｐ（―α_ｉｔ） …（２）Ｇ_ａｊ（ｔ）＝ｍｉｎ［１−（１＋β_ｊｔ）ｅｘｐ（−β_ｊｔ），θ］…（３）上式は、ｔ≧０の範囲での応答関数であり、ｔ＜０では
Ｇ_ｐｉ（ｔ）＝Ｇ_ａｊ（ｔ）＝０である。式（３）の記
号ｍｉｎ［ｘ，ｙ］は、ｘ，ｙのうち小さい方をとるこ
とを意味しており、実際の音声でアクセント成分が有限
の時間で上限に達することに対応している。ここで、α
_ｉはｉ番目のフレーズ指令に対するフレーズ制御機構の
固有角周波数であり、例えば３．０などに選ばれる。β
_ｊはｊ番目のアクセント指令に対するアクセント制御機
構の固有角周波数であり、例えば２０．０などに選ばれ
る。また、θはアクセント成分の上限値であり、例えば
０．９などに選ばれる。

【００１３】なおここで、基本周波数およびピッチ制御
パラメータ（Ａ_ｐｉ，Ａ_ａｊ，Ｔ_０ _ｉ，Ｔ_１ｊ，
Ｔ_２ｊ，α_ｉ，β_ｊ，Ｆ_ｍｉｎ）の値の単位は次のよう
に定義される。すなわち、Ｆ_０（ｔ）およびＦ_ｍｉｎの
単位は［Ｈｚ］、Ｔ_０ｉ，Ｔ_１ｊおよびＴ_２ｊの単位は
［ｓｅｃ］、α_ｉおよびβ_ｊの単位は［ｒａｄ／ｓｅ
ｃ］とする。またＡ_ｐｉおよびＡ_ａｊの値は、基本周波
数およびピッチ制御パラメータの値の単位を上記のよう
に定めたときの値を用いる。

【００１４】以上で述べた生成過程に基づき、ピッチパ
タン決定部２０２では、中間言語からピッチ制御パラメ
ータの決定を行う。例えば、フレーズ指令の生起時点Ｔ
_０ｉは中間言語上での句読点が存在する位置に設定し、
アクセント指令の開始時点Ｔ _１ｊは単語境界記号直後に
設定し、アクセント指令の終了時点Ｔ_２ｊはアクセント
記号が存在する位置、あるいはアクセント記号がない平
板型アクセント単語の場合は、次単語との単語境界記号
直前に設定する。フレーズ指令の大きさを表わすＡ_ｐｉ
とアクセント指令の大きさを表わすＡ_ａｊは、数量化Ｉ
類などの統計的手法を用いて決定する場合が多い。数量
化Ｉ類については公知であるのでここでは特に説明はし
ない。

【００１５】図１９にピッチパタン生成に関する機能ブ
ロック図を示す。中間言語解析部２０１からの解析結果
が制御要因設定部５０１に入力される。制御要因設定部
５０１では、フレーズ成分、アクセント成分の大きさを
予測するために必要な制御要因の設定を行う。フレーズ
成分予測には、例えば、該当するフレーズを構成してい
るモーラ総数、文内位置、先頭単語のアクセント型とい
った情報が用いられ、フレーズ成分推定部５０３に送ら
れる。一方、アクセント成分予測には、例えば、該当す
るアクセント句のアクセント型、構成しているモーラ総
数、品詞、フレーズ内位置といった情報が用いられ、ア
クセント成分推定部５０２に送られる。それぞれの成分
値予測には、自然発声データを基に数量化Ｉ類などの統
計的手法を用いて予め学習した予測テーブル５０６を用
いて行われる。

【００１６】予測された結果は、ピッチパタン修正部５
０４に送られ、ユーザから抑揚指定があった場合は、推
定された値Ａ_ｐｉ、Ａ_ａｊに対しての修正を行う。この
機能は、文中のある単語を特に強調あるいは抑制したい
時に用いることを想定した制御機構である。通常、抑揚
指定は３〜５段階に制御され、それぞれのレベルに対し
てあらかじめ割り当てられた定数を乗ずることにより行
われる。抑揚指定がない場合は修正は行われない。

【００１７】フレーズ・アクセント両成分値の修正が施
された後、基底ピッチ加算部５０５に送られ、式（１）
に従ってピッチパタンの時系列データが生成される。こ
の時、ユーザからの声の高さ指定レベルに従って、基底
ピッチテーブル５０７から指定レベルに応じたデータが
基底ピッチとして呼び出され加算される。ユーザから特
に指定がない場合は、予め定められたデフォルト値が呼
び出され加算される。対数化基底ピッチｌｎＦ_ｍｉｎ
は合成音声の最低ピッチを表わしており、このパラメー
タが声の高さの制御に用いられている。通常ｌｎＦ
_ｍｉｎは、５〜１０段階に量子化されてテーブルとして
保持されておりユーザの好みによって、全体的に声を高
くしたい場合はｌｎＦ_ｍｉｎを大きくし、逆に声を低
くしたい場合はｌｎＦ_ｍｉｎを小さくするといった処
理を行う。

【００１８】基底ピッチテーブル５０７は、男声音用と
女声音用とに分けられており、ユーザから入力される話
者指定によって読み出す基底ピッチを選択する。通常男
性音の場合は３．０〜４．０の範囲内、女性音の場合は
４．０〜５．０の範囲内で声の高さ指定の段階数に応じ
て量子化されている。以上がピッチパタン生成過程であ
る。

【００１９】次に音韻継続時間制御について述べる。音
韻継続時間決定部２０３は、音韻文字列・韻律記号など
からそれぞれの音韻の長さ、休止区間長を決定する。休
止区間とは、フレーズ間、あるいは文章間でのポーズの
長さである（以後ポーズ長と呼ぶ）。音韻長は通常、音
節を構成している子音・母音の長さの他、破裂性を有す
る音韻（ｐ，ｔ，ｋなど）の直前に現れる無音長（閉鎖
区間長）を、それぞれ決定する。音韻継続時間長、ポー
ズ長を総称して継続時間長と呼ぶことにする。音韻継続
時間の決定方法は通常、目標となる音韻の前後近傍の音
韻の種別あるいは、単語内・呼気段落内の音節位置など
により、数量化Ｉ類などの統計的手法が用いられる場合
が多い。一方、ポーズ長は、前後隣接するフレーズのモ
ーラ総数などにより同じく、数量化Ｉ類などの統計的手
法が用いられる。またこの時、ユーザから発声速度を指
定された場合は、それに応じて音韻継続時間の伸縮を行
う。通常、発声速度指定は、５〜１０段階程度に制御さ
れ、それぞれのレベルに対してあらかじめ割り当てられ
た定数を乗ずることにより行われる。発声速度を遅くし
たい場合は音韻継続時間を長くし、発声速度を速くした
い場合は音韻継続時間を短くする。音韻継続時間制御に
関しては、本発明の主題であるので後述する。

【００２０】音韻パワー決定部２０４は、音韻文字列か
らそれぞれの音韻の波形振幅値の算出を行う。波形振幅
値は、／ａ，ｉ，ｕ，ｅ，ｏ／などの音韻の種類・呼気
段落内での音節位置などから経験的に決められる。ま
た、音節内においても、立ち上がりの徐々に振幅値が大
きくなる区間と、定常状態にある区間と、立ち下がりの
徐々に振幅値が小さくなる区間のパワー遷移も同時に決
定している。これらパワー制御は通常、テーブル化され
た係数値を用いることにより実行される。またこの時、
ユーザからの声の大きさ指定があった場合は、それに応
じて振幅値を増減する。通常、声の大きさ指定は、１０
段階程度に制御され、それぞれのレベルに対してあらか
じめ割り当てられた定数を乗ずることにより行われる。

【００２１】音声素片決定部２０５は、音韻文字列を表
現するために必要な音声素片の、素片辞書１０５内アド
レスの決定を行う。素片辞書１０５は、例えば男声音と
女性音といった具合に複数話者の音声素片が格納されて
おり、ユーザからの話者指定により素片アドレスの決定
を行う。素片辞書１０５に格納されている音声素片デー
タは、ＣＶ、ＶＣＶなど前後の音韻環境に応じた形で様
々な単位で構築されているため、入力テキストの音韻文
字列の並びから最適な合成単位を選択する。

【００２２】声質係数決定部２０６は、ユーザから声質
変換指定があった場合に、変換パラメータの決定を行
う。声質変換とは、素片辞書１０５に登録されている素
片データに、信号処理等の加工を施すことにより、聴感
上、別話者として取り扱えるようにした機能である。一
般に、素片データを線形に伸縮する処理を施して実現す
る場合が多い。伸長処理は、素片データのオーバーサン
プリング処理で実現され、太い声となる。逆に縮小処理
は、素片データのダウンサンプリング処理で実現され、
細い声となる。通常、声質変換指定は、５〜１０段階程
度に制御され、それぞれのレベルに対してあらかじめ割
り当てられたリサンプリング・レートにより変換を行
う。

【００２３】以上の処理により生成されたピッチパタン
・音韻パワー・音韻継続時間・音声素片アドレス・伸縮
パラメータは合成パラメータ生成部２０７に送られ、合
成パラメータが生成される。合成パラメータは、フレー
ム（通常８ｍｓ程度の長さ）を一つの単位とした波形生
成用のパラメータであり、波形生成部１０３に送られ
る。

【００２４】図１７に波形生成部の機能ブロック図を示
す。素片復号部３０１では、合成パラメータのうち、素
片アドレスを参照ポインタとして素片辞書１０５から素
片データをロードし、必要に応じて復号処理を行う。素
片辞書１０５には、音声を合成するための元となる音声
素片データが格納されており、何らかの圧縮処理が施さ
れている場合は、復号処理を施す。復号された音素片デ
ータは、振幅制御部３０２で振幅係数が乗じられてパワ
ー制御が行われる。素片加工部３０３では、声質変換の
ための素片伸縮処理が施される。声質を太くする場合は
素片全体を伸長し、声質を細くする場合は素片全体を縮
小するといった処理が施される。重畳制御部３０４で
は、合成パラメータのうち、ピッチパタンや音韻継続時
間といった情報から、素片データの重畳を制御し、合成
波形を生成する。波形重畳が完了したデータから逐次Ｄ
Ａリングバッファ３０５に書き込み、出力サンプリング
周期でＤＡコンバータに転送し、スピーカから出力す
る。

【００２５】次に音韻継続時間制御について詳細に説明
する。図２０に従来技術による音韻継続時間決定部の機
能ブロック図を示す。中間言語解析部２０１から解析結
果が制御要因設定部６０１に入力される。制御要因設定
部６０１では、例えば、音韻個々の継続時間長あるい
は、単語全体での継続時間長などを予測するために必要
な制御要因の設定を行う。予測には、例えば、対象とな
る音韻、前後の音韻の種類、構成しているフレーズのモ
ーラ総数、文内位置といった情報が用いられ、継続時間
推定部６０２に送られる。アクセント成分、フレーズ成
分の各成分値予測には、自然発声データを基に数量化Ｉ
類などの統計的手法を用いて予め学習した継続時間予測
テーブル６０４が用いられる。予測された結果は継続時
間修正部６０３に送られ、ユーザから発声速度指定があ
った場合は予測値の修正が施される。通常、発声速度指
定は、５〜１０段階程度に制御され、それぞれのレベル
に対してあらかじめ割り当てられた定数を乗ずることに
より行われる。発声速度を遅くしたい場合は音韻継続時
間を長くし、発声速度を速くしたい場合は音韻継続時間
を短くする。例えば、発声速度レベルが５段階に制御さ
れ、レベル０からレベル４まで指定可能だとする。それ
ぞれのレベルｎに対応した定数Ｔｎを次のように定め
る。すなわち、Ｔ_０＝２．０、Ｔ_１＝１．５、Ｔ_２＝１．０、Ｔ_３＝
０．７５、Ｔ_４＝０．５とする。

【００２６】先に予測された音韻継続時間のうち、母音
長とポーズ長に対して、ユーザから指定されたレベルｎ
に対応した定数Ｔ_ｎが乗じられる。レベル０の場合は
２．０が乗じられるので生成される波形は長くなり発声
速度は遅くなる。レベル４の場合は０．５が乗じられる
ので生成される波形は短くなり発声速度は速くなる。上
記の例では、レベル２が通常発声速度（デフォルト）と
なっている。

【００２７】発声速度制御が施された合成波形の例を図
２１に示す。図示したように、音韻継続時間の発声速度
制御は通常、母音のみで行う。閉鎖区間長あるいは子音
長は、発声速度に依らずほぼ一定と考えられるからであ
る。発声速度を速くした（ａ）図では母音長だけが０．
５倍されており、重畳される音声素片数を減じて実現し
ている。逆に発声速度を遅くした（ｃ）図では母音長だ
けが１．５倍されており、重畳される音声素片数を繰り
返し使うなどして実現している。また、ポーズ長に対し
ては母音長制御と同様に、指定レベルに応じた定数が乗
じられるため、発声速度が遅くなるほどポーズ長も長く
なり、発声速度が速くなるほどポーズ長も短くなる。

【００２８】ここで発声速度が速い場合を考える。前述
の例ではレベル４に当たる。テキスト音声変換システム
の利用特性上、最大発声速度レベルは「早聞き機能」と
いう意味合いが大きい。読上げ対象となるテキストの中
でも、ユーザにとって、重要な部分とそうでない部分が
存在するため、重要でない部分は発声速度を速くして読
み飛ばし、重要な部分は通常発声速度で合成する。この
ような利用方法が一般的である。最近のテキスト音声変
換装置では、早聞き機能用のボタンがあり、このボタン
を押下すると発声速度レベルが最大に設定され最高速度
で合成され、ボタンを離すと発声速度レベルが以前の設
定値に復帰するといったものがある。

【００２９】

【発明が解決しようとする課題】しかしながら上記の従
来技術では、以下に述べる問題があった。（１）早聞き機能を有効にすると、単純に音韻の継続時
間長を短くする、言い換えると、生成する波形の長さを
短くする処理を施しているため、波形生成部に負荷がか
かるといった問題があった。波形生成部では、波形重畳
が完了し、生成された波形データから逐次ＤＡリングバ
ッファに書き込むという処理を行っているため、生成さ
れる波形長が短い場合はその分、波形生成処理に費やす
ことのできる時間が短くなることになる。波形データ長
が半分になると、処理時間も半分で終了させなければな
らない。例えば、音韻継続時間長が半分になったからと
いって、必ずしも演算量が半分になるわけではないた
め、ＤＡコンバータへの転送処理に、波形生成処理が追
いつかない場合は、合成音が途中で止まる「音切れ」現
象が発生する場合がある。

【００３０】（２）早聞き機能を有効にすると、単純に
音韻の継続時間長を短くする処理が施されるため、ピッ
チパタンも基本的に線形に縮小される。つまり抑揚も時
間的に速い周期で変動することになり、これは、不自然
なイントネーションで非常に聞き取りにくい合成音とな
っていた。早聞き機能は、読上げ対象となるテキストを
完全にスキップするのではなく、聞き流すという用途で
用いられるため、抑揚の激しい合成音は不向きであっ
た。従来技術において早聞き機能有効時の合成音声は、
抑揚変化が激しすぎるため聞き取りにくく理解しずらい
ものとなっていた。

【００３１】（３）早聞き機能を有効にすると、音韻継
続時間と共に、文章間のポーズも同一比率で縮小され
る。そのため、文章と文章の境界がほとんどなくなり、
切れ目が分かり難くなっていた。１文の合成音声を出力
した直後に、さらに次の１文の合成音声が出力されるた
め、従来技術において早聞き機能有効時の合成音声は、
テキスト内容を理解しつつ読み飛ばす用途においては不
向きであった。

【００３２】（４）早聞き機能を有効にすると、テキス
ト全体に渡って、発声速度が速くなるため、早聞き解除
のタイミングを取ることが難しかった。通常の早聞き機
能使用方法は、ある文章の中から所望の部分までを読み
飛ばし、以降を通常速度で合成するというものである。
従来技術によると、ユーザが欲した部分の読上げが行わ
れ、早聞き機能解除をした時点では、所望の部分を大き
く通り越してしまういった問題があった。この場合、早
聞き機能を解除した後に一旦、読上げ対象区間を前にさ
かのぼって設定した後に通常発声速度で合成開始すると
いった面倒な操作をしなければいけなかった。またユー
ザは、必要な部分と必要でない部分とを聞き分けなが
ら、早聞き機能の有効化・無効化の動作を行わなければ
ならず、非常に労力を必要としていた。

【００３３】本発明は、（Ａ）発声速度を速くした時に
高負荷になって音切れが発生するという問題点と、
（Ｂ）発声速度を速くした時にピッチ変動周期も速くな
り、不自然なイントネーションになってしまうという問
題点と、（Ｃ）発声速度を速くした時に、文と文との間
のポーズが短くなって理解しがたい合成音となってしま
うという問題点と、（Ｄ）早聞き機能解除タイミングが
取りづらいという問題点を解決したテキスト音声変換に
おける高速読み上げ制御方法を提供することを目的とす
る。

【００３４】

【課題を解決するための手段】この発明は、上記課題
（Ａ）を解決するために、ユーザの指定する発声速度が
最高速に設定された場合、すなわち早聞き機能が有効と
なった場合に、パラメータ生成手段における音韻継続時
間決定手段において、統計的手法を用いて予測した継続
時間予測テーブルに替えて、予め経験的に求めた継続時
間規則テーブルを用いて音韻継続時間を決定し、また、
ピッチパタン決定手段において、統計的手法により算出
した予測テーブルを用いる代わりに、予め経験的に求め
た規則テーブルを使用してピッチパタンを決定し、更
に、声質決定手段においては声質が変化しないような声
質変換係数を選択する。

【００３５】また、この発明は、上記課題（Ｂ）を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合に、アクセント成分及びフレーズ成分の計算
を行わないようにすると共に基底ピッチを変更しないよ
うにしている。

【００３６】また、この発明は、上記課題（Ｃ）を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合に、文章間に文章の区切りを示す合図音を挿
入するようにしている。

【００３７】更に、この発明は、上記課題（Ｄ）を解決
するために、ユーザの指定する発声速度が最高速に設定
された場合でも、少なくとも文章の先頭単語について
は、通常の発声速度で再生するようにしている。

【００３８】

【発明の実施の形態】第１の実施の形態［構成］以下、第１の実施の形態における構成を図面を
参照しながら詳細に説明する。従来技術と異なる点は、
発声速度が最高速に設定された場合、すなわち、早聞き
機能が有効となった場合に内部演算処理の一部を簡略
化、省略を行うことによって負荷軽減させた点である。

【００３９】図１は、第１の実施の形態におけるパラメ
ータ生成部１０２の機能ブロック図である。パラメータ
生成部１０２への入力は従来と同じく、テキスト解析部
１０１から出力される中間言語および、ユーザが個別に
指定する韻律制御パラメータである。中間言語解析部８
０１には一文毎の中間言語が入力され、以降の韻律生成
処理で必要となる音韻系列・フレーズ情報・アクセント
情報などといった中間言語解析結果が、それぞれピッチ
パタン決定部８０２、音韻継続時間決定部８０３、音韻
パワー決定部８０４、音声素片決定部８０５、声質係数
決定部８０６に出力される。

【００４０】ピッチパタン決定部８０２には、前述の中
間言語解析結果に加えてユーザからの抑揚指定・声の高
さ指定・発声速度指定・話者指定の各パラメータが入力
され、ピッチパタンが合成パラメータ生成部８０７に出
力される。ピッチパタンとは基本周波数の時間的遷移の
ことである。

【００４１】音韻継続時間決定部８０３には、前述の中
間言語解析結果に加えてユーザからの発声速度指定のパ
ラメータが入力され、それぞれの音韻の音韻継続時間・
ポーズ長といったデータが合成パラメータ生成部８０７
に出力される。

【００４２】音韻パワー決定部８０４には、前述の中間
言語解析結果に加えてユーザからの声の大きさ指定パラ
メータが入力され、それぞれの音韻の音韻振幅係数が合
成パラメータ生成部８０７に出力される。

【００４３】音声素片決定部８０５には、前述の中間言
語解析結果に加えてユーザからの話者指定パラメータが
入力され、波形重畳するための必要な音声素片アドレス
が合成パラメータ生成部８０７に出力される。

【００４４】声質係数決定部８０６には、前述の中間言
語解析結果に加えてユーザからの声質指定・発声速度指
定の各パラメータが入力され、声質変換パラメータが合
成パラメータ生成部８０７に出力される。

【００４５】合成パラメータ生成部８０７は、入力され
た各韻律パラメータ（前述したピッチパタン、音韻継続
時間、ポーズ長、音韻振幅係数、音声素片アドレス、声
質変換係数）から、フレーム（通常８ｍｓ程度の長さ）
を一つの単位とした波形生成用のパラメータを生成し、
波形生成部１０３に出力する。

【００４６】パラメータ生成部１０２において、従来技
術と比較して異なる点は、発声速度指定パラメータが音
韻継続時間決定部８０３のほかに、ピッチパタン決定部
８０２、声質係数決定部８０６のそれぞれに入力されて
いる点と、ピッチパタン決定部８０２、音韻継続時間決
定部８０３、声質係数決定部８０６のそれぞれの内部処
理である。テキスト解析部１０１および波形生成部１０
３においては、従来と同様であるため、その構成に関す
る説明は省略する。

【００４７】ピッチパタン決定部８０２の構成について
図２を用いて説明する。第１の実施の形態においては、
アクセント成分およびフレーズ成分の決定に、数量化Ｉ
類等の統計的手法を用いる場合と規則による場合との２
通りの構成を有する。規則による制御の場合は、予め経
験的に求められた規則テーブル９１０を用い、統計的手
法による制御の場合は、自然発声データを基に数量化Ｉ
類などの統計的手法を用いて予め学習した予測テーブル
９０９を用いる。予測テーブル９０９のデータ出力はス
イッチ９０７のａ端子に接続され、規則テーブル９１０
のデータ出力はスイッチ９０７のｂ端子に接続される。
いずれの端子が選択されるかは、セレクタ９０６の出力
によって決定される。

【００４８】セレクタ９０６には、ユーザから指定され
る発声速度レベルが入力され、スイッチ９０７を制御す
るための信号がスイッチ９０７に接続される。発声速度
が最高レベルの場合はスイッチ９０７をｂ端子側に接続
し、それ以外の場合はスイッチ９０７をａ端子側に接続
する。スイッチ９０７の出力は、アクセント成分決定部
９０２とフレーズ成分決定部９０３に接続される。

【００４９】中間言語解析部８０１からの出力は制御要
因設定部９０１に入力され、アクセント・フレーズ両成
分の決定のための要因パラメータの解析が行われ、その
出力がアクセント成分決定部９０２とフレーズ成分決定
部９０３に接続される。

【００５０】アクセント成分決定部９０２とフレーズ成
分決定部９０３には、スイッチ９０７からの出力が接続
されており、予測テーブル９０９もしくは規則テーブル
９１０を用いてそれぞれの成分値を決定しピッチパタン
修正部９０４に出力する。

【００５１】ピッチパタン修正部９０４には、ユーザか
ら指定される抑揚指定レベルが入力され、該レベルに応
じて予め定められた定数が乗じられ、その結果が基底ピ
ッチ加算部９０５に接続される。

【００５２】基底ピッチ加算部９０５にはさらに、ユー
ザから指定される声の高さレベル・話者指定および、基
底ピッチテーブル９０８が接続されている。基底ピッチ
テーブル９０８には、ユーザ指定された声の高さレベル
と性別とに応じて予め定められた定数値が格納されてお
り、ピッチパタン修正部９０４からの入力に加算してピ
ッチパタン時系列データとして合成パラメータ生成部８
０７に出力する。

【００５３】音韻継続時間決定部８０３の構成について
図３を用いて説明する。第１の実施の形態においては、
音韻継続時間の決定に、数量化Ｉ類等の統計的手法を用
いる場合と規則による場合との２通りの構成を有する。
規則による制御の場合は、予め経験的に求められた継続
時間規則テーブル１００７を用い、統計的手法による制
御の場合は、自然発声データを基に数量化Ｉ類などの統
計的手法を用いて予め学習した継続時間予測テーブル１
００６を用いる。継続時間予測テーブル１００６のデー
タ出力はスイッチ１００５のａ端子に接続され、継続時
間規則テーブル１００７のデータ出力はスイッチ１００
５のｂ端子に接続される。いずれの端子が選択されるか
は、セレクタ１００４の出力によって決定される。

【００５４】セレクタ１００４には、ユーザから指定さ
れる発声速度レベルが入力され、スイッチ１００５を制
御するための信号がスイッチ１００５に接続される。発
声速度が最高レベルの場合はスイッチ１００５をｂ端子
側に接続し、それ以外の場合はスイッチ１００５をａ端
子側に接続する。スイッチ１００５の出力は、継続時間
決定部１００２に接続される。

【００５５】中間言語解析部８０１からの出力は制御要
因設定部１００１に入力され、音韻継続時間決定のため
の要因パラメータの解析が行われ、その出力が継続時間
決定部１００２に接続される。

【００５６】継続時間決定部１００２には、スイッチ１
００５からの出力が接続されており、継続時間予測テー
ブル１００６もしくは継続時間規則テーブル１００７を
用いて音韻継続時間長を決定し継続時間修正部１００３
に出力する。継続時間修正部１００３には、ユーザから
指定される発声速度レベルが入力され、該レベルに応じ
て予め定められた定数が乗じられて修正が施され、その
結果が合成パラメータ生成部８０７に出力される。

【００５７】声質係数決定部８０６の構成について図４
を用いて説明する。この例では声質変換指定レベルは５
段階となっている。ユーザから指定される発声速度レベ
ルおよび声質指定レベルがセレクタ１１０２に入力さ
れ、スイッチ１１０３を制御するための信号がスイッチ
１１０３に接続される。この時のスイッチ制御信号は、
発声速度が最高レベルの場合は無条件でｃ端子有効に
し、それ以外の場合は、声質指定レベルに応じた端子が
有効となる。すなわち、声質レベルが０の時はａ端子、
レベル１の時はｂ端子、以下同様にレベル４の時ｅ端子
がそれぞれ有効となる。スイッチ１１０３のａ〜ｅの各
端子は、声質変換係数テーブル１１０４に接続され、そ
れぞれに対応した声質変換係数データが呼び出され、ス
イッチ１１０３の出力として声質係数選択部１１０１に
接続される。声質係数選択部１１０１は入力された声質
変換係数を合成パラメータ生成部８０７に出力する。

【００５８】［動作］以上のように構成された第１の実
施の形態における動作について詳細に説明する。従来技
術と異なる点は、パラメータ生成に関わる処理であるの
で、それ以外の処理については説明を省略する。

【００５９】テキスト解析部１０１で生成された中間言
語は、パラメータ生成部１０２内部の中間言語解析部８
０１に送られる。中間言語解析部８０１では、中間言語
上に記述されているフレーズ区切り記号、単語区切り記
号、アクセント核を示すアクセント記号、そして音韻記
号列から、韻律生成に必要なデータを抽出して、ピッチ
パタン決定部８０２、音韻継続時間決定部８０３、音韻
パワー決定部８０４、音声素片決定部８０５、声質係数
決定部８０６のそれぞれの機能ブロックへ送る。

【００６０】ピッチパタン決定部８０２では、声の高さ
の遷移であるイントネーションが生成され、音韻継続時
間決定８０３では、音韻個々の継続時間のほか、フレー
ズとフレーズの切れ目あるいは、文と文との切れ目に挿
入するポーズ長を決定する。また、音韻パワー決定部８
０４では、音声波形の振幅値の遷移である音韻パワーが
生成され、音声素片決定部８０５では合成波形を生成す
るために必要となる音声素片の、素片辞書１０５におけ
るアドレスを決定する。声質係数決定部８０６では、素
片データを信号処理で加工するためのパラメータの決定
が行われる。ユーザから指定される韻律制御指定のう
ち、抑揚指定および声の高さ指定はピッチパタン決定部
８０２に、発声速度指定はピッチパタン決定部８０２と
音韻継続時間決定部８０３と声質係数決定部８０６に、
声の大きさ指定は音韻パワー決定部８０４に、話者指定
はピッチパタン決定部８０２と音声素片決定部８０５
に、声質指定は声質係数決定部８０６にそれぞれ送られ
ている。

【００６１】以下に、それぞれの機能ブロックごとに動
作の説明を行う。まず、図２を用いて、ピッチパタン決
定部８０２の動作を詳細に説明する。中間言語解析部２
０１から解析結果が制御要因設定部９０１に入力され
る。制御要因設定部９０１では、フレーズ成分、アクセ
ント成分の大きさを決定するために必要な制御要因の設
定を行う。フレーズ成分の大きさの決定に必要なデータ
とは、例えば、該当するフレーズを構成しているモーラ
総数、文内での相対位置、先頭単語のアクセント型とい
った情報である。一方、アクセント成分の大きさの決定
に必要なデータとは、例えば、該当するアクセント句の
アクセント型、構成しているモーラ総数、品詞、フレー
ズ内での相対位置といった情報である。これらの成分値
を決定するために予測テーブル９０９あるいは、規則テ
ーブル９１０が使用される。前者は、自然発声データを
基に数量化Ｉ類などの統計的手法を用いて予め学習した
テーブルであり、後者は、予備実験等の実施により経験
的に導き出された成分値が格納されたテーブルである。
数量化Ｉ類に関しては公知であるのでここでは説明を省
略する。どちらが選択されるかはスイッチ９０７により
制御され、スイッチ９０７がａ端子に接続された場合は
予測テーブル９０９が、ｂ端子に接続された場合は規則
テーブル９１０が選択されることになる。

【００６２】ピッチパタン決定部８０２には、ユーザか
ら指定される発声速度レベルが入力されており、これに
よりセレクタ９０６を介してスイッチ９０７が駆動され
ている。セレクタ９０６は、入力された発声速度レベル
が最高速度であった時、スイッチ９０７をｂ端子側に接
続するような制御信号を送信する。逆に、入力された発
声速度レベルが最高速度ではない時、スイッチ９０７を
ａ端子側に接続するような制御信号を送信する。例え
ば、発声速度が５段階、レベル０からレベル４まで設定
でき、数値が大きくなる程発声速度が速くなる仕様の場
合、セレクタ９０６は、入力された発声速度レベルが４
の時だけスイッチ９０７をｂ端子に接続するような制御
信号を送信し、それ以外の時はａ端子に接続するような
制御信号を送信する。すなわち、発声速度が最高速度の
場合は規則テーブル９１０が選択され、そうでない場合
は予測テーブル９０９が選択されることになる。

【００６３】アクセント成分決定部９０２とフレーズ成
分決定部９０３は、選択されたテーブルを用いてそれぞ
れの成分値の算出を行う。予測テーブル９０９が選択さ
れた場合は、統計的手法を用いてアクセント・フレーズ
両成分の大きさを決定する。規則テーブル９１０が選択
された場合は、あらかじめ決められた規則に従ってアク
セント・フレーズ両成分の大きさを決定する。例えばフ
レーズ成分の大きさの規則化の例としては、文内の位置
で決定し、文先頭フレーズは一律に０．３、文終端フレ
ーズは一律に０．１、それ以外の文中フレーズは０．２
などが考えられる。アクセント成分の大きさに関して
も、アクセント型が１型の時とそれ以外の時、フレーズ
内での単語位置が先頭の場合とそうでない場合といった
具合に場合分けして、それぞれの条件に対して成分値を
割り当てておく。このような構成にすることで、フレー
ズ・アクセント両成分値の決定はテーブル参照を行うだ
けで行える。本発明におけるピッチパタン決定部の主題
は、統計的手法を用いてフレーズ・アクセント成分の大
きさを決定する場合と比較して、演算量が少なく済み、
処理時間の短縮が図れるモードを有する構成にすること
である。したがって、規則化手順は上記に限られるもの
ではない。

【００６４】以上のような処理が施され決定したアクセ
ント成分、フレーズ成分は、ピッチパタン修正部９０４
で抑揚制御が行われ、基底ピッチ加算部９０５で声の高
さ制御が施される。

【００６５】ピッチパタン修正部９０４はユーザから指
定される抑揚制御レベルに応じた係数を乗ずる操作が行
われる。ユーザからの抑揚制御指定は例えば、３段階で
与えられ、レベル１が抑揚を１．５倍に、レベル２が抑
揚を１．０倍に、レベル３が抑揚を０．５倍にといった
具合に定められている。

【００６６】基底ピッチ加算部９０５では、抑揚修正さ
れたアクセント成分、フレーズ成分に対して、ユーザか
ら指定される声の高さレベルあるいは、話者指定（性
別）に応じた定数を加算する操作が行われ、ピッチパタ
ン時系列データとして合成パラメータ生成部８０７に送
られる。例えば、声の高さレベルが５段階、レベル０か
らレベル４まで設定できるシステムの場合、基底ピッチ
テーブル９０８に格納されているデータは男声音の場
合、３．０、３．２、３．４、３．６、３．８といった
数値、女性音の場合は、４．０、４．２、４．４、４．
６、４．８といった数値が良く用いられる。

【００６７】次に音韻継続時間制御について図３を用い
てその動作について詳細に説明する。中間言語解析部２
０１から解析結果が制御要因設定部１００１に入力され
る。制御要因設定部１００１では、音韻継続時間（子音
長・母音長・閉鎖区間長）、ポーズ長を決定するために
必要な制御要因の設定を行う。音韻継続時間の決定に必
要なデータとは、例えば、目標となる音韻の種別、対象
音節の前後近傍の音韻の種別あるいは、単語内・呼気段
落内の音節位置といった情報である。一方、ポーズ長決
定に必要なデータとは、前後隣接するフレーズのモーラ
総数といった情報である。これらの継続時間長を決定す
るために継続時間予測テーブル１００６あるいは、継続
時間規則テーブル１００７が使用される。前者は、自然
発声データを基に数量化Ｉ類などの統計的手法を用いて
予め学習したテーブルであり、後者は、予備実験等の実
施により経験的に導き出された成分値が格納されたテー
ブルである。どちらが選択されるかはスイッチ１００５
により制御され、スイッチ１００５がａ端子に接続され
た場合は継続時間予測テーブル１００６が、ｂ端子に接
続された場合は継続時間規則テーブル１００７が選択さ
れることになる。

【００６８】音韻継続時間決定部８０３には、ユーザか
ら指定される発声速度レベルが入力されており、これに
よりセレクタ１００４を介してスイッチ１００５が駆動
されている。セレクタ１００４は、入力された発声速度
レベルが最高速度であった時、スイッチ１００５をｂ端
子側に接続するような制御信号を送信する。逆に、入力
された発声速度レベルが最高速度ではない時は、スイッ
チ１００５をａ端子側に接続するような制御信号を送信
する。例えば、発声速度が５段階、レベル０からレベル
４まで設定でき、数値が大きくなる程発声速度が速くな
る仕様の場合、セレクタ１００４は、入力された発声速
度レベルが４の時だけスイッチ１００５をｂ端子に接続
するような制御信号を送信し、それ以外の時はａ端子に
接続するような制御信号を送信する。すなわち、発声速
度が最高速度の場合は継続時間規則テーブル１００７が
選択され、そうでない場合は継続時間予測テーブル１０
０６が選択されることになる。

【００６９】継続時間決定部１００２は、選択されたテ
ーブルを用いて音韻継続時間、ポーズ長の算出を行う。
継続時間予測テーブル１００６が選択された場合は、統
計的手法を用いて決定する。継続時間規則テーブル１０
０７が選択された場合は、あらかじめ決められた規則に
従って決定する。例えば音韻継続時間の規則化の例とし
ては、その音韻の種類、文内の位置などに応じて基本長
を割り当てておく。大量の自然発声データから音韻毎に
平均を算出し、これを基本長としてもよい。ポーズ長に
関しては、一律に３００ｍｓを割り当てるか、あるい
は、テーブル参照を行うだけで決定できるような構成が
望ましい。本実施の形態における音韻継続時間決定部の
主題は、統計的手法を用いて継続時間を決定する場合と
比較して、演算量が少なく済み、処理時間の短縮が図れ
るモードを有する構成にすることである。したがって、
規則化手順は上記に限られるものではない。

【００７０】以上のような処理が施され決定した継続時
間は、継続時間修正部１００３に送られる。継続時間修
正部１００３には、ユーザから指定される発声速度レベ
ルも同時に入力されており、このレベルに応じて音韻継
続時間の伸縮を行う。通常、発声速度指定は、５〜１０
段階程度に制御され、それぞれのレベルに対してあらか
じめ割り当てられた定数を母音の継続時間長あるいは、
ポーズ長に対して乗ずることにより行われる。発声速度
を遅くしたい場合は音韻継続時間を長くし、発声速度を
速くしたい場合は音韻継続時間を短くする。

【００７１】次に声質係数決定について図４を用いてそ
の動作について詳細に説明する。声質係数決定部８０６
には、ユーザから指定される声質変換レベルと、発声速
度レベルが入力される。これらの韻律制御パラメータ
は、セレクタ１１０２を介してスイッチ１１０３を制御
するために用いられる。セレクタ１１０２はまず、発声
速度レベルの判定を行う。発声速度レベルが最高速度の
場合は、スイッチ１１０３をｃ端子に接続し、最高速度
以外の場合は、声質変換レベルの判定を行う。この時
は、声質変換レベルに応じた端子に接続するようにスイ
ッチ１１０３を制御する。声質指定レベルが０の時はａ
端子、レベル１の時はｂ端子、以下同様にレベル４の時
はｅ端子に接続する。スイッチ１１０３のａ〜ｅの各端
子は、声質変換係数テーブル１１０４に接続され、それ
ぞれに対応した声質変換係数データが呼び出される機能
になっている。

【００７２】声質変換係数テーブル１１０４には、音声
素片の伸縮係数が格納されており、例えば声質変換レベ
ルｎに対応する伸縮係数をＫ_ｎを次のように定める。す
なわち、Ｋ_０＝２．０、Ｋ_１＝１．５、Ｋ_２＝１．０、Ｋ_３＝
０．８、Ｋ_４＝０．５のように設定する。これらの数値は、元となる音声素片
の長さをＫ_ｎ倍に伸縮した後に波形重畳して合成音声を
生成するという意味である。レベル２の時は、係数値が
１．０なので声質変換のための処理は一切行われないこ
とになる。スイッチ１１０３のａ端子に接続されている
場合は、係数Ｋ_０が選択されて声質係数選択部１１０１
に送られる。スイッチ１１０３のｂ端子に接続されてい
る場合は、係数Ｋ_１が選択されて声質係数選択部１１０
１に送られるといった具合である。

【００７３】ここで、図５を参照しながら素片の線形伸
縮の方法の一例について述べる。声質変換レベルｎにお
ける音声素片のデータの第ｍサンプル目をＸ_ｎｍとす
る。このように定義すると、声質変換後のデータ系列
は、変換前のデータ系列Ｘ_２ｎを用いて以下のようにし
て算出することができる。即ち、レベル０では、Ｘ_００＝Ｘ_２０Ｘ_０１＝Ｘ_２０ × １／２＋Ｘ_２１ × １／２Ｘ_０２＝Ｘ_２１レベル１では、Ｘ_１０＝Ｘ_２０Ｘ_１１＝Ｘ_２０ × １／３＋Ｘ_２１ × ２／３Ｘ_１２＝Ｘ_２１ × ２／３＋Ｘ_２２ × １／３Ｘ_１３＝Ｘ_２２レベル３では、Ｘ_３０＝Ｘ_２０Ｘ_３１＝Ｘ_２１ × ３／４＋Ｘ_２２ × １／４Ｘ_３２＝Ｘ_２２ × １／２＋Ｘ_２３ × １／２Ｘ_３３＝Ｘ_２３ × １／４＋Ｘ_２４ × ３／４Ｘ_３４＝Ｘ_２５レベル４では、Ｘ_４０＝Ｘ_２０Ｘ_４１＝Ｘ_２２のようになる。上記は、声質変換のための一例であっ
て、これに限られるものではない。本実施の形態におけ
る声質係数決定部の主題は、発声速度レベルが最高速の
時に声質変換指定を無効とする機能を有することによ
り、処理時間の短縮を図ることである。

【００７４】以上詳細に説明したように、第１の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、テキスト音声変換処理の中で演算負荷が大きい機能
ブロックを簡略化あるいは、無効にする処理を施してい
るため、高負荷による音切れが発生する機会を減少さ
せ、聞き易い合成音声を生成することが可能となる。

【００７５】この場合、発声速度が最高レベル以外に設
定された時の合成音と比較して、ピッチや継続時間など
の韻律性能の若干の違い、声質変換機能が有効とならな
い、といったことが起きるが、最高速度での合成音出力
は通常、読み飛ばしという意味合いで利用される場合が
ほとんどある。したがって、音声出力されるテキストの
内容を把握・理解できれば良い、という程度の使用方法
なので声質変換機能の有無、あるいは韻律性能低下とい
った点は音切れ現象と比較すると許容できるものと考え
られる。

【００７６】第２の実施の形態［構成］第２の実施の形態における構成を図面を参照し
ながら詳細に説明する。本実施の形態が従来技術と異な
る点は、発声速度が最高速に設定された場合、すなわ
ち、早聞き機能が有効となった時にピッチパタン生成処
理を変更する点である。したがって、従来と異なるパラ
メータ生成部、ピッチパタン決定部についてのみ説明す
る。

【００７７】図６は第２の実施の形態におけるパラメー
タ生成部の機能ブロック図を示しており、このブロック
図を用いて説明する。パラメータ生成部１０２への入力
は従来と同じく、テキスト解析部１０１から出力される
中間言語および、ユーザが個別に指定する韻律制御パラ
メータである。中間言語解析部１３０１には一文毎の中
間言語が入力され、以降の韻律生成処理で必要となる音
韻系列・フレーズ情報・アクセント情報などといった中
間言語解析結果が、それぞれピッチパタン決定部１３０
２、音韻継続時間決定部１３０３、音韻パワー決定部１
３０４、音声素片決定部１３０５、声質係数決定部１３
０６に出力される。

【００７８】ピッチパタン決定部１３０２には、前述の
中間言語解析結果に加えてユーザからの抑揚指定・声の
高さ指定・発声速度指定・話者指定の各パラメータが入
力され、ピッチパタンが合成パラメータ生成部１３０７
に出力される。

【００７９】音韻継続時間決定部１３０３には、前述の
中間言語解析結果に加えてユーザからの発声速度指定の
パラメータが入力され、それぞれの音韻継続時間・ポー
ズ長といったデータが合成パラメータ生成部１３０７に
出力される。

【００８０】音韻パワー決定部１３０４には、前述の中
間言語解析結果に加えてユーザからの声の大きさ指定パ
ラメータが入力され、それぞれの音韻振幅係数が合成パ
ラメータ生成部１３０７に出力される。

【００８１】音声素片決定部１３０５には、前述の中間
言語解析結果に加えてユーザからの話者指定パラメータ
が入力され、波形重畳するための必要な音声素片アドレ
スが合成パラメータ生成部１３０７に出力される。

【００８２】声質係数決定部１３０６には、前述の中間
言語解析結果に加えてユーザからの声質指定・発声速度
指定の各パラメータが入力され、声質変換パラメータが
合成パラメータ生成部１３０７に出力される。

【００８３】合成パラメータ生成部１３０７は、入力さ
れた各韻律パラメータ（前述したピッチパタン、音韻継
続時間、ポーズ長、音韻振幅係数、音声素片アドレス、
声質変換係数）を、フレーム（通常８ｍｓ程度の長さ）
を一つの単位とした波形生成用のパラメータに変換し、
波形生成部１０３に出力する。

【００８４】パラメータ生成部１０２において、従来技
術と比較して異なる点は、発声速度指定パラメータが音
韻継続時間決定部１３０３のほかに、ピッチパタン決定
部１３０２に入力されている点と、ピッチパタン決定部
１３０２の内部処理である。テキスト解析部１０１およ
び波形生成部１０３においては、従来と同様であるた
め、その構成に関する説明は省略する。また、パラメー
タ生成部１０２の内部機能ブロックにおいても、ピッチ
パタン決定部１３０２以外は従来と同様であるため、そ
の構成に関する説明は省略する。

【００８５】ピッチパタン決定部１３０２の構成につい
て図７を用いて説明する。中間言語解析部１３０１から
の出力は制御要因設定部１４０１に入力され、アクセン
ト・フレーズ両成分の決定のための要因パラメータの解
析が行われ、その出力がアクセント成分決定部１４０２
とフレーズ成分決定部１４０３に接続される。

【００８６】アクセント成分決定部１４０２とフレーズ
成分決定部１４０３には、予測テーブル１４０８が接続
され、数量化Ｉ類等の統計的手法を用いてそれぞれの成
分の大きさを予測する。予測されたアクセント成分値、
フレーズ成分値はピッチパタン修正部１４０４に接続さ
れる。

【００８７】ピッチパタン修正部１４０４にはユーザか
ら指定される抑揚指定レベルが入力され、該レベルに応
じて予め定められた定数が前述のアクセント成分、フレ
ーズ成分に乗じられ、その結果がスイッチ１４０５のａ
端子に接続される。スイッチ１４０５にはさらにｂ端子
が存在し、セレクタ１４０６から出力される制御信号に
より、端子ａ、端子ｂのいずれかに接続されるように構
成されている。

【００８８】セレクタ１４０６には、ユーザから指定さ
れる発声速度レベルが入力され、発声速度が最高レベル
の場合はスイッチ１４０５をｂ端子に接続し、それ以外
の場合はスイッチ１４０５をａ端子に接続する制御信号
を出力する。スイッチ１４０５のｂ端子は常にグランド
に接続されており、スイッチ１４０５は、ａ端子が有効
の時はピッチパタン修正部１４０４からの出力を、ｂ端
子が有効の時は０を基底ピッチ加算部１４０７に出力す
る機能を有している。

【００８９】基底ピッチ加算部１４０７にはさらに、ユ
ーザから指定される声の高さレベル・話者指定および、
基底ピッチテーブル１４０９が接続されている。基底ピ
ッチテーブル１４０９には、ユーザ指定された声の高さ
レベルと話者の性別に応じて予め定められた定数値が格
納されており、スイッチ１４０５からの入力に加算して
ピッチパタン時系列データとして合成パラメータ生成部
１３０７に出力する。

【００９０】［動作］以上のように構成された本発明の
第２の実施の形態における動作について詳細に説明す
る。

【００９１】まず、テキスト解析部１０１で生成された
中間言語は、パラメータ生成部１０２内部の中間言語解
析部１３０１に送られる。中間言語解析部１３０１で
は、中間言語上に記述されているフレーズ区切り記号、
単語区切り記号、アクセント核を示すアクセント記号、
そして音韻記号列から、韻律生成に必要なデータを抽出
して、ピッチパタン決定部１３０２、音韻継続時間決定
部１３０３、音韻パワー決定部１３０４、音声素片決定
部１３０５、声質係数決定部１３０６のそれぞれの機能
ブロックへ送る。

【００９２】ピッチパタン決定部１３０２では、声の高
さの遷移であるイントネーションが生成され、音韻継続
時間決定１３０３では、音韻個々の継続時間のほか、フ
レーズとフレーズの切れ目あるいは、文と文との切れ目
に挿入するポーズ長を決定する。また、音韻パワー決定
部１３０４では、音声波形の振幅値の遷移である音韻パ
ワーが生成され、音声素片決定部１３０５では合成波形
を生成するために必要となる音声素片の、素片辞書１０
５におけるアドレスを決定する。声質係数決定部１３０
６では、素片データを信号処理で加工するためのパラメ
ータの決定が行われる。

【００９３】ユーザから指定される種々の韻律制御指定
のうち、抑揚指定および声の高さ指定はピッチパタン決
定部１３０２に、発声速度指定はピッチパタン決定部１
３０２と音韻継続時間決定部１３０３に、声の大きさ指
定は音韻パワー決定部１３０４に、話者指定はピッチパ
タン決定部１３０２と音声素片決定部１３０５に、声質
指定は声質係数決定部１３０６にそれぞれ送られてい
る。

【００９４】以下に図７を用いてピッチパタン決定部１
３０２の動作に関して説明する。従来技術と異なる点
は、ピッチパタン生成に関わる処理であるので、それ以
外の処理については省略する。

【００９５】中間言語解析部２０１から解析結果が制御
要因設定部１４０１に入力される。制御要因設定部１４
０１では、フレーズ成分、アクセント成分の大きさを予
測するために必要な制御要因の設定を行う。フレーズ成
分の大きさの予測に必要なデータとは、例えば、該当す
るフレーズを構成しているモーラ総数、文内での相対位
置、先頭単語のアクセント型といった情報である。一
方、アクセント成分の大きさの予測に必要なデータと
は、例えば、該当するアクセント句のアクセント型、構
成しているモーラ総数、品詞、フレーズ内での相対位置
といった情報である。これらの成分値を決定するために
予測テーブル１４０８が使用される。予測テーブル１４
０８は、自然発声データを基に数量化Ｉ類などの統計的
手法を用いて予め学習したテーブルである。数量化Ｉ類
に関しては公知であるのでここでは説明を省略する。

【００９６】制御要因設定部１４０１で解析された予測
制御要因は、アクセント成分決定部１４０２とフレーズ
成分決定部１４０３に送られ、それぞれにおいてアクセ
ント成分の大きさ、フレーズ成分の大きさが予測テーブ
ル１４０８を用いて予測される。第１の実施の形態でも
示したように、予測モデルを使わずに規則でそれぞれの
成分値を決定しても構わない。算出されたアクセント成
分、フレーズ成分は、ピッチパタン修正部１４０４に送
られ、ユーザから指定される抑揚指定レベルに応じた係
数を乗ずる操作が行われる。

【００９７】ユーザからの抑揚制御指定は例えば、３段
階で与えられ、レベル１が抑揚を１．５倍に、レベル２
が抑揚を１．０倍に、レベル３が抑揚を０．５倍にとい
った具合に定められている。

【００９８】修正されたアクセント、フレーズ両成分は
スイッチ１４０５のａ端子に送られる。スイッチ１４０
５は、ａ、ｂ、２つの端子を有しており、セレクタ１４
０６からの制御信号によりどちらかの端子に接続するよ
うな機能になっている。一方のｂ端子は常に０が入力さ
れるようになっている。

【００９９】セレクタ１４０６にはユーザからの発声速
度レベルが入力されており、これにより出力制御が行わ
れている。セレクタ１４０６は、入力された発声速度レ
ベルが最高速度であった時、スイッチ１４０５をｂ端子
側に接続するような制御信号を送信する。逆に、入力さ
れた発声速度レベルが最高速度ではない時、スイッチ１
４０５をａ端子側に接続するような制御信号を送信す
る。例えば、発声速度が５段階、レベル０からレベル４
まで設定でき、数値が大きくなる程発声速度が速くなる
仕様の場合、セレクタ１４０６は、入力された発声速度
レベルが４の時だけスイッチ１４０５をｂ端子に接続す
るような制御信号を送信し、それ以外の時はａ端子に接
続するような制御信号を送信する。すなわち、発声速度
が最高速度の場合は０が選択され、そうでない場合は、
ピッチパタン修正部１４０４の出力である修正されたア
クセント成分値とフレーズ成分値が選択されることにな
る。

【０１００】選択されたデータは基底ピッチ加算部１４
０７に送られる。基底ピッチ加算部１４０７にはユーザ
からの声の高さ指定レベルが入力されており、基底ピッ
チテーブル１４０９から該レベルに対応する基底ピッチ
データが読み出され、前述のスイッチ１４０５からの出
力値との加算処理が施され、ピッチパタンの時系列デー
タとして合成パラメータ生成部１３０７に出力される。

【０１０１】例えば、声の高さレベルが５段階、レベル
０からレベル４まで設定できるシステムの場合、基底ピ
ッチテーブル１４０９に格納されているデータは男声音
の場合、３．０、３．２、３．４、３．６、３．８とい
った数値、女性音の場合は、４．０、４．２、４．４、
４．６、４．８といった数値が良く用いられる。

【０１０２】上記の例では、ピッチパタン修正部１４０
４の出力と数値０とをスイッチ１４０５で切り替える処
理を行っているが、無論、発声速度指定が最高レベルの
時は、制御要因設定部１４０１からピッチパタン修正部
１４０４までの処理は不要になる。

【０１０３】図８に第２の実施の形態におけるピッチパ
タン生成処理のフローチャートを示す。ここで図中の記
号は以下の通りとする。すなわち、入力文章中に含まれ
るフレーズ総数をＩ、単語総数をＪ、第ｉ番目のフレー
ズ成分の大きさをＡ_ｐｉ、第ｊ番目のアクセント成分の
大きさをＡ_ａｊ、第ｊ番目のアクセント句に対して指定
される抑揚制御係数Ｅ_ｊ、とする。

【０１０４】ステップＳＴ１０１からステップＳＴ１０
６にかけては、フレーズ成分の大きさＡ_ｐｉの算出を行
う。まずステップＳＴ１０１で、フレーズカウンタｉを
０に初期化する。次いでステップＳＴ１０２で発声速度
レベルの判定を行い、発声速度が最高速度である場合は
ステップＳＴ１０４に進み、そうでない場合はステップ
ＳＴ１０３に進む。ステップＳＴ１０４では、第ｉ番目
のフレーズ成分の大きさＡ_ｐｉを０に設定してステップ
ＳＴ１０５に進む。一方ステップＳＴ１０３では数量化
Ｉ類などの統計的手法を用いて第ｉ番目のフレーズ成分
の大きさＡ_ｐｉが予測され、ステップＳＴ１０５に進
む。ステップＳＴ１０５においては、フレーズカウンタ
ｉを１インクリメントする。次いでステップＳＴ１０６
で入力文章中のフレーズ総数Ｉとの比較を行い、フレー
ズカウンタｉが文内フレーズ総数Ｉを超えた場合、すな
わち全てのフレーズに対する処理が終了した場合にフレ
ーズ成分生成処理を終え、ステップＳＴ１０７に進む。
そうでない場合は、ステップＳＴ１０２に戻り次のフレ
ーズに対する処理を前述と同様に繰り返す。

【０１０５】ステップＳＴ１０７からステップＳＴ１１
３にかけては、アクセント成分の大きさＡ_ａｊの算出を
行う。まずステップＳＴ１０７で、単語カウンタｊを０
に初期化する。次いでステップＳＴ１０８で発声速度レ
ベルの判定を行い、発声速度が最高速度である場合はス
テップＳＴ１１１に進み、そうでない場合はステップＳ
Ｔ１０９に進む。ステップＳＴ１１１では、第ｊ番目の
アクセント成分の大きさＡ_ａｊを０に設定してステップ
ＳＴ１１２に進む。一方ステップＳＴ１０９では数量化
Ｉ類などの統計的手法を用いて第ｊ番目のアクセント成
分の大きさＡ_ａ _ｊが予測され、ステップＳＴ１１０に進
む。ステップＳＴ１１０では、第ｊ番目のアクセント句
に対して抑揚修正処理が下式により行われる。Ａ_ａｊ
＝Ａ_ａｊ × Ｅ_ｊ …（４）

【０１０６】ここでＥｊは、ユーザが指定する抑揚制御
レベルに応じてあらかじめ定められている抑揚制御係数
であり、先にも説明したように例えば抑揚制御レベルが
３段階で与えられ、レベル０が抑揚を１．５倍に、レベ
ル１が抑揚を１．０倍に、レベル２が抑揚を０．５倍に
といった場合は以下のようになる。レベル０（抑揚を１．５倍）Ｅ_ｊ＝１．５レベル１（抑揚を１．０倍）Ｅ_ｊ＝１．０レベル２（抑揚を０．５倍）Ｅ_ｊ＝０．５

【０１０７】抑揚修正終了後ステップＳＴ１１２に進
む。ステップＳＴ１１２においては、単語カウンタｊを
１インクリメントする。次いでステップＳＴ１１３で入
力文章中の単語総数Ｊとの比較を行い、単語カウンタｊ
が文内単語総数Ｊを超えた場合、すなわち全て単語に対
する処理が終了した場合にアクセント成分生成処理を終
え、ステップＳＴ１１４に進む。そうでない場合は、ス
テップＳＴ１０８に戻り次のアクセント句に対する処理
を前述と同様に繰り返す。

【０１０８】ステップＳＴ１１４では、上記の処理で決
定されたフレーズ成分値Ａ_ｐｉとアクセント成分値Ａ
_ａｊ、基底ピッチテーブル１４０９を参照して得られる
基底ピッチｌｎＦ_ｍｉｎとから式（１）によりピッチ
パタンを生成する。

【０１０９】以上詳細に説明したように本発明の第２の
実施の形態によれば、発声速度が既定値最大に設定され
た場合に、ピッチパタンの抑揚成分を０にしてピッチパ
タン生成を行うため、時間的に速い周期で抑揚が変動す
ることがなくなり、非常に聞き取りにくい合成音となる
ことが解消される。

【０１１０】図９は従来技術における発声速度によるピ
ッチパタンの違いの説明図である。上段（ａ）が通常発
声速度の場合であり、下段（ｂ）が最高速度の場合であ
る。横軸が時間であり、図中点線で示す曲線がフレーズ
成分を表わし、実線で示す曲線がアクセント成分に対応
している。最高速度が通常速度の２倍だとすると、生成
される波形は通常時の約１／２となる。（Ｔ_２＝Ｔ_１／
２）ピッチパタンの遷移も発声速度に比例して速くなる
ため、合成音声の抑揚は非常に速い周期での変動となる
ことが図を見ても分かる。しかし実際の発声においては
発声速度に応じて、フレーズの結合によるフレーズ境界
の消失、アクセント結合によるアクセント句境界の消失
といった現象が見られるため図（ｂ）のようにはならな
い。発声速度が速くなるにつれて、ピッチパタンの変化
も相対的に緩やかになることが多い。

【０１１１】例えば図９の例で言えば２つのフレーズで
構成されているが、これが１つのフレーズとして結合す
るといった現象が確認されている。従来技術において
は、この点を考慮に入れておらず、非常に聞きづらい合
成音声となっていたが、第２の実施の形態によれば、抑
揚成分を０にすることで聞き取り易い合成音声を生成す
ることが可能となる。

【０１１２】抑揚成分を０にすることで抑揚の全くな
い、平坦なロボット音声のようになってしまうが、最高
速度での合成音出力は通常、読み飛ばしという意味合い
で利用される場合がほとんどある。したがって、音声出
力されるテキストの内容を把握・理解できれば良い、と
いう程度の使用方法なので、抑揚のない合成音声は使用
に耐え得るものである。

【０１１３】第３の実施の形態［構成］発明の第３の実施の形態における構成を図面を
参照しながら詳細に説明する。本実施の形態が従来技術
と異なる点は、文章間に合図音を入れることで文と文と
の境界を明示する点である。

【０１１４】図１０は、第３の実施の形態におけるパラ
メータ生成部１０２の機能ブロック図であり、この図を
用いて説明する。パラメータ生成部１０２への入力は従
来と同じく、テキスト解析部１０１から出力される中間
言語および、ユーザが個別に指定する韻律制御パラメー
タである。ユーザからの韻律制御指定には、従来技術あ
るいは第１、第２の実施の形態にはないパラメータとし
て、合図音指定入力がある。これは後述する、文章間に
挿入する合図音の種類を指定するための入力である。

【０１１５】中間言語解析部１７０１には一文毎の中間
言語が入力され、以降の韻律生成処理で必要となる音韻
系列・フレーズ情報・アクセント情報などといった中間
言語解析結果が、それぞれピッチパタン決定部１７０
２、音韻継続時間決定部１７０３、音韻パワー決定部１
７０４、音声素片決定部１７０５、声質係数決定部１７
０６に出力される。

【０１１６】ピッチパタン決定部１７０２には、前述の
中間言語解析結果に加えてユーザからの抑揚指定・声の
高さ指定・発声速度指定・話者指定の各パラメータが入
力され、ピッチパタンが合成パラメータ生成部１７０８
に出力される。

【０１１７】音韻継続時間決定部１７０３には、前述の
中間言語解析結果に加えてユーザからの発声速度指定の
パラメータが入力され、それぞれの音韻継続時間・ポー
ズ長といったデータが合成パラメータ生成部１７０８に
出力される。

【０１１８】音韻パワー決定部１７０４には、前述の中
間言語解析結果に加えてユーザからの声の大きさ指定パ
ラメータが入力され、それぞれの音韻振幅係数が合成パ
ラメータ生成部１７０８に出力される。

【０１１９】音声素片決定部１７０５には、前述の中間
言語解析結果に加えてユーザからの話者指定パラメータ
が入力され、波形重畳するための必要な音声素片アドレ
スが合成パラメータ生成部１７０８に出力される。

【０１２０】声質係数決定部１７０６には、前述の中間
言語解析結果に加えてユーザからの声質指定パラメータ
が入力され、声質変換パラメータが合成パラメータ生成
部１７０８に出力される。

【０１２１】合図音決定部１７０７には、ユーザからの
発声速度指定・合図音指定パラメータが入力され、合図
音の種類および制御用のための合図音制御信号が波形生
成部１０３に出力される。

【０１２２】合成パラメータ生成部１７０８は、入力さ
れた各韻律パラメータ（前述したピッチパタン、音韻継
続時間、ポーズ長、音韻振幅係数、音声素片アドレス、
声質変換係数）から、フレーム（通常８ｍｓ程度の長
さ）を一つの単位とした波形生成用のパラメータに変換
し、波形生成部１０３に出力する。

【０１２３】パラメータ生成部１０２において、従来技
術と比較して異なる点は、合図音決定部１７０７が新た
な機能ブロックとして存在していることと、その入力パ
ラメータとしてユーザから合図音指定がある点および、
波形生成部１０３の内部構成である。テキスト解析部１
０１においては、従来と同様であるため、その構成に関
する説明は省略する。

【０１２４】はじめに合図音決定部１７０７の構成につ
いて図１１を用いて説明する。図に示すように、合図音
決定部１７０７は単にスイッチの役割を果たす機能ブロ
ックである。ユーザから指定される発声速度レベルはス
イッチ１８０１の制御用端子に接続され、同じくユーザ
から指定される合図音コードがスイッチ１８０１のａ端
子に接続される。スイッチ１８０１のｂ端子は常にグラ
ンドに接続されている。スイッチ１８０１は、発声速度
レベルによって、端子ａ、端子ｂのいずかに接続される
ように構成されている。発声速度が最高レベルの場合は
スイッチ１８０１をａ端子に接続し、それ以外の場合は
スイッチ１８０１をｂ端子に接続する。すなわちスイッ
チ１８０１は、発声速度が最高レベルの時には合図音コ
ードを、それ以外の時には０を出力する構成となってい
る。スイッチ１８０１の出力は、合図音制御信号として
波形生成部１０３に出力される。

【０１２５】次に波形生成部１０３の構成について図１
２を用いて説明する。第３の実施の形態においては、波
形生成部１０３は、素片復号部１９０１と振幅制御部１
９０２と素片加工部１９０３と重畳制御部１９０４と合
図音制御部１９０５とＤＡリングバッファ１９０６の各
機能ブロック、および合図音辞書１９０７とから構成さ
れている。

【０１２６】前述したパラメータ生成部１０２からの出
力は、合成パラメータとして素片復号部１９０１に入力
される。素片復号部１９０１には素片辞書１０５が接続
されており、入力された合成パラメータのうち、素片ア
ドレスを参照ポインタとして素片辞書１０５から素片デ
ータをロードし、必要に応じて復号処理を行い、復号素
片データを振幅制御部１９０２に出力する。素片辞書１
０５には、音声を合成するための元となる音声素片デー
タが格納されており、記憶容量の節約のために何らかの
圧縮処理が施されている場合がある。この時は復号処理
を施し、その必要がない非圧縮素片の場合は、単に読み
込んでくるだけの処理となる。

【０１２７】振幅制御部１９０２には、前述の復号後の
音声素片データと合成パラメータとが入力されており、
合成パラメータのうち音韻振幅係数によって素片データ
のパワー制御が行われ、素片加工部１９０３に出力され
る。

【０１２８】素片加工部１９０３には、前述の振幅制御
された素片データと合成パラメータとが入力されてお
り、合成パラメータのうち声質変換係数によって素片デ
ータの伸縮処理が施され、重畳制御部１９０４に出力さ
れる。

【０１２９】重畳制御部１９０４には、前述の伸縮処理
が施された素片データと合成パラメータとが入力されて
おり、合成パラメータのうちピッチパタン、音韻継続時
間、ポーズ長といったパラメータを用いて素片データの
波形重畳処理を施す。重畳制御部１９０４で生成される
波形は、逐次ＤＡリングバッファ１９０６に出力され書
き込まれる。ＤＡリングバッファ１９０６に書き込まれ
たデータは、当該テキスト音声変換システムで設定され
ている出力サンプリング周期で、図示していないＤＡコ
ンバータに送られ、合成音がスピーカなどから出力され
る。

【０１３０】波形生成部１０３には、前述したパラメー
タ生成部１０２からの出力として合図音制御信号が合図
音制御部１９０５に入力される。合図音制御部１９０５
にはさらに合図音辞書１９０７が接続されており、これ
に格納されているデータを必要に応じて加工してＤＡリ
ングバッファ１９０６に出力する。ただし書き込むタイ
ミングは、重畳制御部１９０４が１文章分の合成波形を
出力し終えた後あるいは、合成波形を書き込む前とす
る。

【０１３１】合図音辞書１９０７には例えば、各種効果
音データのＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌ
ａｔｉｏｎ）データで構築されている構成でも、基準正
弦波データが格納された構成でも、どの形態でも構わな
い。この場合、合図音制御部１９０５は、前者の辞書構
成においては合図音辞書１９０７からデータを読み出し
てきて、そのままＤＡリングバッファ１９０６に出力
し、後者の辞書構成においては合図音辞書１９０７から
データを読み出し、それを繰り返しつなぎ合わせるなど
して出力する。合図音制御部１９０５に接続されている
合図音制御信号が０の場合は、ＤＡリングバッファ１９
０６に出力する処理は行わない。

【０１３２】［動作］以上のように構成された第３の実
施の形態における動作について図１０〜図１２を用いて
詳細に説明する。従来技術と異なる点は、ピッチパタン
生成と波形生成に関わる処理であるので、それ以外の処
理については省略する。

【０１３３】まず、テキスト解析部１０１で生成された
中間言語は、パラメータ生成部１０２内部の中間言語解
析部１７０１に送られる。中間言語解析部１７０１で
は、中間言語上に記述されているフレーズ区切り記号、
単語区切り記号、アクセント核を示すアクセント記号、
そして音韻記号列から、韻律生成に必要なデータを抽出
して、ピッチパタン決定部１７０２、音韻継続時間決定
部１７０３、音韻パワー決定部１７０４、音声素片決定
部１７０５、声質係数決定部１７０６のそれぞれの機能
ブロックへ送る。

【０１３４】ピッチパタン決定部１７０２では、声の高
さの遷移であるイントネーションが生成され、音韻継続
時間決定１７０３では、音韻個々の継続時間のほか、フ
レーズとフレーズの切れ目あるいは、文と文との切れ目
に挿入するポーズ長を決定する。また、音韻パワー決定
部１７０４では、音声波形の振幅値の遷移である音韻パ
ワーが生成され、音声素片決定部１７０５では合成波形
を生成するために必要となる音声素片の、素片辞書１０
５におけるアドレスを決定する。声質係数決定部１７０
６では、素片データを信号処理で加工するためのパラメ
ータの決定が行われる。ユーザから指定される韻律制御
指定のうち、抑揚指定および声の高さ指定はピッチパタ
ン決定部１７０２に、発声速度指定は音韻継続時間決定
部１７０３と合図音決定部１７０７に、声の大きさ指定
は音韻パワー決定部１７０４に、話者指定はピッチパタ
ン決定部１７０２と音声素片決定部１７０５に、声質指
定は声質係数決定部１７０６に、合図音指定は合図音決
定部１７０７に、それぞれ送られている。

【０１３５】各機能ブロックのうち、ピッチパタン決定
部１７０２、音韻継続時間決定部１７０３、音韻パワー
決定部１７０４、音声素片決定部１７０５、声質係数決
定部１７０６については、従来技術と同様であるのでこ
こでは説明を省略する。

【０１３６】第３の実施の形態におけるパラメータ生成
部１０２が従来技術と異なる点は、合図音決定部１７０
７が新たに加えられたことであるので、合図音決定部１
７０７の動作について図１１を用いて説明する。図に示
すように、合図音決定部１７０７は単にスイッチの役割
を果たす機能ブロックである。スイッチ１８０１は、ユ
ーザから指定される発声速度レベルによって制御される
ような構成を有しており、これにより端子ａ、端子ｂの
いずれかに接続されるようになっている。制御信号であ
る発声速度レベルが最高速度の時は、スイッチ１８０１
をａ端子に接続し、それ以外の場合はスイッチ１８０１
をｂ端子に接続する。ａ端子には、ユーザから指定され
る合図音コードが入力されており、ｂ端子にはグランド
・レベルすなわち０が入力されている。すなわちスイッ
チ１８０１は、発声速度が最高レベルの時には合図音コ
ードを、それ以外の時には０を出力する構成となってい
る。スイッチ１８０１の出力は、合図音制御信号として
波形生成部１０３に送られる。

【０１３７】次に波形生成部１０３の動作について図１
２を用いて説明する。パラメータ生成部１０２内の合成
パラメータ生成部１７０８で生成された合成パラメータ
は、波形生成部１０３内の素片復号部１９０１と振幅制
御部１９０２と素片加工部１９０３と重畳制御部１９０
４に送られる。

【０１３８】素片復号部１９０１では、合成パラメータ
のうち、素片アドレスを参照ポインタとして素片辞書１
０５から素片データをロードし、必要に応じて復号処理
を行い、復号素片データを振幅制御部１９０２に送る。
素片辞書１０５には合成波形を生成するための元となる
音声素片が格納されており、これをピッチパタンで示さ
れる周期で重ね合わせていくことにより音声波形を生成
するしくみとなっている。

【０１３９】ここで音声素片とは、接続して合成波形を
作るための音声の基本単位で、音の種類等に応じて様々
なものが用意されている。一般的に、ＣＶ、ＶＶ、ＶＣ
Ｖ、ＣＶＣ（Ｃ：子音、Ｖ：母音）といった音韻連鎖で
構成されている場合が多い。上記のように、同じ音韻の
素片であっても、前後の音韻環境によって様々な単位で
構築されているためデータ容量は膨大となる。そのため
通常は、ＡＤＰＣＭ（ＡｄａｐｔｉｖｅＤｉｆｆｅｒ
ｅｎｔｉａｌＰＣＭ）符号化や、周波数パラメータと
駆動音源データの対で構成するといった、圧縮技術を施
す場合が多い。無論、圧縮を行わずＰＣＭデータとして
構築されている場合もある。素片復号部１９０１によっ
て復元された音声素片データは、振幅制御部１９０２に
送られパワー制御が施される。

【０１４０】振幅制御部１９０２には、合成パラメータ
のうち振幅係数が入力されており、先の音声素片データ
に乗じられて振幅制御が施される。振幅係数は、ユーザ
から指定される声の大きさレベル、音韻の種類、呼気段
落内での音節位置、該音韻内での位置（立ち上がり区間
・定常区間・立ち下がり区間）など、様々な情報から経
験的に決定されている。振幅制御された音声素片は、素
片加工部１９０３に送られる。

【０１４１】素片加工部１９０３では、ユーザから指定
された声質変換レベルに応じて素片データの伸縮処理
（リサンプリング）が施される。声質変換とは、素片辞
書１０５に登録されている素片データに、信号処理等の
加工を施すことにより、聴感上、別話者として取り扱え
るようにした機能である。一般に、素片データを線形に
伸縮する処理を施して実現する場合が多い。伸長処理
は、素片データのオーバーサンプリング処理で実現さ
れ、太い声となる。逆に縮小処理は、素片データのダウ
ンサンプリング処理で実現され、細い声となる。同一デ
ータで別話者を実現するための機能であるため、声質変
換処理は上記の手法に限るものではない。また、ユーザ
からの声質変換指定がない場合は当然のことながら、素
片加工部１９０３での処理は一切行われない。

【０１４２】以上の処理によって生成された音声素片
は、重畳制御部１９０４で波形重畳処理が施される。一
般的に、ピッチパタンで示されたピッチ周期で素片デー
タをずらしながら重ね合わせて加算するという手法が用
いられる。

【０１４３】このようにして生成された合成波形は、逐
次ＤＡリングバッファ１９０６に書き込まれ、当該テキ
スト音声変換システムで設定されている出力サンプリン
グ周期で、図示していないＤＡコンバータに送られ、合
成音がスピーカなどから出力される。

【０１４４】波形生成部１０３にはさらに、パラメータ
生成部１０２内の合図音決定部１７０７から送られる合
図音制御信号が入力されている。合図音制御信号は、合
図音制御部１９０５を介して合図音辞書１９０７に登録
されているデータをＤＡリングバッファ１９０６に書き
込むための信号である。合図音制御信号が０の場合、す
なわち前述したように、ユーザから指定される発声速度
が最高速度レベルではない時は、合図音制御部１９０５
は一切の処理を行わない。０以外の場合、すなわち前述
したように、ユーザから指定される発声速度が最高速度
レベルの時は、合図音制御信号を合図音の種類とみなし
て合図音辞書１９０７からのデータロードを行う。

【０１４５】例えば、合図音の種類を３種類設ける。合
図音辞書１９０７には、例えば、５００Ｈｚの正弦波デ
ータ、１ＫＨｚの正弦波データ、２ＫＨｚの正弦波デー
タがそれぞれ１周期分格納されており、それらを複数回
繰り返し接続することにより「ピッ」という合図音を生
成することとする。合図音制御信号の取り得る値は、
０、１、２、３の４種類となり、０の時は一切の処理を
行わず、１の時は合図音辞書１９０７から５００Ｈｚの
正弦波データを読み出してきて、それらを既定回繰り返
し接続してＤＡリングバッファ１９０６に書き込む。１
の時は合図音辞書１９０７から１ＫＨｚの正弦波データ
を読み出してきて、それらを既定回繰り返し接続してＤ
Ａリングバッファ１９０６に書き込む。２の時は合図音
辞書１９０７から２ＫＨｚの正弦波データを読み出して
きて、それらを既定回繰り返し接続してＤＡリングバッ
ファ１９０６に書き込む。ただし書き込むタイミング
は、重畳制御部１９０４が１文章分の合成波形を出力し
終えた後あるいは、合成波形を書き込む前である。した
がって、合図音が出力されるのは文章間ということにな
る。出力される正弦波データは、１００ｍｓ〜２００ｍ
ｓ程度が適当と思われる。

【０１４６】また、正弦波データではなく、出力される
べき合図音を直接ＰＣＭデータとして合図音辞書１９０
７に格納しておくという構成でも構わない。この場合、
合図音辞書１９０７からデータを読み出してきて、その
ままＤＡリングバッファ１９０６に出力する処理が施さ
れることになる。

【０１４７】以上詳細に説明したように、第３の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、文章と文章の間に合図音を挿入する機能を有してい
るため、早聞き機能有効時での従来技術での問題点であ
る、文境界が把握しにくく、読上げテキストの内容理解
が困難であるといったことが解消される。

【０１４８】例えば、以下の文言をテキスト合成する場
合を考える。「出席予定者：開発部山田部長。企画室
斉藤室長。営業１部渡辺部長。」処理単位、すなわ
ち１文章の区切り記号は句点「。」とすると、上記の文
言は以下の３文章からなる。（１）「出席予定者：開発部山田部長。」（２）「企画室斉藤室長。」（３）「営業１部渡辺部長。」従来技術によれば、発声速度が速くなるとそれぞれの文
終端におけるポーズ長も短くなるため、文章（１）の最
後の「山田部長」という合成音声と、文章（２）の先頭
の「企画室」という合成音声がほぼ連続して出力される
ため、「山田部長」＝「企画室」というような誤った認
識を受ける場合も発生する。

【０１４９】しかしながら、第３の実施の形態によれ
ば、「山田部長」という合成音声と、「企画室」という
合成音声の間に、例えば「ピッ」という合図音が挿入さ
れるため、上記のような誤認識は発生しない。

【０１５０】第４の実施の形態［構成］本発明の第４の実施の形態における構成を図１
３を参照しながら詳細に説明する。この実施の形態が従
来技術と異なる点は、早聞き機能有効時の音韻継続時間
の伸縮率決定の際に、現在処理中のテキストが文内にお
ける先頭単語あるいは先頭フレーズであるかを判定し
て、その結果により伸縮係数を決定する点である。した
がって、従来と異なる音韻継続時間決定部についてのみ
説明し、それ以外の機能ブロックすなわち、テキスト解
析部、波形生成部、音韻継続時間決定部以外のパラメー
タ生成部内部モジュールについては説明を省略する。

【０１５１】音韻継続時間決定部２０３への入力は従来
と同じく、中間言語解析部２０１からの音韻・韻律情報
を含んだ解析結果および、ユーザからの指定される発声
速度レベルである。１文章に対する中間言語解析結果は
制御要因設定部２００１と単語カウンタ２００５とに接
続されている。制御要因設定部２００１では、音韻継続
時間決定のために必要な制御要因パラメータの解析が行
われ、その出力が継続時間推定部２００２に接続され
る。継続時間の決定には数量化Ｉ類等の統計的手法を用
いており、例えば、音韻長は通常、目標となる音韻の前
後近傍の音韻の種別あるいは、単語内・呼気段落内の音
節位置などにより予測され、ポーズ長は、前後隣接する
フレーズのモーラ総数などといった情報から予測が行わ
れる場合が多い。制御要因設定部２００１はこれら予測
に必要な情報の抽出を行っている。

【０１５２】継続時間推定部２００２には、継続時間予
測テーブル２００４が接続されており、これを用いて継
続時間の予測が行われ、継続時間修正部２００３に出力
される。継続時間予測テーブル２００４は、大量の自然
発声データを基に数量化Ｉ類などの統計的手法を用いて
予め学習されたデータである。

【０１５３】一方、単語カウンタ２００５では、現在解
析中の音韻が、文章内のおける先頭単語あるいは先頭フ
レーズに含まれているのか、そうでないのかの判定を行
い、その結果を伸縮係数決定部２００６に出力する。

【０１５４】伸縮係数決定部２００６にはさらに、ユー
ザから指定される発声速度レベルが入力されており、現
在処理中の音韻に対する音韻継続時間長の修正係数を決
定する機能を有しており、これを継続時間修正部２００
３に接続している。

【０１５５】継続時間修正部２００３では、継続時間推
定部２００２で予測された音韻継続時間に対して、伸縮
係数決定部２００６で決定された伸縮係数を乗じること
により、音韻継続時間の修正を行い合成パラメータ生成
部に出力する。

【０１５６】［動作］以上のように構成された本発明の
第４の実施の形態における動作について図１３〜図１４
を用いて詳細に説明する。従来技術と異なる点は、音韻
継続時間決定に関わる処理であるので、それ以外の処理
については省略する。

【０１５７】中間言語解析部２０１から１文章に対応す
る解析結果が制御要因設定部２００１と単語カウンタ２
００５に入力される。制御要因設定部２００１では、音
韻継続時間（子音長・母音長・閉鎖区間長）、ポーズ長
を決定するために必要な制御要因の設定を行う。音韻継
続時間の決定に必要なデータとは、例えば、目標となる
音韻の種別、対象音節の前後近傍の音韻の種別あるい
は、単語内・呼気段落内の音節位置といった情報であ
る。一方、ポーズ長決定に必要なデータとは、前後隣接
するフレーズのモーラ総数といった情報である。これら
の継続時間長を決定するために継続時間予測テーブル２
００４が使用される。

【０１５８】継続時間予測テーブル２００４は、自然発
声データを基に数量化Ｉ類などの統計的手法を用いて予
め学習したテーブルである。継続時間推定部２００２
は、このテーブルを参照しながら音韻継続時間、ポーズ
長の予測を行う。継続時間推定部２００２で算出される
個々の音韻継続時間長は、通常発声速度の場合のもので
ある。これらは、継続時間修正部２００３において、ユ
ーザから指定された発声速度に応じて修正が施される構
成となっている。通常、発声速度指定は、５〜１０段階
程度に制御され、それぞれのレベルに対してあらかじめ
割り当てられた定数を乗ずることにより行われる。発声
速度を遅くしたい場合は音韻継続時間を長くし、発声速
度を速くしたい場合は音韻継続時間を短くする。

【０１５９】一方、単語カウンタ２００５にも、中間言
語解析部２０１から１文章に対応する解析結果が入力さ
れており、現在解析中の音韻が、文章内のおける先頭単
語あるいは先頭フレーズに含まれているのか、そうでな
いのかの判定が行われる。本実施の形態では、文章内に
おける先頭単語であるか否かの判定を行う機能として説
明を行う。単語カウンタ２００５から送られる判定結果
は、該音韻が文内先頭単語に含まれている場合にＴＲＵ
Ｅ、そうでない場合にＦＡＬＳＥを出力することとす
る。単語カウンタ２００５での判定結果は伸縮係数決定
部２００６に送られる。

【０１６０】伸縮係数決定部２００６には前述の単語カ
ウンタ２００５からの判定結果に加えて、ユーザから指
定される発声速度レベルが入力されており、これら２つ
のパラメータから該音韻の伸縮係数の算出を行う。例え
ば、発声速度レベルが５段階に制御され、発声速度が遅
い方からレベル０、レベル１、レベル２、レベル３、レ
ベル４まで指定可能だとする。それぞれのレベルｎに対
応した定数Ｔ_ｎを次のように定める。すなわち、Ｔ_０＝
２．０、Ｔ_１＝１．５、Ｔ_２＝１．０、Ｔ_３＝０．７
５、Ｔ_４＝０．５とする。通常発声速度はレベル２とな
り、早聞き機能が有効とされると発声速度はレベル４に
設定されることになる。単語カウンタ２００５からの信
号がＴＲＵＥの場合、発声速度レベルが０〜３まで範囲
であれば上記Ｔ_ｎをそのまま継続時間修正部２００３に
出力する。発声速度レベルが４であれば、通常発声時の
Ｔ２の数値を出力する。単語カウンタ２００５からの信
号がＦＡＬＳＥの場合は、発声速度レベルに関わらず上
記Ｔ_ｎをそのまま継続時間修正部２００３に出力する。

【０１６１】継続時間修正部２００３では、継続時間推
定部２００２から送られる音韻継続時間長に対して、伸
縮係数決定部２００６からの伸縮係数を乗じて修正を施
す。ただし修正を行うのは通常、母音長のみである。発
声速度レベルに応じた修正が施された音韻継続時間は合
成パラメータ生成部へ送られる。

【０１６２】さらに詳細に説明するために図１４に継続
時間決定処理のフローチャートを示す。ここで図中の記
号は以下の通りとする。すなわち、入力文章中に含まれ
る単語総数をＩ、第ｉ番目の単語を構成する音韻に対す
る継続時間修正係数をＴＣ_ｉ、ユーザから指定される発
声速度レベルをｌｅｖ（ただし範囲は０〜４までの５段
階とし、数値が多いほど速度が速いこととする）、発声
速度がレベルｎの時の伸縮係数をＴ（ｎ）、第ｉ番目の
単語の第ｊ番目の母音長をＴ_ｉｊ、単語を構成する音節
数はそれぞれの単語によって変わるがここでは簡単化の
ために一律Ｊとする。

【０１６３】まずステップＳＴ２０１で単語数カウンタ
ｉを０に初期化する。次いでステップＳＴ２０２で単語
数と発声速度レベルの判定が行われる。現在処理中の単
語数カウンタが０でかつ、発声速度レベルが４の時、こ
れはすなわち、現在処理している音節が文内先頭単語に
属しており、かつ発声速度が最高レベルの時であるが、
この時はステップＳＴ２０４に進み、そうでないときは
ステップＳＴ２０３に進む。ステップＳＴ２０４では発
声速度レベル２の値が修正係数として選択され、ステッ
プＳＴ２０５に進む。すなわち、ＴＣ_ｉ＝Ｔ（２） …（５）となる。

【０１６４】ステップＳＴ２０３では、ユーザから指定
されたレベル通りの修正係数が選択され、ステップＳＴ
２０５に進む。すなわち、ＴＣ_ｉ＝Ｔ（ｌｅｖ） …（６）となる。

【０１６５】ステップＳＴ２０５では、音節カウンタｊ
が０に初期化されステップＳＴ２０６に進む。ステップ
ＳＴ２０６では第ｉ番目の単語の第ｊ番目の母音の継続
時間Ｔ_ｉｊが、先に求められた修正係数ＴＣ_ｉによって
下式を用いて行われる。Ｔ_ｉｊ＝Ｔ_ｉｊ × ＴＣ_ｉ …（７）

【０１６６】次いでステップＳＴ２０７で音節カウンタ
ｊが１インクリメントされステップＳＴ２０８に進む。
ステップＳＴ２０８では、音節カウンタｊと該単語の音
節総数Ｊとの比較を行い、音節カウンタｊが音節総数Ｊ
を超えた場合、すなわち該単語の全ての音節に対する処
理が終了した場合にステップＳＴ２０９に進む。そうで
ない場合は、ステップＳＴ２０６に戻り次の音節に対す
る処理を前述と同様に繰り返す。

【０１６７】ステップＳＴ２０９では単語数カウンタｉ
が１インクリメントされ、次のステップＳＴ２１０に進
む。

【０１６８】ステップＳＴ２１０では、単語数カウンタ
ｉと単語総数Ｉとの比較を行い、単語数カウンタｉが単
語総数Ｉを超えた場合、すなわち入力文章中の全て単語
に対する処理が終了した場合は処理を終了し、そうでな
い場合は、ステップＳＴ２０２に戻り次の単語に対する
処理を前述と同様に繰り返す。

【０１６９】上記の処理により、ユーザから指定される
発声速度レベルが最高速度となっても、文章先頭単語だ
けは通常の発声速度での合成音が生成されることにな
る。

【０１７０】以上詳細に説明したように、第４の実施の
形態によれば、発声速度が既定値最大に設定された場合
に、文先頭の単語に対して音韻継続時間制御を通常の発
声速度として処理するため、ユーザが早聞き機能解除の
タイミングを計りやすいという効果がある。例えば、ソ
フトウェア仕様書などのマニュアル類には、「第３章」
あるいは「４．１．３」などの項目番号が付与されてい
る場合がほとんどある。こういったマニュアル類をテキ
スト音声変換で読上げを行う際に、第３章から聞きた
い、あるいは４．１．３節から聞きたいといった場合
に、従来技術においては、早聞き機能を有効にした後ユ
ーザが、高速で出力される合成音声の中から「ダイサン
ショー」あるいは「ヨンテンイッテンサン」といったキ
ーワードを聞き分け、早聞き機能を解除するといった面
倒な操作が必要であった。第４の実施の形態によれば、
ユーザに負担をかけずに早聞き機能の有効化・無効化を
実現することが可能となる。

【０１７１】尚、本発明は前述の実施の形態に限定され
るものではなく、本発明の趣旨に基づいて種々変形させ
ることが可能である。例えば、第１の実施の形態におい
て、発声速度が既定値最大に設定された場合に、テキス
ト音声変換処理の中で演算負荷が大きい機能ブロックを
簡略化あるいは、無効にする処理を施しているが、この
処理は最大発声速度に限らない。つまり、ある閾値を設
けて、その閾値を超えたときに前述の処理を施す構成で
も構わない。また、高負荷処理として数量化Ｉ類による
韻律パラメータの予測処理、声質変換のための素片デー
タ加工処理を挙げているが、これに限るものではない。
他に高負荷処理機能（例えばエコーや高域強調などの音
響処理など）を有している場合は当然のことながら、こ
れを無効化あるいは簡略化といった処理形態にすること
が望ましい。また、声質変換処理として波形そのものを
線形伸縮しているが、非線形伸縮でも、あるいは周波数
パラメータに対して規定の変換関数に通して変形すると
いった方法でも構わない。また、音韻継続時間決定規
則、ピッチパタン決定規則を挙げているが、本発明では
演算量が少なく済み、処理時間の短縮が図れるモードを
有する構成にすること目的としているため、規則化手順
は上記に限られるものではない。逆に、通常発声速度の
時には、統計的手法を用いた韻律パラメータの予測を行
っているが、規則化手順よりも演算負荷がかかる処理で
あればこれに限るものではない。また、その予測に用い
る制御要因を幾つか挙げているがこれはあくまでも一例
である。

【０１７２】第２の実施の形態において、発声速度が既
定値最大に設定された場合に、ピッチパタンの抑揚成分
を０にしてピッチパタン生成を行っているが、この処理
は最大発声速度に限らない。即ち、ある閾値を設けて、
その閾値を超えたときに前述の処理を施す構成でも構わ
ない。また、抑揚成分を完全に０にしているが、通常時
に比べて抑揚成分を弱めるといった方法でも構わない。
例えば、発声速度が既定値最大に設定された時は、抑揚
指定レベルを強制的に最低レベルに設定し、ピッチパタ
ン修正部において抑揚成分を縮小するといった構成でも
構わない。ただこの時の抑揚指定レベルは、高速合成時
においても聞き易いイントネーションとなる必要があ
る。また、ピッチパタンのアクセント成分、フレーズ成
分を数量化Ｉ類によって決定しているが規則によって決
定しても無論構わない。また、予測を行う際にその制御
要因を幾つか挙げているがこれはあくまでも一例であ
る。

【０１７３】第３の実施の形態において、発声速度が既
定値最大に設定された場合に、文章と文章の間に合図音
を挿入しているが、この処理は最大発声速度に限らな
い。即ち、ある閾値を設けて、その閾値を超えたときに
前述の処理を施す構成でも構わない。また、実施例では
基準正弦波の繰り返しにより合図音を生成しているが、
ユーザの注意を引けるものであればこれに限らない。録
音された効果音をそのまま出力する構成でも構わない。
無論、実施例で示したような合図音辞書を持たずに、内
部回路あるいはプログラムでその都度生成するような構
成でも構わない。またこの実施の形態では１文の合成波
形直後に合図音を挿入する構成となっているが、逆に合
成波形直前でも構わない。発声速度が既定値最大に設定
された時に、ユーザに対して文章境界が明示できればそ
れでよい。また、この実施の形態ではパラメータ生成部
に合図音の種類を指定するための入力が存在するが、ハ
ードウェア規模、ソフトウェア規模の制限などから、こ
れを省略してもよい。しかしながら、ユーザの好みによ
って合図音を変えることのできる構成の方が好ましい。

【０１７４】第４の実施の形態において、発声速度が既
定値最大に設定された場合に、文先頭の単語に対して音
韻継続時間制御を通常（デフォルト）の発声速度として
処理しているが、この処理は最大発声速度に限らない。
即ち、ある閾値を設けて、その閾値を超えたときに前述
の処理を施す構成でも構わない。また、通常発声速度で
処理する単位を文先頭の１単語としているが、先頭２単
語あるいは先頭フレーズという構成でも構わない。ま
た、通常の発声速度ではなく、レベルを１段階落とすと
いった方法も十分考えられる。

【０１７５】

【発明の効果】以上詳細に説明したように、請求項１に
係る発明によれば、入力されたテキストから音韻・韻律
記号列を生成するテキスト解析手段と、前記音韻・韻律
記号列に対して少なくとも音声素片・音韻継続時間・基
本周波数の合成パラメータを生成するパラメータ生成手
段と、音声の基本単位となる音声素片が登録された素片
辞書と前記パラメータ生成手段から生成される合成パラ
メータに基づいて前記素片辞書を参照しながら波形重畳
を行って合成波形を生成する波形生成手段とを備えたテ
キスト音声変換装置における高速読み上げ制御方法であ
って、前記パラメータ生成手段は、音韻継続時間を予め
経験的に求めた継続時間規則テーブルと、音韻継続時間
を統計的手法を用いて予測した継続時間予測テーブルと
を併せ持ち、ユーザから指定される発声速度が閾値を超
えた時には前記継続時間規則テーブルを用い、閾値を超
えていない時には前記継続時間予測テーブルを用いて音
韻継続時間の決定を行う音韻継続時間決定手段を有する
構成としたことにより、また、請求項３に係る発明によ
れば、前記パラメータ生成手段は、アクセント成分及び
フレーズ成分を決定するために必要となるデータを、予
め経験的に求めた規則テーブルと、統計的手法を用いて
予測した予測テーブルとを併せ持ち、ユーザから指定さ
れる発声速度が閾値を超えた時には前記規則テーブルを
用い、閾値を超えていない時には前記予測テーブルを用
いてアクセント成分及びフレーズ成分を決定することに
よりピッチパタンを決定するピッチパタン決定手段を有
する構成としたことにより、更に、請求項５に係る発明
によれば、前記パラメータ生成手段は、前記音声素片を
変形させて声質を切り換えるための声質変換係数テーブ
ルを備え、ユーザから指定される発声速度が閾値を超え
たときには、声質が変化しないような係数を前記声質変
換係数テーブルから選択する声質係数決定手段を有する
構成としたので、発声速度が既定値最大に設定された場
合に、テキスト音声変換処理の中で演算負荷が大きい機
能ブロックを簡略化あるいは、無効にする処理を施して
いるため、高負荷による音切れが発生する機会を減少さ
せ、聞き易い合成音声を生成することが可能となる。

【０１７６】また、請求項７に係る発明によれば、前記
パラメータ生成手段は、ユーザが指定した抑揚レベルに
応じて修正したピッチパタンを出力するするピッチパタ
ン修正手段と、ユーザが指定した発声速度に応じて前記
修正したピッチパタンを基底ピッチに加算するか否かを
選択する切り換え手段とを有し、前記発声速度が所定の
閾値を超えた場合には前記基底ピッチを変更しないよう
に前記切り換え手段を制御する構成としたので、発声速
度が既定値最大に設定された場合に、ピッチパタンの抑
揚成分を０にしてピッチパタン生成を行うため、時間的
に速い周期で抑揚が変動することがなくなり、非常に聞
き取りにくい合成音となることが解消される。

【０１７７】また、請求項１０に係る発明によれば、前
記波形生成手段は、文章の切れ目であることを示す合図
音を文章間に挿入する合図音生成手段を備え、ユーザか
ら指定される発声速度が閾値を超えた時には前記合図音
を文章間に挿入する構成としたので、発声速度が既定値
最大に設定された場合に、文章と文章の間に合図音を挿
入する機能を有しているため、早聞き機能有効時での従
来技術での問題点である、文境界が把握しにくく、読上
げテキストの内容理解が困難であるといったことが解消
される。

【０１７８】更に、請求項１２に係る発明によれば、前
記パラメータ生成手段は、ユーザから指定される発声速
度が閾値を超えた時には、少なくとも文章の先頭単語の
発声速度を通常の発声速度に戻す処理を行う音韻継続時
間決定手段を有する構成としたので、発声速度が既定値
最大に設定された場合に、文先頭の単語に対して音韻継
続時間制御を通常の発声速度として処理するため、ユー
ザが早聞き機能解除のタイミングを計りやすいという効
果がある。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態におけるパラメータ
生成部の機能ブロック図である。

【図２】本発明の第１の実施の形態におけるピッチパタ
ン決定部の機能ブロック図である。

【図３】本発明の第１の実施の形態における音韻継続時
間決定部の機能ブロック図である。

【図４】本発明の第１の実施の形態における声質係数決
定部の機能ブロック図である。

【図５】声質変換のためのデータのリサンプリング周期
の説明図である。

【図６】本発明の第２の実施の形態におけるパラメータ
生成部の機能ブロック図である。

【図７】本発明の第２の実施の形態におけるピッチパタ
ン決定部の機能ブロック図である。

【図８】本発明の第２の実施の形態におけるピッチパタ
ン生成フローチャートである。

【図９】発声速度によるピッチパタンの違いの説明図で
ある。

【図１０】本発明の第３の実施の形態におけるパラメー
タ生成部の機能ブロック図である。

【図１１】本発明の第３の実施の形態における合図音決
定部の機能ブロック図である。

【図１２】本発明の第３の実施の形態における波形生成
部の機能ブロック図である。

【図１３】本発明の第４の実施の形態における音韻継続
時間決定部の機能ブロック図である。

【図１４】本発明の第４の実施の形態における継続時間
決定フローチャートである。

【図１５】一般的なテキスト音声変換処理の機能ブロッ
ク図である。

【図１６】従来技術によるパラメータ生成部の機能ブロ
ック図である。

【図１７】従来技術による波形生成部の機能ブロック図
である。

【図１８】ピッチパタン生成過程モデルの説明図であ
る。

【図１９】従来技術によるピッチパタン決定部の機能ブ
ロック図である。

【図２０】従来技術による音韻継続時間決定部の機能ブ
ロック図である。

【図２１】発声速度の違いによる波形伸縮の説明図であ
る。

【符号の説明】

１０１テキスト解析部１０２パラメータ生成部１０３波形生成部１０４単語辞書１０５素片辞書８０１，１３０１，１７０１，中間言語解析部８０２，１３０２，１７０２，ピッチパタン決定部８０３，１３０３，１７０３音韻継続時間決定部８０４，１３０４，１７０４音韻パワー決定部８０５，１３０５，１７０５音声素片決定部８０６，１３０６，１７０６声質係数決定部１７０７合図音決定部８０７，１３０７，１７０８合成パラメータ生成部

Claims

【特許請求の範囲】

【請求項１】入力されたテキストから音韻・韻律記号
列を生成するテキスト解析手段と、前記音韻・韻律記号
列に対して少なくとも音声素片・音韻継続時間・基本周
波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記パラメータ生成手段は、音韻継続時間を予め経験的
に求めた継続時間規則テーブルと、音韻継続時間を統計
的手法を用いて予測した継続時間予測テーブルとを併せ
持ち、ユーザから指定される発声速度が閾値を超えた時
には前記継続時間規則テーブルを用い、閾値を超えてい
ない時には前記継続時間予測テーブルを用いて音韻継続
時間の決定を行う音韻継続時間決定手段を有することを
特徴とするテキスト音声変換装置における高速読み上げ
制御方法。
【請求項２】前記閾値は、所定の最大発声速度である
ことを特徴とする請求項１記載のテキスト音声変換装置
における高速読み上げ制御方法。
【請求項３】入力されたテキストから音韻・韻律記号
列を生成するテキスト解析手段と、前記音韻・韻律記号
列に対して少なくとも音声素片・音韻継続時間・基本周
波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記パラメータ生成手段は、アクセント成分及びフレー
ズ成分を決定するために必要となるデータを、予め経験
的に求めた規則テーブルと、統計的手法を用いて予測し
た予測テーブルとを併せ持ち、ユーザから指定される発
声速度が閾値を超えた時には前記規則テーブルを用い、
閾値を超えていない時には前記予測テーブルを用いてア
クセント成分及びフレーズ成分を決定することによりピ
ッチパタンを決定するピッチパタン決定手段を有するこ
とを特徴とするテキスト音声変換装置における高速読み
上げ制御方法。
【請求項４】前記閾値は、所定の最大発声速度である
ことを特徴とする請求項３記載のテキスト音声変換装置
における高速読み上げ制御方法。
【請求項５】入力されたテキストから音韻・韻律記号
列を生成するテキスト解析手段と、前記音韻・韻律記号
列に対して少なくとも音声素片・音韻継続時間・基本周
波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記パラメータ生成手段は、前記音声素片を変形させて
声質を切り換えるための声質変換係数テーブルを備え、
ユーザから指定される発声速度が閾値を超えたときに
は、声質が変化しないような係数を前記声質変換係数テ
ーブルから選択する声質係数決定手段を有することを特
徴とするテキスト音声変換装置における高速読み上げ制
御方法。
【請求項６】前記閾値は、所定の最大発声速度である
ことを特徴とする請求項５記載のテキスト音声変換装置
における高速読み上げ制御方法。
【請求項７】入力されたテキストから音韻・韻律記号
列を生成するテキスト解析手段と、前記音韻・韻律記号
列に対して少なくとも音声素片・音韻継続時間・基本周
波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記パラメータ生成手段は、ユーザが指定した抑揚レベ
ルに応じて修正したピッチパタンを出力するピッチパタ
ン修正手段と、ユーザが指定した発声速度に応じて前記
修正したピッチパタンを基底ピッチに加算するか否かを
選択する切り換え手段とを有し、前記発声速度が所定の
閾値を超えた場合には前記基底ピッチを変更しないよう
に前記切り換え手段を制御することを特徴とするテキス
ト音声変換装置における高速読み上げ制御方法。
【請求項８】前記閾値は、所定の最大発声速度である
ことを特徴とする請求項７記載のテキスト音声変換装置
における高速読み上げ制御方法。
【請求項９】前記ピッチパタン修正手段は、ユーザが
指定した前記発声速度に応じて統計的手法によりフレー
ズ成分を算出するか或いは当該フレーズ成分を零とする
処理を入力文章中に含まれる全フレーズについて行うフ
レーズ成分算出処理と、ユーザが指定した前記発声速度
に応じて統計的手法によりアクセント成分を算出すると
共にユーザが指定した前記抑揚レベルに応じて前記算出
したアクセント成分を修正するか或いは当該アクセント
成分を零とする処理を入力文章中の全ての単語について
行う処理とを含むピッチパタン生成処理を行うことを特
徴とする請求項７記載のテキスト音声変換装置における
高速読み上げ制御方法。
【請求項１０】入力されたテキストから音韻・韻律記
号列を生成するテキスト解析手段と、前記音韻・韻律記
号列に対して少なくとも音声素片・音韻継続時間・基本
周波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記波形生成手段は、文章の切れ目であることを示す合
図音を文章間に挿入する合図音生成手段を備え、ユーザ
から指定される発声速度が閾値を超えた時には前記合図
音を文章間に挿入することを特徴とするテキスト音声変
換装置における高速読み上げ制御方法。
【請求項１１】前記閾値は、所定の最大発声速度である
ことを特徴とする請求項１０記載のテキスト音声変換装
置における高速読み上げ制御方法。
【請求項１２】入力されたテキストから音韻・韻律記
号列を生成するテキスト解析手段と、前記音韻・韻律記
号列に対して少なくとも音声素片・音韻継続時間・基本
周波数の合成パラメータを生成するパラメータ生成手段
と、音声の基本単位となる音声素片が登録された素片辞
書と前記パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備えたテキ
スト音声変換装置における高速読み上げ制御方法であっ
て、前記パラメータ生成手段は、ユーザから指定される発声
速度が閾値を超えた時には、少なくとも文章の先頭単語
の発声速度を通常の発声速度に戻す処理を行う音韻継続
時間決定手段を有することを特徴とするテキスト音声変
換装置における高速読み上げ制御方法。
【請求項１３】前記閾値は、所定の最大発声速度であ
ることを特徴とする請求項１２記載のテキスト音声変換
装置における高速読み上げ制御方法。
【請求項１４】前記音韻継続時間決定手段は、処理中
の単語が文章の先頭単語であり、かつユーザから指定さ
れる前記発声速度が閾値を超えた時には音韻継続時間を
修正しないようにする処理を行い、前記処理中の単語が
文章の先頭単語でないか、ユーザから指定された前記発
声速度が閾値を超えていない時には、音韻継続時間修正
係数をユーザから指定された発声速度に応じて変更する
第１の処理を行った後、当該単語を構成する母音長を前
記音韻継続時間修正係数に従って修正する処理を当該単
語の全ての音節について行う第２の処理を行い、前記第
１及び第２の処理を当該文章に含まれる全ての単語につ
いて行うことを特徴とする請求項１２記載のテキスト音
声変換装置における高速読み上げ制御方法。