JP3515039B2 - テキスト音声変換装置におけるピッチパタン制御方法 - Google Patents

テキスト音声変換装置におけるピッチパタン制御方法

Info

Publication number
JP3515039B2
JP3515039B2 JP2000058821A JP2000058821A JP3515039B2 JP 3515039 B2 JP3515039 B2 JP 3515039B2 JP 2000058821 A JP2000058821 A JP 2000058821A JP 2000058821 A JP2000058821 A JP 2000058821A JP 3515039 B2 JP3515039 B2 JP 3515039B2
Authority
JP
Japan
Prior art keywords
pitch
phoneme
unit
pitch pattern
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000058821A
Other languages
English (en)
Other versions
JP2001249677A (ja
Inventor
桂一 茅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2000058821A priority Critical patent/JP3515039B2/ja
Priority to US09/752,774 priority patent/US6625575B2/en
Publication of JP2001249677A publication Critical patent/JP2001249677A/ja
Application granted granted Critical
Publication of JP3515039B2 publication Critical patent/JP3515039B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日常読み書きして
いる漢字・仮名混じり文を音声として出力するテキスト
音声変換技術に係わり、特に合成音声のピッチパタン制
御方法に関するものである。
【0002】
【従来の技術】テキスト音声変換技術は、我々が日常読
み書きしている漢字かな混じり文を入力し、それを音声
に変換して出力するもので、出力語彙の制限がないこと
から録音・再生型の音声合成に代わる技術として種々の
利用分野での応用が期待できる。
【0003】従来、この種の音声合成装置としては、図
21に示すような処理形態となっているものが代表的で
ある。この装置において、日常読み書きしている漢字仮
名混じり文(以下テキストと呼ぶ)を入力すると、テキ
スト解析部101は、文字情報から音韻・韻律記号列を
生成する。ここで、音韻・韻律記号列とは、入力文の読
みに加えて、アクセント、イントネーション等の韻律情
報を文字列として記述したもの(以下中間言語と呼ぶ)
である。単語辞書104は個々の単語の読みやアクセン
ト等が登録された発音辞書で、テキスト解析部101は
この単語辞書を参照しながら、形態素解析ならびに構文
解析等の言語処理を施して中間言語を生成する。テキス
ト解析部101で生成された中間言語は、パラメータ生
成部102で処理されて、音声素片(音の種類)、音韻
継続時間(音の長さ)、音韻パワー(音の強さ)、基本
周波数(声の高さ、以下ピッチと呼ぶ)等の各パタンか
ら成る合成パラメータが決定され、波形生成部103に
送られる。ここで音声素片とは、合成波形を作るための
音声の基本単位で、音の種類等に応じて様々なものがあ
る。波形生成部103では、音声素片等を蓄積するRO
M等から構成された素片辞書105が参照されて、合成
波形が生成され、スピーカを通して合成音声が出力され
る。以上がテキスト音声変換処理の流れである。
【0004】次に、パラメータ生成部102における処
理を図22を参照して詳細に説明する。パラメータ生成
部102に入力される中間言語は、アクセント位置・ポ
ーズ位置などの韻律情報を含んだ音韻文字列であり、こ
れより、ピッチの時間的な変化(以下ピッチパタン)、
音声パワー、それぞれの音韻継続時間、素片辞書内に格
納されている音声素片アドレス等の波形を生成する上で
のパラメータ(以下、合成パラメータ)を決定する。
【0005】入力された中間言語に対して、中間言語解
析部201で文字列の解析を行い、呼気段落記号・単語
区切り記号から単語境界を判定し、アクセント記号から
アクセント核のモーラ(音節)位置を得る。呼気段落と
は、一息で発声する区間の区切り単位である。アクセン
ト核とは、アクセントが下降する位置のことで、1モー
ラ目にアクセント核が存在する単語を1型アクセント、
nモーラ目にアクセント核が存在する単語をn型アクセ
ントと呼び、総称して起伏型アクセント単語と呼ぶ。逆
に、アクセント核の存在しない単語(例えば「新聞」や
「パソコン」)を0型アクセントまたは平板型アクセン
ト単語と呼ぶ。
【0006】ピッチパタン決定部202は、中間言語上
の韻律情報などから音節あるいは音韻単位でのピッチ周
波数の算出を行う。従来のテキスト音声変換におけるピ
ッチパタン制御には、各音節の母音中心位置におけるピ
ッチ周波数を推定し、母音間を線形補間あるいはスプラ
イン補間して実現する「点ピッチモデル」が利用されて
きた。母音中心ピッチの推定は、例えば、数量化I類な
どの統計的手法を用いて行われる。この時の制御要因と
しては、例えば、現在の母音の属する単語のアクセント
型・単語先頭からの音節位置・呼気段落内での音節位置
・音韻の種類などといった情報が用いられる。母音中心
位置の推定ピッチ群を点ピッチパタン、これらを母音間
で内挿したものを単にピッチパタンと呼ぶことにする。
ピッチパタン生成には、後述する音韻継続時間決定部2
03において決定された音韻毎の継続時間を基にして算
出される。またこの時、ユーザからの抑揚(イントネー
ションの大きさ)や声の高さの指定があった場合は、そ
れらに応じた処理が施される。通常、声の高さ指定は、
5〜10段階程度に制御され、それぞれのレベルに対し
てあらかじめ割り当てられた定数を加えることにより行
われる。抑揚指定は3〜5段階に制御され、それぞれの
レベルに対してあらかじめ割り当てられた定数を乗ずる
ことにより行われる。文中のある単語を特に強調あるい
は抑制したい時に用いることを想定した制御機構であ
る。これについては本発明の主題に関わる部分であるの
で後述する。
【0007】音韻継続時間決定部203は、音韻文字列
・韻律記号からそれぞれの音韻の長さを決定する。音韻
継続時間の決定方法は通常、目標となる音韻の前後近傍
の音韻の種別あるいは、単語内・呼気段落内の音節位置
などにより、数量化I類などの統計的手法を用いられる
場合が多い。またこの時、ユーザから発声速度を指定さ
れた場合は、それに応じて音韻継続時間の伸縮を行う。
通常、発声速度指定は、5〜10段階程度に制御され、
それぞれのレベルに対してあらかじめ割り当てられた定
数を乗ずることにより行われる。発声速度を遅くしたい
場合は音韻継続時間を長くし、発声速度を速くしたい場
合は音韻継続時間を短くする。
【0008】音韻パワー決定部204は、音韻文字列か
らそれぞれの音韻の波形振幅値の算出を行う。波形振幅
値は、/a,i,u,e,o/などの音韻の種類・呼気
段落内での音節位置などから経験的に決められる。ま
た、音節内においても、立ち上がりの徐々に振幅値が大
きくなる区間と、定常状態にある区間と、立ち下がりの
徐々に振幅値が小さくなる区間のパワー遷移も同時に決
定している。これらパワー制御は通常、テーブル化され
た係数値を用いることにより実行される。またこの時、
ユーザからの声の大きさ指定があった場合は、それに応
じて振幅値を増減する。通常、声の大きさ指定は、10
段階程度に制御され、それぞれのレベルに対してあらか
じめ割り当てられた定数を乗ずることにより行われる。
【0009】音声素片決定部205は、音韻文字列を表
現するために必要な音声素片について、素片辞書105
内アドレスの決定を行う。素片辞書105は、例えば男
声音と女性音といった具合に複数話者の音声素片が格納
されており、ユーザからの話者指定により素片アドレス
の決定を行う。
【0010】以上の処理により生成されたピッチパタン
・音韻パワー・音韻継続時間・音声素片アドレスは合成
パラメータ生成部206に送られ、合成パラメータが生
成される。合成パラメータは、フレーム(通常8ms程
度の長さ)を一つの単位とした波形生成用のパラメータ
であり、波形生成部103に送られる。
【0011】次にピッチパタンの抑揚制御に関する従来
技術を詳細に説明する。図23に従来技術によるピッチ
パタン決定部202の機能ブロック図を示す。中間言語
解析部201から送られてくる音韻記号列や、韻律記号
から、音韻ピッチ推定部301で各音節の母音中心ピッ
チを推定する。ピッチ推定は、自然発声データを基に数
量化I類などの統計的手法を用いて、予め学習した予測
テーブル302を用いて行われる。音韻ピッチ推定部3
01で求められた点ピッチパタンは、スイッチ303に
送られ、ユーザからの抑揚指定がない場合はそのままピ
ッチパタン補間部307に送られ、ユーザからの抑揚変
更指定があった場合は、最小ピッチ探索部304に送ら
れる。最小ピッチ探索部304では単語単位で処理が施
され、単語内において最小となる母音中心ピッチが探索
される。そして、アクセント成分算出部305におい
て、先に探索された最小ピッチとの差分(これをアクセ
ント成分とする)が単語内の各音節すべてに対して計算
される。そして音韻ピッチ修正部306において、ユー
ザからの抑揚変更指定レベルに従い、予め定められた定
数を先に求められたアクセント成分に乗じて修正し、修
正結果をスイッチ303を介してピッチパタン補間部3
07に送る。ピッチパタン補間部307では、音節毎に
求められた点ピッチパタンと、音韻継続時間決定部20
3で算出された音韻継続時間とから、音韻間のピッチ遷
移を線形補間あるいはスプライン補間などにより内挿す
る処理を施し、その結果を合成パラメータ生成部206
に送る。なお図示していないが、ユーザからの声の高さ
指定があった場合は、音韻ピッチ推定部301で求めら
れた母音中心ピッチに対して、指定レベルに応じた定数
を加減する処理が施される。
【0012】図24は従来技術におけるピッチパタン抑
揚制御を表わした図である。縦軸がピッチ周波数、横軸
が時間推移を表わしており、分かりやすいように音韻境
界線(縦破線)を明示する。この図は「音声処理」と発
声した場合の例である。黒丸太実線で表現されているパ
タンが、統計的手法を用いて推定された母音中心点ピッ
チパタンである。ここで、ユーザからの抑揚制御指令と
して、抑揚を1.5倍、0.5倍にする場合を考える。
四角細実線が抑揚を1.5倍にしたピッチパタン、白丸
細実線が抑揚を0.5倍にしたピッチパタンである。従
来技術においては、まず、注目単語内の最小ピッチの探
索を行う。この例では、最終音節「り」の母音/i/が
最小ピッチとして推定されている。この母音の推定ピッ
チをmin[Hz]とし、/N/に注目した場合の、最
小ピッチからの増分(図中のA)を算出する。抑揚を
0.5倍にした結果のピッチ値Bおよび、抑揚を1.5
倍にした結果のピッチ値Cは下式により算出される。 B = A * 0.5 + min …(1) C = A * 1.5 + min …(2) このようにして、先頭音節から最終音節まで順次ピッチ
を修正していき抑揚制御を行う。
【0013】
【発明が解決しようとする課題】しかしながら上記の従
来技術では、以下に述べる問題があった。すなわち、抑
揚を強くあるいは弱くする処理であるにもかかわらず、
同時に、声の高さまでも高くあるいは低くなってしまっ
ていた。図24の3種類の抑揚制御後のピッチパタンを
比較しても明らかなように、抑揚を1.5倍にすると単
語全体的に平均ピッチが上昇し、抑揚を0.5倍にする
と全体的にピッチが下降する。つまり文章全体から見る
と、抑揚制御を施した単語だけがやけに声高な発声にな
ったり、声の低い発声になったりする場合がある。こう
いったバランスの崩れた合成音声は非常に聞きづらいと
いう問題があった。
【0014】また、従来技術においては、以下の不具合
が発生する。すなわち、全体に渡って抑揚を大きくする
処理を施した場合、抑揚と共に全体的な声の高さも高く
なり、逆に、抑揚を小さくする処理を施した場合、抑揚
と共に全体的な声の高さも低くなる。通常、声の高さを
上下変動させる指定は別に設けられているため、ユーザ
の欲するイントネーションと異なる合成音が生成されて
いた。
【0015】またさらに、以下に述べる問題もある。図
25に、5モーラから成る単語の各アクセント型に対応
する点ピッチパタンを示す。単語の点ピッチパタンは、
低ピッチで始まり、第2モーラで上昇して、アクセント
核を有するモーラにかけてゆっくりと下降し、アクセン
ト核を有するモーラから次のモーラにかけて大きく下降
し、最終ピッチに落ち着くのが基本的なパタンである。
ただし、1型では第1モーラから高く始まり、nモーラ
単語のn型と0型ではピッチの大きな下降がない。ここ
で0型アクセント単語に注目する。0型アクセントは基
本的に、第1モーラが「低」、第2モーラが「高」とな
る特徴を有する。しかし第2モーラが音節としての独立
性に乏しい従属音の場合、すなわち、第1、第2モーラ
が1音節として発声される傾向の強い場合には、第1か
ら第2モーラにかけて平坦な感じで発声され第1モーラ
が相対的に高くなる傾向がある。第2モーラが長音の後
部や撥音、母音でしかも従属音の場合がそれにあたる。
【0016】従来技術によれば、ピッチの最小点からの
増分に対して予め定められた係数を乗ずることによりピ
ッチの修正を行っている。0型アクセント単語でかつ、
上記の例で挙げた単語の場合、ピッチ最小点、すなわち
第1モーラの値が、第2モーラに引きずられる形で高い
ピッチとなるため、単語全体に渡って高ピッチ状態が続
く。この場合には、正確なアクセント成分を算出するこ
とは難しく、十分な抑揚制御を行うことができなかっ
た。この結果、他の単語に比べて抑揚が大きくなりにく
い、または小さくなりにくいといった現象が発生してい
た。このように従来では、ユーザの欲する抑揚制御が十
分に実現されていないという問題があった。
【0017】またさらに以下に述べる問題もある。文章
全体でピッチパタンを見ると、最終単語最終音節のピッ
チが他に比べて極端に低くなる傾向がある。抑揚制御対
象となる単語が文内最終単語の場合、単語内ピッチ最小
点は最終音節となり、最小ピッチからの増分が極端に大
きくなる。したがって文内最終単語の抑揚制御を行う場
合、特に、抑揚を大きくしようとした場合、単語先頭付
近の音節のピッチが極端に高くなってしまって、不自然
な発声になるといった問題もあった。
【0018】またさらに以下に述べる問題もある。素片
辞書は従来、一定ピッチで発声した無意味単語の音声デ
ータから作成されていた。このため、合成音声のピッチ
が素片作成時のピッチに近い場合は明瞭性が高い反面、
素片作成時のピッチと比べて極端に高い場合や低い場合
などは、合成音声が歪んだ音になってしまっていた。従
来の抑揚制御は、対象となる単語のピッチがどうであれ
一律の修正処理を施していた。その結果、元々高いピッ
チとして推定された単語に対して抑揚を大きくする操作
を施した場合、極端に声高となる場合が発生し、不自然
なイントネーションになるという問題が生じていた。
【0019】本発明の第1の目的は、上記従来技術の問
題点である、最終単語の抑揚を大きくした場合に単語先
頭付近のピッチが極端に高くなり不自然なイントネーシ
ョンになってしまうということを解消し、自然で聞きや
すい合成音声を生成するテキスト音声変換装置における
ピッチパタン制御方法を提供することである。
【0020】また本発明の第2の目的は、上記従来技術
の問題点である、抑揚制御による単語平均ピッチの変動
を極力抑え、全体的にピッチのバランスが取れた抑揚制
御を実現し、さらに抑揚制御対象となる単語のアクセン
ト型に依らず正確な抑揚制御を可能とする、自然で聞き
やすい合成音声を生成するテキスト音声変換装置におけ
るピッチパタン制御方法を提供することである。
【0021】また本発明の第3の目的は、特に文章全体
に抑揚制御処理を施した場合において、文全体としての
平均的なピッチを変動させないで抑揚制御を施すことを
にあり、ユーザの要求した抑揚制御のみが有効となるテ
キスト音声変換装置におけるピッチパタン制御方法を提
供することである。
【0022】また本発明の第4の目的は、従来技術にお
いて抑揚制御を行った場合にピッチが極端に高く、ある
いは低くなることによる音質劣化を解消し、明瞭性の高
い抑揚制御処理を実現できるテキスト音声変換装置にお
けるピッチパタン制御方法を提供することである。
【0023】
【課題を解決するための手段】上記第1の目的を達成す
るために、請求項1に記載の発明は、音声素片が登録さ
れた素片辞書と、音韻・韻律記号列に対して少なくとも
音声素片・音韻継続時間・基本周波数の合成パラメータ
を生成するパラメータ生成手段と、パラメータ生成手段
から生成される合成パラメータに基づいて前記素片辞書
を参照しながら波形重畳を行って合成波形を生成する波
形生成手段とを備え、前記パラメータ生成手段は音韻・
韻律記号を利用して複数の点ピッチを算出し、該複数の
点ピッチ間を補間することによりピッチパタンを生成す
るピッチパタン決定手段を備えたテキスト音声変換装置
におけるピッチパタン制御方法において、前記ピッチパ
タン決定手段は、単語先頭に位置する点ピッチと単語終
端に位置する点ピッチとを直線で結んだピッチ傾斜線を
超える成分に比例した値を用いて前記点ピッチパタンを
修正することを特徴とする。
【0024】上記第2の目的を達成するために、請求項
2に記載の発明は、音声素片が登録された素片辞書と、
音韻・韻律記号列に対して少なくとも音声素片・音韻継
続時間・基本周波数の合成パラメータを生成するパラメ
ータ生成手段と、パラメータ生成手段から生成される合
成パラメータに基づいて前記素片辞書を参照しながら波
形重畳を行って合成波形を生成する波形生成手段とを備
え、前記パラメータ生成手段は音韻・韻律記号を利用し
て複数の点ピッチを算出し、該複数の点ピッチ間を補間
することによりピッチパタンを生成するピッチパタン決
定手段を備えたテキスト音声変換装置におけるピッチパ
タン制御方法において、前記ピッチパタン決定手段は、
前記点ピッチパタンを高ピッチと低ピッチとの2値に判
定する簡易ピッチパタン生成手段を備え、単語の点ピッ
チパタンの最大値と最小値との差分値に比例した値を用
いて前記点ピッチパタンを修正することを特徴とする。
【0025】上記第3の目的を達成するために、請求項
8に記載の発明は、音声素片が登録された素片辞書と、
音韻・韻律記号列に対して少なくとも音声素片・音韻継
続時間・基本周波数の合成パラメータを生成するパラメ
ータ生成手段と、パラメータ生成手段から生成される合
成パラメータに基づいて前記素片辞書を参照しながら波
形重畳を行って合成波形を生成する波形生成手段とを備
え、前記パラメータ生成手段は前記音韻・韻律記号を利
用して複数の点ピッチを算出し、該複数の点ピッチ間を
補間することによりピッチパタンを生成するピッチパタ
ン決定手段を備えたテキスト音声変換装置におけるピッ
チパタン制御方法において、前記ピッチパタン決定手段
は、合成音声の平均ピッチを登録する登録手段と、前記
点ピッチパタンに対してあらかじめ定められた数値を超
える成分に比例した値を用いて修正を行う一次修正手段
と、一次修正が施された後に前記平均ピッチに比例した
値を用いて修正を行う二次修正手段とを備えたことを特
徴とする。
【0026】上記第4の目的を達成するために、請求項
9に記載の発明は、音声素片が登録された素片辞書と、
音韻・韻律記号列に対して少なくとも音声素片・音韻継
続時間・基本周波数の合成パラメータを生成するパラメ
ータ生成手段と、パラメータ生成手段から生成される合
成パラメータに基づいて前記素片辞書を参照しながら波
形重畳を行って合成波形を生成する波形生成手段とを備
え、前記パラメータ生成手段は前記音韻・韻律記号を利
用して複数の点ピッチを算出し、該複数の点ピッチ間を
補間することによりピッチパタンを生成するピッチパタ
ン決定手段を備えたテキスト音声変換装置におけるピッ
チパタン制御方法において、前記ピッチパタン決定手段
は、音声素片作成時の話者発声ピッチを登録する登録手
段と、音韻の最大ピッチと最小ピッチとの差分とユーザ
により指定される抑揚制御レベルに基づいて抑揚修正値
を算出する手段と、対象単語の点ピッチパタンと前記音
声素片作成時の話者発声ピッチとを比較して、その比較
結果に基づき前記抑揚修正値を変更する手段とを備えた
ことを特徴とする。
【0027】
【発明の実施の形態】以下図面を参照して本発明の実施
の形態について詳細に説明する。 <第1の実施形態>図1は第1の実施形態におけるピッ
チパタン決定部202の機能ブロック図である。本実施
形態におけるピッチパタン決定部と従来技術との相違点
は、単語先頭音韻から最終音韻にかけてのピッチ傾斜
(ピッチの変動量)を求めて、音韻毎に抑揚制御対象を
変化させる点である。
【0028】<構成>ピッチパタン決定部202への入
力は従来と同じく中間言語解析部201からの音韻・韻
律情報、音韻継続時間決定部203で決定された音韻個
々の継続時間、ユーザからの抑揚制御指定である。声の
高さの制御指定が入力される場合もあるが、ここでは省
略している。
【0029】音韻・韻律情報は音韻ピッチ推定部601
に入力され、音韻ピッチ推定のための制御要素として用
いられる。ピッチ推定は通常、数量化I類といった統計
的手法に基づいて行われる。この手法は、実際に人間が
発声した大量の音声データベースから制御規則を求める
もので、あらかじめ学習された予測テーブル602を用
いて、対象となる音節の母音中心ピッチを推定する。数
量化I類については公知であるのでここでは特に説明は
しない。音韻ピッチ推定部601から出力される母音中
心ピッチ群すなわち、すなわち点ピッチパタンは、ピッ
チ傾斜算出部603と抑揚制御対象算出部604と音韻
ピッチ修正部605に出力される。
【0030】ピッチ傾斜算出部603は、点ピッチパタ
ンを単語単位に分割し、目標とする単語内の先頭音節母
音ピッチと最終音節母音ピッチとの差分、すなわちピッ
チ傾斜を算出して抑揚制御対象算出部604に出力す
る。
【0031】抑揚制御対象算出部604には、前記ピッ
チ傾斜算出部603からのピッチ傾斜と、音韻ピッチ推
定部601からの点ピッチパタンと、先に述べた音韻継
続時間決定部204から出力される音韻個々の継続時間
が入力される。抑揚制御対象算出部604では、ピッチ
傾斜を基に、単語内の各音節全てに対して、抑揚制御の
対象とする成分値の算出が行われ、音韻ピッチ修正部6
05に出力される。本実施形態における抑揚制御対象成
分は、先頭音節ピッチと最終音節ピッチとを直線で結ん
だピッチ傾斜線を超えるピッチ成分を指す。
【0032】音韻ピッチ修正部605には、前述の抑揚
制御対象成分と点ピッチパタンと、ユーザからの抑揚指
定レベルが入力される。音韻ピッチ修正部605では、
ユーザから指定される抑揚制御レベルに応じてあらかじ
め定められた割合で、抑揚制御対象成分の増減を行い、
点ピッチパタンの修正を施した後にピッチパタン補間部
606に出力する。
【0033】ピッチパタン補間部606には、前述の音
韻継続時間と修正後の点ピッチパタンが入力され、音韻
間のピッチが線形補間あるいはスプライン補間等により
内挿され、ピッチパタンとして合成パラメータ生成部2
06に出力される。
【0034】<動作>以上のように構成された第1の実
施形態における動作について図1〜図8を用いて詳細に
説明する。従来技術と異なる点は、ピッチパタン生成に
関わる処理であるので、それ以外の処理については省略
する。
【0035】まず、中間言語解析部201(図22参
照)から音韻ピッチ推定部601へ音韻情報や韻律情報
が入力される。ここでは通常、1文章単位の情報が入力
され、数量化I類といった統計的手法に基づいて母音中
心ピッチが推定される。この時、大量の音声データベー
スを用いてあらかじめ学習された予測テーブル602に
基づいて推定が行われる。数量化I類については公知で
あるのでここでは特に説明はしない。1文章中の全音節
に対して母音中心ピッチが推定されると、これら点ピッ
チパタンはピッチ傾斜算出部603と抑揚制御対象算出
部604と音韻ピッチ修正部605へと送られる。この
時の情報は例えば、第n番目の単語における第m番目の
音節の母音中心ピッチが何Hzかという具合に、単語分
割された情報とする。
【0036】ピッチ傾斜算出部603は、目標とする単
語内の先頭音節ピッチと最終音節ピッチとの差分、すな
わちピッチ傾斜を算出して抑揚制御対象算出部604に
送る。例として図2に、ある単語の点ピッチパタンを示
す。横軸が時間、縦軸がピッチ周波数を表わしており、
白丸太実線が音韻ピッチ推定部601で推定された点ピ
ッチパタンである。この例では母音中心点は時刻t0,
t1,t2,t3,t4で観測されている。時刻Tにお
けるピッチ周波数をF(T)で表現すると、先に述べた
ピッチ傾斜は、F(t0)−F(t4)となる。そし
て、F(t0)とF(t4)を結んだ直線をピッチ傾斜
線と呼ぶことにする。図2中の黒丸破線がそれである。
【0037】抑揚制御対象算出部604は、単語内各母
音に対して、ピッチ傾斜線を超えるピッチ成分、すなわ
ち抑揚制御対象成分の算出を行う。時刻Tにおけるピッ
チ傾斜線をF0(T)で表現すると、時刻t1の母音に
おける抑揚制御対象成分はF(t1)−F0(t1)と
表わせる。図2中の白丸太実線と黒丸破線に囲まれた範
囲が抑揚制御対象成分である。ピッチ傾斜線を求めるた
めには、対象となる音韻の継続時間情報が必要なので、
音韻継続時間決定部203(図22参照)から抑揚制御
対象算出部604にその情報が入力される。この時の情
報は例えば、第n番目の単語における第m番目の音節の
母音中心の絶対時刻という具合に、単語分割された情報
とする。抑揚制御対象が算出されると音韻ピッチ修正部
605へと送られる。
【0038】音韻ピッチ修正部605にはユーザから指
定される抑揚制御レベルが入力されており、このレベル
に応じて前記抑揚制御対象成分の増減処理を行う。ユー
ザからの抑揚制御指定は例えば、3段階で与えられ、レ
ベル1が抑揚を0.5倍に、レベル2が抑揚を1.0倍
に、レベル3が抑揚を1.5倍にといった具合に定めら
れている。このレベルに応じた処理が行われ、音韻ピッ
チの修正が行われる。図2中の四角細実線が1.5倍に
抑揚制御された点ピッチパタンを示している。
【0039】ピッチパタン補間部606では、音韻継続
時間情報と前記修正後の点ピッチパタンとから、音韻間
のピッチが線形補間あるいはスプライン補間等により内
挿され、ピッチパタンとして合成パラメータ生成部20
6(図22参照)に出力される。
【0040】さらに詳細に説明するために図3〜図5に
抑揚制御処理のフローチャートを示す。このフローチャ
ートは、図1中のピッチ傾斜算出部603、抑揚制御対
象算出部604、音韻ピッチ修正部605の処理内容を
示したものである。
【0041】まず、図3のステップST1において以下
のパラメータが初期化される。すなわち、入力文章中に
含まれる単語総数I、第i番目の単語を構成する音節総
数WPi、第i番目の単語に対して指定される抑揚制御
係数Ai、第i番目の単語における第j番目の音節の母
音中心点の絶対時刻Tij、第i番目の単語における第j
番目の音節の母音中心ピッチ周波数Pijである。ここで
抑揚制御係数Aiは、ユーザから指定される抑揚制御レ
ベルに応じた実際の乗数である。
【0042】ステップST2では、単語カウンタiを0
に初期化する。
【0043】ステップST3で第i番目における単語の
音節総数を変数Jに設定する。これは後の説明におい
て、変数の添字を分かり易くするための処理であり、実
際の処理では必要ない。
【0044】ステップST4からステップST8にかけ
て、第i番目の単語に対する抑揚制御処理を施す。
【0045】ステップST4で、第0番目の音節の母音
中心ピッチPi0と、第J−1番目の音節の母音中心ピッ
チPi(J 1)との比較すなわち、単語先頭母音と単語最終
母音のピッチ周波数の比較を行う。先頭母音ピッチが大
きい場合はステップST5に進み、そうでない場合はス
テップST6に進む。
【0046】ステップST5のサブルーチンAの処理は
図4に、ステップST6のサブルーチンBの処理は図5
に示す。双方のサブルーチンでは第i番目の単語の各音
節に対して修正処理が施される。これらについては後述
する。
【0047】各サブルーチンの処理が終了すると、ステ
ップST7において単語カウンタiを1インクリメント
して、次のステップST8で単語総数Iとの比較が行わ
れる。単語カウンタiが単語総数を超えた場合、すなわ
ち全ての単語に対して処理が終了した場合は抑揚制御処
理を終了し、そうでない場合はステップST3に戻り、
次単語の処理を同様に施していく。
【0048】次に図4を用いてサブルーチンAの処理を
説明する。サブルーチンAは、当該単語の先頭母音ピッ
チが最終母音ピッチよりも大きい場合のピッチ修正処理
である。まずステップST11でピッチ傾斜を算出す
る。この場合、最終母音ピッチを基準にした先頭母音ピ
ッチの相対値である。ピッチ傾斜をDPとすると次式で
表わせる。 DP = Pi0 − Pi(J 1) …(3)
【0049】ステップST12で先頭母音中心点から最
終母音中心点までの時間を次式により算出する。 DT = Ti(J-1)− Ti0 …(4)
【0050】ステップST13で音節カウンタjを1に
初期化する。本実施形態においては、単語先頭の音節に
対しては抑揚制御が施されないため、第0番目ではなく
第1番目の音節から処理を開始する。
【0051】ステップST14で第j番目の母音中心点
と最終母音中心点との時間差を算出する。これをzとす
ると次式で表現できる。 z = DT − (Tij − Ti0) …(5)
【0052】ステップST15で、第j番目の母音のピ
ッチ傾斜線上の値を、最終母音ピッチからの相対値とし
て算出する。これをxとすると次式で算出できる。 x = DP * z / DT …(6)
【0053】ステップST16で、第j番目の音節にお
ける、ピッチ傾斜線を超えるピッチ成分、すなわち抑揚
制御対象成分の算出を行う。抑揚制御対象成分をyとす
ると次式で算出する。 y = Pij − x …(7)
【0054】ステップST17で、抑揚制御を行ってピ
ッチ修正を行う。前述の処理から明らかなように、第j
番目の抑揚制御後のピッチ周波数は下式で表現できる。 Pij = Pi(J 1) + x + y * Ai …(8)
【0055】第j番目の処理が終了すると、ステップS
T18で音節カウンタjを1インクリメントして、ステ
ップST19で第i番目の単語における処理の終了判定
を行う。本実施形態においては、最終音節に対しては抑
揚制御が施されないため、音節総数Jュ1を超えた時点
で終了となる。以上説明した処理に用いた変数を図に表
わすと図6のようになる。
【0056】続いて図5を用いてサブルーチンBの処理
を説明する。サブルーチンBは、当該単語の先頭母音ピ
ッチが最終母音ピッチよりも小さい場合のピッチ修正処
理である。まずステップST21でピッチ傾斜を算出す
る。この場合、先頭母音中心ピッチを基準にした最終母
音中心ピッチの相対値である。ピッチ傾斜をDPとする
と次式で表わせる。 DP = Pi(J 1) − Pi0 …(9)
【0057】次いでステップST22で先頭母音中心点
から最終母音中心点までの時間を、サブルーチンAと同
様に式(4)により算出する。次にステップST23で
音節カウンタjを1に初期化する。本実施形態において
は、単語先頭の音節に対しては抑揚制御が施されないた
め、第0番目ではなく第1番目の音節から処理を開始す
る。
【0058】ステップST24で第j番目の母音中心点
と先頭母音中心点との時間差を算出する。これをzとす
ると次式で表現できる。 z = Tij − Ti0 …(10)
【0059】ステップST25で、第j番目の母音のピ
ッチ傾斜線上の値を、最終母音ピッチからの相対値とし
て算出する。サブルーチンAと同様に式(6)で算出す
る。
【0060】ステップST26で、第j番目の音節にお
ける、ピッチ傾斜線を超えるピッチ成分、すなわち抑揚
制御対象成分の算出を式(7)により行う。
【0061】ステップST27で、抑揚制御を行ってピ
ッチ修正を行う。前述の処理から明らかなように、第j
番目の抑揚制御後のピッチ周波数は下式で表現できる。 Pij = Pi0 + x + y * Ai …(11)
【0062】第j番目の処理が終了すると、ステップS
T28で音節カウンタjを1インクリメントして、ステ
ップST29で第i番目の単語における処理の終了判定
を行う。本実施形態においては、最終音節に対しては抑
揚制御が施されないため、音節総数J−1を超えた時点
で終了となる。以上説明した処理に用いた変数を図に表
わすと図7のようになる。
【0063】以上詳細に説明したように第1の実施形態
によれば、単語内先頭に現れる母音中心ピッチと、単語
内最終母音中心ピッチとを直線で結んだ線を超えるピッ
チ成分のみに対して、増減を行って抑揚制御を施してい
るため、従来では抑揚を大きくした場合に見られた、単
語先頭付近のピッチが極端に高くなってしまうという不
具合が解消され、聴きやすい合成音声を生成することが
可能となる。
【0064】図8に、従来技術により抑揚を1.5倍に
した点ピッチパタンと、本発明により抑揚を1.5倍に
した点ピッチパタンを示す。白丸太実線が抑揚制御前の
点ピッチパタンであり、黒丸細実線が従来技術によるも
の、四角細実線が本発明によるものである。この図を見
ても明らかなように、最終母音ピッチが極端に低い場
合、これは特に文章末に見られる現象であるが、従来技
術では先頭付近の音韻ピッチが極端に高くなっているの
に対して、本発明の第1の実施形態によれば理想的なピ
ッチパタンが生成されていることが確認できる。
【0065】<第2の実施形態>第1の実施形態では、
単語内先頭母音ピッチと、単語内最終母音ピッチとを直
線で結んだ線を超えるピッチ成分のみに対して増減を行
うという方法で、最終単語のイントネーション劣化を防
いだ。しかしながら、1型アクセント単語のように先頭
音節のピッチが「高」で始まる単語に対しては、ピッチ
傾斜線が急峻になりすぎるために抑揚制御成分が小さく
なり、ユーザの期待する抑揚と実際の抑揚の隔たりが生
じる場合がある。またさらに、0型アクセント単語のよ
うに明確なアクセント核が存在しない単語に対して抑揚
を大きくする操作を行った場合、抑揚制御が行われない
単語最終音韻に比べて前方の音韻ピッチが高めに修正さ
れ、その結果、本来存在しないはずのアクセントが聴感
上感じられる場合もある。第2の実施形態においては、
このようなアクセント型による抑揚制御効果のばらつき
を解消すると共に従来技術の問題であった平均ピッチの
変動を極力抑えるという特徴を有する。
【0066】本実施形態が従来技術と異なる点は、単語
単位に簡易ピッチパタンを作成し、それらに基づいて抑
揚修正値を加減して音韻ピッチの修正を行う点である。
したがって、従来と異なるピッチパタン決定部について
のみ、図9を用いて説明する。 <構成>
【0067】ピッチパタン決定部202への入力は、従
来と同じく中間言語解析部201からの音韻・韻律情
報、音韻継続時間決定部203で決定された音韻個々の
継続時間、ユーザからの抑揚制御指定である。声の高さ
の制御指定が入力される場合もあるが、ここでは省略し
ている。
【0068】音韻・韻律情報は音韻ピッチ推定部140
1と簡易ピッチパタン作成部1407とに入力される。
音韻ピッチ推定部1401では、音韻ピッチ推定のため
の制御要因として用いられる。ピッチ推定は通常、数量
化I類といった統計的手法に基づいて行われる。この手
法は、実際に人間が発声した大量の音声データベースか
ら制御規則を求めるもので、あらかじめ学習された予測
テーブル1402を用いて、対象となる音節の母音中心
ピッチを推定する。数量化I類については公知であるの
でここでは特に説明はしない。音韻ピッチ推定部140
1から出力される母音中心ピッチ群すなわち、すなわち
点ピッチパタンは、最大最小探索部1403と音韻ピッ
チ修正部1405とに入力される。
【0069】最大最小探索部1403は、点ピッチパタ
ンを単語単位に分割し、目標とする単語における最大音
韻ピッチと最小音韻ピッチとを算出して抑揚修正値算出
部1404に出力する。抑揚修正値算出部1404に
は、前記最大最小探索部1403からの最大音韻ピッチ
と最小音韻ピッチに加え、ユーザから指定される抑揚制
御レベルが入力される。
【0070】抑揚修正値算出部1404では、前記最大
音韻ピッチ、最小音韻ピッチ、抑揚制御レベルとから音
韻ピッチを修正するための増減値を音韻ピッチ修正部1
405に出力する。一方、簡易ピッチパタン作成部14
07には、中間言語解析部201からの音韻・韻律情報
が入力され、各音節の母音中心ピッチを「高」あるいは
「低」の2種類に分類した形式の簡易ピッチパタンを作
成し、音韻ピッチ修正部1405に出力する。
【0071】音韻ピッチ修正部1405では、前記簡易
ピッチパタン作成部1407から入力される簡易ピッチ
パタンと、前記音韻ピッチ推定部1401から入力され
る点ピッチパタンと、前記抑揚修正値算出部1404か
ら入力される抑揚修正値とから各有声音韻のピッチの修
正を行い、その結果をピッチパタン補間部1406に出
力する。
【0072】ピッチパタン補間部1406には、前述の
音韻継続時間と修正後の点ピッチパタンが接続され、音
韻間のピッチが線形補間あるいはスプライン補間等によ
り内挿され、ピッチパタンとして合成パラメータ生成部
206に出力される。
【0073】<動作>以上のように構成された第2の実
施形態における動作について図9〜図14を用いて詳細
に説明する。従来技術と異なる点は、ピッチパタン生成
に関わる処理であるので、それ以外の処理については省
略する。
【0074】まず、中間言語解析部201(図22参
照)から音韻ピッチ推定部1401へ音韻情報や韻律情
報が入力される。ここでは通常、1文章単位の情報が入
力され、数量化I類といった統計的手法に基づいて母音
中心ピッチが推定される。この時、大量の音声データベ
ースを用いてあらかじめ学習された予測テーブル140
2に基づいて推定が行われる。数量化I類については公
知であるのでここでは特に説明はしない。1文章中の全
音節に対して母音中心ピッチが推定されると、これら点
ピッチパタンは最大最小探索部1403と音韻ピッチ修
正部1405へと送られる。この時の情報は例えば、第
n番目の単語における第m番目の音節の母音中心ピッチ
が何Hzかという具合に、単語分割された情報とする。
【0075】最大最小探索部1403は、目標とする単
語内の音韻最大ピッチと最小ピッチの探索を行い、その
結果であるそれぞれのピッチ周波数データを抑揚修正値
算出部1404に送る。
【0076】抑揚修正値算出部1404では、前記音韻
最大ピッチと最小ピッチとの差分を計算し、これに、ユ
ーザから指定される抑揚制御レベルに応じた係数を乗ず
る操作が行われる。ユーザからの抑揚制御指定は例え
ば、3段階で与えられ、レベル1が抑揚を1.5倍に、
レベル2が抑揚を1.0倍に、レベル3が抑揚を0.5
倍にといった具合に定められている。この場合、前記抑
揚制御レベルに応じた係数値(以下、抑揚制御係数)
は、レベル1が0.5、レベル2が0、レベル3がュ
0.5となる。こうして抑揚を制御するための修正値が
算出され、その結果が音韻ピッチ修正部1405に出力
される。
【0077】一方簡易ピッチパタン作成部1407に
は、前記音韻ピッチ推定部1401と同様に、中間言語
解析部201から音韻情報や韻律情報が入力される。簡
易ピッチパタン作成部1407では、対象となる音節の
母音中心ピッチが高ピッチなのか、あるいは低ピッチな
のかを2値で判定して簡易ピッチパタンとして音韻ピッ
チ修正部1405へ送る。簡易ピッチパタンは、対象と
なる単語のアクセント型によって決まり、1型アクセン
トの場合は「高低低低・・」となり、0型アクセントの
場合は「低高高高・・」となり、それ以外のアクセント
型では「低高」で始まりアクセント核の直後の音韻で
「低」となる。これは図25で説明したアクセントパタ
ンをさらに簡略化したものと考えられる。こうした2値
化ピッチパタンである簡易ピッチパタンは前記音韻ピッ
チ修正部1405に出力される。
【0078】音韻ピッチ修正部1405では点ピッチパ
タンの各音節に対して、簡易ピッチパタンが「高」の場
合に前記抑揚修正値を加え、「低」の場合に前記抑揚修
正値を減ずるという処理を施す。修正された点ピッチパ
タンはピッチパタン補間部1406へ出力される。
【0079】ピッチパタン補間部1406では、音韻継
続時間情報と前記修正後の点ピッチパタンとから、音韻
間のピッチが線形補間あるいはスプライン補間等により
内挿され、ピッチパタンとして合成パラメータ生成部2
06(図22参照)に出力される。
【0080】図10に本実施形態における抑揚制御処理
を表わす点ピッチパタンを示す。この例では5モーラ単
語4型アクセントに対してレベル1の抑揚制御を施した
図である。白丸太実線が抑揚制御前の点ピッチパタン、
黒丸細実線が抑揚制御後の点ピッチパタンである。4型
アクセント単語であるので、簡易ピッチパタンは「低高
高高低」となる。また、抑揚制御レベル1、すなわち抑
揚を1.5倍にするということは、現在の抑揚成分の
0.5倍をさらに加えるということに他ならない。
【0081】本実施形態においては、高ピッチ音韻には
ピッチを上昇させ、逆に低ピッチ音韻にはピッチを下降
させる処理を施すため実際の処理においては、高ピッチ
音韻には現在の抑揚成分の0.25倍の値を加え、逆に
低ピッチ音韻からは減じている。
【0082】また、単語内における最大ピッチは第2音
韻(ピッチの値はPmax)であり、最小ピッチは第5音
韻(ピッチの値はPmin)である。したがって、抑揚修
正値は (Pmax−Pmin)*0.25となる。第1音韻
の簡易ピッチパタンは「低」であるので前記抑揚修正値
を減じ、第2音韻の簡易ピッチパタンは「高」であるの
で前記抑揚修正値を加える。このようにして最終音韻ま
での修正を行っていく。
【0083】さらに詳細に説明するために図11〜図1
4に抑揚制御処理のフローチャートを示す。このフロー
チャートは、図9中における、簡易ピッチパタン作成部
1407、最大最小探索部1403、抑揚修正値算出部
1404、音韻ピッチ修正部1405の処理内容を示し
たものである。まず図11を用いて単語単位の処理の流
れを説明する。
【0084】ステップST31において以下のパラメー
タが初期化される。すなわち、入力文章中に含まれる単
語総数I、第i番目の単語を構成する音節総数WPi
第i番目の単語に対して指定される抑揚制御レベルに応
じた抑揚制御係数Ai、第i番目の単語のアクセント型
ACi、第i番目の単語における第j番目の音節の母音
中心ピッチ周波数Pijである。
【0085】ステップST32で、単語カウンタiを0
に初期化する。
【0086】ステップST33で、第i番目における単
語の音節総数WPiを変数Jに設定する。これは後の説
明において、変数の添字を分かり易くするための処理で
あり、実際の処理では必要ない。
【0087】ステップST34からステップST40に
おいて、第i番目の単語に対する抑揚制御処理を施す。
まずステップST34では当該単語の最大音韻ピッチP
maxと最小音韻ピッチPminの探索が行われる。内容につ
いては図12を用いて後述する。
【0088】ステップST35で、当該単語の簡易ピッ
チパタンが作成される。簡易ピッチパタンは、対象単語
のアクセント型や音節数といった情報から音韻ピッチを
「高」また「低」の2値に分類したものであり、詳しい
内容については図13を用いて後述する。
【0089】ステップST36において、前述最大音韻
ピッチPmaxと最小音韻ピッチPminとの差分dpowを
算出する。
【0090】ステップST37で、高ピッチに対する抑
揚制御修正値dmaxを下式より算出する。 dmax = dpow * Ai/2 …(12) ここでAiは、ユーザが指定する抑揚制御レベルに応じ
てあらかじめ定められている抑揚制御係数であり、先に
説明したように抑揚制御レベルと抑揚制御係数の関係は
例えば以下のようになる。 レベル1(抑揚を1.5倍) Ai=0.5 レベル2(抑揚を1.0倍) Ai=0 レベル3(抑揚を0.5倍) Ai=−0.5
【0091】ステップST38で、低ピッチに対する抑
揚制御修正値dminが算出される。低ピッチも高ピッ
チも抑揚制御修正値は変わらず、それを加えるか減ずる
かという違いだけであるので、 dmin = −dmax …(13) となる。
【0092】ステップST39で、先に求められたdm
ax、dminを用いて点ピッチパタンの修正が行われ
る。内容については図14を用いて後述する。点ピッチ
パタンの修正が終了すると、次のステップST40にお
いて、単語カウンタiを1インクリメントする。次いで
ステップST41で入力文章中の単語総数Iとの比較を
行い、単語カウンタiが単語総数Iを超えた場合、すな
わち全て単語に対する処理が終了した場合に抑揚制御処
理を終える。そうでない場合は、ステップST33に戻
り次単語に対する処理を前述と同様に繰り返す。以上が
単語毎の処理の流れである。
【0093】次に図12を用いて最大最小ピッチ探索の
処理について説明する。まず、ステップST51で算出
すべき最大音韻ピッチPmaxを0に初期化し、ステップ
ST52で最小音韻ピッチPminを無限大に近い値、あ
るいはピッチ周波数のとりうる値を超える値に初期化
し、ステップST53で、音節カウンタjを0に初期化
する。
【0094】ステップST54で、当該音節母音ピッチ
ijがPmaxよりも大きい場合はステップST55でP
maxの更新を行い、そうでない場合はステップ56へ進
む。次いでステップ56で、当該音節母音ピッチPij
minよりも小さい場合はステップ57でPminの更新を
行い、そうでない場合はステップST58に進む。
【0095】ステップST58で、音節カウンタjを1
インクリメントし、ステップST59で当該単語中の音
節総数Jを超えたかを判定し、超えていれば処理を終了
し、そうでなければステップST54に戻り同様の処理
を繰り返す。サブルーチンCの処理が終了すると、変数
maxに当該単語の最大音韻ピッチが、Pminには最小音
韻ピッチが格納されていることになる。
【0096】次に図13を用いて簡易ピッチパタンの作
成処理について説明する。先に説明したように簡易ピッ
チパタンとは、音韻ピッチを「高」「低」の2値に分類
した点ピッチパタンであるが、ここでは、「低」から
「高」に遷移する音韻位置mor1、「高」から「低」
に遷移する音韻位置mor2を算出するとこを目的とし
ている。以降便宜上、mor1を低高遷移位置と呼び、
mor2を高低遷移位置と呼ぶことにする。
【0097】ステップST61で、当該単語のアクセン
ト型ACiが0型かどうかの判定を行う。0型であれば
ステップST62に進み、そうでなければステップST
66に進む。
【0098】ステップST62からステップST65ま
での0型アクセント単語に対する処理については、まず
ステップST62でmor2に当該単語音節総数Jを設
定する。0型アクセントにはアクセント核がないためで
ある。
【0099】ステップST63で、当該単語の第2音節
が従属音であるかどうかの判定を行う。従属音すなわ
ち、長音の後部や撥音、母音でしかも従属音であった場
合は、ステップST64へ進み、そうでない場合はステ
ップST65に進む。ステップST64ではmor1を
0に設定し、ステップST65ではmor1を1に設定
する。
【0100】第1、第2モーラが1音節として発声され
る傾向の強い場合には、第1から第2モーラにかけて平
坦な感じで発声され第1モーラが相対的に高くなる傾向
があるため、低高遷移位置を区別している。
【0101】次いで、0型以外の単語の処理について説
明する。ステップST66でmor2にアクセント型す
なわちアクセント核の存在する音節位置を設定する。次
いでステップST67でアクセント型が1型かどうかの
判定を行い、1型であればステップST69に進みmo
r1を0に設定し、そうでなければステップST68に
進む。
【0102】1型アクセントであればそのピッチパタン
は「高低低低・・」であるので、低高遷移がないためm
or1を0に設定している。一方、0型でも1型でもな
い場合はステップST68で、第2音節が従属音である
かどうかの判定を行う。これは0型アクセント単語で行
ったことと同様である。従属音であれば、第1音韻は
「高」で始まるため、mor1に0を設定し、そうでな
ければステップST70でmor1を1に設定する。以
上が簡易ピッチパタンの作成過程である。
【0103】次に図14を用いて音韻ピッチ修正処理に
ついて説明する。まずステップST71で音節カウンタ
jを0に初期化する。そしてステップST72で音節カ
ウンタjが低高遷移位置mor1に達していない場合
(すなわち当該音節は「低」ピッチ)はステップST7
3に進み、そうでない場合はステップST74に進む。
【0104】ステップST73では、下式に従って低ピ
ッチ用の修正処理を行う。 Pij = Pij + dmin …(14)なお、右辺のP ij が修正処理前のピッチ周波数であり、
左辺のP ij が修正後のピッチ周波数である。
【0105】ステップST74では、音節カウンタjと
高低遷移位置mor2との比較を行い、音節カウンタj
が高低遷移位置mor2に達していない場合(すなわち
当該音節は「高」ピッチ)はステップST75に進み、
そうでない場合はステップST76に進む。
【0106】ステップST75では下式に従って高ピッ
チ用の修正処理を行う。 Pij = Pij + dmax …(15)なお、右辺のP ij が修正処理前のピッチ周波数であり、
左辺のP ij が修正後のピッチ周波数である。
【0107】ステップST76の処理は前述したステッ
プST73の低ピッチ用の処理と同一である。そしてこ
れらの処理が終了したのち、ステップST77へ進み、
音節カウンタjを1インクリメントする。次いでステッ
プST78で、音節カウンタjと単語内音韻総数Jとの
比較を行い、音節カウンタjが当該単語中の音節総数J
を超えていれば処理を終了し、そうでなければステップ
ST72に戻り、次音節に対して同様の処理を繰り返
す。以上が音韻ピッチ修正の流れである。
【0108】以上詳細に説明したように本実施形態によ
れば、対象単語のアクセント型に応じて簡易的なピッチ
パタンを作成し、例えば抑揚を大きくする場合には、ピ
ッチが高レベルにある音韻ピッチに対しては修正値を加
えて上昇させ、逆にピッチが低レベルにある音韻ピッチ
に対しては修正値を減じて下降させるといった制御を施
しているため、従来技術で発生していた、抑揚修正と同
時に平均ピッチまでも変動してしまうといった不具合が
解消され、聴きやすい合成音声を生成することが可能と
なる。また本実施形態においては、アクセント型に依ら
ず正確な抑揚制御が行えるようになる。
【0109】<第3の実施形態>前述の第2の実施形態
では、単語のアクセント型を基に、対象となる音節のピ
ッチを高レベルにあるのか低レベルにあるのかを判定
し、高レベルの場合は修正値を加え低レベルの場合は修
正値を減ずる操作を施すことにより、聴感上の平均ピッ
チの変動を抑制しつつ抑揚の制御を行った。しかしなが
ら、厳密な意味での平均ピッチの変動が十分に抑制出来
ない場合がある。例えば、文中の全ての単語に抑揚を大
きくする指定を行う場合を考える。これは、本来利用者
に対して特に注意を促すために用いられている抑揚制御
機構を、感情変化という目的で使う場面を想定したもの
である。概して、抑揚を大きくした場合は明るい発声に
なり、逆に抑揚を小さくした場合は暗い発声になりがち
である。
【0110】また、前述の従来技術においては、以下の
不具合が発生する。すなわち、全体に渡って抑揚を大き
くする処理を施した場合、抑揚と共に全体的な声の高さ
も高くなり、逆に、抑揚を小さくする処理を施した場
合、抑揚と共に全体的な声の高さも低くなる。通常、声
の高さを上下変動させる指定は別に設けられているた
め、抑揚を大きくする指定と共に、声の高さを低くする
指定を行って上記不具合を回避するしかない。第3の実
施形態では、特に文章全体に渡って抑揚制御を施す場合
に有効な方法であり、文全体としての平均的なピッチを
変動させないで抑揚制御を施すことが可能であるという
特徴を有する。またさらに、前述した第1、第2の実施
形態と比較して単純な構成で実現できるという特徴も併
せ持つ。
【0111】<構成>以下、本発明の第3の実施形態に
おける構成を図15を参照しながら詳細に説明する。本
発明が従来技術と異なる点は、音韻ピッチを推定するた
めに用いている予測テーブルを学習する際に、学習話者
の平均ピッチも同時に算出し、抑揚制御制御後の平均ピ
ッチが学習時の平均ピッチと同一になるように全体的に
ピッチを上下にシフト操作を行う点である。したがっ
て、従来と異なるピッチパタン決定部についてのみ、図
15を用いて説明する。
【0112】ピッチパタン決定部202への入力は、従
来と同じく中間言語解析部201からの音韻・韻律情
報、音韻継続時間決定部203で決定された音韻個々の
継続時間、ユーザからの抑揚制御指定である。声の高さ
の制御指定が入力される場合もあるが、ここでは省略し
ている。
【0113】音韻・韻律情報は音韻ピッチ推定部200
1に入力される。これらの情報は、音韻ピッチ推定部2
001において音韻ピッチ推定のための制御要因として
用いられる。ピッチ推定は通常、数量化I類といった統
計的手法に基づいて行われる。この手法は、実際に人間
が発声した大量の音声データベースから制御規則を求め
るもので、あらかじめ学習された予測テーブル2002
を用いて、対象となる音節の母音中心ピッチを推定す
る。数量化I類については公知であるのでここでは特に
説明はしない。音韻ピッチ推定部2001から出力され
る母音中心ピッチ群すなわち、すなわち点ピッチパタン
は、音韻ピッチ一次修正部2003に出力される。
【0114】音韻ピッチ一次修正部2003には、前記
点ピッチパタンに加え、ユーザから指定される抑揚制御
レベルが入力される。音韻ピッチ一次修正部2003で
は、前記抑揚制御レベルに応じてあらかじめ定められた
乗数により音韻ピッチの第一次修正を行い、その結果を
音韻ピッチ二次修正部2004に出力する。
【0115】音韻ピッチ二次修正部2004には、前記
一次修正後の点ピッチパタンに加え、平均ピッチ200
6が入力される。平均ピッチ2006は、前記予測テー
ブル2002と同一の音声データを基に、学習話者のピ
ッチの平均として算出された値である。音韻ピッチ二次
修正部2004では、前記一次修正後の点ピッチパタン
を、前記平均ピッチ2006で二次修正を行い、その結
果をピッチパタン補間部2005に出力する。
【0116】ピッチパタン補間部2005においては、
音韻間のピッチが線形補間あるいはスプライン補間等に
より内挿され、ピッチパタンとして合成パラメータ生成
部206(図22参照)に出力される。
【0117】<動作>以上のように構成された第3の実
施形態における動作について図15〜図17を用いて詳
細に説明する。従来技術と異なる点は、ピッチパタン生
成に関わる処理であるので、それ以外の処理については
省略する。
【0118】まず、中間言語解析部201から音韻ピッ
チ推定部2001へ音韻情報や韻律情報が入力される。
ここでは通常、1文章単位の情報が入力され、数量化I
類といった統計的手法に基づいて母音中心ピッチが推定
される。この時、大量の音声データベースを用いてあら
かじめ学習された予測テーブル2002に基づいて推定
が行われる。数量化I類については公知であるのでここ
では特に説明はしない。1文章中の全音節に対して母音
中心ピッチが推定されると、これら点ピッチパタンは音
韻ピッチ一次修正部2003へと送られる。この時の情
報は例えば、第n番目の単語における第m番目の音節の
母音中心ピッチが何Hzかという具合に、単語分割され
た情報とする。
【0119】音韻ピッチ一次修正部2003にはユーザ
からの抑揚制御レベルが入力されており、例えば3段階
で与えられ、レベル1が抑揚を1.5倍に、レベル2が
抑揚を1.0倍に、レベル3が抑揚を0.5倍にといっ
た具合にあらかじめ定められている。音韻ピッチ一次修
正部2003は、目標とする単語内の各音韻ピッチの、
ベースピッチからの相対値を算出し、前述した抑揚レベ
ルに応じて増減する処理を行う。ベースピッチは、発声
し得る最低ピッチを指し、例えば30Hzなどに設定さ
れる。次いで、一次修正された点ピッチパタンは音韻ピ
ッチ二次修正部2004に送られ、二次修正が施され
る。
【0120】音韻ピッチ二次修正部2004には平均ピ
ッチ2006から、学習話者の平均ピッチが入力され、
これに応じて一律に点ピッチの増減処理を行う。平均ピ
ッチは、前述した予測テーブル2002を学習する際に
用いた音声サンプルデータのピッチ平均であり、前記ベ
ースピッチからの相対値として保存されている。例え
ば、学習話者の平均ピッチが150Hzであり、ベース
ピッチを30Hzと設定すると、平均ピッチ2006か
ら入力される値は120Hzとなる。こうして二次修正
が施された点ピッチパタンは、ピッチパタン補間部20
05に送られ、音韻継続時間情報と前記二次修正後の点
ピッチパタンとから、音韻間のピッチが線形補間あるい
はスプライン補間等により内挿され、ピッチパタンとし
て合成パラメータ生成部206に出力される。
【0121】さらに詳細に説明するために図17に抑揚
制御処理のフローチャートを示す。このフローチャート
は、図15中における、音韻ピッチ一次修正部2003
と音韻ピッチ二次修正部2004の処理内容を示したも
のである。
【0122】ステップST81において以下のパラメー
タが初期化される。すなわち、入力文章中に含まれる単
語総数I、第i番目の単語を構成する音節総数WPi
第i番目の単語に対して指定される抑揚制御レベルに応
じた抑揚制御係数Ai、話者平均ピッチPave、ベースピ
ッチPB、第i番目の単語における第j番目の音節の母
音中心ピッチ周波数Pijである。話者平均ピッチPave
は図15中記載の平均ピッチ2006から入力される数
値であり、ベースピッチPBは、抑揚制御を施す成分の
基準値であり、前記平均ピッチPaveは、このベースピ
ッチPBからの相対値で設定されている。ベースピッチ
PBは例えば30Hz程度に設定される。
【0123】ステップST82で、単語カウンタiを0
に初期化する。
【0124】ステップST83で第i番目における単語
総数WPiを変数Jに設定する。これは後の説明におい
て、変数の添字を分かり易くするための処理であり、実
際の処理では必要ない。
【0125】ステップST84からステップST90に
かけて、第i番目の単語に対する抑揚制御処理を施す。
まずステップST84で、音節カウンタjを0に初期化
する。次いでステップST85で音韻ピッチの一次修正
を下式に従い行う Pij =(Pij − PB) * Ai …(16) この処理は、各音韻ピッチの、ベースピッチPBを超え
る成分値に対して抑揚制御係数を乗ずる操作を意味す
る。右辺の Pij が一次修正前のピッチ周波数であり、左
辺の Pij が一次修正後のピッチ周波数である。
【0126】続いてステップST86で、音韻ピッチの
二次修正を下式に従い行う。 Pij = Pij + Pave * (1−Ai) … (17)右辺の Pij が二次修正前のピッチ周波数であり、左辺の P
ij が二次修正後のピッチ周波数である。 話者平均ピッチ
の(1−Ai)倍の成分値を加算するということは、話
者平均ピッチPaveからの相対値に対して抑揚制御処理
を施すことに他ならない。例えば、上式を音韻単位では
なく、単語内平均ピッチとして置き換えてみる。抑揚制
御前の単語内平均ピッチをPW0、抑揚制御後の単語内
平均ピッチをPW1として式(16)と式(17)とか
ら、 PW1=(PW0−PB)*Ai +Pave *(1−Ai) …(18) となる。平均ピッチPaveは、ベースピッチPBからの
相対値であるので、単語内平均ピッチもそれに合わせ
て、(PW0−PB)をPW0として置き換える。する
と上式は以下のように表現できる。 PW1= Ai *(PW0−Pave)+ Pave …(19)
【0127】これは、単語内平均ピッチPW0を、話者
平均ピッチPaveからの相対成分だけに抑揚制御を行う
ことを意味しており、結果的に文全体で見た場合に平均
ピッチはPaveと変わらない。
【0128】図16は本実施形態における抑揚制御処理
の説明図である。白丸太実線が抑揚制御前であり、黒丸
細実線が抑揚制御後の点ピッチパタンである。修正前の
単語平均ピッチが、平均ピッチPaveを超える単語(図
中左A)と下回る単語(図中右B)を並べて表示してい
るが、同じ抑揚を大きくする処理を施した場合でも、平
均ピッチPaveを超える単語Aは平均ピッチが上昇し、
平均ピッチPaveを下回る単語Bは平均ピッチが下降す
る。
【0129】ステップST87で音節カウンタjを1イ
ンクリメントした後、ステップST88で当該単語の音
節総数Jを超えたかどうかの判定を行う。超えていれ
ば、当該単語における全て音節に対しての処理が終了し
たとしてステップST89に進み、そうでなければステ
ップST85に戻り、次音節に対する処理を前述と同様
に繰り返す。ステップST89では、単語カウンタiを
1インクリメントし、次のステップST90で単語総数
Iを超えたかどうかの判定を行う。超えていれば処理を
終了し、そうでなければステップST83に戻り、次単
語に対する処理を前述と同様に繰り返す。以上が音韻ピ
ッチ修正の流れである。
【0130】以上詳細に説明したように本実施形態によ
れば、あらかじめ学習された平均ピッチを基準とした成
分に対して抑揚制御処理を施しているため、特に文章全
体に渡って抑揚制御を施す場合に、文全体としての平均
的なピッチを変動させないで抑揚制御を施すことが可能
であるという効果がある。またさらに、第1、第2の実
施形態と比較して単純な構成で実現できるという効果も
ある。
【0131】<第4の実施形態>従来技術においては、
合成音声の元となる素片を格納した素片辞書は通常、実
際に発声・録音された音声データから、声帯の1回分の
振動によるインパルス応答波形に相当する1ピッチ波形
を切り出すことにより作成される。合成時には前記1ピ
ッチ波形の間隔を調整して波形重畳することにより、様
々なピッチパタンを実現している。しかしながら前記音
声データは通常、ピッチ変動の少ない(故意に声の高さ
を一定にして発声する)無意味単語で構成されることが
多い。したがって、合成音のピッチパタンが発声時のピ
ッチに近い場合は比較的良好な音質が実現できるもの
の、発声時のピッチから大きく離れる場合は、(例えば
極めて高い声、低い声など)合成音は歪んだ音になって
しまっていた。このような性格を有するテキスト合成に
おいて、さらに、抑揚を大きくまたは小さくする場合、
一層の音質劣化をもたらしていた。
【0132】本発明の第4の実施形態は、素片作成時の
発声ピッチと比較して、抑揚制御対象とする単語のピッ
チが低い場合、或いは高い場合それぞれで抑揚制御の際
のピッチ修正処理を変更するという方法により上記問題
点を解決するものである。
【0133】以下に、第4の実施形態における構成を図
18を参照しながら詳細に説明する。本発明が従来技術
と異なる点は、単語単位に簡易的なピッチパタンを作成
し、素片作成時の発声ピッチと比較しつつ抑揚修正値を
加減して音韻ピッチの修正を行う点である。したがっ
て、従来と異なるピッチパタン決定部についてのみ、図
面を用いて説明する。
【0134】<構成>ピッチパタン決定部202への入
力は、従来と同じく中間言語解析部201からの音韻・
韻律情報、音韻継続時間決定部203で決定された音韻
個々の継続時間、ユーザからの抑揚制御指定である。声
の高さの制御指定が入力される場合もあるが、ここでは
省略している。音韻・韻律情報は音韻ピッチ推定部23
01と簡易ピッチパタン作成部2309とに入力され
る。音韻ピッチ推定部2301では、音韻ピッチ推定の
ための制御要因として用いられる。ピッチ推定は通常、
数量化I類といった統計的手法に基づいて行われる。こ
の手法は、実際に人間が発声した大量の音声データベー
スから制御規則を求めるもので、あらかじめ学習された
予測テーブル2302を用いて、対象となる音節の母音
中心ピッチを推定する。数量化I類については公知であ
るのでここでは特に説明はしない。音韻ピッチ推定部2
301から出力される母音中心ピッチ群すなわち、すな
わち点ピッチパタンは、最大最小探索部2303と音韻
ピッチ修正部2306とに出力される。
【0135】最大最小探索部2303は、点ピッチパタ
ンを単語単位に分割し、目標とする単語における最大音
韻ピッチと最小音韻ピッチとを算出して抑揚修正値算出
部2304と抑揚加減判定部2305とに出力する。
【0136】抑揚修正値算出部2304には、前記最大
最小探索部2303からの最大音韻ピッチと最小音韻ピ
ッチに加え、ユーザから指定される抑揚制御レベルが入
力される。抑揚修正値算出部2304では、前記最大音
韻ピッチ、最小音韻ピッチ、抑揚制御レベルとから音韻
ピッチを修正するための増減幅(以下、抑揚修正値)を
求め抑揚加減判定部2305に出力する。
【0137】抑揚加減判定部2305には、前記抑揚修
正値と、前記最大最小探索部2303からの最大音韻ピ
ッチ・最小音韻ピッチと、あらかじめ素片作成時に測定
した話者発声ピッチが発声ピッチ2308から入力され
る。先に述べたように、素片作成時の発声は、ほぼ一定
ピッチで行われる。この時の発声ピッチ、すなわち音声
データベース全体を通しての平均ピッチを算出してお
き、前記発声ピッチ2308に格納している。図示して
いないが、素片辞書105に登録されている話者の数だ
け発声ピッチが存在する。使用する音素片に応じて、前
記発声ピッチ2308は切り替えられる。抑揚加減判定
部2305では、現在処理を行っている単語が、前記平
均ピッチと比較して高いのか低いのかを判定してその結
果である抑揚修正値を音韻ピッチ修正部2306に出力
する。
【0138】一方、簡易ピッチパタン作成部2309に
は、中間言語解析部201からの音韻・韻律情報が接続
され、各音節母音中心ピッチを「高」あるいは「低」の
2種類に分類した形式の簡易ピッチパタンを作成し、音
韻ピッチ修正部2306に出力する。
【0139】音韻ピッチ修正部2306には、前記音韻
ピッチ推定部2301から出力される点ピッチパタン
と、前記抑揚加減判定部2305から出力される抑揚修
正値と、前記簡易ピッチパタン作成部2309から出力
される簡易ピッチパタンとが入力され、単語内全音節の
母音中心ピッチを修正した後、その結果をピッチパタン
補間部2307に出力する。
【0140】ピッチパタン補間部2307には、前述音
韻継続時間と修正後の点ピッチパタンが接続され、音韻
間のピッチが線形補間あるいはスプライン補間等により
内挿され、ピッチパタンとして合成パラメータ生成部2
06に出力される。
【0141】<動作>以上のように構成された本発明の
第4の実施形態における動作について図18〜図20を
用いて詳細に説明する。従来技術と異なる点は、ピッチ
パタン生成に関わる処理であるので、それ以外の処理に
ついては省略する。
【0142】まず、中間言語解析部201から音韻ピッ
チ推定部2301へ音韻情報や韻律情報が入力される。
ここでは通常、1文章単位の情報が入力され、数量化I
類といった統計的手法に基づいて母音中心ピッチが推定
される。この時、大量の音声データベースを用いてあら
かじめ学習された予測テーブル2302に基づいて推定
が行われる。数量化I類については公知であるのでここ
では特に説明はしない。
【0143】一方簡易ピッチパタン作成部2309に
は、前記音韻ピッチ推定部2301と同様に、中間言語
解析部201から音韻情報や韻律情報が入力される。簡
易ピッチパタン作成部2309では、対象となる音節の
ピッチが高ピッチなのか、あるいは低ピッチなのかを2
値で判定して簡易ピッチパタンとして音韻ピッチ修正部
2306へ送る。この簡易ピッチパタンの動作について
は第2の実施形態に記載されている動作と同様である。
【0144】音韻ピッチ推定部2301において、1文
章中の全音節に対して母音中心ピッチが推定されると、
これら点ピッチパタンは最大最小探索部2303と音韻
ピッチ修正部2306へと送られる。この時の情報は例
えば、第n番目の単語における第m番目の音節の母音中
心ピッチが何Hzかという具合に、単語分割された情報
とする。
【0145】最大最小探索部2303は、目標とする単
語内の音韻最大ピッチと最小ピッチの探索を行い、その
結果であるそれぞれのピッチ周波数データを抑揚修正値
算出部2304と抑揚加減判定部2305に送る。
【0146】抑揚修正値算出部2304では、前記音韻
最大ピッチと最小ピッチとの差分を計算し、これに、ユ
ーザから指定される抑揚制御レベルに応じた係数を乗ず
る操作が行われる。ユーザからの抑揚制御指定は例え
ば、3段階で与えられ、レベル1が抑揚を1.5倍に、
レベル2が抑揚を1.0倍に、レベル3が抑揚を0.5
倍にといった具合に定められている。この場合、前記抑
揚制御レベルに応じた係数値(以下、抑揚制御係数)
は、レベル1が0.5、レベル2が0、レベル3が−
0.5となる。抑揚制御係数が乗じられた結果(以下、
抑揚修正値)は抑揚加減判定部2305に出力される。
【0147】抑揚加減判定部2305には、前記最大最
小探索部2303からの単語内最大音韻ピッチ、最小音
韻ピッチと、前記抑揚修正部2304からの抑揚修正値
と、発声ピッチ2308からの発声ピッチが入力されて
おり、前述した簡易ピッチパタンにおける「高」ピッチ
音韻に対する抑揚修正値(以下、高ピッチ修正値)と
「低」ピッチ音韻に対する抑揚修正値(以下、低ピッチ
修正値)の算出を行う。それぞれの修正値は、現在処理
を行っている単語の点ピッチパタンが、前記発声ピッチ
と比較して高い場合、低い場合、同程度の場合と、3種
類に場合分けされ算出される。これらについては後述す
る。
【0148】このようにして抑揚を制御するための修正
値が算出され、その結果が音韻ピッチ修正部2306に
出力される。音韻ピッチ修正部2306では、前記簡易
ピッチパタンにおける「高」ピッチ音韻に対して高ピッ
チ修正値を加え、「低」ピッチ音韻に対して低ピッチ修
正値を加える操作が施される。修正された点ピッチパタ
ンはピッチパタン補間部2307へ出力される。
【0149】ピッチパタン補間部2307では、音韻継
続時間情報と前記修正後の点ピッチパタンとから、音韻
間のピッチが線形補間あるいはスプライン補間等により
内挿され、ピッチパタンとして合成パラメータ生成部2
06(図22参照)に出力される。
【0150】さらに詳細に説明するために図20に抑揚
制御処理のフローチャートを示す。このフローチャート
は、図18における、最大最小探索部2303、抑揚修
正値算出部2304、抑揚加減判定部2305、音韻ピ
ッチ修正部2306の処理内容を示したものである。
【0151】まずステップST91において以下のパラ
メータが初期化される。すなわち、入力文章中に含まれ
る単語総数I、第i番目の単語を構成する音節総数WP
i、第i番目の単語に対して指定される抑揚制御レベル
に応じた抑揚制御係数Ai、素片作成時の発声ピッチP
0、第i番目の単語のアクセント型ACi、第i番目の
単語における第j番目の音節の母音中心ピッチ周波数P
ijである。
【0152】ステップST92で、単語カウンタiを0
に初期化し、ステップST93で第i番目における単語
総数WPiを変数Jに設定する。これは後の説明におい
て、変数の添字を分かり易くするための処理であり、実
際の処理では必要ない。
【0153】ステップST94からステップST107
において、第i番目の単語に対する抑揚制御処理を施
す。まずステップST94では当該単語の最大音韻ピッ
チPma xと最小音韻ピッチPminの探索が行われる。この
内容については、第2の実施形態における図12に記載
の通りである。
【0154】ステップST95で当該単語の簡易ピッチ
パタンを作成する。簡易ピッチパタンは、対象単語のア
クセント型や音韻数といった情報から音韻ピッチを
「高」また「低」の2値に分類したものであり、この詳
しい内容については、第2の実施形態における図13に
記載の通りである。
【0155】ステップST96において抑揚修正値の算
出を行う。抑揚修正値dpowは、前述最大音韻ピッチ
maxと最小音韻ピッチPminと抑揚制御係数Aiとから
下式により算出する。 dpow =(Pmax−Pmin)* Ai …(20)
【0156】ステップST97で、発声ピッチP0と最
小音韻ピッチPminの比較を行い、発声ピッチが小さけ
ればステップST98に進み、そうでなければステップ
ST100に進む。
【0157】ステップST100ではさらに最大音韻ピ
ッチPmaxとの比較が行われ、発声ピッチが小さければ
ステップST101に、そうれなければステップST1
03にそれぞれ進む。
【0158】ステップST98〜ST99にかけては、
発声ピッチが最小ピッチよりも小さい場合の処理であ
り、高ピッチ修正値dmaxおよび低ピッチ修正値dm
inはそれぞれ、 dmax = 0 …(21) dmin = −dpow …(22) で与えられる。上式は、低ピッチ音韻に対してのみ抑揚
制御を施すことを意味している。
【0159】ステップST101〜ST102にかけて
は、発声ピッチが最小ピッチよりも大きく、最大ピッチ
よりも小さい場合の処理であり、高ピッチ修正値dma
xおよび低ピッチ修正値dminはそれぞれ、 dmax = dpow / 2 …(23) dmin = −dpow / 2 …(24) で与えられる。上式は、低ピッチ音韻、高ピッチ音韻両
者に対してそれぞれ、抑揚修正値の1/2を修正するこ
とを意味している。
【0160】ステップST103〜ST104にかけて
は、発声ピッチが最大ピッチよりも大きい場合の処理で
あり、高ピッチ修正値dmaxおよび低ピッチ修正値d
minはそれぞれ、 dmax = dpow …(25) dmin = 0 …(26) で与えられる。上式は、高ピッチ音韻に対してのみ抑揚
制御を施すことを意味している。
【0161】式(21)〜(26)は、(dmax−d
min)が常にdpowになることを表わしている。
【0162】ステップST105で先に求められたdm
ax、dminを用いて点ピッチパタンの修正が行われ
る。この内容については、第2の実施形態における図1
4に記載の通りである。
【0163】点ピッチパタンの修正が終了すると、次の
ステップST106において、単語カウンタiを1イン
クリメントする。次いでステップST107で入力文章
中の単語総数Iとの比較を行い、単語カウンタiが単語
総数Iを超えた場合、すなわち全て単語に対する処理が
終了した場合に抑揚制御処理を終える。そうでない場合
は、ステップST93に戻り次単語に対する処理を前述
と同様に繰り返す。以上が単語毎の処理の流れである。
【0164】図19に第4の実施形態による抑揚制御処
理を表わす点ピッチパタンを示す。この例では5モーラ
単語4型アクセントに対してレベル1(すなわち抑揚を
1.5倍にする)の抑揚制御を施した図である。白丸太
実線が抑揚制御前の点ピッチパタン、黒丸細実線が抑揚
制御後の点ピッチパタンである。4型アクセント単語で
あるので、簡易ピッチパタンは「低高高高低」となる。
図中Aは発声ピッチが音韻最小ピッチよりも小さい場合
(図20のST98〜ST99)、図中Bは発声ピッチ
が音韻最小ピッチよりも大きく音韻最大ピッチよりも小
さい場合(図20のST101〜ST102)、図中C
は発声ピッチが音韻最大ピッチよりも大きい場合(図2
0のST103〜ST104)である。
【0165】以上詳細に説明したように本実施形態によ
れば、抑揚制御対象単語の点ピッチパタンと素片作成時
の発声ピッチとを比較して、その結果に応じて抑揚修正
値を変更するといった制御を施しているため、発声ピッ
チよりも高いピッチの単語に対しては低ピッチ音韻のみ
が修正され、発声ピッチよりも低いピッチの単語に対し
ては高ピッチ音韻のみが修正される。したがって、従来
技術においては抑揚制御をおこなったためにピッチが極
端に高く、あるいは低くなることによる音質劣化が生じ
ていたが、この不具合が解消され、聴きやすい合成音声
を生成することが可能となる。
【0166】尚、本発明は前述の実施形態に限定される
ものではなく、本発明の趣旨に基づいて種々変形させる
ことが可能である。
【0167】例えば、第1〜第4の実施形態において、
ユーザからの抑揚制御指定がない場合は実施形態で詳細
に述べている抑揚制御処理は一切行う必要はない。この
場合、従来技術の項目で示したようにスイッチで切り替
えられる機能を有することが望ましい。本発明において
はスイッチの説明を省略している。
【0168】また、点ピッチを求める際に数量化I類と
いった統計的手法を用いているが、これに限るものでは
ない。本発明においては、点ピッチが算出された後の抑
揚修正方法に主題を置いているため、その単語のアクセ
ント型やモーラ数に応じてあらかじめ規則化された点ピ
ッチを用いる方法やその他の手法を用いても構わない。
【0169】第1の実施形態において、単語先頭母音と
単語終端母音のピッチ周波数の比較の比較を行って、そ
の判定結果によりサブルーチンA、またはサブルーチン
Bへ処理が移るようになっているが、それぞれのサブル
ーチン内には重複する処理が幾つかあるため、共通のサ
ブルーチンを用いて、内部で処理を切り分ける方法でも
構わない。
【0170】第2、第4の実施形態において、簡易ピッ
チパタン作成時に、第2音節が従属音かそうでないかを
判定し、従属音であれば第1音節ピッチを高ピッチと判
定しているが、さらに単純化してアクセント型のみで判
定する処理でも構わない。また、「高」「低」の判定は
対象単語のアクセント型情報に基づいて行っているが、
例えば、最大ピッチと最小ピッチの間に閾値を設け、そ
の閾値を上回る音韻を高ピッチ、下回る音韻を低ピッチ
と判定する方法でもよい。
【0171】第3の実施形態において、平均ピッチは学
習話者の平均ピッチとしているが特に正確に求める必要
はなく、一般的に適当とされている数値を設定してもよ
い。また当然のことながら、男声音と女性音では平均ピ
ッチは大きく異なるため、合成音の性別に適応して切り
替える必要がある。
【0172】第4の実施形態において、発声ピッチが最
小ピッチよりも大きく最大ピッチよりも小さい場合に、
高ピッチに対してはdpow/2を加算し、低ピッチに
対してはュdpow/2を加算しているが、同一の値で
ある必要はない。例えば、高ピッチにはdpow/4を
加算し、低ピッチには−dpow*3/4という具合に
高ピッチに対する修正値に重きを置いてよい。(dma
x−dmin)が常にdpowになればよい。
【0173】
【発明の効果】以上詳細に説明したように、第1の発明
によれば、音声素片が登録された素片辞書と、音韻・韻
律記号列に対して少なくとも音声素片・音韻継続時間・
基本周波数の合成パラメータを生成するパラメータ生成
手段と、パラメータ生成手段から生成される合成パラメ
ータに基づいて前記素片辞書を参照しながら波形重畳を
行って合成波形を生成する波形生成手段とを備え、前記
パラメータ生成手段は音韻・韻律記号を利用して複数の
点ピッチを算出し、該複数の点ピッチ間を補間すること
によりピッチパタンを生成するピッチパタン決定手段を
備えたテキスト音声変換装置におけるピッチパタン制御
方法において、前記ピッチパタン決定手段は、単語先頭
に位置する点ピッチと単語終端に位置する点ピッチとを
直線で結んだピッチ傾斜線を超える成分に比例した値を
用いて前記点ピッチパタンを修正する構成としたので、
従来では抑揚を大きくした場合に見られた、単語先頭付
近のピッチが極端に高くなってしまうという不具合が解
消され、聴きやすい合成音声を生成することが可能とな
る。
【0174】また、第2の発明によれば、音声素片が登
録された素片辞書と、音韻・韻律記号列に対して少なく
とも音声素片・音韻継続時間・基本周波数の合成パラメ
ータを生成するパラメータ生成手段と、パラメータ生成
手段から生成される合成パラメータに基づいて前記素片
辞書を参照しながら波形重畳を行って合成波形を生成す
る波形生成手段とを備え、前記パラメータ生成手段は音
韻・韻律記号を利用して複数の点ピッチを算出し、該複
数の点ピッチ間を補間することによりピッチパタンを生
成するピッチパタン決定手段を備えたテキスト音声変換
装置におけるピッチパタン制御方法において、前記ピッ
チパタン決定手段は、前記点ピッチパタンを高ピッチと
低ピッチとの2値に判定する簡易ピッチパタン生成手段
を備え、単語の点ピッチパタンの最大値と最小値との差
分値に比例した値を用いて前記点ピッチパタンを修正す
る構成としたので、従来技術で発生していた、抑揚修正
と同時に平均ピッチまでも変動してしまうといった不具
合が解消され、聴きやすい合成音声を生成することが可
能となる。また本実施形態においては、アクセント型に
依らず正確な抑揚制御が行えるようになる。
【0175】また、第3の発明によれば、音声素片が登
録された素片辞書と、音韻・韻律記号列に対して少なく
とも音声素片・音韻継続時間・基本周波数の合成パラメ
ータを生成するパラメータ生成手段と、パラメータ生成
手段から生成される合成パラメータに基づいて前記素片
辞書を参照しながら波形重畳を行って合成波形を生成す
る波形生成手段とを備え、前記パラメータ生成手段は前
記音韻・韻律記号を利用して複数の点ピッチを算出し、
該複数の点ピッチ間を補間することによりピッチパタン
を生成するピッチパタン決定手段を備えたテキスト音声
変換装置におけるピッチパタン制御方法において、前記
ピッチパタン決定手段は、合成音声の平均ピッチを登録
する登録手段と、前記点ピッチパタンに対してあらかじ
め定められた数値を超える成分に比例した値を用いて修
正を行う一次修正手段と、一次修正が施された後に前記
平均ピッチに比例した値を用いて修正を行う二次修正手
段とを備えた構成としたので、特に文章全体に渡って抑
揚制御を施す場合に、文全体としての平均的なピッチを
変動させないで抑揚制御を施すことが可能であるという
効果がある。また比較的単純な構成で実現できるという
効果もある。
【0176】更に、第4の発明によれば、音声素片が登
録された素片辞書と、音韻・韻律記号列に対して少なく
とも音声素片・音韻継続時間・基本周波数の合成パラメ
ータを生成するパラメータ生成手段と、パラメータ生成
手段から生成される合成パラメータに基づいて前記素片
辞書を参照しながら波形重畳を行って合成波形を生成す
る波形生成手段とを備え、前記パラメータ生成手段は前
記音韻・韻律記号を利用して複数の点ピッチを算出し、
該複数の点ピッチ間を補間することによりピッチパタン
を生成するピッチパタン決定手段を備えたテキスト音声
変換装置におけるピッチパタン制御方法において、前記
ピッチパタン決定手段は、音声素片作成時の話者発声ピ
ッチを登録する登録手段と、音韻の最大ピッチと最小ピ
ッチとの差分とユーザにより指定される抑揚制御レベル
に基づいて抑揚修正値を算出する手段と、対象単語の点
ピッチパタンと前記音声素片作成時の話者発声ピッチと
を比較して、その比較結果に基づき前記抑揚修正値を変
更する手段とを備えた構成としたので、発声ピッチより
も高いピッチの単語に対しては低ピッチ音韻のみが修正
され、発声ピッチよりも低いピッチの単語に対しては高
ピッチ音韻のみが修正される。したがって、従来技術に
おいては抑揚制御をおこなったためにピッチが極端に高
く、あるいは低くなることによる音質劣化が生じていた
が、この不具合が解消され、聴きやすい合成音声を生成
することが可能となる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態におけるピッチパタン
決定部の機能ブロック図である。
【図2】本発明の第1の実施形態における抑揚制御処理
の説明図である。
【図3】本発明の第1の実施形態における抑揚制御フロ
ーチャートである。
【図4】本発明の第1の実施形態におけるサブルーチン
Aのフローチャートである。
【図5】本発明の第1の実施形態におけるサブルーチン
Bのフローチャートである。
【図6】本発明の第1の実施形態におけるサブルーチン
Aの変数の説明図である。
【図7】本発明の第1の実施形態におけるサブルーチン
Bの変数の説明図である。
【図8】本発明の第1の実施形態における効果の説明図
である。
【図9】本発明の第2の実施形態におけるピッチパタン
決定部の機能ブロック図である。
【図10】本発明の第2の実施形態における抑揚制御処
理の説明図である。
【図11】本発明の第2の実施形態における抑揚制御フ
ローチャートである。
【図12】本発明の第2の実施形態における最大最小ピ
ッチ探索のフローチャートである。
【図13】本発明の第2の実施形態における簡易ピッチ
パタン作成フローチャートである。
【図14】本発明の第2の実施形態における音韻ピッチ
修正フローチャートである。
【図15】本発明の第3の実施形態におけるピッチパタ
ン決定部の機能ブロック図である。
【図16】本発明の第3の実施形態における抑揚制御処
理の説明図である。
【図17】本発明の第3の実施形態における抑揚制御フ
ローチャートである。
【図18】本発明の第4の実施形態におけるピッチパタ
ン決定部の機能ブロック図である。
【図19】本発明の第4の実施形態における抑揚制御処
理の説明図である。
【図20】本発明の第4の実施形態における抑揚制御フ
ローチャートである。
【図21】テキスト音声変換処理の機能ブロック図であ
る。
【図22】従来技術におけるパラメータ生成部の機能ブ
ロック図である。
【図23】従来技術におけるピッチパタン決定部の機能
ブロック図である。
【図24】従来技術におけるピッチパタン抑揚制御処理
を表わす図である。
【図25】5モーラ単語のアクセントパタンの例を示す
図である。
【符号の説明】
601 音韻ピッチ推定部 602 予測テーブル 603 ピッチ傾斜算出部 604 抑揚制御対象算出部 605 音韻ピッチ修正部 606 ピッチパタン補間部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平9−152885(JP,A) 特開 昭62−133490(JP,A) 特開 昭62−134694(JP,A) 特開 平9−198073(JP,A) 特開 平3−2800(JP,A) 特開 平9−292897(JP,A) 深田俊明,他,HMM統計情報に基づ く単語ピッチパターン生成,日本音響学 会平成6年度春季研究発表会講演論文 集,1994年 3月,2−8−12,p. 229−230 濱上知樹,他,拡張点ピッチモデルに よる韻律制御,日本音響学会平成6年度 秋季研究発表会講演論文集,1994年10 月,2−5−1,p.267−268 (58)調査した分野(Int.Cl.7,DB名) G10L 13/06 G10L 13/08 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声素片が登録された素片辞書と、音韻
    ・韻律記号列に対して少なくとも音声素片・音韻継続時
    間・基本周波数の合成パラメータを生成するパラメータ
    生成手段と、パラメータ生成手段から生成される合成パ
    ラメータに基づいて前記素片辞書を参照しながら波形重
    畳を行って合成波形を生成する波形生成手段とを備え、
    前記パラメータ生成手段は音韻・韻律記号を利用して複
    数の点ピッチを算出し、該複数の点ピッチ間を補間する
    ことによりピッチパタンを生成するピッチパタン決定手
    段を備えたテキスト音声合成装置におけるピッチパタン
    制御方法において、 前記ピッチパタン決定手段は、前記点ピッチパタンを高
    ピッチと低ピッチとの2値に判定する簡易ピッチパタン
    生成手段を備え、単語の点ピッチパタンの最大値と最小
    値との差分値に比例した値を用いて前記点ピッチパタン
    を修正することを特徴とするテキスト音声変換装置にお
    けるピッチパタン制御方法。
  2. 【請求項2】 前記簡易ピッチパタン生成手段は、少な
    くとも対象単語のアクセント型情報に基づいて簡易ピッ
    チパタンを生成することを特徴とする請求項記載のテ
    キスト音声変換装置におけるピッチパタン制御方法。
  3. 【請求項3】 前記簡易ピッチパタン生成手段は、第2
    音節が従属音であるかどうかの判定を行い、従属音であ
    れば第1音節を高ピッチと設定することを特徴とする請
    求項記載のテキスト音声変換装置におけるピッチパタ
    ン制御方法。
  4. 【請求項4】 前記ピッチパタン決定手段は、高ピッチ
    に対してはピッチが増加する方向へ修正し、低ピッチに
    対してはピッチが減少する方向へ修正を施すことを特徴
    とする請求項記載のテキスト音声変換装置におけるピ
    ッチパタン制御方法。
  5. 【請求項5】 前記ピッチパタン決定手段は、対象単語
    の点ピッチと所定の閾値とを比較し、対象単語の点ピッ
    チが閾値を上回る場合は低ピッチに対してのみ修正を行
    うことを特徴とする請求項記載のテキスト音声変換装
    置におけるピッチパタン制御方法。
  6. 【請求項6】 前記ピッチパタン決定手段は、対象単語
    の点ピッチと所定の閾値とを比較し、対象単語の点ピッ
    チが閾値を下回る場合は高ピッチに対してのみ修正を行
    うことを特徴とする請求項記載のテキスト音声変換装
    置におけるピッチパタン制御方法。
  7. 【請求項7】 音声素片が登録された素片辞書と、音韻
    ・韻律記号列に対して少なくとも音声素片・音韻継続時
    間・基本周波数の合成パラメータを生成するパラメータ
    生成手段と、パラメータ生成手段から生成される合成パ
    ラメータに基づいて前記素片辞書を参照しながら波形重
    畳を行って合成波形を生成する波形生成手段とを備え、
    前記パラメータ生成手段は前記音韻・韻律記号を利用し
    て複数の点ピッチを算出し、該複数の点ピッチ間を補間
    することによりピッチパタンを生成するピッチパタン決
    定手段を備えたテキスト音声合成装置におけるピッチパ
    タン制御方法において、 前記ピッチパタン決定手段は、合成音声の平均ピッチを
    登録する登録手段と、前記点ピッチパタンに対してあら
    かじめ定められた数値を超える成分に比例した値を用い
    て修正を行う一次修正手段と、一次修正が施された後に
    前記平均ピッチに比例した値を用いて修正を行う二次修
    正手段とを備えたことを特徴とするテキスト音声変換装
    置におけるピッチパタン制御方法。
  8. 【請求項8】 音声素片が登録された素片辞書と、音韻
    ・韻律記号列に対して少なくとも音声素片・音韻継続時
    間・基本周波数の合成パラメータを生成するパラメータ
    生成手段と、パラメータ生成手段から生成される合成パ
    ラメータに基づいて前記素片辞書を参照しながら波形重
    畳を行って合成波形を生成する波形生成手段とを備え、
    前記パラメータ生成手段は前記音韻・韻律記号を利用し
    て複数の点ピッチを算出し、該複数の点ピッチ間を補間
    することによりピッチパタンを生成するピッチパタン決
    定手段を備えたテキスト音声変換装置におけるピッチパ
    タン制御方法において、 前記ピッチパタン決定手段は、音声素片作成時の話者発
    声ピッチを登録する登録手段と、音韻の最大ピッチと最
    小ピッチとの差分とユーザにより指定される抑揚制御レ
    ベルに基づいて抑揚修正値を算出する手段と、対象単語
    の点ピッチパタンと前記音声素片作成時の話者発声ピッ
    チとを比較して、その比較結果に基づき前記抑揚修正値
    を変更する手段とを備えたことを特徴とするテキスト音
    声変換装置におけるピッチパタン制御方法。
JP2000058821A 2000-03-03 2000-03-03 テキスト音声変換装置におけるピッチパタン制御方法 Expired - Fee Related JP3515039B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2000058821A JP3515039B2 (ja) 2000-03-03 2000-03-03 テキスト音声変換装置におけるピッチパタン制御方法
US09/752,774 US6625575B2 (en) 2000-03-03 2001-01-03 Intonation control method for text-to-speech conversion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000058821A JP3515039B2 (ja) 2000-03-03 2000-03-03 テキスト音声変換装置におけるピッチパタン制御方法

Publications (2)

Publication Number Publication Date
JP2001249677A JP2001249677A (ja) 2001-09-14
JP3515039B2 true JP3515039B2 (ja) 2004-04-05

Family

ID=18579358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000058821A Expired - Fee Related JP3515039B2 (ja) 2000-03-03 2000-03-03 テキスト音声変換装置におけるピッチパタン制御方法

Country Status (2)

Country Link
US (1) US6625575B2 (ja)
JP (1) JP3515039B2 (ja)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001077635A1 (en) * 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Estimating the pitch of a speech signal using a binary signal
AU2001258298A1 (en) * 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in speech signal
WO2002073595A1 (fr) * 2001-03-08 2002-09-19 Matsushita Electric Industrial Co., Ltd. Dispositif generateur de prosodie, procede de generation de prosodie, et programme
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
US20030093280A1 (en) * 2001-07-13 2003-05-15 Pierre-Yves Oudeyer Method and apparatus for synthesising an emotion conveyed on a sound
SE525796C2 (sv) * 2002-09-16 2005-04-26 Volvo Technology Corp Energiomvandlare inrättad så att den anpassar sin uteffekt beroende på den erforderliga lasten
US20040102964A1 (en) * 2002-11-21 2004-05-27 Rapoport Ezra J. Speech compression using principal component analysis
JP2004226505A (ja) * 2003-01-20 2004-08-12 Toshiba Corp ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP2004226711A (ja) * 2003-01-23 2004-08-12 Xanavi Informatics Corp 音声出力装置及びナビゲーション装置
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
US20040260551A1 (en) * 2003-06-19 2004-12-23 International Business Machines Corporation System and method for configuring voice readers using semantic analysis
BRPI0413407A (pt) * 2003-08-26 2006-10-10 Clearplay Inc método e processador de controle da reprodução de um sinal de áudio
US20050075865A1 (en) * 2003-10-06 2005-04-07 Rapoport Ezra J. Speech recognition
FR2861491B1 (fr) * 2003-10-24 2006-01-06 Thales Sa Procede de selection d'unites de synthese
US20050102144A1 (en) * 2003-11-06 2005-05-12 Rapoport Ezra J. Speech synthesis
KR100669241B1 (ko) * 2004-12-15 2007-01-15 한국전자통신연구원 화행 정보를 이용한 대화체 음성합성 시스템 및 방법
JP2006309162A (ja) * 2005-03-29 2006-11-09 Toshiba Corp ピッチパターン生成方法、ピッチパターン生成装置及びプログラム
US20070055526A1 (en) * 2005-08-25 2007-03-08 International Business Machines Corporation Method, apparatus and computer program product providing prosodic-categorical enhancement to phrase-spliced text-to-speech synthesis
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
JP2009042509A (ja) * 2007-08-09 2009-02-26 Toshiba Corp アクセント情報抽出装置及びその方法
JP2009047957A (ja) * 2007-08-21 2009-03-05 Toshiba Corp ピッチパターン生成方法及びその装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
JP4455633B2 (ja) * 2007-09-10 2010-04-21 株式会社東芝 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
US9761219B2 (en) * 2009-04-21 2017-09-12 Creative Technology Ltd System and method for distributed text-to-speech synthesis and intelligibility
CN102237081B (zh) * 2010-04-30 2013-04-24 国际商业机器公司 语音韵律评估方法与系统
US10019995B1 (en) * 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
CN102214463A (zh) * 2011-06-01 2011-10-12 北京宇音天下科技有限公司 一种基于自适应加权谱内插系数的嵌入式语音合成方法
CN102231275B (zh) * 2011-06-01 2013-10-16 北京宇音天下科技有限公司 一种基于加权混合激励的嵌入式语音合成方法
CN103345920B (zh) * 2013-05-29 2015-07-15 河海大学常州校区 基于Mel-KSVD稀疏表示的自适应内插加权谱模型的语音转换及重构方法
CN105247609B (zh) * 2013-05-31 2019-04-12 雅马哈株式会社 利用言语合成对话语进行响应的方法及装置
JP6442982B2 (ja) * 2014-10-28 2018-12-26 富士通株式会社 基本周波数調整装置、方法及びプログラム、並びに、音声合成装置、方法及びプログラム
JP6520108B2 (ja) * 2014-12-22 2019-05-29 カシオ計算機株式会社 音声合成装置、方法、およびプログラム
JP6561499B2 (ja) * 2015-03-05 2019-08-21 ヤマハ株式会社 音声合成装置および音声合成方法
CN108469966A (zh) * 2018-03-21 2018-08-31 北京金山安全软件有限公司 语音播报控制方法、装置、智能设备及介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642466A (en) * 1993-01-21 1997-06-24 Apple Computer, Inc. Intonation adjustment in text-to-speech systems
US5796916A (en) * 1993-01-21 1998-08-18 Apple Computer, Inc. Method and apparatus for prosody for synthetic speech prosody determination
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
US6226614B1 (en) * 1997-05-21 2001-05-01 Nippon Telegraph And Telephone Corporation Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system
JP3180764B2 (ja) * 1998-06-05 2001-06-25 日本電気株式会社 音声合成装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
深田俊明,他,HMM統計情報に基づく単語ピッチパターン生成,日本音響学会平成6年度春季研究発表会講演論文集,1994年 3月,2−8−12,p.229−230
濱上知樹,他,拡張点ピッチモデルによる韻律制御,日本音響学会平成6年度秋季研究発表会講演論文集,1994年10月,2−5−1,p.267−268

Also Published As

Publication number Publication date
JP2001249677A (ja) 2001-09-14
US20010021906A1 (en) 2001-09-13
US6625575B2 (en) 2003-09-23

Similar Documents

Publication Publication Date Title
JP3515039B2 (ja) テキスト音声変換装置におけるピッチパタン制御方法
JP3913770B2 (ja) 音声合成装置および方法
EP1308928A2 (en) System and method for speech synthesis using a smoothing filter
JP2000305585A (ja) 音声合成装置
JPH086592A (ja) 音声合成方法及び装置
JP2009047957A (ja) ピッチパターン生成方法及びその装置
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US5212731A (en) Apparatus for providing sentence-final accents in synthesized american english speech
US20020072909A1 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
US20110196680A1 (en) Speech synthesis system
JP3281266B2 (ja) 音声合成方法及び装置
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JPH0580791A (ja) 音声規則合成装置および方法
JP3771565B2 (ja) 基本周波数パタン生成装置、基本周波数パタン生成方法、及びプログラム記録媒体
JPH11249676A (ja) 音声合成装置
JP2000310996A (ja) 音声合成装置および音韻継続時間長の制御方法
Thippareddy et al. Prosody transplantation using unit-selection: Principles and early results
WO2013014858A1 (ja) ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP3368948B2 (ja) 音声規則合成装置
JP3567477B2 (ja) 発声変形音声認識装置
JP3284634B2 (ja) 規則音声合成装置
JPH07239698A (ja) 音声規則合成装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090123

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100123

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110123

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees