JP3450237B2 - 音声合成装置および方法 - Google Patents
音声合成装置および方法Info
- Publication number
- JP3450237B2 JP3450237B2 JP28512599A JP28512599A JP3450237B2 JP 3450237 B2 JP3450237 B2 JP 3450237B2 JP 28512599 A JP28512599 A JP 28512599A JP 28512599 A JP28512599 A JP 28512599A JP 3450237 B2 JP3450237 B2 JP 3450237B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pitch
- waveform
- waveform data
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000015572 biosynthetic process Effects 0.000 title description 14
- 238000003786 synthesis reaction Methods 0.000 title description 10
- 239000011295 pitch Substances 0.000 claims description 114
- 238000012545 processing Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 19
- 230000002194 synthesizing effect Effects 0.000 claims description 11
- 230000000737 periodic effect Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims description 3
- 238000004904 shortening Methods 0.000 claims description 3
- 238000002715 modification method Methods 0.000 claims 1
- 230000008859 change Effects 0.000 description 31
- 238000010586 diagram Methods 0.000 description 24
- 230000002123 temporal effect Effects 0.000 description 23
- 230000003247 decreasing effect Effects 0.000 description 5
- 210000001260 vocal cord Anatomy 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000004557 technical material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
Description
関するものであり、特にピッチ変更処理に関するもので
ある。
合成方式の一つとして、「波形接続型」と呼ばれるもの
がある。これは、予め用意した波形を接続して、目的と
する音声を合成するものである。しかし、波形を接続す
るだけでは、音声のイントネーションが制御できず、自
然な合成音声が得られないという問題があった。
2つ分をハニング窓などで切り出し、それを少しずらせ
て重ね合わせ、ピッチ長の異なった音声を得るPSOLA(P
itchSynchoronous OverLap Add)法が提案されている
(E. Moulines et. al, "Pitch-Synchronous waveform
processing techniques for text-to-speech synthesis
using diphones" Speech Communication, 1990.9)。
する。図22は、音声波形の一部を示したものである。
図に示すように、ほぼ周期的な波形が繰り返されてい
る。この繰り返し部分をピッチといい、ピッチの長さに
より、音声の高さが変わる。
ピーク位置Mを中心として、ハニング窓で切り出しを行
う。次に、切り出したそれぞれの波形を目的のピッチ長
となるように重ね合わせる。なお、切り出しに用いるハ
ニング窓の幅は、重ね合わせの際に、1/2オーバラッ
プする幅とする。このようにすれば、余分な周波数成分
をもたらすことを抑えつつ、ピッチの変更を行うことが
できる。上記のようにPSOLA法によって、ピッチを加工
(つまり基本周波数を加工)すれば、イントネーション
を制御することができる。
次のような問題があった。
ニング窓での重ね合わせ部分において、不自然な振幅の
低減がもたらされてしまうおそれがある。図24は原波
形(理解を容易にするため、減衰正弦波にて示した)、
図25はハニング窓の左側成分によって切り出された波
形、図26はハニング窓の右側成分によって切り出され
た波形、図27は合成された波形である。図27に示す
ように、中央部分において、不自然な振幅の低減がもた
らされている。これにより、ホルマントで表現される音
声波形の微細構造が破壊されてしまう。
ッチのピークによって、エコーが生じてしまうという問
題である。これは、河井恒他「波形素片接続型音声合成
システムの検討」(電子情報通信学会、音声研究会(技
術資料)、1993年5月)において、指摘されてい
る。同文献では、これを解決するため、窓の裾を短かく
した台形型の窓を用いることが提案されている。しかし
ながら、かかる台形型の窓では、重ね合わせにより、余
分な周波数成分がもたらされ、合成音が不自然になるお
それがある。
して、音声の自然性を損なうことの少ないピッチ変更処
理技術を提供することを目的とする。
ける波形は、図1に示すように、1)声帯の閉鎖に伴うマ
イナスピークが出現する時点α、2)マイナスピークを起
点とした声道の形状に基づく波形が現れる区間β、3)声
道形状に基づく音声波形が減衰しながら次のマイナスピ
ークに向かって収束する区間γに分けられる。上記のPS
OLA法では、ピークM付近の波形形状を維持することに
着目して、ピークM付近にハニング窓の中心を持ってき
ている。しかし、ピーク付近での波形形状の維持に着目
するあまり、上記のような問題点が生じている。
の特性に基づいて、声帯の閉鎖に伴うマイナスピークに
よる影響が小さい部分(つまり次のマイナスピークの直
前である区間γ)において、ピッチ変更のための波形加
工を行うことを着想した。これによれば、ピーク付近で
の波形形状を完全に維持しつつ、かつ、ピッチ変更の影
響を最小限に抑えつつ、加工を行うことができる。
いて、どの部分が共通しているのか、あるいはどの部分
が異なっているのかを、採取した音声に基づいて検討し
た。図2に、いくつかの「あ」の波形の1ピッチ分を示
す。この図から明らかなように、2.5msまではほぼ似て
いて、それ以降ほぼゼロ値が続き、ある時点からは単調
減少してマイナスのピーク値に向かっている。つまり、
実際の発話においてピッチのことなる波形は、ゼロ値部
分の長さの違い(単調減少区間の位置の違い)として特
徴付けられることが分かった。したがって、図1の区間
γのうち、特に、ゼロ値の部分を加工することにより、
適切なピッチ加工を行い得ることを見いだした。
データの周期的単位区間について、マイナスピークに向
かって変化する区間の波形を加工することにより、ピッ
チを変更するピッチ変更手段を備えている。
ークによる影響が小さい部分において波形を加工するこ
とができ、自然性を保持したピッチ変更を行うことがで
きる。
クに向かって変化する区間のうち、ゼロクロス近傍にお
ける加工値を最大にし、ゼロクロスより離れるほど加工
値を小さくするようにしたことを特徴としている。
いう実際の音声の傾向に沿った波形加工を行ってピッチ
を調整することができ、自然性を損なわないピッチ変更
を行うことができる。
ピークに向かって変化する区間において、波形を時間的
に圧縮または伸長するよう加工することにより、ピッチ
を短くまたは長くすることを特徴としている。
ークによる影響が小さい部分において波形を時間的に加
工することができ、自然性を保持したピッチ変更を行う
ことができる。
クに向かって変化する区間のうち、ゼロクロス近傍にお
いて加工を行うことを特徴としている。したがって、振
幅が小さく、より影響の少ない部分において、加工を行
うことができる。
傍において、実質的なゼロ値を挿入することにより、ピ
ッチを長くする処理、または実質的なゼロ値部分を削除
することにより、ピッチを短くする処理の、少なくとも
一方の処理を行うことを特徴としている。
小限に抑えつつ、ピッチ変更を行うことができる。ま
た、ゼロ値の挿入、ゼロ値の削除という極めて簡易な処
理であるため、処理が迅速である。
方法は、音声波形の周期的単位区間について、マイナス
ピークに向かって変化する区間の波形を加工することに
よりピッチ変更を施すことを特徴としている。
ークによる影響が小さい部分において波形を加工するこ
とができ、自然性を保持したピッチ変更を行うことがで
きる。
下方向矢印、右方向矢印、左方向矢印を示すアイコンま
たはスイッチに対応付けて、少なくとも、音声の強度、
ピッチ周波数または発話時間長のいずれか一つを変更す
る処理を行うことを特徴としている。
たは発話時間長の変更を簡単な操作で行うことができ
る。
対応づけて、少なくともピッチ周波数を高くする処理を
行い、下方向矢印に対応づけて、少なくともピッチ周波
数を低くする処理を行うことを特徴としている。
感的に処理内容を理解しやすい操作インターフェイスを
提供することができる。
声合成または解析の際に音声波形をひとかたまりとして
扱う単位をいう。
声波形とこれに対応する音韻情報を記録したデータベー
スをいう。
サンプル波形に基づいて、与えられた音韻情報に対応す
る音声波形を生成する手段をいう。実施形態において
は、たとえば、図5、図6のステップS4〜S12がこ
れに対応する。
て周期的に繰り返される1つの区間をいう。実施形態に
おいては、ピッチがこれに該当する。
する記号をいうものであり、三角形によって方向を示し
たもの等も含む概念である。
体」とは、プログラム(データ)を記録したROM、R
AM、フレキシブルディスク、CD−ROM、メモリカ
ード、ハードディスク等の記録媒体をいう。また、電話
回線、搬送路等の通信媒体も含む概念である。CPUに
接続されて、記録されたプログラムが直接実行されるハ
ードディスクのような記録媒体だけでなく、一旦ハード
ディスク等にインストールした後に実行されるプログラ
ムを記録したCD−ROM等の記録媒体を含む概念であ
る。さらに、ここでいうプログラム(データ)には、直
接実行可能なプログラムだけでなく、ソース形式のプロ
グラム、圧縮処理がされたプログラム(データ)、暗号
化されたプログラム(データ)等を含む。
体構成を示す。この実施形態では、音声波形合成手段1
6は、文字列解析手段2、音声単位取得手段4、波形変
更手段12、波形結合手段22を備えている。また、波
形変更手段12は、継続長変更手段6、強度変更手段
8、ピッチ変更手段10を備えている。
照して、文字列解析手段2によって形態素解析がなさ
れ、音声単位に分離される。さらに、解析用辞書20を
参照し、前後の音の環境等を考慮して、各音声単位ごと
に、無声音/有声音の区別、継続時間長、強度の時間的
変化、基本周波数の時間的変化を算出する。
の形態素解析の結果を受けて、音声データベース18か
ら、各音声単位のサンプル音声波形を取得する。継続長
変更手段6は、文字列解析手段2から与えられた継続時
間長に基づいて、取得したサンプル音声波形の継続時間
長を変更する。強度変更手段8は、文字列解析手段2か
ら与えられた強度の時間的変化に基づいて、取得したサ
ンプル音声波形の強度を変更する。ピッチ変更手段10
は、文字列解析手段2から与えられた基本周波数の時間
的変化に基づいて、取得したサンプル音声波形のピッチ
を変更する。上記のようにして所望の変更を受けた各音
声単位のサンプル音声波形は、波形結合手段22によっ
て接続され、音声波形データとして出力される。
ータをアナログ変換して音声信号として出力する。
場合のハードウエア構成例を示す。CPU30には、メ
モリ32、キーボード/マウス34、フロッピーディス
クドライブ(FDD)36、CD−ROMドライブ4
0、ハードディスク44、アナログ変換手段であるサウ
ンドカード54、ディスプレイ58が接続されている。
ハードディスク44には、オペレーシングシステム(O
S)52(たとえば、マイクロソフト社のWINDOWS98な
ど)、音声合成プログラム46が格納されている。ま
た、音声データベース48、解析用辞書50も格納され
ている。これらプログラムは、CD−ROMドライブ4
0を介して、CD−ROM42からインストールされた
ものである。
6は、OS52と共同してその各機能を実現している。
しかし、その一部または全部を、音声合成プログラム4
6が単独で実現するようにしてもよい。
グラムのフローチャートを示す。まず、操作者からキー
ボード34により、出力すべき音声に対応する文字列が
入力される(ステップS1)。なお、この文字列は、フ
ロッピーディスク38に記録されたものやネットワーク
を介して他のコンピュータから送られたものであっても
よい。
て、解析用辞書50の単語辞書を参照して、形態素解析
を行う(ステップS2)。この単語辞書の構成例を図8
に示す。CPU30は、この単語辞書を参照し、文字列
を単語に分解しつつ、その読みを得る。たとえば、「こ
んにちは」という文字列が入力された場合には、「koNn
ichiwa」という読みを得る。
音節のアクセント値を取得する(ステップS3)。した
がって、「ko」「N」「ni」「chi」「wa」という音節が
得られ、それぞれの音節について、図8に示すアクセン
ト値が得られる。アクセント値は、前後の音の環境によ
って変化するものである。よって、CPU30は、この
アクセント値を、前後の音素や前後の音節との関係に基
づくルール等によって修正する。
音節の継続時間長の辞書には、図9に示すように、全て
の音節とその継続時間長との関係が記述されている。C
PU30は、この継続時間長の辞書を参照して、各音節
の継続時間を取得する。さらに、この継続時間を、前後
の音素や前後の音節との関係に基づくルール等によって
修正する(ステップS4)。以上に基づいて、図10に
示すような、音節ごとのテーブルを生成する。
辞書には、図12に示すように、全ての音素とその有声
/無声の区別が記録されている。なお、図において、音
素に付されたインデックスは、「V」が母音(有声
音)、「CU」が子音の無声音、「CV」が子音の有声
音を示している。CPU30は、この辞書を参照して、
各音素「k」「o」「N」「n」「i」「c」「h」「i」
「w」「a」のそれぞれについて、有声無声の区別を行
う。さらに、有声音が無声化するルールに基づいて、無
声化する部分を決定する。このようにして、各音素につ
き、有声無声の判断を行う(ステップS5)。
(特にアクセント値)に基づいて、図11に示すよう
な、基本周波数F0の時間的変化を生成する(ステップS
6)。なお、基本周波数が示されていない部分は、無声
音の部分である。
化を決定すると、次に、有声音源強度Av、無声音源強度
Afの時間的変化を決定する(ステップS7)。解析辞書
50の音源強度辞書には、図13に示すように、全ての
音節に対応づけて音源強度の時間的変化が記録されてい
る。CPU30は、これを参照して「ko」「N」「ni」
「chi」「wa」の各音節について、有声音源強度Av、無
声音源強度Afを得る。さらに、アクセント値や前後の音
の環境等に基づいて、取得した音源強度を修正する。ま
た、ステップS4で決定した継続時間長に合致するよう
に、音源強度の時間的変化を修正する。
タベース48から、サンプル音声波形を取得する。音声
データベース48には、図14に示すように、実際に発
話されたサンプル音声波形が、音節ごとに区切られて音
韻情報が付与されて記録されている。また、それぞれの
音節について、音源強度の時間的変化、基本周波数の時
間的変化、継続時間長、ピッチマーク、ゼロクロスマー
クが、併せて記録されている。ここで、ピッチマークと
は、各ピッチにおけるピーク値(図1のM参照)の位置
に付されたマークである。また、ゼロクロスマークと
は、各ピッチのマイナスピーク(図1のα参照)の直前
のゼロクロス点に付されたマークである。この実施形態
では、ピッチマーク、ゼロクロスマークを時刻によって
示している。
るので、同じ音節「ko」に対しても、複数のサンプル波
形が存在することとなる。CPU30は、前後のつなが
り等から、各音節に対してもっとも好ましいサンプル波
形を取得する(ステップS8)。
ついて、音声データベース48から取得したサンプル音
声波形の継続時間長が、ステップS4において決定した
継続時間長に等しくなるように、サンプル音声波形を修
正する(ステップS9)。これは、数ピッチの波形を重
複させたり(同じ波形を挿入したり)、削除したりする
ことによって行う。
れについて、音声データベース48から取得したサンプ
ル音声波形の音源強度の時間的変化が、ステップS7に
おいて決定した強度の時間的変化に等しくなるように、
サンプル音声波形を修正する(ステップS10)。
について、音声データベース48から取得したサンプル
音声波形の基本周波数F0の時間的変化が、ステップS6
において決定した基本周波数F0の時間的変化に等しくな
るように、サンプル音声波形を修正する(ステップS1
1)。
ーチャートを示す。なお、ピッチ変更処理は、有声音の
波形についてのみ行う。無声音の波形には、規則的な繰
り返し波形がないためである。
おける(対象とする音節の)最初のピッチの基本周波数
を、音声データベース48の基本周波数の変化のデータ
から取得する。次に、ステップS6において決定した基
本周波数の変化に基づいて、対応する部分の基本周波数
を取得する。CPU30は、両者が合致しているか否か
を判断する(ステップS22)。合致していれば、当該
ピッチについてピッチ変更をおこなう必要がないので、
ステップS26に進む。
ピッチを長くすべきか(基本周波数を下げるべきか)、
短くすべきか(基本周波数を上げるべきか)を判断する
(ステップS23)。その判断結果に基づいて、ピッチ
を長くするか(ステップS25)、または短くするか
(ステップS24)の処理を行う。
おけるマイナスピーク直前のゼロクロスを見いだす。ゼ
ロクロス点は、図14に示すように音声データベースに
記録されているので、容易に得ることができる。
ように、このゼロクロス点にゼロ値を挿入する。
ロスの前後にほぼゼロ値に近い値の部分があれば、当該
部分を必要なだけ削除する。ゼロクロスの前後にほぼゼ
ロ値に近い値の部分がなければ、図16に示すような操
作を行って、ピッチを短くする。まず、マイナスピーク
の前、2N-1〜Nのフレームに、2N-1前で窓値1、N前で窓
値0となるハニング窓をかける。同様に、マイナスピー
クの前N-1〜マイナスピークのフレームに、マイナスピ
ークで窓値1、マイナスピークの前N-1で窓値0となる
ハニング窓をかける。これら2つの窓処理後の成分を加
算したものを、修正後の波形として用いる。これによ
り、2NフレームをNフレームに短くすることができ
る。
傍に窓値0の部分がくるようにし、ゼロクロスより離れ
るほど窓値が1に近づくようにしてもよい。これによ
り、ゼロクロスより離れた地点では、窓値を「1」、つ
まり波形をそのまま保存するようにし、ゼロクロスで
は、窓値を「0」、つまり実質的に波形を削除するよう
にすることができる。つまり、影響の少ないと思われる
ゼロクロス付近での加工値を大きくし、自然性を保持す
ることができる。
と、CPU30は、全てのピッチについて以上の処理を
行ったかどうかを判断する(ステップS26)。当該音
節について未処理のピッチがあれば、次のピッチを対象
として(ステップS27)、ステップS22以下の処理
を繰り返す。全てのピッチについて処理が終了すれば、
当該音節についての処理を終了する。なお、ピッチ変更
によって継続時間長に微調整が必要となれば、これも行
う。また、ピッチ変更処理は、サンプル波形として選択
された全ての音節に対して行われる。
ると、図6のステップS12を実行する。ステップS1
2においては、音節ごとにサンプル波形を修正して得ら
れた波形を接続し、合成音声波形を得る。最後に、CP
U30は、この音声合成波形を、サウンドカード54に
出力する。サウンドカード54は、これをアナログ信号
に変換し、スピーカ56から音声として出力する。
態 上記実施形態においては、多くのサンプル波形を音節を
音声単位として記録した音声データベース(音声コーパ
ス)を用いている。しかしながら、音素を音生単位とし
て記録したものを用いてもよい。また、音節に加えて、
複数の音節が明瞭な区分に乏しく連続している場合には
これら音節を1かたまりとしてあつかうようにしてもよ
い(拡張音節)。その定義表を図17に示す。軽音節よ
りも重音節が優先して切り出され、重音節よりも超重音
節が優先して切り出される。つまり、超重音節に該当す
る場合には、その一部が重音節として切り離されること
はない。同様に、重音節に該当する場合には、その一部
が音節として切り離されることはない。このように、
「複数の音節が明瞭な区分に乏しく連続している場合に
はこれら音節を1かたまりとしてあつかう」ことによ
り、接続による不自然さを排除することができる。な
お、少なくとも、軽音節と重音節を用いることが好まし
い。
用いているが、各音節(または音素、拡張音節)につき
1つの音声波形データを記録した音声データベースを用
いてもよい。さらには、各音節(または音素、拡張音
節)ごとに、1つのピッチだけの音声波形データを記録
した音声データベースを用いてもよい。
スにゼロクロスマークを記録している。しかしながら、
ゼロクロスマークを記録せず、ピッチマーク等に基づい
て、処理の都度、探し出すようにしてもよい。
値を挿入、削除することにより、ピッチ変更を行ってい
る。しかしながら、マイナスピークに向かう減少部分
(図1のγ参照)において、時間的圧縮、時間的伸長を
行って、ピッチ変更をしてもよい。一般的には、時間的
圧縮や、時間的伸長により、ピッチ変更に関係しない余
分な周波数成分がもたらされる可能性がある。しかし、
このマイナスピークに向かう減少部分は、単調減少であ
り、多くの周波数成分を含んでいないので、加工による
音声品質への影響が少ないと考えられる。
かう減少部分において、全体的に一様に時間的圧縮、時
間的伸長を行うのではなく、ゼロクロス付近において集
中的に時間的圧縮、時間的伸長を行い、ゼロクロスから
離れるにしたがって、その程度を小さくするようにして
もよい。
置の全体構成を示す。この実施形態では、音声波形合成
手段16は、文字列解析手段2、音声単位波形生成手段
90、波形結合手段22を備えている。音声データベー
ス18には、音声単位(たとえば音節)を生成するため
の1ピッチ分の音声波形が、ピッチを少しずつ変えて記
録されている。たとえば、「あ」という音節を生成する
ために必要な1ピッチ分の波形が、1ms程度、ピッチ長
を順次違えて多数記録されている。他の全ての音節(有
声音)についても同様に記録されている。なお、無声音
のためには、雑音波形が記録されている。
照して、文字列解析手段2によって形態素解析がなさ
れ、音声単位に分離される。さらに、解析用辞書20を
参照し、前後の音の環境等を考慮して、各音声単位ごと
に、無声音/有声音の区別、継続時間長、強度の時間的
変化、基本周波数の時間的変化を算出する。
を生成するために必要な1ピッチ分の波形を音声データ
ベースから取得する。この際、文字列解析手段2からの
基本周波数の時間的変化に基づいて、各時間ごとに適切
なピッチ長を持つ波形を選択して取得する。さらに、音
声単位波形生成手段90は、これら複数個のピッチの波
形を、継続時間長、強度の時間的変化を参照して、変形
して接続し、音声単位の波形を生成する。なお、無声音
については、雑音波形に基づいて、波形を生成する。
音声波形は、波形結合手段22によって接続され、音声
波形データとして出力される。
ータをアナログ変換して音声信号として出力する。
実現した場合のハードウエア構成例は、図4と同様であ
る。この実施形態では、音声単位(音節など)の波形
を、1ピッチ分の波形を接続して合成するようにしてい
る。また、そのため、音声データベース18には、図1
9に示すように、各音声単位について、当該音声単位を
生成するために必要な1ピッチ分の音声波形データを、
種々のピッチで用意している。また、ピッチ長を異なら
せるために、マイナスピーク直前のゼロクロス点におい
て、ゼロ値が挿入されたものとなっている。
施形態のようにして、処理の都度、ピッチを変更する処
理を行うようにしてもよい。このようにすれば、音声デ
ータベースには、1種類のピッチ長のデータを記録して
おくだけでよい。
形態は、この第2の実施形態においても適用することが
できる。
て、ピッチの変更を行うようにしている。しかしなが
ら、操作者の入力した指令にしたがってピッチ変更を行
うようにしてもよい。
の画面表示例を示す。図21に、ハードディスク44に
記録された指令入力判断のためのプログラムをフローチ
ャートにて示す。
マウス34によってクリックすると、音声の強度および
ピッチ周波数が全体的に上がるように修正が行われる
(ステップS50、S53)。同様に、操作アイコン2
04(下向きの矢印)をクリックすると、音声の強度お
よびピッチ周波数が全体的に下がるように修正が行われ
る(ステップS50、S52)。また、操作アイコン2
06(左向きの矢印)をクリックすると、例えば、数個
のピッチを削除するなどして発話音声長が短くなるよう
に修正が行われ(ステップS50、S51)、操作アイ
コン202(右向きの矢印)をクリックすると、例え
ば、数個のピッチを重複させるなどして発話音声長が長
くなるように修正が行われる(ステップS50、S5
4)。
示した方法によって行うことが好ましいが、他の方法で
あってもよい。
または左方向と右方向)に、それぞれ、変更方向が逆の
処理を対応づけるようにしている。したがって、処理内
容が、直感的に理解しやすく、音声に対する処理指令の
入力が容易となる。
ンを用いているが、これに代えて、矢印形状を表した
(外形が矢印形状または矢印形状が表示された)入力ス
イッチ等を用いてもよい。
下向きの矢印のそれぞれに、音声強度、ピッチ周波数の
2つの処理を対応づけているが、音声強度、ピッチ周波
数、発話継続時間のいずれか1つ、または、いずれか2
つ、さらには、3つを対応づけるようにしてもよい。左
向き矢印、右向き矢印についても同様である。加えて、
斜め向きの矢印を設け、これをクリックすることによ
り、縦方向の矢印と横方向に矢印に対応づけられた処理
の双方を実行するようにしてもよい。
いて実現した場合について説明したが、その一部又は全
部をハードウエアロジックによって構成してもよい。
る。
構成を示す図である。
る。
る。
る。
ある。
ある。
る。
る。
である。
ャートである。
めの図である。
ある(原波形)。
ある(ハニング窓左側)。
ある(ハニング窓右側)。
ある(合成波形)。
めの図である。
Claims (10)
- 【請求項1】音声単位のサンプル波形データと、これに
音韻情報を関連づけて形成した音声データベースを記録
した音声データベース記録手段と、 出力すべき音声の音韻情報を受けて、この音韻情報を音
声単位に区分するとともに、前記音声データベースか
ら、音声単位に区分したそれぞれの音韻情報について対
応するサンプル音声波形データを取得し、取得した音声
単位のサンプル音声波形データを結合して出力すべき音
声波形データを得る音声波形合成手段と、 音声波形合成手段によって得られた音声波形データを受
けて、アナログ音声信号に変換するアナログ変換手段
と、 を備えた音声合成装置であって、 前記音声波形合成手段は、音声波形データの周期的単位
区間について、マイナスピークに向かって変化する区間
の波形を加工することにより、ピッチを変更するピッチ
変更手段を備えている音声合成装置。 - 【請求項2】ピッチ変更処理をコンピュータに行わせる
ためのプログラムを記録した記録媒体であって、 ピッチ変更すべき音声波形データを受け取り、当該音声
波形データの周期的単位区間について、マイナスピーク
に向かって変化する区間の波形を加工することにより、
ピッチ変更を施す処理をコンピュータに行わせるための
プログラムを記録した記録媒体。 - 【請求項3】各音声単位毎にピッチの異なるサンプル音
声波形データを保持し、当該音声波形データに対応付け
て音韻情報を保持した音声データベースを記録した音声
データベース記録手段と、 出力すべき音声の音韻情報を受けて、この音韻情報を音
声単位に区分するとともに、音韻情報に基づいて、前記
音声データベースから、区分された音韻情報に対応する
サンプル音声波形データのうち、好ましいピッチのサン
プル音声波形データを取得し、取得した音声単位のサン
プル音声波形データを結合して出力すべき音声波形デー
タを得る音声波形合成手段と、 音声波形合成手段によって得られた音声波形データを受
けて、アナログ音声信号に変換するアナログ変換手段
と、 を備えた音声合成装置であって、 前記音声データベースは、各音声単位毎に、音声波形デ
ータの周期的単位区間について、マイナスピークに向か
って変化する区間の波形を異ならせるように加工してピ
ッチを異ならせた複数のサンプル音声波形データを有す
るよう構成された音声合成装置。 - 【請求項4】音声データベースを用いて音声波形合成処
理をコンピュータに行わせるためのプログラムを記録し
た記録媒体であって、 出力すべき音声の音韻情報を受けて、この音韻情報を音
声単位に区分するとともに、音韻情報に基づいて、前記
音声データベースから、区分された音韻情報に対応する
サンプル音声波形データのうち、好ましいピッチのサン
プル音声波形データを取得し、取得した音声単位のサン
プル音声波形データを結合して出力すべき音声波形デー
タを得る音声波形合成処理をコンピュータに行わせるた
めのプログラムを記録した記録媒体。 ここで、前記音声データベースは、各音声単位毎に、音
声波形データの周期的単位区間について、マイナスピー
クに向かって変化する区間の波形を異ならせるように加
工してピッチを異ならせた複数のサンプル音声波形デー
タを有するよう構成されている。 - 【請求項5】 請求項1〜4 のいずれか音声合成装置また
は記録媒体において、 前記マイナスピークに向かって変化する区間のうち、ゼ
ロクロス近傍における加工値を最大にし、ゼロクロスよ
り離れるほど加工値を小さくするようにしたことを特徴
とするもの。 - 【請求項6】 請求項1〜5 のいずれかの音声合成装置ま
たは記録媒体において、 前記マイナスピークに向かって変化する区間において、
波形を時間的に圧縮または伸長するよう加工することに
より、ピッチを短くまたは長くすることを特徴とするも
の。 - 【請求項7】 請求項1〜4 のいずれか音声合成装置また
は記録媒体において、 前記マイナスピークに向かって変化する区間のうち、ゼ
ロクロス近傍において加工を行うことを特徴とするも
の。 - 【請求項8】 請求項7 の音声合成装置または記録媒体に
おいて、 前記ゼロクロス近傍において、実質的なゼロ値を挿入す
ることにより、ピッチを長くする処理、または実質的な
ゼロ値部分を削除することにより、ピッチを短くする処
理の、少なくとも一方の処理を行うことを特徴とするも
の。 - 【請求項9】 人間の発話に基づく音声単位のサンプル波
形データを記録するサンプル波形データ記録領域と、 各音声単位のサンプル波形データに対応付けて音韻情報
を記録する音韻情報記録領域と、 サンプル波形データのマイナスピークの直前のゼロクロ
スを示すゼロクロス指示情報を記録する指示情報記録領
域と、 を備えた音声データベースを記録した記録媒体。 - 【請求項10】 音声波形に対するピッチ変更方法であっ
て、 音声波形の周期的単位区間について、マイナスピークに
向かって変化する区間の波形を加工することによりピッ
チ変更を施すこと、 を特徴とするピッチ変更方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28512599A JP3450237B2 (ja) | 1999-10-06 | 1999-10-06 | 音声合成装置および方法 |
US09/678,544 US6975987B1 (en) | 1999-10-06 | 2000-10-04 | Device and method for synthesizing speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28512599A JP3450237B2 (ja) | 1999-10-06 | 1999-10-06 | 音声合成装置および方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002335330A Division JP2003177773A (ja) | 2002-11-19 | 2002-11-19 | 音声合成装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001109500A JP2001109500A (ja) | 2001-04-20 |
JP3450237B2 true JP3450237B2 (ja) | 2003-09-22 |
Family
ID=17687448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28512599A Expired - Fee Related JP3450237B2 (ja) | 1999-10-06 | 1999-10-06 | 音声合成装置および方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6975987B1 (ja) |
JP (1) | JP3450237B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804650B2 (en) * | 2000-12-20 | 2004-10-12 | Bellsouth Intellectual Property Corporation | Apparatus and method for phonetically screening predetermined character strings |
WO2003019528A1 (fr) * | 2001-08-22 | 2003-03-06 | International Business Machines Corporation | Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal |
US20030182106A1 (en) * | 2002-03-13 | 2003-09-25 | Spectral Design | Method and device for changing the temporal length and/or the tone pitch of a discrete audio signal |
US8145491B2 (en) * | 2002-07-30 | 2012-03-27 | Nuance Communications, Inc. | Techniques for enhancing the performance of concatenative speech synthesis |
US20070203703A1 (en) * | 2004-03-29 | 2007-08-30 | Ai, Inc. | Speech Synthesizing Apparatus |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
US8510113B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
KR20110028095A (ko) * | 2009-09-11 | 2011-03-17 | 삼성전자주식회사 | 실시간 화자 적응을 통한 음성 인식 시스템 및 방법 |
US8401856B2 (en) | 2010-05-17 | 2013-03-19 | Avaya Inc. | Automatic normalization of spoken syllable duration |
JP2012194417A (ja) * | 2011-03-17 | 2012-10-11 | Sony Corp | 音声処理装置および方法、並びにプログラム |
US11227579B2 (en) * | 2019-08-08 | 2022-01-18 | International Business Machines Corporation | Data augmentation by frame insertion for speech data |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4586191A (en) * | 1981-08-19 | 1986-04-29 | Sanyo Electric Co., Ltd. | Sound signal processing apparatus |
US4468804A (en) * | 1982-02-26 | 1984-08-28 | Signatron, Inc. | Speech enhancement techniques |
AU574104B2 (en) * | 1983-09-09 | 1988-06-30 | Sony Corporation | Apparatus for reproducing audio signal |
GB2230132B (en) * | 1988-11-19 | 1993-06-23 | Sony Corp | Signal recording method |
US5086475A (en) * | 1988-11-19 | 1992-02-04 | Sony Corporation | Apparatus for generating, recording or reproducing sound source data |
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
US5884253A (en) * | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
JPH086591A (ja) * | 1994-06-15 | 1996-01-12 | Sony Corp | 音声出力装置 |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
US5920842A (en) * | 1994-10-12 | 1999-07-06 | Pixel Instruments | Signal synchronization |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
JP4132109B2 (ja) * | 1995-10-26 | 2008-08-13 | ソニー株式会社 | 音声信号の再生方法及び装置、並びに音声復号化方法及び装置、並びに音声合成方法及び装置 |
JP3674808B2 (ja) | 1996-07-12 | 2005-07-27 | コナミ株式会社 | 音声加工方法、ゲームシステム及び記録媒体 |
US5905972A (en) * | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
JP3361066B2 (ja) * | 1998-11-30 | 2003-01-07 | 松下電器産業株式会社 | 音声合成方法および装置 |
-
1999
- 1999-10-06 JP JP28512599A patent/JP3450237B2/ja not_active Expired - Fee Related
-
2000
- 2000-10-04 US US09/678,544 patent/US6975987B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001109500A (ja) | 2001-04-20 |
US6975987B1 (en) | 2005-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3408477B2 (ja) | フィルタパラメータとソース領域において独立にクロスフェードを行う半音節結合型のフォルマントベースのスピーチシンセサイザ | |
JP3078205B2 (ja) | 波形の連結及び部分的重複化による音声合成方法 | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
JPS62160495A (ja) | 音声合成装置 | |
JP3450237B2 (ja) | 音声合成装置および方法 | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
JP2002358090A (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP5075865B2 (ja) | 音声処理装置、方法、及びプログラム | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP5175422B2 (ja) | 音声合成における時間幅を制御する方法 | |
JPH07140996A (ja) | 音声規則合成装置 | |
JP2008058379A (ja) | 音声合成システム及びフィルタ装置 | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP2003177773A (ja) | 音声合成装置および方法 | |
JP2001100776A (ja) | 音声合成装置 | |
JP2013195928A (ja) | 音声素片切出装置 | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JPH11249676A (ja) | 音声合成装置 | |
JPH09179576A (ja) | 音声合成方法 | |
JP2987089B2 (ja) | 音声素片作成方法および音声合成方法とその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
R150 | Certificate of patent or registration of utility model |
Ref document number: 3450237 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090711 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090711 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100711 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120711 Year of fee payment: 9 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130711 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |