JP2003223180A - 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 - Google Patents
音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置Info
- Publication number
- JP2003223180A JP2003223180A JP2002024305A JP2002024305A JP2003223180A JP 2003223180 A JP2003223180 A JP 2003223180A JP 2002024305 A JP2002024305 A JP 2002024305A JP 2002024305 A JP2002024305 A JP 2002024305A JP 2003223180 A JP2003223180 A JP 2003223180A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- segment
- band
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
を平均化する場合の位相差に起因する減衰の問題を解消
し、明瞭な合成音声を提供する。 【解決手段】音声データベース21に格納された同一音
韻の複数の音声波形データから特徴ベクトルを抽出して
当該音韻の音声素片を生成する際に、帯域分割部23と
特徴ベクトル抽出部24,26及びセントロイド計算部
25,27により複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片20
4,207を生成し、これら周波数帯域毎の帯域素片2
04,207を帯域統合部28で統合して音声素片20
8を生成する。
Description
係り、特に素片接続型音声合成器における音声素片生成
方法と装置、その音声素片を用いた音声合成方法と装置
及び音声素片生成のためのプログラムに関する。
出すことをテキスト音声合成という。テキスト音声合成
システムは、一般に言語処理部、制御パラメータ生成部
及び音声信号生成部の3つの段階から構成される。入力
されたテキストは、まず言語処理部において形態素解析
や構文解析などが行われる。次に、制御パラメータ生成
部においてアクセントやイントネーションの処理が行わ
れ、音韻記号列、ピッチパターン及び音韻継続時間長な
どの情報が出力される。最後に、音声信号生成部すなわ
ち音声合成器では、音韻記号列、ピッチ及び音韻継続時
間長などの情報から音声信号を合成する。
任意の音韻記号列を任意の韻律で合成することが可能な
方式でなければならない。任意の音韻記号列を合成する
ことができる音声合成器の原理は、母音をV、子音をC
で表すと、CV、CV/VC、CVC、VCVなどの基
本となる小さな単位の特徴パラメータや音声波形(音声
素片)を記憶し、ピッチや継続時間長を制御して接続す
ることにより音声を合成するというものである。このよ
うな音声合成器の方式は、素片接続型と呼ばれている。
一例を説明する。この例では、音声素片の単位はCV
(音節)であり、各音声素片はいくつかのピッチ波形
(短い区間の非周期的な音声波形)の組で構成されてい
る。音声合成器では、与えられた音韻記号列(この例で
は「あらゆる」)に従って音声素片/a/,/ra/,/yu/,/ru/
を選択するとともに、ピッチパターンと音韻継続時間長
に従って時間軸上にピッチマーク(図中の合成音声の波
形に付された白三角)を設定する。次に、音声素片中の
ピッチ波形とピッチマークを対応付けて、ピッチ波形を
時間軸上に重畳することによって合成音声波形を生成す
る。
記憶されている音声素片が合成音声の品質を大きく左右
する。従来、これらの音声素片の作成はもっぱら人手に
頼っており、音声信号の中から技術者が試行錯誤的に切
り出して音声素片を作成するために、膨大な労力を要し
ていた。
た大量の音声波形データ(音声データベース)から、統
計的な手法を用いて自動的に音声素片を生成する方法が
試みられている。統計的な音声素片生成法の原理は、音
声データベース中に多数存在する同一音韻の複数の音声
波形データから、当該音韻を代表する典型的な性質を持
つ音声素片を生成するというものである。音韻が同一で
あっても、音声波形データ毎にピッチ周期や音韻継続時
間長が異なっていることから、同一音韻の音声波形デー
タをそのまま平均化することはできない。このため、ピ
ッチ周期や音韻継続時間長に依存しない特徴ベクトルを
同一音韻の各音声波形データから抽出して、それらの特
徴ベクトルを平均化することで音声素片を生成すること
が行われている。
する。この例では、音声波形データの当該音韻に対応す
る区間から、一定の長さのピッチ波形を一定の個数だけ
切り出して連結したものを特徴ベクトルとみなしてい
る。ピッチ波形の切り出しは、ピッチ周期の2倍程度の
窓長の窓関数を音声波形データにかけることで行い、定
められたピッチ波形長よりも窓長が短い場合には零を埋
めている。このように音声波形データに窓関数をかけて
非周期的な波形とすることにより、ピッチ周期の影響が
取り除かれ、窓長とピッチ波形数を一定にすることによ
って、特徴ベクトルの次元が一定となる。
音声素片を生成するためには、音声データベース中の同
一音韻の複数の音声波形データからそれぞれ特徴ベクト
ルを抽出し、その平均(セントロイド)を求めればよ
い。この例では、求められたセントロイドのベクトルが
そのまま音声素片となる。
の例として、音声素片の閉ループ学習と呼ばれる技術
が、「籠嶋岳彦,赤嶺政巳,“閉ループ学習に基づく代
表素片選択による音声素片の自動生成,”信学論(D-I
I), vol.J81-D-II, no.9, pp.1949−1954, Sep. 199
8.」及び「籠嶋岳彦,赤嶺政巳,“閉ループ学習に基づ
く最適な素片選択の解析的生成”,信学論(D-II), vol.
J83-D-II, no.6, pp.1405−1411, June 2000.」に開示
されている。
チ変更を行って生成された合成音声データと、音声デー
タベース中の自然音声波形データとの誤差を評価し、こ
の誤差を最小化するような音声素片を生成する手法であ
る。この手法により、音声データベースから客観的な基
準を用いて自動的に音声素片を作ることが可能となると
共に、自然音声に近い高音質な合成音声を生成すること
ができる。
ース中の同一音韻の複数の音声波形データから音声素片
を生成する従来の技術では、時間領域の音声ピッチ波形
を特徴ベクトルとして抽出するため、特徴ベクトルを平
均化して音声素片となるセントロイドを求める際に、特
徴ベクトルの位相を考慮する必要がある。
から抽出した図13(a)中に示す特徴ベクトルAと特
徴ベクトルBは、図13(b)に示されるように各々の
パワースペクトルが2つのピークを持ち、そのスペクト
ル形状は類似しているが、図13(c)に示されるよう
に位相特性、特に高域の位相特性が異なっている。この
ため、特徴ベクトルAと特徴ベクトルBを平均化して図
13(a)の下側の図に示されるセントロイドを求める
と、セントロイドのパワースペクトルは図13(b)の
下側の図に示されるように、低域のピークは保存される
ものの、高域側では図13(c)の下側の図に示される
ように位相が異なるために打ち消し合ってピークが低く
なる。このように位相差によって高域のパワースペクト
ルのピークが減衰し、合成音声は篭った感じの音質にな
るという問題がある。
も、自然音声と合成音声の誤差の評価関数として、時間
領域の波形の誤差を用いた場合には、同様に高域の減衰
の問題が生じる。
ものであり、その目的はテキスト音声合成による合成音
声の音質を向上させるのに有効な音声素片の生成方法を
可能とすることにある。
め、同一音韻の複数の音声波形データから特徴ベクトル
を抽出して当該音韻の音声素片を生成する際、本発明の
一つの態様ではも複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片を生
成し、周波数帯域毎の帯域素片を統合して音声素片を生
成する。
複数の周波数帯域に分割し、周波数帯域毎に複数の音声
波形データをトレーニングデータとする閉ループ学習を
行うことにより、音声素片の周波数帯域毎の成分である
帯域素片を生成し、周波数帯域毎の帯域素片を統合して
音声素片を生成する。
声波形データから特徴ベクトルを抽出して当該音韻の音
声素片を生成する処理をコンピュータに行わせるための
プログラムであって、複数の音声波形データのそれぞれ
の特徴ベクトルを複数の周波数帯域毎に平均化すること
により、音声素片の周波数帯域毎の成分である帯域素片
を生成する処理と、周波数帯域毎の帯域素片を統合して
音声素片を生成する処理とをコンピュータに行わせるた
めの音声素片生成プログラムが提供される。
の音声波形データから特徴ベクトルを抽出して当該音韻
の音声素片を生成する処理をコンピュータに行わせるた
めのプログラムであって、音声波形データを複数の周波
数帯域に分割する処理と、周波数帯域毎に複数の音声波
形データをトレーニングデータとする閉ループ学習を行
うことにより、音声素片の周波数帯域毎の成分である帯
域素片を生成する処理と、周波数帯域毎の帯域素片を統
合して音声素片を生成する処理とをコンピュータに行わ
せるための音声素片生成プログラムが提供される。
施の形態を説明する。図1は、本発明の一実施形態に係
る音声合成方法を実現する音声合成装置の構成を示すブ
ロック図である。本実施形態の音声合成装置は、音韻記
号列102、ピッチパターン100及び音韻継続時間長
101によって指定された音韻及び韻律を有する合成音
声信号105を出力する機能を有する。本実施形態の音
声合成装置の基本動作は、従来の音声合成装置と同様で
あるため、図11をも参照して説明する。
ン100に従って、時間軸上にピッチ波形重畳位置であ
るピッチマーク103(図11の白三角で示される)を
出力する。音声素片選択部11は、音声素片辞書13に
格納された多数の音声素片の中から、音韻記号列102
を参照して音声合成に使用するいくつかの音声素片を選
択する。図11では、音声素片の単位は音節(CV)で
あり、入力された音韻「あらゆる」に対して、音声素片
/a/,/ra/,/yu/,/ru/が選択されている。波形重畳部12
は、ピッチマーク103、音韻継続時間長101及び音
声素片104のピッチ波形の数を参照して、選択された
音声素片104に含まれるピッチ波形とピッチマークと
の対応付けを行い、ピッチ波形を対応するピッチマーク
の位置に重畳することによって、合成音声信号105を
生成する。
3に格納される音声素片の生成方法について述べる。図
2は、本実施形態に係る音声素片生成方法を実現する音
声素片生成装置の構成を示すブロック図である。本実施
形態では、音声素片生成のためのソースとして、音声デ
ータベース21と音韻ラベルデータベース29が用意さ
れる。音声データベース21は、一人の話者が発声した
多数の音声波形のデータ(音声波形データ)の集合であ
る。音韻ラベルデータベース29は、音声データベース
21を構成する複数の音声波形データにそれぞれ付与さ
れた音韻ラベル(音韻の種類とその開始時刻及び終了時
刻のデータ)の集合である。
ベース29より、音声ピッチ波形の組で表現されるか、
もしくは音声ピッチ波形を複数個連結したベクトルで表
現される音声素片208が生成され、図1中にも示した
音声素片辞書13に出力される。音声素片は、合成単位
毎に一つずつ作成される。ここでは、音節/ra/の素片を
作成する場合を例として、本実施形態の動作を説明す
る。
ータベース29より音韻ラベルデータ210を次々に読
み出して音節/ra/のラベルを抽出する。次に、音声波形
切り出し部22は音声データベース21から音声波形デ
ータ209を読み出して、音節/ra/のラベルに対応する
時刻の波形データを切り出し、音声セグメント201を
生成する。本実施形態では、こうして音声波形データ2
09から切り出した音節/ra/のような一つの音韻に対応
する音声波形データを、音声波形データ209と区別す
るために音声セグメントと称する。
た音声セグメント201は、帯域分割部23に送られ
る。帯域分割部23は、高域通過フィルタを用いて音声
セグメント201から高域成分を抽出して高域音声セグ
メント202を生成すると共に、低域通過フィルタを用
いて音声セグメント201から低域成分を抽出して低域
音声セグメント205を生成する。図3に、低域通過フ
ィルタ及び高域通過フィルタの周波数特性を示す。図4
(a)(b)(c)には、音声セグメント201とそれ
に対応する高域音声セグメント202及び低域音声セグ
メント205の例を示す。
グメント205は、それぞれ特徴ベクトル抽出部24及
び26に入力される。特徴ベクトル抽出部24は、高域
音声セグメント202から指定された個数のピッチ波形
を抽出し、それらを連結して高域特徴ベクトル203を
生成する。同様に、特徴ベクトル抽出部26は、低域音
声セグメント205から指定された個数のピッチ波形を
抽出し、それらを連結して低域特徴ベクトル206を生
成する。
来の特徴ベクトル生成と同様でよく、例えばピッチ周期
の2倍の窓長のハニング窓をピッチに同期した位置にか
けることでピッチ波形を抽出する。ピッチ波形の長さを
一定にするため、窓長の上限はピッチ波形長とし、窓長
がピッチ波形長よりも短い場合は零を埋めるものとす
る。図5(a)(b)に、図4(a)(b)に示した低
域音声セグメント205及び高域音声セグメント202
からそれぞれ抽出される低域特徴ベクトル206及び高
域特徴ベクトル203の例を示す。
3及び低域特徴ベクトル206は、それぞれセントロイ
ド計算部25及び27入力される。セントロイド計算部
25では、高域特徴ベクトル203のセントロイドを計
算し、高域素片204を出力する。同様に、セントロイ
ド計算部27は低域特徴ベクトル206のセントロイド
を計算し、低域素片207を出力する。
統合部28によって統合、すなわち両者の和が求められ
ることにより音声素片208が生成され、音声素片辞書
13に記憶される。図5(c)(d)(e)には、図5
(a)(b)に示した低域特徴ベクトル206及び高域
特徴ベクトル203に対応する低域素片207、高域素
片204及び音声素片208の例を示す。
は、高域特徴ベクトル203のセントロイドを計算する
際、単にベクトルの平均を求めるのではなく、高域特徴
ベクトル203の互いの位相ずれを修正、つまり位相合
わせを行うことによって、波形が打ち消し合って減衰す
ることを防止している。
せを行った場合と行わない場合それぞれにおける、セン
トロイド計算部27からそれぞれ出力される高域素片2
04の波形とそのスペクトルの関係を表している。位相
合わせを行わない場合は、図6(a)に示されるように
波形が打ち消し合って高域素片の振幅が小さくなり、パ
ワースペクトルのピークも減衰している。これに対し
て、各高域特徴ベクトルの相関が最大になる位置にベク
トルを平行移動させて位相合わせを行った場合には、図
6(b)に示されるように波形が打ち消し合わず、パワ
ースペクトルも2つの高域特徴ベクトルの平均的な特性
を示している。
方法で説明した図13と同じ例題を用いた場合の本実施
形態の動作を模式的に示す。図7(a)は低域特徴ベク
トル206と高域特徴ベクトル203、(b)は低域素
片207と高域素片204及び音声素片208、(c)
は(b)の各素片207,204,208のパワースペ
クトルをそれぞれ示している。
異なり、帯域分割によって低域特徴ベクトル207と高
域特徴ベクトル203を生成した後、セントロイド計算
において少なくとも高域特徴ベクトル203については
互いのベクトルの位相を合わせてセントロイドを求め、
低域素片207及び高域素片204を生成しているた
め、波形が打ち消し合う問題が少ない。こうして生成さ
れる低域素片207及び高域素片204を統合すること
により、波形の上でもパワースペクトルの上でも平均的
な特性をもつ音声素片208を生成することができる。
この効果は、音声セグメント201の帯域を分割するこ
とによって得られるもので、帯域分割なしに低域と高域
の位相を同時に揃えることはできない。
帯域分割した後に、高域及び低域で特徴ベクトルをそれ
ぞれ生成したが、帯域分割部と特徴ベクトル抽出部の順
番を入れ替えて、音声セグメント201から全帯域の特
徴ベクトルを抽出した後に特徴ベクトルを帯域分割し
て、高域特徴ベクトルと低域特徴ベクトルを求めるよう
にしてもよい。また、本実施形態ではピッチ波形を連結
したベクトルという時間領域の特徴ベクトルを用いた
が、位相も含めた周波数領域のパラメータを特徴ベクト
ルとしても良い。
片生成方法を実現する音声素片生成装置について、図8
を参照して説明する。本実施形態では、高域(または低
域)音声セグメントから高域(または低域)素片を生成
するために、閉ループ学習を用いている点が上述した実
施形態と異なっている。すなわち、本実施形態において
は帯域分割部23から出力される高域音声セグメント2
02及び低域音声セグメント205が閉ループ学習部3
1及び32に入力され、高域素片204及び低域素片2
07が生成される。
閉ループ学習部31及び32の処理の流れを説明する。
以下の説明では、高域または低域音声セグメントを一般
化して帯域音声セグメントと呼び、同様に高域または低
域素片を帯域素片と呼ぶことにする。
設定する。帯域素片は、ピッチ波形を連結したベクトル
であり、上述した実施形態のように帯域音声セグメント
から抽出される特徴ベクトルのセントロイドを求めて初
期値とすればよい。帯域素片をベクトルuで表すものと
する。ステップ42では、トレーニングデータとなる帯
域音声セグメントの全てにピッチ分析を行って、ピッチ
マークの初期値を付与する。帯域音声セグメントの数を
N個とし、帯域音声セグメントをベクトルri,(i=
1,…,N)で表すものとする。ステップ43では、帯
域素片のピッチ波形と、帯域音声セグメントのピッチマ
ークとをマッピングする。このマッピングは、図11で
表されるような、音声を合成する際のマッピングと同様
に行うものとする。ステップ44では、帯域音声セグメ
ントのピッチマーク近傍の波形と、当該ピッチマークに
マッピングされた帯域素片のピッチ波形との相関が最大
となる位置をピッチマークの近傍で探索し、位相差が最
小となる位置にピッチマークを更新する。ステップ45
では、最適化されたピッチマークに、当該ピッチマーク
に対応する帯域素片のピッチ波形を重畳して、各帯域音
声セグメントに対応する合成音声セグメントを生成す
る。帯域音声セグメントri に対応する合成音声セグメ
ントをベクトルsi で表すとすると、ベクトルsi はベ
クトルuを用いて以下のように表すことができる。
は、帯域音声セグメントri の更新されたピッチマーク
位置の情報と、ピッチ波形のマッピングの情報が含まれ
ている。ステップ46では、帯域音声セグメントri
と合成音声セグメントsi の音量が等しくなり、2つの
波形の誤差が最小となるような最適ゲインgi を計算す
る。誤差ei は、波形の2乗誤差を表す次式で定義され
る。
求めることができる。
いて(2)式の誤差値ei をそれぞれ計算する。誤差値
ei は、合成音声と自然音声の音韻の差を表しており、
合成音声の歪みとみなすことができる。
関数Eを求める。
数を最小化する帯域素片uを求めて帯域素片を更新す
る。帯域素片は、Eをuで偏微分して0とおいた連立方
程式を解くことによって解析的に求められる。帯域素片
を更新することによって、最適なピッチマーク位置が変
化し、それに伴って最適ゲインも変化する。そこで、誤
差評価関数Eの値が収束するまでステップ44からステ
ップ48までを繰り返し、収束したときのベクトルuが
求める帯域素片となる。
レーニングデータ(自然音声)に対して、合成音声の歪
みが最小となるような素片を求めているため、高音質な
合成音声を生成することができる。閉ループ学習法にお
いても、誤差の評価関数に波形の二乗誤差など時間領域
の尺度を用いている場合には、位相差による減衰の問題
が帯域分割によって改善されるという利点がある。
々変形して実施が可能である。例えば、上述の各実施形
態では音声セグメントを低域と高域の2つの帯域に分割
したが、さらに多数の帯域に分割してもよい。また、各
帯域の帯域幅が異なるようにしても良い。
うな帯域幅の異なる4つの帯域に分割するようにしても
良い。この場合、各帯域に1つずつホルマントが存在す
るように各帯域間の境界周波数を設定すれば、前述した
位相差による打ち消し合いの問題をさらに低減させるこ
とができる。また、有声摩擦音のように高域がピッチの
無い無声音になっている場合は、高域の帯域幅を小さく
すると合成音声がブザー音のような不自然な音声になる
という副作用が生じるため、帯域幅を大きくすることが
好ましい。このように、各帯域幅を可変として各帯域を
適切に配置することが音質改善に効果的である。
片生成及び音声合成の処理は、ハードウェアにより実現
することも可能であるが、処理の一部または全部をコン
ピュータを用いてソフトウェアにより実現することも可
能である。従って、本発明によると、上述した処理をコ
ンピュータに行わせるためのプログラムを提供すること
もできる。
声セグメントを帯域分割して帯域毎に位相を合わせてセ
ントロイドを求めることにより、位相差による打ち消し
合いの問題を解消し、全周波数帯域に渡って平均的な特
性をもつ音声素片を生成することが可能となる。従っ
て、このようにして生成された音声素片を接続すること
によって、より明瞭な合成音声を生成することが可能と
なる。
器の構成を示すブロック図
構成を示すブロック図
セグメント及び高域音声セグメントの例を示す図
徴ベクトル、低域素片、高域素片及び音声素片の例を示
す図
ける位相合わせの有無の効果を説明する図
明するための図
いた音声素片生成装置の構成を示すブロック図
ャート
性を示す図
するための図
明するための図
Claims (10)
- 【請求項1】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する音声
素片生成方法において、 前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成し、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する音声素片生成方法。 - 【請求項2】前記複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化する際に、少
なくとも一つの周波数帯域については前記複数の音声波
形データのそれぞれの特徴ベクトルを位相合わせした後
に平均する請求項1記載の音声素片生成方法。 - 【請求項3】同一音韻の複数の音声波形データから当該
音韻の音声素片を生成する音声素片生成方法において、 前記音声波形データを複数の周波数帯域に分割し、 前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
し、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する音声素片生成方法。 - 【請求項4】前記複数の周波数帯域の帯域幅を不均一と
する請求項1乃至3のいずれか1項記載の音声素片生成
方法。 - 【請求項5】請求項1乃至4のいずれか1項に記載の音
声素片生成方法によって音韻毎に生成された複数の音声
素片を用意し、 該複数の音声素片の中から、入力された音韻記号列に従
って選択された音声素片を接続することによって音声を
合成する音声合成方法。 - 【請求項6】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する音声
素片生成装置において、 前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成する手
段と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する手段とを有する音声素片生成装置。 - 【請求項7】同一音韻の複数の音声波形データから当該
音韻の音声素片を生成する音声素片装置において、 前記音声波形データを複数の周波数帯域に分割する手段
と、 前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
する手段と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する手段とを有する音声素片生成装置。 - 【請求項8】請求項6または7に記載の音声素片生成装
置によって音韻毎に生成された複数の音声素片を用意
し、 該複数の音声素片の中から、入力された音韻記号列に従
って選択された音声素片を接続することによって音声を
合成する音声合成装置。 - 【請求項9】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する処理
をコンピュータに行わせるためのプログラムにおいて、 前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成する処
理と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する処理とを前記コンピュータに行わせるための音
声素片生成プログラム。 - 【請求項10】同一音韻の複数の音声波形データから特
徴ベクトルを抽出して当該音韻の音声素片を生成する処
理をコンピュータに行わせるためのプログラムにおい
て、 前記音声波形データを複数の周波数帯域に分割する処理
と、 前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
する処理と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する処理とを前記コンピュータに行わせるための音
声素片生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002024305A JP3727885B2 (ja) | 2002-01-31 | 2002-01-31 | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002024305A JP3727885B2 (ja) | 2002-01-31 | 2002-01-31 | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003223180A true JP2003223180A (ja) | 2003-08-08 |
JP3727885B2 JP3727885B2 (ja) | 2005-12-21 |
Family
ID=27746790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002024305A Expired - Lifetime JP3727885B2 (ja) | 2002-01-31 | 2002-01-31 | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3727885B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
US9401138B2 (en) | 2011-05-25 | 2016-07-26 | Nec Corporation | Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program |
JP2016218281A (ja) * | 2015-05-21 | 2016-12-22 | 日本電信電話株式会社 | 音声合成装置、その方法、およびプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11769481B2 (en) * | 2021-10-07 | 2023-09-26 | Nvidia Corporation | Unsupervised alignment for text to speech synthesis using neural networks |
-
2002
- 2002-01-31 JP JP2002024305A patent/JP3727885B2/ja not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009109805A (ja) * | 2007-10-31 | 2009-05-21 | Toshiba Corp | 音声処理装置及びその方法 |
US9401138B2 (en) | 2011-05-25 | 2016-07-26 | Nec Corporation | Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program |
JP2016218281A (ja) * | 2015-05-21 | 2016-12-22 | 日本電信電話株式会社 | 音声合成装置、その方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3727885B2 (ja) | 2005-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6553343B1 (en) | Speech synthesis method | |
US8195464B2 (en) | Speech processing apparatus and program | |
US8175881B2 (en) | Method and apparatus using fused formant parameters to generate synthesized speech | |
JP3667950B2 (ja) | ピッチパターン生成方法 | |
WO2014021318A1 (ja) | 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム | |
JP2009109805A (ja) | 音声処理装置及びその方法 | |
US6975987B1 (en) | Device and method for synthesizing speech | |
KR100457414B1 (ko) | 음성합성방법, 음성합성장치 및 기록매체 | |
Roebel | A shape-invariant phase vocoder for speech transformation | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
Babacan et al. | Parametric representation for singing voice synthesis: A comparative evaluation | |
Saitou et al. | Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice. | |
JP5106274B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
JP4468506B2 (ja) | 音声データ作成装置および声質変換方法 | |
JPH09510554A (ja) | 言語合成 | |
JP2755478B2 (ja) | テキスト音声合成装置 | |
JPH0836397A (ja) | 音声合成装置 | |
Min et al. | A hybrid approach to synthesize high quality Cantonese speech | |
Yaohua et al. | The study of prosodic adjustment in Chinese speech synthesis | |
JPH07129188A (ja) | 音声合成装置 | |
JPH0863190A (ja) | 音声合成装置の文末制御方法 | |
JPH09160595A (ja) | 音声合成方法 | |
Tychtl et al. | Corpus-Based Database of Residual Excitations Used for Speech Reconstruction from MFCCs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050628 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050929 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 3727885 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081007 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091007 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101007 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111007 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121007 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131007 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |