JP2003223180A - 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 - Google Patents

音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置

Info

Publication number
JP2003223180A
JP2003223180A JP2002024305A JP2002024305A JP2003223180A JP 2003223180 A JP2003223180 A JP 2003223180A JP 2002024305 A JP2002024305 A JP 2002024305A JP 2002024305 A JP2002024305 A JP 2002024305A JP 2003223180 A JP2003223180 A JP 2003223180A
Authority
JP
Japan
Prior art keywords
speech
segment
band
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002024305A
Other languages
English (en)
Other versions
JP3727885B2 (ja
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002024305A priority Critical patent/JP3727885B2/ja
Publication of JP2003223180A publication Critical patent/JP2003223180A/ja
Application granted granted Critical
Publication of JP3727885B2 publication Critical patent/JP3727885B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】統計的な音声素片作成方法において、音声波形
を平均化する場合の位相差に起因する減衰の問題を解消
し、明瞭な合成音声を提供する。 【解決手段】音声データベース21に格納された同一音
韻の複数の音声波形データから特徴ベクトルを抽出して
当該音韻の音声素片を生成する際に、帯域分割部23と
特徴ベクトル抽出部24,26及びセントロイド計算部
25,27により複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片20
4,207を生成し、これら周波数帯域毎の帯域素片2
04,207を帯域統合部28で統合して音声素片20
8を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はテキスト音声合成に
係り、特に素片接続型音声合成器における音声素片生成
方法と装置、その音声素片を用いた音声合成方法と装置
及び音声素片生成のためのプログラムに関する。
【0002】
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
システムは、一般に言語処理部、制御パラメータ生成部
及び音声信号生成部の3つの段階から構成される。入力
されたテキストは、まず言語処理部において形態素解析
や構文解析などが行われる。次に、制御パラメータ生成
部においてアクセントやイントネーションの処理が行わ
れ、音韻記号列、ピッチパターン及び音韻継続時間長な
どの情報が出力される。最後に、音声信号生成部すなわ
ち音声合成器では、音韻記号列、ピッチ及び音韻継続時
間長などの情報から音声信号を合成する。
【0003】テキスト音声合成に用いる音声合成器は、
任意の音韻記号列を任意の韻律で合成することが可能な
方式でなければならない。任意の音韻記号列を合成する
ことができる音声合成器の原理は、母音をV、子音をC
で表すと、CV、CV/VC、CVC、VCVなどの基
本となる小さな単位の特徴パラメータや音声波形(音声
素片)を記憶し、ピッチや継続時間長を制御して接続す
ることにより音声を合成するというものである。このよ
うな音声合成器の方式は、素片接続型と呼ばれている。
【0004】図11を用いて、素片接続型音声合成器の
一例を説明する。この例では、音声素片の単位はCV
(音節)であり、各音声素片はいくつかのピッチ波形
(短い区間の非周期的な音声波形)の組で構成されてい
る。音声合成器では、与えられた音韻記号列(この例で
は「あらゆる」)に従って音声素片/a/,/ra/,/yu/,/ru/
を選択するとともに、ピッチパターンと音韻継続時間長
に従って時間軸上にピッチマーク(図中の合成音声の波
形に付された白三角)を設定する。次に、音声素片中の
ピッチ波形とピッチマークを対応付けて、ピッチ波形を
時間軸上に重畳することによって合成音声波形を生成す
る。
【0005】このような素片接続型の音声合成器では、
記憶されている音声素片が合成音声の品質を大きく左右
する。従来、これらの音声素片の作成はもっぱら人手に
頼っており、音声信号の中から技術者が試行錯誤的に切
り出して音声素片を作成するために、膨大な労力を要し
ていた。
【0006】この点を解決するため、あらかじめ収録し
た大量の音声波形データ(音声データベース)から、統
計的な手法を用いて自動的に音声素片を生成する方法が
試みられている。統計的な音声素片生成法の原理は、音
声データベース中に多数存在する同一音韻の複数の音声
波形データから、当該音韻を代表する典型的な性質を持
つ音声素片を生成するというものである。音韻が同一で
あっても、音声波形データ毎にピッチ周期や音韻継続時
間長が異なっていることから、同一音韻の音声波形デー
タをそのまま平均化することはできない。このため、ピ
ッチ周期や音韻継続時間長に依存しない特徴ベクトルを
同一音韻の各音声波形データから抽出して、それらの特
徴ベクトルを平均化することで音声素片を生成すること
が行われている。
【0007】特徴ベクトルの一例を図12を用いて説明
する。この例では、音声波形データの当該音韻に対応す
る区間から、一定の長さのピッチ波形を一定の個数だけ
切り出して連結したものを特徴ベクトルとみなしてい
る。ピッチ波形の切り出しは、ピッチ周期の2倍程度の
窓長の窓関数を音声波形データにかけることで行い、定
められたピッチ波形長よりも窓長が短い場合には零を埋
めている。このように音声波形データに窓関数をかけて
非周期的な波形とすることにより、ピッチ周期の影響が
取り除かれ、窓長とピッチ波形数を一定にすることによ
って、特徴ベクトルの次元が一定となる。
【0008】こうして抽出される特徴ベクトルを用いて
音声素片を生成するためには、音声データベース中の同
一音韻の複数の音声波形データからそれぞれ特徴ベクト
ルを抽出し、その平均(セントロイド)を求めればよ
い。この例では、求められたセントロイドのベクトルが
そのまま音声素片となる。
【0009】統計的な手法を用いた音声素片作成法の他
の例として、音声素片の閉ループ学習と呼ばれる技術
が、「籠嶋岳彦,赤嶺政巳,“閉ループ学習に基づく代
表素片選択による音声素片の自動生成,”信学論(D-I
I), vol.J81-D-II, no.9, pp.1949−1954, Sep. 199
8.」及び「籠嶋岳彦,赤嶺政巳,“閉ループ学習に基づ
く最適な素片選択の解析的生成”,信学論(D-II), vol.
J83-D-II, no.6, pp.1405−1411, June 2000.」に開示
されている。
【0010】閉ループ学習法は、音声素片に対してピッ
チ変更を行って生成された合成音声データと、音声デー
タベース中の自然音声波形データとの誤差を評価し、こ
の誤差を最小化するような音声素片を生成する手法であ
る。この手法により、音声データベースから客観的な基
準を用いて自動的に音声素片を作ることが可能となると
共に、自然音声に近い高音質な合成音声を生成すること
ができる。
【0011】
【発明が解決しようとする課題】上述した音声データベ
ース中の同一音韻の複数の音声波形データから音声素片
を生成する従来の技術では、時間領域の音声ピッチ波形
を特徴ベクトルとして抽出するため、特徴ベクトルを平
均化して音声素片となるセントロイドを求める際に、特
徴ベクトルの位相を考慮する必要がある。
【0012】例えば、同一音韻の異なる音声波形データ
から抽出した図13(a)中に示す特徴ベクトルAと特
徴ベクトルBは、図13(b)に示されるように各々の
パワースペクトルが2つのピークを持ち、そのスペクト
ル形状は類似しているが、図13(c)に示されるよう
に位相特性、特に高域の位相特性が異なっている。この
ため、特徴ベクトルAと特徴ベクトルBを平均化して図
13(a)の下側の図に示されるセントロイドを求める
と、セントロイドのパワースペクトルは図13(b)の
下側の図に示されるように、低域のピークは保存される
ものの、高域側では図13(c)の下側の図に示される
ように位相が異なるために打ち消し合ってピークが低く
なる。このように位相差によって高域のパワースペクト
ルのピークが減衰し、合成音声は篭った感じの音質にな
るという問題がある。
【0013】一方、上述した閉ループ学習法において
も、自然音声と合成音声の誤差の評価関数として、時間
領域の波形の誤差を用いた場合には、同様に高域の減衰
の問題が生じる。
【0014】本発明は、以上の問題を考慮してなされた
ものであり、その目的はテキスト音声合成による合成音
声の音質を向上させるのに有効な音声素片の生成方法を
可能とすることにある。
【0015】
【課題を解決するための手段】上記の課題を解決するた
め、同一音韻の複数の音声波形データから特徴ベクトル
を抽出して当該音韻の音声素片を生成する際、本発明の
一つの態様ではも複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片を生
成し、周波数帯域毎の帯域素片を統合して音声素片を生
成する。
【0016】本発明の他の態様では、音声波形データを
複数の周波数帯域に分割し、周波数帯域毎に複数の音声
波形データをトレーニングデータとする閉ループ学習を
行うことにより、音声素片の周波数帯域毎の成分である
帯域素片を生成し、周波数帯域毎の帯域素片を統合して
音声素片を生成する。
【0017】また、本発明によれば同一音韻の複数の音
声波形データから特徴ベクトルを抽出して当該音韻の音
声素片を生成する処理をコンピュータに行わせるための
プログラムであって、複数の音声波形データのそれぞれ
の特徴ベクトルを複数の周波数帯域毎に平均化すること
により、音声素片の周波数帯域毎の成分である帯域素片
を生成する処理と、周波数帯域毎の帯域素片を統合して
音声素片を生成する処理とをコンピュータに行わせるた
めの音声素片生成プログラムが提供される。
【0018】さらに、本発明によれば、同一音韻の複数
の音声波形データから特徴ベクトルを抽出して当該音韻
の音声素片を生成する処理をコンピュータに行わせるた
めのプログラムであって、音声波形データを複数の周波
数帯域に分割する処理と、周波数帯域毎に複数の音声波
形データをトレーニングデータとする閉ループ学習を行
うことにより、音声素片の周波数帯域毎の成分である帯
域素片を生成する処理と、周波数帯域毎の帯域素片を統
合して音声素片を生成する処理とをコンピュータに行わ
せるための音声素片生成プログラムが提供される。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は、本発明の一実施形態に係
る音声合成方法を実現する音声合成装置の構成を示すブ
ロック図である。本実施形態の音声合成装置は、音韻記
号列102、ピッチパターン100及び音韻継続時間長
101によって指定された音韻及び韻律を有する合成音
声信号105を出力する機能を有する。本実施形態の音
声合成装置の基本動作は、従来の音声合成装置と同様で
あるため、図11をも参照して説明する。
【0020】ピッチマーク生成部10は、ピッチパター
ン100に従って、時間軸上にピッチ波形重畳位置であ
るピッチマーク103(図11の白三角で示される)を
出力する。音声素片選択部11は、音声素片辞書13に
格納された多数の音声素片の中から、音韻記号列102
を参照して音声合成に使用するいくつかの音声素片を選
択する。図11では、音声素片の単位は音節(CV)で
あり、入力された音韻「あらゆる」に対して、音声素片
/a/,/ra/,/yu/,/ru/が選択されている。波形重畳部12
は、ピッチマーク103、音韻継続時間長101及び音
声素片104のピッチ波形の数を参照して、選択された
音声素片104に含まれるピッチ波形とピッチマークと
の対応付けを行い、ピッチ波形を対応するピッチマーク
の位置に重畳することによって、合成音声信号105を
生成する。
【0021】次に、本実施形態に基づく音声素片辞書1
3に格納される音声素片の生成方法について述べる。図
2は、本実施形態に係る音声素片生成方法を実現する音
声素片生成装置の構成を示すブロック図である。本実施
形態では、音声素片生成のためのソースとして、音声デ
ータベース21と音韻ラベルデータベース29が用意さ
れる。音声データベース21は、一人の話者が発声した
多数の音声波形のデータ(音声波形データ)の集合であ
る。音韻ラベルデータベース29は、音声データベース
21を構成する複数の音声波形データにそれぞれ付与さ
れた音韻ラベル(音韻の種類とその開始時刻及び終了時
刻のデータ)の集合である。
【0022】音声データベース21と音韻ラベルデータ
ベース29より、音声ピッチ波形の組で表現されるか、
もしくは音声ピッチ波形を複数個連結したベクトルで表
現される音声素片208が生成され、図1中にも示した
音声素片辞書13に出力される。音声素片は、合成単位
毎に一つずつ作成される。ここでは、音節/ra/の素片を
作成する場合を例として、本実施形態の動作を説明す
る。
【0023】音声波形切り出し部22は、音韻ラベルデ
ータベース29より音韻ラベルデータ210を次々に読
み出して音節/ra/のラベルを抽出する。次に、音声波形
切り出し部22は音声データベース21から音声波形デ
ータ209を読み出して、音節/ra/のラベルに対応する
時刻の波形データを切り出し、音声セグメント201を
生成する。本実施形態では、こうして音声波形データ2
09から切り出した音節/ra/のような一つの音韻に対応
する音声波形データを、音声波形データ209と区別す
るために音声セグメントと称する。
【0024】音声波形切り出し部22によって生成され
た音声セグメント201は、帯域分割部23に送られ
る。帯域分割部23は、高域通過フィルタを用いて音声
セグメント201から高域成分を抽出して高域音声セグ
メント202を生成すると共に、低域通過フィルタを用
いて音声セグメント201から低域成分を抽出して低域
音声セグメント205を生成する。図3に、低域通過フ
ィルタ及び高域通過フィルタの周波数特性を示す。図4
(a)(b)(c)には、音声セグメント201とそれ
に対応する高域音声セグメント202及び低域音声セグ
メント205の例を示す。
【0025】高域音声セグメント202及び低域音声セ
グメント205は、それぞれ特徴ベクトル抽出部24及
び26に入力される。特徴ベクトル抽出部24は、高域
音声セグメント202から指定された個数のピッチ波形
を抽出し、それらを連結して高域特徴ベクトル203を
生成する。同様に、特徴ベクトル抽出部26は、低域音
声セグメント205から指定された個数のピッチ波形を
抽出し、それらを連結して低域特徴ベクトル206を生
成する。
【0026】ピッチ波形の抽出は、図12で表される従
来の特徴ベクトル生成と同様でよく、例えばピッチ周期
の2倍の窓長のハニング窓をピッチに同期した位置にか
けることでピッチ波形を抽出する。ピッチ波形の長さを
一定にするため、窓長の上限はピッチ波形長とし、窓長
がピッチ波形長よりも短い場合は零を埋めるものとす
る。図5(a)(b)に、図4(a)(b)に示した低
域音声セグメント205及び高域音声セグメント202
からそれぞれ抽出される低域特徴ベクトル206及び高
域特徴ベクトル203の例を示す。
【0027】こうして抽出された高域特徴ベクトル20
3及び低域特徴ベクトル206は、それぞれセントロイ
ド計算部25及び27入力される。セントロイド計算部
25では、高域特徴ベクトル203のセントロイドを計
算し、高域素片204を出力する。同様に、セントロイ
ド計算部27は低域特徴ベクトル206のセントロイド
を計算し、低域素片207を出力する。
【0028】低域素片207及び高域素片204は帯域
統合部28によって統合、すなわち両者の和が求められ
ることにより音声素片208が生成され、音声素片辞書
13に記憶される。図5(c)(d)(e)には、図5
(a)(b)に示した低域特徴ベクトル206及び高域
特徴ベクトル203に対応する低域素片207、高域素
片204及び音声素片208の例を示す。
【0029】ここで、セントロイド計算部27において
は、高域特徴ベクトル203のセントロイドを計算する
際、単にベクトルの平均を求めるのではなく、高域特徴
ベクトル203の互いの位相ずれを修正、つまり位相合
わせを行うことによって、波形が打ち消し合って減衰す
ることを防止している。
【0030】図6は、高域特徴ベクトル203の位相合
せを行った場合と行わない場合それぞれにおける、セン
トロイド計算部27からそれぞれ出力される高域素片2
04の波形とそのスペクトルの関係を表している。位相
合わせを行わない場合は、図6(a)に示されるように
波形が打ち消し合って高域素片の振幅が小さくなり、パ
ワースペクトルのピークも減衰している。これに対し
て、各高域特徴ベクトルの相関が最大になる位置にベク
トルを平行移動させて位相合わせを行った場合には、図
6(b)に示されるように波形が打ち消し合わず、パワ
ースペクトルも2つの高域特徴ベクトルの平均的な特性
を示している。
【0031】図7に、従来の技術に基づく音声素片生成
方法で説明した図13と同じ例題を用いた場合の本実施
形態の動作を模式的に示す。図7(a)は低域特徴ベク
トル206と高域特徴ベクトル203、(b)は低域素
片207と高域素片204及び音声素片208、(c)
は(b)の各素片207,204,208のパワースペ
クトルをそれぞれ示している。
【0032】このように本実施形態では、従来の技術と
異なり、帯域分割によって低域特徴ベクトル207と高
域特徴ベクトル203を生成した後、セントロイド計算
において少なくとも高域特徴ベクトル203については
互いのベクトルの位相を合わせてセントロイドを求め、
低域素片207及び高域素片204を生成しているた
め、波形が打ち消し合う問題が少ない。こうして生成さ
れる低域素片207及び高域素片204を統合すること
により、波形の上でもパワースペクトルの上でも平均的
な特性をもつ音声素片208を生成することができる。
この効果は、音声セグメント201の帯域を分割するこ
とによって得られるもので、帯域分割なしに低域と高域
の位相を同時に揃えることはできない。
【0033】本実施形態では、音声セグメント201を
帯域分割した後に、高域及び低域で特徴ベクトルをそれ
ぞれ生成したが、帯域分割部と特徴ベクトル抽出部の順
番を入れ替えて、音声セグメント201から全帯域の特
徴ベクトルを抽出した後に特徴ベクトルを帯域分割し
て、高域特徴ベクトルと低域特徴ベクトルを求めるよう
にしてもよい。また、本実施形態ではピッチ波形を連結
したベクトルという時間領域の特徴ベクトルを用いた
が、位相も含めた周波数領域のパラメータを特徴ベクト
ルとしても良い。
【0034】次に、本発明の他の実施形態に係る音声素
片生成方法を実現する音声素片生成装置について、図8
を参照して説明する。本実施形態では、高域(または低
域)音声セグメントから高域(または低域)素片を生成
するために、閉ループ学習を用いている点が上述した実
施形態と異なっている。すなわち、本実施形態において
は帯域分割部23から出力される高域音声セグメント2
02及び低域音声セグメント205が閉ループ学習部3
1及び32に入力され、高域素片204及び低域素片2
07が生成される。
【0035】図9に示したフローチャートを参照して、
閉ループ学習部31及び32の処理の流れを説明する。
以下の説明では、高域または低域音声セグメントを一般
化して帯域音声セグメントと呼び、同様に高域または低
域素片を帯域素片と呼ぶことにする。
【0036】まず、ステップ41で帯域素片の初期値を
設定する。帯域素片は、ピッチ波形を連結したベクトル
であり、上述した実施形態のように帯域音声セグメント
から抽出される特徴ベクトルのセントロイドを求めて初
期値とすればよい。帯域素片をベクトルuで表すものと
する。ステップ42では、トレーニングデータとなる帯
域音声セグメントの全てにピッチ分析を行って、ピッチ
マークの初期値を付与する。帯域音声セグメントの数を
N個とし、帯域音声セグメントをベクトルri,(i=
1,…,N)で表すものとする。ステップ43では、帯
域素片のピッチ波形と、帯域音声セグメントのピッチマ
ークとをマッピングする。このマッピングは、図11で
表されるような、音声を合成する際のマッピングと同様
に行うものとする。ステップ44では、帯域音声セグメ
ントのピッチマーク近傍の波形と、当該ピッチマークに
マッピングされた帯域素片のピッチ波形との相関が最大
となる位置をピッチマークの近傍で探索し、位相差が最
小となる位置にピッチマークを更新する。ステップ45
では、最適化されたピッチマークに、当該ピッチマーク
に対応する帯域素片のピッチ波形を重畳して、各帯域音
声セグメントに対応する合成音声セグメントを生成す
る。帯域音声セグメントri に対応する合成音声セグメ
ントをベクトルsi で表すとすると、ベクトルsi はベ
クトルuを用いて以下のように表すことができる。
【0037】
【数1】
【0038】ここで、波形重畳処理を表す行列Ai
は、帯域音声セグメントri の更新されたピッチマーク
位置の情報と、ピッチ波形のマッピングの情報が含まれ
ている。ステップ46では、帯域音声セグメントr
と合成音声セグメントsi の音量が等しくなり、2つの
波形の誤差が最小となるような最適ゲインgi を計算す
る。誤差ei は、波形の2乗誤差を表す次式で定義され
る。
【0039】
【数2】
【0040】この場合、最適ゲインgi は次式によって
求めることができる。
【0041】
【数3】
【0042】ステップ47では、最適ゲインgi を用
いて(2)式の誤差値ei をそれぞれ計算する。誤差値
i は、合成音声と自然音声の音韻の差を表しており、
合成音声の歪みとみなすことができる。
【0043】次に、これらの誤差の総和である誤差評価
関数Eを求める。
【0044】
【数4】
【0045】ステップ48では、(4)式の誤差評価関
数を最小化する帯域素片uを求めて帯域素片を更新す
る。帯域素片は、Eをuで偏微分して0とおいた連立方
程式を解くことによって解析的に求められる。帯域素片
を更新することによって、最適なピッチマーク位置が変
化し、それに伴って最適ゲインも変化する。そこで、誤
差評価関数Eの値が収束するまでステップ44からステ
ップ48までを繰り返し、収束したときのベクトルuが
求める帯域素片となる。
【0046】このように閉ループ学習法では、多数のト
レーニングデータ(自然音声)に対して、合成音声の歪
みが最小となるような素片を求めているため、高音質な
合成音声を生成することができる。閉ループ学習法にお
いても、誤差の評価関数に波形の二乗誤差など時間領域
の尺度を用いている場合には、位相差による減衰の問題
が帯域分割によって改善されるという利点がある。
【0047】本発明は上述した実施形態に限られず、種
々変形して実施が可能である。例えば、上述の各実施形
態では音声セグメントを低域と高域の2つの帯域に分割
したが、さらに多数の帯域に分割してもよい。また、各
帯域の帯域幅が異なるようにしても良い。
【0048】例えば、音声セグメントを図10に示すよ
うな帯域幅の異なる4つの帯域に分割するようにしても
良い。この場合、各帯域に1つずつホルマントが存在す
るように各帯域間の境界周波数を設定すれば、前述した
位相差による打ち消し合いの問題をさらに低減させるこ
とができる。また、有声摩擦音のように高域がピッチの
無い無声音になっている場合は、高域の帯域幅を小さく
すると合成音声がブザー音のような不自然な音声になる
という副作用が生じるため、帯域幅を大きくすることが
好ましい。このように、各帯域幅を可変として各帯域を
適切に配置することが音質改善に効果的である。
【0049】上述した本発明の実施形態に基づく音声素
片生成及び音声合成の処理は、ハードウェアにより実現
することも可能であるが、処理の一部または全部をコン
ピュータを用いてソフトウェアにより実現することも可
能である。従って、本発明によると、上述した処理をコ
ンピュータに行わせるためのプログラムを提供すること
もできる。
【0050】
【発明の効果】以上説明したように、本発明によれば音
声セグメントを帯域分割して帯域毎に位相を合わせてセ
ントロイドを求めることにより、位相差による打ち消し
合いの問題を解消し、全周波数帯域に渡って平均的な特
性をもつ音声素片を生成することが可能となる。従っ
て、このようにして生成された音声素片を接続すること
によって、より明瞭な合成音声を生成することが可能と
なる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る素片接続型音声合成
器の構成を示すブロック図
【図2】本発明の一実施形態に係る音声素片生成装置の
構成を示すブロック図
【図3】同実施形態における帯域分割の特性を示す図
【図4】同実施形態における音声セグメント、低域音声
セグメント及び高域音声セグメントの例を示す図
【図5】同実施形態における低域特徴ベクトル、高域特
徴ベクトル、低域素片、高域素片及び音声素片の例を示
す図
【図6】同一実施形態におけるセントロイド計算部にお
ける位相合わせの有無の効果を説明する図
【図7】同実施形態に係る音声素片生成装置の動作を説
明するための図
【図8】本発明の他の実施形態に係る閉ループ学習を用
いた音声素片生成装置の構成を示すブロック図
【図9】同実施形態における処理の流れを示すフローチ
ャート
【図10】本発明の別の実施形態における帯域分割の特
性を示す図
【図11】ピッチ波形の重畳による音声合成処理を説明
するための図
【図12】ピッチ波形を連結した特徴ベクトルの例を説
明するための図
【図13】従来の音声素片生成方法を説明するための図
【符号の説明】
10…ピッチマーク生成部 11…音声素片選択部 12…波形重畳部 13…素片辞書 21…音声データベース 22…音声波形切り出し部 29…音韻ラベルデータベース 23…帯域分割部 24…特徴ベクトル抽出部 25…セントロイド計算部 26…特徴ベクトル抽出部 27…セントロイド計算部 28…帯域統合部 100…ピッチパターン 101…音韻継続時間長 102…音韻記号列 103…ピッチマーク 104…音声素片 105…合成音声信号 201…音声セグメント 202…高域音声セグメント 203…高域特徴ベクトル 204…高域素片 205…低域音声セグメント 206…低域特徴ベクトル 207…低域素片 208…音声素片 209…音声波形 210…音韻ラベルデータ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】同一音韻の複数の音声波形データから特徴
    ベクトルを抽出して当該音韻の音声素片を生成する音声
    素片生成方法において、 前記複数の音声波形データのそれぞれの特徴ベクトルを
    複数の周波数帯域毎に平均化することにより、前記音声
    素片の周波数帯域毎の成分である帯域素片を生成し、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する音声素片生成方法。
  2. 【請求項2】前記複数の音声波形データのそれぞれの特
    徴ベクトルを複数の周波数帯域毎に平均化する際に、少
    なくとも一つの周波数帯域については前記複数の音声波
    形データのそれぞれの特徴ベクトルを位相合わせした後
    に平均する請求項1記載の音声素片生成方法。
  3. 【請求項3】同一音韻の複数の音声波形データから当該
    音韻の音声素片を生成する音声素片生成方法において、 前記音声波形データを複数の周波数帯域に分割し、 前記周波数帯域毎に前記複数の音声波形データをトレー
    ニングデータとする閉ループ学習を行うことにより、前
    記音声素片の周波数帯域毎の成分である帯域素片を生成
    し、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する音声素片生成方法。
  4. 【請求項4】前記複数の周波数帯域の帯域幅を不均一と
    する請求項1乃至3のいずれか1項記載の音声素片生成
    方法。
  5. 【請求項5】請求項1乃至4のいずれか1項に記載の音
    声素片生成方法によって音韻毎に生成された複数の音声
    素片を用意し、 該複数の音声素片の中から、入力された音韻記号列に従
    って選択された音声素片を接続することによって音声を
    合成する音声合成方法。
  6. 【請求項6】同一音韻の複数の音声波形データから特徴
    ベクトルを抽出して当該音韻の音声素片を生成する音声
    素片生成装置において、 前記複数の音声波形データのそれぞれの特徴ベクトルを
    複数の周波数帯域毎に平均化することにより、前記音声
    素片の周波数帯域毎の成分である帯域素片を生成する手
    段と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する手段とを有する音声素片生成装置。
  7. 【請求項7】同一音韻の複数の音声波形データから当該
    音韻の音声素片を生成する音声素片装置において、 前記音声波形データを複数の周波数帯域に分割する手段
    と、 前記周波数帯域毎に前記複数の音声波形データをトレー
    ニングデータとする閉ループ学習を行うことにより、前
    記音声素片の周波数帯域毎の成分である帯域素片を生成
    する手段と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する手段とを有する音声素片生成装置。
  8. 【請求項8】請求項6または7に記載の音声素片生成装
    置によって音韻毎に生成された複数の音声素片を用意
    し、 該複数の音声素片の中から、入力された音韻記号列に従
    って選択された音声素片を接続することによって音声を
    合成する音声合成装置。
  9. 【請求項9】同一音韻の複数の音声波形データから特徴
    ベクトルを抽出して当該音韻の音声素片を生成する処理
    をコンピュータに行わせるためのプログラムにおいて、 前記複数の音声波形データのそれぞれの特徴ベクトルを
    複数の周波数帯域毎に平均化することにより、前記音声
    素片の周波数帯域毎の成分である帯域素片を生成する処
    理と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する処理とを前記コンピュータに行わせるための音
    声素片生成プログラム。
  10. 【請求項10】同一音韻の複数の音声波形データから特
    徴ベクトルを抽出して当該音韻の音声素片を生成する処
    理をコンピュータに行わせるためのプログラムにおい
    て、 前記音声波形データを複数の周波数帯域に分割する処理
    と、 前記周波数帯域毎に前記複数の音声波形データをトレー
    ニングデータとする閉ループ学習を行うことにより、前
    記音声素片の周波数帯域毎の成分である帯域素片を生成
    する処理と、 前記周波数帯域毎の帯域素片を統合して前記音声素片を
    生成する処理とを前記コンピュータに行わせるための音
    声素片生成プログラム。
JP2002024305A 2002-01-31 2002-01-31 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 Expired - Lifetime JP3727885B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002024305A JP3727885B2 (ja) 2002-01-31 2002-01-31 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002024305A JP3727885B2 (ja) 2002-01-31 2002-01-31 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置

Publications (2)

Publication Number Publication Date
JP2003223180A true JP2003223180A (ja) 2003-08-08
JP3727885B2 JP3727885B2 (ja) 2005-12-21

Family

ID=27746790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002024305A Expired - Lifetime JP3727885B2 (ja) 2002-01-31 2002-01-31 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置

Country Status (1)

Country Link
JP (1) JP3727885B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
US9401138B2 (en) 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
JP2016218281A (ja) * 2015-05-21 2016-12-22 日本電信電話株式会社 音声合成装置、その方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11769481B2 (en) * 2021-10-07 2023-09-26 Nvidia Corporation Unsupervised alignment for text to speech synthesis using neural networks

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009109805A (ja) * 2007-10-31 2009-05-21 Toshiba Corp 音声処理装置及びその方法
US9401138B2 (en) 2011-05-25 2016-07-26 Nec Corporation Segment information generation device, speech synthesis device, speech synthesis method, and speech synthesis program
JP2016218281A (ja) * 2015-05-21 2016-12-22 日本電信電話株式会社 音声合成装置、その方法、およびプログラム

Also Published As

Publication number Publication date
JP3727885B2 (ja) 2005-12-21

Similar Documents

Publication Publication Date Title
US6553343B1 (en) Speech synthesis method
US8195464B2 (en) Speech processing apparatus and program
US8175881B2 (en) Method and apparatus using fused formant parameters to generate synthesized speech
JP3667950B2 (ja) ピッチパターン生成方法
WO2014021318A1 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
JP2009109805A (ja) 音声処理装置及びその方法
US6975987B1 (en) Device and method for synthesizing speech
KR100457414B1 (ko) 음성합성방법, 음성합성장치 및 기록매체
Roebel A shape-invariant phase vocoder for speech transformation
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP3727885B2 (ja) 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置
JP3281266B2 (ja) 音声合成方法及び装置
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice.
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP4468506B2 (ja) 音声データ作成装置および声質変換方法
JPH09510554A (ja) 言語合成
JP2755478B2 (ja) テキスト音声合成装置
JPH0836397A (ja) 音声合成装置
Min et al. A hybrid approach to synthesize high quality Cantonese speech
Yaohua et al. The study of prosodic adjustment in Chinese speech synthesis
JPH07129188A (ja) 音声合成装置
JPH0863190A (ja) 音声合成装置の文末制御方法
JPH09160595A (ja) 音声合成方法
Tychtl et al. Corpus-Based Database of Residual Excitations Used for Speech Reconstruction from MFCCs

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050929

R151 Written notification of patent or utility model registration

Ref document number: 3727885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081007

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091007

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101007

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111007

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121007

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131007

Year of fee payment: 8

EXPY Cancellation because of completion of term