JP2003223180A

JP2003223180A - 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置

Info

Publication number: JP2003223180A
Application number: JP2002024305A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-01-31
Filing date: 2002-01-31
Publication date: 2003-08-08
Anticipated expiration: 2022-01-31
Also published as: JP3727885B2

Abstract

(57)【要約】【課題】統計的な音声素片作成方法において、音声波形
を平均化する場合の位相差に起因する減衰の問題を解消
し、明瞭な合成音声を提供する。【解決手段】音声データベース２１に格納された同一音
韻の複数の音声波形データから特徴ベクトルを抽出して
当該音韻の音声素片を生成する際に、帯域分割部２３と
特徴ベクトル抽出部２４，２６及びセントロイド計算部
２５，２７により複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片２０
４，２０７を生成し、これら周波数帯域毎の帯域素片２
０４，２０７を帯域統合部２８で統合して音声素片２０
８を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はテキスト音声合成に
係り、特に素片接続型音声合成器における音声素片生成
方法と装置、その音声素片を用いた音声合成方法と装置
及び音声素片生成のためのプログラムに関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
システムは、一般に言語処理部、制御パラメータ生成部
及び音声信号生成部の３つの段階から構成される。入力
されたテキストは、まず言語処理部において形態素解析
や構文解析などが行われる。次に、制御パラメータ生成
部においてアクセントやイントネーションの処理が行わ
れ、音韻記号列、ピッチパターン及び音韻継続時間長な
どの情報が出力される。最後に、音声信号生成部すなわ
ち音声合成器では、音韻記号列、ピッチ及び音韻継続時
間長などの情報から音声信号を合成する。

【０００３】テキスト音声合成に用いる音声合成器は、
任意の音韻記号列を任意の韻律で合成することが可能な
方式でなければならない。任意の音韻記号列を合成する
ことができる音声合成器の原理は、母音をＶ、子音をＣ
で表すと、ＣＶ、ＣＶ／ＶＣ、ＣＶＣ、ＶＣＶなどの基
本となる小さな単位の特徴パラメータや音声波形（音声
素片）を記憶し、ピッチや継続時間長を制御して接続す
ることにより音声を合成するというものである。このよ
うな音声合成器の方式は、素片接続型と呼ばれている。

【０００４】図１１を用いて、素片接続型音声合成器の
一例を説明する。この例では、音声素片の単位はＣＶ
（音節）であり、各音声素片はいくつかのピッチ波形
（短い区間の非周期的な音声波形）の組で構成されてい
る。音声合成器では、与えられた音韻記号列（この例で
は「あらゆる」）に従って音声素片/a/,/ra/,/yu/,/ru/
を選択するとともに、ピッチパターンと音韻継続時間長
に従って時間軸上にピッチマーク（図中の合成音声の波
形に付された白三角）を設定する。次に、音声素片中の
ピッチ波形とピッチマークを対応付けて、ピッチ波形を
時間軸上に重畳することによって合成音声波形を生成す
る。

【０００５】このような素片接続型の音声合成器では、
記憶されている音声素片が合成音声の品質を大きく左右
する。従来、これらの音声素片の作成はもっぱら人手に
頼っており、音声信号の中から技術者が試行錯誤的に切
り出して音声素片を作成するために、膨大な労力を要し
ていた。

【０００６】この点を解決するため、あらかじめ収録し
た大量の音声波形データ（音声データベース）から、統
計的な手法を用いて自動的に音声素片を生成する方法が
試みられている。統計的な音声素片生成法の原理は、音
声データベース中に多数存在する同一音韻の複数の音声
波形データから、当該音韻を代表する典型的な性質を持
つ音声素片を生成するというものである。音韻が同一で
あっても、音声波形データ毎にピッチ周期や音韻継続時
間長が異なっていることから、同一音韻の音声波形デー
タをそのまま平均化することはできない。このため、ピ
ッチ周期や音韻継続時間長に依存しない特徴ベクトルを
同一音韻の各音声波形データから抽出して、それらの特
徴ベクトルを平均化することで音声素片を生成すること
が行われている。

【０００７】特徴ベクトルの一例を図１２を用いて説明
する。この例では、音声波形データの当該音韻に対応す
る区間から、一定の長さのピッチ波形を一定の個数だけ
切り出して連結したものを特徴ベクトルとみなしてい
る。ピッチ波形の切り出しは、ピッチ周期の２倍程度の
窓長の窓関数を音声波形データにかけることで行い、定
められたピッチ波形長よりも窓長が短い場合には零を埋
めている。このように音声波形データに窓関数をかけて
非周期的な波形とすることにより、ピッチ周期の影響が
取り除かれ、窓長とピッチ波形数を一定にすることによ
って、特徴ベクトルの次元が一定となる。

【０００８】こうして抽出される特徴ベクトルを用いて
音声素片を生成するためには、音声データベース中の同
一音韻の複数の音声波形データからそれぞれ特徴ベクト
ルを抽出し、その平均（セントロイド）を求めればよ
い。この例では、求められたセントロイドのベクトルが
そのまま音声素片となる。

【０００９】統計的な手法を用いた音声素片作成法の他
の例として、音声素片の閉ループ学習と呼ばれる技術
が、「籠嶋岳彦，赤嶺政巳，“閉ループ学習に基づく代
表素片選択による音声素片の自動生成，”信学論(D-I
I), vol.J81-D-II, no.9, pp.1949−1954, Sep. 199
8.」及び「籠嶋岳彦，赤嶺政巳，“閉ループ学習に基づ
く最適な素片選択の解析的生成”，信学論(D-II), vol.
J83-D-II, no.6, pp.1405−1411, June 2000.」に開示
されている。

【００１０】閉ループ学習法は、音声素片に対してピッ
チ変更を行って生成された合成音声データと、音声デー
タベース中の自然音声波形データとの誤差を評価し、こ
の誤差を最小化するような音声素片を生成する手法であ
る。この手法により、音声データベースから客観的な基
準を用いて自動的に音声素片を作ることが可能となると
共に、自然音声に近い高音質な合成音声を生成すること
ができる。

【００１１】

【発明が解決しようとする課題】上述した音声データベ
ース中の同一音韻の複数の音声波形データから音声素片
を生成する従来の技術では、時間領域の音声ピッチ波形
を特徴ベクトルとして抽出するため、特徴ベクトルを平
均化して音声素片となるセントロイドを求める際に、特
徴ベクトルの位相を考慮する必要がある。

【００１２】例えば、同一音韻の異なる音声波形データ
から抽出した図１３（ａ）中に示す特徴ベクトルＡと特
徴ベクトルＢは、図１３（ｂ）に示されるように各々の
パワースペクトルが２つのピークを持ち、そのスペクト
ル形状は類似しているが、図１３（ｃ）に示されるよう
に位相特性、特に高域の位相特性が異なっている。この
ため、特徴ベクトルＡと特徴ベクトルＢを平均化して図
１３（ａ）の下側の図に示されるセントロイドを求める
と、セントロイドのパワースペクトルは図１３（ｂ）の
下側の図に示されるように、低域のピークは保存される
ものの、高域側では図１３（ｃ）の下側の図に示される
ように位相が異なるために打ち消し合ってピークが低く
なる。このように位相差によって高域のパワースペクト
ルのピークが減衰し、合成音声は篭った感じの音質にな
るという問題がある。

【００１３】一方、上述した閉ループ学習法において
も、自然音声と合成音声の誤差の評価関数として、時間
領域の波形の誤差を用いた場合には、同様に高域の減衰
の問題が生じる。

【００１４】本発明は、以上の問題を考慮してなされた
ものであり、その目的はテキスト音声合成による合成音
声の音質を向上させるのに有効な音声素片の生成方法を
可能とすることにある。

【００１５】

【課題を解決するための手段】上記の課題を解決するた
め、同一音韻の複数の音声波形データから特徴ベクトル
を抽出して当該音韻の音声素片を生成する際、本発明の
一つの態様ではも複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化することによ
り、音声素片の周波数帯域毎の成分である帯域素片を生
成し、周波数帯域毎の帯域素片を統合して音声素片を生
成する。

【００１６】本発明の他の態様では、音声波形データを
複数の周波数帯域に分割し、周波数帯域毎に複数の音声
波形データをトレーニングデータとする閉ループ学習を
行うことにより、音声素片の周波数帯域毎の成分である
帯域素片を生成し、周波数帯域毎の帯域素片を統合して
音声素片を生成する。

【００１７】また、本発明によれば同一音韻の複数の音
声波形データから特徴ベクトルを抽出して当該音韻の音
声素片を生成する処理をコンピュータに行わせるための
プログラムであって、複数の音声波形データのそれぞれ
の特徴ベクトルを複数の周波数帯域毎に平均化すること
により、音声素片の周波数帯域毎の成分である帯域素片
を生成する処理と、周波数帯域毎の帯域素片を統合して
音声素片を生成する処理とをコンピュータに行わせるた
めの音声素片生成プログラムが提供される。

【００１８】さらに、本発明によれば、同一音韻の複数
の音声波形データから特徴ベクトルを抽出して当該音韻
の音声素片を生成する処理をコンピュータに行わせるた
めのプログラムであって、音声波形データを複数の周波
数帯域に分割する処理と、周波数帯域毎に複数の音声波
形データをトレーニングデータとする閉ループ学習を行
うことにより、音声素片の周波数帯域毎の成分である帯
域素片を生成する処理と、周波数帯域毎の帯域素片を統
合して音声素片を生成する処理とをコンピュータに行わ
せるための音声素片生成プログラムが提供される。

【００１９】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図１は、本発明の一実施形態に係
る音声合成方法を実現する音声合成装置の構成を示すブ
ロック図である。本実施形態の音声合成装置は、音韻記
号列１０２、ピッチパターン１００及び音韻継続時間長
１０１によって指定された音韻及び韻律を有する合成音
声信号１０５を出力する機能を有する。本実施形態の音
声合成装置の基本動作は、従来の音声合成装置と同様で
あるため、図１１をも参照して説明する。

【００２０】ピッチマーク生成部１０は、ピッチパター
ン１００に従って、時間軸上にピッチ波形重畳位置であ
るピッチマーク１０３（図１１の白三角で示される）を
出力する。音声素片選択部１１は、音声素片辞書１３に
格納された多数の音声素片の中から、音韻記号列１０２
を参照して音声合成に使用するいくつかの音声素片を選
択する。図１１では、音声素片の単位は音節（ＣＶ）で
あり、入力された音韻「あらゆる」に対して、音声素片
/a/,/ra/,/yu/,/ru/が選択されている。波形重畳部１２
は、ピッチマーク１０３、音韻継続時間長１０１及び音
声素片１０４のピッチ波形の数を参照して、選択された
音声素片１０４に含まれるピッチ波形とピッチマークと
の対応付けを行い、ピッチ波形を対応するピッチマーク
の位置に重畳することによって、合成音声信号１０５を
生成する。

【００２１】次に、本実施形態に基づく音声素片辞書１
３に格納される音声素片の生成方法について述べる。図
２は、本実施形態に係る音声素片生成方法を実現する音
声素片生成装置の構成を示すブロック図である。本実施
形態では、音声素片生成のためのソースとして、音声デ
ータベース２１と音韻ラベルデータベース２９が用意さ
れる。音声データベース２１は、一人の話者が発声した
多数の音声波形のデータ（音声波形データ）の集合であ
る。音韻ラベルデータベース２９は、音声データベース
２１を構成する複数の音声波形データにそれぞれ付与さ
れた音韻ラベル（音韻の種類とその開始時刻及び終了時
刻のデータ）の集合である。

【００２２】音声データベース２１と音韻ラベルデータ
ベース２９より、音声ピッチ波形の組で表現されるか、
もしくは音声ピッチ波形を複数個連結したベクトルで表
現される音声素片２０８が生成され、図１中にも示した
音声素片辞書１３に出力される。音声素片は、合成単位
毎に一つずつ作成される。ここでは、音節/ra/の素片を
作成する場合を例として、本実施形態の動作を説明す
る。

【００２３】音声波形切り出し部２２は、音韻ラベルデ
ータベース２９より音韻ラベルデータ２１０を次々に読
み出して音節/ra/のラベルを抽出する。次に、音声波形
切り出し部２２は音声データベース２１から音声波形デ
ータ２０９を読み出して、音節/ra/のラベルに対応する
時刻の波形データを切り出し、音声セグメント２０１を
生成する。本実施形態では、こうして音声波形データ２
０９から切り出した音節/ra/のような一つの音韻に対応
する音声波形データを、音声波形データ２０９と区別す
るために音声セグメントと称する。

【００２４】音声波形切り出し部２２によって生成され
た音声セグメント２０１は、帯域分割部２３に送られ
る。帯域分割部２３は、高域通過フィルタを用いて音声
セグメント２０１から高域成分を抽出して高域音声セグ
メント２０２を生成すると共に、低域通過フィルタを用
いて音声セグメント２０１から低域成分を抽出して低域
音声セグメント２０５を生成する。図３に、低域通過フ
ィルタ及び高域通過フィルタの周波数特性を示す。図４
（ａ）（ｂ）（ｃ）には、音声セグメント２０１とそれ
に対応する高域音声セグメント２０２及び低域音声セグ
メント２０５の例を示す。

【００２５】高域音声セグメント２０２及び低域音声セ
グメント２０５は、それぞれ特徴ベクトル抽出部２４及
び２６に入力される。特徴ベクトル抽出部２４は、高域
音声セグメント２０２から指定された個数のピッチ波形
を抽出し、それらを連結して高域特徴ベクトル２０３を
生成する。同様に、特徴ベクトル抽出部２６は、低域音
声セグメント２０５から指定された個数のピッチ波形を
抽出し、それらを連結して低域特徴ベクトル２０６を生
成する。

【００２６】ピッチ波形の抽出は、図１２で表される従
来の特徴ベクトル生成と同様でよく、例えばピッチ周期
の２倍の窓長のハニング窓をピッチに同期した位置にか
けることでピッチ波形を抽出する。ピッチ波形の長さを
一定にするため、窓長の上限はピッチ波形長とし、窓長
がピッチ波形長よりも短い場合は零を埋めるものとす
る。図５（ａ）（ｂ）に、図４（ａ）（ｂ）に示した低
域音声セグメント２０５及び高域音声セグメント２０２
からそれぞれ抽出される低域特徴ベクトル２０６及び高
域特徴ベクトル２０３の例を示す。

【００２７】こうして抽出された高域特徴ベクトル２０
３及び低域特徴ベクトル２０６は、それぞれセントロイ
ド計算部２５及び２７入力される。セントロイド計算部
２５では、高域特徴ベクトル２０３のセントロイドを計
算し、高域素片２０４を出力する。同様に、セントロイ
ド計算部２７は低域特徴ベクトル２０６のセントロイド
を計算し、低域素片２０７を出力する。

【００２８】低域素片２０７及び高域素片２０４は帯域
統合部２８によって統合、すなわち両者の和が求められ
ることにより音声素片２０８が生成され、音声素片辞書
１３に記憶される。図５（ｃ）（ｄ）（ｅ）には、図５
（ａ）（ｂ）に示した低域特徴ベクトル２０６及び高域
特徴ベクトル２０３に対応する低域素片２０７、高域素
片２０４及び音声素片２０８の例を示す。

【００２９】ここで、セントロイド計算部２７において
は、高域特徴ベクトル２０３のセントロイドを計算する
際、単にベクトルの平均を求めるのではなく、高域特徴
ベクトル２０３の互いの位相ずれを修正、つまり位相合
わせを行うことによって、波形が打ち消し合って減衰す
ることを防止している。

【００３０】図６は、高域特徴ベクトル２０３の位相合
せを行った場合と行わない場合それぞれにおける、セン
トロイド計算部２７からそれぞれ出力される高域素片２
０４の波形とそのスペクトルの関係を表している。位相
合わせを行わない場合は、図６（ａ）に示されるように
波形が打ち消し合って高域素片の振幅が小さくなり、パ
ワースペクトルのピークも減衰している。これに対し
て、各高域特徴ベクトルの相関が最大になる位置にベク
トルを平行移動させて位相合わせを行った場合には、図
６（ｂ）に示されるように波形が打ち消し合わず、パワ
ースペクトルも２つの高域特徴ベクトルの平均的な特性
を示している。

【００３１】図７に、従来の技術に基づく音声素片生成
方法で説明した図１３と同じ例題を用いた場合の本実施
形態の動作を模式的に示す。図７（ａ）は低域特徴ベク
トル２０６と高域特徴ベクトル２０３、（ｂ）は低域素
片２０７と高域素片２０４及び音声素片２０８、（ｃ）
は（ｂ）の各素片２０７，２０４，２０８のパワースペ
クトルをそれぞれ示している。

【００３２】このように本実施形態では、従来の技術と
異なり、帯域分割によって低域特徴ベクトル２０７と高
域特徴ベクトル２０３を生成した後、セントロイド計算
において少なくとも高域特徴ベクトル２０３については
互いのベクトルの位相を合わせてセントロイドを求め、
低域素片２０７及び高域素片２０４を生成しているた
め、波形が打ち消し合う問題が少ない。こうして生成さ
れる低域素片２０７及び高域素片２０４を統合すること
により、波形の上でもパワースペクトルの上でも平均的
な特性をもつ音声素片２０８を生成することができる。
この効果は、音声セグメント２０１の帯域を分割するこ
とによって得られるもので、帯域分割なしに低域と高域
の位相を同時に揃えることはできない。

【００３３】本実施形態では、音声セグメント２０１を
帯域分割した後に、高域及び低域で特徴ベクトルをそれ
ぞれ生成したが、帯域分割部と特徴ベクトル抽出部の順
番を入れ替えて、音声セグメント２０１から全帯域の特
徴ベクトルを抽出した後に特徴ベクトルを帯域分割し
て、高域特徴ベクトルと低域特徴ベクトルを求めるよう
にしてもよい。また、本実施形態ではピッチ波形を連結
したベクトルという時間領域の特徴ベクトルを用いた
が、位相も含めた周波数領域のパラメータを特徴ベクト
ルとしても良い。

【００３４】次に、本発明の他の実施形態に係る音声素
片生成方法を実現する音声素片生成装置について、図８
を参照して説明する。本実施形態では、高域（または低
域）音声セグメントから高域（または低域）素片を生成
するために、閉ループ学習を用いている点が上述した実
施形態と異なっている。すなわち、本実施形態において
は帯域分割部２３から出力される高域音声セグメント２
０２及び低域音声セグメント２０５が閉ループ学習部３
１及び３２に入力され、高域素片２０４及び低域素片２
０７が生成される。

【００３５】図９に示したフローチャートを参照して、
閉ループ学習部３１及び３２の処理の流れを説明する。
以下の説明では、高域または低域音声セグメントを一般
化して帯域音声セグメントと呼び、同様に高域または低
域素片を帯域素片と呼ぶことにする。

【００３６】まず、ステップ４１で帯域素片の初期値を
設定する。帯域素片は、ピッチ波形を連結したベクトル
であり、上述した実施形態のように帯域音声セグメント
から抽出される特徴ベクトルのセントロイドを求めて初
期値とすればよい。帯域素片をベクトルｕで表すものと
する。ステップ４２では、トレーニングデータとなる帯
域音声セグメントの全てにピッチ分析を行って、ピッチ
マークの初期値を付与する。帯域音声セグメントの数を
Ｎ個とし、帯域音声セグメントをベクトルｒi，（ｉ＝
１，…，Ｎ）で表すものとする。ステップ４３では、帯
域素片のピッチ波形と、帯域音声セグメントのピッチマ
ークとをマッピングする。このマッピングは、図１１で
表されるような、音声を合成する際のマッピングと同様
に行うものとする。ステップ４４では、帯域音声セグメ
ントのピッチマーク近傍の波形と、当該ピッチマークに
マッピングされた帯域素片のピッチ波形との相関が最大
となる位置をピッチマークの近傍で探索し、位相差が最
小となる位置にピッチマークを更新する。ステップ４５
では、最適化されたピッチマークに、当該ピッチマーク
に対応する帯域素片のピッチ波形を重畳して、各帯域音
声セグメントに対応する合成音声セグメントを生成す
る。帯域音声セグメントｒ_i に対応する合成音声セグメ
ントをベクトルｓ_iで表すとすると、ベクトルｓ_i はベ
クトルｕを用いて以下のように表すことができる。

【００３７】

【数１】

【００３８】ここで、波形重畳処理を表す行列Ａ_i に
は、帯域音声セグメントｒ_i の更新されたピッチマーク
位置の情報と、ピッチ波形のマッピングの情報が含まれ
ている。ステップ４６では、帯域音声セグメントｒ_ｉ
と合成音声セグメントｓ_i の音量が等しくなり、２つの
波形の誤差が最小となるような最適ゲインｇ_i を計算す
る。誤差ｅ_i は、波形の２乗誤差を表す次式で定義され
る。

【００３９】

【数２】

【００４０】この場合、最適ゲインｇ_i は次式によって
求めることができる。

【００４１】

【数３】

【００４２】ステップ４７では、最適ゲインｇ_i を用
いて（２）式の誤差値ｅ_i をそれぞれ計算する。誤差値
ｅ_i は、合成音声と自然音声の音韻の差を表しており、
合成音声の歪みとみなすことができる。

【００４３】次に、これらの誤差の総和である誤差評価
関数Ｅを求める。

【００４４】

【数４】

【００４５】ステップ４８では、（４）式の誤差評価関
数を最小化する帯域素片ｕを求めて帯域素片を更新す
る。帯域素片は、Ｅをｕで偏微分して０とおいた連立方
程式を解くことによって解析的に求められる。帯域素片
を更新することによって、最適なピッチマーク位置が変
化し、それに伴って最適ゲインも変化する。そこで、誤
差評価関数Ｅの値が収束するまでステップ４４からステ
ップ４８までを繰り返し、収束したときのベクトルｕが
求める帯域素片となる。

【００４６】このように閉ループ学習法では、多数のト
レーニングデータ（自然音声）に対して、合成音声の歪
みが最小となるような素片を求めているため、高音質な
合成音声を生成することができる。閉ループ学習法にお
いても、誤差の評価関数に波形の二乗誤差など時間領域
の尺度を用いている場合には、位相差による減衰の問題
が帯域分割によって改善されるという利点がある。

【００４７】本発明は上述した実施形態に限られず、種
々変形して実施が可能である。例えば、上述の各実施形
態では音声セグメントを低域と高域の２つの帯域に分割
したが、さらに多数の帯域に分割してもよい。また、各
帯域の帯域幅が異なるようにしても良い。

【００４８】例えば、音声セグメントを図１０に示すよ
うな帯域幅の異なる４つの帯域に分割するようにしても
良い。この場合、各帯域に１つずつホルマントが存在す
るように各帯域間の境界周波数を設定すれば、前述した
位相差による打ち消し合いの問題をさらに低減させるこ
とができる。また、有声摩擦音のように高域がピッチの
無い無声音になっている場合は、高域の帯域幅を小さく
すると合成音声がブザー音のような不自然な音声になる
という副作用が生じるため、帯域幅を大きくすることが
好ましい。このように、各帯域幅を可変として各帯域を
適切に配置することが音質改善に効果的である。

【００４９】上述した本発明の実施形態に基づく音声素
片生成及び音声合成の処理は、ハードウェアにより実現
することも可能であるが、処理の一部または全部をコン
ピュータを用いてソフトウェアにより実現することも可
能である。従って、本発明によると、上述した処理をコ
ンピュータに行わせるためのプログラムを提供すること
もできる。

【００５０】

【発明の効果】以上説明したように、本発明によれば音
声セグメントを帯域分割して帯域毎に位相を合わせてセ
ントロイドを求めることにより、位相差による打ち消し
合いの問題を解消し、全周波数帯域に渡って平均的な特
性をもつ音声素片を生成することが可能となる。従っ
て、このようにして生成された音声素片を接続すること
によって、より明瞭な合成音声を生成することが可能と
なる。

【図面の簡単な説明】

【図１】本発明の一実施形態に係る素片接続型音声合成
器の構成を示すブロック図

【図２】本発明の一実施形態に係る音声素片生成装置の
構成を示すブロック図

【図３】同実施形態における帯域分割の特性を示す図

【図４】同実施形態における音声セグメント、低域音声
セグメント及び高域音声セグメントの例を示す図

【図５】同実施形態における低域特徴ベクトル、高域特
徴ベクトル、低域素片、高域素片及び音声素片の例を示
す図

【図６】同一実施形態におけるセントロイド計算部にお
ける位相合わせの有無の効果を説明する図

【図７】同実施形態に係る音声素片生成装置の動作を説
明するための図

【図８】本発明の他の実施形態に係る閉ループ学習を用
いた音声素片生成装置の構成を示すブロック図

【図９】同実施形態における処理の流れを示すフローチ
ャート

【図１０】本発明の別の実施形態における帯域分割の特
性を示す図

【図１１】ピッチ波形の重畳による音声合成処理を説明
するための図

【図１２】ピッチ波形を連結した特徴ベクトルの例を説
明するための図

【図１３】従来の音声素片生成方法を説明するための図

【符号の説明】

１０…ピッチマーク生成部１１…音声素片選択部１２…波形重畳部１３…素片辞書２１…音声データベース２２…音声波形切り出し部２９…音韻ラベルデータベース２３…帯域分割部２４…特徴ベクトル抽出部２５…セントロイド計算部２６…特徴ベクトル抽出部２７…セントロイド計算部２８…帯域統合部１００…ピッチパターン１０１…音韻継続時間長１０２…音韻記号列１０３…ピッチマーク１０４…音声素片１０５…合成音声信号２０１…音声セグメント２０２…高域音声セグメント２０３…高域特徴ベクトル２０４…高域素片２０５…低域音声セグメント２０６…低域特徴ベクトル２０７…低域素片２０８…音声素片２０９…音声波形２１０…音韻ラベルデータ

Claims

【特許請求の範囲】

【請求項１】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する音声
素片生成方法において、前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成し、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する音声素片生成方法。
【請求項２】前記複数の音声波形データのそれぞれの特
徴ベクトルを複数の周波数帯域毎に平均化する際に、少
なくとも一つの周波数帯域については前記複数の音声波
形データのそれぞれの特徴ベクトルを位相合わせした後
に平均する請求項１記載の音声素片生成方法。
【請求項３】同一音韻の複数の音声波形データから当該
音韻の音声素片を生成する音声素片生成方法において、前記音声波形データを複数の周波数帯域に分割し、前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
し、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する音声素片生成方法。
【請求項４】前記複数の周波数帯域の帯域幅を不均一と
する請求項１乃至３のいずれか１項記載の音声素片生成
方法。
【請求項５】請求項１乃至４のいずれか１項に記載の音
声素片生成方法によって音韻毎に生成された複数の音声
素片を用意し、該複数の音声素片の中から、入力された音韻記号列に従
って選択された音声素片を接続することによって音声を
合成する音声合成方法。
【請求項６】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する音声
素片生成装置において、前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成する手
段と、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する手段とを有する音声素片生成装置。
【請求項７】同一音韻の複数の音声波形データから当該
音韻の音声素片を生成する音声素片装置において、前記音声波形データを複数の周波数帯域に分割する手段
と、前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
する手段と、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する手段とを有する音声素片生成装置。
【請求項８】請求項６または７に記載の音声素片生成装
置によって音韻毎に生成された複数の音声素片を用意
し、該複数の音声素片の中から、入力された音韻記号列に従
って選択された音声素片を接続することによって音声を
合成する音声合成装置。
【請求項９】同一音韻の複数の音声波形データから特徴
ベクトルを抽出して当該音韻の音声素片を生成する処理
をコンピュータに行わせるためのプログラムにおいて、前記複数の音声波形データのそれぞれの特徴ベクトルを
複数の周波数帯域毎に平均化することにより、前記音声
素片の周波数帯域毎の成分である帯域素片を生成する処
理と、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する処理とを前記コンピュータに行わせるための音
声素片生成プログラム。
【請求項１０】同一音韻の複数の音声波形データから特
徴ベクトルを抽出して当該音韻の音声素片を生成する処
理をコンピュータに行わせるためのプログラムにおい
て、前記音声波形データを複数の周波数帯域に分割する処理
と、前記周波数帯域毎に前記複数の音声波形データをトレー
ニングデータとする閉ループ学習を行うことにより、前
記音声素片の周波数帯域毎の成分である帯域素片を生成
する処理と、前記周波数帯域毎の帯域素片を統合して前記音声素片を
生成する処理とを前記コンピュータに行わせるための音
声素片生成プログラム。