JP2009047837A

JP2009047837A - 音声合成方法及びその装置

Info

Publication number: JP2009047837A
Application number: JP2007212809A
Authority: JP
Inventors: Ryo Morinaka; 亮森中; Masanori Tamura; 正統田村; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-08-17
Filing date: 2007-08-17
Publication date: 2009-03-05
Anticipated expiration: 2027-08-17
Also published as: US8175881B2; US20090048844A1; JP4469883B2; CN101369423A

Abstract

【課題】ホルマントパラメータを直接制御することにより自然で高音質な合成音声を生成する。
【解決手段】目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求め、音声素片記憶部４２から、目標音声に対応する韻律情報を基に、複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択し、選択された複数の音声素片のそれぞれのフレームに対して、ホルマント周波数を含むホルマントパラメータを生成し、複数の音声素片のそれぞれのフレームに対応するホルマントパラメータから、フレーム毎に融合ホルマントパラメータを求め、フレーム毎の融合ホルマントパラメータから、各セグメントに対応する融合音声素片をそれぞれ求め、セグメント毎の融合音声素片を接続することによって合成音声を生成する。
【選択図】図２

Description

本発明は、テキスト音声合成のための音声合成に関し、特に音韻記号列、ピッチ、音韻継続時間長などの情報から音声信号を生成する音声合成方法及びその装置に関する。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の３つの段階から構成される。

入力されたテキストは、第１段階として言語処理部において形態素解析や構文解析などが行われる。次に、第２段階として韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。その後、最終段階として音声信号合成部で音韻系列・韻律情報から音声信号を合成することによりテキスト音声合成を実現している。

このような任意の音韻記号列を合成することができる合成器の原理は、母音をＶ、子音をＣで表すと、ＣＶ、ＣＶＣ、ＶＣＶなどの基本となる小さな音声単位の特徴パラメータ（音声素片）を記憶し、ピッチや継続時間長を制御して接続することにより音声を合成する。この方式では、記憶されている音声素片が音声合成の品質を大きく左右することになる。

このような音声合成方法の１つとして、入力された音韻系列・韻律情報を目標として、大量の音声素片から音声単位毎に複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成し、それらを接続して音声を合成する複数素片選択・融合型の音声合成方法がある（例えば、特許文献１参照）。

この複数素片選択・融合型の音声合成は、まず予め記憶された大量の音声素片の中から、入力された音韻系列・韻律情報に基づき音声素片を選択する。素片選択手法としては、音声を合成することで生じる合成音声の歪みの度合いをコスト関数として定義し、コストが小さくなるように音声素片を選択する方法がある。例えば、目標とする音声と各音声素片との韻律・音韻環境などの差異を表す目標歪み、音声素片を接続することで生じる接続歪みをコストとして数値化し、このコストに基づいて音声合成に使用する音声素片を選択し、さらに、例えばピッチ波形を平均化する、選択された複数の音声素片のセントロイドを用いるなどの手法で融合することにより、素片の編集及び接続における音質の劣化を抑え、安定した合成音声を得ることができる。

また、より品質の良い音声素片の生成法として記憶する音声素片をホルマント周波数などを用いて表現するという方法がある（例えば、特許文献２参照）。この方法は、１つのホルマントを表す波形（以下、「ホルマント波形」と呼ぶ）を、ホルマント周波数を周波数とする正弦波に窓関数をかけることにより表現し、各ホルマント波形を各々加算することによって波形を表現する。
特開２００５−１６４７４９号公報特許第３７３２７９３号公報

複数素片選択・融合型の音声合成方法では波形を融合するため、合成された音声のスペクトルが不明瞭となり音質の劣化が生じてしまうという問題点があった。

これは、異なるホルマント周波数を持つ音声素片同士を融合すると、融合された音声素片のホルマントが不明瞭になり、結果として音質が劣化するものと考えられる。

そこで、本発明は、上記問題点に鑑み、複数素片選択・融合型の音声合成において、自然で高音質な合成音声を生成することができる音声合成方法及びその装置を提供することを目的とする。

本発明は、目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割ステップと、１つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択ステップと、前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成ステップと、前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合ステップと、前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成ステップと、前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成ステップと、を有する音声合成方法である。

本発明によれば、選択された音声素片を融合する際、音声素片を物理的な意味が明らかなホルマント周波数を直接用いて音声素片を融合することにより合成音声のホルマントが明瞭となり、音質の劣化の程度が音声素片を波形を融合する場合と比べ減少し、自然で高音質な合成音を生成する。

以下、図面を参照して本発明の実施形態を説明する。

（第１の実施形態）
以下、本発明の第１の実施形態のテキスト音声合成装置について、図１〜図１９に基づいて説明する。

（１）テキスト音声合成装置の構成
図１は、本実施形態に係るテキスト音声合成装置の構成を示すブロック図である。

このテキスト音声合成装置は、テキスト入力部１、言語処理部２、韻律処理部３、音声合成部４、音声波形出力部５から構成される。

言語処理部２は、テキスト入力部１から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部３へ送る。

韻律処理部３は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列（音韻記号列）及び韻律情報を生成し、音声合成部４へ送る。

音声合成部４は、音韻系列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部５で出力される。

各部１〜４の機能は、コンピュータに格納されたプログラムによっても実現できる。

（２）音声合成部４の構成
図２は、図１の音声合成部４の構成例を示すブロック図である。

図２に示すように、音声合成部４は、ホルマントパラメータ作成部４１、音声素片記憶部４２、音素環境記憶部４３、ホルマントパラメータ記憶部４４、音韻系列・韻律情報入力部４５、音声素片選択部４６、音声素片融合部４７、融合音声素片編集・接続部４８により構成される。

（２−１）音声素片記憶部４２
音声素片記憶部４２には、大量の音声素片が蓄積されており、合成音声を生成する際に用いる音声の単位（合成単位）の音声素片が記憶されている。

合成単位は、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素（Ｃ，Ｖ）、ダイフォン（ＣＶ，ＶＣ，ＶＶ）、トライフォン（ＣＶＣ，ＶＣＶ）、音節（ＣＶ，Ｖ）などであり、これらが混在しているなど可変長であってもよい。なお、Ｖは母音、Ｃは子音を表す。

（２−２）音素環境記憶部４３
音素環境記憶部４３には、音声素片記憶部４２に記憶されている音声素片の音素環境の情報（以下、「音素環境情報」と呼ぶ）が記憶されている。

音素環境情報とは、当該音声素片にとっての環境となる要因の組み合わせに対応する情報である。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。

（２−３）ホルマントパラメータ記憶部４４
ホルマントパラメータ記憶部４４には、ホルマントパラメータ作成部４１において作成されたホルマントパラメータが蓄積されている。「ホルマントパラメータ」とはホルマント周波数と、各ホルマントの形状を表すパラメータで構成されるものである。

（２−４）音韻系列・韻律情報入力部４５
音韻系列・韻律情報入力部４５には、韻律処理部３から出力された目標音声の音韻系列及び韻律情報が入力される。

音韻系列・韻律情報入力部４５に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。

以下、音韻系列・韻律情報入力部４５に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。

（２−５）音声素片選択部４６
音声素片選択部４６は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報と、音声素片の音素環境に含まれる韻律情報との歪みの度合いを推定し、前記歪みの度合いを最小化するように音声素片記憶部４２に記憶されている音声素片の中から音声素片を選択する。

歪みの度合いとしては、後述するコスト関数を用いることができるが、これに限定するものではない。その結果、入力音韻系列の音韻記号の系列に対応する音声素片が得られる。

（２−６）音声素片融合部４７
音声素片融合部４７は、音声素片選択部４６において選択された複数の音声素片に関して、ホルマントパラメータ作成部４１において作成されたホルマントパラメータを融合し、融合されたホルマントパラメータから融合音声素片を生成する。

ここで、融合音声素片とは融合される複数の音声素片それぞれの特徴を代表するような音声素片のことで、例えば、融合される複数の音声素片の平均や加重平均、融合される複数の音声素片を任意の帯域に分割し、各帯域で平均や加重平均をしたものなどが考えられる。

（２−７）融合音声素片編集・接続部４８
融合音声素片編集・接続部４８は、融合音声素片の系列を入力韻律情報に基づいて変形及び接続して、合成音声の音声波形を生成する。

こうして生成された音声波形は音声波形出力部５で出力される。

（３）音声合成部４の処理の概略
図３は、音声合成部４における処理の流れを示すフローチャートである。

ステップＳ４０１において、音声素片選択部４６は入力音韻系列及び入力韻律情報に基づいて、各セグメントに対し、音声素片記憶部４２に記憶されている音声素片の中から複数の音声素片を選択する。

各セグメントに対し選択される複数の音声素片は、いずれも当該セグメントの音韻に対応すると共に、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴と一致あるいは類似する音声素片である。

また、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために入力韻律情報に基づき当該音声素片を変形したときに生ずる当該合成音声の目標音声に対する歪みの度合いが出来るだけ少なくなるような音声素片である。

また、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために当該音声素片を当該セグメントの隣のセグメントの音声素片と接続した際に生ずる当該合成音声の目標音声に対する歪みの度合いが出来るだけ少なくなるような音声素片である。

本実施形態では、セグメント毎に、後述するコスト関数を用いて、目標音声に対する歪みの度合いを推定しながら、このような複数の音声素片を選択する。

次に、ステップＳ４０２において、音声素片融合部４７は、各セグメントに対し選択された複数の音声素片に対応するホルマントパラメータ記憶部４４に記憶されているホルマントパラメータを呼び出してから融合し、セグメント毎に、新たな音声素片を生成する。

次に、ステップＳ４０３において、新たな音声素片の系列を、入力された韻律情報に基づいて変形及び接続して音声波形を生成する。

以下、音声合成部４の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。

なお、ここでは音声素片は音素単位としているが、半音素、ダイフォン、トライフォン、音節あるいはこれらの組み合わせや可変長であっても同様である。

（４）記憶されている情報
音声素片記憶部４２には、図４に示すように、各音素の音声信号の波形が当該音素を識別するための音声素片番号と共に記憶されている。

音素環境記憶部４３には、図５に示すように、音声素片記憶部４２に記憶されている各音声素片の音素環境情報が、当該音素の素片番号に対応付けて記憶されている。ここでは、音素環境として、音素記号（音素名）、基本周波数、音韻継続長、接続境界ケプストラムが記憶されている。

ホルマントパラメータ記憶部４４には、音声素片記憶部４２に記憶されている各音声素片からホルマントパラメータ作成部４１において作成されたホルマントパラメータ系列が、当該音素の素片番号に対応付けて記憶されている。

（５）ホルマントパラメータ作成部４４
ホルマントパラメータ作成部４４では、音声素片記憶部４２に記憶されている各音声素片を入力としてホルマントパラメータを作成する。図６はホルマントパラメータ作成部４１における処理の流れを示すフローチャートである。

ホルマントパラメータはステップＳ４１１で作成されたピッチ波形から、ステップＳ４１２でこれらのパラメータを作成する。ホルマントパラメータ記憶部４４には、図１０に示すように、各音声フレームのホルマントパラメータが当該音素の素片番号と音声フレーム番号とに対応付けて記憶されている。図１０ではホルマント周波数の個数を３としたが、個数はいくつでも良い。

窓関数は基底関数として任意の次数のＤＣＴ基底にハニング窓をかけたものを基底関数として、基底関数と重み係数ベクトルとして表現されたものを記憶しても良いし、基底関数は窓関数をＫＬ展開することによって生成された基底関数を用いても良い。

図６のステップＳ４１１、ステップＳ４１２を経て、各音声素片に対して得られたピッチ波形それぞれに対するホルマントパラメータはホルマントパラメータ記憶部４４に記憶される。

（５−１）フレームの分割
ステップＳ４１１において、音声素片記憶部４２からの入力が有声音のセグメントの場合、音声素片を複数の音声フレームと呼ばれる音声素片よりも小さな単位に分割する処理を行う。

音声フレームとは、音声素片を当該音声素片の継続時間長よりも短い長さを単位として分割したものやピッチ波形などを意味する。

ここで、ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものを意味する。

その分割方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やＰＳＥ分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法などがある。

本実施形態では、音声フレームの単位をピッチ波形とし、ピッチ波形の抽出方法として基本周期同期窓で切り出す方法を用いてピッチ波形に分割する場合を例にとり、図７のフローチャートを参照して説明する。

ステップＳ４２１において、該音声素片の音声波形に、その周期間隔毎にマーク（ピッチマーク）を付ける。図８（ａ）には、Ｍ個の音声素片のうちの１つの音声素片の音声波形４３１に対し、その周期間隔毎にピッチマーク４３２が付けられている場合を示している。

ステップＳ４２２において、図８（ｂ）に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓４３３を用い、その窓長は基本周期の２倍とする。そして、図８（ｃ）に示すように、窓掛けされた波形４３４をピッチ波形として切り出す。

（５−２）ホルマントパラメータの生成
次に、図６のステップＳ４１２において、ステップＳ４１１で切り出された音声素片のピッチ波形毎にホルマントパラメータを求める。図８（ｄ）は、切り出されたピッチ波形４３４それぞれに対して作成されたホルマントパラメータ４３５を示している。

本実施形態では、ホルマントパラメータは、ホルマント周波数、パワー、位相、窓関数とから構成されるものとする。

図９はホルマントパラメータに含まれるホルマント周波数の数を３としたときの、ホルマントパラメータとピッチ波形との関係を示したものである。図９（ａ）では横軸が時間、縦軸が振幅を、図９（ｂ）では横軸が周波数、縦軸が振幅を表している。

図９（ａ）は各ホルマント周波数の正弦波で、対応するパワーと位相を持つ正弦波４４１、４４２、４４３各々に対して、対応する窓関数４４４、４４５、４４６をそれぞれ掛けることにより得られるホルマント波形４４７、４４８、４４９を加算したものが、ピッチ波形４５０である。ここで、ホルマント波形のパワースペクトルは、必ずしも音声信号のパワースペクトルの山の部分を表現するとは限らず、複数のホルマント波形の和であるピッチ波形のパワースペクトルが音声のスペクトルを表現するものである。

図９（ｂ）には、図９（ａ）の正弦波４４１、４４２、４４３のパワースペクトルを示し、窓関数４４４、４４５、４４６のパワースペクトルを示し、ホルマント波形４４７、４４８、４４９のパワースペクトルを示し、ピッチ波形４５０のパワースペクトルをそれぞれ示している。

（５−３）ホルマントパラメータの記憶
上記で作成したホルマントパラメータをホルマントパラメータ記憶部４４に記憶させる。この場合にホルマントパラメータ系列は、当該音素の素片番号に対応付けて記憶されている。

（６）音韻系列・韻律情報入力部４５
図２の音韻系列・韻律情報入力部４５には、音韻の情報として、テキスト音声合成のために入力テキストの形態素解析・構文解析後、更にアクセントやイントネーション処理を行って得られた韻律情報と音韻系列が入力される。

入力韻律情報には、基本周波数及び音韻継続時間長が含まれていることとする。

（７）音声素片選択部４６
音声素片選択部４６では、コスト関数に基づいて音声素片系列を求める。

（７−１）コスト関数
コスト関数は次のように定める。

まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Ｃｎ（ｕｉ，ｕｉ−１，ｔｉ）（ｎ：１，・・・，Ｎ、Ｎはサブコスト関数の数）を定める。

ここで、ｔｉは、入力音韻系列及び入力韻律情報に対応する目標とする音声（目標音声）をｔ＝（ｔ１，・・・，ｔＩ）としたときのｉ番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、ｕｉは音声素片記憶部４２に記憶されている音声素片のうち、ｔｉと同じ音韻の音声素片を表す。

（７−１−１）サブコスト関数
サブコスト関数は、音声素片記憶部４２に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。当該コストを算出するために、ここでは、具体的には、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する目標コストと、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する接続コストという２種類のサブコストを用いる。

目標コストとしては、音声素片記憶部４２に記憶されている音声素片の基本周波数と目標の基本周波数との違い（差）を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）を表す音韻継続時間長コストを用いる。

接続コストとしては、接続境界でのスペクトルの違い（差）を表すスペクトル接続コストを用いる。

（７−１−２）サブコスト関数の具体例
具体的には、基本周波数コストは、

から算出する。ここで、ｖ_ｉは音声素片記憶部４２に記憶されている音声素片ｕ_ｉの音素環境を、ｆは音素環境ｖ_ｉから基本周波数を取り出す関数を表す。

音韻継続時間長コストは、

から算出する。ここで、ｇは音素環境ｖ_ｉから音韻継続時間長を取り出す関数を表す。

スペクトル接続コストは、２つの音声素片間のケプストラム距離：

から算出する。ここで、ｈは音声素片ｕ_ｉの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。

（７−１−３）合成単位コスト関数
これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する：

ここで、ｗｎはサブコスト関数の重みを表す。本実施形態では、簡単のため、ｗ_ｎは全て「１」とする。上記式（４）は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の合成単位コストである。

入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式（４）から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式（５）に示すように定義する：

（７−２）選択
図３のステップＳ４０１では、上記の式（１）〜（５）に示したコスト関数を使って２段階で１セグメント当たり（すなわち、１合成単位当たり）複数の音声素片を選択する。詳細を図１１のフローチャートに示す。

ステップＳ４５１において、音声素片記憶部４２に記憶されている音声素片群の中から、上記式（５）で算出されるコストの値が最小の音声素片の系列を求める。このコストが最小となる音声素片の組合せを「最適素片系列」と呼ぶ。すなわち、最適素片系列中の音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適素片系列中の各音声素片から算出された上記合成単位コストと式（５）より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法（ＤＰ：ｄｙｎａｍｉｃｐｒｏｇｒａｍｍｉｎｇ）を用いることでより効率的に行うことができる。

次に、ステップＳ４５２に進み、素片選択では、最適素片系列を用いて、１セグメント当たり複数の音声素片を選ぶ。ここでは、セグメントの数をＪ個とし、セグメント当たりＭ個の音声素片を選ぶこととして説明する。ステップＳ４５２の詳細を説明する。

ステップＳ４５３及びステップＳ４５４では、Ｊ個のセグメントのうちの１つを注目セグメントとする。ステップＳ４５３及びＳ４５４はＪ回繰り返され、Ｊ個のセグメントが１回ずつ注目セグメントとなるように処理を行う。まず、ステップＳ４５３では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部４２に記憶されている音声素片を式（５）のコストの値に応じて順位付けし、上位Ｍ個を選択する。

（７−３）具体例
例えば、図１２に示すように、入力音韻系列が「ｔｓ・ｉ・ｉ・ｓ・ａ・・・・」であるとする。この場合、合成単位は、音素「ｔｓ」、「ｉ」、「ｉ」、「ｓ」、「ａ」、・・・のそれぞれに対応し、これら音素のそれぞれが１つのセグメントに対応する。図１２では、入力された音韻系列中の３番目の音素「ｉ」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この３番目の音素「ｉ」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片４６１ａ、４６１ｂ、４６１ｄ、４６１ｅ・・・を固定する。

この状態で、音声素片記憶部４２に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のそれぞれについて、式（５）を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次の手順となる。

（手順１）音声素片記憶部４２に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ音声素片のうちの１つを音声素片ｕ３とする。音声素片ｕ３の基本周波数ｆ（ｖ３）と、目標の基本周波数ｆ（ｔ３）とから、式（１）を用いて、基本周波数コストを算出する。

（手順２）音声素片ｕ３の音韻継続時間長ｇ（ｖ３）と、目標の音韻継続時間長ｇ（ｔ３）とから、式（２）を用いて、音韻継続時間長コストを算出する。

（手順３）音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片４５１ｂ（ｕ２）のケプストラム係数ｈ（ｕ２）とから、式（３）を用いて、第１のスペクトル接続コストを算出する。また、音声素片ｕ３のケプストラム係数ｈ（ｕ３）と、音声素片４５１ｄ（ｕ４）のケプストラム係数ｈ（ｕ４）とから、式（３）を用いて、第２のスペクトル接続コストを算出する。

（手順４）上記手順１〜手順３で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第１及び第２のスペクトル接続コストの重み付け和を算出して、音声素片ｕ３のコストを算出する。

（手順５）音声素片記憶部４２に記憶されている音声素片のうち、注目セグメントの音素「ｉ」と同じ音素名（音素記号）をもつ各音声素片について、上記手順１〜手順４に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う（図１１のステップＳ４５３）。そして、上位Ｍ個の音声素片を選択する（図１１のステップＳ４５４）。例えば、図１２では、音声素片４６２ａが最も順位が高く、音声素片４６２ｄが最も順位が低い。

以上の手順１〜手順５をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、Ｍ個ずつの音声素片が得られる。

音素環境として、音声素片の音韻とその基本周波数及び音韻継続長の情報として説明したが、これらに限定するものではなく、必要に応じて、音韻、基本周波数、音韻継続時間長、先行音素、後続音素、後々続音素、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発生速度、感情などの情報や接続部におけるホルマント周波数などを組み合わせて用いることが出来る。

（８）音声素片融合部４７
次に、図３のステップＳ４０２における音声素片融合部４７の処理について説明する。

ステップＳ４０２では、ステップＳ４０１で求めた、複数のセグメントのそれぞれについて選択されたＭ個の音声素片から、セグメント毎に当該Ｍ個の音声素片を融合し、新たな音声素片（融合された音声素片）を生成する。音声素片が有声音である場合と無声音である場合とで別の処理を行う。

まずは、有声音の場合について説明する。有声音の場合には、図２のホルマントパラメータ作成部４１で音声素片から分割したピッチ波形を音声フレーム単位としてホルマントパラメータを融合する。音声素片融合部４７における処理の流れを図１３のフローチャートを参照して説明する。

（８−１）ホルマントパラメータの抽出
ステップＳ４７１において、まず行われるのは、音声素片選択部４６において選択された各セグメント中のＭ個の音声素片に対応するホルマントパラメータをホルマントパラメータ記憶部４４から抽出する。この場合にホルマントパラメータ系列は、音声素片の素片番号に対応付けて記憶されているため、それに基づいて抽出する。

（８−２）ホルマントパラメータの数の合致
ステップＳ４７１では、上記のように抽出した、当該セグメント中のＭ個の音声素片それぞれのホルマントパラメータ系列の中で、最もホルマントパラメータの数が多いものに合わせて、Ｍ個全てのホルマントパラメータ系列中のホルマントパラメータの数が同じになるようにする。このときに、ホルマントパラメータの数が少ないホルマントパラメータの系列については、ホルマントパラメータを複製して、ホルマントパラメータの数をそろえる。

図１４には、当該セグメントのＭ個（例えば、ここでは、３個）の音声素片の、各音声フレームに対応するホルマントパラメータの系列ｆ１〜ｆ３を示している。

各音声フレームに対応するホルマントパラメータの系列ｆ１のホルマントパラメータの数は７個、各音声フレームに対応するホルマントパラメータの系列ｆ２のホルマントパラメータの数は５個、各音声フレームに対応するホルマントパラメータの系列ｆ３のホルマントパラメータの数は６個である。

したがって、各音声フレームに対応するホルマントパラメータの系列ｆ１〜ｆ３のうち最もホルマントパラメータの数が多いものは、系列ｆ１である。

このため、この系列ｆ１中のホルマントパラメータの数（例えば、ここでは、７個）に合わせて、他の系列ｆ２、ｆ３については、それぞれ、当該系列中のホルマントパラメータのいずれかをコピーして、ホルマントパラメータの数を７個にする。

その結果得られた、系列ｆ２、ｆ３のそれぞれに対応する新たなホルマントパラメータの系列がｆ２’、ｆ３’である。

なお、図１４ではＭ個の音声素片のうち最も多い音声フレームを持つものに合わせたが、作成する合成音声素片の音声フレーム数に合わせても良い。

（８−３）融合
ステップＳ４７２では、ステップＳ４７１において音声素片の各音声フレームに対応するホルマントパラメータの数を揃えられたホルマントパラメータを各々融合する。図１５はホルマントパラメータを融合するステップＳ４７２の処理の流れを示したフローチャートである。

ステップＳ４８１で融合されるホルマントパラメータ間のホルマントをホルマントの類似度を推定するための融合コスト関数を計算する。

融合コスト関数としては、融合されるホルマントパラメータ間の各ホルマントのホルマント周波数の違い（差、すなわち、類似度）を表すホルマント周波数コストと、各ホルマントのパワーの違い（差、すなわち、類似度）を表すパワーコストとを融合コスト関数として用いる。

具体的には、ホルマント周波数コストは、

から算出する。ここで、ｑ_ｘｙｉはホルマントパラメータ記憶部４４に記憶されている音声素片ｐ_ｘのｙ番目のフレームのホルマントパラメータｉ番目のホルマントを表す。ｒはホルマントパラメータｑ_ｘｙｉからホルマント周波数を取り出す関数を表す。

また、パワーコストは

から算出する。ここで、ｓはホルマントパラメータｑ_ｘｙｉからｉ番目のホルマントのパワー周波数を取り出す関数を表す。

上記式（６）、（７）の重み付き和をホルマントを対応付ける際の融合コスト関数と定義する：

ここで、ｚ_１はホルマント周波数コスト、ｚ_２はパワーコストの重みを表す。本実施形態では、簡単のためｚ_１、ｚ_２は全て「１」とする。

ステップＳ４８２において、コスト関数の値がＴ_ｆｏｒより小さく似た形状のホルマントが存在するホルマントは、融合コスト関数の値が最小となるホルマント同士を対応付ける。

ステップＳ４８３において、コスト関数の値がＴ_ｆｏｒより大きく似た形状のホルマントがないホルマントは、パワーが０である仮想ホルマントを作成し、作成されたホルマントに対応付ける。

ステップＳ４８４において、対応付けられたホルマント同士の、ホルマント周波数、位相、パワー、窓関数の各々の平均を求めることにより融合する。ホルマントパラメータの融合方法としてホルマント周波数、位相、パワー、窓関数の各々の平均を求めることにより融合したが、対応付けられたホルマントの中からホルマント周波数、位相、パワー、窓関数をそれぞれ１つずつ選択しても良い。

（８−４）融合の具体例
図１６は、Ｍ個（例えば、ここでは、２個）の音声素片中のフレームのホルマントパラメータ４８５、４８６をステップＳ４８１で計算された融合コスト関数を基に、ステップＳ４８２で似た形状のホルマントを対応付け、ステップＳ４８３で仮想ホルマントに対応付け、ステップＳ４８４においてホルマントパラメータを融合して融合ホルマントパラメータ４８７を作成するまでの流れを示したものである。

ホルマントパラメータ４８５において仮想ホルマントを作成する際、ホルマントパラメータ４８６のホルマント番号３のホルマント周波数の値をそのまま用いているが、この限りではない。

（８−５）融合ピッチ波形系列の生成
次に、図１３のステップＳ４７３では、ステップＳ４７２で融合された融合ホルマントパラメータ系列ｇ１から融合ピッチ波形系列ｈ１を生成する。

図１７は、ステップＳ４７１においてホルマントパラメータの数をそろえられたホルマントパラメータの系列ｆ１、ｆ２’、ｆ３記号から、ステップＳ４７２においてホルマントパラメータを融合し融合ホルマントパラメータ系列ｇ１が作成され、ステップＳ４７３において融合ピッチ波形が生成され、融合ピッチ波形系列ｈ１が生成されるまでの流れを示したものである。

融合ホルマントパラメータ系列ｇ１の要素数がＫ個（例えば、図１７の場合では、７個）としたときのホルマントパラメータからピッチ波形を生成する場合の処理手順の詳細を図１８に示す。

まず、ステップＳ４７３において、Ｋ個のホルマントパラメータのうちの１つを注目ホルマントパラメータとして、ステップＳ４８１をＫ回繰り返し、Ｋ個のホルマントパラメータが１回ずつ注目ホルマントパラメータとなるように処理を行う。

次に、ステップＳ４８１において、当該ホルマントパラメータに含まれるＮ_ｋ個のホルマント周波数のうちの１つを注目ホルマント周波数とし、ステップＳ４８２、Ｓ４８３をＮ_ｋ回繰り返し、Ｎ_ｋ個のホルマント周波数が１回ずつ注目ホルマント周波数となるように処理を行う。

次に、ステップＳ４８２において、当該ホルマントパラメータに含まれるホルマント周波数の正弦波で、対応するパワーと位相を持つ正弦波を生成する。ここでは、該当するホルマント周波数を周波数とする正弦波を出力するものであったが、これに限るものではない。例えば、計算量の削減を目的として計算精度を落としたり、テーブル化した場合には誤差のために完全な正弦波にはならない場合がある。

次に、ステップＳ４８３において、ステップＳ４８２で生成された正弦波に対して、当該ホルマントパラメータに含まれる注目ホルマント周波数に対応する窓関数により窓掛けを行って、ホルマント波形を生成する。

ステップＳ４８４において、ステップＳ４８２、ステップＳ４８３で生成されたＮ_ｋ個のホルマント波形同士を加算し、融合ピッチ波形を生成する。

このように、ステップＳ４８１をＫ回繰り返すことで融合ホルマントパラメータ系列ｇ１から融合ピッチ波形系列ｈ１を生成する。

一方、図３のステップＳ４０２の処理において、無声音のセグメントの場合には、素片選択ステップＳ４０１で当該セグメントのＭ個の音声素片のうち、当該Ｍ個の音声素片のそれぞれに付けられている順位が１位の音声素片をそのまま使用する。

以上のようにして、入力音韻系列に対応する複数のセグメントのそれぞれについて、当該セグメントに対し選択されたＭ個の音声素片から、当該Ｍ個の音声素片を融合し、新たな音声素片（融合された音声素片）を生成する。次に、図３の融合素片編集・接続ステップＳ４０３へ進む。

（９）融合音声素片編集・接続部４８
ステップＳ４０３において、融合音声素片編集・接続部４８は、ステップＳ４０２で求めた、セグメント毎の融合音声素片を、入力韻律情報に従って変形し、接続することで音声波形を生成する。

ステップＳ４０２で求めた融合音声素片は、実際には図１７の融合ピッチ波形系列ｈ１のように系列の各要素はピッチ波形の形になっているので、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。

図１９はステップＳ４０３の処理を説明するための図である。図１９では、音素「ｍ」、「ａ」、「ｄ」、「ｏ」の各合成単位についてステップＳ４０２で求めた、融合された音声素片を変形・接続して、「まど」という音声波形を生成する場合を示している。図１９に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じてセグメント（合成単位）毎に、融合された音声素片中の各ピッチ波形の基本周波数の変更及び、ピッチ波形数の変更を行う。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。

なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、上記のような融合された音声素片の基本周波数や音韻継続時間長などを変更することにより生ずる当該合成音声の目標音声に対する歪みをできるだけ正確に推定（評価）するものであることが望ましい。そのような目標コストの一例である式（１）、式（２）から算出される目標コストは、当該歪みの度合いを、目標音声の韻律情報と音声素片記憶部４２に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。

また、接続コストは、合成音声を生成するために上記のような融合された音声素片を接続することにより生ずる当該合成音声の目標音声に対する歪みをできるだけ正確に推定（評価）するものであることが望ましい。そのような接続コストの一例である、式（３）から算出される接続コストは、音声素片記憶部４２に記憶されている音声素片の接続境界のケプストラム係数の違いに基づき算出されるものである。

（１０）従来法との相違
ここで、本実施形態と、従来の複数素片選択・融合型の音声合成手法との違いについて説明する。

本実施形態に係る図２に示した音声合成装置では、ホルマントパラメータ作成部４１とホルマントパラメータ記憶部４４があり、ホルマントパラメータを融合して新たな音声素片を生成する点が、従来の音声合成装置（例えば、特許文献１参照）と異なる。

本実施形態では、合成単位毎に、複数の音声素片のホルマントパラメータを融合することによって明瞭なスペクトルを持ち、且つホルマントの不明瞭さが減少し、高音質な音声素片を作り出すことができ、その結果、より自然でより高音質な合成音声を生成することができるのである。

（第２の実施形態）
次に、第２の実施形態に係る音声合成部４について説明する。図２０は、第２の実施形態に係る音声合成部４の構成例を示したものである。

第１の実施形態では予めホルマントパラメータ作成部４１においてホルマントパラメータが作成され、ホルマントパラメータ記憶部４４に記憶されていたが、これに限定されるものではない。

本実施形態では、音声素片選択部４６で選択された音声素片を、音声素片記憶部４２からホルマントパラメータ作成部４１へ入力し、作成されたホルマントパラメータを音声素片融合部４７へ出力する。

これにより、本実施形態では、第１の実施形態におけるホルマントパラメータ記憶部４４がなくなり、その結果、記憶容量が少なく、より自然でより高音質な合成音声を生成することができる。

（第３の実施形態）
次に、第３の実施形態に係る音声素片融合部４７について説明する。

合成音声を生成する別の方法として、ホルマント合成方式がある。ホルマント合成方式は人間の発声機構を模擬するモデルであり、声帯から発生する信号をモデル化した音源信号で声道の特性をモデル化するフィルタを駆動することにより音声信号を生成する。一例として特開平７−１５２３９６号公報の「音声合成装置」に、ホルマント合成方式を用いた音声合成器が開示されている。

図２１は、本実施形態に係る音声素片融合部４７の処理の流れを示す。この図２１は、図１３のステップＳ４７３において、ホルマント合成方式によって音声信号を生成する原理を表している。

共振器４９１、４９２、４９３の縦続接続によって構成される声道フィルタを、パルス信号４９７に駆動して合成音声信号４９８を生成する。

共振器４９１の周波数特性４９４は、ホルマント周波数Ｆ１とホルマント帯域幅Ｂ１によって決定される。

同様に共振器４９２の周波数特性４９５は、ホルマント周波数Ｆ２とホルマント帯域幅Ｂ２によって、共振器４９３の周波数特性４９６はホルマント周波数Ｆ３とホルマント帯域幅Ｂ３によって決定される。

ホルマントパラメータを合成する場合、図１５のステップＳ４８４では、対応付けられたホルマント同士のホルマント周波数、パワー、ホルマント帯域幅の平均を求めることによりホルマントパラメータを融合する。

ここでは、ホルマントパラメータの融合方法として平均を用いたが、対応付けられたホルマントのホルマント周波数、パワー、ホルマント帯域幅のそれぞれを１つずつ選択しても良い。

（第４の実施形態）
次に、第４の実施形態に係る音声素片融合部４７について説明する。図２２は音声素片融合部４７における処理の流れを示すフローチャートである。図１３の相対応する部分に同一の参照符号を付して相違点を中心に説明する。

本実施形態では、ホルマントパラメータ平滑ステップＳ４７４が新たに付加されており、各ホルマントパラメータの時間的な変化が滑らかになるようにホルマントパラメータを平滑化する点が異なっている。

ホルマントパラメータを平滑ステップＳ４７４では、ホルマントパラメータの各要素を全て平滑化するようにしても良いし、一部の要素のみを平滑化するようにしても良い。

図２３はホルマントパラメータに含まれるホルマント周波数の数を３としたときの、ホルマントの平滑化の例を示している。×で表されるのが平滑化される前のホルマント周波数５０１、５０２、５０３であり、先行、もしくは後続のフレームに対応するホルマント周波数との変化が滑らかになるように平滑化を行って白丸で表される平滑化されたホルマント周波数５１１、５１２、５１３が生成される。

また、ホルマントの接続部において対応がとれないような場合に、図２４（ａ）のｘで表されるようにホルマント周波数５０２に対応するホルマントが消滅してしまうことが起こりうる。この場合、スペクトルに大きな不連続が生じて音質が劣化するために白丸で表されるように、ホルマントを付加してホルマント周波数５１２を生成する。この際、図２４（ｂ）で表されるように、ホルマント周波数５１２に対応する窓関数５１４のパワーを減衰させるようにしてホルマントのパワーの不連続が生じないようにする。

（変更例）
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。

本発明の第１の実施形態に係る音声合成装置の構成を示すブロック図である。音声合成部の構成例を示すブロック図である。音声合成部の処理動作を説明するためのフローチャートである。音声素片記憶部の音声素片の記憶例を示す図である。音素環境記憶部の音素環境の記憶例を示す図である。ホルマントパラメータ作成部の処理動作を説明するためのフローチャートである。音声素片からピッチ波形を作成する処理動作を説明するためのフローチャートである。音声素片からホルマントパラメータを得るための手順を説明するための図である。正弦波、窓関数、ホルマント波形、ピッチ波形の例を示す模式図である。ホルマントパラメータ記憶部のホルマントパラメータの記憶例を示す図である。音声素片選択部の処理動作を説明するためのフローチャートである。入力音韻系列に対応する複数のセグメントのそれぞれに対し、複数の音声素片を求めるための手順を説明するための図である。音声素片融合部の処理を説明するためのフローチャートである。音声素片融合部の処理を説明するための図である。ホルマントパラメータを融合する処理を説明するためのフローチャートである。ホルマントパラメータを融合する処理を説明するための図である。ホルマントパラメータを融合する処理を説明するための図である。ピッチ波形を生成する処理を説明するためのフローチャートである。素片編集・接続部の処理動作を説明するための図である。第２の実施形態における音声合成部の構成例を示すブロック図である。従来のホルマント合成器のブロック図である。第２の実施形態にかかる音声素片融合部の処理を説明するためのフローチャートである。ホルマント周波数の平滑化の例を示す模式図である。ホルマント周波数の平滑化の例を示す模式図である。

符号の説明

１テキスト入力部
２言語処理部
３韻律処理部
４音声合成部
５音声波形出力部

Claims

目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割ステップと、
１つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択ステップと、
前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成ステップと、
前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合ステップと、
前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成ステップと、
前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成ステップと、
を有する音声合成方法。
前記パラメータ生成ステップは、予め記憶された複数のホルマントパラメータから、前記選択された複数の音声素片のそれぞれに対応するホルマントパラメータを抽出する、
請求項１記載の音声合成方法。
前記パラメータ生成ステップは、前記選択された音声素片に対応する前記ホルマントパラメータを生成する、
請求項１記載の音声合成方法。
前記ホルマントパラメータは、前記ホルマント周波数と、前記音声素片のホルマントの形状を表す形状パラメータを含む、
請求項１記載の音声合成方法。
前記形状パラメータは、少なくとも窓関数、位相、パワーを含む、
請求項１記載の音声合成方法。
前記形状パラメータは、少なくともパワー、ホルマント帯域幅を含む、
請求項１記載の音声合成方法。
前記パラメータ生成ステップは、前記選択された複数の音声素片のフレームの数が互いに異なるときは、前記フレームの数が一致するように対応付けする、
請求項１記載の音声合成方法。
前記融合ステップは、前記対応付けしたホルマントパラメータに含まれるホルマント周波数の数が互いに異なるときは、前記ホルマント周波数の数が一致するように対応付けする、
請求項１記載の音声合成方法。
前記融合ステップは、
前記ホルマント周波数を対応付けするときは、前記ホルマントパラメータ間の各ホルマント周波数の類似度を推定し、
前記類似度が任意の閾値より大きいときは、前記類似度が大きい前記ホルマント周波数同士を対応付けし、
前記類似度が前記閾値より小さいときは、前記対応付けしたいホルマント周波数と、同一のホルマント周波数でパワーが０のホルマントを仮想ホルマントとして作成し、
前記対応付けしたいホルマント周波数と前記仮想ホルマントのホルマント周波数を対応付ける、
請求項８記載の音声合成方法。
前記融合音声素片生成ステップは、
前記複数の音声素片のそれぞれの前記ホルマントパラメータに含まれるホルマント周波数、パワー、位相から正弦波をそれぞれ生成し、
前記正弦波に窓関数をかけることによって前記複数の音声素片のそれぞれのホルマント波形を生成し、
前記複数の音声素片のそれぞれのホルマント波形を加算して、前記フレーム毎のピッチ波形を生成し、
前記各フレームのピッチ波形を重畳することで前記融合音声素片を生成する、
請求項５記載の音声合成方法。
前記融合ステップにおいて、
前記ホルマントパラメータに含まれるホルマント周波数の変化を平滑化する、
請求項１記載の音声合成方法。
前記選択ステップは、
前記合成音声を前記音声素片群を用いて生成したときに生ずる、前記合成音声の前記目標音声に対する歪みの度合いを推定し、
前記歪み度合いが小さくなるように、前記複数のセグメントのそれぞれに対し前記複数の音声素片を選択する、
請求項１記載の音声合成方法。
目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割部と、
１つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択部と、
前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成部と、
前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合部と、
前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成部と、
前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成部と、
を有する音声合成装置。
目標音声に対応する音韻系列を合成単位で区切って、複数のセグメントを求める分割機能と、
１つ以上のフレームから構成された音声素片が複数格納された音声素片記憶部から、前記目標音声に対応する韻律情報を基に、前記複数のセグメントのそれぞれに対し、韻律的な特徴が一致、または、類似する複数の音声素片を選択する選択機能と、
前記選択された複数の音声素片のそれぞれのフレームに対して、少なくとも一つのホルマント周波数を含む一つのホルマントパラメータを生成するパラメータ生成機能と、
前記複数の音声素片のそれぞれのフレームに対応する一つの前記ホルマントパラメータから、前記フレーム毎に融合ホルマントパラメータを求める融合機能と、
前記フレーム毎の前記融合ホルマントパラメータから、前記各セグメントに対応する融合音声素片をそれぞれ求める融合音声素片生成機能と、
前記セグメント毎の融合音声素片を接続することによって合成音声を生成する合成機能と、
をコンピュータによって実現する音声合成プログラム。