JP4476855B2 - 音声合成装置及びその方法 - Google Patents

音声合成装置及びその方法 Download PDF

Info

Publication number
JP4476855B2
JP4476855B2 JP2005096472A JP2005096472A JP4476855B2 JP 4476855 B2 JP4476855 B2 JP 4476855B2 JP 2005096472 A JP2005096472 A JP 2005096472A JP 2005096472 A JP2005096472 A JP 2005096472A JP 4476855 B2 JP4476855 B2 JP 4476855B2
Authority
JP
Japan
Prior art keywords
speech
unit
synthesized
fusion
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005096472A
Other languages
English (en)
Other versions
JP2006276522A (ja
Inventor
勝美 土谷
岳彦 籠嶋
竜也 水谷
正統 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005096472A priority Critical patent/JP4476855B2/ja
Publication of JP2006276522A publication Critical patent/JP2006276522A/ja
Application granted granted Critical
Publication of JP4476855B2 publication Critical patent/JP4476855B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、例えばテキスト合成に用いられる音声合成装置及びその方法に関する。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、韻律処理部及び音声合成部の3つの段階によって行われる。
まず、入力されたテキストは、言語処理部において形態素解析や構文解析などが行われ、次に韻律処理部においてアクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。最後に、音声信号合成部で音韻系列・韻律情報から音声波形が生成される。
高品質な合成音声を生成する方法として、合成すべき音声に対応する音韻系列を合成単位に区切ることにより得られる複数セグメントのそれぞれに対し、入力された音韻系列・韻律情報を目標にして、大量の音声素片から複数の音声素片を選択し、選択された複数の音声素片を融合することによって新たな音声素片を生成した後、それらを接続して音声を合成する複数素片選択型の音声合成方法がある(非特許文献1)。
図25に、従来の複数素片選択型のテキスト音声合成装置の構成を示す。このテキスト音声合成装置は、テキスト入力部31、言語処理部32、韻律処理部33、音声合成部34、音声波形出力部10から構成される。言語処理部32は、テキスト入力部31から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部33へ送る。韻律処理部33は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部34へ送る。音声合成部34は、音韻記号列及び韻律情報から音声波形を生成する。こうして生成された音声波形は、音声波形出力部10で出力される。
音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、音声素片選択部12、素片融合部8、素片編集・接続部9により構成される。
音韻系列・韻律情報入力部7には、韻律処理部33から出力された目標音声の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部7に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。以下、音韻系列・韻律情報入力部7に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。入力音韻系列は、例えば音韻記号の系列である。
音声素片記憶部1には大量の音声素片が蓄積されており、それらの音声素片の音素環境の情報(音素環境情報)が音素環境記憶部2に蓄積されている。音声素片記憶部1には、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が、合成単位に対応する音声信号の波形あるいはその特徴を表すパラメータ系列などの形で記憶されている。
音声素片選択部12は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報を基に音声素片記号部1に記憶されている音声素片の中から複数の音声素片を選択する。
素片融合部8は、複数のセグメントのそれぞれに対し音声素片選択部12で選択された複数の音声素片を融合して、新たな音声素片を生成し、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列を生成する。
素片融合部8で生成された新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声は慶賀生成される。こうして生成された音声波形は音声波形出力部10で出力される。
上述したように、複数素片選択型の音声合成方法は、複数個の音声素片を融合して新たな音声素片を生成しているため、素片選択で品質の悪い音声素片が選択されたとしても、融合する他の音声素片によって補われ、合成音声の品質の劣化が抑えられる。その結果、高品質かつ安定感のある合成音声の生成が可能となっている。
また、さらなる品質改善の手法として、素片融合部8において、ピッチ波形の位相処理を行ったのち融合する方法や、ピッチ波形を複数の帯域に分割したのち融合する方法や、閉ループ学習と呼ばれる技術(例えば、特許文献1参照)を用いて融合する方法などがある。
水谷竜也、籠嶋岳彦:「複数素片選択融合方式による音声合成」、日本音響学会春季研究発表会講演論文集I、pp.217-218、Mar.2004 特許第3281281号公報
しかしながら、従来の複数素片選択型の音声合成技術では、ピッチ波形の平均によって融合素片を生成する場合は計算量は問題ないが、上述したような品質改善の手法(例えば、閉ループ学習)を適用した場合、素片融合の処理において膨大な計算量が必要となり、貧弱なコンピュータリソースの下では、リアルタイムな処理が実現できないという問題があった。
そこで、本発明は、上記従来技術の問題点を解決するためになされたものであって、貧弱なコンピュータリソースの下であっても、自然で高品質な合成音声をリアルタイムな処理で生成することのできる音声合成装置及びその方法を提供することを目的とする。
本発明は、合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択手段と、前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成手段と、前記第2の音声素片を接続することによって合成音声を生成する合成音声生成手段と、記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御手段と、を備え、前記融合制御手段は、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択することを特徴とする音声合成装置である。
本発明によれば、融合方式、融合素片数、重み付け係数、相関計算の範囲、帯域分割数及び帯域分割フィルタの次数の少なくともいずれかを適応的に制御することにより、自然で高品質な合成音声をリアルタイムな処理で生成することができる。
以下、本発明の実施形態について説明する。
[第1の実施形態]
以下、本発明の第1の実施形態に係るテキスト音声合成装置について説明する。
(1)テキスト音声合成装置の構成
図1は、本実施形態に係るテキスト音声合成装置の構成を示すブロック図である。
このテキスト音声合成装置は、テキスト入力部31、言語処理部32、韻律処理部33、音声合成部34、音声波形出力部10から構成される。
言語処理部32は、テキスト入力部31から入力されるテキストの形態素解析・構文解析を行い、その結果を韻律処理部33へ送る。韻律処理部33は、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列(音韻記号列)及び韻律情報を生成し、音声合成部34へ送る。音声合成部34は、音韻記号列及び韻律情報から音声波形を生成する。こうして生成された音声波形は音声波形出力部10で出力される。
(2)音声合成部34の構成
図2は、本実施形態の特徴的な部分である音声合成部34の構成例を示すブロック図である。
図2において、音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、音声素片選択部12、第1の素片融合部5、第2の素片融合部6、リソース分析部13、融合方式決定部14、素片編集・接続部9により構成される。図25の従来技術と大きく異なる点は、リソース分析部13及び融合方式決定部14が設けられていることと、素片融合部が複数設けられていることである。以下に、図3のフローチャートを用いながら、各処理の動作を説明する。
音韻系列・韻律情報入力部7には、韻律処理部33から出力された合成すべき音声(目標音声)の音韻系列及び韻律情報が入力される。音韻系列・韻律情報入力部7に入力される韻律情報としては、基本周波数、音韻継続時間長、パワーなどがある。また、入力音韻系列は、例えば音韻記号の系列である(ステップS1)。
リソース分析部13は、合成音声の生成に用いられるコンピュータのCPUパワーの情報を獲得し、その情報を融合方式決定部14に送る。コンピュータのCPUパワーの情報は、公知の技術を用いてコンピュータのリソース情報から獲得可能である(ステップS2)。
融合方式決定部14は、リソース分析部13において獲得されたコンピュータのCPUパワーの情報から、予め決定されているコンピュータのCPUパワーと融合方式の対応関係を参照して、どの融合方式を用いるかを決定する。
例えば、コンピュータのCPUパワーと融合方式との対応関係を、コンピュータのCPUパワーが予め設定したしきい値より小さいとき(コンピュータの能力が低いとき)は計算量の少ない融合方式を選択し、逆に、コンピュータのCPUパワーがしきい値より大きいとき(コンピュータの能力が高いとき)は計算量が多くても性能の優れた融合方式を選択するように決定しておけば、貧弱なCPUパワーを持つコンピュータを利用する場合でも高速な処理が行える。
また、コンピュータのCPUパワーの情報及び合成音声の時間長の情報から、リアルタイムに合成音声を生成するための計算量の上限を求めることができるので、融合方式とその計算量の対応関係を予め求めて記憶しておけば、コンピュータのCPUパワーの情報から、よりリアルタイムに近い処理で合成音声を生成することが可能となる(ステップS3)。
一方、音声素片選択部12は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、入力韻律情報を基に音素環境記憶部2に記憶されている音素環境情報を参照しながら、音声素片記憶部1に記憶されている音声素片の中から複数の音声素片を選択する。各セグメントに対し選択される複数の音声素片は、いずれも当該セグメントの音韻に対応するとともに、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴と一致あるいは類似する音声素片である。各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために入力韻律情報に基づき当該音声素片を変形したときに生ずる当該合成音声の目標音声に対する歪の度合いができるだけ少なくなるような音声素片である。しかも、各セグメントに対し選択される複数の音声素片のそれぞれは、合成音声を生成するために当該音声素片を当該セグメントの隣のセグメントの音声素片と接続した際に生ずる当該合成音声の目標音声に対する歪の度合いができるだけ少なくなるような音声素片である。本実施形態では、セグメント毎に、後述するコスト関数を用いて、目標音声に対する合成音声の歪の度合いを推定しながら、このような複数の音声素片を選択する。
なお、音声素片記憶部1には、合成音声を生成する際に用いる音声の単位(合成単位)の音声素片が、合成単位に対応する音声信号の波形あるいはその特徴を表すパラメータ系列などの形で大量に蓄積されている。ここで、合成単位とは、音素あるいは音素を分割したものの組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)などのことであって(Vは母音、Cは子音を表す)、これらが混在した可変長のものであってもよい。
また、音素環境記憶部2には、音声素片の音素環境の情報(音素環境情報)が蓄積されている。音声素片の音素環境とは、当該音声素片にとっての環境となる要因の組み合わせである。要因としては、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある(ステップS4)。
音声素片選択部12で選択された複数セグメントのそれぞれに対する音声素片は、第1の融合方式を適用した第1の素片融合部5あるいは第2の融合方式を適用した第2の素片融合部6のうち、融合方式決定部14で決定されたいずれかの融合部で融合が行われ、新たな音声素片が生成される。その結果、入力音韻系列の音韻記号の系列に対応する新たな音声素片の系列が得られる(ステップS5)。
そして、新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される(ステップS6)。
こうして生成された音声波形は音声波形出力部10で出力される(ステップS7)。
(2)音声合成部34の各処理
以下、音声合成部34の各処理について詳しく説明する。ここでは、合成単位の音声素片は音素であるとする。
音声素片記憶部1には、図4に示すように、各音素の音声信号の波形が当該音素を識別するための素片番号とともに記憶されている。また、音素環境記憶部2には、図5に示すように、音声素片記憶部1に記憶されている各音素の音素環境情報が、当該音素の素片番号41に対応付けて記憶されている。ここでは、音素環境として、音素記号42、基本周波数43、音韻継続時間長44が記憶されている。
音声素片記憶部1に記憶されている各音声素片は、別途収集された多数の音声データ対して音素毎にラベリングを行い、音素毎に音声波形を切り出したものを、音声素片として蓄積したものである。
例えば、図6には、音声データ71に対し、音素毎にラベリングを行った結果を示している。図6では、ラベル境界72により区切られた各音素の音声データ(音声波形)について、ラベルデータ73として音素記号を付与している。なお、この音声データから、各音素についての音素環境の情報(例えば、音韻(この場合、音素名(音素記号))、基本周波数、音韻継続時間長など)も抽出する。このようにして音声データ71から求めた各音声波形と、当該音声波形に対応する音素環境の情報には、同じ素片番号が与えられて、図4及び図5に示すように、音声素片記憶部1と音素環境記憶部2にそれぞれ記憶される。ここでは、音素環境情報には、音声素片の音韻とその基本周波数及び音韻継続時間長を含むものとする。
次に、音声素片選択部12において素片系列を求める際に用いられるコスト関数について説明する。まず、音声素片を変形・接続して合成音声を生成する際に生ずる歪の要因毎にサブコスト関数Cn(ui、ui−1、ti)(n:1、…、N、Nはサブコスト関数の数)を定める。ここで、tiは、入力音韻系列及び入力韻律情報に対応する目標とする音声(目標音声)をt=(t1、…、tI)としたときのi番目のセグメントに対応する部分の音声素片の目標とする音素環境情報を表し、uiは音声素片記憶部1に記憶されている音声素片のうち、tiと同じ音韻の音声素片を表す。
サブコスト関数は、音声素片記憶部1に記憶されている音声素片を用いて合成音声を生成したときに生ずる当該合成音声の目標音声に対する歪みの度合いを推定するためのコストを算出するためのものである。当該コストを算出するために、ここでは、具体的には、当該音声素片を使用することによって生じる合成音声の目標音声に対する歪みの度合いを推定する目標コストと、当該音声素片を他の音声素片と接続したときに生じる当該合成音声の目標音声に対する歪みの度合いを推定する接続コストという2種類のサブコストがある。
目標コストとしては、音声素片記憶部1に記憶されている音声素片の基本周波数と目標の基本周波数との違い(差)を表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)を表す音韻継続時間長コストを用いる。接続コストとしては、接続境界でのスペクトルの違い(差)を表すスペクトル接続コストを用いる。具体的には、基本周波数コストは、
Figure 0004476855
から算出する。ここで、viは音声素片記憶部1に記憶されている音声素片uiの音素環境を、fは音素環境viから平均基本周波数を取り出す関数を表す。また、音韻継続時間長コストは、
Figure 0004476855
から算出する。ここで、gは音素環境viから音韻継続時間長を取り出す関数を表す。スペクトル接続コストは、2つの音声素片間のケプストラム距離:
Figure 0004476855
から算出する。ここで、hは音声素片uiの接続境界のケプストラム係数をベクトルとして取り出す関数を表す。これらのサブコスト関数の重み付き和を合成単位コスト関数と定義する:
Figure 0004476855
ここで、wnはサブコスト関数の重みを表す。本実施例では、簡単のため、wnはすべて「1」とする。上記式(4)は、ある合成単位に、ある音声素片を当てはめた場合の当該音声素片の合成単位コストである。
入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、上記式(4)から合成単位コストを算出した結果を、全セグメントについて足し合わせたものをコストと呼び、当該コストを算出するためのコスト関数を次式(5)に示すように定義する:
Figure 0004476855
音声素片選択部12では、上記(1)〜(5)に示したコスト関数を使って2段階で1セグメントあたり(すなわち、1合成単位あたり)複数の音声素片を選択する。
(3)素片選択処理
図7は、素片選択処理を説明するためのフローチャートである。
まず、1段階目の素片選択として、ステップS111では、音声素片記憶部1に記憶されている音声素片群のなかから、上記式(5)で算出されるコストの値が最小の音声素片の系列を求める。このコストが最小となる音声素片の組み合わせを最適素片系列と呼ぶこととする。すなわち、最適音声素片系列中の各音声素片は、入力音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対応し、最適音声素片系列中の各音声素片から算出された上記合成単位コストと式(5)より算出されたコストの値は、他のどの音声素片系列よりも小さい値である。なお、最適素片系列の探索には、動的計画法(DP:dynamic programming)を用いることでより効率的に行うことができる。
次に、ステップS112に進み、2段階目の素片選択では、最適素片系列を用いて、1セグメントあたり複数の音声素片を選ぶ。ここでは、セグメントの数をJ個とし、セグメントあたりM個の音声素片を選ぶこととして、ステップS112の詳細を説明する。
ステップS113及びS114では、J個のセグメントのうちの1つを注目セグメントとする。ステップS113及びS114はJ回繰り返され、J個のセグメントが1回ずつ注目セグメントとなるように処理を行う。まず、ステップS113では、注目セグメント以外のセグメントには、それぞれ最適素片系列の音声素片を固定する。この状態で、注目セグメントに対して音声素片記憶部1に記憶されている音声素片を式(5)のコストの値に応じて順位付けし、上位M個を選択する。
例えば、図8に示すように、入力音韻系列が「ts・i・i・s・a・…」であるとする。この場合、合成単位は、音素「ts」、「i」、「i」、「s」、「a」、…のそれぞれに対応し、これら音素のそれぞれが1つのセグメントに対応する。図8では、入力された音韻系列中の3番目の音素「i」に対応するセグメントを注目セグメントとし、この注目セグメントについて、複数の音声素片を求める場合を示している。この3番目の音素「i」に対応するセグメント以外のセグメントに対しては、最適素片系列中の音声素片51a、51b、51d、51e…を固定する。
この状態で、音声素片記憶部1に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のそれぞれについて、式(5)を用いてコストを算出する。但し、それぞれの音声素片に対してコストを求める際に、値が変わるのは、注目セグメントの目標コスト、注目セグメントとその一つ前のセグメントとの接続コスト、注目セグメントとその一つ後のセグメントとの接続コストであるので、これらのコストのみを考慮すればよい。すなわち、次の手順となる。
(手順1) 音声素片記憶部1に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ音声素片のうちの1つを音声素片u3とする。音声素片u3の基本周波数f(v3)と、目標の基本周波数f(t3)とから、式(1)を用いて、基本周波数コストを算出する。
(手順2) 音声素片u3の音韻継続時間長g(v3)と、目標の音韻継続時間長g(t3)とから、式(2)を用いて、音韻継続時間長コストを算出する。
(手順3) 音声素片u3のケプストラム係数h(u3)と、音声素片51b(u2)のケプストラム係数h(u2)とから、式(3)を用いて、第1のスペクトル接続コストを算出する。また、音声素片u3のケプストラム係数h(u3)と、音声素片51d(u4)のケプストラム係数h(u4)とから、式(3)を用いて、第2のスペクトル接続コストを算出する。
(手順4) 上記(手順1)〜(手順3)で各サブコスト関数を用いて算出された基本周波数コストと音韻継続時間長コストと第1及び第2のスペクトル接続コストの重み付け和を算出して、音声素片u3のコストを算出する。
(手順5) 音声素片記憶部1に記憶されている音声素片のうち、注目セグメントの音素「i」と同じ音素名(音素記号)をもつ各音声素片について、上記(手順1)〜(手順4)に従って、コストを算出したら、その値の最も小さい音声素片ほど高い順位となるように順位付けを行う(図7のステップS113)。そして、上位M個の音声素片を選択する(図7のステップS114)。例えば、図8では、音声素片52aが最も順位が高く、音声素片52dが最も順位が低い。
以上の(手順1)〜(手順5)をそれぞれのセグメントに対して行う。その結果、それぞれのセグメントについて、M個ずつの音声素片が得られる。なお、上記目標コストは、合成音声を生成するために入力韻律情報を基に、融合された音声素片の基本周波数や音韻継続時間長などを素片編集・接続部9で変えることにより生ずる当該合成音声の目標音声に対する歪をできるだけ正確に推定(評価)するものであることが望ましい。そのような目標コストの一例である式(1)、(2)から算出される目標コストは、当該歪の度合いを、目標音声の韻律情報と音声素片記憶部1に記憶されている音声素片の韻律情報の違いに基づき算出されるものである。また、接続コストは、合成音声を生成するために融合された音声素片を接続することにより生ずる当該合成音声の目標音声に対する歪をできるだけ正確に推定(評価)するものであることが望ましい。そのような接続コストの一例である、式(3)から算出される接続コストは、音声素片記憶部1に記憶されている音声素片の接続境界のケプストラム係数の違いに基づき算出されるものである。
次に、第1の素片融合部5及び第2の素片融合部6の処理について説明する。それぞれの素片融合部5,6では、素片選択部12で求めた複数のセグメントのそれぞれについて選択されたM個の音声素片から、セグメント毎に当該M個の音声素片を融合し、新たな音声素片(融合された音声素片)を生成する。有声音の波形は周期があるが、無声音の波形は周期がないため、このステップは音声素片が有声音である場合と無声音である場合とで別の処理を行う。そして、第1の素片融合部5よりも第2の素片融合部6の方がリソースが少なくて処理を行える。
(4)第1の融合部5
まずは、第1の融合部5において、有声音の場合について説明する。
有声音の場合には、音声素片からピッチ波形を取り出し、ピッチ波形のレベルで融合し、新たなピッチ波形を作り出す。ピッチ波形とは、その長さが音声の基本周期の数倍程度までで、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すようなものを意味する。
その抽出方法としては、単に基本周期同期窓で切り出す方法、ケプストラム分析やPSE分析によって得られたパワースペクトル包絡を逆離散フーリエ変換する方法、線形予測分析によって得られたフィルタのインパルス応答によってピッチ波形を求める方法、閉ループ学習法によって合成音声のレベルで自然音声に対する歪が小さくなるようなピッチ波形を求める方法など様々なものがある。
ここでは、基本周期同期窓で切り出す方法を用いてピッチ波形を抽出する場合を例にとり、図9のフローチャートを参照して説明する。ここでは、複数のセグメントのうちのある1つのセグメントについて、M個の音声素片を融合して1つの新たな音声素片を生成する場合の処理手順を説明する。
ステップS121において、M個の音声素片のそれぞれの音声波形に、その周期間隔毎にマーク(ピッチマーク)を付ける。図10(a)には、M個の音声素片のうちの1つの音声素片の音声波形61に対し、その周期間隔毎にピッチマーク62が付けられている場合を示している。ステップS122では、図10(b)に示すように、ピッチマークを基準として窓掛けを行ってピッチ波形を切り出す。窓にはハニング窓63を用い、その窓長は基本周期の2倍とする。そして、図10(c)に示すように、窓掛けされた波形64をピッチ波形として切り出す。M個の音声素片のそれぞれについて、図10に示すような処理(ステップS122の処理)を施す。その結果、M個の音声素片のそれぞれについて、複数個のピッチ波形からなるピッチ波形の系列が求まる。
次にステップS123に進み、当該セグメントのM個の音声素片のそれぞれのピッチ波形の系列のなかで、最もピッチ波形の数が多いものに合わせて、M個全てのピッチ波形の系列中のピッチ波形の数が同じになるように、(ピッチ波形の数が少ないピッチ波形の系列については)ピッチ波形を複製して、ピッチ波形の数をそろえる。
図11には、当該セグメントのM個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれから、ステップS122で切り出されたピッチ波形の系列e1〜e3を示している。ピッチ波形の系列e1中のピッチ波形の数は7個、ピッチ波形の系列e2中のピッチ波形の数は5個、ピッチ波形の系列e3中のピッチ波形の数は6個であるので、ピッチ波形の系列e1〜e3のうち最もピッチ波形の数が多いものは、系列e1である。従って、この系列e1中のピッチ波形の数(例えば、ここでは、ピッチ波形の数は、7個)に合わせて、他の系列e2、e3については、それぞれ、当該系列中のピッチ波形のいずれかをコピーして、ピッチ波形の数を7個にする。その結果得られた、系列e2、e3のそれぞれに対応する新たなピッチ波形の系列がe2’e3’である。
次に、ステップS124に進む。このステップでは、ピッチ波形毎に処理を行う。ステップS124では、当該セグメントのM個のそれぞれの音声素片に対応するピッチ波形をその位置毎に平均化し、新たなピッチ波形の系列を生成する。この生成された新たなピッチ波形の系列を融合された音声素片とする。
図12には、当該セグメントのM個(例えば、ここでは、3個)の音声素片d1〜d3のそれぞれからステップS123で求めたピッチ波形の系列e1、e2’e3’を示している。各系列中には、7個のピッチ波形があるので、ステップS124では、1番目から7番目のピッチ波形をそれぞれ3つの音声素片で平均化し、7個の新たなピッチ波形からなる新たなピッチ波形の系列f1を生成している。すなわち、例えば、系列e1の1番目とピッチ波形と、系列e2’の1番目のピッチ波形と、系列e3’の1番目のピッチ波形のセントロイドを求めて、それを新たなピッチ波形の系列f1の1番目のピッチ波形とする。新たなピッチ波形の系列f1の2番目〜7番目のピッチ波形についても同様である。ピッチ波形の系列f1が、上記「融合された音声素片」である。
(5)第2の素片融合部6
一方、第2の素片融合部6では、第1の融合部5と比較して、計算量は増加するが品質が改善されるような手法を用いる。例えば、閉ループ学習を使うことで、それぞれの音声素片のピッチ波形を取り出すことなく、合成音のレベルで最適なピッチ波形系列を作り出すことができる。閉ループ学習とは、実際に基本周波数や韻律継続時間長を変更して合成された合成音声のレベルで、自然音声に対する歪が小さくなるような代表音声素片を生成する方法である。閉ループ学習では、合成音声のレベルで歪が小さくなるような素片を生成するため、第1の素片融合部5のように、ピッチ波形の平均化によって新たな音声素片を作成する場合よりも、高品質な音声素片が作成される(特許第3281281号参照)。
以下に、閉ループ学習を用いて、有声音の音声素片を融合する場合について説明する。
融合によって求められる音声素片は、第1の素片融合部5によって作成される音声素片と同様に、ピッチ波形の系列として求められる。これらのピッチ波形を連結して構成されるベクトルuで音声素片をあらわすこととする。
まず、音声素片の初期値を用意する。初期値としては、第1の素片融合部5と同様の手法によって求められるピッチ波形の系列を用いてもよいし、ランダムなデータを用いても良い。ここで、素片選択部12で求められた当該セグメントに対するM個の音声素片の波形を表すベクトルをrj (j=1、2、…、M)とする。次に、uを用いて、rjを目標としてそれぞれ音声信号を合成する。生成された合成音声セグメントをsjと表す。sjは、次式(6)のように、ピッチ波形の重畳を表す行列Ajとuの積で表される。
Figure 0004476855
rjのピッチマークとuのピッチ波形とのマッピング、及びrjのピッチマーク位置より行列Ajは決定される。行列Ajの例を図13に示す。
次に、合成音声セグメントsjとrjの誤差を評価する。sjとrjの誤差ejを次式(7)で定義する。
Figure 0004476855
但し、次式(8)、(9)に示すように、gjは2つの波形の平均的なパワーを補正して、波形の歪のみを評価するためのゲインであり、ejが最小となるような最適ゲインを用いている。
Figure 0004476855
ベクトルrj全てに対する総和を表す評価関数Eを次式(10)で定義する。
Figure 0004476855
Eを最小にする最適なベクトルuは、Eをuで片微分して「0」とおくことで得られる次式(11)、(12)を解くことによって求められる。
Figure 0004476855
式(12)は、uについての連立方程式であり、これを解くことによって新たな音声素片uを一意に求めることができる。ベクトルuが更新されることによって、最適ゲインgjが変化するため、上述したプロセスをEの値が収束するまで繰り返し、収束した時点のベクトルを、融合によって生成された音声素片として用いる。
一方、素片融合部の処理において、無声音のセグメントの場合には、音声素片選択部12で選択された当該セグメントのM個の音声素片のうち、当該M個の音声素片のそれぞれに付けられている順位が1位の音声素片の音声波形をそのまま使用する。
(6)素片編集・接続部9
素片編集・接続部9では、第1あるいは第2の素片融合部5,6で求めたセグメント毎の融合された音声素片を、入力韻律情報に従って変形し、接続することで合成音声の音声波形を生成する。融合された音声素片は、実際にはピッチ波形の形になっているので、当該融合された音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、目標音声の音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図14は、素片編集・接続部9の処理を説明するための図である。図14では、音素「m」、「a」、「d」、「o」の各合成単位について素片融合部で求めた融合された音声素片を変形・接続して、「まど」という音声波形を生成する場合を示している。図14に示すように、入力韻律情報に示されている目標の基本周波数、目標の音韻継続時間長に応じて、セグメント(合成単位)毎に、融合された音声素片中の各ピッチ波形の基本周波数を変えたり(音の高さを変えたり)、ピッチ波形の数を増やしたり(時間長を変えたり)する。その後に、セグメント内、セグメント間で、隣り合うピッチ波形を接続して合成音声を生成する。
上述したように、本実施形態では、コンピュータリソースに応じて素片融合方式を適応的に切り替えることで、コンピュータのリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。
(7)本実施形態の変更例
(7−1)変更例1
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、素片融合方式を切り替えることにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図15に示されるように、図2におけるリソース分析部13の代わりに音声素片記憶部1の容量やそこに格納されている音声素片の特性を分析する音声素片分析部15を設け、音声素片記憶部1の容量やそこに格納さている音声素片の特性に応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。
(7−2)変更例2
また、音声素片選択部12で算出されたコストに応じて素片融合部を適切に切り替えることにより、合成音声の品質を改善することも可能である。
例えば、音声素片記憶部1の容量が大きい場合や、音声素片選択部12で算出されたコストが小さい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが高く、素片融合による音声素片の変形を積極的に行わなくても高品質な合成音声を生成することが可能である。
逆に、音声素片記憶部1の容量が小さい場合や、音声素片選択部12で算出されたコストが大きい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが低いため、高品質な合成音声を生成するためには、素片融合による音声素片の変形を積極的に行う必要がある。
従って、上述したように、音声素片記憶部1のサイズやそこに格納されている音声素片の特性あるいは素片選択部12で算出されるコストに応じて素片融合部を適切に制御することで、合成音声の品質を改善することが可能となる。
(7−3)変更例3
更には、図16に示されるように、音韻系列及び韻律情報に応じて、素片融合方式を切り替えることも可能である。予め、音韻系列及び韻律情報に対する最適な(合成音声の品質が良くなる)素片融合方式を求めておけば、生成される合成音声の品質を大きく改善することが可能となる。
(7−4)変更例4
なお、本実施形態では、素片融合方式を2つ設け、それらを切り替えて使用する構成になっているが、素片融合方式は2つに限定される必要はなく、3つ以上の素片融合方式を設けて、それらを適応的に切り替えるような構成にしても良い。
[第2の実施形態]
本発明の第2の実施形態に係るテキスト音声合成装置について説明する。
(1)音声合成部34の構成
図17は、本発明の第2の実施形態に係るテキスト音声合成装置の音声合成部34の構成を示すブロック図である。
図17において、音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、素片選択部12、素片融合部8、リソース分析部13、融合素片数決定部16、素片編集・接続部9により構成される。
図2に示される第1の実施形態と大きく異なる点は、素片融合部が1つ設けられ、融合方式決定部14の代わりに融合素片数決定部16が設けられていることである。また、図25に示される従来技術と異なる点は、リソース分析部13及び融合素片数決定部16が設けられていることと、後述するように、音声素片選択部12は、融合素片数決定部16で決定された数の音声素片を各セグメントに対して選択することである。以下に、図17を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。
リソース分析部13は、合成音声の生成に用いられるコンピュータのCPUパワーの情報を獲得し、その情報を融合素片数決定部16に送る。
融合素片数決定部16は、リソース分析部13において獲得されたコンピュータのCPUパワーの情報から、予め決定されているコンピュータのCPUパワーと融合素片数の対応関係を参照して、各セグメントに対し選択される音声素片の数を決定する。
例えば、音声素片数の候補を2つ用意し(K、L:K=<L)、コンピュータのCPUパワーと融合素片数の対応関係を、コンピュータのCPUパワーが予め設定したしきい値よりも小さいとき(コンピュータの能力が低いとき)は小さい候補Kを採用し、逆に、コンピュータのCPUパワーがしきい値より大きいとき(コンピュータの能力が高いとき)は大きい候補Lを採用するように決定しておけば、貧弱なCPUパワーを持つコンピュータを利用する場合でも高速な処理が行える。
ここで、音声素片数の候補の一方を1に設定すると、コンピュータの能力が低い場合は素片融合を行わず、コンピュータの能力が高い場合は素片融合を行うことになる。このような切り替えを行うことで、リアルタイム処理で合成音声を生成することが可能になる。また、コンピュータのCPUパワーの情報及び合成音声の時間長の情報から、リアルタイムに合成音声を生成するための計算量の上限を求めることができるので、融合素片数とそのときの計算量の対応関係を予め求めて記憶しておけば、コンピュータのCPUパワーの情報から、リアルタイム処理で合成音声を生成するために必要な融合素片数を決定することができる。
通常、融合素片数が多くなれば合成音声の生成に必要な計算量は多くなり、逆に、融合素片数が少なくなれば合成音声の生成に必要な計算量は少なくなるので、 コンピュータのCPUパワーが小さいときは融合素片数を少なくし、コンピュータのCPUパワーが大きいときは融合素片数を大きくなるような対応関係を用意することが望ましい。
一方、音声素片選択部12は、融合素片数決定部16の結果を受けて、そこで決定された数の音声素片を各セグメントに対して音声素片記憶部1から選択し、それらを素片融合部8に送る。複数の音声素片の選択は第1の実施形態で述べた手法で実施できる。
素片融合部8では、 音声素片選択部12で選択された複数セグメントのそれぞれに対する複数の音声素片が融合され、新たな音声素片の系列が生成される。融合方式は、第1の実施形態で述べた、ピッチ波形を平均する手法や、閉ループ学習に基づく手法、あるいはそれ以外の手法のいずれを用いても構わない。
新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
そして、こうして生成された音声波形は音声波形出力部10で出力される。
上述したように、本実施形態では、コンピュータリソースに応じて融合素片数を適応的に制御することで、コンピュータリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。
(2)第2の実施形態の変更例
(2−1)変更例1
なお、本実施形態は、コンピュータのリソースが貧弱な場合であっても、融合素片数を適応的に制御することにより、自然で高品質な合成音声をリアルタイムな処理で生成することを目的としている。しかし、図18に示されるように、図17におけるリソース分析部13の代わりに音声素片記憶部1の容量やそこに格納されている音声素片の特性を分析する音声素片分析部15を設け、音声素片記憶部1の容量やそこに格納さている音声素片の特性に応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。また、音声素片選択部12で算出されたコストに応じて融合素片数を適応的に制御することにより、合成音声の品質を改善することも可能である。
例えば、音声素片記憶部1の容量が大きい場合や、音声素片選択部12で算出されたコストが小さい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に選択された音声素片が類似する度合いが高く、素片融合による音声素片の変形を積極的に行わなくても高品質な合成音声を生成することが可能である。逆に、音声素片記憶部1の容量が小さい場合や、音声素片選択部12で算出されたコストが大きい場合などは、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に、選択された音声素片の類似する度合いが低いため、高品質な合成音声を生成するためには、素片融合による音声素片の変形を積極的に行う必要がある。通常、融合素片数が少ないと素片融合による音声素片の変形量が少なく、逆に、融合素片数が多いと素片融合による音声素片の変形量が大きくなる。従って、音声素片記憶部1の容量が大きい場合や音声素片選択部12で算出されるコストが小さい場合は融合素片数を少なく、逆に、音声素片記憶部1の容量が小さい場合や音声素片選択部12で算出されるコストが大きい場合は融合素片数を多くすることが望ましい。例えば、融合素片数の候補を1とそれ以外のLに設定しておき、音声素片記憶部1の容量が予め設定したしきい値より大きければ融合素片数として1を採用し、逆に、しきい値より小さければ融合素片数としてLを採用する。同様に、融合素片数の候補を1とそれ以外のLに設定しておき、音声素片選択部12で算出されるコストが予め設定したしきい値より小さければ融合素片数として1を採用し、逆に、しきい値より大きければ融合素変数としてLを採用する。また、融合素片数を適応的に制御する方法として、コストが予め設定されたしきい値より小さくなる素片が存在する場合は、それらの素片のみを使う方法なども考えられる。
(2−2)変更例2
更には、図19に示されるように、音韻系列及び韻律情報に応じて、融合素片数を適応的に制御することも可能である。予め、音韻系列及び韻律情報に対する最適な(合成音声の品質が良くなる)融合素片数を求めておき、入力音韻系列及び韻律情報に応じて融合素片数を適応的に制御すれば、生成される合成音声の品質を大きく改善することが可能である。
[第3の実施形態]
図20は、本発明の第3の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
図20において、音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、音声素片選択部12、音声素片分析部15、重み付け素片融合部18、融合重み付け係数決定部17、素片編集・接続部9により構成される。
図15に示される第1の実施形態の変形と大きく異なる点は、重み付け素片融合部18が1つ設けられ、融合方式決定部14の代わりに融合重み付け係数決定部17が設けられていることである。また、図25に示される従来技術と異なる点は、音声素片分析部15及び融合重み付け係数決定部17が設けられていることと、後述するように、重み付け素片融合部18において、音声素片選択部12で選択された音声素片に対して、融合重み付け係数決定部17で決定された重み付け係数を用いた重み付けをして音声素片の融合を行うことである。以下に、図20を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。
音声素片分析部15は、音声素片記憶部1の容量あるいはそこに格納されている音声素片の特性を分析し、その結果を融合重み付け係数決定部17に送る。
融合重み付け係数決定部17は、音声素片分析部15で求められた音声素片記憶部1の容量あるいはそこに格納されている音声素片の特性から、予め決定されている融合重み付け係数との対応関係を参照して、各セグメントに対し選択された複数の音声素片それぞれに対する融合重み付け係数を決定する。例えば、音声素片記憶部15の容量と融合重み付け係数の対応関係を、音声素片記憶部15の容量が大きくなるにつれて音声素片の第1候補に対する重み付け係数がその他の候補に対する重み付け係数より大きくなるように決定する。つまり、音声素片記憶部1の容量が大きくなるにつれて、当該セグメントに対応する入力韻律情報で示されている韻律的な特徴に、音声素片選択部12で選択された素片の類似する度合いが高くなるので、このような重み付け係数を与えることで素片融合による音声素片の変形を積極的に行わないようにする。
重み付け素片融合部18では、音声素片選択部12で選択された複数の音声素片に対して、融合重み付け決定部17で決定された重み付け係数を用いた音声素片の融合が行われ、生成された新たな音声素片の系列が生成される。
そして、新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
こうして生成された音声波形は、音声波形出力部10で出力される。
上述したように、本実施形態では、音声素片記憶部1の容量あるいはそこに格納されている音声素片の特性に応じて融合重み付け係数を適応的に制御することで、合成音声の品質を改善することが可能である。
また、図21に示されるように、第1候補のコストの値に従って第1候補に対する重み付け係数の値を適応的に変えることにより、合成音声の品質は改善される。例えば、コストの値が小さいときは重み付け係数の値を大きくし、逆に、コストの値が大きいときは重み付け係数の値を小さくする。つまり、コストの値が小さければ音声素片の類似度は高く、このときの第1候補の重みを大きく設定すれば、融合による変形量が抑えられ、その結果、合成音声の品質が改善される。
更には、図22に示されるように、音韻系列及び韻律情報に応じて、融合重み付け係数を適応的に制御することも可能である。予め、音韻系列及び韻律情報に対する最適な融合重み付け係数を求めておき、入力音韻系列及び韻律情報に応じて融合重み付け係数を適応的に制御すれば、生成される合成音声の品質を改善することが可能となる。
[第4の実施形態]
図23は、本発明の第4の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
図23において、音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、音声素片選択部12、リソース分析部13、相関計算範囲決定部19、相関計算付き素片融合部20、素片編集・接続部9により構成される。
図2に示される第1の実施形態と大きく異なる点は、素片融合部として、相関計算付き素片融合部20が1つ設けられ、融合方式決定部14の代わりに相関計算範囲決定部19が設けられていることである。また、図25に示される従来技術と異なる点は、リソース分析部13及び相関計算範囲決定部19が設けられていることと、後述するように、相関計算付き素片融合部20において、相関計算範囲決定部19で決定された範囲で相関計算を行って素片の融合を行うことである。以下に、図23を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。
リソース分析部13は、合成音声の生成に用いられるコンピュータのCPUパワーの情報を獲得し、その情報を相関計算範囲決定部19に送る。
相関計算範囲決定部19は、リソース分析部13において獲得されたコンピュータのパワーの情報から、予め決定されているコンピュータのCPUパワーと相関計算範囲の対応関係を参照して、相関計算範囲を決定する。
一方、音声素片選択部12は、予め決定された数の音声素片を各セグメントに対して音声素片記憶部1から選択し、それらを相関計算付き素片融合部20に送る。
相関計算付き素片融合部20では、音声素片選択部12で選択された複数セグメントのそれぞれに対する複数の音声素片が、第1の実施形態で述べたピッチ波形を平均化する手法により融合される。但し、各ピッチ波形の位相にずれが生じた状態でピッチ波形の平均化を行うと合成音声の品質が劣化するため、平均化を行う前にピッチ波形の位相のずれを補正するような位相処理を行う。位相のずれは、ピッチ波形の相関を計算して相関値が最大になるように探索されるので、この探索範囲(相関計算範囲)を制御することで素片融合に伴う計算量を制御することが可能となる。つまり、演算量を削減したい場合は相関計算範囲を小さく設定すればよい。もちろん、相関計算範囲を小さく設定する影響で合成音声の品質が劣化することも考えられるので、計算量に余裕がある場合は、合成音声の品質を保持するために相関計算範囲を大きくすることが望ましい。
そして、新たな音声素片の系列は、素片編集・接続部9において、入力韻律情報に基づいて変形及び接続され、合成音声の音声波形が生成される。
こうして生成された音声波形は、音声波形出力部10で出力される。
このように、コンピュータのリソースに応じて素片融合における相関計算の範囲を適応的に制御することで、コンピュータのリソースが貧弱な場合であっても、リアルタイムな音声合成処理を実現することが可能になる。
[第5の実施形態]
図24は、本発明の第5の実施形態に係るテキスト音声合成装置の音声合成部の構成を示すブロック図である。
図24において、音声合成部34は、音声素片記憶部1、音素環境記憶部2、音韻系列・韻律情報入力部7、音声素片選択部12、リソース分析部13、帯域分割数決定部21、帯域分割素片融合部22、素片編集・接続部9により構成される。
図2に示される第1の実施形態と大きく異なる点は、素片融合部として、帯域分割素片融合部22が1つ設けられ、融合方式決定部14の代わりに帯域分割数決定部21が設けられていることである。また、図25に示される従来技術と異なる点は、リソース分析部13及び帯域分割数決定部21が設けられていることと、後述するように、帯域分割素片融合部22において、帯域分割数決定部21で決定された数の帯域分割を行って素片の融合を行うことである。以下に、図24を用いて、従来技術と異なる部分を中心に各処理の動作を説明する。
リソース分析部13は、合成音声の生成に用いられるコンピュータのCPUパワーの情報を獲得し、その情報を帯域分割数決定部21に送る。
帯域分割数決定部21は、予め決定されているCPUパワーと帯域分割数の対応関係を参考に、コンピュータのCPUパワーの情報から、融合における音声素片の帯域分割の数を決定する。
帯域分割素片融合部22は、帯域分割数決定部21により決定された数の帯域に音声素片を分割した後、帯域毎に素片の融合処理を行い、新たな音声素片を生成する。帯域分割を行ったのち、帯域毎に素片の融合を行うことで、各帯域の特徴が強く残された波形を生成することが可能である。なお、素片の帯域分割処理は、帯域分割フィルタを用いる方法や、FFTを用いる方法などの公知の技術を用いて実現可能である。
通常、帯域分割数が増えるに従い素片融合に伴う計算量は増加すると考えられるので、帯域分割決定部21において、コンピュータのCPUパワーが小さいときは帯域分割の数が少なくなるように、逆に、コンピュータのCPUパワーが大きいときは帯域分割の数が多くなるように帯域分割数を制御すれば、貧弱なCPUパワーを持つコンピュータを利用する場合でも高速な処理が可能となる。
また、帯域分割素片融合部22において、帯域分割フィルタを用いて音声素片の帯域分割を行う場合、コンピュータのCPUパワーが小さいときは帯域分割フィルタの次数(タップ数)を小さくなるように、帯域分割フィルタの次数を適応的に制御することで、貧弱なCPUパワーを持つコンピュータを利用する場合でも高速な処理が可能となる。もちろん、帯域分割フィルタの次数を増やせば、帯域分割の精度が向上するので、コンピュータのCPUパワーに余裕がある場合は、帯域分割フィルタの次数を増やすことが望ましい。
[変更例]
以上、本発明の実施形態を幾つか説明したが、本発明は上述した実施形態に限られるものではなく、種々変形して実施が可能である。例えば、音声素片の抽出単位、コスト関数、融合方式を変えて本発明を実施することも可能である。
また、上述した本発明に基づく音声合成処理は、ハードウェアにより実現することも可能であるが、コンピュータを用いてソフトウェア処理により実現することも可能である。従って、本発明によれば上述した音声合成処理をコンピュータに行わせるためのプログラムを提供することもできる。
本発明の第1の実施形態に係るテキスト音声合成装置の全体構成を示すブロック図である。 図1における音声合成部34の詳細な構成を示すブロック図である。 図2における音声合成部34の処理を示すフローチャートである。 図2における音声素片記憶部1のデータ構成を模式的に示す図である。 図2における音素環境記憶部2のデータ構成を模式的に示す図である。 音声データに対し、音素毎にラベリングを行った結果を示す図である。 図2における音声素片選択部12の処理を示すフローチャートである。 図2における音声素片選択部12の処理を示す図である。 図2における第1の素片融合部5の処理を示すフローチャートである。 ステップS122におけるピッチ波形を切り出す処理を示す図である。 ステップS123におけるピッチ波形の数をそろえる処理を示す図である。 ステップS124におけるピッチ波形の平均を計算する処理を示す図である。 行列Ajの例を示す図である。 図2における素片編集・接続部9の処理を示す図である。 本発明の第1の実施形態に係る音声合成部34の第1の変形を示すブロック図である。 本発明の第1の実施形態に係る音声合成部34の第2の変形を示すブロック図である。 本発明の第2の実施形態に係る音声合成部34の詳細な構成を示すブロック図である。 本発明の第2の実施形態に係る音声合成部34の第1の変形を示すブロック図である。 本発明の第2の実施形態に係る音声合成部34の第2の変形を示すブロック図である。 本発明の第3の実施形態に係る音声合成部34の詳細な構成を示すブロック図である。 本発明の第3の実施形態に係る音声合成部34の第1の変形を示すブロック図である。 本発明の第3の実施形態に係る音声合成部34の第2の変形を示すブロック図である。 本発明の第4の実施形態に係る音声合成部34の詳細な構成を示すブロック図である。 本発明の第5の実施形態に係る音声合成部34の詳細な構成を示すブロック図である。 従来の複数素片選択型のテキスト音声合成装置の構成を示すブロック図である。
符号の説明
1 ・・・音声素片記憶部
2 ・・・音素環境記憶部
5 ・・・第1の素片融合部
6 ・・・第2の素片融合部
7 ・・・音韻系列・韻律情報入力部
8 ・・・素片融合部
9 ・・・素片編集・接続部
10・・・音声波形出力部
12・・・音声素片選択部
13・・・リソース分析部
14・・・融合方式決定部
15・・・音声素片分析部
16・・・融合素片数決定部
17・・・融合重み付け係数決定部
18・・・重み付け素片融合部
19・・・相関計算範囲決定部
20・・・相関計算付き素片融合部
21・・・帯域分割数決定部
22・・・帯域分割素片融合部
31・・・テキスト入力部
32・・・言語処理部
33・・・韻律情報処理部
34・・・音声合成部
41・・・素片番号
42・・・音素記号
43・・・基本周波数
44・・・音韻継続時間長
71・・・音声データ
72・・・ラベル境界
73・・・ラベルデータ

Claims (4)

  1. 合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択手段と、
    前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成手段と、
    前記第2の音声素片を接続することによって合成音声を生成する合成音声生成手段と、
    前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御手段と、
    を備え、
    前記融合制御手段は、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
    ことを特徴とする音声合成装置。
  2. 前記生成した合成音声と前記合成すべき音声との歪の度合いを、前記韻律情報を用いて推定する歪度合い推定手段を備える
    ことを特徴とする請求項1に記載の音声合成装置。
  3. コンピュータが、合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択ステップと、
    前記コンピュータが、前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成ステップと、
    前記コンピュータが、前記第2の音声素片を接続することによって合成音声を生成する合成音声生成ステップと、
    前記コンピュータが、前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御ステップと、
    を備え、
    前記融合制御ステップにおいては、前記コンピュータが、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
    ことを特徴とする音声合成方法。
  4. コンピュータに、
    合成すべき音声に対応する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記合成すべき音声に対応する韻律情報を基に、予め記憶した音声素片群から複数の第1の音声素片を選択する第1の音声素片選択機能と、
    前記複数の第1の音声素片を融合することによって、前記複数のセグメントのそれぞれに対して、第2の音声素片を生成する第2の音声素片生成機能と、
    前記第2の音声素片を接続することによって合成音声を生成する合成音声生成機能と、
    前記合成音声の高品質化のために前記複数の第1の音声素片の融合方法を、複数の素片融合方法から一つ選択する融合制御機能と、
    を実現させるための音声合成プログラムであり、
    前記融合制御機能においては、前記音韻系列と前記韻律情報が入力される毎にリアルタイムに、前記生成した合成音声と前記合成すべき音声との歪の度合いが大きい程、前記複数の素片融合方法から高い品質の融合方法を選択する
    ことを特徴とする音声合成プログラム。
JP2005096472A 2005-03-29 2005-03-29 音声合成装置及びその方法 Expired - Fee Related JP4476855B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005096472A JP4476855B2 (ja) 2005-03-29 2005-03-29 音声合成装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005096472A JP4476855B2 (ja) 2005-03-29 2005-03-29 音声合成装置及びその方法

Publications (2)

Publication Number Publication Date
JP2006276522A JP2006276522A (ja) 2006-10-12
JP4476855B2 true JP4476855B2 (ja) 2010-06-09

Family

ID=37211342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005096472A Expired - Fee Related JP4476855B2 (ja) 2005-03-29 2005-03-29 音声合成装置及びその方法

Country Status (1)

Country Link
JP (1) JP4476855B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
CN103329200B (zh) * 2011-05-24 2016-04-20 三菱电机株式会社 目标音增强装置以及车辆导航系统
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法

Also Published As

Publication number Publication date
JP2006276522A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4551803B2 (ja) 音声合成装置及びそのプログラム
US8010362B2 (en) Voice conversion using interpolated speech unit start and end-time conversion rule matrices and spectral compensation on its spectral parameter vector
JP4469883B2 (ja) 音声合成方法及びその装置
US7580839B2 (en) Apparatus and method for voice conversion using attribute information
JP3910628B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
US8630857B2 (en) Speech synthesizing apparatus, method, and program
JP4476855B2 (ja) 音声合成装置及びその方法
JP2009133890A (ja) 音声合成装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP3281281B2 (ja) 音声合成方法及び装置
JP4034751B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5862667B2 (ja) 波形処理装置、波形処理方法および波形処理プログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP5999092B2 (ja) ピッチパタン生成方法、ピッチパタン生成装置、音声合成装置およびピッチパタン生成プログラム
WO2014017024A1 (ja) 音声合成装置、音声合成方法、及び音声合成プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100216

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100310

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130319

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140319

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees