JP2008033133A - 音声合成装置、音声合成方法および音声合成プログラム - Google Patents

音声合成装置、音声合成方法および音声合成プログラム Download PDF

Info

Publication number
JP2008033133A
JP2008033133A JP2006208421A JP2006208421A JP2008033133A JP 2008033133 A JP2008033133 A JP 2008033133A JP 2006208421 A JP2006208421 A JP 2006208421A JP 2006208421 A JP2006208421 A JP 2006208421A JP 2008033133 A JP2008033133 A JP 2008033133A
Authority
JP
Japan
Prior art keywords
speech
unit
segment
distortion
phoneme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2006208421A
Other languages
English (en)
Inventor
Shinko Morita
眞弘 森田
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006208421A priority Critical patent/JP2008033133A/ja
Priority to US11/781,424 priority patent/US20080027727A1/en
Priority to EP07014905A priority patent/EP1884922A1/en
Priority to CNA200710149423XA priority patent/CN101131818A/zh
Publication of JP2008033133A publication Critical patent/JP2008033133A/ja
Abandoned legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】 各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる音声合成装置、音声合成方法および音声合成プログラムを提供する。
【解決手段】 音声素片融合歪み推定部45は、各合成単位に対する音声素片の組み合わせ候補を融合した際に生じる歪みの度合いとして合成単位コストを算出する。素片選択部44は、合成単位ごとに音声素片の組み合わせ候補を複数列挙し、この組み合わせ候補の中から、音声素片融合歪み推定部45が算出した合成単位コストの合計が音声素片系列で最小となる候補を選択し、素片融合部46へ出力する。
【選択図】 図2

Description

本発明は、テキスト音声合成装置、音声合成方法および音声合成プログラムに関する。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に入力されたテキストの形態素解析や構文解析を行う言語処理部、アクセントやイントネーションの処理を行い、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)を出力する韻律処理部および音韻系列・韻律情報から音声信号を合成する音声合成部の3つによって行われる。この中の音声合成部で行われる音声合成方法は、韻律処理部で生成される任意の音韻系列を任意の韻律で音声合成することが可能な方法でなければならない。
このような音声合成方法として、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から複数の音声素片を選択して合成する素片選択型の音声合成方法が知られている(例えば、特許文献1参照。)。特許文献1に記載される音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを表すコストをコスト関数として定義して、このコストが小さくなるように音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪みおよび接続歪みをコストを用いて数値化し、このコストに基づいて音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて合成音声を生成する。
特許文献1に記載される音声合成方法のように音声を合成することで生じる音声合成の劣化の度合いを考慮して、大量の音声素片の中から適切な音声素片系列を選択することによって、素片の編集および接続による音質の劣化を抑えた合成音声を生成することができる。
しかしながら、特許文献1に記載される素片選択型の音声合成方法には、部分的に合成音の音質が劣化する問題がある。この理由として、あらかじめ記憶された音声素片が非常に多い場合であっても、様々な音韻・韻律環境に対して適切な音声素片が存在するとは限らないことや、人が実際に感じる合成音声の劣化の度合いをコスト関数が完全に表現できないため、必ずしも最適な素片系列が選ばれない場合があること、さらに音声素片が非常に多いためにあらかじめ不良な音声素片を排除しておくことが困難であり、また不良な音声素片を取り除くためのコスト関数の設計も難しいため、選択された音声素片系列中に、突発的に不良な音声素片が混入する場合があることなどがあげられる。
そこで、合成単位あたり1つずつの音声素片を選ぶのではなく、合成単位あたり複数個の音声素片を選択し、これを融合することによって新たな音声素片を生成し、こうして生成された音声素片を使って音声を合成する方法が開示されている(特許文献2参照。)。以下、この方法を複数素片選択融合型の音声合成方法と呼ぶ。
特許文献2に記載される複数素片選択融合型の音声合成方法では、合成単位ごとに複数の音声素片を融合することによって、目標とする音韻・韻律環境に合う適切な音声素片が存在しない場合や、最適な音声素片が選択されない場合、不良素片が選択されてしまった場合でも、高品質な音声素片を新たに生成することができ、さらにこの新たに生成した音声素片を使用して音声合成を行うことで、前述した素片選択型の音声合成方法の問題点を改善することができ、より安定性を増した高音質の音声合成を実現することができる。
ここで、特許文献2では、合成単位あたり複数個の音声素片を選択する方法として、(1)音声素片系列トータルでのコストが最小となるよう音声素片を合成単位ごとに1つずつ求め(以下、求めた音声素片の系列を最適素片系列と称する。)、(2)最適素片系列中の1つの音声素片を別の音声素片に置き換えてコストを算出し、このコストが小さいものから複数の音声素片を選択する、という方法が開示されている。
特開2001−282278公報 特開2005−164749公報
しかしながら、特許文献2では、開示されている方法によって選択される複数の音声素片を融合することによる効果が明には考慮されていない。また、この方法では、目標音声の音韻・韻律環境に近い音韻・韻律環境を持つ音声素片を持つ複数個の音声素片がそれぞれ独立に選択されるため、選択された音声素片の音韻・韻律環境が偏る場合がある。その結果、融合して生成された新たな音声素片は、目標音声からずれたものになり、融合による効果が十分に得られない場合がある。
また、融合する音声素片の個数の最適値は、合成単位によって異なると考えられ、この個数を合成単位ごとに適切に制御することにより、音質が向上すると考えられるが、特許文献2には、その方法が開示されていない。
本発明は、上記従来技術の問題点を解決するためになされたものであって、各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる音声合成装置、音声合成方法および音声合成プログラムの提供を目的とする。
上記目的を達成するために、本発明の音声合成装置は、音声素片群を記憶する記憶手段と、少なくとも1つの音声素片を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定手段と、前記目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記目標音声に対応する音韻・韻律情報、および前記第1の推定手段によって推定される前記セグメントごとの前記歪みの度合いを基に、少なくとも1つの音声素片を含む音声素片の組を前記音声素片群から選択する第1の選択手段と、前記複数のセグメントのそれぞれに対して、前記第1の選択手段によって選択された前記音声素片の組に含まれる音声素片を融合することによって、前記第1の音声素片を生成する第1の生成手段と、前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成手段とを備えることを特徴とする。
また、本発明の音声合成方法は、目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも1つの音声素片を含む音声素片の組を音声素片群から複数通り選択する第1の選択ステップと、前記音声素片の組に含まれる音声素片を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定ステップと、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し前記複数通りの音声素片の組の中から1つを選択する第2の選択ステップと、前記第2のステップで選択した音声素片の組に含まれる音声素片を融合することによって、前記第1の音声素片を生成する第1の生成ステップと、前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成ステップとを有することを特徴とする。
また、本発明の音声合成プログラムは、コンピュータに、目標音声に対する音韻系列および音韻・韻律情報から音声波形を生成する機能を実現させるための音声合成プログラムであって、音声素片群を記憶する記憶機能と、前記音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも1つの音声素片を含む音声素片の組を前記音声素片群から複数通り選択する第1の選択機能と、前記音声素片の組に含まれる音声素片を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定機能と、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し、前記複数通りの音声素片の組の中から1つを選択する第2の選択機能と、前記音声素片の組に含まれる音声素片を融合することによって前記第1の音声素片を生成する第1の生成機能と、前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成機能とを有することを特徴とする。
本発明の音声合成装置、音声合成方法および音声合成プログラムによれば、各合成単位において融合による効果が高い音声素片を選択することができ、また融合する音声素片の個数を合成単位ごとに適切に制御できる。
以下、本発明の実施例を、図面を参照して説明する。
まず、図1を用いて、本発明の第1の実施例に係るテキスト音声合成装置の構成について説明する。
本実施例に係るテキスト音声合成装置は、テキスト入力部1と、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、これらの言語解析結果を韻律処理部3へ出力する言語処理部2と、言語解析結果からアクセントやイントネーションの処理を行い、音韻系列・及び韻律情報を生成し、音声合成部へ出力する韻律制御部3と、音韻系列及び韻律情報から音声波形を生成して出力する音声合成部4を備えている。
本発明は、上述した音声合成部4に関する。そこで、以下、音声合成部4を中心にその構成および動作について詳細に説明する。
図2は、本実施例に係る音声合成部4の構成を示すブロック図である。
図2に示す音声合成部4は、韻律制御部3から音韻系列・韻律情報が入力される音韻系列・韻律情報入力部41と、大量の音声素片が蓄積された音声素片記憶部42と、音声素片記憶部に蓄積された音声素片に対応する音韻・韻律環境が蓄積された音声素片環境記憶部43と、音声素片記憶部42に蓄積された音声素片の中から複数の音声素片を選択する素片選択部44と、素片選択部44が選択した複数の音声素片を融合したときに発生する歪みを推定する融合素片歪み推定部45と、素片選択部44が選択した複数の音声素片を融合し新たな音声素片を生成する素片融合部46と、素片融合部46が融合して生成した音声素片を変形及び接続し、合成音声の音声波形を生成する素片編集・接続部47と、素片編集・接続部47で生成した音声波形を出力する音声波形出力部48を備えている。
次に、図2乃至図5を用いて、各部の詳細を説明する。
まず、音韻系列・韻律情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を素片選択部44へ出力する。ここで、音韻系列は、例えば音韻記号の系列であり、また韻律情報は、例えば基本周波数、音韻継続時間長、パワーなどである。以下、音韻系列・韻律情報入力部41に入力される音韻系列と韻律情報を、それぞれ入力音韻系列、入力韻律情報と呼ぶ。
次に、音声素片記憶部42は、合成音声を生成する際に用いる音声の単位(以下、合成単位と称する。)の音声素片が大量に蓄積されている。ここで、合成単位とは、音素あるいは音素を分割したもの(例えば、半音素など)の組み合わせ、例えば半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(Vは母音、Cは子音を表す)、これらが混在しているなど可変長であってもよい。また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。
図3に、音声素片記憶部42に蓄積される音声素片の例を示す。図3に示すように、音声素片記憶部42には、各音素の音声信号の波形である音声素片が、当該音声素片を識別するための素片番号とともに記憶されている。これらの音声素片は、別途収録された多数の音声データに対して音素ごとにラベル付けし、ラベルにしたがって音素ごとに音声波形を切り出したものである。
続いて、音声素片環境記憶部43には、音声素片記憶部42に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。ここで、音韻・韻律環境とは、対応する音声素片にとって環境となる要因の組み合わせである。要因としては、例えば当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などがある。また、音声素片環境記憶部43には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いるものも蓄積されている。音声素片環境記憶部43に蓄積される音声素片の音韻・韻律環境および音響特徴量を総称して、以下素片環境と呼ぶ。
図4に、音声素片環境記憶部43に蓄積される素片環境の例を示す。図4に示す音声素片環境記憶部43には、音声素片記憶部42に蓄積される各音声素片の素片番号に対応して素片環境が記憶されている。ここでは、音韻・韻律環境として、音声素片に対応した音韻(音素名)、隣接音韻(ここでは当該音韻の前後それぞれ2音素ずつ)、基本周波数、音韻継続時間長が、音響特徴量として音声素片始終端のケプストラム係数が記憶されている。
なお、これらの素片環境は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。また、図4では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。
図5は、融合素片歪み推定部45の構成を示すブロック図である。融合素片歪み推定部45は、素片選択部44から入力される1つ以上の素片を融合した場合に新たに生成される素片の素片環境を推定する融合素片環境推定部451と、融合素片環境推定部451によって推定された素片環境と素片選択部44から入力される目標の音韻・韻律情報を基に、複数の素片を融合した際に生じる歪み度合いを推定する歪み推定部452を備えている。
融合素片環境推定部451には、素片選択部44から、歪み度合いを推定したいセグメントに対して選択した音声素片の素片番号、および当該候補に隣接するセグメントに対して選択した音声素片の素片番号が入力される。融合素片環境推定部451は、入力された素片番号を基に、音声素片環境記憶部43を参照し、音声素片の組み合わせ候補を融合した音声素片の素片環境、および隣接する音声素片の組み合わせ候補を融合した音声素片の素片環境を推定し、歪み推定部452へ出力する。
歪み推定部452は、融合素片環境推定部451から入力された推定素片環境と、素片選択部から入力された目標の音韻・韻律情報を基に、音声素片の組み合わせ候補を融合した際に生じる歪み度合いを推定し、結果を素片選択部44へ出力する。この歪み度合いの推定方法は後述する。
次に、図2乃至図14を用いて、本実施例に係る音声合成部4の動作を説明する。
図2に示す音韻系列・韻律情報入力部41を介して素片選択部44に入力された音韻系列は、合成単位ごとに区切られる。以下、この区切られた合成単位をセグメントと称する。素片選択部44は、音声素片記憶部42を参照し、各セグメントに対して、融合する音声素片の組み合わせ候補を複数選択する。素片選択部44は、i番目のセグメントに対して選択した音声素片の組み合わせ候補(以下、i番目の音声素片組み合わせ候補と称する。)、および目標の音韻・韻律情報を融合素片推定部45へ入力する。ここでは、目標の音韻・韻律情報として入力音韻系列・入力韻律情報を入力する。
i−1,i番目の音声素片組み合わせ候補は、融合素片歪み推定部45の融合素片環境推定部451(図5参照)へ入力される。融合素片環境推定部451は、音声素片環境記憶部43を参照し、入力されたi−1,i番目の音声素片組み合わせ候補それぞれを融合した場合に新たに生成されるi−1,i番目の音声素片の素片環境(以下、i−1,i番目の推定素片環境と称する。)を推定し、結果を歪み推定部に出力する。
歪み推定部452には、融合素片環境推定部451からi−1,i番目の推定素片環境が入力され、素片選択部44から目標の音韻・韻律環境情報が入力される。歪み推定部452は、これらの入力を基に、素片選択部44より入力された音声素片を用いて音声を合成した場合の合成音声と目標音声との歪み(以下、融合音声素片の推定歪みと称する。)を推定する。この融合音声素片の推定歪みは、素片選択部44へ入力される。素片選択部44は、各セグメントの音声素片組み合わせ候補に対する融合音声素片の推定歪みを基に、全セグメントに対してこの歪みが最小になるように音声素片組み合わせ候補を再度選択し、素片融合部46へ出力する。
素片融合部46は、素片選択部44から入力された音声素片組み合わせ候補を融合して新たな音声素片を生成し、素片編集・接続部47へ出力する。素片編集・接続部47には、素片融合部46から新たな音声素片が入力されるとともに、音韻系列・韻律情報入力部から、入力韻律情報が入力される。素片編集・接続部47は、この入力韻律情報に基づき、新たな音声素片を変形、接続し合成音声の音声波形を生成する。こうして生成された音声波形は音声波形出力部48から出力される。
続いて、図5を用いて融合素片歪み推定部45の動作を詳細に説明する。
融合素片歪み推定部45の歪み推定部452では、融合素片環境推定部451から入力されるi−1,i番目の推定素片環境および素片選択部44から入力される目標の音韻・韻律情報を基に、i番目の素片組み合わせ候補の融合音声素片の推定歪みを算出する。このとき、この歪みの度合いを表す尺度として、一般の素片選択型音声合成方法や従来の複数素片選択融合型音声合成方法と同様に、コストを用いる。このコストは、コスト関数を定義して、これを用いることにより求める。
そこで、まずコストおよびコスト関数の詳細について説明する。
このコストは、目標コストと接続コストの大きく2種類のコストに分けられる。目標コストは、コストの算出対象である音声素片(以下、対象素片と称する。)を目標の音韻・韻律環境で使用することによって生じる合成音声の目標音声に対する歪みの度合いを表すコストである。接続コストは、対象素片を隣接する音声素片と接続したときに生じる合成音声の目標音声に対する歪みの度合いを表すコストである。
目標コストおよび接続コストには、生じる歪みの要因ごとにサブコストが存在し、それぞれのサブコストに対してサブコスト関数C(u,ui−1,t)(n=1,・・・,N、Nはサブコストの個数)を定義する。
ここで、tは、目標の音韻・韻律環境をt=(t,・・・,t)(I:セグメントの個数)としたときのi番目のセグメントに対応する音韻・韻律環境を表し、uは、i番目のセグメントに対応する音素の音声素片を現す。
目標コストのサブコストには、音声素片がもつ基本周波数と目標の基本周波数の違い(差)によって生じる歪みを表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長の違い(差)によって生じる歪みを表す音韻継続時間長コスト、音声素片が属していた音韻環境と目標の音韻環境の違いによって生じる歪みを表す音韻環境コストなどがある。
各コストの具体的な算出方法を以下に示す。まず、基本周波数コストは、以下の式によって算出する。
Figure 2008033133
ここで、vは、音声素片uの素片環境を表し、fは、素片環境vから平均基本周波数を取り出す関数を表す。
次に、音韻継続時間長コストは、以下の式によって算出する。
Figure 2008033133
ここでgは、素片環境vから音声継続時間長を取り出す関数を表す。音韻環境コストは、以下の式によって算出する。
Figure 2008033133
ここで、jは対象音素に対する音素の相対位置を表し、pは、素片環境vから相対位置jの隣接音素を取り出す関数、dは、2つの音素間の距離(音素間の特徴の違い)を算出する関数、rは、相対位置jに対する音素間距離の重みを表す。dは、「0」から「1」の値を返し、同一の音素間では「0」、全く特徴の異なる音素間では「1」を返す。
一方、接続コストのサブコストには、音声素片境界でのスペクトルの違い(差)を表すスペクトル接続コストなどがある。
スペクトル接続コストは、以下の式によって算出する。
Figure 2008033133
ここで、hpreは音声素片uの前側の接続境界でのケプストラム係数を、hpostは音声素片u後側の接続境界でのケプストラム係数をベクトルとして取り出す関数を表す。
これらのサブコスト関数の重み付き和を合成単位コスト関数として、以下のように定義する。
Figure 2008033133
ここでは、wは、サブコスト間の重みを表す。上記式(5)は、ある音声素片をある合成単位に用いた場合のコストである合成コストを算出する式である。
歪み推定部452では、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントに対し、上記式(5)によって合成単位コストを算出する。素片選択部44は、歪み推定部452が算出した合成単位コストを全セグメントについて足し合わせたトータルコストを以下の式によって算出する。
Figure 2008033133
ここでは簡単のため、p=1とする。すなわち、トータルコストは、各合成単位コストの単純な和を表す。トータルコストは、入力音韻系列に対して選択された音声素片系列を用いて生成される合成音声の、目標音声に対する歪みを表し、トータルコストが小さくなるように音声素片系列を選択することによって、音声素片に対する歪みの少ない王音質の合成音声が生成できる。
ただし、上記式(6)中のpは1以外でもよく、例えばpを1より大きくすると、局所的に合成単位コストが大きい音声素片系列がより強調されることになり、局所的に合成単位コストが大きくなるような音声素片が選ばれにくくなる。
次に、上述したコスト関数を用いて融合素片歪み推定部45の動作を説明する。
まず、融合素片歪み推定部45の融合素片環境推定部451には、素片選択部44からi−1,i番目のセグメントに対する音声素片組み合わせ候補の素片番号が入力される。なお、素片選択部44から入力される音声素片組み合わせ候補の素片番号は、それぞれ1つずつであっても複数であってもよい。また、コストとして接続コストは考慮せず、目標コストのみを考慮する場合は、i−1番目のセグメントに対する音声素片組み合わせ候補の素片番号を入力する必要はない。
融合素片環境推定部451は、音声素片環境記憶部43を参照し、入力されたi−1,i番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片の持つ素片環境を推定し、推定結果を歪み推定部452へ出力する。このとき、入力された素片番号が持つ素片環境を音声素片環境記憶部43から取り出し、そのままi−1,i番目の推定素片として歪み推定部452へ出力する。
本実施例では、融合素片環境推定部451は、音声素片環境記憶部43から取り出されたそれぞれの音声素片が持つ素片環境を融合する場合、素片環境の平均的なものをi−1,i番目の推定素片環境として出力するものとする。
具体的には、素片環境の要因ごとに、音声素片組み合わせ候補の音声素片それぞれが持つ値の平均的な値を計算する。例えば、基本周波数について、それぞれの音声素片が200Hz,250Hz,180Hzという値を持っていた場合、融合音声素片の基本周波数として、3つの値の平均値である210Hzを算出する。また、音韻継続時間長およびケプストラム係数といった連続量を持つ要因についても同様に平均値を算出する。
隣接音韻のような離散シンボルについては、単純に平均を取ることはできないが、与えられた音声素片の隣接音韻のうち最も多く出現した音韻や最も影響の強い音韻を選ぶことによって代表的な値を得ることは可能であるが、ここでは、隣接音韻については、代表値を1つ得るのではなく、それぞれの音声素片に対する隣接音韻の組み合わせをそのまま融合音声素片の隣接音韻とする。
次に、歪み推定部452には、融合素片環境推定部451からi−1,i番目の推定素片環境が入力され、素片選択部44から目標の音韻・韻律情報が入力される。歪み推定部452は、これらの入力を用いて上記式(5)を計算することで、i番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片合成単位とした場合の合成単位コストを算出する。
この場合、上記式(1)〜(5)におけるuは、i番目のセグメントに対する音声素片組み合わせ候補を融合してできる新たな融合音声素片であり、vは、i番目の推定素片環境である。
ここで、推定素片環境のうち、隣接音韻は、上述したように複数の音声素片に対する隣接音韻をそのまま組み合わせたものであるため、上記式(3)でのp(v,j)は、pi_j_1,・・・,pi_j_M(Mは、融合する音声素片の個数。)のように複数の値を取る。一方、目標の音韻環境のp(t,j)は、1つの値(これをpt_i_jとする。)であるため、上記式(3)でのd(p(v,j),p(t,j))の計算は、具体的には以下のように行う。
Figure 2008033133
歪み推定部452にて算出されたi番目のセグメントに対する音声素片組み合わせ候補の合成単位コストは、i番目の融合音声素片の推定歪みとして、融合素片歪み推定部45から出力される。
次に、素片選択部44の動作を説明する。素片選択部44は、入力された入力音韻系列を、合成単位ごとの複数のセグメントに区切り、各セグメントに対する音声素片を複数選択する。セグメントごとに選択した複数の音声素片を音声素片組み合わせ候補と呼ぶ。
ここでは、図6乃至図11を用いて、1セグメントあたり複数個ずつ(最大M個)の音声素片を選択する方法を説明する。図6は、各セグメントに対する音声素片の選択方法を示すフローチャートである。図7乃至図11は、図6に示すフローチャートの各ステップに対応して選択した音声素片組み合わせ候補を示す図である。
まず、素片選択部44は、各セグメントに対する音声素片の候補を、音声素片記憶部42に蓄積されている音声素片の中から抽出する(ステップS101)。
図7には、「おんせん」というテキストに対する入力音韻系列「o N s e N」に対して音声素片の候補が抽出された例を示している。ここで、各音素記号の下に並んでいる白丸は、それぞれのセグメントに対する音声素片の候補を表し、白丸内の数字は、各素片番号を表しているものとする。
次に、素片選択部44は、カウンタmに初期値「1」をセットする(ステップS102)。続いて、カウンタmが「1」であるか否かを判断する(ステップS103)。カウンタmが「1」でない場合は、次のステップS104に進み(ステップS103のno)、「1」である場合は、ステップS105に進む(ステップS103のyes)。
ステップS102の後にステップS103に進む場合、カウンタmは「1」であるため、ステップS104をスキップしてステップS105に進む。そこで、まずステップS105の説明を行い、ステップS104については後述する。
素片選択部44は、列挙されている音声素片の候補の中から、上記式(6)によって算出するトータルコストが最小になるような音声素片の系列を探索する(ステップS105)。ここでは、このようなトータルコストが最小となる音声素片系列のことを最適素片系列と呼ぶ。
図8は、図7で列挙した音声素片の候補の中から最適素片系列が選択された例を示す図である。選択された音声素片を斜線で示している。トータルコストの算出に必要な合成単位コストは、上述したように、融合素片歪み推定部45を用いて算出する。例えば、図9の最適素片系列中の音声素片51の合成単位コストを算出する場合、素片選択部44は、音声素片51の素片番号401と、その直前の音声素片52の素片番号304と、目標の音韻・韻律情報を融合素片歪み推定部45へ出力する。音声素片51の素片番号401などが入力された融合素片歪み推定部45は、入力された音声素片51の合成単位コストを算出し、素片選択部44へ出力する。素片選択部44は、各音声素片の合成単位コストを求め、トータルコストを算出し、最適素片系列を探索する。なお、最適素片系列の探索には、動的計画(DP: Dynamic programing)法を用いて効率的に行ってもよい。
次に、カウンタmの値が、融合する音声素片の個数の最大数M未満であるか否かを判定する(ステップS106)。カウンタmの値がM以上の場合は、素片選択を終了する(ステップS106のno)。一方、M未満の場合は(ステップS106のyes)、カウンタmの値を1つ増やし(ステップS107)、ステップS103に戻る。
ステップS103では、カウンタmの値が「1」であるか否かを判断するが、ここでは、ステップS107にてカウンタmの値を1つ増やしているため、カウンタmの値は、1以上となり、ステップS104へ進む(ステップS103のno)。
ステップS104では、1つ前のループのステップS105で探索した最適素片系列に含まれる音声素片(または音声素片の組み合わせ)と、この系列に含まれない残りの音声素片から、各セグメントに対する音声素片の組み合わせの候補(素片組み合わせ候補に相当。)を生成する。具体的には、最適素片系列中の音声素片、およびこの音声素片と残りの音声素片それぞれを組み合わせたものを素片組み合わせ候補として生成する。
図9に、素片組み合わせ候補を生成した例を示す。これは、図8で選択した最適素片系列中の音声素片と、この音声素片と残りの音声素片それぞれを組み合わせたものを素片組み合わせ候補として生成したものである。例えば、図9中の素片組み合わせ候補53は、最適素片系列中の音声素片51(素片番号401)と素片番号402の音声素片を組み合わせたものである。
ただし、後述するように本実施例においては、素片融合部46での音声素片の融合は、有声音についてのみ行い、無声音については行わないため、無声音「s」のセグメントに対しては、最適素片系列中の音声素片と残りの音声素片それぞれを組み合わせず、1回目のループで得た最適素片系列中の音声素片のみを素片組み合わせ候補とする。
次に、ステップS105に進み、素片組み合わせ候補の中から最適素片組み合わせの系列(以下、最適素片組み合わせ系列と称する。)を探索する。上述したように、各素片組み合わせ候補の合成単位コストは、融合素片歪み推定部45を用いて算出し、最適素片組み合わせ系列の探索には、動的計画手法を用いる。
図10に、図9の素片組み合わせ候補の中から最適素片組み合わせ系列を選択した例を示す。選択された音声素片を斜線で示している。
なお、以下、カウンタmが融合する音声素片の個数の最大数M以上になるまでステップS103乃至ステップS107を繰り返す。
図11に、M=3の場合に選択された最適素片組み合わせ系列の例を示している。この例では、最初のセグメントの音素「o」に対しては、図8における素片番号103,101,104の3つの音声素片が選択され、次のセグメントの音素「N」に対しては、素片番号204の音声素片1つが選択されたことを表している。
ただし、素片選択部44における合成単位あたり複数個の音声素片を選択する方法は、上述した方法に限定されるものではない。例えば、各セグメントに対して、最大M個の音声素片を含むあらゆる組み合わせをまず列挙し、列挙した音声素片の組み合わせの中から最適素片組み合わせ系列を探索することによって、各セグメントあたり複数個の音声素片を選択してもよい。この方法では、音声素片候補の数が多い場合には、セグメントごとに列挙される音声素片の組み合わせの数が非常に多くなるため、莫大な計算量とメモリサイズを必要とするが、最適な音声素片の組み合わせを選択することが可能な方法であるため、莫大な計算量とメモリサイズが許される場合には、前述の方法よりも良い結果が得られる。
素片融合部46は、それぞれのセグメントごとに、素片選択部44で選択された素片組み合わせ候補を融合して新たな音声素片を生成する。本実施例では、音声素片を融合することによる効果が顕著な有声音のセグメントのみ音声素片の融合を行い、無声音のセグメントは、選択された1つの音声素片をそのまま用いることとする。
有声音の音声素片を融合する方法については、特許文献2に詳細が記載されているため、ここでは、図12および図13を用いて概略を説明する。
図12は、有声音の音声波形を融合して新たな音声波形を生成する方法のフローチャートである。また図13は、あるセグメントに対して選択された3つの音声素片からなる素片組み合わせ候補60を融合して新たな音声素片63を生成する例を示す図である。
まず、選択されたそれぞれの音声素片からピッチ波形を切り出す(ステップS201)。ピッチ波形とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。このようなピッチ波形を抽出する1つの方法として、基本周期同期窓を用いる方法があり、ここではこの方法を用いることとする。具体的には、それぞれの音声素片の音声波形に対して基本周期間隔ごとにマーク(ピッチマーク)を付し、このピッチマークを中心にして、窓長が基本周期の2倍のハニング窓で窓掛けすることによって、ピッチ波形を切り出す。図13のピッチ波形系列61は、素片組み合わせ候補60の各音声素片から切り出して得られたピッチ波形の系列の例を示している。
次に、それぞれの音声素片に対するピッチ波形の個数が、音声素片間で同一になるようにピッチ波形の数を揃える。この際、揃える対象となるピッチ波形の数は、目標の音韻継続時間長の合成音声を生成するために必要なピッチ波形数とするが、例えば最もピッチ波形数の多いものに揃えてもよい。ピッチ波形の少ない系列は、系列に含まれるいくつかのピッチ波形を複製することによってピッチ波形数を増やし、ピッチ波形の多い系列は、系列中のいくつかのピッチ波形を間引くことによってピッチ波形数を減らす。図13のピッチ波形系列62は、ピッチ波形の数を6つに揃えた例を示している。
ピッチ波形数を揃えた後、それぞれの音声素片に対応するピッチ波形系列中のピッチ波形をその位置ごとに融合することによって、新たなピッチ波形系列を生成する。例えば、図13で生成された新たなピッチ波形63に含まれるピッチ波形63aは、ピッチ波形系列62のうち、6番目のピッチ波形62a,62b,62cを融合することによって得られる。このようにして生成された新たなピッチ波形系列63を、融合された音声素片とする。
ここで、ピッチ波形を融合する方法としては、単純にピッチ波形の平均を計算する方法や、ピッチ波形間の相関が最大になるよう時間方向に各ピッチ波形の位置を補正してから平均化する方法、ピッチ波形を帯域分割して、帯域ごとにピッチ波形間の相関が最大になるようピッチ波形の位置を補正して平均化した結果を、帯域間で足し合わせる方法などがあり、いずれの方法を用いても良い。本実施例では、最後に説明した帯域分割して平均化する方法を用いる。
素片融合部46は、上述した方法を用いて、入力音韻系列に対応する複数のセグメントそれぞれについて、素片組み合わせ候補に含まれる複数の音声素片を融合して新たな音声素片(以下、融合音声素片と称する。)を生成し、素片編集・接続部47に出力する。
素片編集・接続部47は、素片融合部46から渡されたセグメントごとの融合音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。素片融合部46で生成された融合音声素片は、実際にはピッチ波形になっているので、当該融合音声素片の基本周波数、音韻継続時間長のそれぞれが、入力韻律情報に示されている目標音声の基本周波数、音韻継続時間長になるようにピッチ波形を重畳することで、音声波形を生成することができる。
図14は、素片編集・接続部47での処理を説明するための図である。図15には、素片融合部46で生成された、音素「o」「N」「s」「e」「N」の各合成単位に対する融合音声素片を、変形・接続して「おんせん」とう音声波形を生成する場合を示している。図14の点線は、目標の音韻継続時間長に従って分割した音素ごとのセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置(ピッチマーク)を示している。図14のように、有声音については融合音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については音声素片の波形をセグメントの長さに合うよう伸縮したものをセグメントに重畳することによって、所望の韻律(ここでは、基本周波数、音韻継続時間長)を持った音声波形を生成する。
以上のように第1の実施例によれば、素片組み合わせ候補を融合した場合に発生する歪みの度合いを、融合音声素片歪み推定部45にて推定し、この推定結果を基に、素片選択部44が新たな素片組み合わせ候補を生成することによって、音声素片を融合した際に高い融合効果が得られる音声素片を選択することができる。これを、図15および図16を用いて説明する。
図15は、融合素片歪み推定部45にて融合音声素片の歪みを推定しない場合の素片選択の概念を示す図である。ここでは、音声素片を選択する場合、単純に目標音声の音韻・韻律環境に近い音声素片を選択する。図15では、複数の音声素片701が音声空間70に分布する様子、およびそれぞれの音声素片701に対応した音韻・韻律環境711が素片環境空間71に分布する様子を白丸および黒丸で表している。また、各音声素片701と音韻・韻律環境711の対応関係を破線あるいは実線で示している。なお黒丸は、素片選択部44にて選択された音声素片702を示しており、これらを融合すると新たな音声素片712となる。さらに、音声空間70には、目標音声703が存在し、目標音声703に対応する目標音韻・韻律環境713が素片環境空間71内に存在する。
ここでは、融合音声素片の歪みを推定せず、単純に目標音韻・韻律環境713に近い音韻・韻律環境を持つ音声素片702を選択するため、選択された素片が融合されて生成された新たな音声素片712は、目標音声713からずれたものになり、1つだけ選択した音声素片を融合せずにそのまま使う場合と同様に、音質の劣化が生じると考えられる。
一方、図16に、本実施例に示すように融合素片歪み推定部45にて融合音声素片の歪みを推定した場合の素片選択の概念を示す。図16に示す概念図は、図16中に黒丸で示す選択した音声素片をのぞき、図15に示す概念図と同じであるため、同一符号を付し説明を省略する。
図16では、歪み推定部452が推定した融合音声素片の推定歪みが最も小さくなるように、すなわち選択した音声素片を融合した融合音声素片の推定素片環境が目標音声の音韻・韻律環境に最も近くなるよう素片選択部44が音声素片を選択する。その結果、素片選択部44によって黒丸で示す音声素片702が選択され、素片融合部46にて融合されて生成される新たな音声素片712は、目標音声703に近いものとなる。
このように、融合音声素片歪み推定部45にて推定した融合音声素片の歪みの度合いを基に、素片選択部44が素片組み合わせ候補を選択することによって、音声素片を融合した際に高い融合効果が得られる音声素片を選択することができる。
また、素片選択部44が素片組み合わせ候補を選択する場合に、候補とする音声素片の個数を予め定めるのではなく、個数を増加させながら融合音声素片歪み推定部45にて融合音声素片の歪みを推定し、推定結果を基に素片選択部44が素片組み合わせ候補を選択するため、融合する音声素片の個数を合成単位ごとに適切に制御することができる。
さらに、本実施例によると、上述したように、素片選択部44が音声素片を融合した際に高い融合効果が得られる音声素片を適切な個数選択するため、より自然で高品質な合成音声を生成することができる。
次に図17および図18を用いて、本発明の第2の実施例に係る音声合成装置について説明する。
図17に、本実施例に係る音声合成装置の融合素片歪み推定部49の構成を示す。本実施例に係る融合歪み推定部49は、図5に示す融合素片歪み推定部45に対し、新たに重み最適化部491を備えており、素片選択部44から、i−1,i番目のセグメントに対する素片組み合わせ候補の素片番号および目標の音韻、韻律環境が入力された場合に、融合音声素片の推定歪みに加えて、融合音声素片を生成する際の各音声素片に対する重み(以下、融合重みと称する。)も出力する。なお、これ以外の構成および動作は、図2に示す音声合成部4と同じであるため同一符号を付し説明を省略する。
続いて、図17および図18を用いて融合素片歪み推定部49の動作を説明する。図18は、融合素片歪み推定部49の動作を示すフローチャートである。
まず、素片選択部44からi−1,i番目のセグメントに対する素片組み合わせ候補の素片番号および目標の音韻、韻律環境が入力された場合、融合素片歪み推定部49の重み最適化部491は、i番目のセグメントに対する素片組み合わせ候補に含まれる音声素片を融合する際の各音声素片に対する融合重みをすべて1/Lで初期化する(ステップS301)。初期化した融合重みは、融合素片環境推定部451に入力される。なお、Lは、i番目のセグメントに対する素片組み合わせ候補に含まれる音声素片の個数である。
次に、融合素片環境推定部451には、重み最適化部491から融合重みが入力され、素片選択部44からi−1,i番目のセグメントに対する素片組み合わせ候補の素片番号が入力される。そこで、融合素片環境推定部451は、各音声素片に与えられた融合重みを考慮してi番目の融合音声素片の推定素片環境を算出する(ステップS302)。具体的には、連続量を持つ素片環境要因(例えば、基本周波数、音韻継続時間長、ケプストラム係数など)について、各要因の平均値を算出する代わりに、融合重みで重み付けして平均化することによって融合音声素片の推定素片環境を得る。例えば、上記式(2)における融合音声素片の音韻継続時間長g(v)は、i番目のセグメントのm番目の音声素片に与えられた融合重みをωi_m(ただし、ωi_1+・・・+ωi_M=1)、この音声素片の素片環境をvi_mとすると、以下のように表せる。
Figure 2008033133
一方、離散シンボルである隣接音韻については、第1の実施例と同様に、それぞれの音声素片に対する隣接音韻の組み合わせを融合音声素片の隣接音韻とする。
次に、歪み推定部452は、融合素片環境推定部451から入力されたi−1,i番目の融合音声素片の推定素片環境を基に、i番目の融合音声素片を用いた場合の目標音声に対する歪みの度合い(融合音声素片の推定歪み)を推定する(ステップS303)。すなわち、素片組み合わせ候補に含まれる音声素片を融合重みで重み付けして融合することで生成される融合音声素片を用いた場合の合成単位コストを、上記式(5)によって算出する。ただし、音韻環境コストの計算における上記式(3)でのd(p(v,j),p(t,j))の計算では、上記式(7)の代わりに以下の式を用いることで融合重みを反映した音素間距離を得る。
Figure 2008033133
歪み推定部452は、算出した融合音声素片の推定歪みの値が収束しているか否かを判定する(ステップS304)。収束しているか否かの判定は、今回のループで算出した融合音声素片の推定歪みの値をC、1つ前のループで算出した融合音声素片の推定歪みの値をCj−1としたとき、|C−Cj−1|≦ε(εは、「0」に近い固定値)を満たすか否かによって判定する。収束している場合は、算出した融合音声の推定歪みの値および算出に使用した融合重みを素片選択部44に出力する(ステップS304のyes)。
一方、融合音声の推定歪みの値が収束していない場合(ステップS304のno)は、融合音声素片の推定歪みの値、すなわち上記式(5)を用いて算出した合成単位コストC(u,ui−1,t)が最小になるように、重み最適化部491において、融合重み(ωi_1,・・・,ωi_M)をωi_1+・・・+ωi_M≧0の条件下で最適化する(ステップS305)。
具体的に、融合重みの最適化は、
Figure 2008033133
を代入したC(u,ui−1,t)をωi_m(m=1,・・・,M−1)のそれぞれで偏微分したものを「0」とした次の連立方程式を解くことによって得る。
Figure 2008033133
式(11)が解析的に解けない場合には、公知の最適化手法を用いて上記式(5)を最小とする融合重みを探索することによって、融合重みを最適化すればよい。重み最適化部491で融合重みが最適化された後は、ステップS302に戻り、融合素片環境推定部451が、融合音声素片の推定素片環境を算出する。
上述したようにして融合素片歪み推定部49にて算出した融合音声素片の推定歪みおよび融合重みは、素片選択部44へ入力される。素片選択部44は、融合音声素片の推定歪みを基に、全セグメントに対する素片組み合わせ候補のトータルコストが最小になるよう、素片組み合わせ候補を生成する。この素片組み合わせ候補の生成方法は、図6に示す方法と同じであるため、説明を省略する。
次に、素片選択部44で生成した素片組み合わせ候補およびこの素片組み合わせ候補に含まれる複数の音声素片の融合重みは、素片融合部46に入力される。素片融合部46では、セグメントごとに、入力された融合重みに応じた音声素片の融合を行う。この素片組み合わせ候補に含まれる音声素片の融合方法は、図13に示す方法とほぼ同じであるが、ピッチ波形を位置ごとに融合する処理(図12のステップS203)において、ピッチ波形を帯域ごとに平均化する際に、入力された融合重みを対応するそれぞれのピッチ波形に付して平均化する点が異なる。それ以外の処理および複数の音声素片を融合した後の動作は、第1の実施例と同じであるため説明を省略する。
以上のように第2の実施例によれば、第1の実施例と同様の効果が得られるとともに、重み最適化部491において融合音声素片の歪みを最小とする融合重みを求め、これを素片組み合わせ候補の音声素片を融合する際に反映させることで、目標音声により近い音声素片がセグメントごとに生成でき、より高音質の合成音声が生成できる。
なお、本発明は上記実施例そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施例に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施例に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施例にわたる構成要素を適宜組み合わせてもよい。
本発明の第1の実施例に係るテキスト音声合成装置の構成を示すブロック図。 本発明の第1の実施例に係る音声合成部4の構成を示すブロック図。 本発明の第1の実施例に係る音声素片記憶部42に蓄積される音声素片の例を示す図。 本発明の第1の実施例に係る音声素片環境記憶部43に蓄積される素片環境の例を示す図。 本発明の第1の実施例に係る融合素片歪み推定部45の構成を示すブロック図。 本発明の第1の実施例に係る音声素片の選択方法を示すフローチャート。 本発明の第1の実施例に係る選択された音声素片の候補の例を示す図。 図7の音声素片の候補から最適素片系列が選択された例を示す図。 図8の音声素片の候補から素片組み合わせ候補を生成した例を示す図。 図9の素片組み合わせ候補の中から最適素片組み合わせ系列を選択した例。 M=3の場合に選択された最適素片組み合わせ系列の例を示す図。 本発明の第1の実施例に係る有声音の音声波形を融合して新たな音声波形を生成する方法のフローチャート。 選択された3つの音声素片からなる素片組み合わせ候補60を融合して新たな音声素片63を生成する例を示す図。 本発明の第1の実施例に係る素片編集・接続部47での処理を説明するための図。 融合音声素片の歪みを推定しない場合の素片選択の概念を示す図。 融合音声素片の歪みを推定した場合の素片選択の概念を示す図。 本発明の第2の実施例に係る音声合成装置の融合素片歪み推定部49の構成を示すブロック図。 本発明の第2の実施例に係る融合素片歪み推定部49の動作を示すフローチャート。
符号の説明
1・・・テキスト入力部
2・・・言語処理部
3・・・韻律制御部
4・・・音声合成部
41・・・音韻系列・韻律情報入力部
42・・・音声素片記憶部
43・・・音声素片環境記憶部
44・・・素片選択部
45,49・・・融合素片歪み推定部
451・・・融合素片環境推定部
452・・・歪み推定部
46・・・素片融合部
47・・・素片編集・接続部
48・・・音声波形出力部
491・・・重み最適化部
70・・・音声空間
701・・・音声素片
702・・・選択された音声素片
703・・・目標音声
71・・・素片環境空間
711・・・音声素片の音韻・韻律環境
712・・・融合されてできた音声素片
713・・・目標音声の音韻・韻律環境

Claims (19)

  1. 音声素片群を記憶する記憶手段と、
    音声素片の組を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定手段と、
    前記目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、前記目標音声に対応する音韻・韻律情報、および前記第1の推定手段によって推定される前記セグメントごとの前記歪みの度合いを基に、音声素片の組を前記音声素片群から選択する第1の選択手段と、
    前記複数のセグメントのそれぞれに対して、前記第1の選択手段によって選択された前記音声素片の組を融合することによって、前記第1の音声素片を生成する第1の生成手段と、
    前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成手段と
    を備えることを特徴とする音声合成装置。
  2. 前記第1の選択手段は、前記第1の推定手段によって推定される前記歪みの度合いに基づいて、前記音声素片の組に含まれる音声素片の個数を前記セグメントごとに変更することを特徴とする請求項1に記載の音声合成装置。
  3. 前記第1の推定手段は、前記第1の選択手段により選択された音声素片の音韻・韻律環境を基に、前記第1の音声素片の音韻・韻律環境を推定する第2の推定手段を備え、前記第2の推定手段によって推定される前記第1の音声素片の音韻・韻律環境を基に、前記歪みの度合いを推定することを特徴とする請求項1または請求項2のいずれか1項に記載の音声合成装置。
  4. 前記第1の選択手段は、前記複数のセグメントのそれぞれに対して、前記音声素片の組を前記音声素片群から複数通り選択し、前記複数通り選択した音声素片の組の中から、前記複数のセグメントのそれぞれに対して、前記第1の推定手段によって推定される前記歪みの度合いが最小となる前記音声素片の組を選択することを特徴とする請求項1乃至請求項3のいずれか1項に記載の音声合成装置。
  5. 前記第1の選択手段は、前記歪みの度合いが最小となる前記音声素片の組を選択した後に、当該選択された音声素片の組、および当該選択された音声素片の組に、前記音声素片群に含まれる音声素片であって、当該選択された音声素片の組に含まれない音声素片を加えたものを新たな音声素片の組として複数通り選択し、前記複数通りの新たな音声素片の組の中から、前記第1の推定手段によって推定される歪みの度合いを基に、前記複数のセグメントそれぞれに対して前記音声素片の組を1つ選択することを特徴とする請求項4に記載の音声合成装置。
  6. 前記第1の選択手段は、前記新たな音声素片の組を複数回選択することを特徴とする請求項5に記載の音声合成装置。
  7. 前記第1の推定手段は、前記歪みの度合いが小さくなるよう、前記少なくとも1つの音声素片を融合する際の前記音声素片間の融合重みを決定する最適化手段を備え、前記第1の生成手段は、前記最適化手段で決定される前記融合重みに従い、前記音声素片の組に含まれる音声素片を融合することを特徴とする請求項1乃至請求項6のいずれか1項に記載の音声合成装置。
  8. 前記第1の推定手段は、前記セグメントに対する前記音声素片の組の歪みの度合いを、前記目標音声と当該セグメントに対する前記第1の音声素片を用いて生成した合成音声との歪みの度合いを表す第1のコストと、当該セグメントに対する前記第1の音声素片と当該セグメントに隣接するセグメントに対する前記第1の音声素片を接続したときに生じる歪みの度合いを表す第2のコストとに基づいて推定することを特徴とする請求項1乃至請求項7のいずれか1項に記載の音声合成装置。
  9. 前記第1のコストは、基本周波数、音韻継続時間長、パワー、音韻環境、スペクトルのうち、少なくとも1つを用いて算出することを特徴とする請求項8に記載の音声合成装置。
  10. 前記第2のコストは、スペクトル、基本周波数、パワーのうち少なくとも1つを用いて算出することを特徴とする請求項8に記載の音声合成装置。
  11. 目標音声に対する音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、音声素片の組を音声素片群から複数通り選択する第1の選択ステップと、
    前記音声素片の組に含まれる音声素片を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定ステップと、
    前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し前記複数通りの音声素片の組の中から1つを選択する第2の選択ステップと、
    前記第2のステップで選択した音声素片の組に含まれる音声素片を融合することによって、前記第1の音声素片を生成する第1の生成ステップと、
    前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成ステップと
    を有することを特徴とする音声合成方法。
  12. 前記第1の推定ステップは、前記音声素片の組に含まれる音声素片の音韻・韻律環境を基に、前記第1の音声素片の音韻・韻律環境を推定する第2の推定ステップと、前記第1の音声素片の音韻・韻律環境と前記目標音声に対する音韻・韻律情報を基に、前記第1の音声素片を用いて生成した合成音声の前記目標音声に対する歪みの度合いを推定する第3の推定ステップとを有することを特徴とする請求項11に記載の音声合成方法。
  13. 前記第2の選択ステップは、前記複数のセグメントのそれぞれに対する前記歪みの度合いが最小となるよう前記音声素片の組を選択することを特徴とする請求項11に記載の音声合成方法。
  14. 前記第1の選択ステップ、前記第1の推定ステップおよび前記第2の選択ステップを複数回実行し、前記第1の選択ステップは、2回以上処理を行う場合に、前記第2の選択ステップで選択された音声素片の組、および当該音声素片の組に、前記音声素片群に含まれる音声素片であって、当該音声素片の組に含まれない音声素片を加えたものを新たな音声素片の組として選択することを特徴とする請求項11乃至請求項13のいずれか1項に記載の音声合成方法。
  15. 前記第1の選択ステップは、前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対する前記音声素片の組に含まれる音声素片の個数を変更することを特徴とする請求項14に記載の音声合成方法。
  16. 前記第1の推定ステップは、前記歪みの度合いが小さくなるよう、前記音声素片の組に含まれる音声素片を融合する際の前記音声素片間の融合重みを決定する重み算出ステップを有し、前記第1の生成ステップは、前記融合重みに従い前記音声素片の組に含まれる音声素片を融合することを特徴とする請求項11乃至請求項14に記載の音声合成方法。
  17. コンピュータに、目標音声に対する音韻系列および音韻・韻律情報から音声波形を生成する機能を実現させるための音声合成プログラムであって、
    音声素片群を記憶する記憶機能と、
    前記音韻系列を合成単位で区切ることにより得られる複数のセグメントのそれぞれに対し、少なくとも1つの音声素片を含む音声素片の組を前記音声素片群から複数通り選択する第1の選択機能と、
    前記音声素片の組に含まれる音声素片を融合することによって生成される第1の音声素片を用いて合成音声を生成した場合の、前記目標音声に対する前記合成音声の歪みの度合いを推定する第1の推定機能と、
    前記歪みの度合いを基に、前記複数のセグメントのそれぞれに対し、前記複数通りの音声素片の組の中から1つを選択する第2の選択機能と、
    前記音声素片の組に含まれる音声素片を融合することによって前記第1の音声素片を生成する第1の生成機能と、
    前記第1の音声素片を接続することによって前記合成音声を生成する第2の生成機能と
    を有することを特徴とする音声合成プログラム。
  18. 前記第1の推定機能は、前記音声素片の組に含まれる音声素片の音韻・韻律環境を基に、前記第1の音声素片の音韻・韻律環境を推定する第2の推定手段と、前記第1の音声素片の音韻・韻律環境と前記音韻・韻律情報を基に、前記第1の音声素片を用いて生成した前記合成音声の前記目標音声に対する歪みの度合いを推定する第3の推定機能とを有することを特徴とする請求項17に記載の音声合成プログラム。
  19. 前記第2の選択機能は、前記複数のセグメントそれぞれに対する前記歪みの度合いが最小となるよう前記音声素片の組を選択することを特徴とする請求項17に記載の音声合成プログラム。
JP2006208421A 2006-07-31 2006-07-31 音声合成装置、音声合成方法および音声合成プログラム Abandoned JP2008033133A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006208421A JP2008033133A (ja) 2006-07-31 2006-07-31 音声合成装置、音声合成方法および音声合成プログラム
US11/781,424 US20080027727A1 (en) 2006-07-31 2007-07-23 Speech synthesis apparatus and method
EP07014905A EP1884922A1 (en) 2006-07-31 2007-07-30 Speech synthesis apparatus and method
CNA200710149423XA CN101131818A (zh) 2006-07-31 2007-07-31 语音合成装置与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006208421A JP2008033133A (ja) 2006-07-31 2006-07-31 音声合成装置、音声合成方法および音声合成プログラム

Publications (1)

Publication Number Publication Date
JP2008033133A true JP2008033133A (ja) 2008-02-14

Family

ID=38512592

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006208421A Abandoned JP2008033133A (ja) 2006-07-31 2006-07-31 音声合成装置、音声合成方法および音声合成プログラム

Country Status (4)

Country Link
US (1) US20080027727A1 (ja)
EP (1) EP1884922A1 (ja)
JP (1) JP2008033133A (ja)
CN (1) CN101131818A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008922A (ja) * 2008-06-30 2010-01-14 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2010079791A (ja) * 2008-09-29 2010-04-08 Epson Imaging Devices Corp 静電容量型入力装置、入力機能付き表示装置および電子機器
JP2010078808A (ja) * 2008-09-25 2010-04-08 Toshiba Corp 音声合成装置及び方法
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4080989B2 (ja) 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
US20080077407A1 (en) * 2006-09-26 2008-03-27 At&T Corp. Phonetically enriched labeling in unit selection speech synthesis
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8583438B2 (en) * 2007-09-20 2013-11-12 Microsoft Corporation Unnatural prosody detection in speech synthesis
US8798998B2 (en) 2010-04-05 2014-08-05 Microsoft Corporation Pre-saved data compression for TTS concatenation cost
CN104112444B (zh) * 2014-07-28 2018-11-06 中国科学院自动化研究所 一种基于文本信息的波形拼接语音合成方法
CN106297765B (zh) * 2015-06-04 2019-10-18 科大讯飞股份有限公司 语音合成方法及系统
JP6821970B2 (ja) * 2016-06-30 2021-01-27 ヤマハ株式会社 音声合成装置および音声合成方法
CN106356052B (zh) * 2016-10-17 2019-03-15 腾讯科技(深圳)有限公司 语音合成方法及装置
CN110176225B (zh) * 2019-05-30 2021-08-13 科大讯飞股份有限公司 一种韵律预测效果的评估方法及装置
CN110334240B (zh) * 2019-07-08 2021-10-22 联想(北京)有限公司 信息处理方法、系统及第一设备、第二设备
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
CN112420015A (zh) * 2020-11-18 2021-02-26 腾讯音乐娱乐科技(深圳)有限公司 一种音频合成方法、装置、设备及计算机可读存储介质
CN112562633A (zh) * 2020-11-30 2021-03-26 北京有竹居网络技术有限公司 一种歌唱合成方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082396B1 (en) * 1999-04-30 2006-07-25 At&T Corp Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP4080989B2 (ja) * 2003-11-28 2008-04-23 株式会社東芝 音声合成方法、音声合成装置および音声合成プログラム
JP4551803B2 (ja) * 2005-03-29 2010-09-29 株式会社東芝 音声合成装置及びそのプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5177135B2 (ja) * 2007-05-08 2013-04-03 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム
JP2010008922A (ja) * 2008-06-30 2010-01-14 Toshiba Corp 音声処理装置、音声処理方法及びプログラム
JP2010078808A (ja) * 2008-09-25 2010-04-08 Toshiba Corp 音声合成装置及び方法
JP2010079791A (ja) * 2008-09-29 2010-04-08 Epson Imaging Devices Corp 静電容量型入力装置、入力機能付き表示装置および電子機器
WO2011030424A1 (ja) * 2009-09-10 2011-03-17 株式会社東芝 音声合成装置およびプログラム
JP2011107408A (ja) * 2009-11-17 2011-06-02 Nippon Telegr & Teleph Corp <Ntt> 音声合成装置、方法及びプログラム

Also Published As

Publication number Publication date
CN101131818A (zh) 2008-02-27
US20080027727A1 (en) 2008-01-31
EP1884922A1 (en) 2008-02-06

Similar Documents

Publication Publication Date Title
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP5159325B2 (ja) 音声処理装置及びそのプログラム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
JP4878538B2 (ja) 音声合成装置
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP2008203543A (ja) 声質変換装置及び音声合成装置
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP2005004104A (ja) 規則音声合成装置及び規則音声合成方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5198200B2 (ja) 音声合成装置及び方法
JP4476855B2 (ja) 音声合成装置及びその方法
JP2009122381A (ja) 音声合成装置、音声合成方法およびそのプログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム
EP1589524B1 (en) Method and device for speech synthesis
JPH06318094A (ja) 音声規則合成装置
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法
JP2005241789A (ja) 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090409

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110309

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20110425