JP2008249808A - 音声合成装置、音声合成方法及びプログラム - Google Patents

音声合成装置、音声合成方法及びプログラム Download PDF

Info

Publication number
JP2008249808A
JP2008249808A JP2007087857A JP2007087857A JP2008249808A JP 2008249808 A JP2008249808 A JP 2008249808A JP 2007087857 A JP2007087857 A JP 2007087857A JP 2007087857 A JP2007087857 A JP 2007087857A JP 2008249808 A JP2008249808 A JP 2008249808A
Authority
JP
Japan
Prior art keywords
speech
unit
sequence
segment
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007087857A
Other languages
English (en)
Other versions
JP4406440B2 (ja
Inventor
Shinko Morita
眞弘 森田
Takehiko Kagoshima
岳彦 籠嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007087857A priority Critical patent/JP4406440B2/ja
Priority to US12/051,104 priority patent/US8108216B2/en
Priority to CNA2008100963757A priority patent/CN101276583A/zh
Publication of JP2008249808A publication Critical patent/JP2008249808A/ja
Application granted granted Critical
Publication of JP4406440B2 publication Critical patent/JP4406440B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる音声合成装置を提供する。
【解決手段】音声合成部4は、高速記憶媒体42と低速記憶媒体44を備え、第1の音声素片記憶部43と音声素片属性情報記憶部46が高速記憶媒体42に配置され、第2の音声素片記憶部45が低速記憶媒体44に配置されている。素片選択部47は、音声素片データ取得に関する制約と、音声素片系列に含まれる音声素片に対する音声素片データ取得に関する統計量とに基づいて決まる、音声素片系列の評価値に対するペナルティ係数を、ある合成単位の時点で展開されている音声素片系列候補のそれぞれに対して算出し、評価値とペナルティ係数を用いて、音声素片系列候補の中から適切な候補を選択する。
【選択図】図2

Description

本発明は、テキストから音声を合成するテキスト音声合成装置、音声合成方法及びプログラムに関する。
任意の文章から人工的に音声信号を作り出すことを、テキスト音声合成という。テキスト音声合成は、一般的に、言語処理部、韻律処理部及び音声合成部の3つ段階によって行われる。
入力されたテキストは、まず言語処理部において、形態素解析や構文解析が行われ、次に韻律処理部において、アクセントやイントネーションの処理が行われて、音韻系列・韻律情報(基本周波数、音韻継続時間長、パワーなど)が出力される。最後に、音声合成部において、音韻系列・韻律情報から音声信号を合成する。そこで、音声合成部に用いる音声合成方法は、韻律処理部で生成される任意の音韻系列を、任意の韻律で音声合成することが可能な方法でなければならない。
従来、このような音声合成方法として、入力の音韻系列を分割して得られる複数の合成単位(合成単位列)のそれぞれに対して、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から音声素片を選択し、選択した音声素片を合成単位間で接続することによって、音声を合成する、音声合成方法(素片選択型の音声合成方法)が知られている。例えば、特許文献1に開示された素片選択型の音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを、コストで表すこととし、予め定義されたコスト関数を用いて計算されるコストが小さくなるように、音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪み及び接続歪みを、コストを用いて数値化し、このコストに基づいて、音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて、合成音声を生成する。
こうした素片選択型の音声合成方法においては、様々な音韻環境や韻律のバリエーションをできるだけ網羅した、より多くの音声素片を持つことが、音質を高める上で非常に重要である。しかし、大量の音声素片データ全てを、アクセスは高速であるが高価な記憶媒体(例えばメモリなど)に置くことは、コスト的に難しい。一方、大量の音声素片データ全てを、比較的低コストであるがアクセス速度の遅い記憶媒体(例えばハードディスクなど)に置くと、データ取得にかかる時間が大きくなり過ぎるため、実時間処理ができなくなるという問題がある。
そこで、音声素片データのサイズの大部分を占める波形データのうち、利用頻度の高い波形データをメモリに配置し、それ以外の波形データをハードディスクに配置しておき、波形データが格納されている記憶装置へのアクセス速度に関するコスト(アクセス速度コスト)を含む複数のサブコストに基づいて、音声素片を先頭から順次選択していく方法が知られている。例えば、特許文献2に開示された方法によれば、メモリ及びハードディスクに分散配置された大量の音声素片が利用可能であるため、比較的高い音質が実現できるとともに、アクセスの速いメモリ上に波形データのある音声素片が優先して選択されることによって、全波形データをハードディスクから取得する場合に比べて合成音声の生成に要する時間を短縮することが可能である。
しかしながら、特許文献2に開示された方法では、合成音声の生成時間を平均的には短縮できるものの、特定の処理単位において、ハードディスクに波形データが置かれた音声素片ばかりが、集中して選択される可能性があり、処理単位当たりの生成時間の最悪値を適切に制御することはできない。オンラインで音声を合成して即座に合成音声を利用するような音声合成のアプリケーションでは、一般に、ある処理単位に対して生成された合成音声をオーディオデバイスで再生している間に、次の処理単位に対する合成音声を生成し、生成し終わった合成音声をオーディオデバイスに送って、次の処理単位の合成音声を再生することを繰り返して、合成音声の生成・再生を行う。このようなアプリケーションにおいては、ある処理単位での合成音声の生成時間が、前の処理単位に対する合成音声を再生するのにかかる時間を越えてしまうと、これによって、処理単位間で音途切れが発生して、音質が大幅に劣化する可能性がある。そこで、処理単位当たりの合成音声を生成するのに要する時間の最悪値を、適切に制御できる必要がある。また、特許文献2で開示された方法では、メモリに波形データのある音声素片が必要以上に多く選ばれてしまい、最善の音質が実現できない可能性もある。
そこで、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約(例えば、処理単位当たりでの、ハードディスクからのデータ取得回数の上限値など)の下で、合成単位列に対して最適な音声素片系列を選択する方法が考えられる。この方法では、処理単位当たりでの合成音声の生成時間の上限を確実に抑えることが可能であり、所定の生成時間内で、できるだけ高い音質の合成音声が実現できる。
特開2001−282278号公報 特開2005−266010号公報
上記のような制約下での最適素片系列の探索は、制約を考慮した動的計画法によって効率的に探索することができる。しかし、音声素片数が多い場合には、依然として膨大な計算時間を要するため、更なる高速化手段が必要である。特に、制約下での探索は、制約がない場合に比べて計算量が多いため、高速化はとりわけ重要である。
高速化の手段としては、音声素片系列の評価基準であるトータルコストを基準とした、ビームサーチの適用が考えられる。この場合、動的計画法により音声素片系列を合成単位ごとに順次展開していく過程で、ある合成単位時点においてトータルコストが低いものからW個の音声素片系列を選択し、次の合成単位では、選ばれたW個の音声素片系列からの系列のみを展開する。
しかしながら、この方法を上記の制約下での探索に適用すると、次のような問題が生じる。問題は、音声素片系列を順次展開する過程の前半において、アクセスの遅い記憶媒体に配置された音声素片を多く含むような音声素片系列ばかりが、トータルコストが小さいが故に、ビームサーチで選択されてしまった場合に、該過程の後半においては、制約を満たすためには、アクセスの速い記憶媒体に置かれた音声素片しか選択できなくなってしまう、というものである。この問題は、特に、音声素片の大部分がアクセスの遅い記憶媒体に置かれ、アクセスの速い記憶媒体に置かれた音声素片の割合が非常に小さい場合に顕著に起こり、その結果として、生成される合成音声の音質にムラがでて、全体的な音質が劣化してしまう。
本発明は、上記事情を考慮してなされたもので、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる音声合成装置、音声合成方法及びプログラムを提供することを目的とする。
本発明に係る音声合成装置は、データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、目標音声に対する音韻系列を合成単位で区切った第1のセグメント列をもとに、前記音声素片を組み合わせて、該第1のセグメント列に対する第1の音声素片列を複数生成し、該第1の音声素片列のうちから、音声素片列を選択する選択部と、前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とを備え、前記選択部は、前前記第1のセグメント列の途中までの部分を抜き出した部分列である第2のセグメント列に対するW個(Wは予め定められた値)の第2の音声素片列をもとに、該第2のセグメント列に新たに前記第1のセグメント列中のセグメントを加えた部分列である第3のセグメント列に対する第3の音声素片列をW個以上生成する生成処理と、該第3の音声素片列のうちからW個を選択する選択処理とを、繰り返し行うものであり、前記選択部は、前記選択処理において、前記第3の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第3の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第3の音声素片列うちから、修正された該評価値に従ってW個を選択することを特徴とする。
本発明によれば、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる。
以下、図面を参照しながら本発明の実施形態について説明する。
まず、本発明の一実施形態に係るテキスト音声合成装置について説明する。
図1は、本発明の一実施形態に係るテキスト音声合成装置の構成例を示すブロック図である。このテキスト音声合成装置は、テキスト入力部1、言語処理部2、韻律制御部3、音声合成部4から構成される。言語処理部2は、テキスト入力部1から入力されるテキストの形態素解析・構文解析を行い、これら言語解析により得られた言語解析結果を韻律処理部3へ出力する。韻律制御部3は、該言語解析結果を入力し、アクセントやイントネーションの処理を行って、該言語解析結果から音韻系列・及び韻律情報を生成し、生成した音韻系列・及び韻律情報を音声合成部4へ出力する。音声合成部4は、該音韻系列及び韻律情報を入力し、該音韻系列及び韻律情報から音声波形を生成して出力する。
以下、音声合成部4を中心に、その構成及び動作について詳細に説明する。
図2は、図1の音声合成部4の構成例を示すブロック図である。
図2において、音声合成部4は、音韻系列・韻律情報入力部41、第1の音声素片記憶部43、第2の音声素片記憶部45、音声素片属性情報記憶部46、素片選択部47、素片編集・接続部48、音声波形出力部49を含んでいる。
また、図2において、第1の音声素片記憶部43と音声素片属性情報記憶部46は、音声合成部4が備えるアクセス速度(あるいはデータ取得速度)の速い記憶媒体(以下、高速記憶媒体と呼ぶ。)42に配置されている。なお、図2では、同じ高速記憶媒体42に第1の音声素片記憶部43と音声素片属性情報記憶部46とが記憶されているが、音声素片属性情報記憶部46は、第1の音声素片記憶部43が配置される記憶媒体とは別の記憶媒体(高速記憶媒体)に配置されてもよい。また、図2では、一台の高速記憶媒体に第1の音声素片記憶部43が記憶されているが、第1の音声素片記憶部43は、複数台の記憶媒体(高速記憶媒体)に渡って配置されてもよい。
また、図2において、第2の音声素片記憶部45は、音声合成部4が備えるアクセス速度の遅い記憶媒体(以下、低速記憶媒体と呼ぶ。)44に配置されている。なお、図2では、一台の低速記憶媒体に第2の音声素片記憶部45が記憶されているが、第2の音声素片記憶部45は、複数台の記憶媒体(低速記憶媒体)に渡って配置されてもよい。
本実施形態では、高速記憶媒体は、内部メモリやROMなどの比較的高速にアクセスできるメモリとし、低速記憶媒体はハードディスク(HDD)やNANDフラッシュなどの比較的アクセスに時間のかかる記憶媒体として説明する。ただし、これらの組み合わせに限定されるものではなく、第1の音声素片記憶部43と第2の音声素片記憶部45を記憶する記憶媒体が、データ取得時間に各記憶媒体固有の長短を有する複数の記憶媒体で構成されていれば、どのような組み合わせであっても良い。
なお、以下では、音声合成部4が、1台の高速記憶媒体42と、1台の低速記憶媒体44を備え、第1の音声素片記憶部43と音声素片属性情報記憶部46が高速記憶媒体42に配置され、第2の音声素片記憶部45が低速記憶媒体44に配置される場合を例にとって説明する。
音韻系列・韻律情報入力部41には、韻律制御部3から音韻系列・韻律情報が入力される。
第1の音声素片記憶部43は、大量の音声素片の一部を蓄積し、第2の音声素片記憶部45は、大量の音声素片の残りを蓄積する。
音声素片属性情報記憶部46は、第1の音声素片記憶部43に蓄積されている音声素片と第2の音声素片記憶部45に蓄積されている音声素片の全てについて、それぞれ、当該音声素片に対する音韻・韻律環境や、当該音声素片に対する配置情報などを蓄積する。配置情報は、当該音声素片に対する音声素片データが、いずれの記憶媒体(あるいは、いずれの音声素片記憶部)に配置されているかを示す情報である。
素片選択部47は、第1の音声素片記憶部43及び第2の音声素片記憶部45に蓄積された音声素片の中から、音声素片の系列を選択する。
素片編集・接続部48は、素片選択部47が選択した音声素片を、変形及び接続して、合成音声の波形を生成する。
音声波形出力部49は、素片編集・接続部48が生成した音声波形を出力する。
また、本実施形態では、素片選択部47には、「音声素片データ取得に関する制約」(図2の50)を、外部から指定できるようになっている。「音声素片データ取得に関する制約」(以下、データ取得制約と略記する。)は、素片編集・接続部48において第1の音声素片記憶部43及び第2の音声素片記憶部45から音声素片データを取得するにあたって満たすべき(例えばデータ取得速度又は時間に関係する)制約である。
次に、図2の各ブロックについて詳しく説明する。
まず、音韻系列・韻律情報入力部41は、韻律制御部3から入力された音韻系列・韻律情報を、素片選択部47へ出力する。音韻系列は、例えば、音韻記号の系列である。韻律情報は、例えば、基本周波数、音韻継続時間長、パワーなどである。以下、音韻系列・韻律情報入力部41に入力される音韻系列と韻律情報を、それぞれ、入力音韻系列、入力韻律情報と呼ぶ。
次に、第1の音声素片記憶部43及び第2の音声素片記憶部45には、合成音声の生成の際に用いられる音声の単位(以下、合成単位と称する。)で、音声素片が大量に蓄積されている。合成単位とは、音素あるいは音素を分割したもの(例えば、半音素など)の組み合わせであり、例えば、半音素、音素(C、V)、ダイフォン(CV、VC、VV)、トライフォン(CVC、VCV)、音節(CV、V)、などであり(ここで、Vは母音、Cは子音を表す。)、また、これらが混在しているなど可変長であってもよい。また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。
図3及び図4に、それぞれ、第1の音声素片記憶部43に蓄積される音声素片の例及び第2の音声素片記憶部45に蓄積される音声素片の例を示す。
図3及び図4において、第1の音声素片記憶部43及び第2の音声素片記憶部45には、各音素の音声信号の波形である音声素片が、当該音声素片を識別するための素片番号とともに記憶されている。これらの音声素片は、別途収録された多数の音声データに対して、音素ごとにラベル付けし、ラベルにしたがって音素ごとに音声波形を切り出したものである。
本実施形態では、有声音の音声素片については、さらに、切り出した音声波形をピッチ波形単位に分解することによって得られるピッチ波形の系列が、音声素片として保持されている。ピッチ波形とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。このようなピッチ波形を抽出する一つの方法として、基本周期同期窓を用いる方法があり、ここでは、この方法によって収録音声データからあらかじめ抽出されたピッチ波形を用いることとする。具体的には、まず、音素に対して切り出された音声波形に対して、基本周期間隔ごとにマーク(ピッチマーク)を付し、さらに、該音声波形に対して、このピッチマークを中心に、窓長が基本周期の2倍のハニング窓で窓掛けをすることによって、ピッチ波形を切り出す。
続いて、音声素片属性情報記憶部46には、第1の音声素片記憶部43及び第2の音声素片記憶部45に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。音韻・韻律環境とは、対応する音声素片にとって環境となる要因の組み合わせである。要因は、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などである。また、音声素片属性情報記憶部46には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いるものも蓄積されている。また、音声素片属性情報記憶部46には、各音声素片のデータが、高速記憶媒体42と低速記憶媒体44のうちのいずれに配置されているかを示す配置情報も、蓄積されている。
以下、音声素片属性情報記憶部46に蓄積される音声素片の音韻・韻律環境と音響特徴量と配置情報とを総称して、音声素片属性情報と呼ぶ。
図5に、音声素片属性情報記憶部46に蓄積される音声素片属性情報の例を示す。図5において、音声素片属性情報記憶部46には、第1の音声素片記憶部43及び第2の音声素片記憶部45に蓄積される各音声素片の素片番号に対応して、各種の素片属性が記憶されている。図5の例では、音韻・韻律環境として、音声素片に対応した音韻(音素名)、隣接音韻(この例では、当該音韻の前後それぞれ2音素ずつ)、基本周波数、音韻継続時間長が記憶され、音響特徴量として、音声素片始終端のケプストラム係数が記憶されている。また、配置情報は、各音声素片のデータが、高速記憶媒体(図5中、F)と、低速記憶媒体(図5中、S)のいずれに配置されているかを示している。
なお、これらの素片属性は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。また、図5では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。
次に、図2の音声合成部4の動作を詳しく説明する。
音韻系列・韻律情報入力部41を介して素片選択部47に入力された入力音韻系列は、素片選択部47において、合成単位ごとに区切られる。この区切られた合成単位を、セグメントと称する。
素片選択部47は、入力された入力音韻系列と入力韻律情報を基に、音声素片属性情報記憶部44を参照して、該音韻系列の各セグメントに対して、それぞれ、音声素片(正確には音声素片のID)を選択する。この際、素片選択部47は、外部から指定されたデータ取得制約の下で、選択された音声素片を用いて合成された合成音声と目標音声との間の歪みができるだけ小さくなるように、音声素片の組み合わせを選択する。
ここでは、データ取得制約として、低速記憶媒体に配置された第2の音声素片記憶部45からの音声素片データ取得回数の上限値を用いる場合を例にとって説明する。
また、ここでは、音声素片の選択基準には、一般の素片選択型音声合成方法と同様に、コストを用いる。このコストは、合成音声の目標音声に対する歪みの度合いを表すものであり、コスト関数を用いて計算する。コスト関数としては、合成音声と目標音声との間の歪みを間接的かつ適切に表すようなものを定義する。
最初に、コストおよびコスト関数の詳細について説明する。
コストは、目標コストと接続コストの大きく2種類のコストに分けられる。目標コストは、コストの算出対象である音声素片(対象素片)を、目標の音韻・韻律環境で使用することによって生じるコストである。接続コストは、対象素片を隣接する音声素片と接続したときに生じるコストである。
目標コストおよび接続コストには、生じる歪みの要因ごとにそれぞれサブコストが存在し、各要因に対するサブコストごとにそれぞれサブコスト関数C(u,ui−1,t)(n=1,・・・,N、Nはサブコストの個数)が定義される。ここで、tは、目標の音韻・韻律環境をt=(t,・・・,t)(I:セグメントの個数)としたときの、i番目のセグメントに対応する音韻・韻律環境を表し、uは、i番目のセグメントに対応する音素の音声素片を表す。
目標コストのサブコストには、音声素片がもつ基本周波数と目標の基本周波数との違い(差)によって生じる歪みを表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い(差)によって生じる歪みを表す音韻継続時間長コスト、音声素片が属していた音韻環境と目標の音韻環境との違いによって生じる歪みを表す音韻環境コストなどがある。
各コストの具体的な算出方法の例を以下に示す。
まず、基本周波数コストは、以下の数式(1)によって算出することができる。
(u,ui−1,t)={log(f(v))−log(f(t))} …(1)
ここで、vは、音声素片uの素片環境を表し、fは、素片環境vから平均基本周波数を取り出す関数を表す。
次に、音韻継続時間長コストは、以下の数式(2)によって算出することができる。
(u,ui−1,t)={g(v)−g(t)} …(2)
ここで、gは、素片環境vから音声継続時間長を取り出す関数を表す。
音韻環境コストは、以下の数式(3)によって算出することができる。
(u,ui−1,t)=Σr・d(p(v,j)−p(t,j)) …(3)
ここで、Σがr・d(p(v,j)−p(t,j))について総和をとるjの範囲は、j=−2〜2(jは整数)である。jは、対象音素に対する音素の相対位置を表し、pは、素片環境vから相対位置jの隣接音素を取り出す関数を表し、dは、2つの音素間の距離(音素間の特徴の違い)を算出する関数を表し、rは、相対位置jに対する音素間距離の重みを表す。dは、「0」から「1」の値を返し、同一の音素間では「0」、全く特徴の異なる音素間では「1」を返す。
一方、接続コストのサブコストには、音声素片境界でのスペクトルの違い(差)を表すスペクトル接続コストなどがある。
スペクトル接続コストは、以下の数式(4)によって算出することができる。
(u,ui−1,t)=||hpre(u)−hpost(ui−1)|| …(4)
ここで、||・||は、ノルムを表す。hpreは、音声素片uの前側の接続境界でのケプストラム係数を表し、hpostは、音声素片u後側の接続境界でのケプストラム係数をベクトルとして取り出す関数を表す。
これらのサブコスト関数の重み付き和を、合成単位コスト関数として、以下の数式(5)ように定義することができる。 C(u,ui−1,t)=Σw・C(u,ui−1,t) …(5)
ここで、Σがw・C(u,ui−1,t)について総和をとるnの範囲は、n=1〜N(nは整数)である。wは、サブコスト間の重みを表す。
上記数式(5)は、ある音声素片をある合成単位に用いた場合のコストである、合成コストを算出する式である。
素片選択部47では、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントに対し、それぞれ、上記数式(5)によって合成単位コストを算出する。
素片選択部47は、算出した合成単位コストを全セグメントについて足し合わせたトータルコストを、以下の数式(6)によって算出することができる。
TC=Σ(C(u,ui−1,t)) …(6)
ここで、Σが(C(u,ui−1,t))について総和をとるiの範囲は、i=1〜I(iは整数)である。Pは定数である。
ここでは簡単のため、p=1とする。すなわち、トータルコストは、各合成単位コストの単純な和を表す。トータルコストは、入力音韻系列に対して選択された音声素片系列を用いて生成される合成音声の、目標音声に対する歪みを表し、トータルコストが小さくなるように音声素片系列を選択することによって、音声素片に対する歪みの少ない音質の合成音声が生成できる。
ただし、上記数式(6)中のpは1以外でもよく、例えばpを1より大きくすると、局所的に合成単位コストが大きい音声素片系列がより強調されることになり、局所的に合成単位コストが大きくなるような音声素片が選ばれにくくなる。
次に、素片選択部47の具体的な動作について説明する。
図6は、素片選択部47が、最適音声素片系列を選択する手順の一例を示すフローチャートである。最適音声素片系列は、外部から指定されたデータ取得制約の下で、トータルコストを最小とする音声素片の組み合わせである。
上記した数式(6)のように、トータルコストは漸化的に計算できるため、最適音声素片系列は、以下に示すように、動的計画(Dynamic Programing)法を用いて効率的に探索することができる。
まず、素片選択部47は、入力された入力音韻系列の各セグメントに対して、それぞれ、複数の音声素片の候補を、音声素片属性情報記憶部46に列挙された音声素片の中から選択する(ステップS101)。この際、各セグメントについて、その音韻に対応する音声素片を全て抽出してもよいが、ここでは、以降の処理での計算量を削減するため、次のような処理を行うものとする。すなわち、入力された目標の音韻・韻律環境を用いて、各々のセグメントごとに、そのセグメントの音韻に対応する各音声素片に対して、上述のコストのうち目標コストのみをそれぞれ算出し、算出された目標コストの小さい音声素片から順に上位C個だけ選択して、選択したC個の音声素片をそのセグメントに対する音声素片候補とする。このような処理を一般に予備選択と呼ぶ。
図7は、ステップS101において、「aNsaa」というテキスト(なお、「aNsaa」は、日本語の「アンサー」「答え」のことである。)に対する入力音韻系列「a」「N」「s」「a」「a」について、各エレメントにつき5個ずつ音声素片の候補が選択された例を示している。ここで、各セグメント(この例では、各音素「a」「N」「s」「a」「a」)の下に並べられている白丸は、それぞれのセグメントに対する音声素片の候補を表す。また、白丸内の記号(F、S)は、各音声素片データの配置情報を示しており、Fはその音声素片データが高速記憶媒体に配置されていることを意味し、Sはその音声素片データが低速記憶媒体に配置されていることを意味している。
ところで、ステップS101の予備選択において、あるセグメントに対して、低速記憶媒体に音声素片データが配置された音声素片候補ばかりが選択された場合、外部から指定されたデータ取得制約を最終的に満たせなくなる可能性がある。そのため、データ取得制約が外部から指定された場合には、各々のセグメント辺り、少なくとも一つの音声素片候補は、高速記憶媒体に音声素片データが置かれた音声素片から選択する必要がある。
そこで、ここでは、1つのセグメントに対して選択される音声素片候補のうち、高速記憶媒体に音声素片データが配置されている音声素片候補の最低割合を、データ取得制約に応じて決めることにする。例えば、入力された入力音韻系列中のセグメント数がLで、データ取得制約が「低速記憶媒体に配置された第2の音声素片記憶部45からの音声素片データ取得回数の上限値M(M<L)」である場合に、上記の最低割合を、(L−M)/2Lとする。図7は、L=5、M=2の場合の例を示しており、いずれのセグメントにも、高速記憶媒体に音声素片データがある音声素片候補が2つ以上選択されている。なお、(L−M)/2Lは一例であり、上記の最低割合は、これに限定されるものではない。
次に、素片選択部47は、カウンターiに1をセットし(ステップS102)、カウンターjに1をセットして(ステップS103)、ステップS104に進む。
なお、iは、セグメントの番号であり、図7の例では左から順に1,2,3,4,5となる。また、jは、音声素片候補の番号であり、図7の例では上から順に1,2,3,4,5となる。
ステップS104では、素片選択部47は、当該セグメントiのj番目の音声素片候補(ui,j)に至る音声素片系列のうち、データ取得制約を満たし、かつ、最適な(1又は複数種類の)音声素片系列を選択する。具体的には、直前のセグメント(i−1)までの音声素片系列として選択されているもの(pi−1,1 , pi−1,2 , … , pi−1,W)(ここで、Wはビーム幅)のそれぞれに音声素片候補ui,jを接続してできる音声素片系列の中から、音声素片系列を選択する。
図8は、i=3、j=1、W=5の場合の例を示している。図8中の実線は、直前のセグメント(i=2)までに選択されている5つの音声素片系列(p2,1 , p2,2 , … , p2,5)を示しており、点線は、これらの各音声素片系列にそれぞれ音声素片候補ui,jを接続して、新たな5つの音声素片系列を生成する様子を示している。
ステップS104では、素片選択部47は、まず、新たに生成された各音声素片系列がデータ取得制約を満たしているかどうかを調べる。そして、データ取得制約を満たしていない音声素片系列があれば、これを除去する。図8の例では、音声素片系列p2,4から音声素片候補u3,1に至る新たな音声素片系列(図8中、「NG」)の中に、低速記憶媒体に音声素片データが配置された音声素片が3個含まれており、この個数が上限値M(=2)を超えるため、この音声素片系列が除去される。
次に、素片選択部47は、上記の新たな音声素片系列のうち、除去されずに残っている各音声素片系列候補に対して、それぞれ、トータルコストを算出する。そして、トータルコストの小さい音声素片系列を選択する。
トータルコストは、次のように算出することができる。例えば、図8の音声素片系列p2,2から音声素片候補u3,1に至る音声素片系列のトータルコストは、音声素片系列p2,2のトータルコストと、音声素片候補u2,2と音声素片候補u3,1との間の接続コストと、音声素片候補u3,1の目標コストとを足し合わせることによって、算出できる。
選択する音声素片系列の個数は、データ取得制約が無い場合は、通常の動的計画法と同様に、音声素片候補1つ辺り、最適な音声素片系列1つだけで良い(すなわち、この場合、1種類の最適な音声素片系列が選択される)。一方、データ取得制約が指定されている場合は、「その音声素片系列中に含まれる、低速記憶媒体に音声素片データが配置された音声素片の個数」の異なるものごとに、それぞれ、最適な音声素片系列を選択する(すなわち、この場合、複数種類の最適な音声素片系列が選択されることがある)。例えば、図8の場合では、音声素片候補u3,1に至る音声素片系列のうち、Sを2つ含む音声素片系列について、最適なものを1つ選択するとともに、Sを1つ含む音声素片系列について、最適なもの1つ選択する(合計2つの音声素片系列を選択することになる)。これは、上述したデータ取得制約による音声素片系列候補の除去によって、ある音声素片候補を経由する音声素片系列の選択可能性が完全に無くなってしまうことを防ぐためである。
ただし、その音声素片系列中に含まれる、低速記憶媒体に音声素片データが配置された音声素片の個数が、その音声素片候補に至る最適系列(全ての音声素片系列中でトータルコストが最小のもの)よりも多い音声素片系列については、残しておく価値が無いので除去する。
また、低速記憶媒体に音声素片データが配置された音声素片の個数が異なっていても、以降の系列展開への制約のかかり方が変わらないものについては、同一の個数として扱う。例えば、L=5、M=2の場合、i=4では、低速記憶媒体に配置された音声素片の個数が0と1ならいずれも制約の影響を受けないので、Sを1つのも含まない音声素片系列と、Sを1つ含む音声素片系列とは、Sの個数については区別をしないものとする。
続いて、素片選択部47は、カウンターjの値が、セグメントiに対して選択されている音声素片候補の個数N(i)未満か否かを判定する(ステップS105)。カウンターjの値がN(j)未満なら(ステップS105のYES)、カウンターjの値を一つ増やして(ステップS106)ステップS104に戻り、カウンターjの値がN(j)以上なら(ステップS105のNO)、次のステップS107に進む。
ステップS107では、素片選択部47は、セグメントiの各音声素片候補に対して選択された全ての音声素片系列の中から、ビーム幅(W)個の音声素片系列を選択する。この処理は、次のセグメントで仮説展開する系列の範囲をビーム幅によって限定することによって、系列探索における計算量を大幅に削減するための処理であり、一般的にビームサーチと呼ばれる。この処理の詳細については、後ほど説明する。
次に、素片選択部47は、カウンターiの値が、入力された入力音韻系列に対する全セグメント数L未満か否かを判定する(ステップS108)。カウンターiの値がL未満なら(ステップS108のYES)、カウンターiの値を一つ増やして(ステップS109)ステップS103に戻り、カウンターiの値がL以上なら(ステップS108のNO)、次のステップS110に進む。
素片選択部47は、最終セグメントLに至る音声素片系列として選択されている全ての音声素片系列の中から、トータルコストが最小となる音声素片系列を一つ選択して、処理を終了する。
次に、図6のステップS107での処理の詳細について説明する。
一般のビームサーチでは、探索している系列の評価値(本実施形態では、トータルコスト)が上位のものから順に、ビーム幅に相当する個数分の系列を選択する。しかし、本実施形態のようにデータ取得制約がある場合に、単純に、トータルコストが上位のものから順に、ビーム幅に相当する個数分の音声素片系列を選択すると、次のような問題が生じる。すなわち、図6のステップS102からステップS109の処理は、最終的に最適音声素片系列になる可能性の高い音声素片系列をビーム幅分だけ残しながら、左から右のセグメントに向かって、音声素片系列の仮説を展開していく処理である。そして、この処理において、前半のセグメントに対する処理がなされたときに、低速記憶媒体に音声素片データを配置された音声素片ばかりを含む音声素片系列がビーム内に残ってしまった場合、後半のセグメントに対する処理では、高速記憶媒体に音声素片データを持つ音声素片しか選択できなくなってしまう、という問題が発生する。この問題は、特に、高速記憶媒体に音声素片データが置かれた音声素片の割合が小さい場合に顕著に起こる。(高速記憶媒体に音声素片データの配置された)バリエーションの少ない音声素片を、音声素片系列に多く含めるほど、トータルコスト的に不利になるためである。このような問題が発生すると、結果として、生成される合成音声の音質にムラが出て、全体的な音質が劣化することになる。
そこで、本実施形態では、ステップS107での選択において、音声素片系列に含まれる、低速記憶媒体に音声素片データの配置された音声素片の比率が、データ取得制約との兼ね合いで、超過しているような音声素片系列に対して、ペナルティを課すことによって、この問題を回避する。
以下、ステップS107での具体的な動作について説明する。
図9は、ステップS107での動作の一例を示すフローチャートである。
まず、素片選択部47は、当該セグメントの位置iと、入力音韻系列に対する全セグメント数Lと、データ取得制約とから、ペナルティ係数を算出するための関数を決定する(ステップS201)。ペナルティ係数算出用関数の決め方については、後ほど説明する。
次に、素片選択部47は、当該セグメントiの各音声素片候補に対して選択された音声素片系列の総数Nが、ビーム幅Wより、大きいかどうかを判定する(ステップS202)。NがW以下(すなわち全素片系列がビーム内)の場合は、全ての処理を終了する(ステップS202のNO)。NがWより大きい場合は、ステップS203に進み(ステップS202のYES)、カウンターnの値に1をセットして、さらにステップS204に進む。
素片選択部47は、セグメントiに至る音声素片系列のうち、n番目の音声素片系列pi,nについて、当該音声素片系列中の、低速記憶媒体に音声素片データが配置された音声素片の個数を、カウントする(ステップS204)。次に、この個数から、ステップS201で決定されたペナルティ係数算出用関数を用いて、音声素片系列pi,nに対するペナルティ係数を算出する(ステップS205)。さらに、音声素片系列pi,nのトータルコストと、ステップS205で求めたペナルティ係数とから、音声素片系列pi,nのビーム用評価値を算出する(ステップS206)。ここでは、ビーム用評価値は、トータルコストとペナルティ係数とを積算することによって、算出することとする。なお、ビーム用評価値の算出方法は、これに限定されるものではなく、トータルコストとペナルティ係数とから算出できる方法であれば、どのような方法を用いてもよい。
次に、素片選択部47は、カウンターnがビーム幅Wより大きいか否かを判定する(ステップS207)。nがWより大きい場合は、ステップS208に進み(ステップS207のYES)、nがW以下の場合は、ステップS211に進む(ステップS207のNO)。
ステップS208では、n−1番目までの音声素片系列のうち、削除されずに残っているものの中から、ビーム用評価値の最大値を探索し、音声素片系列pi,nのビーム用評価値がこの最大値より小さいか否かを判定する。音声素片系列pi,nのビーム用評価値が最大値より小さい場合は(ステップS208のYES)、n−1番目までの音声素片系列からビーム用評価値の最大値を持つ音声素片系列を削除して(ステップS209)、ステップS211に進む。一方、音声素片系列pi,nのビーム用評価値が最大値以上の場合は(ステップS208のNO)、この音声素片系列pi,nを削除して(ステップS210)、ステップS211に進む。
ステップS211では、カウンターnが、当該セグメントiの各音声素片候補に対して選択された音声素片系列の総数Nより、小さいか否かを判定し、小さい場合(ステップS211のYES)は、カウンターnの値を1つ増やして(ステップS212)、ステップS204に戻る。nがN以上の場合は(ステップS211のNO)、処理を終了する。
次に、ステップS201でのペナルティ係数算出用関数の決め方について説明する。
図10は、ペナルティ関数の一例を示している。この例では、音声素片系列内の音声素片のうち、低速記憶媒体に音声素片データが配置されているものの比率(x)から、ペナルティ係数(y)を算出するような関数となっている。この比率が、入力音韻系列の全セグメントのうち、低速記憶媒体から取得可能な音声素片の割合であるM/L以下のときには、ペナルティ係数が1(すなわちペナルティ無し)であり、M/Lを超えると単調増加するのが、この関数の特徴である。これによって、低速記憶媒体から選択される音声素片の比率がデータ取得制約に比べて超過気味の音声素片系列が選択されにくくなる一方、制約下に収まっている音声素片系列が相対的に選択されやすくなる効果がある。
また、単調増加する曲線部分の傾きは、当該セグメントの位置iと全セグメント数Lとの関係から決まることも特徴である。例えば、α(i,L)=L/M(L−i)のように傾きを決める。この場合、残りのセグメントが少なくなるほど、傾きが急になるようになっている。残りのセグメント数が少なくなるほど、音声素片系列の選択での自由度に与える制約の影響度は高くなるため、制約の影響度に応じてペナルティの効果を大きくすることを意図している。
次に、図11及び図12を用いて、前述のように決めたペナルティ係数算出関数を用いて算出したビーム用評価値を用いてビームサーチを行うことによる効果を概念的に説明する。
図11は、セグメント数(L)が5、ビーム幅(W)が3で、低速記憶媒体に配置された音声素片データ取得回数の上限値(M)が2のケースにおいて、3番目のセグメントにおいて各音声素片候補に対する最適な音声素片系列を選択した後、当該セグメントに対してビーム幅分の音声素片系列を選択する処理(図6のステップS107)の直前の状態を示している。図11中の実線は、2番目のセグメント「N」までで選択されて残っている音声素片系列を示し、点線は、3番目のセグメント「s」の各音声素片候補に対して選択された音声素片系列を示している。一方、図12は、3番目のセグメント「s」の各音声素片候補に対して選択された音声素片系列のそれぞれについて、音声素片系列中の音声素片のうち低速記憶媒体に音声素片データが配置されたものの個数(低速記憶媒体の素片数)、トータルコスト、ペナルティ係数、ビーム用評価値を示している。さらに、それらの音声素片系列のうち、トータルコストを用いてビーム幅分の音声素片系列を選択した場合に選択される音声素片系列と、ビーム用評価値を用いてビーム幅分の音声素片系列を選択した場合に選択される音声素片系列とを、それぞれ丸印で示している。この例の場合、トータルコストを用いて選択すると、低速記憶媒体に配置された音声素片数が上限に達した音声素片系列ばかりが選択されてしまい、いずれも以降のセグメントでは、高速記憶媒体(F)に配置された音声素片候補しか選択できないことになり、最終的な音質が大きく劣化する可能性がある。一方で、ビーム用評価値を用いると、その時点でのトータルコストではやや劣るものの、低速記憶媒体に配置された音声素片数が上限より少ない音声素片系列も選択されるため、最終的な音質が大きく劣化する事態を避けることができ、高速の記憶媒体と低速の記憶媒体のそれぞれからバランス良く音声素片を選択することが可能となる。
素片選択部47は、上述した方法を用いて、入力音韻系列に対応した音声素片系列を選択して、素片編集・接続部48に出力する。
素片編集・接続部48は、素片選択部47から渡されたセグメントごとの音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。
図13は、素片編集・接続部48での処理を説明するための図である。図13には、素片選択部47で選択された、音素「a」「N」「s」「a」「a」の各合成単位に対する音声素片を、変形・接続して、「aNsaa」という音声波形を生成する場合を示している。この例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、収録音声データから直接切り出されたものである。図13の点線は、目標の音韻継続時間長に従って分割した音素ごとのセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置(ピッチマーク)を示している。図13のように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については音声素片の波形をセグメントの長さに合うよう伸縮したものをセグメントに重畳することによって、所望の韻律(ここでは、基本周波数、音韻継続時間長)を持った音声波形を生成する。
以上のように、本実施形態によれば、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる。
ところで、これまでの説明においては、データ取得制約が、低速記憶媒体に置かれた音声素片記憶部からの音声素片データ取得回数の上限値であるとして説明したが、このデータ取得制約は、(高速・低速のいずれの記憶媒体からのものも含めた)音声素片系列中の全音声素片データを取得するのに要する時間の上限値でもよい。
この場合、素片選択部47においては、音声素片系列中の音声素片データを取得するのに要する時間を予測して、予測値が上限値を超えないように音声素片系列を選択する。この際、音声素片データを取得するのに要する時間は、例えば、高速・低速の各記憶媒体から1回のアクセスで、あるサイズのデータを取得するのに要する時間の統計量をあらかじめ求めておき、その統計量を用いることによって予測することができる。最も単純には、各記憶媒体からの1回あたりのデータ取得時間の最大値に、高速・低速の各記憶媒体から取得する音声素片の個数をそれぞれ掛けてから足し合わせることにより、全音声素片を取得するのに要する時間の最大値を求めることができ、これを予測値として用いることができる。
このように、データ取得制約が「音声素片系列中の全音声素片データを取得するのに要する時間の上限値」であり、音声素片系列中の音声素片データを取得するのに要する時間の予測値を用いて音声素片系列の選択を行う場合、素片選択部47でのビームサーチにおけるペナルティ係数は、音声素片系列中の音声素片データを取得するのに要する時間の予測値を用いて算出する。ペナルティ係数は、当該セグメントまでの音声素片系列中の音声素片データを取得するのに要する時間の予測値Pが、ある閾値以下の場合は1をとり、閾値以上では単調増加するようになっていればよい。閾値としては、例えば、入力音韻系列の全セグメント数がL、全音声素片データを取得するのに要する時間の上限値がU、当該セグメントの位置がiの場合、U×i/Lなどが考えられる。この場合のペナルティ関数は、例えば、図10と同様の形でよい。
なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
本発明の一実施形態に係るテキスト音声合成装置の構成例を示すブロック図 同実施形態に係る音声合成部の構成例を示すブロック図 同実施形態に係る第1の音声素片記憶部に蓄積される音声素片の例を示す図 同実施形態に係る第2の音声素片記憶部に蓄積される音声素片の例を示す図 同実施形態に係る音声素片属性情報記憶部に蓄積される素片属性情報の例を示す図 同実施形態に係る音声素片の選択手順の一例を示すフローチャート 予備選択された音声素片の候補の一例を示す図 セグメントiの各素片候補について音声素片系列を選択する手順の一例について説明するための図 図6のステップS107での音声素片系列の選択方法の例を示すフローチャート ペナルティ係数を算出するための関数の一例を示す図 セグメントiまでについてペナルティ係数を用いて音声素片系列を選択する手順の一例について説明するための図 同実施形態に係るペナルティ係数を用いて音声素片系列を選択することによる効果について説明するための図 同実施形態に係る素片編集・接続部での処理を説明するための図
符号の説明
1…テキスト入力部、2…言語処理部、3…韻律制御部、4…音声合成部、41…音韻系列・韻律情報入力部、42…高速の記憶媒体、43…第1の音声素片記憶部、44…低速の記憶媒体、45…第2の音声素片記憶部、46…音声素片環境記憶部、47…素片選択部、48…素片編集・接続部、49…音声波形出力部

Claims (21)

  1. データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、
    前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、
    目標音声に対する音韻系列を合成単位で区切った第1のセグメント列をもとに、前記音声素片を組み合わせて、該第1のセグメント列に対する第1の音声素片列を複数生成し、該第1の音声素片列のうちから、音声素片列を選択する選択部と、
    前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とを備え、
    前記選択部は、前記第1のセグメント列の途中までの部分を抜き出した部分列である第2のセグメント列に対するW個(Wは予め定められた値)の第2の音声素片列をもとに、該第2のセグメント列に新たに前記第1のセグメント列中のセグメントを加えた部分列である第3のセグメント列に対する第3の音声素片列をW個以上生成する生成処理と、該第3の音声素片列のうちからW個を選択する選択処理とを、繰り返し行うものであり、
    前記選択部は、前記選択処理において、前記第3の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第3の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第3の音声素片列うちから、修正された該評価値に従ってW個を選択することを特徴とする音声合成装置。
  2. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項1に記載の音声合成装置。
  3. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項1に記載の音声合成装置。
  4. 前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項1に記載の音声合成装置。
  5. 前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第1の音声素片系列に含まれる音声素片の個数に対する前記第3の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項4に記載の音声合成装置。
  6. 前記第3のセグメント列は、前記第2のセグメント列に対して、前記第1のセグメント列における該第2のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項1に記載の音声合成装置。
  7. 前記第3の音声素片列は、前記第2の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項6に記載の音声合成装置。
  8. データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、選択部と、接続部とを備えた音声合成装置の音声合成方法であって、
    前記選択部が、目標音声に対する音韻系列を合成単位で区切った第1のセグメント列をもとに、前記音声素片を組み合わせて、該第1のセグメント列に対する第1の音声素片列を複数生成し、該第1の音声素片列のうちから、音声素片列を選択する選択ステップと、
    前記接続部が、前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続ステップとを有し、
    前記選択部は、前記選択ステップにおいて、前記第1のセグメント列の途中までの部分を抜き出した部分列である第2のセグメント列に対するW個(Wは予め定められた値)の第2の音声素片列をもとに、該第2のセグメント列に新たに前記第1のセグメント列中のセグメントを加えた部分列である第3のセグメント列に対する第3の音声素片列をW個以上生成する生成処理と、該第3の音声素片列のうちからW個を選択する選択処理とを、繰り返し行うものであり、
    前記選択部は、前記選択処理において、前記第3の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第3の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第3の音声素片列うちから、修正された該評価値に従ってW個を選択することを特徴とする音声合成方法。
  9. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項8に記載の音声合成方法。
  10. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項8に記載の音声合成方法。
  11. 前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項8に記載の音声合成方法。
  12. 前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第1の音声素片系列に含まれる音声素片の個数に対する前記第3の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項11に記載の音声合成方法。
  13. 前記第3のセグメント列は、前記第2のセグメント列に対して、前記第1のセグメント列における該第2のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項8に記載の音声合成方法。
  14. 前記第3の音声素片列は、前記第2の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項13に記載の音声合成方法。
  15. 音声合成装置としてコンピュータを機能させるためのプログラムであって、
    データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、
    前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、
    目標音声に対する音韻系列を合成単位で区切った第1のセグメント列をもとに、前記音声素片を組み合わせて、該第1のセグメント列に対する第1の音声素片列を複数生成し、該第1の音声素片列のうちから、音声素片列を選択する選択部と、
    前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とをコンピュータを実現させるためのものであるとともに、
    前記選択部は、前記第1のセグメント列の途中までの部分を抜き出した部分列である第2のセグメント列に対するW個(Wは予め定められた値)の第2の音声素片列をもとに、該第2のセグメント列に新たに前記第1のセグメント列中のセグメントを加えた部分列である第3のセグメント列に対する第3の音声素片列をW個以上生成する生成処理と、該第3の音声素片列のうちからW個を選択する選択処理とを、繰り返し行うものであり、
    前記選択部は、前記選択処理において、前記第3の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第3の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第3の音声素片列うちから、修正された該評価値に従ってW個を選択することを特徴とするプログラム。
  16. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項15に記載のプログラム。
  17. 前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
    前記制約は、前記第1の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第3の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項15に記載のプログラム。
  18. 前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項15に記載のプログラム。
  19. 前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第1の音声素片系列に含まれる音声素片の個数に対する前記第3の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項18に記載のプログラム。
  20. 前記第3のセグメント列は、前記第2のセグメント列に対して、前記第1のセグメント列における該第2のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項15に記載のプログラム。
  21. 前記第3の音声素片列は、前記第2の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項20に記載のプログラム。
JP2007087857A 2007-03-29 2007-03-29 音声合成装置、音声合成方法及びプログラム Expired - Fee Related JP4406440B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007087857A JP4406440B2 (ja) 2007-03-29 2007-03-29 音声合成装置、音声合成方法及びプログラム
US12/051,104 US8108216B2 (en) 2007-03-29 2008-03-19 Speech synthesis system and speech synthesis method
CNA2008100963757A CN101276583A (zh) 2007-03-29 2008-03-28 语音合成系统和语音合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007087857A JP4406440B2 (ja) 2007-03-29 2007-03-29 音声合成装置、音声合成方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2008249808A true JP2008249808A (ja) 2008-10-16
JP4406440B2 JP4406440B2 (ja) 2010-01-27

Family

ID=39974861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007087857A Expired - Fee Related JP4406440B2 (ja) 2007-03-29 2007-03-29 音声合成装置、音声合成方法及びプログラム

Country Status (3)

Country Link
US (1) US8108216B2 (ja)
JP (1) JP4406440B2 (ja)
CN (1) CN101276583A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009069596A1 (ja) * 2007-11-28 2009-06-04 Nec Corporation 音声合成装置、音声合成方法及び音声合成プログラム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011025532A1 (en) * 2009-08-24 2011-03-03 NovaSpeech, LLC System and method for speech synthesis using frequency splicing
US9798653B1 (en) * 2010-05-05 2017-10-24 Nuance Communications, Inc. Methods, apparatus and data structure for cross-language speech adaptation
JP5106608B2 (ja) * 2010-09-29 2012-12-26 株式会社東芝 読み上げ支援装置、方法、およびプログラム
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
US9824681B2 (en) * 2014-09-11 2017-11-21 Microsoft Technology Licensing, Llc Text-to-speech with emotional content
JP2016080827A (ja) * 2014-10-15 2016-05-16 ヤマハ株式会社 音韻情報合成装置および音声合成装置
CN105895076B (zh) * 2015-01-26 2019-11-15 科大讯飞股份有限公司 一种语音合成方法及系统
WO2017046904A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
CN106970771B (zh) * 2016-01-14 2020-01-14 腾讯科技(深圳)有限公司 音频数据处理方法和装置
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697780B1 (en) * 1999-04-30 2004-02-24 At&T Corp. Method and apparatus for rapid acoustic unit selection from a large speech corpus
US7369994B1 (en) * 1999-04-30 2008-05-06 At&T Corp. Methods and apparatus for rapid acoustic unit selection from a large speech corpus
JP2001282278A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理装置及びその方法と記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
US6684187B1 (en) * 2000-06-30 2004-01-27 At&T Corp. Method and system for preselection of suitable units for concatenative speech
WO2005071663A2 (en) * 2004-01-16 2005-08-04 Scansoft, Inc. Corpus-based speech synthesis based on segment recombination
JP4424024B2 (ja) 2004-03-16 2010-03-03 株式会社国際電気通信基礎技術研究所 素片接続型音声合成装置及び方法
DE602006003723D1 (de) * 2006-03-17 2009-01-02 Svox Ag Text-zu-Sprache-Synthese
JP2007264503A (ja) * 2006-03-29 2007-10-11 Toshiba Corp 音声合成装置及びその方法
US7640161B2 (en) * 2006-05-12 2009-12-29 Nexidia Inc. Wordspotting system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009069596A1 (ja) * 2007-11-28 2009-06-04 Nec Corporation 音声合成装置、音声合成方法及び音声合成プログラム
JP5446873B2 (ja) * 2007-11-28 2014-03-19 日本電気株式会社 音声合成装置、音声合成方法及び音声合成プログラム

Also Published As

Publication number Publication date
US20090018836A1 (en) 2009-01-15
CN101276583A (zh) 2008-10-01
US8108216B2 (en) 2012-01-31
JP4406440B2 (ja) 2010-01-27

Similar Documents

Publication Publication Date Title
JP4406440B2 (ja) 音声合成装置、音声合成方法及びプログラム
JP4080989B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP4469883B2 (ja) 音声合成方法及びその装置
JP4551803B2 (ja) 音声合成装置及びそのプログラム
JP4241762B2 (ja) 音声合成装置、その方法、及びプログラム
US20060259303A1 (en) Systems and methods for pitch smoothing for text-to-speech synthesis
JP2008033133A (ja) 音声合成装置、音声合成方法および音声合成プログラム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP2007264503A (ja) 音声合成装置及びその方法
JP4639932B2 (ja) 音声合成装置
JP3728173B2 (ja) 音声合成方法、装置および記憶媒体
JP4225128B2 (ja) 規則音声合成装置及び規則音声合成方法
JP4533255B2 (ja) 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体
JP2009133890A (ja) 音声合成装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4247289B1 (ja) 音声合成装置、音声合成方法およびそのプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP4829605B2 (ja) 音声合成装置および音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
JP5177135B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5275470B2 (ja) 音声合成装置およびプログラム
JP4454780B2 (ja) 音声情報処理装置とその方法と記憶媒体
JPH06318094A (ja) 音声規則合成装置
WO2017028003A1 (zh) 基于隐马尔科夫模型的语音单元拼接方法
JP2006084854A (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091013

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091106

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121113

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131113

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees