JP2008249808A

JP2008249808A - 音声合成装置、音声合成方法及びプログラム

Info

Publication number: JP2008249808A
Application number: JP2007087857A
Authority: JP
Inventors: Shinko Morita; 眞弘森田; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2007-03-29
Filing date: 2007-03-29
Publication date: 2008-10-16
Anticipated expiration: 2027-03-29
Also published as: US20090018836A1; CN101276583A; US8108216B2; JP4406440B2

Abstract

【課題】データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる音声合成装置を提供する。
【解決手段】音声合成部４は、高速記憶媒体４２と低速記憶媒体４４を備え、第１の音声素片記憶部４３と音声素片属性情報記憶部４６が高速記憶媒体４２に配置され、第２の音声素片記憶部４５が低速記憶媒体４４に配置されている。素片選択部４７は、音声素片データ取得に関する制約と、音声素片系列に含まれる音声素片に対する音声素片データ取得に関する統計量とに基づいて決まる、音声素片系列の評価値に対するペナルティ係数を、ある合成単位の時点で展開されている音声素片系列候補のそれぞれに対して算出し、評価値とペナルティ係数を用いて、音声素片系列候補の中から適切な候補を選択する。
【選択図】図２

Description

本発明は、テキストから音声を合成するテキスト音声合成装置、音声合成方法及びプログラムに関する。

任意の文章から人工的に音声信号を作り出すことを、テキスト音声合成という。テキスト音声合成は、一般的に、言語処理部、韻律処理部及び音声合成部の３つ段階によって行われる。

入力されたテキストは、まず言語処理部において、形態素解析や構文解析が行われ、次に韻律処理部において、アクセントやイントネーションの処理が行われて、音韻系列・韻律情報（基本周波数、音韻継続時間長、パワーなど）が出力される。最後に、音声合成部において、音韻系列・韻律情報から音声信号を合成する。そこで、音声合成部に用いる音声合成方法は、韻律処理部で生成される任意の音韻系列を、任意の韻律で音声合成することが可能な方法でなければならない。

従来、このような音声合成方法として、入力の音韻系列を分割して得られる複数の合成単位（合成単位列）のそれぞれに対して、入力された音韻系列・韻律情報を目標にして、予め記憶された大量の音声素片の中から音声素片を選択し、選択した音声素片を合成単位間で接続することによって、音声を合成する、音声合成方法（素片選択型の音声合成方法）が知られている。例えば、特許文献１に開示された素片選択型の音声合成方法では、音声を合成することで生じる音声合成の劣化の度合いを、コストで表すこととし、予め定義されたコスト関数を用いて計算されるコストが小さくなるように、音声素片を選択する。例えば、音声素片を編集・接続することで生じる変形歪み及び接続歪みを、コストを用いて数値化し、このコストに基づいて、音声合成に使用する音声素片系列を選択し、選択した音声素片系列に基づいて、合成音声を生成する。

こうした素片選択型の音声合成方法においては、様々な音韻環境や韻律のバリエーションをできるだけ網羅した、より多くの音声素片を持つことが、音質を高める上で非常に重要である。しかし、大量の音声素片データ全てを、アクセスは高速であるが高価な記憶媒体（例えばメモリなど）に置くことは、コスト的に難しい。一方、大量の音声素片データ全てを、比較的低コストであるがアクセス速度の遅い記憶媒体（例えばハードディスクなど）に置くと、データ取得にかかる時間が大きくなり過ぎるため、実時間処理ができなくなるという問題がある。

そこで、音声素片データのサイズの大部分を占める波形データのうち、利用頻度の高い波形データをメモリに配置し、それ以外の波形データをハードディスクに配置しておき、波形データが格納されている記憶装置へのアクセス速度に関するコスト（アクセス速度コスト）を含む複数のサブコストに基づいて、音声素片を先頭から順次選択していく方法が知られている。例えば、特許文献２に開示された方法によれば、メモリ及びハードディスクに分散配置された大量の音声素片が利用可能であるため、比較的高い音質が実現できるとともに、アクセスの速いメモリ上に波形データのある音声素片が優先して選択されることによって、全波形データをハードディスクから取得する場合に比べて合成音声の生成に要する時間を短縮することが可能である。

しかしながら、特許文献２に開示された方法では、合成音声の生成時間を平均的には短縮できるものの、特定の処理単位において、ハードディスクに波形データが置かれた音声素片ばかりが、集中して選択される可能性があり、処理単位当たりの生成時間の最悪値を適切に制御することはできない。オンラインで音声を合成して即座に合成音声を利用するような音声合成のアプリケーションでは、一般に、ある処理単位に対して生成された合成音声をオーディオデバイスで再生している間に、次の処理単位に対する合成音声を生成し、生成し終わった合成音声をオーディオデバイスに送って、次の処理単位の合成音声を再生することを繰り返して、合成音声の生成・再生を行う。このようなアプリケーションにおいては、ある処理単位での合成音声の生成時間が、前の処理単位に対する合成音声を再生するのにかかる時間を越えてしまうと、これによって、処理単位間で音途切れが発生して、音質が大幅に劣化する可能性がある。そこで、処理単位当たりの合成音声を生成するのに要する時間の最悪値を、適切に制御できる必要がある。また、特許文献２で開示された方法では、メモリに波形データのある音声素片が必要以上に多く選ばれてしまい、最善の音質が実現できない可能性もある。

そこで、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約（例えば、処理単位当たりでの、ハードディスクからのデータ取得回数の上限値など）の下で、合成単位列に対して最適な音声素片系列を選択する方法が考えられる。この方法では、処理単位当たりでの合成音声の生成時間の上限を確実に抑えることが可能であり、所定の生成時間内で、できるだけ高い音質の合成音声が実現できる。
特開２００１−２８２２７８号公報特開２００５−２６６０１０号公報

上記のような制約下での最適素片系列の探索は、制約を考慮した動的計画法によって効率的に探索することができる。しかし、音声素片数が多い場合には、依然として膨大な計算時間を要するため、更なる高速化手段が必要である。特に、制約下での探索は、制約がない場合に比べて計算量が多いため、高速化はとりわけ重要である。

高速化の手段としては、音声素片系列の評価基準であるトータルコストを基準とした、ビームサーチの適用が考えられる。この場合、動的計画法により音声素片系列を合成単位ごとに順次展開していく過程で、ある合成単位時点においてトータルコストが低いものからＷ個の音声素片系列を選択し、次の合成単位では、選ばれたＷ個の音声素片系列からの系列のみを展開する。

しかしながら、この方法を上記の制約下での探索に適用すると、次のような問題が生じる。問題は、音声素片系列を順次展開する過程の前半において、アクセスの遅い記憶媒体に配置された音声素片を多く含むような音声素片系列ばかりが、トータルコストが小さいが故に、ビームサーチで選択されてしまった場合に、該過程の後半においては、制約を満たすためには、アクセスの速い記憶媒体に置かれた音声素片しか選択できなくなってしまう、というものである。この問題は、特に、音声素片の大部分がアクセスの遅い記憶媒体に置かれ、アクセスの速い記憶媒体に置かれた音声素片の割合が非常に小さい場合に顕著に起こり、その結果として、生成される合成音声の音質にムラがでて、全体的な音質が劣化してしまう。

本発明は、上記事情を考慮してなされたもので、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる音声合成装置、音声合成方法及びプログラムを提供することを目的とする。

本発明に係る音声合成装置は、データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、目標音声に対する音韻系列を合成単位で区切った第１のセグメント列をもとに、前記音声素片を組み合わせて、該第１のセグメント列に対する第１の音声素片列を複数生成し、該第１の音声素片列のうちから、音声素片列を選択する選択部と、前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とを備え、前記選択部は、前前記第１のセグメント列の途中までの部分を抜き出した部分列である第２のセグメント列に対するＷ個（Ｗは予め定められた値）の第２の音声素片列をもとに、該第２のセグメント列に新たに前記第１のセグメント列中のセグメントを加えた部分列である第３のセグメント列に対する第３の音声素片列をＷ個以上生成する生成処理と、該第３の音声素片列のうちからＷ個を選択する選択処理とを、繰り返し行うものであり、前記選択部は、前記選択処理において、前記第３の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第３の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第３の音声素片列うちから、修正された該評価値に従ってＷ個を選択することを特徴とする。

本発明によれば、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる。

以下、図面を参照しながら本発明の実施形態について説明する。

まず、本発明の一実施形態に係るテキスト音声合成装置について説明する。

図１は、本発明の一実施形態に係るテキスト音声合成装置の構成例を示すブロック図である。このテキスト音声合成装置は、テキスト入力部１、言語処理部２、韻律制御部３、音声合成部４から構成される。言語処理部２は、テキスト入力部１から入力されるテキストの形態素解析・構文解析を行い、これら言語解析により得られた言語解析結果を韻律処理部３へ出力する。韻律制御部３は、該言語解析結果を入力し、アクセントやイントネーションの処理を行って、該言語解析結果から音韻系列・及び韻律情報を生成し、生成した音韻系列・及び韻律情報を音声合成部４へ出力する。音声合成部４は、該音韻系列及び韻律情報を入力し、該音韻系列及び韻律情報から音声波形を生成して出力する。

以下、音声合成部４を中心に、その構成及び動作について詳細に説明する。

図２は、図１の音声合成部４の構成例を示すブロック図である。

図２において、音声合成部４は、音韻系列・韻律情報入力部４１、第１の音声素片記憶部４３、第２の音声素片記憶部４５、音声素片属性情報記憶部４６、素片選択部４７、素片編集・接続部４８、音声波形出力部４９を含んでいる。

また、図２において、第１の音声素片記憶部４３と音声素片属性情報記憶部４６は、音声合成部４が備えるアクセス速度（あるいはデータ取得速度）の速い記憶媒体（以下、高速記憶媒体と呼ぶ。）４２に配置されている。なお、図２では、同じ高速記憶媒体４２に第１の音声素片記憶部４３と音声素片属性情報記憶部４６とが記憶されているが、音声素片属性情報記憶部４６は、第１の音声素片記憶部４３が配置される記憶媒体とは別の記憶媒体（高速記憶媒体）に配置されてもよい。また、図２では、一台の高速記憶媒体に第１の音声素片記憶部４３が記憶されているが、第１の音声素片記憶部４３は、複数台の記憶媒体（高速記憶媒体）に渡って配置されてもよい。

また、図２において、第２の音声素片記憶部４５は、音声合成部４が備えるアクセス速度の遅い記憶媒体（以下、低速記憶媒体と呼ぶ。）４４に配置されている。なお、図２では、一台の低速記憶媒体に第２の音声素片記憶部４５が記憶されているが、第２の音声素片記憶部４５は、複数台の記憶媒体（低速記憶媒体）に渡って配置されてもよい。

本実施形態では、高速記憶媒体は、内部メモリやＲＯＭなどの比較的高速にアクセスできるメモリとし、低速記憶媒体はハードディスク（ＨＤＤ）やＮＡＮＤフラッシュなどの比較的アクセスに時間のかかる記憶媒体として説明する。ただし、これらの組み合わせに限定されるものではなく、第１の音声素片記憶部４３と第２の音声素片記憶部４５を記憶する記憶媒体が、データ取得時間に各記憶媒体固有の長短を有する複数の記憶媒体で構成されていれば、どのような組み合わせであっても良い。

なお、以下では、音声合成部４が、１台の高速記憶媒体４２と、１台の低速記憶媒体４４を備え、第１の音声素片記憶部４３と音声素片属性情報記憶部４６が高速記憶媒体４２に配置され、第２の音声素片記憶部４５が低速記憶媒体４４に配置される場合を例にとって説明する。

音韻系列・韻律情報入力部４１には、韻律制御部３から音韻系列・韻律情報が入力される。

第１の音声素片記憶部４３は、大量の音声素片の一部を蓄積し、第２の音声素片記憶部４５は、大量の音声素片の残りを蓄積する。

音声素片属性情報記憶部４６は、第１の音声素片記憶部４３に蓄積されている音声素片と第２の音声素片記憶部４５に蓄積されている音声素片の全てについて、それぞれ、当該音声素片に対する音韻・韻律環境や、当該音声素片に対する配置情報などを蓄積する。配置情報は、当該音声素片に対する音声素片データが、いずれの記憶媒体（あるいは、いずれの音声素片記憶部）に配置されているかを示す情報である。

素片選択部４７は、第１の音声素片記憶部４３及び第２の音声素片記憶部４５に蓄積された音声素片の中から、音声素片の系列を選択する。

素片編集・接続部４８は、素片選択部４７が選択した音声素片を、変形及び接続して、合成音声の波形を生成する。

音声波形出力部４９は、素片編集・接続部４８が生成した音声波形を出力する。

また、本実施形態では、素片選択部４７には、「音声素片データ取得に関する制約」（図２の５０）を、外部から指定できるようになっている。「音声素片データ取得に関する制約」（以下、データ取得制約と略記する。）は、素片編集・接続部４８において第１の音声素片記憶部４３及び第２の音声素片記憶部４５から音声素片データを取得するにあたって満たすべき（例えばデータ取得速度又は時間に関係する）制約である。

次に、図２の各ブロックについて詳しく説明する。

まず、音韻系列・韻律情報入力部４１は、韻律制御部３から入力された音韻系列・韻律情報を、素片選択部４７へ出力する。音韻系列は、例えば、音韻記号の系列である。韻律情報は、例えば、基本周波数、音韻継続時間長、パワーなどである。以下、音韻系列・韻律情報入力部４１に入力される音韻系列と韻律情報を、それぞれ、入力音韻系列、入力韻律情報と呼ぶ。

次に、第１の音声素片記憶部４３及び第２の音声素片記憶部４５には、合成音声の生成の際に用いられる音声の単位（以下、合成単位と称する。）で、音声素片が大量に蓄積されている。合成単位とは、音素あるいは音素を分割したもの（例えば、半音素など）の組み合わせであり、例えば、半音素、音素（Ｃ、Ｖ）、ダイフォン（ＣＶ、ＶＣ、ＶＶ）、トライフォン（ＣＶＣ、ＶＣＶ）、音節（ＣＶ、Ｖ）、などであり（ここで、Ｖは母音、Ｃは子音を表す。）、また、これらが混在しているなど可変長であってもよい。また、音声素片は、合成単位に対応する音声信号の波形もしくはその特徴を表すパラメータ系列などを表すものとする。

図３及び図４に、それぞれ、第１の音声素片記憶部４３に蓄積される音声素片の例及び第２の音声素片記憶部４５に蓄積される音声素片の例を示す。

図３及び図４において、第１の音声素片記憶部４３及び第２の音声素片記憶部４５には、各音素の音声信号の波形である音声素片が、当該音声素片を識別するための素片番号とともに記憶されている。これらの音声素片は、別途収録された多数の音声データに対して、音素ごとにラベル付けし、ラベルにしたがって音素ごとに音声波形を切り出したものである。

本実施形態では、有声音の音声素片については、さらに、切り出した音声波形をピッチ波形単位に分解することによって得られるピッチ波形の系列が、音声素片として保持されている。ピッチ波形とは、その長さが音声の基本周期の数倍程度で、それ自身は基本周期を持たない比較的短い波形であって、そのスペクトルが音声信号のスペクトル包絡を表すものである。このようなピッチ波形を抽出する一つの方法として、基本周期同期窓を用いる方法があり、ここでは、この方法によって収録音声データからあらかじめ抽出されたピッチ波形を用いることとする。具体的には、まず、音素に対して切り出された音声波形に対して、基本周期間隔ごとにマーク（ピッチマーク）を付し、さらに、該音声波形に対して、このピッチマークを中心に、窓長が基本周期の２倍のハニング窓で窓掛けをすることによって、ピッチ波形を切り出す。

続いて、音声素片属性情報記憶部４６には、第１の音声素片記憶部４３及び第２の音声素片記憶部４５に記憶されている各音声素片に対応した音韻・韻律環境が蓄積されている。音韻・韻律環境とは、対応する音声素片にとって環境となる要因の組み合わせである。要因は、例えば、当該音声素片の音素名、先行音素、後続音素、後々続音素、基本周波数、音韻継続時間長、パワー、ストレスの有無、アクセント核からの位置、息継ぎからの時間、発声速度、感情などである。また、音声素片属性情報記憶部４６には、音声素片の始端・終端でのケプストラム係数など、音声素片の音響特徴のうち音声素片の選択に用いるものも蓄積されている。また、音声素片属性情報記憶部４６には、各音声素片のデータが、高速記憶媒体４２と低速記憶媒体４４のうちのいずれに配置されているかを示す配置情報も、蓄積されている。

以下、音声素片属性情報記憶部４６に蓄積される音声素片の音韻・韻律環境と音響特徴量と配置情報とを総称して、音声素片属性情報と呼ぶ。

図５に、音声素片属性情報記憶部４６に蓄積される音声素片属性情報の例を示す。図５において、音声素片属性情報記憶部４６には、第１の音声素片記憶部４３及び第２の音声素片記憶部４５に蓄積される各音声素片の素片番号に対応して、各種の素片属性が記憶されている。図５の例では、音韻・韻律環境として、音声素片に対応した音韻（音素名）、隣接音韻（この例では、当該音韻の前後それぞれ２音素ずつ）、基本周波数、音韻継続時間長が記憶され、音響特徴量として、音声素片始終端のケプストラム係数が記憶されている。また、配置情報は、各音声素片のデータが、高速記憶媒体（図５中、Ｆ）と、低速記憶媒体（図５中、Ｓ）のいずれに配置されているかを示している。

なお、これらの素片属性は、音声素片を切り出す元になった音声データを分析して抽出することによって得られる。また、図５では、音声素片の合成単位が音素である場合を示しているが、半音素、ダイフォン、トライフォン、音節、あるいはこれらの組み合わせや可変長であってもよい。

次に、図２の音声合成部４の動作を詳しく説明する。

音韻系列・韻律情報入力部４１を介して素片選択部４７に入力された入力音韻系列は、素片選択部４７において、合成単位ごとに区切られる。この区切られた合成単位を、セグメントと称する。

素片選択部４７は、入力された入力音韻系列と入力韻律情報を基に、音声素片属性情報記憶部４４を参照して、該音韻系列の各セグメントに対して、それぞれ、音声素片（正確には音声素片のＩＤ）を選択する。この際、素片選択部４７は、外部から指定されたデータ取得制約の下で、選択された音声素片を用いて合成された合成音声と目標音声との間の歪みができるだけ小さくなるように、音声素片の組み合わせを選択する。

ここでは、データ取得制約として、低速記憶媒体に配置された第２の音声素片記憶部４５からの音声素片データ取得回数の上限値を用いる場合を例にとって説明する。

また、ここでは、音声素片の選択基準には、一般の素片選択型音声合成方法と同様に、コストを用いる。このコストは、合成音声の目標音声に対する歪みの度合いを表すものであり、コスト関数を用いて計算する。コスト関数としては、合成音声と目標音声との間の歪みを間接的かつ適切に表すようなものを定義する。

最初に、コストおよびコスト関数の詳細について説明する。

コストは、目標コストと接続コストの大きく２種類のコストに分けられる。目標コストは、コストの算出対象である音声素片（対象素片）を、目標の音韻・韻律環境で使用することによって生じるコストである。接続コストは、対象素片を隣接する音声素片と接続したときに生じるコストである。

目標コストおよび接続コストには、生じる歪みの要因ごとにそれぞれサブコストが存在し、各要因に対するサブコストごとにそれぞれサブコスト関数Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）（ｎ＝１，・・・，Ｎ、Ｎはサブコストの個数）が定義される。ここで、ｔ_ｉは、目標の音韻・韻律環境をｔ＝（ｔ_１，・・・，ｔ_Ｉ）（Ｉ：セグメントの個数）としたときの、ｉ番目のセグメントに対応する音韻・韻律環境を表し、ｕ_ｉは、ｉ番目のセグメントに対応する音素の音声素片を表す。

目標コストのサブコストには、音声素片がもつ基本周波数と目標の基本周波数との違い（差）によって生じる歪みを表す基本周波数コスト、音声素片の音韻継続時間長と目標の音韻継続時間長との違い（差）によって生じる歪みを表す音韻継続時間長コスト、音声素片が属していた音韻環境と目標の音韻環境との違いによって生じる歪みを表す音韻環境コストなどがある。

各コストの具体的な算出方法の例を以下に示す。

まず、基本周波数コストは、以下の数式（１）によって算出することができる。
Ｃ_１（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）＝｛log（ｆ（ｖ_ｉ））−log（ｆ（ｔ_ｉ））｝^２ …（１）
ここで、ｖ_ｉは、音声素片ｕ_ｉの素片環境を表し、ｆは、素片環境ｖ_ｉから平均基本周波数を取り出す関数を表す。
次に、音韻継続時間長コストは、以下の数式（２）によって算出することができる。
Ｃ_２（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）＝｛g（ｖ_ｉ）−g（ｔ_ｉ）｝^２ …（２）
ここで、ｇは、素片環境ｖ_ｉから音声継続時間長を取り出す関数を表す。
音韻環境コストは、以下の数式（３）によって算出することができる。
Ｃ_３（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）＝Σｒ_ｊ・ｄ（ｐ（ｖ_ｉ，ｊ）−ｐ（ｔ_ｉ，ｊ）） …（３）
ここで、Σがｒ_ｊ・ｄ（ｐ（ｖ_ｉ，ｊ）−ｐ（ｔ_ｉ，ｊ））について総和をとるｊの範囲は、ｊ＝−２〜２（ｊは整数）である。ｊは、対象音素に対する音素の相対位置を表し、ｐは、素片環境ｖ_ｉから相対位置ｊの隣接音素を取り出す関数を表し、ｄは、２つの音素間の距離（音素間の特徴の違い）を算出する関数を表し、ｒ_ｊは、相対位置ｊに対する音素間距離の重みを表す。ｄは、「０」から「１」の値を返し、同一の音素間では「０」、全く特徴の異なる音素間では「１」を返す。

一方、接続コストのサブコストには、音声素片境界でのスペクトルの違い（差）を表すスペクトル接続コストなどがある。

スペクトル接続コストは、以下の数式（４）によって算出することができる。
Ｃ_４（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）＝||ｈ_ｐｒｅ（ｕ_ｉ）−ｈ_ｐｏｓｔ（ｕ_ｉ−１）|| …（４）
ここで、||・||は、ノルムを表す。ｈ_ｐｒｅは、音声素片ｕ_ｉの前側の接続境界でのケプストラム係数を表し、ｈ_ｐｏｓｔは、音声素片ｕ_ｉ後側の接続境界でのケプストラム係数をベクトルとして取り出す関数を表す。

これらのサブコスト関数の重み付き和を、合成単位コスト関数として、以下の数式（５）ように定義することができる。Ｃ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）＝Σｗ_ｎ・Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ） …（５）
ここで、Σがｗ_ｎ・Ｃ_ｎ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ）について総和をとるｎの範囲は、ｎ＝１〜Ｎ（ｎは整数）である。ｗ_ｎは、サブコスト間の重みを表す。

上記数式（５）は、ある音声素片をある合成単位に用いた場合のコストである、合成コストを算出する式である。

素片選択部４７では、入力音韻系列を合成単位で区切ることによって得られる複数のセグメントに対し、それぞれ、上記数式（５）によって合成単位コストを算出する。

素片選択部４７は、算出した合成単位コストを全セグメントについて足し合わせたトータルコストを、以下の数式（６）によって算出することができる。
ＴＣ＝Σ（Ｃ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ））^Ｐ …（６）
ここで、Σが（Ｃ（ｕ_ｉ，ｕ_ｉ−１，ｔ_ｉ））^Ｐについて総和をとるｉの範囲は、ｉ＝１〜Ｉ（ｉは整数）である。Ｐは定数である。

ここでは簡単のため、ｐ＝１とする。すなわち、トータルコストは、各合成単位コストの単純な和を表す。トータルコストは、入力音韻系列に対して選択された音声素片系列を用いて生成される合成音声の、目標音声に対する歪みを表し、トータルコストが小さくなるように音声素片系列を選択することによって、音声素片に対する歪みの少ない音質の合成音声が生成できる。

ただし、上記数式（６）中のｐは１以外でもよく、例えばｐを１より大きくすると、局所的に合成単位コストが大きい音声素片系列がより強調されることになり、局所的に合成単位コストが大きくなるような音声素片が選ばれにくくなる。

次に、素片選択部４７の具体的な動作について説明する。

図６は、素片選択部４７が、最適音声素片系列を選択する手順の一例を示すフローチャートである。最適音声素片系列は、外部から指定されたデータ取得制約の下で、トータルコストを最小とする音声素片の組み合わせである。

上記した数式（６）のように、トータルコストは漸化的に計算できるため、最適音声素片系列は、以下に示すように、動的計画（ＤｙｎａｍｉｃＰｒｏｇｒａｍｉｎｇ）法を用いて効率的に探索することができる。

まず、素片選択部４７は、入力された入力音韻系列の各セグメントに対して、それぞれ、複数の音声素片の候補を、音声素片属性情報記憶部４６に列挙された音声素片の中から選択する（ステップＳ１０１）。この際、各セグメントについて、その音韻に対応する音声素片を全て抽出してもよいが、ここでは、以降の処理での計算量を削減するため、次のような処理を行うものとする。すなわち、入力された目標の音韻・韻律環境を用いて、各々のセグメントごとに、そのセグメントの音韻に対応する各音声素片に対して、上述のコストのうち目標コストのみをそれぞれ算出し、算出された目標コストの小さい音声素片から順に上位Ｃ個だけ選択して、選択したＣ個の音声素片をそのセグメントに対する音声素片候補とする。このような処理を一般に予備選択と呼ぶ。

図７は、ステップＳ１０１において、「ａＮｓａａ」というテキスト（なお、「ａＮｓａａ」は、日本語の「アンサー」「答え」のことである。）に対する入力音韻系列「ａ」「Ｎ」「ｓ」「a」「a」について、各エレメントにつき５個ずつ音声素片の候補が選択された例を示している。ここで、各セグメント（この例では、各音素「ａ」「Ｎ」「ｓ」「a」「a」）の下に並べられている白丸は、それぞれのセグメントに対する音声素片の候補を表す。また、白丸内の記号（Ｆ、Ｓ）は、各音声素片データの配置情報を示しており、Ｆはその音声素片データが高速記憶媒体に配置されていることを意味し、Ｓはその音声素片データが低速記憶媒体に配置されていることを意味している。

ところで、ステップＳ１０１の予備選択において、あるセグメントに対して、低速記憶媒体に音声素片データが配置された音声素片候補ばかりが選択された場合、外部から指定されたデータ取得制約を最終的に満たせなくなる可能性がある。そのため、データ取得制約が外部から指定された場合には、各々のセグメント辺り、少なくとも一つの音声素片候補は、高速記憶媒体に音声素片データが置かれた音声素片から選択する必要がある。

そこで、ここでは、１つのセグメントに対して選択される音声素片候補のうち、高速記憶媒体に音声素片データが配置されている音声素片候補の最低割合を、データ取得制約に応じて決めることにする。例えば、入力された入力音韻系列中のセグメント数がＬで、データ取得制約が「低速記憶媒体に配置された第２の音声素片記憶部４５からの音声素片データ取得回数の上限値Ｍ（Ｍ＜Ｌ）」である場合に、上記の最低割合を、（Ｌ−Ｍ）／２Ｌとする。図７は、Ｌ＝５、Ｍ＝２の場合の例を示しており、いずれのセグメントにも、高速記憶媒体に音声素片データがある音声素片候補が２つ以上選択されている。なお、（Ｌ−Ｍ）／２Ｌは一例であり、上記の最低割合は、これに限定されるものではない。

次に、素片選択部４７は、カウンターｉに１をセットし（ステップＳ１０２）、カウンターｊに１をセットして（ステップＳ１０３）、ステップＳ１０４に進む。

なお、ｉは、セグメントの番号であり、図７の例では左から順に１，２，３，４，５となる。また、ｊは、音声素片候補の番号であり、図７の例では上から順に１，２，３，４，５となる。

ステップＳ１０４では、素片選択部４７は、当該セグメントｉのｊ番目の音声素片候補（ｕ_ｉ，ｊ）に至る音声素片系列のうち、データ取得制約を満たし、かつ、最適な（１又は複数種類の）音声素片系列を選択する。具体的には、直前のセグメント（ｉ−１）までの音声素片系列として選択されているもの（ｐ_{ｉ−１，１} ，ｐ_{ｉ−１，２} ， … ，ｐ_{ｉ−１，Ｗ}）（ここで、Ｗはビーム幅）のそれぞれに音声素片候補ｕ_ｉ，ｊを接続してできる音声素片系列の中から、音声素片系列を選択する。

図８は、ｉ＝３、ｊ＝１、Ｗ＝５の場合の例を示している。図８中の実線は、直前のセグメント（ｉ＝２）までに選択されている５つの音声素片系列（ｐ_２，１，ｐ_２，２， … ，ｐ_２，５）を示しており、点線は、これらの各音声素片系列にそれぞれ音声素片候補ｕ_ｉ，ｊを接続して、新たな５つの音声素片系列を生成する様子を示している。

ステップＳ１０４では、素片選択部４７は、まず、新たに生成された各音声素片系列がデータ取得制約を満たしているかどうかを調べる。そして、データ取得制約を満たしていない音声素片系列があれば、これを除去する。図８の例では、音声素片系列ｐ_２，４から音声素片候補ｕ_３，１に至る新たな音声素片系列（図８中、「ＮＧ」）の中に、低速記憶媒体に音声素片データが配置された音声素片が３個含まれており、この個数が上限値Ｍ（＝２）を超えるため、この音声素片系列が除去される。

次に、素片選択部４７は、上記の新たな音声素片系列のうち、除去されずに残っている各音声素片系列候補に対して、それぞれ、トータルコストを算出する。そして、トータルコストの小さい音声素片系列を選択する。

トータルコストは、次のように算出することができる。例えば、図８の音声素片系列ｐ_２，２から音声素片候補ｕ_３，１に至る音声素片系列のトータルコストは、音声素片系列ｐ_２，２のトータルコストと、音声素片候補ｕ_２，２と音声素片候補ｕ_３，１との間の接続コストと、音声素片候補ｕ_３，１の目標コストとを足し合わせることによって、算出できる。

選択する音声素片系列の個数は、データ取得制約が無い場合は、通常の動的計画法と同様に、音声素片候補１つ辺り、最適な音声素片系列１つだけで良い（すなわち、この場合、１種類の最適な音声素片系列が選択される）。一方、データ取得制約が指定されている場合は、「その音声素片系列中に含まれる、低速記憶媒体に音声素片データが配置された音声素片の個数」の異なるものごとに、それぞれ、最適な音声素片系列を選択する（すなわち、この場合、複数種類の最適な音声素片系列が選択されることがある）。例えば、図８の場合では、音声素片候補ｕ_３，１に至る音声素片系列のうち、Ｓを２つ含む音声素片系列について、最適なものを１つ選択するとともに、Ｓを１つ含む音声素片系列について、最適なもの１つ選択する（合計２つの音声素片系列を選択することになる）。これは、上述したデータ取得制約による音声素片系列候補の除去によって、ある音声素片候補を経由する音声素片系列の選択可能性が完全に無くなってしまうことを防ぐためである。

ただし、その音声素片系列中に含まれる、低速記憶媒体に音声素片データが配置された音声素片の個数が、その音声素片候補に至る最適系列（全ての音声素片系列中でトータルコストが最小のもの）よりも多い音声素片系列については、残しておく価値が無いので除去する。

また、低速記憶媒体に音声素片データが配置された音声素片の個数が異なっていても、以降の系列展開への制約のかかり方が変わらないものについては、同一の個数として扱う。例えば、Ｌ＝５、Ｍ＝２の場合、ｉ＝４では、低速記憶媒体に配置された音声素片の個数が０と１ならいずれも制約の影響を受けないので、Ｓを１つのも含まない音声素片系列と、Ｓを１つ含む音声素片系列とは、Ｓの個数については区別をしないものとする。

続いて、素片選択部４７は、カウンターｊの値が、セグメントｉに対して選択されている音声素片候補の個数Ｎ（ｉ）未満か否かを判定する（ステップＳ１０５）。カウンターｊの値がＮ（ｊ）未満なら（ステップＳ１０５のＹＥＳ）、カウンターｊの値を一つ増やして（ステップＳ１０６）ステップＳ１０４に戻り、カウンターｊの値がＮ（ｊ）以上なら（ステップＳ１０５のＮＯ）、次のステップＳ１０７に進む。

ステップＳ１０７では、素片選択部４７は、セグメントｉの各音声素片候補に対して選択された全ての音声素片系列の中から、ビーム幅（Ｗ）個の音声素片系列を選択する。この処理は、次のセグメントで仮説展開する系列の範囲をビーム幅によって限定することによって、系列探索における計算量を大幅に削減するための処理であり、一般的にビームサーチと呼ばれる。この処理の詳細については、後ほど説明する。

次に、素片選択部４７は、カウンターｉの値が、入力された入力音韻系列に対する全セグメント数Ｌ未満か否かを判定する（ステップＳ１０８）。カウンターｉの値がＬ未満なら（ステップＳ１０８のＹＥＳ）、カウンターｉの値を一つ増やして（ステップＳ１０９）ステップＳ１０３に戻り、カウンターｉの値がＬ以上なら（ステップＳ１０８のＮＯ）、次のステップＳ１１０に進む。

素片選択部４７は、最終セグメントＬに至る音声素片系列として選択されている全ての音声素片系列の中から、トータルコストが最小となる音声素片系列を一つ選択して、処理を終了する。

次に、図６のステップＳ１０７での処理の詳細について説明する。

一般のビームサーチでは、探索している系列の評価値（本実施形態では、トータルコスト）が上位のものから順に、ビーム幅に相当する個数分の系列を選択する。しかし、本実施形態のようにデータ取得制約がある場合に、単純に、トータルコストが上位のものから順に、ビーム幅に相当する個数分の音声素片系列を選択すると、次のような問題が生じる。すなわち、図６のステップＳ１０２からステップＳ１０９の処理は、最終的に最適音声素片系列になる可能性の高い音声素片系列をビーム幅分だけ残しながら、左から右のセグメントに向かって、音声素片系列の仮説を展開していく処理である。そして、この処理において、前半のセグメントに対する処理がなされたときに、低速記憶媒体に音声素片データを配置された音声素片ばかりを含む音声素片系列がビーム内に残ってしまった場合、後半のセグメントに対する処理では、高速記憶媒体に音声素片データを持つ音声素片しか選択できなくなってしまう、という問題が発生する。この問題は、特に、高速記憶媒体に音声素片データが置かれた音声素片の割合が小さい場合に顕著に起こる。（高速記憶媒体に音声素片データの配置された）バリエーションの少ない音声素片を、音声素片系列に多く含めるほど、トータルコスト的に不利になるためである。このような問題が発生すると、結果として、生成される合成音声の音質にムラが出て、全体的な音質が劣化することになる。

そこで、本実施形態では、ステップＳ１０７での選択において、音声素片系列に含まれる、低速記憶媒体に音声素片データの配置された音声素片の比率が、データ取得制約との兼ね合いで、超過しているような音声素片系列に対して、ペナルティを課すことによって、この問題を回避する。

以下、ステップＳ１０７での具体的な動作について説明する。

図９は、ステップＳ１０７での動作の一例を示すフローチャートである。

まず、素片選択部４７は、当該セグメントの位置ｉと、入力音韻系列に対する全セグメント数Ｌと、データ取得制約とから、ペナルティ係数を算出するための関数を決定する（ステップＳ２０１）。ペナルティ係数算出用関数の決め方については、後ほど説明する。

次に、素片選択部４７は、当該セグメントｉの各音声素片候補に対して選択された音声素片系列の総数Ｎが、ビーム幅Ｗより、大きいかどうかを判定する（ステップＳ２０２）。ＮがＷ以下（すなわち全素片系列がビーム内）の場合は、全ての処理を終了する（ステップＳ２０２のＮＯ）。ＮがＷより大きい場合は、ステップＳ２０３に進み（ステップＳ２０２のＹＥＳ）、カウンターｎの値に１をセットして、さらにステップＳ２０４に進む。

素片選択部４７は、セグメントｉに至る音声素片系列のうち、ｎ番目の音声素片系列ｐ_ｉ，ｎについて、当該音声素片系列中の、低速記憶媒体に音声素片データが配置された音声素片の個数を、カウントする（ステップＳ２０４）。次に、この個数から、ステップＳ２０１で決定されたペナルティ係数算出用関数を用いて、音声素片系列ｐ_ｉ，ｎに対するペナルティ係数を算出する（ステップＳ２０５）。さらに、音声素片系列ｐ_ｉ，ｎのトータルコストと、ステップＳ２０５で求めたペナルティ係数とから、音声素片系列ｐ_ｉ，ｎのビーム用評価値を算出する（ステップＳ２０６）。ここでは、ビーム用評価値は、トータルコストとペナルティ係数とを積算することによって、算出することとする。なお、ビーム用評価値の算出方法は、これに限定されるものではなく、トータルコストとペナルティ係数とから算出できる方法であれば、どのような方法を用いてもよい。

次に、素片選択部４７は、カウンターｎがビーム幅Ｗより大きいか否かを判定する（ステップＳ２０７）。ｎがＷより大きい場合は、ステップＳ２０８に進み（ステップＳ２０７のＹＥＳ）、ｎがＷ以下の場合は、ステップＳ２１１に進む（ステップＳ２０７のＮＯ）。

ステップＳ２０８では、ｎ−１番目までの音声素片系列のうち、削除されずに残っているものの中から、ビーム用評価値の最大値を探索し、音声素片系列ｐ_ｉ，ｎのビーム用評価値がこの最大値より小さいか否かを判定する。音声素片系列ｐ_ｉ，ｎのビーム用評価値が最大値より小さい場合は（ステップＳ２０８のＹＥＳ）、ｎ−１番目までの音声素片系列からビーム用評価値の最大値を持つ音声素片系列を削除して（ステップＳ２０９）、ステップＳ２１１に進む。一方、音声素片系列ｐ_ｉ，ｎのビーム用評価値が最大値以上の場合は（ステップＳ２０８のＮＯ）、この音声素片系列ｐ_ｉ，ｎを削除して（ステップＳ２１０）、ステップＳ２１１に進む。

ステップＳ２１１では、カウンターｎが、当該セグメントｉの各音声素片候補に対して選択された音声素片系列の総数Ｎより、小さいか否かを判定し、小さい場合（ステップＳ２１１のＹＥＳ）は、カウンターｎの値を１つ増やして（ステップＳ２１２）、ステップＳ２０４に戻る。ｎがＮ以上の場合は（ステップＳ２１１のＮＯ）、処理を終了する。

次に、ステップＳ２０１でのペナルティ係数算出用関数の決め方について説明する。

図１０は、ペナルティ関数の一例を示している。この例では、音声素片系列内の音声素片のうち、低速記憶媒体に音声素片データが配置されているものの比率（ｘ）から、ペナルティ係数（ｙ）を算出するような関数となっている。この比率が、入力音韻系列の全セグメントのうち、低速記憶媒体から取得可能な音声素片の割合であるＭ／Ｌ以下のときには、ペナルティ係数が１（すなわちペナルティ無し）であり、Ｍ／Ｌを超えると単調増加するのが、この関数の特徴である。これによって、低速記憶媒体から選択される音声素片の比率がデータ取得制約に比べて超過気味の音声素片系列が選択されにくくなる一方、制約下に収まっている音声素片系列が相対的に選択されやすくなる効果がある。

また、単調増加する曲線部分の傾きは、当該セグメントの位置ｉと全セグメント数Ｌとの関係から決まることも特徴である。例えば、α（ｉ，Ｌ）＝Ｌ^２／Ｍ（Ｌ−ｉ）のように傾きを決める。この場合、残りのセグメントが少なくなるほど、傾きが急になるようになっている。残りのセグメント数が少なくなるほど、音声素片系列の選択での自由度に与える制約の影響度は高くなるため、制約の影響度に応じてペナルティの効果を大きくすることを意図している。

次に、図１１及び図１２を用いて、前述のように決めたペナルティ係数算出関数を用いて算出したビーム用評価値を用いてビームサーチを行うことによる効果を概念的に説明する。

図１１は、セグメント数（Ｌ）が５、ビーム幅（Ｗ）が３で、低速記憶媒体に配置された音声素片データ取得回数の上限値（Ｍ）が２のケースにおいて、３番目のセグメントにおいて各音声素片候補に対する最適な音声素片系列を選択した後、当該セグメントに対してビーム幅分の音声素片系列を選択する処理（図６のステップＳ１０７）の直前の状態を示している。図１１中の実線は、２番目のセグメント「Ｎ」までで選択されて残っている音声素片系列を示し、点線は、３番目のセグメント「ｓ」の各音声素片候補に対して選択された音声素片系列を示している。一方、図１２は、３番目のセグメント「ｓ」の各音声素片候補に対して選択された音声素片系列のそれぞれについて、音声素片系列中の音声素片のうち低速記憶媒体に音声素片データが配置されたものの個数（低速記憶媒体の素片数）、トータルコスト、ペナルティ係数、ビーム用評価値を示している。さらに、それらの音声素片系列のうち、トータルコストを用いてビーム幅分の音声素片系列を選択した場合に選択される音声素片系列と、ビーム用評価値を用いてビーム幅分の音声素片系列を選択した場合に選択される音声素片系列とを、それぞれ丸印で示している。この例の場合、トータルコストを用いて選択すると、低速記憶媒体に配置された音声素片数が上限に達した音声素片系列ばかりが選択されてしまい、いずれも以降のセグメントでは、高速記憶媒体（Ｆ）に配置された音声素片候補しか選択できないことになり、最終的な音質が大きく劣化する可能性がある。一方で、ビーム用評価値を用いると、その時点でのトータルコストではやや劣るものの、低速記憶媒体に配置された音声素片数が上限より少ない音声素片系列も選択されるため、最終的な音質が大きく劣化する事態を避けることができ、高速の記憶媒体と低速の記憶媒体のそれぞれからバランス良く音声素片を選択することが可能となる。

素片選択部４７は、上述した方法を用いて、入力音韻系列に対応した音声素片系列を選択して、素片編集・接続部４８に出力する。

素片編集・接続部４８は、素片選択部４７から渡されたセグメントごとの音声素片を、入力韻律情報に従って変形して接続することによって、合成音声の音声波形を生成する。

図１３は、素片編集・接続部４８での処理を説明するための図である。図１３には、素片選択部４７で選択された、音素「ａ」「Ｎ」「ｓ」「a」「a」の各合成単位に対する音声素片を、変形・接続して、「ａＮｓａａ」という音声波形を生成する場合を示している。この例では、有声音の音声素片はピッチ波形の系列で表現されている。一方、無声音の音声素片は、収録音声データから直接切り出されたものである。図１３の点線は、目標の音韻継続時間長に従って分割した音素ごとのセグメントの境界を表し、白い三角は、目標の基本周波数に従って配置した各ピッチ波形を重畳する位置（ピッチマーク）を示している。図１３のように、有声音については音声素片のそれぞれのピッチ波形を対応するピッチマーク上の重畳し、無声音については音声素片の波形をセグメントの長さに合うよう伸縮したものをセグメントに重畳することによって、所望の韻律（ここでは、基本周波数、音韻継続時間長）を持った音声波形を生成する。

以上のように、本実施形態によれば、データ取得速度の異なる各記憶媒体からの音声素片データ取得に関する合成単位列に対する制約の下で、合成単位列に対する音声素片系列を高速かつ適切に選択できる。

ところで、これまでの説明においては、データ取得制約が、低速記憶媒体に置かれた音声素片記憶部からの音声素片データ取得回数の上限値であるとして説明したが、このデータ取得制約は、（高速・低速のいずれの記憶媒体からのものも含めた）音声素片系列中の全音声素片データを取得するのに要する時間の上限値でもよい。

この場合、素片選択部４７においては、音声素片系列中の音声素片データを取得するのに要する時間を予測して、予測値が上限値を超えないように音声素片系列を選択する。この際、音声素片データを取得するのに要する時間は、例えば、高速・低速の各記憶媒体から１回のアクセスで、あるサイズのデータを取得するのに要する時間の統計量をあらかじめ求めておき、その統計量を用いることによって予測することができる。最も単純には、各記憶媒体からの１回あたりのデータ取得時間の最大値に、高速・低速の各記憶媒体から取得する音声素片の個数をそれぞれ掛けてから足し合わせることにより、全音声素片を取得するのに要する時間の最大値を求めることができ、これを予測値として用いることができる。

このように、データ取得制約が「音声素片系列中の全音声素片データを取得するのに要する時間の上限値」であり、音声素片系列中の音声素片データを取得するのに要する時間の予測値を用いて音声素片系列の選択を行う場合、素片選択部４７でのビームサーチにおけるペナルティ係数は、音声素片系列中の音声素片データを取得するのに要する時間の予測値を用いて算出する。ペナルティ係数は、当該セグメントまでの音声素片系列中の音声素片データを取得するのに要する時間の予測値Ｐが、ある閾値以下の場合は１をとり、閾値以上では単調増加するようになっていればよい。閾値としては、例えば、入力音韻系列の全セグメント数がＬ、全音声素片データを取得するのに要する時間の上限値がＵ、当該セグメントの位置がｉの場合、Ｕ×ｉ／Ｌなどが考えられる。この場合のペナルティ関数は、例えば、図１０と同様の形でよい。

なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手順を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の一実施形態に係るテキスト音声合成装置の構成例を示すブロック図同実施形態に係る音声合成部の構成例を示すブロック図同実施形態に係る第１の音声素片記憶部に蓄積される音声素片の例を示す図同実施形態に係る第２の音声素片記憶部に蓄積される音声素片の例を示す図同実施形態に係る音声素片属性情報記憶部に蓄積される素片属性情報の例を示す図同実施形態に係る音声素片の選択手順の一例を示すフローチャート予備選択された音声素片の候補の一例を示す図セグメントｉの各素片候補について音声素片系列を選択する手順の一例について説明するための図図６のステップＳ１０７での音声素片系列の選択方法の例を示すフローチャートペナルティ係数を算出するための関数の一例を示す図セグメントｉまでについてペナルティ係数を用いて音声素片系列を選択する手順の一例について説明するための図同実施形態に係るペナルティ係数を用いて音声素片系列を選択することによる効果について説明するための図同実施形態に係る素片編集・接続部での処理を説明するための図

符号の説明

１…テキスト入力部、２…言語処理部、３…韻律制御部、４…音声合成部、４１…音韻系列・韻律情報入力部、４２…高速の記憶媒体、４３…第１の音声素片記憶部、４４…低速の記憶媒体、４５…第２の音声素片記憶部、４６…音声素片環境記憶部、４７…素片選択部、４８…素片編集・接続部、４９…音声波形出力部

Claims

データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、
前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、
目標音声に対する音韻系列を合成単位で区切った第１のセグメント列をもとに、前記音声素片を組み合わせて、該第１のセグメント列に対する第１の音声素片列を複数生成し、該第１の音声素片列のうちから、音声素片列を選択する選択部と、
前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とを備え、
前記選択部は、前記第１のセグメント列の途中までの部分を抜き出した部分列である第２のセグメント列に対するＷ個（Ｗは予め定められた値）の第２の音声素片列をもとに、該第２のセグメント列に新たに前記第１のセグメント列中のセグメントを加えた部分列である第３のセグメント列に対する第３の音声素片列をＷ個以上生成する生成処理と、該第３の音声素片列のうちからＷ個を選択する選択処理とを、繰り返し行うものであり、
前記選択部は、前記選択処理において、前記第３の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第３の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第３の音声素片列うちから、修正された該評価値に従ってＷ個を選択することを特徴とする音声合成装置。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項１に記載の音声合成装置。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項１に記載の音声合成装置。
前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項１に記載の音声合成装置。
前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第１の音声素片系列に含まれる音声素片の個数に対する前記第３の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項４に記載の音声合成装置。
前記第３のセグメント列は、前記第２のセグメント列に対して、前記第１のセグメント列における該第２のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項１に記載の音声合成装置。
前記第３の音声素片列は、前記第２の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項６に記載の音声合成装置。
データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、選択部と、接続部とを備えた音声合成装置の音声合成方法であって、
前記選択部が、目標音声に対する音韻系列を合成単位で区切った第１のセグメント列をもとに、前記音声素片を組み合わせて、該第１のセグメント列に対する第１の音声素片列を複数生成し、該第１の音声素片列のうちから、音声素片列を選択する選択ステップと、
前記接続部が、前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続ステップとを有し、
前記選択部は、前記選択ステップにおいて、前記第１のセグメント列の途中までの部分を抜き出した部分列である第２のセグメント列に対するＷ個（Ｗは予め定められた値）の第２の音声素片列をもとに、該第２のセグメント列に新たに前記第１のセグメント列中のセグメントを加えた部分列である第３のセグメント列に対する第３の音声素片列をＷ個以上生成する生成処理と、該第３の音声素片列のうちからＷ個を選択する選択処理とを、繰り返し行うものであり、
前記選択部は、前記選択処理において、前記第３の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第３の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第３の音声素片列うちから、修正された該評価値に従ってＷ個を選択することを特徴とする音声合成方法。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項８に記載の音声合成方法。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項８に記載の音声合成方法。
前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項８に記載の音声合成方法。
前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第１の音声素片系列に含まれる音声素片の個数に対する前記第３の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項１１に記載の音声合成方法。
前記第３のセグメント列は、前記第２のセグメント列に対して、前記第１のセグメント列における該第２のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項８に記載の音声合成方法。
前記第３の音声素片列は、前記第２の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項１３に記載の音声合成方法。
音声合成装置としてコンピュータを機能させるためのプログラムであって、
データ取得速度の異なる複数の記憶媒体を用いて構成され、かつ、複数の音声素片を該複数の記憶媒体に振り分けて記憶するように構成された音声素片記憶部と、
前記音声素片の各々が前記記憶媒体のいずれに記憶されているかを示す配置情報を記憶する情報記憶部と、
目標音声に対する音韻系列を合成単位で区切った第１のセグメント列をもとに、前記音声素片を組み合わせて、該第１のセグメント列に対する第１の音声素片列を複数生成し、該第１の音声素片列のうちから、音声素片列を選択する選択部と、
前記音声素片系列に含まれる複数の音声素片のデータを前記配置情報に従って前記音声素片記憶部から取得し、合成音声を生成するために、該音声素片のデータを接続する接続部とをコンピュータを実現させるためのものであるとともに、
前記選択部は、前記第１のセグメント列の途中までの部分を抜き出した部分列である第２のセグメント列に対するＷ個（Ｗは予め定められた値）の第２の音声素片列をもとに、該第２のセグメント列に新たに前記第１のセグメント列中のセグメントを加えた部分列である第３のセグメント列に対する第３の音声素片列をＷ個以上生成する生成処理と、該第３の音声素片列のうちからＷ個を選択する選択処理とを、繰り返し行うものであり、
前記選択部は、前記選択処理において、前記第３の音声素片列の各々について、それぞれ、評価値を求めるとともに、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得する際に満たすべきデータ取得の迅速性に関係する制約と、当該第３の音声素片系列に含まれる全音声素片の各々のデータがいずれの前記記憶媒体に記憶されているかに応じて定まる統計量とに基づいて、該評価値に対するペナルティ係数を求め、該ペナルティ係数で該評価値を修正し、前記第３の音声素片列うちから、修正された該評価値に従ってＷ個を選択することを特徴とするプログラム。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる音声素片のデータを前記データ取得速度の遅い記憶媒体から取得する回数の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる音声素片の個数のうち、前記データ取得速度の遅い記憶媒体に記憶されている音声素片の個数の割合であることを特徴とする請求項１５に記載のプログラム。
前記複数の記憶媒体には、データ取得速度の速い記憶媒体と、データ取得速度の遅い記憶媒体とがあり、
前記制約は、前記第１の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の上限値であり、前記統計量は、前記第３の音声素片系列に含まれる全音声素片のデータを前記音声素片記憶部から取得するのに要する時間の予測値であることを特徴とする請求項１５に記載のプログラム。
前記ペナルティ係数は、前記統計量が前記制約から決まる閾値を超えると単調増加するものであることを特徴とする請求項１５に記載のプログラム。
前記単調増加において、前記統計量の増加量に対する前記ペナルティ係数の増加量の傾きは、前記第１の音声素片系列に含まれる音声素片の個数に対する前記第３の音声素片系列に含まれる音声素片の個数の比率が高いほど、急になるものであることを特徴とする請求項１８に記載のプログラム。
前記第３のセグメント列は、前記第２のセグメント列に対して、前記第１のセグメント列における該第２のセグメント列に対応する部分の次に位置する次セグメントを加えたものであることを特徴とする請求項１５に記載のプログラム。
前記第３の音声素片列は、前記第２の音声素片列に対して、前記次セグメントに対応する音声素片を加えることによって生成されたものであることを特徴とする請求項２０に記載のプログラム。