JP2004252316A - 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 - Google Patents
情報処理装置および情報処理方法ならびにプログラム、記憶媒体 Download PDFInfo
- Publication number
- JP2004252316A JP2004252316A JP2003044484A JP2003044484A JP2004252316A JP 2004252316 A JP2004252316 A JP 2004252316A JP 2003044484 A JP2003044484 A JP 2003044484A JP 2003044484 A JP2003044484 A JP 2003044484A JP 2004252316 A JP2004252316 A JP 2004252316A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- synthesis
- synthesized
- synthesis unit
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】音声合成のための合成素片を備える合成素片セットにおいて、音声合成に用いた場合の音質の劣化を抑制しつつ、簡易に合成素片の数を削減する。
【解決手段】合成素片セットを処理する情報処理装置であって、所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する手段(204、205)と、前記所定の合成素片を、前記抽出手段により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する接続歪計算部206と、接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える素片セット更新部207とを備える。
【選択図】 図2
【解決手段】合成素片セットを処理する情報処理装置であって、所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する手段(204、205)と、前記所定の合成素片を、前記抽出手段により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する接続歪計算部206と、接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える素片セット更新部207とを備える。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、音声合成のための合成素片を備える合成素片セットを処理する処理技術に関するものである。
【0002】
【従来の技術】
近年、カーナビゲーションシステムなどの様々な機器で音声合成技術が利用されている。なかでも、PSOLA(ピッチ同期波形重畳方式)に代表される波形編集方式が音声合成方式の主流になりつつある。波形編集方式では、合成素片の単位として音素、ダイフォン、トライフォンなどを採用することが多い。音声合成に必要なひと揃えの合成素片を備える合成素片セットにおける合成素片の数は、合成単位によってそれぞれ異なる。音素の定義の仕方によって多少異なるが、音素の場合数十種類、ダイフォンの場合数百種類、トライフォンの場合数千種類の合成素片を用意する必要がある。
【0003】
ここで、携帯電話やPDAなどのようにリソースに限りがある機器上で音声合成を動作させることを考える。トライフォンやダイフォンを合成単位として採用すると、ROMなどの記憶容量の制約から、合成素片の数を削減する必要に迫られる場合がある。合成素片の数を削減する方法としては、音声に関する専門的な知識を有する人間が試行錯誤を重ねて、合成素片を別の合成素片で代替させていくというアプローチをとることが一般的である。
【0004】
【非特許文献1】
新居孝章,瀬戸重宣,赤嶺政巳((株)東芝・関西研究所)、「DSP組み込み可能な省メモリ音声合成方式」、日本音響学会 平成10年度春季研究発表会講演論文集 I、p301−p302
【0005】
【発明が解決しようとする課題】
しかしながら、上記の方法では、専門的な知識を有する人間でなければ合成素片の削減は不可能である。また、試行錯誤のため、最終的に得られた合成素片セットから生成される合成音声の品質が常に良いとは限らない。さらには、新しい話者の合成素片セットを作るときに毎回多大な労力を必要とする。
【0006】
本発明は上記課題に鑑みてなされたものであり、音声合成のための合成素片を備える合成素片セットにおいて、音声合成に用いた場合の音質の劣化を抑制しつつ、簡易に合成素片の数を削減する処理技術を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
音声合成のための合成素片を備える合成素片セットを処理する情報処理装置であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出手段と、
前記所定の合成素片を、前記抽出手段により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する算出手段と、
前記算出手段により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え手段とを備える。
【0008】
【発明の実施の形態】
以下、添付の図面を参照して、本発明の好適な実施形態を詳細に説明する。
【0009】
【実施形態1】
図1は、本実施形態における情報処理装置のハードウエア構成を示すブロック図である。本実施形態では、一般的なパーソナルコンピュータを用いて実現する場合について説明するが、本発明は専用のハードウェアを用いて実現しても、また他の形態の装置を用いて実現してもよい。なお本実施形態では、合成単位としてダイフォンを用いる場合について説明するが、これに限定されるものではない。また、合成素片セットは、あらかじめ、例えば特開2001−282273号公報において開示された方法等によって選択しておくものとする。
【0010】
図1において、101は制御メモリ(ROM)、102は中央処理装置、103はメモリ(RAM)、104は外部記憶装置、105はD/A変換器、106は入力装置、107は表示装置、108はバスである。本実施形態にかかる情報処理機能を実現するための制御プログラムやその制御プログラムで用いるデータは、制御メモリ101に記憶される。これらの制御プログラムやデータは、中央処理装置102の制御のもと、バス108を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。
【0011】
図2は、本実施形態における情報処理装置のモジュール構成を示すブロック図である。入力処理部201は、入力装置106を介して入力されるデータを処理する。終了条件保持部202は、入力処理部201が受理した終了条件を保持する。終了条件判定部203は、現在の状況が終了条件を満たすか否かを判定する。素片間距離計算部204は、2つの合成素片間の距離を計算する。代替素片候補保持部205は、素片間距離計算部204で求めた合成素片間の距離をもとに各合成素片に対する代替素片候補を保持する。接続歪計算部206は、所定の合成素片を代替素片候補に置き換えた合成素片セットを用いてコーパス209を音声合成した場合の当該代替素片候補と当該代替素片候補に隣接する合成素片との間に生じる接続歪を計算する。素片セット更新部207は、代替素片候補の中から選択された代替素片で代替前の合成素片を置き換える。素片セット保持部208は、置き換えた合成素片セットを保持する。コーパス209は、文を音韻系列で表現したものの集合である。また、本実施形態では音韻としてダイフォンを仮定しているが、これに限定されるものではない。
【0012】
図3は、本実施形態における情報処理装置の処理の流れを示すフローチャートである。
【0013】
ステップS301では、入力処理部201がユーザによる終了条件の入力を受理し、終了条件を終了条件保持部202に保持して、ステップS302に移る。
【0014】
ステップS302では、終了条件判定部203が、現在の状況が終了条件を満たすかどうかを判定する。終了条件を満たす場合は、終了する。一方、終了条件を満たさない場合は、ステップS303に移る。終了条件は、現在の合成素片セットに含まれる合成素片の数が設定値よりも小さくなったか、あるいは現在の合成素片セットのデータサイズが設定値よりも小さくなったか、あるいは現状の合成素片セットでコーパス209を合成した場合に生じる接続歪が設定値よりも大きくなったか、などが考えられる。言うまでもないことであるが、これらの組み合わせを終了条件としてもよい。また、ここで述べた合成素片セットに含まれる合成素片数とは、代替されることなく残っている合成素片の数を意味している。つまり、代替素片によって合成素片が代替されることが決まる度に合成素片数はひとつずつ減り、合成素片セットのデータサイズは小さくなる一方、当該合成素片セットでコーパス209を合成した場合に生じる接続歪は大きくなる。
【0015】
ステップS303では、素片間距離計算部204が、現在の合成素片セットに含まれる一部もしくはすべての合成素片について、当該合成素片とそれを除く合成素片との間の素片間距離を計算する。素片間距離としては、ケプストラム距離やスペクトル距離、または波形の振幅の差などが考えられる。合成素片同士は、必ずしも同じ長さであるとは限らないので、距離を計算する前にDP(動的計画法)などで対応点を求めておく。これにより、合成素片セットに含まれる各々の合成素片について、最も距離が小さい合成素片をそれぞれ見つけることができる。そして、この最も距離が小さい合成素片を各合成素片に対する各代替素片候補とし、代替素片候補保持部205に保存して、ステップS304に移る。
【0016】
ステップS304では、まず接続歪計算部206が所定の合成素片を代替素片候補で置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪を該所定の合成素片ごとに計算する。これを合成素片セットに含まれる一部もしくはすべての合成素片を対象として行い、その中から接続歪が最小となる合成素片を決定して、ステップS305に移る。
【0017】
ステップS305では、素片セット更新部207が、最も接続歪が小さい値を示した代替素片候補を代替素片として採用し、合成素片セットを更新した後、ステップS302に戻る。合成素片セットの更新は、例えば次のように行なわれる。ダイフォンK.Aの代替素片候補がP.Aであり、K.AをP.Aで置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪が、他の合成素片を代替素片候補で置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪と比べて最小である場合、ダイフォンK.Aを合成素片セットから削除し、ダイフォンK.Aの代替がダイフォンP.Aである旨を合成素片セットに登録する。
【0018】
以上の説明から明らかなように、本実施形態によれば、音声合成のための合成素片を備える合成素片セットにおいて、専門的な知識を有する人間でなくとも簡易に合成素片の数を削減することが可能となる。また、このとき、所定の合成素片の代替素片候補への置き換えは、代替素片候補に置き換えた合成素片セットを用いてコーパスを音声合成した場合に生じる接続歪が最小となる合成素片に対して行われるため、置き換えによる音質の劣化を抑制することが可能となる。
【0019】
【実施形態2】
実施形態1では、代替素片候補の決定を経て代替素片を決定する場合について説明したが、これに限定されるものではない。例えば、直接代替素片を決定してもよい。
【0020】
図4は、代替素片候補の決定を行なわずに直接代替素片を決定する場合の情報処理装置のモジュール構成を示すブロック図である。入力処理部201、終了条件保持部202、終了条件判定部203、素片セット更新部207、素片セット保持部208、コーパス209は、実施形態1と同じ処理を行なう。歪計算部410は、ある合成素片を代替素片で置き換えた合成素片セットを用いてコーパス209を音声合成した場合に生じる歪を計算する。ここでいう歪とは、代替した合成素片セットを用いてコーパス209を音声合成した場合に、当該代替した合成素片と当該代替した合成素片に隣接する合成素片との間に生じる接続歪と、代替前の合成素片と代替素片との素片間距離との和を合計したものとする。いうまでもないことであるが、歪の算出にあたっては、上記の素片間距離ではなくて、合成素片の部分的な距離を用いてもよいし、他のいかなる距離を用いてもよい。
【0021】
図5は、代替素片候補の決定を行なわずに直接代替素片を決定する場合の情報処理装置の処理の流れを示すフローチャートである。
【0022】
ステップS501では、入力処理部201がユーザによる終了条件の入力を受理し、終了条件を終了条件保持部202に保持して、ステップS502に移る。
【0023】
ステップS502では、終了条件判定部203が、現在の状況が終了条件を満たすかどうかを判定する。終了条件を満たす場合は、終了する。一方、終了条件を満たさない場合は、ステップS503に移る。
【0024】
ステップS503では、歪計算部410が、所定の合成素片を代替素片で置き換えた合成素片セットを用いてコーパス209を音声合成した場合に生じる歪を計算する。かかる計算を現在の合成素片セットに含まれる一部もしくはすべての合成素片を対象として行い、ステップS504に移る。歪としては、接続歪と素片間距離の和で表す場合が一般的であるが、特にこれに限定されるものではない。例えば、接続歪と素片間距離を重み付けして足し合わせたものを歪としても良い。
【0025】
ステップS504では、素片セット更新部207が、所定の合成素片ごとに計算した歪のうち、もっとも歪が小さい値を示した合成素片について代替素片に置き換えるべく合成素片セットを更新し、ステップS502に戻る。
【0026】
このように、合成素片セットから直接代替素片を決定してもよく、かかる場合においても上記実施形態1と同様の効果を有する。
【0027】
【実施形態3】
実施形態1および実施形態2では、コーパスとして音韻系列のみが与えられている場合について説明したが、これに限定されるものではなく、音声データを伴うコーパスでもよいものとする。音声データを伴う場合は、素片間距離として、コーパスに実在する合成素片との素片間距離を利用することができる。また、接続歪も同様に、コーパスに実在する隣接合成素片との接続歪が計算可能である。
【0028】
【実施形態4】
実施形態1および実施形態2では、コーパスを音声合成した場合の接続歪に基づいて代替素片を選択する場合について説明したが、これに限定されるものではなく、コーパスを使わずに代替素片を決定してもよい。コーパスを使わない場合の一例としては、所定の合成素片を代替素片候補に置き換え、当該所定の合成素片に接続可能な合成素片セット内のすべての合成素片との間で当該代替素片候補と接続した場合の接続歪を計算し、当該接続歪の計算をすべての合成素片を対象として行った場合の最小となる合成素片をもとめ、代替素片候補に置き換えるようにする方法が考えられる。
【0029】
【実施形態5】
実施形態1および実施形態2では、代替素片候補および代替素片の決定に素片間距離や接続歪を利用する場合について説明したが、これに限定されるものではなく、音素の環境を選択基準の一要因として決定するようにしてもよい。例えば、ダイフォンK.Aの代替素片候補は、K.*または、*.Aのいずれかに限定することにより、少なくとも片側の音素が同じであるように保証することができる。
【0030】
【実施形態6】
実施形態1および実施形態2では、素片間距離を計算する際にDPで対応点を求めておき、対応点同士の差を足し合わせることで距離とする場合について説明したが、これに限定されるものではなく、例えば、もとの合成素片をターゲットして、代替素片候補を変形(例えば、PSOLA)することにより、変形後の合成素片ともとの合成素片との距離を素片間距離としてもよい。
【0031】
【実施形態7】
実施形態1および実施形態2では、代替素片を決定する際に、毎回、コーパス中での接続歪を計算する場合について説明したが、これに限定されるものではなく、あらかじめコーパス中の接続歪を合成素片ごとに計算しておくようにしてもよい。頻度を使うことによって、接続歪の計算量を軽減することができる。なお、参考までに図6に、コーパス中の接続歪を合成素片ごとにあらかじめ計算した場合の一例を示す。
【0032】
【実施形態8】
実施形態1および実施形態2では、ひと揃えの合成素片セットが何らかの基準により選択されている場合について説明したが、これに限定されるものではなく、何も選択されていない状態、すなわち同一音韻素片が複数ある状態から開始するようにしてもよい。
【0033】
【実施形態9】
同様に、例えば、複数言語の音素セットが存在する場合に、これらを一旦ひとつにして、そこから実施形態1および実施形態2などで示した方法を用いて合成素片を削減していくことにより、マルチリンガルに対応した合成素片セットを生成することが可能である。
【0034】
【実施形態10】
また、複数話者の音素セットが存在する場合に、それらを一旦ひとつにし、もしくは、メインとなる話者の合成素片を多めにしつつ混合するなどし、そこから実施形態1および実施形態2などで示した方法を用いて合成素片を削減していくことにより、一話者では収集困難であった合成素片を容易に他の話者の合成素片で代替することが可能である。特に、子音は母音に比べて話者による違いが小さいので、子音の場合はこのような方法が有効である。
【0035】
【実施形態11】
上記実施形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
【0036】
【実施形態12】
上記実施形態においては、プログラムを制御メモリ(ROM)に保持する場合について説明したが、これに限定されるものではなく、外部記憶など任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【他の実施形態】
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードをネットワークなどを介してダウンロードして実行したり、プログラムコードを記録した記録媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【0037】
この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0038】
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0039】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0040】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0041】
【発明の効果】
以上説明したように本発明によれば、音声合成のための合成素片を備える合成素片セットにおいて、音声合成に用いた場合の音質の劣化を抑制しつつ、簡易に合成素片の数を削減することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態1における情報処理装置のハードウエア構成を示すブロック図である。
【図2】本発明の実施形態1における情報処理装置のモジュール構成を示すブロック図である。
【図3】本発明の実施形態1における情報処理装置の流れを示すフローチャートである。
【図4】本発明の実施形態2における情報処理装置のモジュール構成を示すブロック図である。
【図5】本発明の実施形態2における情報処理装置の流れを示すフローチャートである。
【図6】コーパス中の接続歪を合成素片ごとにあらかじめ計算した場合の一例を示す図である。
【符号の説明】
101 制御メモリ(ROM)
102 中央処理装置
103 メモリ(RAM)
104 外部記憶装置
105 D/A変換器
106 入力装置
107 表示装置
108 バス
201 入力処理部
202 終了条件保持部
203 終了条件判定部
204 素片間距離計算部
205 代替素片候補保持部
206 接続歪計算部
207 素片セット更新部
208 素片セット保持部
410 歪計算部
【発明の属する技術分野】
本発明は、音声合成のための合成素片を備える合成素片セットを処理する処理技術に関するものである。
【0002】
【従来の技術】
近年、カーナビゲーションシステムなどの様々な機器で音声合成技術が利用されている。なかでも、PSOLA(ピッチ同期波形重畳方式)に代表される波形編集方式が音声合成方式の主流になりつつある。波形編集方式では、合成素片の単位として音素、ダイフォン、トライフォンなどを採用することが多い。音声合成に必要なひと揃えの合成素片を備える合成素片セットにおける合成素片の数は、合成単位によってそれぞれ異なる。音素の定義の仕方によって多少異なるが、音素の場合数十種類、ダイフォンの場合数百種類、トライフォンの場合数千種類の合成素片を用意する必要がある。
【0003】
ここで、携帯電話やPDAなどのようにリソースに限りがある機器上で音声合成を動作させることを考える。トライフォンやダイフォンを合成単位として採用すると、ROMなどの記憶容量の制約から、合成素片の数を削減する必要に迫られる場合がある。合成素片の数を削減する方法としては、音声に関する専門的な知識を有する人間が試行錯誤を重ねて、合成素片を別の合成素片で代替させていくというアプローチをとることが一般的である。
【0004】
【非特許文献1】
新居孝章,瀬戸重宣,赤嶺政巳((株)東芝・関西研究所)、「DSP組み込み可能な省メモリ音声合成方式」、日本音響学会 平成10年度春季研究発表会講演論文集 I、p301−p302
【0005】
【発明が解決しようとする課題】
しかしながら、上記の方法では、専門的な知識を有する人間でなければ合成素片の削減は不可能である。また、試行錯誤のため、最終的に得られた合成素片セットから生成される合成音声の品質が常に良いとは限らない。さらには、新しい話者の合成素片セットを作るときに毎回多大な労力を必要とする。
【0006】
本発明は上記課題に鑑みてなされたものであり、音声合成のための合成素片を備える合成素片セットにおいて、音声合成に用いた場合の音質の劣化を抑制しつつ、簡易に合成素片の数を削減する処理技術を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記の目的を達成するために本発明に係る情報処理装置は以下のような構成を備える。即ち、
音声合成のための合成素片を備える合成素片セットを処理する情報処理装置であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出手段と、
前記所定の合成素片を、前記抽出手段により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する算出手段と、
前記算出手段により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え手段とを備える。
【0008】
【発明の実施の形態】
以下、添付の図面を参照して、本発明の好適な実施形態を詳細に説明する。
【0009】
【実施形態1】
図1は、本実施形態における情報処理装置のハードウエア構成を示すブロック図である。本実施形態では、一般的なパーソナルコンピュータを用いて実現する場合について説明するが、本発明は専用のハードウェアを用いて実現しても、また他の形態の装置を用いて実現してもよい。なお本実施形態では、合成単位としてダイフォンを用いる場合について説明するが、これに限定されるものではない。また、合成素片セットは、あらかじめ、例えば特開2001−282273号公報において開示された方法等によって選択しておくものとする。
【0010】
図1において、101は制御メモリ(ROM)、102は中央処理装置、103はメモリ(RAM)、104は外部記憶装置、105はD/A変換器、106は入力装置、107は表示装置、108はバスである。本実施形態にかかる情報処理機能を実現するための制御プログラムやその制御プログラムで用いるデータは、制御メモリ101に記憶される。これらの制御プログラムやデータは、中央処理装置102の制御のもと、バス108を通じて適宜メモリ103に取り込まれ、中央処理装置102によって実行される。
【0011】
図2は、本実施形態における情報処理装置のモジュール構成を示すブロック図である。入力処理部201は、入力装置106を介して入力されるデータを処理する。終了条件保持部202は、入力処理部201が受理した終了条件を保持する。終了条件判定部203は、現在の状況が終了条件を満たすか否かを判定する。素片間距離計算部204は、2つの合成素片間の距離を計算する。代替素片候補保持部205は、素片間距離計算部204で求めた合成素片間の距離をもとに各合成素片に対する代替素片候補を保持する。接続歪計算部206は、所定の合成素片を代替素片候補に置き換えた合成素片セットを用いてコーパス209を音声合成した場合の当該代替素片候補と当該代替素片候補に隣接する合成素片との間に生じる接続歪を計算する。素片セット更新部207は、代替素片候補の中から選択された代替素片で代替前の合成素片を置き換える。素片セット保持部208は、置き換えた合成素片セットを保持する。コーパス209は、文を音韻系列で表現したものの集合である。また、本実施形態では音韻としてダイフォンを仮定しているが、これに限定されるものではない。
【0012】
図3は、本実施形態における情報処理装置の処理の流れを示すフローチャートである。
【0013】
ステップS301では、入力処理部201がユーザによる終了条件の入力を受理し、終了条件を終了条件保持部202に保持して、ステップS302に移る。
【0014】
ステップS302では、終了条件判定部203が、現在の状況が終了条件を満たすかどうかを判定する。終了条件を満たす場合は、終了する。一方、終了条件を満たさない場合は、ステップS303に移る。終了条件は、現在の合成素片セットに含まれる合成素片の数が設定値よりも小さくなったか、あるいは現在の合成素片セットのデータサイズが設定値よりも小さくなったか、あるいは現状の合成素片セットでコーパス209を合成した場合に生じる接続歪が設定値よりも大きくなったか、などが考えられる。言うまでもないことであるが、これらの組み合わせを終了条件としてもよい。また、ここで述べた合成素片セットに含まれる合成素片数とは、代替されることなく残っている合成素片の数を意味している。つまり、代替素片によって合成素片が代替されることが決まる度に合成素片数はひとつずつ減り、合成素片セットのデータサイズは小さくなる一方、当該合成素片セットでコーパス209を合成した場合に生じる接続歪は大きくなる。
【0015】
ステップS303では、素片間距離計算部204が、現在の合成素片セットに含まれる一部もしくはすべての合成素片について、当該合成素片とそれを除く合成素片との間の素片間距離を計算する。素片間距離としては、ケプストラム距離やスペクトル距離、または波形の振幅の差などが考えられる。合成素片同士は、必ずしも同じ長さであるとは限らないので、距離を計算する前にDP(動的計画法)などで対応点を求めておく。これにより、合成素片セットに含まれる各々の合成素片について、最も距離が小さい合成素片をそれぞれ見つけることができる。そして、この最も距離が小さい合成素片を各合成素片に対する各代替素片候補とし、代替素片候補保持部205に保存して、ステップS304に移る。
【0016】
ステップS304では、まず接続歪計算部206が所定の合成素片を代替素片候補で置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪を該所定の合成素片ごとに計算する。これを合成素片セットに含まれる一部もしくはすべての合成素片を対象として行い、その中から接続歪が最小となる合成素片を決定して、ステップS305に移る。
【0017】
ステップS305では、素片セット更新部207が、最も接続歪が小さい値を示した代替素片候補を代替素片として採用し、合成素片セットを更新した後、ステップS302に戻る。合成素片セットの更新は、例えば次のように行なわれる。ダイフォンK.Aの代替素片候補がP.Aであり、K.AをP.Aで置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪が、他の合成素片を代替素片候補で置き換えた合成素片セットを用いてコーパス209を音声合成した場合の接続歪と比べて最小である場合、ダイフォンK.Aを合成素片セットから削除し、ダイフォンK.Aの代替がダイフォンP.Aである旨を合成素片セットに登録する。
【0018】
以上の説明から明らかなように、本実施形態によれば、音声合成のための合成素片を備える合成素片セットにおいて、専門的な知識を有する人間でなくとも簡易に合成素片の数を削減することが可能となる。また、このとき、所定の合成素片の代替素片候補への置き換えは、代替素片候補に置き換えた合成素片セットを用いてコーパスを音声合成した場合に生じる接続歪が最小となる合成素片に対して行われるため、置き換えによる音質の劣化を抑制することが可能となる。
【0019】
【実施形態2】
実施形態1では、代替素片候補の決定を経て代替素片を決定する場合について説明したが、これに限定されるものではない。例えば、直接代替素片を決定してもよい。
【0020】
図4は、代替素片候補の決定を行なわずに直接代替素片を決定する場合の情報処理装置のモジュール構成を示すブロック図である。入力処理部201、終了条件保持部202、終了条件判定部203、素片セット更新部207、素片セット保持部208、コーパス209は、実施形態1と同じ処理を行なう。歪計算部410は、ある合成素片を代替素片で置き換えた合成素片セットを用いてコーパス209を音声合成した場合に生じる歪を計算する。ここでいう歪とは、代替した合成素片セットを用いてコーパス209を音声合成した場合に、当該代替した合成素片と当該代替した合成素片に隣接する合成素片との間に生じる接続歪と、代替前の合成素片と代替素片との素片間距離との和を合計したものとする。いうまでもないことであるが、歪の算出にあたっては、上記の素片間距離ではなくて、合成素片の部分的な距離を用いてもよいし、他のいかなる距離を用いてもよい。
【0021】
図5は、代替素片候補の決定を行なわずに直接代替素片を決定する場合の情報処理装置の処理の流れを示すフローチャートである。
【0022】
ステップS501では、入力処理部201がユーザによる終了条件の入力を受理し、終了条件を終了条件保持部202に保持して、ステップS502に移る。
【0023】
ステップS502では、終了条件判定部203が、現在の状況が終了条件を満たすかどうかを判定する。終了条件を満たす場合は、終了する。一方、終了条件を満たさない場合は、ステップS503に移る。
【0024】
ステップS503では、歪計算部410が、所定の合成素片を代替素片で置き換えた合成素片セットを用いてコーパス209を音声合成した場合に生じる歪を計算する。かかる計算を現在の合成素片セットに含まれる一部もしくはすべての合成素片を対象として行い、ステップS504に移る。歪としては、接続歪と素片間距離の和で表す場合が一般的であるが、特にこれに限定されるものではない。例えば、接続歪と素片間距離を重み付けして足し合わせたものを歪としても良い。
【0025】
ステップS504では、素片セット更新部207が、所定の合成素片ごとに計算した歪のうち、もっとも歪が小さい値を示した合成素片について代替素片に置き換えるべく合成素片セットを更新し、ステップS502に戻る。
【0026】
このように、合成素片セットから直接代替素片を決定してもよく、かかる場合においても上記実施形態1と同様の効果を有する。
【0027】
【実施形態3】
実施形態1および実施形態2では、コーパスとして音韻系列のみが与えられている場合について説明したが、これに限定されるものではなく、音声データを伴うコーパスでもよいものとする。音声データを伴う場合は、素片間距離として、コーパスに実在する合成素片との素片間距離を利用することができる。また、接続歪も同様に、コーパスに実在する隣接合成素片との接続歪が計算可能である。
【0028】
【実施形態4】
実施形態1および実施形態2では、コーパスを音声合成した場合の接続歪に基づいて代替素片を選択する場合について説明したが、これに限定されるものではなく、コーパスを使わずに代替素片を決定してもよい。コーパスを使わない場合の一例としては、所定の合成素片を代替素片候補に置き換え、当該所定の合成素片に接続可能な合成素片セット内のすべての合成素片との間で当該代替素片候補と接続した場合の接続歪を計算し、当該接続歪の計算をすべての合成素片を対象として行った場合の最小となる合成素片をもとめ、代替素片候補に置き換えるようにする方法が考えられる。
【0029】
【実施形態5】
実施形態1および実施形態2では、代替素片候補および代替素片の決定に素片間距離や接続歪を利用する場合について説明したが、これに限定されるものではなく、音素の環境を選択基準の一要因として決定するようにしてもよい。例えば、ダイフォンK.Aの代替素片候補は、K.*または、*.Aのいずれかに限定することにより、少なくとも片側の音素が同じであるように保証することができる。
【0030】
【実施形態6】
実施形態1および実施形態2では、素片間距離を計算する際にDPで対応点を求めておき、対応点同士の差を足し合わせることで距離とする場合について説明したが、これに限定されるものではなく、例えば、もとの合成素片をターゲットして、代替素片候補を変形(例えば、PSOLA)することにより、変形後の合成素片ともとの合成素片との距離を素片間距離としてもよい。
【0031】
【実施形態7】
実施形態1および実施形態2では、代替素片を決定する際に、毎回、コーパス中での接続歪を計算する場合について説明したが、これに限定されるものではなく、あらかじめコーパス中の接続歪を合成素片ごとに計算しておくようにしてもよい。頻度を使うことによって、接続歪の計算量を軽減することができる。なお、参考までに図6に、コーパス中の接続歪を合成素片ごとにあらかじめ計算した場合の一例を示す。
【0032】
【実施形態8】
実施形態1および実施形態2では、ひと揃えの合成素片セットが何らかの基準により選択されている場合について説明したが、これに限定されるものではなく、何も選択されていない状態、すなわち同一音韻素片が複数ある状態から開始するようにしてもよい。
【0033】
【実施形態9】
同様に、例えば、複数言語の音素セットが存在する場合に、これらを一旦ひとつにして、そこから実施形態1および実施形態2などで示した方法を用いて合成素片を削減していくことにより、マルチリンガルに対応した合成素片セットを生成することが可能である。
【0034】
【実施形態10】
また、複数話者の音素セットが存在する場合に、それらを一旦ひとつにし、もしくは、メインとなる話者の合成素片を多めにしつつ混合するなどし、そこから実施形態1および実施形態2などで示した方法を用いて合成素片を削減していくことにより、一話者では収集困難であった合成素片を容易に他の話者の合成素片で代替することが可能である。特に、子音は母音に比べて話者による違いが小さいので、子音の場合はこのような方法が有効である。
【0035】
【実施形態11】
上記実施形態においては、各部を同一の計算機上で構成する場合について説明したが、これに限定されるものではなく、ネットワーク上に分散した計算機や処理装置などに分かれて各部を構成してもよい。
【0036】
【実施形態12】
上記実施形態においては、プログラムを制御メモリ(ROM)に保持する場合について説明したが、これに限定されるものではなく、外部記憶など任意の記憶媒体を用いて実現してもよい。また、同様の動作をする回路で実現してもよい。
【他の実施形態】
なお、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。前述した実施形態の機能を実現するソフトウエアのプログラムコードをネットワークなどを介してダウンロードして実行したり、プログラムコードを記録した記録媒体をシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【0037】
この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
【0038】
プログラムコードを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0039】
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0040】
さらに、記録媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0041】
【発明の効果】
以上説明したように本発明によれば、音声合成のための合成素片を備える合成素片セットにおいて、音声合成に用いた場合の音質の劣化を抑制しつつ、簡易に合成素片の数を削減することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施形態1における情報処理装置のハードウエア構成を示すブロック図である。
【図2】本発明の実施形態1における情報処理装置のモジュール構成を示すブロック図である。
【図3】本発明の実施形態1における情報処理装置の流れを示すフローチャートである。
【図4】本発明の実施形態2における情報処理装置のモジュール構成を示すブロック図である。
【図5】本発明の実施形態2における情報処理装置の流れを示すフローチャートである。
【図6】コーパス中の接続歪を合成素片ごとにあらかじめ計算した場合の一例を示す図である。
【符号の説明】
101 制御メモリ(ROM)
102 中央処理装置
103 メモリ(RAM)
104 外部記憶装置
105 D/A変換器
106 入力装置
107 表示装置
108 バス
201 入力処理部
202 終了条件保持部
203 終了条件判定部
204 素片間距離計算部
205 代替素片候補保持部
206 接続歪計算部
207 素片セット更新部
208 素片セット保持部
410 歪計算部
Claims (8)
- 音声合成のための合成素片を備える合成素片セットを処理する情報処理装置であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出手段と、
前記所定の合成素片を、前記抽出手段により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する算出手段と、
前記算出手段により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え手段と
を備えることを特徴とする情報処理装置。 - 音声合成のための合成素片を備える合成素片セットを処理する情報処理装置であって、
所定の合成素片を該所定の合成素片を除く他の合成素片に置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該他の合成素片と該他の合成素片に隣接する合成素片との間に生じる接続歪と、該所定の合成素片と該他の合成素片との間の素片間距離との和を算出する算出手段と、
前記算出手段により接続歪と素片間距離との和が算出された前記合成素片セット内の各合成素片のうち、当該接続歪と素片間距離との和が最小となる合成素片を他の合成素片により置き換える置き換え手段と
を備えることを特徴とする情報処理装置。 - 音声合成のための合成素片を備える合成素片セットを処理する情報処理装置であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出手段と、
前記所定の合成素片と接続可能な前記合成素片セット内の他の合成素片との間で、前記抽出された合成素片と接続した場合の接続歪を算出する算出手段と、
前記算出手段により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え手段と
を備えることを特徴とする情報処理装置。 - 音声合成のための合成素片を備える合成素片セットを処理する情報処理方法であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出工程と、
前記所定の合成素片を、前記抽出工程により抽出された合成素片で置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該抽出された合成素片と該抽出された合成素片に隣接する合成素片との間に生じる接続歪を算出する算出工程と、
前記算出工程により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え工程と
を備えることを特徴とする情報処理方法。 - 音声合成のための合成素片を備える合成素片セットを処理する情報処理方法であって、
所定の合成素片を該所定の合成素片を除く他の合成素片に置き換えた合成素片セットを用いて所定のコーパスを音声合成した場合に、該他の合成素片と該他の合成素片に隣接する合成素片との間に生じる接続歪と、該所定の合成素片と該他の合成素片との間の素片間距離との和を算出する算出工程と、
前記算出工程により接続歪と素片間距離との和が算出された前記合成素片セット内の各合成素片のうち、当該接続歪と素片間距離との和が最小となる合成素片を他の合成素片により置き換える置き換え工程と
を備えることを特徴とする情報処理方法。 - 音声合成のための合成素片を備える合成素片セットを処理する情報処理方法であって、
所定の合成素片との素片間距離が最も小さい合成素片を前記合成素片セットより抽出する抽出工程と、
前記所定の合成素片と接続可能な前記合成素片セット内の他の合成素片との間で、前記抽出された合成素片と接続した場合の接続歪を算出する算出工程と、
前記算出工程により接続歪が算出された前記合成素片セット内の各合成素片のうち、接続歪が最小となる合成素片を前記抽出された合成素片により置き換える置き換え工程と
を備えることを特徴とする情報処理方法。 - 請求項4乃至6のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラムを格納した記憶媒体。
- 請求項4乃至6のいずれか1つに記載の情報処理方法をコンピュータによって実現させるための制御プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003044484A JP2004252316A (ja) | 2003-02-21 | 2003-02-21 | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003044484A JP2004252316A (ja) | 2003-02-21 | 2003-02-21 | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004252316A true JP2004252316A (ja) | 2004-09-09 |
Family
ID=33027174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003044484A Withdrawn JP2004252316A (ja) | 2003-02-21 | 2003-02-21 | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004252316A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603278B2 (en) | 2004-09-15 | 2009-10-13 | Canon Kabushiki Kaisha | Segment set creating method and apparatus |
JP2011242465A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
-
2003
- 2003-02-21 JP JP2003044484A patent/JP2004252316A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603278B2 (en) | 2004-09-15 | 2009-10-13 | Canon Kabushiki Kaisha | Segment set creating method and apparatus |
JP2011242465A (ja) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 音声素片データベース作成装置、代替音声モデル作成装置、音声合成装置、音声素片データベース作成方法、代替音声モデル作成方法、プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789290B2 (en) | Audio data processing method and apparatus, and computer storage medium | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
CN106898340B (zh) | 一种歌曲的合成方法及终端 | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JPS62160495A (ja) | 音声合成装置 | |
JP5175325B2 (ja) | 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体 | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP2008225254A (ja) | 音声合成装置及び方法並びにプログラム | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP4859125B2 (ja) | 発音評定装置、およびプログラム | |
JP3728173B2 (ja) | 音声合成方法、装置および記憶媒体 | |
JP2008256942A (ja) | 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法 | |
JP6170384B2 (ja) | 音声データベース生成システム、音声データベース生成方法、及びプログラム | |
JP2004252316A (ja) | 情報処理装置および情報処理方法ならびにプログラム、記憶媒体 | |
JP3912913B2 (ja) | 音声合成方法及び装置 | |
JP2007072143A (ja) | 音声認識装置、およびプログラム | |
JP4525162B2 (ja) | 音声合成装置及びそのプログラム | |
JP5701348B2 (ja) | 音声認識装置、音声認識方法、およびプログラム | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP4877112B2 (ja) | 音声処理装置およびプログラム | |
CN113421544B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
JP4872690B2 (ja) | 音声合成方法、音声合成プログラム、音声合成装置 | |
JP2005241789A (ja) | 素片接続型音声合成装置及び方法、並びに音声素片データベースの作成方法 | |
JP2004012700A (ja) | 音声合成方法および装置並びに辞書生成方法および装置 | |
CN117198266A (zh) | 基于用户口语习惯的个性化语音合成方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060509 |