JP2005300919A - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP2005300919A JP2005300919A JP2004117021A JP2004117021A JP2005300919A JP 2005300919 A JP2005300919 A JP 2005300919A JP 2004117021 A JP2004117021 A JP 2004117021A JP 2004117021 A JP2004117021 A JP 2004117021A JP 2005300919 A JP2005300919 A JP 2005300919A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speech unit
- unit
- registered
- waveform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音声素片辞書から最適音声素片を選択する素片選択過程において2段階の選択を行うことにより高品質の合成音声を可能にする。
【解決手段】 複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段を備え、素片選択手段が、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第1の選択手段と、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第2の選択手段とを有する。
【選択図】 図1
【解決手段】 複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段を備え、素片選択手段が、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第1の選択手段と、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第2の選択手段とを有する。
【選択図】 図1
Description
この発明は、テキスト音声合成に係り、特にピッチ長、継続時間長などの情報から生成する合成音声の品質向上を図る音声合成装置に関するものである。
任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、音韻処理部(韻律設定)、音声合成部の3つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音律処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの情報が出力される。そしてそれらの情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。このような音声合成の技術分野において、複数の第1の音声素片のピッチ長に従って、複数の第2の音声素片のピッチ長を変更することにより複数の合成音声素片を生成し、これらの合成音声素片と第1の音声素片との間の距離尺度に基づいて第2の音声素片から代表音声素片を選択する方法がある(例えば、特許文献1参照)。
従来の音声合成装置は、以上のように構成されているが、音声合成に適さないピッチ長の音声素片も、音声素片選択の距離尺度の計算に考慮されることになり、質の悪い音声素片が合成されることになるという問題がある。また、上記ピッチ長の変更は計算量が膨大であるために、全ての音声素片について音声合成するのは、時間に制限がある場合には適さないという問題もある。
この発明は、上記問題点を解決するためになされたもので、音声素片辞書から最適音声素片を選択する素片選択過程において2段階の選択を行うことにより高品質の合成音声を可能にする音声合成装置を得ることを目的とする。
この発明に係る音声合成装置は、設定された韻律情報を基に複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段と、選択された音声素片をそれぞれ上記入力文字列の順に従って接続して合成音声を生成する音声合成手段とを備え、素片選択手段が、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第1の選択手段と、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第2の選択手段とを有したものである。
この発明によれば、素片選択が、ピッチ長、継続時間長、音素環境およびピッチパターン等のパラメータに基づいて登録音声素片から音声素片候補を選択する第1の選択行程と、選択された音声素片候補を所定のパラメータに基づいて変形を加えて合成音声素片を生成し、この合成音声素片と各音声素片候補との差分に基づいて最適音声素片を選択する第2の選択行程を得るようにしたので、音声合成に適さないパラメータを持つ音声素片は第1の選択行程で篩い分けされて音声素片選択の距離尺度の計算には含まれにくくなり、従来に比し高品質の合成音声の生成を可能にする効果がある。
実施の形態1.
図1はこの発明の各実施の形態による音声合成装置を示すブロック図である。図において、入力端子3から入力されたテキストの入力文字列は、言語処理部(言語処理手段)4において形態素解析、構文解析がされ、日本語辞書5を参照して音声素片に分割される。形態素解析ならびに構文解析については、予め処理を行っておいてその解析結果をメモリ等に蓄えておくことで省くことも可能である。これはカーナビゲーションシステム等において決まった文章、例えば市町村名を読み上げる場合に有効である。
図1はこの発明の各実施の形態による音声合成装置を示すブロック図である。図において、入力端子3から入力されたテキストの入力文字列は、言語処理部(言語処理手段)4において形態素解析、構文解析がされ、日本語辞書5を参照して音声素片に分割される。形態素解析ならびに構文解析については、予め処理を行っておいてその解析結果をメモリ等に蓄えておくことで省くことも可能である。これはカーナビゲーションシステム等において決まった文章、例えば市町村名を読み上げる場合に有効である。
次に、分割された音声素片は、韻律設定部(韻律設定手段)6において、アクセントやイントネーションの処理が行われ、音響的特徴のパラメータ、例えば音声素片のピッチパターン、ピッチ長、音素環境、継続時間長または韻律のパラメータ(これら音響的特徴のパラメータを「韻律情報」とする。)が設定される。次に、素片選択部(素片選択手段)7において、後述するように、複数の音声素片を予め備えた音声素片辞書8を参照して、最適音声素片が選択される。次に、音声合成部(音声合成手段)9において、選択された音声素片がそれぞれ入力文字列の順に従って接続され、出力端子10から出力される。このようにして入力文字列に対応する合成音声が得られる。なお、上記構成で、言語処理部4、韻律設定部6、素片選択部7、音声合成部9および音声合成部9の機能は、CPUを用いてプログラム実行することで達成できるものである。
ここで、音声素片とは、母音をV、子音をCと表すと、CV、VCV等の音声合成単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。また、音素環境とは、音声素片にとっての環境となる要因であり、例えば当該音素名、先行する音素、後続する音素、モーラ位置等の要素の組み合わせで表現されるものである。
図2は素片選択部7と音声素片辞書8からなる素片選択過程を示すブロック図である。素片選択部7は第1の選択手段11と第2の選択手段12で構成されている。第1の選択手段11は、所定の基準を満たす音声素片候補を音声素片辞書8から複数選択する手段である。第2の選択手段12は、音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補から最適音声素片を選択する手段である。
第1の選択手段11では、音声素片辞書8に登録されている音声素片(登録音声素片)から所定の基準を満たす音声素片候補を選択する。図3は音声素片辞書8のデータ構成を示したものである。この音声素片辞書8には、各音声素片に対して、当該音声素片の音素、ピッチ長、継続時間長、パワー、音素環境、韻律、ピッチパターン等が記されている。第1の選択手段11では、当該音声素片辞書8に登録された複数の音声素片について、相互の音声素片間のピッチ長の差分が計算される。次に、計算された当該差分に基づいて音声素片候補が選択される。例えば音声素片辞書8にm個の音声素片が登録されていたと仮定した場合、登録された任意の音声素片R(k)(1≦k≦m)と同じく登録された音声素片R(1)乃至音声素片R(m)とのピッチ長の差分の絶対値の総和が求められる。その総和をSUM(k)とする。このような計算を、順次R(1)からR(m)について計算する。次に当該SUMが小さい上位n番目までの音声素片を音声素片候補とする。
第2の選択手段12では、第1の選択手段11で選択された各音声素片候補の情報に従って任意の音声素片候補を変形し、任意の合成音声素片を生成する。次に、任意の合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する。音声素片候補から最適音声素片を選択する手法としては、特開平9−310301号公報で述べられている手法を用いてもよい。この実施の形態1では図4を用いて説明する。第1の選択手段11で選択された音声素片候補がn個である場合、任意の音声素片候補S(k)(1≦k≦n)自身のピッチ長を、音声素片候補S(1)乃至音声素片候補S(n)の各ピッチ長に合せるように伸縮させる。当該伸縮は、図4に示すように、例えばピッチ周期毎に切り出された音声波形(1ピッチ長波形)を重ね合わせ、波形が重ならない部分に関しては適宜0づめを行う。そうしてピッチ長が伸縮された合成音声素片G1 (k)乃至Gn (k)を生成する。次に、生成された合成音声素片G1 (k)乃至Gn (k)と音声素片候補S(1)乃至S(n)との間の波形の歪である音声素片変形歪平均E(k)を式(1)を用いて求める。式(1)において、Sp(k、j)、Gp(i、j)はそれぞれ音声素片候補S(k)のパワー正規化後音声波形のj番目のサンプル点、G(i)、{i=1…n}のパワー正規化後の音声波形サンプル点を表し、またLi はS(i)の全サンプル点の個数を表す。式(1)を順次S(1)、S(2)、S(3)…S(n)について適用しそれぞれの音声素片変形歪平均E(1)、E(2)…E(n)を求め、そのうち音声素片変形歪平均E(k)が最も小さい値の音声素片候補S(k)を最適音声素片として選択する。
以上のように、第1の選択手段11と第2の選択手段12と相まって、最適音声素片を選択することができる。すなわち、第2の選択手段12のみの処理だと、その第2の選択手段12で計算される音声素片変形歪平均Eには、質の悪い音声素片(例えば波形が乱れて半ピッチまたは倍ピッチに誤った音声素片)との間の歪も含まれることになる。これに対し、上記のように第1の選択手段11の処理を経れば、第2の選択手段12では、ある程度質の高い音声素片間に限定して歪が計算されるため、より良い音声素片を選択することができる。これにより従来に比べて高品質の合成音声を生成することができる。また、第1の選択手段11を経ない第2の選択手段12のみの選択処理だと計算量が膨大となるが、第1の選択手段11を事前に経ることにより、第2の選択手段12では、音声素片辞書8に登録されている音声素片の個数に比べて少ない音声素片に対して処理を実行できるため、比較的少ない計算量で行うことができる。
なお、第1の選択手段11の別の方法として、例えば当業者によく知られたクラスタリング法であるLBG(Linde Buzo Gray)法を用い、スペクトル波形その他から導出できる音響パラメータの類似度が近いもの同士を集めてもよい。そして、その中の音声素片に対して第2の選択手段12の選択機能を実行すればよい。
上記例では、第1の選択手段11をピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長、音素環境、ピッチパターン等であってもよく、さらに、それらの組み合わせによる場合であってもよい。音素環境の場合とは、例えば、濁音のカテゴリに属する音素間(/d/、/g/、/b/等)は差分が小さく、濁音と破裂音(/p/、/t/等)間は差分が大きいと判断される場合である。ピッチパターンの場合は、1つのピッチ長だけで判断するのではなく、複数のピッチ長系列と、韻律設定部が出力する所定のピッチ長系列とをベクトルとみなして、2つのベクトル間の距離または2乗誤差を求め、その距離または2乗誤差が大きいと判断される場合である。継続時間長の場合は、各音声素片候補に合せるため、図5に示すように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて任意の合成音声素片を生成する。ピッチ長と継続時間長の組み合わせの場合は、図6に示すように任意の音声素片候補の変形にあたり、当該音声素片候補のピッチ長および継続時間長を変形して合成音声素片を生成する。また、このピッチ長と継続時間長の組み合わせを行う場合、例えばピッチ長の割合が3であり継続時間長の割合が7となるような重み付けをする方法が用いられ、他の組み合わせにおいても同様な重み付けを行ってもよい。
また、上記例では、第1の選択手段11は、登録された全ての音声素片相互のピッチ長の差分を計算するとして説明した。しかし、この発明は登録された全ての音声素片間で計算する場合に限られず、例えば韻律情報から得られる音素と同じ音素間相互のピッチ長の差分を計算してもよい。
また、上記例では、第2の選択手段12について最適音声素片を選択する基準として音声波形変形歪を用いて説明した。しかし、この発明は音声波形変形歪を単独で使う場合だけに限定されない。例えば音声波形変形歪の他、接続歪、スペクトル歪等を考慮した総合歪を基準として最適音声素片を選択してもよい。
また、上記例では、第2の選択手段12においては、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態1により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eが予め記述された歪テーブルを利用するようにしてもよい。このことにより、合成音声を生成する際に、音声素片変形歪平均の計算を省略できることになる。
また、上記例では、第2の選択手段12について最適音声素片を選択する基準として音声波形変形歪を用いて説明した。しかし、この発明は音声波形変形歪を単独で使う場合だけに限定されない。例えば音声波形変形歪の他、接続歪、スペクトル歪等を考慮した総合歪を基準として最適音声素片を選択してもよい。
また、上記例では、第2の選択手段12においては、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態1により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eが予め記述された歪テーブルを利用するようにしてもよい。このことにより、合成音声を生成する際に、音声素片変形歪平均の計算を省略できることになる。
以上のように、この実施の形態1によれば、複数の音声素片を予め備えた音声素片辞書を参照して韻律情報に適した最適音声素片を選択する素片選択手段が、第1の選択手段と第2の選択手段を有し、第1の選択手段により、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択し、その後第2の選択手段により、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択するようにしている。また、特に、この実施の形態1では、第1の選択手段が、登録音声素片から音声素片候補を選択するに当たり、任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値を用いている。一方、第2の選択手段は、各音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように任意の音声素片候補の対応値(ピッチ長および継続時間長の一方または両者の組み合わせの値)を伸縮させることにより合成音声素片を生成し、合成音声素片と各音声素片候補間の音声波形変形歪平均Eを計算し、音声波形変形歪平均Eが小さい音声素片候補を最適音声素片として選択するようにしている。したがって、第1の選択手段で比較的粗い登録音声素片の選択を行い、その後で第2の選択手段である程度質の高くなった音声素片間に限定して歪を計算するため、確度の高い音声素片を選択することができ、従来に比べて高品質の合成音声を生成できる効果が得られる。また、第1の選択手段を事前に経ることにより、第2の選択手段12では、音声素片辞書に登録されている音声素片の個数に比べて少ない音声素片に対して処理を実行できるため、比較的少ない計算量で行うことができる効果が得られる。
また、第2の選択手段が、合成音声素片を生成して音声波形変形歪Eを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eが予め記述された歪テーブルを用いて音声素片候補から最適音声素片を選択するようにした場合には、合成音声素片を生成する際に音声素片変形歪平均の計算を省略できる効果が得られる。
また、第2の選択手段が、合成音声素片を生成して音声波形変形歪Eを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eが予め記述された歪テーブルを用いて音声素片候補から最適音声素片を選択するようにした場合には、合成音声素片を生成する際に音声素片変形歪平均の計算を省略できる効果が得られる。
実施の形態2.
この実施の形態2では、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1とは別の選択処理を行う。図7は実施の形態2に係る第1の選択手段11の処理方法について示す説明図である。
この実施の形態2では、音声素片辞書8に登録された複数の音声素片間で、互いに音声素片のピッチ長の差分の計算を間引きして処理する方法を用いる。例えば音声素片辞書8に2m個の音声素片が登録されていると仮定した場合、登録された音声素片を、ピッチ長順にソートする。ソートされた順にR(1)、R(2)、R(3)…R(2m)とする。ここで、例えばR(2k)(1≦k≦m)と、同じく登録された音声素片R(2)、音声素片R(4)、音声素片R(6)…音声素片R(2m)(但し添え字は偶数)とのピッチ長の差分の絶対値の総和SUM(2k)を求める。偶数番目のグループで、同様な計算を順次R(2)、R(4)、R(6)…R(2m)について行う。次に、同様にR(2k−1)(1≦k≦m)と、同じく登録された音声素片R(1)、音声素片R(3)、音声素片R(5)…音声素片R(2m−1)(但し添え字は奇数)とのピッチ長の差分の絶対値の総和SUM(2k−1)を求める。奇数番目のグループで、同様な計算を順次R(1)、R(3)、R(5)…R(2m−1)について行う。そして当該総和SUMが小さい音声素片からn番目までの音声素片を音声素片候補とする。
この実施の形態2では、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1とは別の選択処理を行う。図7は実施の形態2に係る第1の選択手段11の処理方法について示す説明図である。
この実施の形態2では、音声素片辞書8に登録された複数の音声素片間で、互いに音声素片のピッチ長の差分の計算を間引きして処理する方法を用いる。例えば音声素片辞書8に2m個の音声素片が登録されていると仮定した場合、登録された音声素片を、ピッチ長順にソートする。ソートされた順にR(1)、R(2)、R(3)…R(2m)とする。ここで、例えばR(2k)(1≦k≦m)と、同じく登録された音声素片R(2)、音声素片R(4)、音声素片R(6)…音声素片R(2m)(但し添え字は偶数)とのピッチ長の差分の絶対値の総和SUM(2k)を求める。偶数番目のグループで、同様な計算を順次R(2)、R(4)、R(6)…R(2m)について行う。次に、同様にR(2k−1)(1≦k≦m)と、同じく登録された音声素片R(1)、音声素片R(3)、音声素片R(5)…音声素片R(2m−1)(但し添え字は奇数)とのピッチ長の差分の絶対値の総和SUM(2k−1)を求める。奇数番目のグループで、同様な計算を順次R(1)、R(3)、R(5)…R(2m−1)について行う。そして当該総和SUMが小さい音声素片からn番目までの音声素片を音声素片候補とする。
このように、音声素片候補の選択において、全ての音声素片間においてピッチ長を各々比較する場合には計算量が2mC2 =m(2m−1)であるのに対して、この実施の形態2の場合は、比較する音声素片の個数を間引きすることにより計算量が2×m C2 =m(m−1)と少なくて済む。また、ピッチ長順にソートすることで間引き処理がこの例で示すような偶数、奇数順といった代数的表現にできるので、計算が簡単になる。
また、ピッチ長でソートした後、ピッチ長順に間引いて計算することにより、ピッチ長の偏りがないグループに分けることができる。すなわち、グループ間でピッチ長について音声素片が均一化する。これにより、2m個の音声素片群から選ばれる音声素片候補と、この実施の形態2の2つのm個の音声素片群から選ばれる音声素片候補との相違は小さいものとなる。
また、ピッチ長でソートした後、ピッチ長順に間引いて計算することにより、ピッチ長の偏りがないグループに分けることができる。すなわち、グループ間でピッチ長について音声素片が均一化する。これにより、2m個の音声素片群から選ばれる音声素片候補と、この実施の形態2の2つのm個の音声素片群から選ばれる音声素片候補との相違は小さいものとなる。
なお、上記例では、ソート順の偶数、奇数順を基準に間引きして計算した。しかし、この発明は、偶数、奇数順に限定されることはなく、音声素片を3個、4個と任意個数間引いて計算される場合にも適応できる。
また、上記例では、テキストの文字列が入力されてから、音声素片辞書8に登録された音声素片をピッチ長順にソートするとして説明した。しかし、この発明は、文字列が入力されてからソートする場合に限定されない。すなわち、予め音声素片がピッチ長順にソートされている音声素片辞書8を使用する場合にも適応できる。また、わざわざピッチ長順にソートしなくても、音声素片辞書8の情報からピッチ長の順がわかることにより、直接ピッチ長に関して偏りのないグループに分類できる場合もあり、したがって、この発明はこの場合にも適応できる。
また、ソートをピッチ長順にする代わりに、継続時間長、音素環境またはピッチパターン順にソートされるようにしてもよいし、ピッチ長、継続時間長および音素環境の組み合わせた値の順でソートされるようにしてもよい。音声素片が音素環境順にソートされる場合とは、例えば図8に示すように、ソート前には、同じ音素をもつ音声素片がその先行音素および後続音素に関係なくランダムに並べられていたのに対して、ソートされることにより、まず先行する音素のアルファベット順に音声素片がソートされ、先行音素が共通する場合には後続音素のアルファベット順に音声素片がソートされることである。また、ピッチ長、継続時間長および音素環境の組み合わせた値の順でソートされる場合とは、例えばピッチ長の割合が3であり、継続時間長の割合が7と重み付けされてソートがなされる場合である。当該重み付けは、音素毎に好適な値に設定することが可能である。
以上のように、この実施の形態2によれば、第1の選択手段が、登録音声素片をピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の順に間引き選択してグループ化し、グループ毎で任意の登録音声素片と各登録音声素片との音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択するようにしている。したがって、比較する登録音声素片の個数を間引く処理を行うことで、その後に行う差分の計算量を少なくできる効果が得られる。
実施の形態3.
この実施の形態3では、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1および実施の形態2とは別の選択処理を行う。
この実施の形態3では、韻律情報として得られる合成音声のための理想のピッチ長または継続時間長を閾値として設定する。この設定された閾値と音声素片辞書8に登録されている音声素片のピッチ長または継続時間長との差分に基づいて、上記音声素片辞書8に登録された音声素片から音声素片候補を選択する。ここで、ピッチ長または継続時間長の差分に基づく好適な例として、サンプリング周波数を22kHzとした場合に、ピッチ長の差分が8サンプル以内の場合や継続時間長の差分が800サンプル以内の場合がある。
この実施の形態3では、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1および実施の形態2とは別の選択処理を行う。
この実施の形態3では、韻律情報として得られる合成音声のための理想のピッチ長または継続時間長を閾値として設定する。この設定された閾値と音声素片辞書8に登録されている音声素片のピッチ長または継続時間長との差分に基づいて、上記音声素片辞書8に登録された音声素片から音声素片候補を選択する。ここで、ピッチ長または継続時間長の差分に基づく好適な例として、サンプリング周波数を22kHzとした場合に、ピッチ長の差分が8サンプル以内の場合や継続時間長の差分が800サンプル以内の場合がある。
このように、第1の選択手段11において、ピッチ長または継続時間長に所定の閾値を設定するため、少ない計算量で音声素片辞書8から音声素片候補を選択することができる。なお、上記所定の閾値は単一の値に限定されることはなく、例えば音素毎に好適となる値をそれぞれ設定してもよい。
また、上記例では、所定の閾値を設定する対象としてピッチ長または継続時間長とすることについて説明した。しかし、この発明はピッチ長または継続時間長に限定されることなく、ピッチ長および継続時間長の組み合わせによって音声素片が選択される場合もある。この組み合わせとは、例えばサンプリング周波数を22kHzとした場合には、ピッチ長の差分が8サンプル以内でかつ継続時間長の差分が800サンプル以内の場合がある。
また、上記例では、登録された全ての音声素片相互のピッチ長の差分を計算するとして説明した。しかし、この発明は登録された全ての音声素片間で計算するとは限らない。例えば、韻律情報から得た音素と同じ音素間相互のピッチ長の差分を計算する場合もある。
また、上記例では、所定の閾値を設定する対象としてピッチ長または継続時間長とすることについて説明した。しかし、この発明はピッチ長または継続時間長に限定されることなく、ピッチ長および継続時間長の組み合わせによって音声素片が選択される場合もある。この組み合わせとは、例えばサンプリング周波数を22kHzとした場合には、ピッチ長の差分が8サンプル以内でかつ継続時間長の差分が800サンプル以内の場合がある。
また、上記例では、登録された全ての音声素片相互のピッチ長の差分を計算するとして説明した。しかし、この発明は登録された全ての音声素片間で計算するとは限らない。例えば、韻律情報から得た音素と同じ音素間相互のピッチ長の差分を計算する場合もある。
以上のように、この実施の形態3によれば、第1の選択手段が、韻律情報として得られる合成音声のための理想のピッチ長および継続時間長の一方または両者の組み合わせの値と各登録音声素片の対応値(ピッチ長および継続時間長の一方または両者の組み合わせの値)との差分の値に基づいて登録音声素片から音声素片候補を選択するようにしている。したがって、ピッチ長および継続時間長の一方または両者の組み合わせの値に所定の閾値を設定するので、少ない計算量で音声素片辞書から音声素片候補を選択できる効果が得られる。
実施の形態4.
この実施の形態4は、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1乃至実施の形態3とは別の選択処理を行う。
この実施の形態4では、音声素片辞書8に登録された任意の音声素片を他の登録された各音声素片の例えばピッチ長に合せて伸縮変形させて生成音声素片とする。次に、音声素片辞書8に登録された各音声素片と上記生成音声素片との音声素片変形歪平均Eを求め、音声素片変形歪平均Eのうち、波形が伸びた場合に生じる歪平均ESと波形が縮んだ場合に生じる歪平均ECとを考慮して音声素片辞書8に登録された音声素片から音声素片候補を選択する。
この実施の形態4は、登録音声素片から音声素片候補を選択する第1の選択手段11が、上記実施の形態1乃至実施の形態3とは別の選択処理を行う。
この実施の形態4では、音声素片辞書8に登録された任意の音声素片を他の登録された各音声素片の例えばピッチ長に合せて伸縮変形させて生成音声素片とする。次に、音声素片辞書8に登録された各音声素片と上記生成音声素片との音声素片変形歪平均Eを求め、音声素片変形歪平均Eのうち、波形が伸びた場合に生じる歪平均ESと波形が縮んだ場合に生じる歪平均ECとを考慮して音声素片辞書8に登録された音声素片から音声素片候補を選択する。
具体的には、任意の音声素片R(k)(1≦k≦m)自身のピッチ長を、音声素片辞書8に登録された音声素片R(1)乃至音声素片R(m)の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形(1ピッチ長波形)を重ね合わせ、波形が重ならない部分に関しては適宜0づめを行う。そうして、ピッチ長が伸縮された生成音声素片K1 (k)乃至Km (k)を生成する。次に、生成音声素片K1 (k)乃至Km (k)と音声素片R(1)乃至R(m)との間の波形歪の平均である音声素片変形歪平均E(k)を求める。ここで、音声素片変形歪平均のうち波形が伸びた場合に生じる歪平均をES(k)と、波形が縮んだ場合に生じる歪平均をEC(k)とする。一方、韻律情報として得られる理想のピッチ長Lに合せるために、任意の音声素片R(k)はピッチ長LR(k)を伸ばすべきか縮めるべきかが判断される。すなわち、L>LR(k)であれば、LR(k)のピッチ長は伸ばすべきと判断され、L<LR(k)であれば、LR(k)のピッチ長は縮めるべきと判断される。ここで、先に計算された音声素片のESが大きな場合であって韻律情報から伸ばすべきと判断された場合、当該音声素片は伸ばす場合には歪が大きくなるために音声素片候補に選択されないようにする。逆にECが大きな場合であって韻律情報から縮めるべきと判断された場合、当該音声素片は縮める場合には歪が大きくなるために音声素片候補に選択されないようにする。当該判断を順次R(1)、R(2)、R(3)…R(m)についてする。
このように、例えばある音声素片の波形が伸びた場合に生じる歪平均ESが大きな場合であって韻律情報から伸ばすべきと判断された場合、当該音声素片は音声素片候補に選択されなくなる。逆に、ある音声素片の波形が伸びた場合に生じる歪平均ECが大きな場合であって韻律情報から縮めるべきと判断された場合、当該音声素片は音声素片候補に選択されなくなる。これにより質の悪い音声素片は音声素片候補として選択されることがなく、質の良い音声合成が可能となる。
また、例えば波形が縮んだ場合に生じる歪平均ECは小さいが波形が伸びた場合に生じるESが大きいため(ESおよびECを考慮していない)音声素片変形歪平均Eが大きい音声素片αがあるとすると、Eを基準に音声素片を選択するならば、音声素片αは選択されない。一方、この実施の形態4では、ESおよびECが考慮されるため、ECが小さい音声素片αが選択されることになる。すなわち、ESおよびECを考慮することにより、音声素片の特徴を生かしてより良い音声素片を選択することができる。
また、例えば波形が縮んだ場合に生じる歪平均ECは小さいが波形が伸びた場合に生じるESが大きいため(ESおよびECを考慮していない)音声素片変形歪平均Eが大きい音声素片αがあるとすると、Eを基準に音声素片を選択するならば、音声素片αは選択されない。一方、この実施の形態4では、ESおよびECが考慮されるため、ECが小さい音声素片αが選択されることになる。すなわち、ESおよびECを考慮することにより、音声素片の特徴を生かしてより良い音声素片を選択することができる。
なお、上記例では、ピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長を用いてもよし、また、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片に合せるように、任意の音声素片を例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて生成音声素片を生成するものである。また、ピッチ長と継続時間長の組み合わせとは、音声素片の変形にあたり、音声素片のピッチ長および継続時間長を変形して生成音声素片を生成するものである。
なお、上記例では、音声素片変形歪平均Eのうち、波形が伸びた場合に生じる歪平均ESと波形が縮んだ場合に生じる歪平均ECとを考慮して登録された音声素片から音声素片候補を選択することについて説明した。代わりの方法として、歪平均ES、ECを用いず、音声素片変形歪平均Eのみを考慮して音声素片候補を選択するようにしてもよい。
また、上記例では、登録された全ての音声素片の音声素片変形歪を計算するとして説明した。しかし、この発明は全ての音声素片の音声素片変形歪を計算するとは限らない。例えば、韻律情報から得た音素と同じ音素の音声素片の音声素片変形歪を計算するようにしてもよい。
また、上記例では、登録された全ての音声素片の音声素片変形歪を計算するとして説明した。しかし、この発明は全ての音声素片の音声素片変形歪を計算するとは限らない。例えば、韻律情報から得た音素と同じ音素の音声素片の音声素片変形歪を計算するようにしてもよい。
また、上記例では、音声素片を選択するたびに任意の音声素片と各音声素片との音声素片変形歪平均EまたはESとECを計算するとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えば、予め作成された任意の音声素片と各音声素片との音声素片変形歪平均EまたはESとECが記述された歪テーブルを利用することにより、音声素片変形歪平均の計算は省略できることになる。
以上のように、この実施の形態4によれば、第1の選択手段は、任意の登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値を各登録音声素片の対応値(ピッチ長および継続時間長の一方または両者の組み合わせの値)に合せて伸縮させることにより生成音声素片を生成し、生成音声素片と各登録音声素片との間に生じる波形歪の平均である音声波形変形歪平均Eを計算し、当該音声波形変形歪平均Eが小さい登録音声素片を音声素片候補として選択するようにしている。また、上記音声波形変形歪平均Eに対する代わりに、生成音声素片と各登録音声素片との間で、波形が伸びた場合の音声波形変形歪平均ESおよび波形が縮んだ場合の音声波形変形歪平均ECをそれぞれ計算し、韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には音声波形変形歪平均ESが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には音声波形変形歪平均ECが小さい登録音声素片を音声素片候補として選択するようにしている。したがって、質の悪い音声素片は音声素片候補として選択されることがなくなる効果が得られる。
また、第1の選択手段が、生成音声素片を生成して音声波形変形歪平均ESおよびECをそれぞれ計算する代わりに、任意の登録音声素片と各登録音声素片との音声素片変形歪平均ESおよびECが予め記述された歪テーブルに基づいて登録音声素片から最適音声素片を選択するようにした場合には、音声素片変形歪平均の計算を省略できる効果が得られる。
また、第1の選択手段が、生成音声素片を生成して音声波形変形歪平均ESおよびECをそれぞれ計算する代わりに、任意の登録音声素片と各登録音声素片との音声素片変形歪平均ESおよびECが予め記述された歪テーブルに基づいて登録音声素片から最適音声素片を選択するようにした場合には、音声素片変形歪平均の計算を省略できる効果が得られる。
実施の形態5.
この実施の形態5は、音声素片候補から最適音声素片を選択する第2の選択手段12が上記実施の形態1とは別の選択処理を行う。この実施の形態5では、任意の合成音声素片と各音声素片候補との音声素片変形歪平均Eのうち、波形が伸びた場合に生じる歪平均ESと波形が縮んだ場合に生じる歪平均ECとを考慮して最適音声素片を選択する。
具体的には、第1の選択手段11で選択された音声素片候補がn個である場合、任意の音声素片候補S(k)(1≦k≦n)自身のピッチ長を、音声素片候補S(1)乃至音声素片候補S(n)の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形(1ピッチ長波形)を重ね合わせ、波形が重ならない部分に関しては適宜0づめを行う。そうしてピッチ長が伸縮された合成音声素片G1 (k)乃至合成音声素片Gn (k)を生成する。ここで、この実施の形態5の場合には、波形が伸びた任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ESと、波形が縮んだ任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ECを求める。
この実施の形態5は、音声素片候補から最適音声素片を選択する第2の選択手段12が上記実施の形態1とは別の選択処理を行う。この実施の形態5では、任意の合成音声素片と各音声素片候補との音声素片変形歪平均Eのうち、波形が伸びた場合に生じる歪平均ESと波形が縮んだ場合に生じる歪平均ECとを考慮して最適音声素片を選択する。
具体的には、第1の選択手段11で選択された音声素片候補がn個である場合、任意の音声素片候補S(k)(1≦k≦n)自身のピッチ長を、音声素片候補S(1)乃至音声素片候補S(n)の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形(1ピッチ長波形)を重ね合わせ、波形が重ならない部分に関しては適宜0づめを行う。そうしてピッチ長が伸縮された合成音声素片G1 (k)乃至合成音声素片Gn (k)を生成する。ここで、この実施の形態5の場合には、波形が伸びた任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ESと、波形が縮んだ任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ECを求める。
次に、図9に示すフローに従った処理を行う。音声素片候補S(k)のピッチ長LS(k)と、韻律情報として得られる理想のピッチ長Lとの比較を行う(ステップST111)。そして、L>LS(k)の場合のS(k)の中から歪平均ESが最も小さいものを選択し(ステップST112)、逆にL<LS(k)の場合のS(k)の中から歪平均ECが最も小さいものを選択する(ステップST113)。この比較をS(1)からS(n)まで順次行い(ステップST114)、そして選択された音声素片変形歪平均ES、ECの小さい方のS(k)を最適音声素片とする(ステップST115)。
ここで、音声素片変形歪平均ESの大きい音声素片の波形が大きく伸びた場合には、0づめ区間が増加することにより波形がパルス状となって合成音の品質が劣化し良質の音声が出力されない。また、音声素片変形歪平均ECの大きい音声素片の波形が大きく縮んだ場合には、波形の重ね合わせの割合が大きくなって波形が大きく変形し異音が生じて良質の音声が出力されない。これに対して、この実施の形態5においては、波形を伸ばすと判断された音声素片候補では、波形を伸ばすのに適した音声素片変形歪平均ESが小さい音声素片候補が最適音声素片として選択され。また、波形を縮めると判断された音声素片候補では、波形を縮めるのに適した音声素片変形歪平均ECが小さい音声素片候補が最適音声素片として選択される。そのため良質の音声を得ることができる。
上記例では、第1の選択手段11を経た音声素片候補について第2の選択手段12を経ることとして説明してきた。しかし、この発明はそれらには限定されない。すなわち、上記第1の選択手段11を経ることなく、上記音声素片辞書8の中に登録されている音声素片を直接第2の選択手段12の処理にかけて最適音声素片を選択するようにしてもよい。
また、上記例では、ピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長の場合でもよいし、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片候補に合せるように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて合成音声素片として生成するものである。ピッチ長と継続時間長の組み合わせとは、音声素片の変形にあたり、音声素片のピッチ長および継続時間長を変形して合成音声素片として生成するものである。
また、上記例では、ピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長の場合でもよいし、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片候補に合せるように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて合成音声素片として生成するものである。ピッチ長と継続時間長の組み合わせとは、音声素片の変形にあたり、音声素片のピッチ長および継続時間長を変形して合成音声素片として生成するものである。
また、上記例では、第2の選択手段12について、最適音声素片を選択する基準として音声波形変形歪を用いて説明した。しかし、この発明は音声波形変形歪を単独で使う場合に限定されない。例えば音声波形変形歪の他、接続歪、スペクトル歪等を考慮した総合歪を基準として最適音声素片を選択するようにしてもよい。
また、上記例では、第2の選択手段12において、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均ESとECを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態5により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪ESとECが予め記述された歪テーブルを利用するようにしてもよい。このことにより、音声素片変形歪の計算を省略できることにもなる。
また、上記例では、第2の選択手段12において、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均ESとECを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態5により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪ESとECが予め記述された歪テーブルを利用するようにしてもよい。このことにより、音声素片変形歪の計算を省略できることにもなる。
以上のように、この実施の形態5によれば、第2の選択手段が、任意の音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように各音声素片候補の対応値(ピッチ長および継続時間長の一方または両者の組み合わせの値)を伸縮させて合成音声素片を生成し、生成された合成音声素片と各音声素片候補との間で、波形が伸びた場合の音声波形変形歪平均ESおよび波形が縮んだ場合の音声波形変形歪平均ECをそれぞれ計算し、韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ESが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ECが小さい登録音声素片を選択し、選択された前記音声波形変形歪平均ESまたはECの小さい音声素片候補を最適音声素片として選択するようにしている。したがって、韻律情報に基づいて任意の登録音声素片の波形の伸縮傾向を判断し、波形を伸ばすときにはそれに適した音声素片変形歪平均ESの小さい音声素片候補を、また、波形を縮めるときにはそれに適した音声素片変形歪平均ECの小さい音声素片候補を最適音声素片として選択するので、良質の合成音声を得る効果が得られる。
また、第2の選択手段が、合成音声素片を生成して音声波形変形歪ESとECを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均ESとECが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択するようにした場合には、音声波形変形歪ESとECを得る計算を省略できる効果が得られる。
また、第2の選択手段が、合成音声素片を生成して音声波形変形歪ESとECを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均ESとECが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択するようにした場合には、音声波形変形歪ESとECを得る計算を省略できる効果が得られる。
実施の形態6.
上記実施の形態1と実施の形態5では、第2の選択手段12で、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均EあるいはESとECを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪EあるいはESとECが予め記述された歪テーブルを利用してもよいことについて述べた。また、実施の形態4でも第1の選択手段11で同様に予め作成された歪テーブルを利用することについて述べてきた。この実施の形態6では、前提として、上記実施の形態1の第2の選択手段12で用いる場合の歪テーブルの作成方法について述べる。
上記実施の形態1と実施の形態5では、第2の選択手段12で、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均EあるいはESとECを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪EあるいはESとECが予め記述された歪テーブルを利用してもよいことについて述べた。また、実施の形態4でも第1の選択手段11で同様に予め作成された歪テーブルを利用することについて述べてきた。この実施の形態6では、前提として、上記実施の形態1の第2の選択手段12で用いる場合の歪テーブルの作成方法について述べる。
図10は音声素片変形歪平均Eを記述した歪みテーブルを示す説明図である。この歪みテーブルは、任意の音声素片候補に対して各音声素片候補との音声素片変形歪平均Eが記述されている。図11は同歪テーブルの作成手順について示すフローチャートである。歪テーブルの作成手順は、音声素片辞書8から所定の基準を満たす複数の音声素片候補を選択するステップST13と、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eを記載した歪テーブルを作成するステップST14からなる。
ステップST13では、音声素片辞書8に登録された複数の音声素片の相互の音声素片のピッチ長の差分を計算する。そして、当該差分に基づいて音声素片候補を選択する。例えば音声素片辞書8にm個の音声素片が登録されたと仮定した場合、登録された任意の音声素片R(k)(1≦k≦m)と登録された音声素片R(1)乃至音声素片R(m)とのピッチ長の差分の絶対値の総和が求められる。その総和をSUM(k)とする。このような計算を、順次R(1)からR(m)について計算する。そして当該SUMが小さい上位n番目までの音声素片を音声素片候補とする。
次に、ステップST14では、ステップST13で選択された音声素片候補間の音声素片変形歪を求める。まず、各音声素片候補の情報に従って任意の音声素片候補を変形し任意の合成音声素片を生成する。次に、任意の合成音声素片と各音声素片候補との音声素片変形歪平均Eが求められる。音声素片変形歪平均Eを求める手法としては、例えば特開平9−510501号公報に述べられている手法を用いてもよい。例えばステップST13で選択された音声素片候補がn個である場合、任意の音声素片候補S(k)(1≦k≦n)自身のピッチ長を、音声素片候補S(1)乃至音声素片候補S(n)の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形(1ピッチ長波形)を重ね合わせ、波形が重ならない部分に関しては適宜0づめを行う。そうして音声素片候補S(1)乃至音声素片候補S(n)の各ピッチ長に合せるようにピッチ長が伸縮された任意の合成音声素片G1 (k)乃至合成音声素片Gn (k)を生成する。
次に、任意の合成音声素片G1 (k)乃至合成音声素片Gn (k)と音声素片候補S(1)乃至音声素片候補S(n)との間の波形の歪である音声素片変形歪平均E(k)を式(2)を用いて求める。式(2)において、Sp(k、j)、Gp(i、j)はそれぞれS(k)のパワー正規化後音声波形のj番目のサンプル点、G(i)、{i=1…n}のパワー正規化後の音声波形サンプル点を表し、またLi はS(i)の全サンプル点の個数を表す。式(2)を順次S(1)、S(2)、S(3)、…、S(n)について適用しE(1)、E(2)、…、E(n)を求める。そして、音声素片変形歪平均Eの情報が記載された図10に示すような歪テーブルを作成する。
このように、上記歪テーブルを作成することにより、音声合成する際に、合成のたびに音声素片変形歪平均Eの計算をすることがなく、少ない計算量で最適音声素片を選択することができる。
なお、上記例ではステップST13を経た音声素片候補についてステップST14を経ることとして説明した。しかし、この発明はそれらには限定されない。すなわち、ステップST13を経ることなく、音声素片辞書8の中に登録されている音声素片に対して直接ステップST14にかけてもよい。
また、音声素片変形歪平均Eとは、上記ESおよびECを含めた概念である。
また、上記歪テーブルには音声素片変形歪平均Eが記載されるとして説明した。しかしこの発明は音声素片変形歪平均Eに限定されることはない。すなわち音声素片変形歪に関する情報、例えばテーブルに記載された標準偏差等の統計的情報を用いるようにしてもよい。
なお、上記例ではステップST13を経た音声素片候補についてステップST14を経ることとして説明した。しかし、この発明はそれらには限定されない。すなわち、ステップST13を経ることなく、音声素片辞書8の中に登録されている音声素片に対して直接ステップST14にかけてもよい。
また、音声素片変形歪平均Eとは、上記ESおよびECを含めた概念である。
また、上記歪テーブルには音声素片変形歪平均Eが記載されるとして説明した。しかしこの発明は音声素片変形歪平均Eに限定されることはない。すなわち音声素片変形歪に関する情報、例えばテーブルに記載された標準偏差等の統計的情報を用いるようにしてもよい。
上記例では、ステップST14についてピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長であってもよく、また、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片候補に合せるように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて任意の合成音声素片を生成するものである。ピッチ長と継続時間長の組み合わせとは、任意の音声素片候補の変形にあたり、当該音声素片候補のピッチ長および継続時間長を変形して合成音声素片を生成するものである。
また、上記例では、既存の音声素片辞書8の他に歪テーブルがあるとして説明した。しかし、この発明は音声素片辞書8と歪テーブルが別個のものとして限定されない。すなわち、音声素片変形歪Eが音声素片辞書8に追加して記載される場合もあるからである。
また、上記例では、既存の音声素片辞書8の他に歪テーブルがあるとして説明した。しかし、この発明は音声素片辞書8と歪テーブルが別個のものとして限定されない。すなわち、音声素片変形歪Eが音声素片辞書8に追加して記載される場合もあるからである。
以上のように、この実施の形態6の方法により生成した歪テーブルを用いることで、第2の選択手段12でその都度行われる音声素片変形歪Eの計算工数を省略できる効果が得られる。
4 言語処理部、5 日本語辞書、7 素片選択部、8 音声素片辞書、9 音声合成部、11 第1の選択手段、12 第2の選択手段。
Claims (11)
- 設定された韻律情報を基に複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段と、選択された音声素片をそれぞれ上記入力文字列の順に従って接続して合成音声を生成する音声合成手段とを備えた音声合成装置であって、
前記素片選択手段は、
前記音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第1の選択手段と、
選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と前記各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第2の選択手段とを有したことを特徴とする音声合成装置。 - 第1の選択手段は、任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項1記載の音声合成装置。
- 第1の選択手段は、
登録音声素片をピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の順に間引き選択してグループ化し、
グループ毎で任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項1記載の音声合成装置。 - 第1の選択手段は、韻律情報として得られる合成音声のための理想のピッチ長および継続時間長の一方または両者の組み合わせの値と各登録音声素片の対応値との差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項1記載の音声合成装置。
- 第1の選択手段は、
任意の登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値を各登録音声素片の対応値に合せて伸縮させることにより生成音声素片を生成し、
上記生成音声素片と各登録音声素片との間に生じる波形歪の平均である音声波形変形歪平均Eを計算し、
当該音声波形変形歪平均Eが小さい登録音声素片を音声素片候補として選択することを特徴とする請求項1記載の音声合成装置。 - 第1の選択手段は、
各登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように任意の登録音声素片の対応値を伸縮させることにより生成音声素片を生成し、
上記生成音声素片と各登録音声素片との間で、波形が伸びた場合の音声波形変形歪平均ESおよび波形が縮んだ場合の音声波形変形歪平均ECをそれぞれ計算し、
韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ESが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ECが小さい登録音声素片を音声素片候補として選択することを特徴とする請求項1記載の音声合成装置。 - 第1の選択手段は、生成音声素片を生成して音声波形変形歪平均ESおよびECをそれぞれ計算する代わりに、任意の登録音声素片と各登録音声素片との音声素片変形歪平均ESおよびECが予め記述された歪テーブルに基づいて登録音声素片から最適音声素片を選択することを特徴とする請求項6記載の音声合成装置。
- 第2の選択手段は、
各音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せて任意の音声素片候補の対応値を伸縮させることにより合成音声素片を生成し、
上記合成音声素片と各音声素片候補との間に生じる波形歪の平均である音声波形変形歪平均Eを計算し、
前記音声波形変形歪平均Eが小さい音声素片候補を最適音声素片として選択することを特徴とする請求項1記載の音声合成装置。 - 第2の選択手段は、合成音声素片を生成して音声波形変形歪Eを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Eが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択することを特徴とする請求項8記載の音声合成装置。
- 第2の選択手段は、
任意の音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せて各音声素片候補の対応値を伸縮させて合成音声素片を生成し、
上記合成音声素片と各音声素片候補との間で、波形が伸びた場合の音声波形変形歪平均ESおよび波形が縮んだ場合の音声波形変形歪平均ECをそれぞれ計算し、
韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ESが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ECが小さい登録音声素片を選択し、
選択された前記音声波形変形歪平均ESまたはECの小さい音声素片候補を最適音声素片として選択することを特徴とする請求項1記載の音声合成装置。 - 第2の選択手段は、合成音声素片を生成して音声波形変形歪ESとECを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均ESとECが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択することを特徴とする請求項10記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004117021A JP2005300919A (ja) | 2004-04-12 | 2004-04-12 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004117021A JP2005300919A (ja) | 2004-04-12 | 2004-04-12 | 音声合成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005300919A true JP2005300919A (ja) | 2005-10-27 |
Family
ID=35332529
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004117021A Pending JP2005300919A (ja) | 2004-04-12 | 2004-04-12 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005300919A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026452A (ja) * | 2006-07-19 | 2008-02-07 | Kddi Corp | 音声合成装置、方法及びプログラム |
WO2008139919A1 (ja) * | 2007-05-08 | 2008-11-20 | Nec Corporation | 音声合成装置、音声合成方法及び音声合成プログラム |
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
-
2004
- 2004-04-12 JP JP2004117021A patent/JP2005300919A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008026452A (ja) * | 2006-07-19 | 2008-02-07 | Kddi Corp | 音声合成装置、方法及びプログラム |
WO2008139919A1 (ja) * | 2007-05-08 | 2008-11-20 | Nec Corporation | 音声合成装置、音声合成方法及び音声合成プログラム |
US8407054B2 (en) | 2007-05-08 | 2013-03-26 | Nec Corporation | Speech synthesis device, speech synthesis method, and speech synthesis program |
WO2010119534A1 (ja) * | 2009-04-15 | 2010-10-21 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
JP5300975B2 (ja) * | 2009-04-15 | 2013-09-25 | 株式会社東芝 | 音声合成装置、方法およびプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
US6684187B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JPH10171484A (ja) | 音声合成方法および装置 | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JP2008033133A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP5320363B2 (ja) | 音声編集方法、装置及び音声合成方法 | |
JP2000509157A (ja) | 音響要素・データベースを有する音声合成装置 | |
US8478595B2 (en) | Fundamental frequency pattern generation apparatus and fundamental frequency pattern generation method | |
JP5930738B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4403996B2 (ja) | 韻律パターン生成装置および韻律パターン生成方法ならびに韻律パターン生成プログラム | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP2005300919A (ja) | 音声合成装置 | |
JP4476855B2 (ja) | 音声合成装置及びその方法 | |
JP3109778B2 (ja) | 音声規則合成装置 | |
JP5393546B2 (ja) | 韻律作成装置及び韻律作成方法 | |
JP4454780B2 (ja) | 音声情報処理装置とその方法と記憶媒体 | |
JP5862667B2 (ja) | 波形処理装置、波形処理方法および波形処理プログラム | |
JP2004354644A (ja) | 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体 | |
JP4414864B2 (ja) | 録音編集・テキスト音声合成併用型音声合成装置、録音編集・テキスト音声合成併用型音声合成プログラム、記録媒体 | |
JP7162579B2 (ja) | 音声合成装置、方法及びプログラム | |
JP2006084854A (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JPH1097268A (ja) | 音声合成装置 | |
JP4869898B2 (ja) | 音声合成装置及び音声合成方法 | |
JP4839058B2 (ja) | 音声合成装置および音声合成プログラム |