JP2005300919A

JP2005300919A - 音声合成装置

Info

Publication number: JP2005300919A
Application number: JP2004117021A
Authority: JP
Inventors: Satoshi Furuta; 訓古田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-04-12
Filing date: 2004-04-12
Publication date: 2005-10-27

Abstract

【課題】音声素片辞書から最適音声素片を選択する素片選択過程において２段階の選択を行うことにより高品質の合成音声を可能にする。
【解決手段】複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段を備え、素片選択手段が、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第１の選択手段と、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第２の選択手段とを有する。
【選択図】図１

Description

この発明は、テキスト音声合成に係り、特にピッチ長、継続時間長などの情報から生成する合成音声の品質向上を図る音声合成装置に関するものである。

任意の文章から人工的に音声信号を作り出すことをテキスト音声合成という。テキスト音声合成は、一般的に言語処理部、音韻処理部（韻律設定）、音声合成部の３つの段階によって行われる。入力されたテキストは、まず言語処理部において形態素解析や構文解析などが行われ、次に音律処理部においてアクセントやイントネーションの処理が行われて、音韻記号、ピッチ長、継続時間長などの情報が出力される。そしてそれらの情報を根拠に、音声素片辞書に登録された音声素片を選択する。最後に、音声合成部で音韻記号、ピッチ長、継続時間長などの情報から音声を合成する。このような音声合成の技術分野において、複数の第１の音声素片のピッチ長に従って、複数の第２の音声素片のピッチ長を変更することにより複数の合成音声素片を生成し、これらの合成音声素片と第１の音声素片との間の距離尺度に基づいて第２の音声素片から代表音声素片を選択する方法がある（例えば、特許文献１参照）。

特開平９−３１９３９１号公報（第５頁〜７頁、第１図）

従来の音声合成装置は、以上のように構成されているが、音声合成に適さないピッチ長の音声素片も、音声素片選択の距離尺度の計算に考慮されることになり、質の悪い音声素片が合成されることになるという問題がある。また、上記ピッチ長の変更は計算量が膨大であるために、全ての音声素片について音声合成するのは、時間に制限がある場合には適さないという問題もある。

この発明は、上記問題点を解決するためになされたもので、音声素片辞書から最適音声素片を選択する素片選択過程において２段階の選択を行うことにより高品質の合成音声を可能にする音声合成装置を得ることを目的とする。

この発明に係る音声合成装置は、設定された韻律情報を基に複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段と、選択された音声素片をそれぞれ上記入力文字列の順に従って接続して合成音声を生成する音声合成手段とを備え、素片選択手段が、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第１の選択手段と、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第２の選択手段とを有したものである。

この発明によれば、素片選択が、ピッチ長、継続時間長、音素環境およびピッチパターン等のパラメータに基づいて登録音声素片から音声素片候補を選択する第１の選択行程と、選択された音声素片候補を所定のパラメータに基づいて変形を加えて合成音声素片を生成し、この合成音声素片と各音声素片候補との差分に基づいて最適音声素片を選択する第２の選択行程を得るようにしたので、音声合成に適さないパラメータを持つ音声素片は第１の選択行程で篩い分けされて音声素片選択の距離尺度の計算には含まれにくくなり、従来に比し高品質の合成音声の生成を可能にする効果がある。

実施の形態１．
図１はこの発明の各実施の形態による音声合成装置を示すブロック図である。図において、入力端子３から入力されたテキストの入力文字列は、言語処理部（言語処理手段）４において形態素解析、構文解析がされ、日本語辞書５を参照して音声素片に分割される。形態素解析ならびに構文解析については、予め処理を行っておいてその解析結果をメモリ等に蓄えておくことで省くことも可能である。これはカーナビゲーションシステム等において決まった文章、例えば市町村名を読み上げる場合に有効である。

次に、分割された音声素片は、韻律設定部（韻律設定手段）６において、アクセントやイントネーションの処理が行われ、音響的特徴のパラメータ、例えば音声素片のピッチパターン、ピッチ長、音素環境、継続時間長または韻律のパラメータ（これら音響的特徴のパラメータを「韻律情報」とする。）が設定される。次に、素片選択部（素片選択手段）７において、後述するように、複数の音声素片を予め備えた音声素片辞書８を参照して、最適音声素片が選択される。次に、音声合成部（音声合成手段）９において、選択された音声素片がそれぞれ入力文字列の順に従って接続され、出力端子１０から出力される。このようにして入力文字列に対応する合成音声が得られる。なお、上記構成で、言語処理部４、韻律設定部６、素片選択部７、音声合成部９および音声合成部９の機能は、ＣＰＵを用いてプログラム実行することで達成できるものである。

ここで、音声素片とは、母音をＶ、子音をＣと表すと、ＣＶ、ＶＣＶ等の音声合成単位で音声信号中から切り出される素片であり、切り出された音声波形またはその波形から何らかの方法で抽出されたパラメータ系列を表している。また、音素環境とは、音声素片にとっての環境となる要因であり、例えば当該音素名、先行する音素、後続する音素、モーラ位置等の要素の組み合わせで表現されるものである。

図２は素片選択部７と音声素片辞書８からなる素片選択過程を示すブロック図である。素片選択部７は第１の選択手段１１と第２の選択手段１２で構成されている。第１の選択手段１１は、所定の基準を満たす音声素片候補を音声素片辞書８から複数選択する手段である。第２の選択手段１２は、音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補から最適音声素片を選択する手段である。

第１の選択手段１１では、音声素片辞書８に登録されている音声素片（登録音声素片）から所定の基準を満たす音声素片候補を選択する。図３は音声素片辞書８のデータ構成を示したものである。この音声素片辞書８には、各音声素片に対して、当該音声素片の音素、ピッチ長、継続時間長、パワー、音素環境、韻律、ピッチパターン等が記されている。第１の選択手段１１では、当該音声素片辞書８に登録された複数の音声素片について、相互の音声素片間のピッチ長の差分が計算される。次に、計算された当該差分に基づいて音声素片候補が選択される。例えば音声素片辞書８にｍ個の音声素片が登録されていたと仮定した場合、登録された任意の音声素片Ｒ（ｋ）（１≦ｋ≦ｍ）と同じく登録された音声素片Ｒ（１）乃至音声素片Ｒ（ｍ）とのピッチ長の差分の絶対値の総和が求められる。その総和をＳＵＭ（ｋ）とする。このような計算を、順次Ｒ（１）からＲ（ｍ）について計算する。次に当該ＳＵＭが小さい上位ｎ番目までの音声素片を音声素片候補とする。

第２の選択手段１２では、第１の選択手段１１で選択された各音声素片候補の情報に従って任意の音声素片候補を変形し、任意の合成音声素片を生成する。次に、任意の合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する。音声素片候補から最適音声素片を選択する手法としては、特開平９−３１０３０１号公報で述べられている手法を用いてもよい。この実施の形態１では図４を用いて説明する。第１の選択手段１１で選択された音声素片候補がｎ個である場合、任意の音声素片候補Ｓ（ｋ）（１≦ｋ≦ｎ）自身のピッチ長を、音声素片候補Ｓ（１）乃至音声素片候補Ｓ（ｎ）の各ピッチ長に合せるように伸縮させる。当該伸縮は、図４に示すように、例えばピッチ周期毎に切り出された音声波形（１ピッチ長波形）を重ね合わせ、波形が重ならない部分に関しては適宜０づめを行う。そうしてピッチ長が伸縮された合成音声素片Ｇ_１（ｋ）乃至Ｇ_ｎ（ｋ）を生成する。次に、生成された合成音声素片Ｇ_１（ｋ）乃至Ｇ_ｎ（ｋ）と音声素片候補Ｓ（１）乃至Ｓ（ｎ）との間の波形の歪である音声素片変形歪平均Ｅ（ｋ）を式（１）を用いて求める。式（１）において、Ｓｐ（ｋ、ｊ）、Ｇｐ（ｉ、ｊ）はそれぞれ音声素片候補Ｓ（ｋ）のパワー正規化後音声波形のｊ番目のサンプル点、Ｇ（ｉ）、｛ｉ＝１…ｎ｝のパワー正規化後の音声波形サンプル点を表し、またＬ_ｉはＳ（ｉ）の全サンプル点の個数を表す。式（１）を順次Ｓ（１）、Ｓ（２）、Ｓ（３）…Ｓ（ｎ）について適用しそれぞれの音声素片変形歪平均Ｅ（１）、Ｅ（２）…Ｅ（ｎ）を求め、そのうち音声素片変形歪平均Ｅ（ｋ）が最も小さい値の音声素片候補Ｓ（ｋ）を最適音声素片として選択する。

以上のように、第１の選択手段１１と第２の選択手段１２と相まって、最適音声素片を選択することができる。すなわち、第２の選択手段１２のみの処理だと、その第２の選択手段１２で計算される音声素片変形歪平均Ｅには、質の悪い音声素片（例えば波形が乱れて半ピッチまたは倍ピッチに誤った音声素片）との間の歪も含まれることになる。これに対し、上記のように第１の選択手段１１の処理を経れば、第２の選択手段１２では、ある程度質の高い音声素片間に限定して歪が計算されるため、より良い音声素片を選択することができる。これにより従来に比べて高品質の合成音声を生成することができる。また、第１の選択手段１１を経ない第２の選択手段１２のみの選択処理だと計算量が膨大となるが、第１の選択手段１１を事前に経ることにより、第２の選択手段１２では、音声素片辞書８に登録されている音声素片の個数に比べて少ない音声素片に対して処理を実行できるため、比較的少ない計算量で行うことができる。

なお、第１の選択手段１１の別の方法として、例えば当業者によく知られたクラスタリング法であるＬＢＧ（Linde Buzo Gray)法を用い、スペクトル波形その他から導出できる音響パラメータの類似度が近いもの同士を集めてもよい。そして、その中の音声素片に対して第２の選択手段１２の選択機能を実行すればよい。

上記例では、第１の選択手段１１をピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長、音素環境、ピッチパターン等であってもよく、さらに、それらの組み合わせによる場合であってもよい。音素環境の場合とは、例えば、濁音のカテゴリに属する音素間（／ｄ／、／ｇ／、／ｂ／等）は差分が小さく、濁音と破裂音（／ｐ／、／ｔ／等）間は差分が大きいと判断される場合である。ピッチパターンの場合は、１つのピッチ長だけで判断するのではなく、複数のピッチ長系列と、韻律設定部が出力する所定のピッチ長系列とをベクトルとみなして、２つのベクトル間の距離または２乗誤差を求め、その距離または２乗誤差が大きいと判断される場合である。継続時間長の場合は、各音声素片候補に合せるため、図５に示すように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて任意の合成音声素片を生成する。ピッチ長と継続時間長の組み合わせの場合は、図６に示すように任意の音声素片候補の変形にあたり、当該音声素片候補のピッチ長および継続時間長を変形して合成音声素片を生成する。また、このピッチ長と継続時間長の組み合わせを行う場合、例えばピッチ長の割合が３であり継続時間長の割合が７となるような重み付けをする方法が用いられ、他の組み合わせにおいても同様な重み付けを行ってもよい。

また、上記例では、第１の選択手段１１は、登録された全ての音声素片相互のピッチ長の差分を計算するとして説明した。しかし、この発明は登録された全ての音声素片間で計算する場合に限られず、例えば韻律情報から得られる音素と同じ音素間相互のピッチ長の差分を計算してもよい。
また、上記例では、第２の選択手段１２について最適音声素片を選択する基準として音声波形変形歪を用いて説明した。しかし、この発明は音声波形変形歪を単独で使う場合だけに限定されない。例えば音声波形変形歪の他、接続歪、スペクトル歪等を考慮した総合歪を基準として最適音声素片を選択してもよい。
また、上記例では、第２の選択手段１２においては、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均Ｅを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態１により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪平均Ｅが予め記述された歪テーブルを利用するようにしてもよい。このことにより、合成音声を生成する際に、音声素片変形歪平均の計算を省略できることになる。

以上のように、この実施の形態１によれば、複数の音声素片を予め備えた音声素片辞書を参照して韻律情報に適した最適音声素片を選択する素片選択手段が、第１の選択手段と第２の選択手段を有し、第１の選択手段により、音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択し、その後第２の選択手段により、選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択するようにしている。また、特に、この実施の形態１では、第１の選択手段が、登録音声素片から音声素片候補を選択するに当たり、任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値を用いている。一方、第２の選択手段は、各音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように任意の音声素片候補の対応値（ピッチ長および継続時間長の一方または両者の組み合わせの値）を伸縮させることにより合成音声素片を生成し、合成音声素片と各音声素片候補間の音声波形変形歪平均Ｅを計算し、音声波形変形歪平均Ｅが小さい音声素片候補を最適音声素片として選択するようにしている。したがって、第１の選択手段で比較的粗い登録音声素片の選択を行い、その後で第２の選択手段である程度質の高くなった音声素片間に限定して歪を計算するため、確度の高い音声素片を選択することができ、従来に比べて高品質の合成音声を生成できる効果が得られる。また、第１の選択手段を事前に経ることにより、第２の選択手段１２では、音声素片辞書に登録されている音声素片の個数に比べて少ない音声素片に対して処理を実行できるため、比較的少ない計算量で行うことができる効果が得られる。
また、第２の選択手段が、合成音声素片を生成して音声波形変形歪Ｅを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Ｅが予め記述された歪テーブルを用いて音声素片候補から最適音声素片を選択するようにした場合には、合成音声素片を生成する際に音声素片変形歪平均の計算を省略できる効果が得られる。

実施の形態２．
この実施の形態２では、登録音声素片から音声素片候補を選択する第１の選択手段１１が、上記実施の形態１とは別の選択処理を行う。図７は実施の形態２に係る第１の選択手段１１の処理方法について示す説明図である。
この実施の形態２では、音声素片辞書８に登録された複数の音声素片間で、互いに音声素片のピッチ長の差分の計算を間引きして処理する方法を用いる。例えば音声素片辞書８に２ｍ個の音声素片が登録されていると仮定した場合、登録された音声素片を、ピッチ長順にソートする。ソートされた順にＲ（１）、Ｒ（２）、Ｒ（３）…Ｒ（２ｍ）とする。ここで、例えばＲ（２ｋ）（１≦ｋ≦ｍ）と、同じく登録された音声素片Ｒ（２）、音声素片Ｒ（４）、音声素片Ｒ（６）…音声素片Ｒ（２ｍ）（但し添え字は偶数）とのピッチ長の差分の絶対値の総和ＳＵＭ（２ｋ）を求める。偶数番目のグループで、同様な計算を順次Ｒ（２）、Ｒ（４）、Ｒ（６）…Ｒ（２ｍ）について行う。次に、同様にＲ（２ｋ−１）（１≦ｋ≦ｍ）と、同じく登録された音声素片Ｒ（１）、音声素片Ｒ（３）、音声素片Ｒ（５）…音声素片Ｒ（２ｍ−１）（但し添え字は奇数）とのピッチ長の差分の絶対値の総和ＳＵＭ（２ｋ−１）を求める。奇数番目のグループで、同様な計算を順次Ｒ（１）、Ｒ（３）、Ｒ（５）…Ｒ（２ｍ−１）について行う。そして当該総和ＳＵＭが小さい音声素片からｎ番目までの音声素片を音声素片候補とする。

このように、音声素片候補の選択において、全ての音声素片間においてピッチ長を各々比較する場合には計算量が_２ｍＣ_２＝ｍ（２ｍ−１）であるのに対して、この実施の形態２の場合は、比較する音声素片の個数を間引きすることにより計算量が２×_ｍＣ_２＝ｍ（ｍ−１）と少なくて済む。また、ピッチ長順にソートすることで間引き処理がこの例で示すような偶数、奇数順といった代数的表現にできるので、計算が簡単になる。
また、ピッチ長でソートした後、ピッチ長順に間引いて計算することにより、ピッチ長の偏りがないグループに分けることができる。すなわち、グループ間でピッチ長について音声素片が均一化する。これにより、２ｍ個の音声素片群から選ばれる音声素片候補と、この実施の形態２の２つのｍ個の音声素片群から選ばれる音声素片候補との相違は小さいものとなる。

なお、上記例では、ソート順の偶数、奇数順を基準に間引きして計算した。しかし、この発明は、偶数、奇数順に限定されることはなく、音声素片を３個、４個と任意個数間引いて計算される場合にも適応できる。

また、上記例では、テキストの文字列が入力されてから、音声素片辞書８に登録された音声素片をピッチ長順にソートするとして説明した。しかし、この発明は、文字列が入力されてからソートする場合に限定されない。すなわち、予め音声素片がピッチ長順にソートされている音声素片辞書８を使用する場合にも適応できる。また、わざわざピッチ長順にソートしなくても、音声素片辞書８の情報からピッチ長の順がわかることにより、直接ピッチ長に関して偏りのないグループに分類できる場合もあり、したがって、この発明はこの場合にも適応できる。

また、ソートをピッチ長順にする代わりに、継続時間長、音素環境またはピッチパターン順にソートされるようにしてもよいし、ピッチ長、継続時間長および音素環境の組み合わせた値の順でソートされるようにしてもよい。音声素片が音素環境順にソートされる場合とは、例えば図８に示すように、ソート前には、同じ音素をもつ音声素片がその先行音素および後続音素に関係なくランダムに並べられていたのに対して、ソートされることにより、まず先行する音素のアルファベット順に音声素片がソートされ、先行音素が共通する場合には後続音素のアルファベット順に音声素片がソートされることである。また、ピッチ長、継続時間長および音素環境の組み合わせた値の順でソートされる場合とは、例えばピッチ長の割合が３であり、継続時間長の割合が７と重み付けされてソートがなされる場合である。当該重み付けは、音素毎に好適な値に設定することが可能である。

以上のように、この実施の形態２によれば、第１の選択手段が、登録音声素片をピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の順に間引き選択してグループ化し、グループ毎で任意の登録音声素片と各登録音声素片との音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択するようにしている。したがって、比較する登録音声素片の個数を間引く処理を行うことで、その後に行う差分の計算量を少なくできる効果が得られる。

実施の形態３．
この実施の形態３では、登録音声素片から音声素片候補を選択する第１の選択手段１１が、上記実施の形態１および実施の形態２とは別の選択処理を行う。
この実施の形態３では、韻律情報として得られる合成音声のための理想のピッチ長または継続時間長を閾値として設定する。この設定された閾値と音声素片辞書８に登録されている音声素片のピッチ長または継続時間長との差分に基づいて、上記音声素片辞書８に登録された音声素片から音声素片候補を選択する。ここで、ピッチ長または継続時間長の差分に基づく好適な例として、サンプリング周波数を２２ｋＨｚとした場合に、ピッチ長の差分が８サンプル以内の場合や継続時間長の差分が８００サンプル以内の場合がある。

このように、第１の選択手段１１において、ピッチ長または継続時間長に所定の閾値を設定するため、少ない計算量で音声素片辞書８から音声素片候補を選択することができる。なお、上記所定の閾値は単一の値に限定されることはなく、例えば音素毎に好適となる値をそれぞれ設定してもよい。
また、上記例では、所定の閾値を設定する対象としてピッチ長または継続時間長とすることについて説明した。しかし、この発明はピッチ長または継続時間長に限定されることなく、ピッチ長および継続時間長の組み合わせによって音声素片が選択される場合もある。この組み合わせとは、例えばサンプリング周波数を２２ｋＨｚとした場合には、ピッチ長の差分が８サンプル以内でかつ継続時間長の差分が８００サンプル以内の場合がある。
また、上記例では、登録された全ての音声素片相互のピッチ長の差分を計算するとして説明した。しかし、この発明は登録された全ての音声素片間で計算するとは限らない。例えば、韻律情報から得た音素と同じ音素間相互のピッチ長の差分を計算する場合もある。

以上のように、この実施の形態３によれば、第１の選択手段が、韻律情報として得られる合成音声のための理想のピッチ長および継続時間長の一方または両者の組み合わせの値と各登録音声素片の対応値（ピッチ長および継続時間長の一方または両者の組み合わせの値）との差分の値に基づいて登録音声素片から音声素片候補を選択するようにしている。したがって、ピッチ長および継続時間長の一方または両者の組み合わせの値に所定の閾値を設定するので、少ない計算量で音声素片辞書から音声素片候補を選択できる効果が得られる。

実施の形態４．
この実施の形態４は、登録音声素片から音声素片候補を選択する第１の選択手段１１が、上記実施の形態１乃至実施の形態３とは別の選択処理を行う。
この実施の形態４では、音声素片辞書８に登録された任意の音声素片を他の登録された各音声素片の例えばピッチ長に合せて伸縮変形させて生成音声素片とする。次に、音声素片辞書８に登録された各音声素片と上記生成音声素片との音声素片変形歪平均Ｅを求め、音声素片変形歪平均Ｅのうち、波形が伸びた場合に生じる歪平均ＥＳと波形が縮んだ場合に生じる歪平均ＥＣとを考慮して音声素片辞書８に登録された音声素片から音声素片候補を選択する。

具体的には、任意の音声素片Ｒ（ｋ）（１≦ｋ≦ｍ）自身のピッチ長を、音声素片辞書８に登録された音声素片Ｒ（１）乃至音声素片Ｒ（ｍ）の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形（１ピッチ長波形）を重ね合わせ、波形が重ならない部分に関しては適宜０づめを行う。そうして、ピッチ長が伸縮された生成音声素片Ｋ_１（ｋ）乃至Ｋ_ｍ（ｋ）を生成する。次に、生成音声素片Ｋ_１（ｋ）乃至Ｋ_ｍ（ｋ）と音声素片Ｒ（１）乃至Ｒ（ｍ）との間の波形歪の平均である音声素片変形歪平均Ｅ（ｋ）を求める。ここで、音声素片変形歪平均のうち波形が伸びた場合に生じる歪平均をＥＳ（ｋ）と、波形が縮んだ場合に生じる歪平均をＥＣ（ｋ）とする。一方、韻律情報として得られる理想のピッチ長Ｌに合せるために、任意の音声素片Ｒ（ｋ）はピッチ長ＬＲ（ｋ）を伸ばすべきか縮めるべきかが判断される。すなわち、Ｌ＞ＬＲ（ｋ）であれば、ＬＲ（ｋ）のピッチ長は伸ばすべきと判断され、Ｌ＜ＬＲ（ｋ）であれば、ＬＲ（ｋ）のピッチ長は縮めるべきと判断される。ここで、先に計算された音声素片のＥＳが大きな場合であって韻律情報から伸ばすべきと判断された場合、当該音声素片は伸ばす場合には歪が大きくなるために音声素片候補に選択されないようにする。逆にＥＣが大きな場合であって韻律情報から縮めるべきと判断された場合、当該音声素片は縮める場合には歪が大きくなるために音声素片候補に選択されないようにする。当該判断を順次Ｒ（１）、Ｒ（２）、Ｒ（３）…Ｒ（ｍ）についてする。

このように、例えばある音声素片の波形が伸びた場合に生じる歪平均ＥＳが大きな場合であって韻律情報から伸ばすべきと判断された場合、当該音声素片は音声素片候補に選択されなくなる。逆に、ある音声素片の波形が伸びた場合に生じる歪平均ＥＣが大きな場合であって韻律情報から縮めるべきと判断された場合、当該音声素片は音声素片候補に選択されなくなる。これにより質の悪い音声素片は音声素片候補として選択されることがなく、質の良い音声合成が可能となる。
また、例えば波形が縮んだ場合に生じる歪平均ＥＣは小さいが波形が伸びた場合に生じるＥＳが大きいため（ＥＳおよびＥＣを考慮していない）音声素片変形歪平均Ｅが大きい音声素片αがあるとすると、Ｅを基準に音声素片を選択するならば、音声素片αは選択されない。一方、この実施の形態４では、ＥＳおよびＥＣが考慮されるため、ＥＣが小さい音声素片αが選択されることになる。すなわち、ＥＳおよびＥＣを考慮することにより、音声素片の特徴を生かしてより良い音声素片を選択することができる。

なお、上記例では、ピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長を用いてもよし、また、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片に合せるように、任意の音声素片を例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて生成音声素片を生成するものである。また、ピッチ長と継続時間長の組み合わせとは、音声素片の変形にあたり、音声素片のピッチ長および継続時間長を変形して生成音声素片を生成するものである。

なお、上記例では、音声素片変形歪平均Ｅのうち、波形が伸びた場合に生じる歪平均ＥＳと波形が縮んだ場合に生じる歪平均ＥＣとを考慮して登録された音声素片から音声素片候補を選択することについて説明した。代わりの方法として、歪平均ＥＳ、ＥＣを用いず、音声素片変形歪平均Ｅのみを考慮して音声素片候補を選択するようにしてもよい。
また、上記例では、登録された全ての音声素片の音声素片変形歪を計算するとして説明した。しかし、この発明は全ての音声素片の音声素片変形歪を計算するとは限らない。例えば、韻律情報から得た音素と同じ音素の音声素片の音声素片変形歪を計算するようにしてもよい。

また、上記例では、音声素片を選択するたびに任意の音声素片と各音声素片との音声素片変形歪平均ＥまたはＥＳとＥＣを計算するとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えば、予め作成された任意の音声素片と各音声素片との音声素片変形歪平均ＥまたはＥＳとＥＣが記述された歪テーブルを利用することにより、音声素片変形歪平均の計算は省略できることになる。

以上のように、この実施の形態４によれば、第１の選択手段は、任意の登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値を各登録音声素片の対応値（ピッチ長および継続時間長の一方または両者の組み合わせの値）に合せて伸縮させることにより生成音声素片を生成し、生成音声素片と各登録音声素片との間に生じる波形歪の平均である音声波形変形歪平均Ｅを計算し、当該音声波形変形歪平均Ｅが小さい登録音声素片を音声素片候補として選択するようにしている。また、上記音声波形変形歪平均Ｅに対する代わりに、生成音声素片と各登録音声素片との間で、波形が伸びた場合の音声波形変形歪平均ＥＳおよび波形が縮んだ場合の音声波形変形歪平均ＥＣをそれぞれ計算し、韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には音声波形変形歪平均ＥＳが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には音声波形変形歪平均ＥＣが小さい登録音声素片を音声素片候補として選択するようにしている。したがって、質の悪い音声素片は音声素片候補として選択されることがなくなる効果が得られる。
また、第１の選択手段が、生成音声素片を生成して音声波形変形歪平均ＥＳおよびＥＣをそれぞれ計算する代わりに、任意の登録音声素片と各登録音声素片との音声素片変形歪平均ＥＳおよびＥＣが予め記述された歪テーブルに基づいて登録音声素片から最適音声素片を選択するようにした場合には、音声素片変形歪平均の計算を省略できる効果が得られる。

実施の形態５．
この実施の形態５は、音声素片候補から最適音声素片を選択する第２の選択手段１２が上記実施の形態１とは別の選択処理を行う。この実施の形態５では、任意の合成音声素片と各音声素片候補との音声素片変形歪平均Ｅのうち、波形が伸びた場合に生じる歪平均ＥＳと波形が縮んだ場合に生じる歪平均ＥＣとを考慮して最適音声素片を選択する。
具体的には、第１の選択手段１１で選択された音声素片候補がｎ個である場合、任意の音声素片候補Ｓ（ｋ）（１≦ｋ≦ｎ）自身のピッチ長を、音声素片候補Ｓ（１）乃至音声素片候補Ｓ（ｎ）の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形（１ピッチ長波形）を重ね合わせ、波形が重ならない部分に関しては適宜０づめを行う。そうしてピッチ長が伸縮された合成音声素片Ｇ_１（ｋ）乃至合成音声素片Ｇ_ｎ（ｋ）を生成する。ここで、この実施の形態５の場合には、波形が伸びた任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ＥＳと、波形が縮んだ任意の合成音声素片と各音声素片候補との間に生じる音声素片変形歪平均ＥＣを求める。

次に、図９に示すフローに従った処理を行う。音声素片候補Ｓ（ｋ）のピッチ長ＬＳ（ｋ）と、韻律情報として得られる理想のピッチ長Ｌとの比較を行う（ステップＳＴ１１１）。そして、Ｌ＞ＬＳ（ｋ）の場合のＳ（ｋ）の中から歪平均ＥＳが最も小さいものを選択し（ステップＳＴ１１２）、逆にＬ＜ＬＳ（ｋ）の場合のＳ（ｋ）の中から歪平均ＥＣが最も小さいものを選択する（ステップＳＴ１１３）。この比較をＳ（１）からＳ（ｎ）まで順次行い（ステップＳＴ１１４）、そして選択された音声素片変形歪平均ＥＳ、ＥＣの小さい方のＳ（ｋ）を最適音声素片とする（ステップＳＴ１１５）。

ここで、音声素片変形歪平均ＥＳの大きい音声素片の波形が大きく伸びた場合には、０づめ区間が増加することにより波形がパルス状となって合成音の品質が劣化し良質の音声が出力されない。また、音声素片変形歪平均ＥＣの大きい音声素片の波形が大きく縮んだ場合には、波形の重ね合わせの割合が大きくなって波形が大きく変形し異音が生じて良質の音声が出力されない。これに対して、この実施の形態５においては、波形を伸ばすと判断された音声素片候補では、波形を伸ばすのに適した音声素片変形歪平均ＥＳが小さい音声素片候補が最適音声素片として選択され。また、波形を縮めると判断された音声素片候補では、波形を縮めるのに適した音声素片変形歪平均ＥＣが小さい音声素片候補が最適音声素片として選択される。そのため良質の音声を得ることができる。

上記例では、第１の選択手段１１を経た音声素片候補について第２の選択手段１２を経ることとして説明してきた。しかし、この発明はそれらには限定されない。すなわち、上記第１の選択手段１１を経ることなく、上記音声素片辞書８の中に登録されている音声素片を直接第２の選択手段１２の処理にかけて最適音声素片を選択するようにしてもよい。
また、上記例では、ピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長の場合でもよいし、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片候補に合せるように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて合成音声素片として生成するものである。ピッチ長と継続時間長の組み合わせとは、音声素片の変形にあたり、音声素片のピッチ長および継続時間長を変形して合成音声素片として生成するものである。

また、上記例では、第２の選択手段１２について、最適音声素片を選択する基準として音声波形変形歪を用いて説明した。しかし、この発明は音声波形変形歪を単独で使う場合に限定されない。例えば音声波形変形歪の他、接続歪、スペクトル歪等を考慮した総合歪を基準として最適音声素片を選択するようにしてもよい。
また、上記例では、第２の選択手段１２において、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均ＥＳとＥＣを計算するものとして説明した。しかし、この発明は音声素片選択のたびに音声素片変形歪平均を計算する場合に限定されない。例えばこの実施の形態５により生成された任意の音声素片候補と各音声素片候補との音声素片変形歪ＥＳとＥＣが予め記述された歪テーブルを利用するようにしてもよい。このことにより、音声素片変形歪の計算を省略できることにもなる。

以上のように、この実施の形態５によれば、第２の選択手段が、任意の音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように各音声素片候補の対応値（ピッチ長および継続時間長の一方または両者の組み合わせの値）を伸縮させて合成音声素片を生成し、生成された合成音声素片と各音声素片候補との間で、波形が伸びた場合の音声波形変形歪平均ＥＳおよび波形が縮んだ場合の音声波形変形歪平均ＥＣをそれぞれ計算し、韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ＥＳが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ＥＣが小さい登録音声素片を選択し、選択された前記音声波形変形歪平均ＥＳまたはＥＣの小さい音声素片候補を最適音声素片として選択するようにしている。したがって、韻律情報に基づいて任意の登録音声素片の波形の伸縮傾向を判断し、波形を伸ばすときにはそれに適した音声素片変形歪平均ＥＳの小さい音声素片候補を、また、波形を縮めるときにはそれに適した音声素片変形歪平均ＥＣの小さい音声素片候補を最適音声素片として選択するので、良質の合成音声を得る効果が得られる。
また、第２の選択手段が、合成音声素片を生成して音声波形変形歪ＥＳとＥＣを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均ＥＳとＥＣが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択するようにした場合には、音声波形変形歪ＥＳとＥＣを得る計算を省略できる効果が得られる。

実施の形態６．
上記実施の形態１と実施の形態５では、第２の選択手段１２で、音声素片を選択するたびに任意の音声素片候補と各音声素片候補との音声素片変形歪平均ＥあるいはＥＳとＥＣを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪ＥあるいはＥＳとＥＣが予め記述された歪テーブルを利用してもよいことについて述べた。また、実施の形態４でも第１の選択手段１１で同様に予め作成された歪テーブルを利用することについて述べてきた。この実施の形態６では、前提として、上記実施の形態1の第２の選択手段１２で用いる場合の歪テーブルの作成方法について述べる。

図１０は音声素片変形歪平均Ｅを記述した歪みテーブルを示す説明図である。この歪みテーブルは、任意の音声素片候補に対して各音声素片候補との音声素片変形歪平均Ｅが記述されている。図１１は同歪テーブルの作成手順について示すフローチャートである。歪テーブルの作成手順は、音声素片辞書８から所定の基準を満たす複数の音声素片候補を選択するステップＳＴ１３と、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Ｅを記載した歪テーブルを作成するステップＳＴ１４からなる。

ステップＳＴ１３では、音声素片辞書８に登録された複数の音声素片の相互の音声素片のピッチ長の差分を計算する。そして、当該差分に基づいて音声素片候補を選択する。例えば音声素片辞書８にｍ個の音声素片が登録されたと仮定した場合、登録された任意の音声素片Ｒ（ｋ）（１≦ｋ≦ｍ）と登録された音声素片Ｒ（１）乃至音声素片Ｒ（ｍ）とのピッチ長の差分の絶対値の総和が求められる。その総和をＳＵＭ（ｋ）とする。このような計算を、順次Ｒ（１）からＲ（ｍ）について計算する。そして当該ＳＵＭが小さい上位ｎ番目までの音声素片を音声素片候補とする。

次に、ステップＳＴ１４では、ステップＳＴ１３で選択された音声素片候補間の音声素片変形歪を求める。まず、各音声素片候補の情報に従って任意の音声素片候補を変形し任意の合成音声素片を生成する。次に、任意の合成音声素片と各音声素片候補との音声素片変形歪平均Ｅが求められる。音声素片変形歪平均Ｅを求める手法としては、例えば特開平９−５１０５０１号公報に述べられている手法を用いてもよい。例えばステップＳＴ１３で選択された音声素片候補がｎ個である場合、任意の音声素片候補Ｓ（ｋ）（１≦ｋ≦ｎ）自身のピッチ長を、音声素片候補Ｓ（１）乃至音声素片候補Ｓ（ｎ）の各ピッチ長に合せるように伸縮させる。当該伸縮は、例えばピッチ周期毎に切り出された音声波形（１ピッチ長波形）を重ね合わせ、波形が重ならない部分に関しては適宜０づめを行う。そうして音声素片候補Ｓ（１）乃至音声素片候補Ｓ（ｎ）の各ピッチ長に合せるようにピッチ長が伸縮された任意の合成音声素片Ｇ_１（ｋ）乃至合成音声素片Ｇ_ｎ（ｋ）を生成する。

次に、任意の合成音声素片Ｇ_１（ｋ）乃至合成音声素片Ｇ_ｎ（ｋ）と音声素片候補Ｓ（１）乃至音声素片候補Ｓ（ｎ）との間の波形の歪である音声素片変形歪平均Ｅ（ｋ）を式（２）を用いて求める。式（２）において、Ｓｐ（ｋ、ｊ）、Ｇｐ（ｉ、ｊ）はそれぞれＳ（ｋ）のパワー正規化後音声波形のｊ番目のサンプル点、Ｇ（ｉ）、｛ｉ＝１…ｎ｝のパワー正規化後の音声波形サンプル点を表し、またＬ_ｉはＳ（ｉ）の全サンプル点の個数を表す。式（２）を順次Ｓ（１）、Ｓ（２）、Ｓ（３）、…、Ｓ（ｎ）について適用しＥ（１）、Ｅ（２）、…、Ｅ（ｎ）を求める。そして、音声素片変形歪平均Ｅの情報が記載された図１０に示すような歪テーブルを作成する。

このように、上記歪テーブルを作成することにより、音声合成する際に、合成のたびに音声素片変形歪平均Ｅの計算をすることがなく、少ない計算量で最適音声素片を選択することができる。
なお、上記例ではステップＳＴ１３を経た音声素片候補についてステップＳＴ１４を経ることとして説明した。しかし、この発明はそれらには限定されない。すなわち、ステップＳＴ１３を経ることなく、音声素片辞書８の中に登録されている音声素片に対して直接ステップＳＴ１４にかけてもよい。
また、音声素片変形歪平均Ｅとは、上記ＥＳおよびＥＣを含めた概念である。
また、上記歪テーブルには音声素片変形歪平均Ｅが記載されるとして説明した。しかしこの発明は音声素片変形歪平均Ｅに限定されることはない。すなわち音声素片変形歪に関する情報、例えばテーブルに記載された標準偏差等の統計的情報を用いるようにしてもよい。

上記例では、ステップＳＴ１４についてピッチ長の場合について説明した。しかし、この発明はピッチ長に限定されず、継続時間長であってもよく、また、ピッチ長と継続時間長の組み合わせによる場合でもよい。継続時間長の場合とは、各音声素片候補に合せるように、任意の音声素片候補から例えばピッチ周期毎に切り出された音声波形を、適宜、線形補間または間引いて任意の合成音声素片を生成するものである。ピッチ長と継続時間長の組み合わせとは、任意の音声素片候補の変形にあたり、当該音声素片候補のピッチ長および継続時間長を変形して合成音声素片を生成するものである。
また、上記例では、既存の音声素片辞書８の他に歪テーブルがあるとして説明した。しかし、この発明は音声素片辞書８と歪テーブルが別個のものとして限定されない。すなわち、音声素片変形歪Ｅが音声素片辞書８に追加して記載される場合もあるからである。

以上のように、この実施の形態６の方法により生成した歪テーブルを用いることで、第２の選択手段１２でその都度行われる音声素片変形歪Ｅの計算工数を省略できる効果が得られる。

この発明の各実施の形態による音声合成装置を示すブロック図である。この発明の各実施の形態に係る素片選択部における素片選択過程を示すブロック図である。この発明の実施の形態１乃至実施の形態５に係る音声素片辞書のデータ構成を示す説明図である。この発明の実施の形態１に係る最適音声素片を選択する方法を示す説明図である。この発明の実施の形態１に係る最適音声素片の選択に継続時間長を使用する方法を示す説明図である。この発明の実施の形態１に係る最適音声素片の選択にピッチ長と継続時間長の組み合わせを使用する方法を示す説明図である。この発明の実施の形態２に係る登録音声素片から音声素片候補を選択する方法について示す説明図である。この発明の実施の形態２に係る音声素片を音素環境順にソートする方法について示す説明図である。この発明の実施の形態５に係る音声素片候補から最適音声素片を選択する処理を示すフローチャートである。この発明の実施の形態６に係る音声素片変形歪平均Ｅを記述した歪テーブルを示す説明図である。この発明の実施の形態６に係る歪テーブルの作成手順について示すフローチャートである。

符号の説明

４言語処理部、５日本語辞書、７素片選択部、８音声素片辞書、９音声合成部、１１第１の選択手段、１２第２の選択手段。

Claims

設定された韻律情報を基に複数の音声素片を予め備えた音声素片辞書を参照して当該韻律情報に適した最適音声素片を選択する素片選択手段と、選択された音声素片をそれぞれ上記入力文字列の順に従って接続して合成音声を生成する音声合成手段とを備えた音声合成装置であって、
前記素片選択手段は、
前記音声素片辞書に登録されている登録音声素片から所定の基準を満たす音声素片候補を選択する第１の選択手段と、
選択された各音声素片候補の情報に従って任意の音声素片候補を変形して合成音声素片を生成し、当該合成音声素片と前記各音声素片候補との間の差分に基づいて音声素片候補の中から最適音声素片を選択する第２の選択手段とを有したことを特徴とする音声合成装置。
第１の選択手段は、任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項１記載の音声合成装置。
第１の選択手段は、
登録音声素片をピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の順に間引き選択してグループ化し、
グループ毎で任意の登録音声素片と各登録音声素片とのピッチ長、継続時間長、音素環境およびピッチパターンのうちいずれか一つまたはこれらの少なくとも二つを組み合わせた値の差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項１記載の音声合成装置。
第１の選択手段は、韻律情報として得られる合成音声のための理想のピッチ長および継続時間長の一方または両者の組み合わせの値と各登録音声素片の対応値との差分の値に基づいて登録音声素片から音声素片候補を選択することを特徴とする請求項１記載の音声合成装置。
第１の選択手段は、
任意の登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値を各登録音声素片の対応値に合せて伸縮させることにより生成音声素片を生成し、
上記生成音声素片と各登録音声素片との間に生じる波形歪の平均である音声波形変形歪平均Ｅを計算し、
当該音声波形変形歪平均Ｅが小さい登録音声素片を音声素片候補として選択することを特徴とする請求項１記載の音声合成装置。
第１の選択手段は、
各登録音声素片のピッチ長および継続時間長の一方または両者の組み合わせの値に合せるように任意の登録音声素片の対応値を伸縮させることにより生成音声素片を生成し、
上記生成音声素片と各登録音声素片との間で、波形が伸びた場合の音声波形変形歪平均ＥＳおよび波形が縮んだ場合の音声波形変形歪平均ＥＣをそれぞれ計算し、
韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ＥＳが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ＥＣが小さい登録音声素片を音声素片候補として選択することを特徴とする請求項１記載の音声合成装置。
第１の選択手段は、生成音声素片を生成して音声波形変形歪平均ＥＳおよびＥＣをそれぞれ計算する代わりに、任意の登録音声素片と各登録音声素片との音声素片変形歪平均ＥＳおよびＥＣが予め記述された歪テーブルに基づいて登録音声素片から最適音声素片を選択することを特徴とする請求項６記載の音声合成装置。
第２の選択手段は、
各音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せて任意の音声素片候補の対応値を伸縮させることにより合成音声素片を生成し、
上記合成音声素片と各音声素片候補との間に生じる波形歪の平均である音声波形変形歪平均Ｅを計算し、
前記音声波形変形歪平均Ｅが小さい音声素片候補を最適音声素片として選択することを特徴とする請求項１記載の音声合成装置。
第２の選択手段は、合成音声素片を生成して音声波形変形歪Ｅを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均Ｅが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択することを特徴とする請求項８記載の音声合成装置。
第２の選択手段は、
任意の音声素片候補のピッチ長および継続時間長の一方または両者の組み合わせの値に合せて各音声素片候補の対応値を伸縮させて合成音声素片を生成し、
上記合成音声素片と各音声素片候補との間で、波形が伸びた場合の音声波形変形歪平均ＥＳおよび波形が縮んだ場合の音声波形変形歪平均ＥＣをそれぞれ計算し、
韻律情報に基づいて任意の登録音声素片の波形を伸ばすべきと判断された場合には前記音声波形変形歪平均ＥＳが小さい登録音声素片を選択し、一方、波形を縮めるべきと判断された場合には前記音声波形変形歪平均ＥＣが小さい登録音声素片を選択し、
選択された前記音声波形変形歪平均ＥＳまたはＥＣの小さい音声素片候補を最適音声素片として選択することを特徴とする請求項１記載の音声合成装置。
第２の選択手段は、合成音声素片を生成して音声波形変形歪ＥＳとＥＣを計算する代わりに、任意の音声素片候補と各音声素片候補との音声素片変形歪平均ＥＳとＥＣが予め記述された歪テーブルに基づいて音声素片候補から最適音声素片を選択することを特徴とする請求項１０記載の音声合成装置。