JP2012088555A

JP2012088555A - 音声合成システム、音声素片辞書作成方法、音声素片辞書作成プログラム、及び、音声素片辞書作成プログラム記録媒体

Info

Publication number: JP2012088555A
Application number: JP2010235568A
Authority: JP
Inventors: Tadashi Yamaura; 正山浦; Hirohisa Tazaki; 裕久田崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-10-20
Filing date: 2010-10-20
Publication date: 2012-05-10
Anticipated expiration: 2030-10-20
Also published as: JP5747471B2

Abstract

【課題】良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得る。
【解決手段】本発明にかかる音声合成システムは、音声素片が格納されている音声データベースと、学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択手段と、前記第１の音声素片選択手段により選択された音声素片の選択度数を計測する第１の選択度数計測手段と、前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えるものである。
【選択図】図２

Description

この発明は、任意の文章から人工的に音声信号を生成する音声合成システムに関するものであり、特に音声合成に使用される音声素片辞書の作成方法に係るものである。

任意の文章から人工的に音声信号を作り出す音声合成システムでは、入力テキストに対して言語解析処理及び韻律生成処理を実施することにより音韻記号及び韻律情報（例えば、ピッチ、音韻継続時間長、パワー等）を得て、その音韻記号及び韻律情報に対応する音声素片を音声素片辞書から選択的に読み出し、読み出した音声素片のピッチや音韻継続時間長を韻律情報に従って制御して順次接続することにより、テキストに対応した音声を合成するようにしている。

従来の音声合成システムにおける音声素片辞書では、音声データベースの音声素片情報に対してクラスタリングを行い、最適な音声素片情報を抽出して音声素片辞書に登録する方法が提案されている（例えば、特許文献１を参照）。

しかし、音声データベースに含まれる文章と音声合成器に入力する文章の音声素片の出現頻度が異なれば、音声合成器が生成する韻律情報の分布と音声データベースの音声素片の韻律情報の分布が異なることから、音声素片辞書には音声合成のために全く使用されない音声素片情報が多く含まれたままとなる。これにより、音声合成システムにおける音声素片辞書の音声素片の格納サイズが大きくなる。

そこで、大量の学習用テキスト情報（文章）を予め用意し、それを音声データベースの全ての音声素片を用いた音声合成器で予め合成し、その結果から音声データベースの各音声素片が使用された回数（頻度情報）を求め、その分布に基づいてパラメータ空間上の音声素片間の距離を計算し、クラスタリング処理を行うことにより、頻繁に使用される音声に対して多くの音声素片を割り当てるようにした音声素片辞書を作成する方法が提案されている。（例えば、特許文献２を参照）。

特開平８−２６３５２０号公報特開平１１−８５１９３号公報

しかしながら、特許文献２に記載の上記従来の技術によれば、音声素片辞書の音声素片の分布は学習用テキスト情報に大きく依存する。例えば、地名単語など限定的な範囲の音声合成に適用する音声素片辞書を作成する場合にはその合成範囲をカバーする学習用テキスト情報を用意すれば可能となるが、ｗｅｂページの読み上げなど任意の文章の音声合成に適用する音声素片辞書を作成する場合には、その合成範囲をカバーするために大量の学習用テキスト情報が必要となり、十分な学習用テキスト情報を予め用意することは困難である。

また、不十分な学習用テキスト情報に基づくクラスタリングにより作成された音声素片辞書は、使用頻度によって登録される音声素片の分布（ピッチ、継続時間長等のバリエーション）に偏りが発生する。このため、この音声素片辞書を用いる音声合成システムでは、学習用テキスト情報で使用頻度が高い範囲に含まれる音声素片によって合成された音声の品質は比較的良好であるが、その範囲を外れると合成音声の品質は大きく劣化するなど、学習内／外で合成音声の品質差が大きいという課題があった。

例えば、図１２に従来の音声合成システムの音声素片辞書に登録される音声素片の分布例を示す。図示するように、音声データベース内の音声素片の中から、学習用テキスト情報に対して使用頻度大の音声素片としてピッチが低いものが多く選択されている。この場合、クラスタリングにより得られるセントロイド素片（音声素片辞書に登録される音声素片）もピッチが低いものとなる。したがって、これらの音声素片が登録された音声素片辞書を使用してピッチの高い合成音声を作成する場合、音声素片のピッチを大きく変形する必要があるので、品質劣化が大きくなる。

この発明は、上記の課題を解決するためになされたもので、音声データベース内の音声素片の韻律情報等のパラメータ分布をカテゴリーに分割し、学習用の韻律情報に対する音声素片の使用頻度に応じて各カテゴリーから所定の個数の音声素片を選択し、選択した音声素片から音声素片辞書に登録する代表素片を生成することにより、音声素片の使用頻度を考慮しつつも、音声素片辞書に登録する音声素片のバリエーションを広げることができ、良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得ることを目的にする。

本発明にかかる音声合成システムは、音声素片が格納されている音声データベースと、学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択手段と、前記第１の音声素片選択手段により選択された音声素片の選択度数を計測する第１の選択度数計測手段と、前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えるものである。

本発明によれば、良好な品質の合成音声を生成できる音声合成システム及び音声素片辞書作成方法を得ることができる。

この発明の実施の形態１にかかる音声合成システムの構成例を示すブロック図である。この発明の実施の形態１にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。この発明の実施の形態１にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。この発明の実施の形態１にかかる音声素片辞書に登録される音声素片の分布例を示す図である。ある音素に対して選択された音声素片の選択度数の分布例を示す図である。この発明の実施の形態２にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。この発明の実施の形態２にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。この発明の実施の形態３にかかる音声合成システムの構成例を示すブロック図である。この発明の実施の形態４にかかる音声合成システムの構成例を示すブロック図である。この発明の実施の形態５にかかる音声合成システムの構成例を示すブロック図である。この発明の実施の形態５にかかる音声素片辞書作成ユニットの構成例を示すブロック図である。従来の音声合成システムの音声素片辞書に登録される音声素片の分布例を示す図である。

実施の形態１．
以下に、本実施の形態を図面に基づいて詳細に説明する。なお、以下に説明する実施の形態は、それぞれが本発明を具体化する際の一形態であって、本発明をその範囲内に限定するためのものではない。

図１は、本発明の実施の形態１にかかる音声合成システムの構成例を示すブロック図である。

図１における音声合成システムは、音声素片辞書作成ユニット１００が学習用テキスト情報に応じて適切な音声素片を作成し、音声素片辞書２０３に音声素片を格納する。音声合成ユニット２００は、音声素片辞書２０３を用いてテキスト情報から合成音声を生成するものである。

次に、図１における音声合成ユニット２００の構成を説明する。音声合成ユニット２００には、音声合成をするテキスト情報が順次入力される。

言語情報解析部２０１は、入力されたテキスト情報に対して言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部２０２へ出力する。韻律情報生成部２０２は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成し、音声素片選択部２０４及び音声素片接続部２０５へ出力する。

音声素片選択部２０４は、韻律情報生成部２０２で得られた音韻記号及び韻律情報に基づき、指定された音韻記号の韻律情報に近い韻律情報を持ち、かつ、前後に選択される音声素片との接続性が良い音声素片を音声素片辞書２０３から選択する。例えば、韻律情報生成部２０２から入力された韻律情報と音声素片辞書２０３内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、それらの総和が最小になる音声素片の組み合わせ（連鎖）を選択する。なお、歪は比較する韻律情報の違いと、前後で選択される音声素片との接続性といった音韻環境の違いなどを数値化したものであり、これらの歪の重み付け和として定義されるコスト関数を最小にする音声素片の組み合わせを選択する。

音声素片選択部２０４によって選択された音声素片は音声素片接続部２０５へ出力される。音声素片接続部２０５は、韻律情報生成部２０２から入力される韻律情報に従って、音声素片選択部２０４で選択された音声素片を変形して接続し、合成音声を生成する。

次に、図２を用いて音声素片辞書作成ユニット１００の構成について説明する。図２は、本実施の形態にかかる音声素片辞書作成ユニット１００の構成例を示すブロック図である。

図２において、言語情報解析部１０１は、学習用テキスト情報から読み、アクセントなどの言語情報を得る言語解析処理を実施する。なお、この言語解析処理は、音声合成ユニット２００における言語情報解析部２０１と同一の処理である。韻律情報生成部１０２は、言語情報解析部１０１で得られた読み、アクセントなどの言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成する。この韻律情報生成処理は、音声合成ユニット２００における韻律情報生成部２０２と同一の処理である。

音声データベース１０３には、予め人間が発声した単音、単語、単文、文章などの音声から作成した音声素片の情報、例えば、音声波形とその音韻記号及び韻律情報とが格納されている。なお、音声素片の単位は、半音素、音素、音節など任意の単位でよい。また、前記音声波形の情報は、音声の時間波形をそのまま格納してもよいし、音声生成モデルに基づく生成パラメータに変換して格納してもよいし、また、音声符号化技術により圧縮符号化した符号を格納するなど、任意の形態をとってよい。

音声素片選択部１０４は、韻律情報生成部１０２で得られた音韻記号及び韻律情報に基づき、指定された音韻記号の韻律情報に近い韻律情報を持ち、かつ、前後に選択される音声素片との接続性が良い音声素片を音声データベース１０３から選択する。例えば、韻律情報生成部１０２から入力された韻律情報と音声データベース１０３内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ（連鎖）を選択する。この音声素片選択部１０４の処理は、音声合成ユニット２００における音声素片選択部２０４と同一の処理である。なお、この音声素片選択部１０４が第１の音声素片選択手段に対応する。

選択度数計測部１０５は、音声素片選択部１０４によって音声データベース１０３から選択された音声素片の選択度数（頻度）を計測する。なお、この選択度数計測部１０５が第１の選択度数計測手段に対応する。カテゴリー分割部１０６は、音声データベース１０３内の音声素片の韻律情報等といったパラメータの分布を所定のカテゴリーに分割する。音声素片抽出部１０７は、カテゴリー分割部１０６により分割されたカテゴリー別に、選択度数計測部１０５で得られた選択度数に基づき、例えば、選択度数が最大のものから順に所定の個数の音声素片を抽出する。代表素片生成部１０８は、音声素片抽出部１０７で抽出された所定の個数の音声素片からカテゴリー別に代表素片を生成して音声素片辞書２０３に格納する。なお、本実施の形態における代表素片の生成は、一例として、所定の個数の音声素片についてセントロイドを求め、得られたセントロイドを代表素片とする方法を用いる。代表素片の生成について、その他の方法を用いることも可能である。また、代表素片は各カテゴリーに複数あってもよい。

次に、音声素片辞書作成ユニット１００の動作を説明する。図３は、本発明の実施の形態１にかかる音声素片辞書作成ユニット１００の動作例を示すフローチャートである。

まず、言語情報解析部１０１は、入力された学習用テキスト情報に対して言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部１０２へ出力する（ステップＳＴ１）。韻律情報生成部１０２は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成し、音声素片選択部１０４へ出力する（ステップＳＴ２）。音声素片選択部１０４は、韻律情報生成部１０２から入力された音韻記号に対応する韻律情報と音声データベース１０３内の音声素片の韻律情報とを比較した際の歪、及び前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ（連鎖）を選択し、選択結果を選択度数計測部１０５へ出力する（ステップＳＴ３）。選択度数計測部１０５は、音声データベース１０３内の各音声素片の選択度数を計測し、その結果を音声素片抽出部１０７に出力する（ステップＳＴ４）。

一方、カテゴリー分割部１０６は、音声データベース１０３に格納されている同一音素の音声素片の韻律情報等といったパラメータの分布を所定のカテゴリーに分割する（ステップＳＴ５）。このカテゴリー分割における分割条件は、例えば、音声合成時に発生する音声素片の変形による音質劣化の知見に基づくなど、任意のテキストに対して音声合成を行っても合成音声が大きく劣化することがないように設計する。例えば、本実施の形態では、音声素片のピッチを変形すると音質劣化が大きいが、継続時間長を変形しても比較的音質劣化が小さいといった性質に基づき、同一音素の音声素片のピッチの高さをパラメータとする分布に対して、ピッチ高／中／低といった３つのカテゴリーに分割するものとする。なお、カテゴリー分割の分割条件に用いるパラメータや分割数はこれに限るものではなく、音声素片の継続時間長の長短や前後の音韻環境の種類など、他の任意のパラメータを用いてもよい。また、例えば、ピッチと継続時間長の両方をカテゴリーに分割するなど、複数のパラメータの組み合わせに基づき分割を行ってもよい。また、ある音素の音声素片の分布はピッチに基づきカテゴリー分割し、別のある音素の音声素片の分布には継続時間長に基づきカテゴリー分割するなど、複数の条件を使い分けてもよい。

なお、カテゴリー分割部による処理は図３のフローチャートの例においてステップＳＴ５となっているが、この順序に限られない。同処理はステップＳＴ１からステップＳＴ４までの処理と独立した処理であるので、選択度数の計測がなされたステップＳＴ４の後に行わなければならないということはない。したがって、例えば、ステップＳＴ１の前、またはステップＳＴ１からステップＳＴ４の処理と並行してなされていてもよい。以降の実施の形態でも同様である。

音声素片抽出部１０７は、カテゴリー分割部１０６により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数Ｎ個の音声素片を抽出する。例えば、各カテゴリーから２０個の音声素片を抽出するとし、これらを代表素片生成部１０８に出力する（ステップＳＴ６）。代表素片生成部１０８は、各カテゴリーにおいて、抽出されたＮ個の音声素片のセントロイドを求め、得られたセントロイドをそのカテゴリーにおける代表素片として音声素片辞書２０３に格納する（ステップＳＴ７）。なお、カテゴリー別に抽出される音声素片の所定の個数は全カテゴリーにおいて完全に同数である必要はなく、略同数（同数である場合を含む）であってもよい。また、音声素片を抽出する方法は、選択度数が最大のものから順次抽出する方法だけに限らない。選択度数の分布のばらつきや選択度数上位の音声素片間のパラメータ分布上の距離などに応じて、音声素片を抽出する条件を変えることも可能である。例えば、選択度数の分布、または、選択度数上位の音声素片間のパラメータ分布上の距離がばらついており、最大のものから順次抽出すると代表素片が選択度数上位の分布に対して偏在してしまう場合には、順位に関わらず選択度数上位の分布から所定の個数を選択するとしてもよい。以降の実施の形態でも同様である。

図４は、本実施の形態にかかる音声素片辞書作成ユニットにより音声素片辞書に登録される音声素片の分布例である。本例では、音声データベース１０３内の音声素片のパラメータ分布をピッチの高さに応じて高／中／低の３つのカテゴリーに分割しており、結果、得られるセントロイド素片（音声素片辞書に登録される音声素片）もピッチ高／中／低のバリエーションを持つ。この音声素片を使用して合成音声を作成する場合、どのようなピッチの高さの合成音声でも音声素片のピッチを大きく変形する必要がないので、品質劣化を小さくすることができる。

このように、カテゴリー分割部１０６では、音声素片の変形に伴う合成音声の音質劣化の知見等により、予めカテゴリー分割を行い、代表素片生成部１０８では、各カテゴリーにおける代表素片を求めて音声素片辞書に登録しているので、音声素片辞書に登録される音声素片のバリエーションを増やすことができる。このため、学習用テキスト情報に含まれる範囲を外れる合成音声でも大きな品質劣化はなく、学習内／外で合成音の品質差を小さくすることができる。

また、代表素片生成部１０８では、各カテゴリーにおいて比較的少数のＮ個の音声素片から代表素片を生成しているので、従来例ようにカテゴリー内の全ての音声素片を用いる場合と比較して、得られる代表素片はスペクトル包絡が平坦化されず明瞭性が高い音質となり、合成音声の音色も明瞭にすることができる。

また、音声素片抽出部１０７においてカテゴリー別に略同数（理想的には同数）の音声素片を抽出するとしている。一方、従来例ではクラスタリングの結果、各クラスタに属する音声素片の数は必ずしも同数にはならない。クラスタに属する音声素片の数の多寡によって代表音声素片の明瞭性などの音質が異なるため、従来の音声素片数が異なる場合に比較して、得られる代表素片間の音色のばらつきが小さく、合成音声の音色も安定にすることができる。

以上のように、本実施の形態における音声素片辞書作成ユニット１００を、カテゴリー分割部１０６は音声データベース１０３内の音声素片の韻律情報等のパラメータの分布を所定のカテゴリーに分割して、音声素片抽出部１０７は分割されたカテゴリー別に、学習用の韻律情報に基づいて選択された音声素片について選択度数に基づき所定の個数を抽出し、代表素片生成部１０８は抽出された音声素片から代表素片を作成し、それを音声素片辞書に格納するように構成したので、本実施の形態にかかる音声合成システムはその音声素片辞書を用いることで、高い品質の合成音声を生成することができる。

実施の形態２．
上記実施の形態１では、学習用テキスト情報から生成される韻律情報に対応する音声データベース１０３内の全ての音声素片について選択度数を計測し、カテゴリー別に選択度数に基づき所定の個数の音声素片を抽出して代表素片を作成する構成とした。本実施の形態では、選択度数が低い音声素片を音声データベース１０３から除外して音声素片の選択範囲を制限する。そして、制限された範囲内の音声素片に対し、再度学習用の韻律情報に対する各音声素片の選択度数を求め、この選択度数上位であるＮ個の音声素片から代表素片を作成する構成にする。

図５は、ある音素に対して上記音声素片選択部１０４によって選択された音声素片の選択度数の分布例である。上段のグラフは選択度数が上位第１００１位までの音声素片を表し、下段のグラフはそのうちの上位第１０１位までの音声素片を示している。図示するように、例えば選択度数上位２０個の音声素片から代表素片を作成する場合、第２１位以降でも第２０位との選択度数の差が小さいものが多数ある一方、一度しか選択されなかった音声素片が数百個もある。したがって、実施の形態１における選択度数上位にある少数の音声素片を抽出して代表素片を作成するという条件を、選択度数が低く代表素片の作成には関連しない音声素片を除いて、選択度数の高い音声素片の中から音声素片選択を実施して選択度数を計測し直した方が、より最適な音声素片の抽出が可能となる。

図６は、本実施の形態にかかる音声素片辞書作成ユニット１００の構成例を示すブロック図である。実施の形態１と同様にこの音声素片辞書作成ユニット１００は、学習用テキスト情報に応じた音声素片辞書を作成するものである。図６において実施の形態１の図２と同一の機能を有する構成は同一の符号を付して重複する説明を省略する。また、本実施の形態による音声合成ユニット２００の動作は、図１に示す音声合成ユニット２００と同様であるので、その説明を省略する。

本実施の形態において追加された音声データベース更新部１０９は、選択度数計測部１０５で得られる音声素片の選択度数と、カテゴリー分割部１０６で得られるカテゴリー分割の情報に基づいて、各カテゴリー内で選択度数が少なく代表素片の作成に関連しない音声素片を音声データベース１０３から削除する更新を行う。なお、この音声データベース更新部１０９が選択範囲制限手段に対応する。

音声データベース更新部１０９の目的は、学習用テキスト情報に対して音声素片の選択度数を計測し直す際に、音声データベース１０３から選択度数が低い音声素片を除外して選択度数が比較的高い音声素片に選択範囲を制限することであるので、上記処理に限るものではない。例えば、カテゴリー分割によらず、選択度数が所定の値以下の音声素片を全て削除するなど、上記目的を実現することができる他の任意の処理としてよい。

また、音声素片の選択範囲を制限する方法で上記の削除以外の方法の一例としては、除外するべき音声素片を選択すると歪が増加するようにして前述のコスト関数の重みを大きくすることにより、選択度数の低い音声素片を選択できなくするといった方法でもよい。

次に、本実施の形態にかかる音声素片辞書作成ユニット１００の動作を説明する。図７は、本実施の形態にかかる音声素片辞書作成ユニットの動作例を示すフローチャートである。ステップＳＴ１１〜ステップＳＴ１３までは実施の形態１の図３に示すステップＳＴ１〜ＳＴ３と同様の動作であるので説明を省略する。

ステップＳＴ１４は実施の形態１の図３に示すステップＳＴ４と同様の動作であるので説明を省略する。ただし、計測された選択度数の結果は音声データベース更新部１０９に出力される。

ステップＳＴ１５は実施の形態１の図３に示すステップＳＴ５と同様の動作であるので説明を省略する。ただし、カテゴリー分割についての情報は音声データベース更新部１０９に出力される。

音声データベース更新部１０９は、カテゴリー分割部１０６により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数Ｍ個（Ｎ＜Ｍ）、例えば各カテゴリー３００個、の音声素片を抽出し、抽出した音声素片のみから構成されるように音声データベース１０３の内容を更新する（ステップＳＴ１６）。これによって、音声データベース１０３内は、学習用テキスト情報に対して代表素片の作成に関連しない選択度数が低い音声素片が削除され、選択度数が比較的高い音声素片のみから構成されるようになる。なお、ステップＳＴ１６において、カテゴリー別に抽出される音声素片の所定の個数が全カテゴリーにおいて同数である必要はなく、カテゴリーに含まれる音声素片の数や分布に応じて上記Ｍの値を変化させてもよい。また、個数で決めるのでなく、例えば所定値以上の選択度数の音声素片に限るなどの選択度数の値によって制限する範囲を決定してもよい。

次に、音声素片選択部１０４は、上記更新された音声データベース１０３を用いて、再度、音声素片選択処理を実施する。すなわち、音声素片選択部１０４は、韻律情報生成部１０２から入力された韻律情報を上記更新された音声データベース１０３内の音声素片の韻律情報と比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ（連鎖）を選択し、選択結果を選択度数計測部１０５へ出力する（ステップＳＴ１７）。選択度数計測部１０５は、全学習用テキスト情報に対して上記更新された音声データベース１０３内の各音声素片が選択された度数を計測し、その結果を音声素片抽出部１０７に出力する（ステップＳＴ１８）。

なお、選択できる音声素片の範囲が更新される前の音声データベース１０３に対して音声素片の選択処理をする音声素片選択部１０４が第１の音声素片選択手段に対応し、更新された後の音声データベース１０３に対して音声素片の選択処理をする音声素片選択部１０４が第２の音声素片選択手段に対応する。また、第１の音声素片選択部により選択された音声素片の選択度数を計測する選択度数計測部１０５が第１の選択度数計測手段に対応し、第２の音声素片選択部により選択された音声素片の選択度数を計測する選択度数計測部１０５が第２の選択度数計測手段に対応する。本実施の形態においては、第１の音声素片選択手段と第２の音声素片選択手段、及び、第１の選択度数計測手段と第２の選択度数計測手段はそれぞれ同一のハードウェアにて実行されているが、別のハードウェアによって実行されるものであってもよい。

ここで、音声データベース１０３内の選択度数が低い音声素片を削除するという更新（ステップ１６）を行った結果、更新前後では音声素片の選択結果が変わるので、音声データベース更新後のステップＳＴ１７の素片選択結果は、音声データベース更新前のステップＳＴ１３の素片選択結果とは異なる。したがって、音声データベース更新後のステップＳＴ１８の音声素片の選択度数も、音声データベース更新前のステップＳＴ１４の音声素片の選択度数とは異なるものとなる。

音声素片抽出部１０７は、カテゴリー分割部１０６により分割されたカテゴリー別に、選択度数が最大のものから順に所定の個数Ｎ個（Ｎ＜Ｍ）、例えば各カテゴリー２０個、の音声素片を抽出し、抽出した音声素片を代表素片生成部１０８に出力する（ステップＳＴ１９）。代表素片生成部１０８は、各カテゴリーにおいて、抽出されたＮ個の音声素片のセントロイドを求め、得られたセントロイドをそのカテゴリーにおける代表素片として音声素片辞書２０３に格納する（ステップＳＴ２０）。

このように、音声データベース更新部１０９では、カテゴリー別に学習用テキスト情報に対して選択度数が低い音声素片を除外するように音声データベース１０３を更新して、音声素片の選択範囲を制限し、音声素片選択部１０４は、上記更新された音声データベース１０３を用いて再度学習用テキスト情報に対して音声素片選択を行い、選択度数計測部１０５は、選択された音声素片の選択度数を計測し、音声素片抽出部１０７は上記更新された音声データベース１０３において選択度数に基づいて所定の個数の音声素片を抽出し、代表素片生成部１０８にて代表素片を作成するようにした。これにより、音声データベース１０３を更新せずに代表素片を作成する場合に比較して、最終的に代表素片の作成には関連しない選択度数が低い素片の影響を除いたより適切な音声素片が抽出され、これらの抽出された音声素片から代表素片を生成し、音声素片辞書２０３に登録することができ、より高い品質の合成音声を生成することができる。

また、音声データベース更新部１０９が音声データベースを更新する回数は上記した１回に限るものではなく、複数回更新して更新毎に順次音声素片を削減してもよい。例えば、１回目は各カテゴリーＭ個の音声素片を抽出して音声データベース１０３を更新し、この更新した音声データベース１０３を用いて学習用テキスト情報に対する音声素片の選択度数を求め、この選択度数に基づき２回目は各カテゴリーＬ個（Ｎ＜Ｌ＜Ｍ）の音声素片を抽出して音声データベース１０３を更新する。なお、２回目以上の処理を繰り返す場合は、選択範囲を前回の処理よりも制限するために、処理毎にＬの値を減らしていくように設定する。そしてこの更新された音声データベース１０３を用いて再々度選択度数を求め、カテゴリー別に、選択度数に基づいて所定の個数Ｎ個の音声素片を抽出し、抽出した音声素片から代表素片を作成する。このように構成することにより、選択度数が低い素片の影響がより少ない適切な音声素片が抽出されるので、これら抽出された音声素片から代表素片を生成、音声素片辞書２０３に登録することができ、さらに高い品質の合成音声を生成することができる。

以上のように、本実施の形態にかかる音声合成システムは、選択度数計測部１０５から入力される音声素片の選択度数と、カテゴリー分割部１０６より入力されるカテゴリー分割の情報に基づいて、各カテゴリー内で代表素片の作成に関連しない選択度数が少ない音声素片を除外する音声データベース１０３の更新を行い、更新した音声データベース１０３のカテゴリー別に、選択度数に基づいて所定の個数の音声素片を抽出して代表素片を生成し、それを音声素片辞書２０３に格納する構成としたので、より最適な音声素片の抽出が可能となり、さらに高い品質の合成音声を生成することができる。

実施の形態３．
上記実施の形態では、カテゴリー分割条件を固定していたが、本実施の形態においてはこれを適時、更新を可能にする構成としている。

図８は本実施の形態にかかる音声合成システムの構成例を示すブロック図である。音声素片辞書２０３が作成された後に、テキスト情報が音声合成ユニット２００に入力され、テキスト情報から生成された音韻記号及び韻律情報が音声素片選択部２０４に入力される。音声素片選択部２０４では、上述の通り、韻律情報生成部２０２から入力された韻律情報と音声素片辞書２０３内の音声素片の韻律情報とを比較した際の歪、及び、前後で選択される音声素片と接続するときの歪を計算し、その総和が最小になる音声素片の組み合わせ（連鎖）を選択する。しかしながら、この歪の総和は合成音声の品質に直結するものであるため、高い品質の合成音声を得るためには、歪の総和をなるべく小さくすることが望ましい。

そこで、歪の総和の値に対し所定の閾値を設けるなどして、音声素片辞書２０３から選択する音声素片の組み合わせでは所定の閾値を下回ることができない場合に、カテゴリー分割条件の更新を行うこととする。

ここで、カテゴリー分割条件を更新する信号が音声合成ユニット２００から音声素片辞書作成ユニット１００に送られる。音声素片選択部２０４からカテゴリー分割条件を更新する信号が音声素片辞書作成ユニット１００のカテゴリー分割部１０６に送るとしてもよい。カテゴリー分割部１０６では、例えば、同一音素の音声素片のパラメータ分布としてピッチの高さに応じてピッチ高／中／低の３つのカテゴリーに分割していた場合に、さらに、ピッチについて分割数を増やす変更をする。また、例えば、ピッチの分割に加えて継続時間長について長／中／短の分割が組み合わされるような変更であってもよい。

このようなカテゴリー分割の更新がなされた後、音声素片抽出部１０７は更新されたカテゴリー別に選択度数に基づき所定の個数の音声素片を抽出する。なお、ここで抽出する個数は更新される前のカテゴリー分割の時と同数である必要はなく、更新後の各カテゴリーに包含される音声素片の数に応じて変更されてもよい。代表素片生成部１０８は抽出された音声素片からカテゴリー別に代表素片を生成し、音声素片辞書２０３を更新する。

音声素片辞書２０３が更新された後に、再度音声素片選択部２０４は音声素片を選択し、最適な音声素片の組み合わせの探索を行う。なお、音声素片辞書２０３を更新しても歪の総和が所定の閾値を下回らない場合は、代表素片を増やすように再度カテゴリー分割条件を変えて音声素片辞書２０３を更新するようにしてもよい。

以上のように、本実施の形態にかかる音声合成システムは、音声素片選択部２０４の音声素片の選択時に、音声素片の組み合わせから所望の合成音声の所望の品質が得られないと判断される場合に、カテゴリー分割条件を更新し、音声素片辞書２０３を更新する構成としている。このような構成することにより、合成音声を作成するテキスト情報に合わせて適応的に音声素片辞書２０３が更新されるので、さらに高い品質の合成音声を生成することができる。

実施の形態４．
上記実施の形態１乃至３では、音声合成ユニット１００への入力であるテキスト情報と、音声素片辞書作成ユニット２００への入力である学習用テキスト情報とは別個のものとしているが、本実施の形態においては合成音声を作成するテキスト情報を学習用テキスト情報に加える、または、学習用テキスト情報の少なくとも一部を置換するなど、実際に音声合成したテキスト情報に応じて学習用テキスト情報を更新し、適時、音声素片辞書２０３を更新する構成としている。

図９は本実施の形態にかかる音声合成システムの構成例を示すブロック図である。入力されたテキスト情報に対して言語情報解析部２０１は言語解析処理を行い、読み、アクセントなどの言語情報を得て、この言語情報を韻律情報生成部２０２へ出力する。韻律情報生成部２０２は、言語情報から、音韻記号及びピッチ、音韻継続時間長、パワーなどの韻律情報を生成する。

この生成された音韻記号及び韻律情報は、音声素片辞書生成ユニット１００の音声素片選択部１０４に送られる。送られた音韻記号及び韻律情報に対する音声素片選択部１０４、選択度数計測部１０５、音声素片抽出部１０７、代表素片生成部１０８の各部の処理は上述と同様である。音声素片選択部１０４では、送られた音韻記号及び韻律情報について音声データベース１０３から音声素片の選択がなされ、選択度数計測部１０５は音声素片の選択度数を計測する。このとき、例えば、この選択度数を既にある学習用テキスト情報に基づく選択度数に加算して、合計の選択度数から音声素片辞書２０３を更新するとしてもよい。または、少なくとも一部の既にある学習用テキスト情報に基づく選択度数を廃棄し、新しく得られた選択度数によって置き換えて、その選択度数から音声素片辞書２０３を更新するとしてもよい。なお、上記の例では音声素片辞書作成ユニット１００に送られる情報は音韻記号及び韻律情報であるが、テキスト情報または言語情報として送ってもよい。

以上のように、本実施の形態にかかる音声合成システムは、音声合成ユニット２００に入力される実際に合成音声を作成するテキスト情報によって学習用テキスト情報を更新する構成とした。これにより合成音声を作成するテキスト情報に合わせて適応的に音声素片辞書２０３が更新されるので、さらに高い品質の合成音声を生成することができる。

実施の形態５．
上記実施の形態１乃至４における音声合成ユニット２００は、テキスト情報を入力として音声合成ユニット２００内で言語解析処理を行う構成としているが、これに代え、テキスト情報に対する言語解析処理を予め別途実施しておき、図１と対比して示す図１０に示すように言語解析部２０１を省く構成とし、テキスト情報から得られた言語情報を入力として合成音声を生成することも可能である。なお、テキスト情報の言語解析処理、韻律情報生成処理を予め別途実施しておき、その韻律情報を入力として音声合成するとし、音声合成ユニット２００内の言語解析部２０１、韻律情報生成部２０２を省く構成とすることも可能である。

同様に、上記実施の形態１乃至４における音声素片辞書作成ユニット１００は、学習用テキスト情報を入力として音声素片辞書作成ユニット１００内で言語解析処理、韻律生成処理を行う構成としているが、これに代え、学習用テキスト情報に対する言語解析処理、韻律情報生成処理を予め別途実施しておき、例えば、図２と対比して図１１に示すように学習用テキスト情報から得られた韻律情報（学習用韻律情報）を入力として音声素片辞書を作成する構成にすることも可能である。なお、学習用テキスト情報の言語解析処理を予め別途実施しておいた言語情報（学習用言語情報）を入力として、音声素片辞書作成ユニット１００内の言語解析部１０１のみを省く構成とすることも可能である。

なお、上記実施の形態１乃至５における音声合成システムをコンピュータなどの情報処理装置で構成する場合、音声データベース１０３、音声素片辞書２０３をメモリなどの記憶媒体で構成すると共に、言語情報解析部１０１、２０１、韻律情報生成部１０２、２０２、音声素片選択部１０４、２０４、選択度数計測部１０５、カテゴリー分割部１０６、音声素片抽出部１０７、代表素片生成部１０８、音声データベース更新部１０９、音声素片接続部２０５、の処理内容を記述しているプログラムをコンピュータのメモリに格納し、コンピュータのＣＰＵがメモリに格納されているプログラムを実行するようにしてもよい。または、それら処理内容を記述しているプログラムを例えば、磁気ディスク、光ディスク、ＭＯディスク、半導体メモリなどの記録媒体に記録してコンピュータに読み込ませて、コンピュータに上記の処理を実行させるようにしてもよい。または、インターネットなどの有線・無線通信手段を用いてサーバー上の記憶手段からプログラムをダウンロードしてコンピュータで実行させるようにしてもよい。

さらに、上記実施の形態１乃至５における音声合成システムをコンピュータなどの情報処理装置で構成する場合、音声素片辞書作成ユニット１００と音声合成ユニット２００とを別のハードウェアで実現するようにしてもよい。すなわち、第１のコンピュータで音声素片辞書作成ユニットのプログラムを実行して音声素片辞書２０３を作成し、作成した音声素片辞書２０３を第２のコンピュータのメモリなどの記憶媒体に移し、第２のコンピュータで音声素片辞書２０３を用いる音声合成ユニット２００のプログラムを実行して合成音声を得る、という構成にすることも当然可能である。

なお、上記実施の形態１乃至５における音声合成システムにおいて、予め音声辞書作成ユニット１００で音声素片辞書２０３を作成しておき、音声合成ユニット２００のみからなる音声合成システムでこの音声素片辞書２０３を用いて音声合成をする構成とすることができることは言うまでもない。また、上記実施の形態１乃至５を組み合わせて新たな実施の形態とすることができることは言うまでもない。

１００音声素片辞書作成ユニット
１０１言語情報解析部
１０２韻律情報生成部
１０３音声データベース
１０４音声素片選択部
１０５選択度数計測部
１０６カテゴリー分割部
１０７音声素片抽出部
１０８代表素片生成部
１０９音声データベース更新部
２００音声合成ユニット
２０１言語情報解析部
２０２韻律情報生成部
２０３音声素片辞書
２０４音声素片選択部
２０５音声素片接続部

Claims

音声素片が格納されている音声データベースと、
学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択手段と、
前記第１の音声素片選択手段により選択された音声素片の選択度数を計測する第１の選択度数計測手段と、
前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、
前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、
抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えることを特徴とする音声合成システム。
音声素片が格納されている音声データベースと、
学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択手段と、
前記第１の音声素片選択手段により選択された音声素片の選択度数を計測する第１の選択度数計測手段と、
前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割手段と、
前記選択度数に基づいて音声素片の選択範囲を制限する選択範囲制限手段と、
前記学習用の韻律情報に基づき、前記選択範囲制限手段により制限された範囲内の音声素片を選択する第２の音声素片選択手段と、
前記第２の音声素片選択手段により選択された音声素片の選択度数を計測する第２の選択度数計測手段と、
前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出手段と、
抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成手段と、を有する音声素片辞書作成手段を備えることを特徴とする音声合成システム。
請求項２に記載の音声素片辞書作成手段は、さらに、
前記選択範囲制限手段、前記第２の音声素片選択手段、前記第２の選択度数計測手段、の一連の処理を複数回繰り返し、かつ、繰り返し毎に、前記選択範囲制限手段は音声素片の選択範囲を前回の処理と比べて狭くすることを特徴とする音声合成システム。
前記カテゴリー分割手段は、
前記音声素片辞書作成手段により作成された音声素片辞書内の音声素片によって合成される音声の品質に応じて、前記音声データベース内の音声素片のパラメータ分布を分割する条件を更新することを特徴とする請求項１乃至３のいずれか１つに記載の音声合成システム。
前記音声素片辞書作成手段は、
音声合成用の入力情報から生成される韻律情報によって学習用の韻律情報を更新して、音声素片辞書を更新することを特徴とする請求項１乃至４のいずれか１つに記載の音声合成システム。
前記音声素片辞書作成手段は、さらに、
学習用テキスト情報に対して言語情報を得る言語情報解析手段と、
前記言語情報から音韻記号及び韻律情報を生成する韻律情報生成手段と、
を有することを特徴とする請求項１乃至５のいずれか１つに記載の音声合成システム。
請求項１乃至６のいずれか１つに記載の前記音声素片辞書作成手段により生成された音声素片辞書を備える音声合成システム。
学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択ステップと、
前記第１の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第１の選択度数計測ステップと、
前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割ステップと、
前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出ステップと、
抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成ステップと、を有することを特徴とする音声素片辞書作成方法。
学習用の韻律情報に基づき、前記音声データベースから音声素片を選択する第１の音声素片選択ステップと、
前記第１の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第１の選択度数計測ステップと、
前記音声データベース内の音声素片のパラメータ分布を所定のカテゴリーに分割するカテゴリー分割ステップと、
前記選択度数に基づいて音声素片の選択範囲を制限する選択範囲制限ステップと、
前記学習用の韻律情報に基づき、前記選択範囲制限ステップにおいて制限された範囲内の音声素片を選択する第２の音声素片選択ステップと、
前記第２の音声素片選択ステップにおいて選択された音声素片の選択度数を計測する第２の選択度数計測ステップと、
前記カテゴリー別に、前記選択度数に基づいて所定の個数の音声素片を抽出する音声素片抽出ステップと、
抽出された前記音声素片から、前記カテゴリー別に代表素片を生成する代表素片生成ステップと、を有することを特徴とする音声素片辞書作成方法。
請求項９に記載の音声素片辞書作成方法は、さらに、
前記選択範囲制限ステップ、前記第２の音声素片選択ステップ、前記第２の選択度数計測ステップ、の一連の処理を複数回繰り返し、かつ、繰り返し毎に前記選択範囲制限ステップにおける音声素片の選択範囲を前回の処理と比べて狭くすることを特徴とする音声素片辞書作成方法。
情報処理装置を請求項１乃至６のいずれか１つに記載の音声素片辞書作成手段として機能させるための音声素片辞書作成プログラム。
情報処理装置を請求項１乃至６のいずれか１つに記載の音声素片辞書作成手段として機能させるためのプログラムを記録した情報処理装置が読み取り可能な音声素片辞書作成プログラム記録媒体。