JP2006030383A

JP2006030383A - テキスト音声合成装置及びテキスト音声合成方法

Info

Publication number: JP2006030383A
Application number: JP2004206079A
Authority: JP
Inventors: Erika Kumakura; 恵理香熊倉; Toshiyuki Kumakura; 俊之熊倉
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2004-07-13
Filing date: 2004-07-13
Publication date: 2006-02-02

Abstract

【課題】どのような言語のテキストが入力された場合であっても、音声を合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供する。
【解決手段】入力テキストが変換された音声記号列の言語を言語判定部４１にて判定する。言語判定部４１にて判定された言語に応じて予め定められた複数の対応言語のルール又はこれら予め定められた複数の言語のいずれにも属さない未知言語のルールを適用して韻律データを生成し、韻律データに基づいて音声波形を生成する。
【選択図】図３

Description

本発明は、複数の言語を扱うことができるテキスト音声合成装置及びテキスト音声合成方法に関する。

テキスト音声合成は、タイプ入力などにより得られた入力テキストを人間の音声の生成機構に基づいて機械的に音声を合成するものである。図１１に、従来のテキスト音声合成装置１００の構成を示す。テキスト音声合成装置１００は、入力テキストを音声記号列に変換する音声記号列生成部１０１と、音声記号列を韻律データに変換する韻律生成部１０２と、韻律データから音声波形を生成する波形生成部１０３とを有して構成されている。

音声記号列生成部１０１は、入力テキストを意味をもつ最小の言語単位である形態素に分割し、形態素に関する表記、品詞、読みなどの情報が格納された辞書を参照して音声記号列を生成する。この音声記号列は、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。

そして、韻律生成部１０２は、入力された音声記号列を解析し、音素毎に継続時間長、基本周波数及びパワーを決定する。決定された各音素の情報は、韻律データとして波形生成部１０３に出力する。ここで、音素とは、ある１つの言語で用いられる音の単位で、意味の相違をもたらす最小の単位である。

韻律生成部１０２から出力された韻律データは、波形生成部１０３で音素列情報、音素時間情報、ピッチパタン情報に分けられる。音素列情報には音素列が含まれており、選択された音素列に対応する音響特長パラメータは、音素時間情報に基づいて時間軸上で伸縮され、ピッチパタン情報に基づいてピッチが変更されて音声波形に変換される。

以上のような処理により、音声合成装置１００は、タイプ入力などにより得られた入力テキストを音声波形に変換する。

特開２００１−１４３０５号公報

ところで、テキスト音声合成装置において、日本語、英語などの複数の言語を処理できるものが知られている（例えば、特許文献１参照。）。例えば、特許文献１に記載の電子文書処理装置は、電子文書を記述する言語を示す属性情報に基づいて音声合成エンジンを選択することにより複数の言語を処理可能としている。

しかしながら、特許文献１に記載の電子文書処理装置では、装置が備えていない音声合成エンジンの言語が入力された場合、音声を合成することができなかった。

本発明は、このような課題に鑑みてなされたものであり、どのような言語のテキストが入力された場合であっても、音声を合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供することを目的とする。

上述した目的を達成するために、本発明に係るテキスト音声合成装置は、任意の言語の入力テキストを処理するテキスト音声合成装置であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成手段と、上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有することを特徴としている。

また、本発明に係るテキスト音声合成装置は、任意の言語の入力テキストを処理するテキスト音声合成装置であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成手段と、上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有し、上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴としている。

また、本発明に係るテキスト音声合成方法は、任意の言語の入力テキストを処理するテキスト音声合成方法であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成工程と、上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有することを特徴としている。

また、本発明に係るテキスト音声合成方法は、任意の言語の入力テキストを処理するテキスト音声合成方法であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成工程と、上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有し、上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴としている。

本発明によれば、入力テキストが変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成し、当該韻律データに基づいて音声波形を生成することにより、どのような言語であっても音声を合成することができる。

以下、本発明の実施の形態について、図面を参照にしながら詳細に説明する。本発明の具体例として示すテキスト音声合成装置は、正しい韻律で音声を合成できる予め定められた言語以外のテキストが入力された場合でも、音声記号列を韻律データに変換することができるものである。なお、ここでは、装置に予め定められた言語であって、正しい韻律が生成可能な言語を対応言語と呼び、その他の言語を未知言語と呼ぶこととする。

図１は、テキスト音声合成装置１の全体構成を示すものである。テキスト音声合成装置１は、入力テキストの言語を解析する言語解析部２と、入力テキストを音声記号列に変換する音声記号列生成部３と、音声記号列の言語を判定し、判定結果に応じて韻律データを生成する韻律生成部４と、韻律データに基づいて音声波形を生成する波形生成部５とを有して構成されている。

言語解析部２は、入力テキストに含まれる言語を解析する。また、言語解析部２は、入力テキストを解析された言語毎に言語情報を示すタグを付与する。例えば、「これは日本語です」という日本語の文に対するタグ付きテキストは、以下のように記述される。
<Lang=japanese>これは日本語です<\Lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<Lang=japanese>は文内で日本語(Japanese)が開始することを示し、<\Lang>は当該言語が終了することを示す。また、テキストの属性情報として言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。

言語の解析は、例えば次のような方法により行われる。
１．外部から与えられた情報により言語を解析する
例えばタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を解析する。
２．文字の種類により言語を解析する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と解析する。
３．辞書を参照することにより言語を解析する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を解析する。
４．文字コードにより言語を解析する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を解析する。

音声記号列生成部３は、図２に示すように、入力テキストを解析し、形態素情報を生成するテキスト解析部２１と、形態素情報に基づいて音声記号列を生成する韻律情報生成部２２とを有して構成されている。ここで、形態素とは、語幹、接頭辞、接尾辞など、意味をもつ文字列の最小単位で、単語よりやや小さいものである。また、音声記号列とは、発音記号やアクセント記号などで表現したものである。

テキスト解析部２１は、テキスト解析ルール２３と辞書２４とを有している。テキスト解析ルール２３には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書２４に登録されていない形態素に必要な情報を付与する規則とが格納されている。また、辞書２４には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。

韻律情報生成部２２は、形態素情報を解析し韻律情報を得るための韻律情報生成ルール２５を有する。韻律情報生成ルール２５には、形態素情報をもとにフレーズの区切り方を指すフレージングや読みの変更を行うための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部２１で用いた辞書２４とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パタンの情報などである。

なお、図４に示す音声記号列生成部３の構成では、１つの辞書２４に形態素に関する情報と韻律生成のための情報とを納める構成となっているが、それぞれ別の辞書を保持してもよい。すなわち、テキスト解析部２１は、形態素に関する情報のみが納められた辞書と接続され、韻律情報生成部２２は、韻律生成のための情報のみが納められた辞書と接続されるという構成でも同様の処理を行うことができる。また、テキスト解析ルール２３、辞書２４及び韻律情報生成ルール２５は、各言語のルールを格納していることとしているが、言語毎にルールを独立して有する構成としてもよい。

ここで、入力テキストの処理について説明する。なお、入力テキストは、一文の場合でも、複数文からなる場合でもよい。

入力テキストは、言語解析部２１にて言語毎のテキスト部分に区分される。区分されたテキスト部分は、テキスト解析部２１において、テキスト解析ルール２３と辞書２４とを用いて形態素に分割され、辞書２４からそれぞれの形態素に関する情報を得る。辞書２４に登録されていない形態素については、テキスト解析ルール２３を用いて、必要な形態素情報を生成する。このようにして得られた形態素情報は、韻律情報生成部２２へと送られる。

韻律情報生成部２２では、テキスト解析部２１から受け取った形態素情報をもとに、入力文に対し、韻律情報生成ルール２５を用いて韻律情報を付与するという処理を行う。韻律情報は、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などの情報である。なお、韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定されるものではない。

韻律情報生成部２２の処理によって得られる韻律情報は、音声記号列で表現され、韻律生成部へと出力する。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。これらの記号は、独自のものを定義してもよいし、既存の記号を採用してもよい。例えば、ＩＰＡ(国際音声字母、International Phonetic Alphabet)、ＳＡＭＰＡ（Speech Assessment Methods Phonetic Alphabet）などの発音記号、アクセント記号などを用いてもよい。又は、ＴｏＢＩ(Tone and Break Indices)などのポーズ記号、音調記号などを用いてもよい。本実施の形態では、便宜的にローマ字を用いて説明する。例えば、「これは日本語です。」という入力テキストに対し、音声記号列生成部２２から出力される音声記号列は、例えば次のように記述される。
<Lang=japanese>korewanihongodesu<\Lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<Lang=japanese>は文内で日本語(Japanese)が開始することを示し、<\Lang>は当該言語が終了することを示す。また、音声記号列の属性情報として言語情報が記述されたタグを用いて説明するが、本発明の実施の形態はこれに限られるものではない。

図３は、韻律生成部４の構成を示すブロック図である。韻律生成部４は、音声記号列の言語を判定する言語判定部４１と、各音素の継続時間長を求めるための継続時間長決定部４２と、各音素の基本周波数を求めるための基本周波数決定部４３と、各音素のパワーを求めるためのパワー決定部４４とを有して構成されている。

言語判定部４１は、例えば音声記号列に付与されたタグの言語情報により音声記号列の言語を判定し、正しい韻律で音声を合成できる予め定められた対応言語か否かを判別する。

また、言語判定部４１は、韻律の類似性による言語情報か格納されている類似性データ４５を有しており、入力された音声記号列が対応言語ではない、つまり未知言語であると判別した場合、後述するように、類似性データ４５に基づいて対応言語の中から選択して韻律データを生成させることができる。

この類似性データ４５は、例えば図４に示すように言語対応表として保持されている。この例は、対応言語として、日本語、英語及びドイツ語が設定されており、この対応言語の韻律で代替可能な類似言語が定められているものである。例えば、フランス語は、日本語の韻律で代替可能であることを示している。また、言語対応表は、類似言語を優先順にに記述することにより優先度を設けることができる。

また、類似性データ４５は、例えば図５に示すようなネットワーク構造として保持されていてもよい。この例において、片方向の矢印は、矢印の方向の言語に代替可能であることを示し、両方向の矢印は両方向に代替可能であることを示している。また、矢印の長さは、類似性の高さを示しており、短ければ短いほど類似性が高いため、代替言語の優先度が高くなる。この例において、例えば日本語、英語及びドイツ語を対応言語とした場合、言語判定部４１は、中国語の音声記号列に対して、最短ルートである英語で代替するように指示することができる。

図３に戻って、継続時間長決定部４２は、音声記号列解析部４６と、ルール適用部４７とを有している。音声記号列解析部４６は、音声記号列を解析するための対応言語用の対応言語解析ルール４８と未知言語用の未知言語解析ルール４９とを有している。対応言語解析ルール４８及び未知言語解析ルール４９には、それぞれ、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。

ルール適用部４７は、各音素の継続時間長を決めるための対応言語用の対応言語生成ルール５０と未知言語用の未知言語生成ルール５１とを有している。対応言語生成ルール５０及び未知言語生成ルール５１には、各音素の継続時間長を決定するためのルールが格納されており、どのような音韻環境のときにデフォルト継続時間長を伸縮させるかを決めるための規則が格納されている。また、音素のデフォルト継続時間長も格納されている。ここで、音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどこかなどを示すものである。

継続時間長決定部４２は、対応言語生成ルール５０又は未知言語生成ルール５１を用いて、各音素の継続時間長を決定する。対応言語生成ルール５０又は未知言語生成ルール５１を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定された継続時間長の情報は、基本周波数決定部４３へ送信される。

基本周波数決定部４３は、音声記号列解析部５２と生成ルール適用部５３と時間伸縮部５４とを有している。音声記号列解析部５２は、音声記号列を解析するための対応言語用の対応言語解析ルール５５と未知言語用の未知言語解析ルール５６とを有している。対応言語解析ルール５５及び未知言語解析ルール５６には、それぞれ、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。

ルール適用部５３は、基本周波数パタンを生成するための対応言語用の対応言語生成ルール５７と未知言語用の未知言語生成ルール５８とを有している。対応言語生成ルール５７及び未知言語生成ルール５８には、アクセント型等の音調区分に対する基本周波数パタンの値及び、それらのパタンの選択、変形のためのルールが格納されている。

ここで、ルールの選択方法は装置によって、様々な形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性の是非を判定する。

対応言語生成ルール５７及び未知言語生成ルール５８に含まれる基本周波数パタンのデータは、複数の音素にまたがる基本周波数の値を保持しており、ルールにより選択できるように、アクセント型や音調など予測要因毎にパタンが分類してある。

基本周波数決定部４３は、対応言語生成ルール５７及び未知言語生成ルール５８を用いて、各音素の基本周波数を決定する。対応言語生成ルール５７又は未知言語生成ルール５８を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。ルール適用部５３は、音声記号列の解析により得られた情報から対応言語生成ルール５７及び未知言語生成ルール５８を用いて、最適なパタンを選択、変形する。時間伸縮部５４は、選択されたパタンを、継続時間長決定部４２ですでに決定された各音素の継続時間長にあわせて、変形させ、音素毎の基本周波数を決定する。

パワー決定部４４は、音声記号列解析部５９と、ルール適用部６０とを有している。音声記号列解析部５９は、音声記号列を解析するための対応言語用の対応言語解析ルール６１と未知言語用の未知言語解析ルール６２とを有している。対応言語解析ルール６１及び未知言語解析ルール６２には、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。

ルール適用部６０は、各音素のパワーを決定するための対応言語用の対応言語生成ルール６３と未知言語用の未知言語生成ルール６４とを有している。対応言語生成ルール６３及び未知言語生成ルール６４には、各音素のパワーを決定するためのルールが格納されている。

パワー決定部５３は、対応言語生成ルール６３又は未知言語用の未知言語生成ルール６４を用いて、各音素のパワーを決定する。対応言語生成ルール６３又は未知言語用の未知言語生成ルール６４を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定されたパワーの情報は、出力生成部６５へ送信される。

出力生成部６５は、継続時間長決定部４２で決定された音素毎の継続時間長、基本周波数決定部４３で決定された音素毎の基本周波数及びパワー決定部４４で決定された音素毎のパワーの情報を韻律データとして生成し、韻律生成部４へ出力する。

図６は、波形生成部５の構成を示すブロック図である。波形生成部５は、韻律生成部４から出力された韻律データから音声波形を生成する。波形生成部５は、入力された韻律データを情報毎に分配する韻律データ分配部７１と、音素列の音響特長パラメータを生成する素片選択部７２と、音響特長パラメータを補正するパラメータ補正部７３と、ピッチを変更しながら音声信号波形を合成する波形組立部７４とを有して構成されている。また、素片選択部７２は、音響的な特長を示すパラメータを格納した音声データ７５を有している。

韻律データ分配部７１は、入力された韻律データを音素列情報、音素時間長情報及びピッチパタン情報に分け、それぞれ、素片選択部７２、パラメータ補正部７３及び波形組立部７４に出力する。

素片選択部７２は、入力された音素列情報に基づいて音声データ７５を参照して上記音素列情報に含まれる音素列を選択し、選択した音素列に対応する音響特長パラメータを音声データ７５から順次読み出して出力する。

音声データ７５は、既存の規則音声合成装置に使用されるものと同様のもので、例えばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、ＣＶ、ＣＶＣ（Ｃ：子音、Ｖ：母音）、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位に固定されない。

パラメータ補正部７３は、音素列によって時間軸上に並べられた音響特長パラメータを、韻律データ分配部７１から入力された音素時間情報によってそれぞれの音素の長さに等しくなるように時間軸上で伸縮する。また、素片の接続部での音響特長パラメータの不整合を避けるために音響特長パラメータを補正する。

波形組立部７４は、パラメータ補正部７３から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部７１からのピッチパタン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。

次に、図７及び図８に示すフローチャートを用い、韻律生成部４の動作例について説明する。本実施の形態のテキスト音声合成装置１は、入力テキストの言語を解析し、解析された言語毎に言語情報を示すタグを付与することとして説明するが、これに限られるものではない。

先ず、図７に示すフローチャートを用いて韻律生成部４の動作例について説明する。言語判定部４１に入力された音声記号列の言語を例えばタグの言語情報から判定する（ステップＳ７１）。次に、言語判定部４１は、判定された言語が対応言語であるか否かを判別する（ステップＳ７２）。この対応言語の情報は、例えば、一覧として保持されており、言語判定部４１は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。

判定された言語が対応言語である場合、言語判定部４１は、対応言語解析ルール４８、５５、６１及び対応言語生成ルール５０、５７、６３を適用させるように音声記号列を継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４へ出力する。継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４は、入力された音声記号列を対応言語解析ルール４８、５５、６１及び対応言語生成ルール５０、５７、６３を適用し（ステップＳ７３）、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。

判定された言語が未知言語である場合、言語判定部４１は、未知言語解析ルール４９、５６、６２及び未知言語生成ルール５１、５８、６４を適用させるように音声記号列を継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４へ出力する。継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４は、入力された音声記号列を未知言語解析ルール４９、５６、６２及び未知言語生成ルール５１、５８、６４を適用し（ステップＳ７４）、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。未知言語のルールを適用した場合の音声は、例えば「korewanihongodesu」と記述された音声記号列に対し、ko re wa ni ho n go de suとすべての音が確認でき、発音内容が理解できるようなものである。

このような動作により未知言語の音声記号列が入力された場合でも、未知言語用のルールを適用することにより韻律データを生成することができる。

次に、図８に示すフローチャートを用い、韻律生成部４の他の動作例について説明する。この動作例は、正しい韻律を生成できない言語である未知言語の音声記号列が入力された場合でも、対応言語の中から代替言語を決定し、その代替言語のルールを適用して韻律データを生成するものである。

ステップＳ８１では、言語判定部４１に入力された音声記号列の言語を例えばタグの言語情報から判定する。次に、言語判定部４１は、判定された言語が対応言語であるか否かを判別する（ステップＳ８２）。この対応言語の情報は、例えば、一覧として保持されており、言語判定部４１は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。

判定された言語が対応言語である場合、言語判定部４１は、対応言語解析ルール４８、５５、６１及び対応言語生成ルール５０、５７、６３を適用させるように音声記号列を継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４へ出力する。継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４は、入力された音声記号列を対応言語解析ルール４８、５５、６１及び対応言語生成ルール５０、５７、６３を適用し（ステップＳ８３）、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。

判定された言語が未知言語である場合、言語判定部４１は、類似性データ４５を参照し（ステップＳ８４）、代替言語があるかどうかを判別する（ステップＳ８５）。類似性データ４５は、例えば図４及び図５に示すように言語間の韻律の類似性に基づく情報として保持されている。例えば、図５に示すようなネットワーク構造として言語間の韻律の類似性が保持され、対象言語が英語とフランス語である場合、中国語はフランス語で代替可能であるが、スペイン語は代替できない未知言語となる。

ステップＳ８５において代替言語を有する場合、上記ステップＳ８３へ進む。代替言語を有さない場合、言語判定部４１は、未知言語解析ルール４９、５６、６２及び未知言語生成ルール５１、５８、６４を適用させるように音声記号列を継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４へ出力する。継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４は、入力された音声記号列を未知言語解析ルール４９、５６、６２及び未知言語生成ルール５１、５８、６４を適用し（ステップＳ８６）、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。未知言語のルールを適用した場合の音声は、例えば「korewanihongodesu」と記述された音声記号列に対し、ko re wa ni ho n go de suとすべての音が確認でき、発音内容が理解できるようなものである。

このような動作により未知言語の音声記号列が入力された場合、類似性データ４５を参照し、代替言語のルールを適用することにより、入力された音声記号列の言語に正確な韻律に近づけることができる。

なお、韻律生成部４には、未知言語用のルールを有する構成としたが、どのような言語でも代替言語を指定できるように類似性データ４５を作成し、対応言語を定めることにより、未知言語を処理することができる。

また、ステップＳ８５において代替言語を有する場合、音声記号列をその代替言語の音声記号列に変換するステップを設けてもよい。例えば、英語が代替言語とされた場合「korewanihongodesu」と記述された音声記号列は、「k@rew@nIhoNg@des」と変換され、英語のように発声される。

図９は、本発明を適用させた韻律生成部の他の構成を示すブロック図である。この韻律生成部９０は、図９に示すように、継続時間長決定部４２、基本周波数決定部４３及びパワー決定部４４に音声記号列が入力される前に、それぞれ言語を判定する言語判定部９１、９２、９３を有する構成となっている。なお、図９に示す韻律生成部９０の構成は、上記図３とともに説明した韻律生成部４の具体例と同様であるため、同等の部分に同じ指示符号を付して説明を省略する。

この韻律生成部９０は、音声記号列の言語を判定する言語判定部９１と、各音素の継続時間長を求めるための継続時間長決定部４２と、音声記号列の言語を判定する言語判定部９２と、各音素の基本周波数を求めるための基本周波数決定部４３と、音声記号列の言語を判定する言語判定部９３と、各音素のパワーを求めるためのパワー決定部４４とを有して構成されている。

言語判定部９１は、継続時間長に関する言語間の類似性の情報を格納した類似性データ９４を有している。また、言語判定部９２は、基本周波数に関する言語間の類似性の情報を格納した類似性データ９５を有している。また、言語判定部９３は、パワーに関する言語間の類似性の情報を格納した類似性データ９６を有している。これらの類似性データ９４、９５、９６は、例えば図４に示すようなテーブルや、図５に示すようなネットワーク構造などとして保持することができる。

次に、図１０に示すフローチャートを用い、韻律生成部９０の動作について説明する。先ず、継続時間長決定部４２に入力される音声記号列の処理について説明する。

ステップS１０１では、言語判定部９１に入力された音声記号列の言語を例えばタグの言語情報から判定する。次に、言語判定部９１は、判定された言語が対応言語であるか否かを判別する（ステップS１０２）。この対応言語の情報は、例えば、一覧として保持されており、言語判定部１０１は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。

判定された言語が対応言語である場合、言語判定部９１は、対応言語解析ルール４８、及び対応言語生成ルール５０を適用させるように音声記号列を継続時間長決定部４２へ出力する。継続時間長決定部４２は、入力された音声記号列を対応言語解析ルール４８及び対応言語生成ルール５０を適用し（ステップＳ１０３）、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。

判定された言語が未知言語である場合、言語判定部９１は、類似性データ９４を参照し（ステップＳ１０４）、代替言語があるかどうかを判別する（ステップＳ１０５）。類似性データ９４は、例えば図４及び図５に示すように言語間における音素の継続時間長の類似性に基づく情報として保持されている。例えば、図５に示すようなネットワーク構造として言語間の韻律の類似性が保持され、対象言語が英語とフランス語である場合、中国語はフランス語で代替可能であるが、スペイン語は代替できない未知言語となる。

ステップＳ１０５において代替言語を有する場合、上記ステップＳ１０３へ進む。代替言語を有さない場合、言語判定部９１は、未知言語解析ルール４９及び未知言語生成ルール５１を適用させるように音声記号列を継続時間長決定部４２へ出力する。継続時間長決定部４２は、入力された音声記号列を未知言語解析ルール４９及び未知言語生成ルール５１を適用し（ステップＳ１０６）、音素の継続時間長を決定する（ステップＳ１０７）。

また、基本周波数決定部４３及びパワー決定部４４に入力される音声記号列も上記継続時間長決定部４２に入力される音声記号列と同様に処理され、音素の基本周波数及びパワーが決定される。

このように韻律生成部９０は、音素のパラメータである継続時間長、基本周波数及びパワーをそれぞれ類似性に基づいて決定することができるので、どのような言語の音声記号列が入力されても、入力された言語に正確な韻律データを生成することができる。

以上、本発明に係るテキスト音声合成装置１によれば、どのような言語のテキストが入力されても音声を合成することができ、さらに、入力された言語に正確な韻律で音声を出力することができる。

なお、本実施の形態では、解析された言語毎に言語情報を示すタグを付与することとしたが、これに限られるものではなく、例えば言語毎に異なる音声記号列を使用してもよい。

本発明に係るテキスト音声合成装置の構成を示すブロック図である。本発明に係る音声記号列生成部の構成を示すブロック図である。本発明に係る韻律生成部の構成を示すブロック図である。本発明に係る類似性データを説明する図である。本発明に係る類似性データを説明する図である。本発明に係る波形生成部の構成を示すブロック図である。本発明に係る韻律生成部の動作を説明するフローチャートである。本発明に係る韻律生成部の動作を説明するフローチャートである。本発明に係る韻律生成部の他の構成を示すブロック図である。本発明に係る他の構成を有する韻律生成部の動作を説明するフローチャートである。従来のテキスト音声合成装置の構成を示すブロック図である。

符号の説明

１テキスト音声合成装置、２言語解析部、３音声記号列生成部、４韻律生成部、５波形生成部、２１テキスト解析部、２２韻律情報生成部、２３テキスト解析ルール、２４辞書、２５韻律情報生成ルール、４１言語判定部、４２継続時間長決定部、４３基本周波数決定部、４４パワー決定部、６５出力生成部、７１韻律データ分配部、７２素片選択部、７３パラメータ補正部、７４波形組立部、７５音声データ、９０韻律生成部、９１、９２、９３言語判定部、９４、９５、９６類似性データ、１００テキスト音声合成装置、１０１音声記号列生成部、１０２韻律生成部、１０３波形生成部

Claims

任意の言語の入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、
上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成手段と、
上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段と
を有することを特徴とするテキスト音声合成装置。
上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、上記予め定められた複数の言語に代替する言語が存在しない場合、上記未知言語の韻律データを生成することを特徴とする請求項１記載のテキスト音声合成装置。
上記韻律生成手段は、
上記音声記号列の各音素の継続時間長を決定する継続時間長決定手段と、
上記音声記号列の各音素の基本周波数を決定する基本周波数決定手段と、
上記音声記号列の各音素のパワーを決定するパワー決定手段とを有し、
上記継続時間長決定手段、上記基本周波数決定手段及び上記パワー決定手段毎に上記音声記号列の言語をそれぞれ判定し、それぞれの言語判定結果に応じて上記音声記号列の各音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成することを特徴とする請求項１記載のテキスト音声合成装置。
上記言語の類似性は、優先度が設けられた対応表で表されることを特徴とした請求項２記載のテキスト音声合成装置。
上記言語の類似性は、優先度が設けられたネットワーク構造で表されることを特徴とした請求項２記載のテキスト音声合成装置。
任意の言語の入力テキストを処理するテキスト音声合成装置であって、
上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、
上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成手段と、
上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有し、
上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴とするテキスト音声合成装置。
任意の言語の入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、
上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成工程と、
上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程と
を有することを特徴とするテキスト音声合成方法。
上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、上記予め定められた複数の言語に代替する言語が存在しない場合、上記未知言語の韻律データを生成することを特徴とする請求項７記載のテキスト音声合成方法。
上記韻律生成工程は、
上記音声記号列の各音素の継続時間長を決定する継続時間長決定工程と、
上記音声記号列の各音素の基本周波数を決定する基本周波数決定工程と、
上記音声記号列の各音素のパワーを決定するパワー決定工程とを有し、
上記継続時間長決定工程、上記基本周波数決定工程及び上記パワー決定工程毎に上記音声記号列の言語をそれぞれ判定し、それぞれの言語判定結果に応じて上記音声記号列の各音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成することを特徴とする請求項７記載のテキスト音声合成方法。
上記言語の類似性は、優先度が設けられた対応表で表されることを特徴とした請求項８記載のテキスト音声合成方法。
上記言語の類似性は、優先度が設けられたネットワーク構造で表されることを特徴とした請求項８記載のテキスト音声合成方法。
任意の言語の入力テキストを処理するテキスト音声合成方法であって、
上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、
上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成工程と、
上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有し、
上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴とするテキスト音声合成方法。