JP2006030383A - テキスト音声合成装置及びテキスト音声合成方法 - Google Patents

テキスト音声合成装置及びテキスト音声合成方法 Download PDF

Info

Publication number
JP2006030383A
JP2006030383A JP2004206079A JP2004206079A JP2006030383A JP 2006030383 A JP2006030383 A JP 2006030383A JP 2004206079 A JP2004206079 A JP 2004206079A JP 2004206079 A JP2004206079 A JP 2004206079A JP 2006030383 A JP2006030383 A JP 2006030383A
Authority
JP
Japan
Prior art keywords
language
text
phonetic symbol
symbol string
prosody
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004206079A
Other languages
English (en)
Inventor
Erika Kumakura
恵理香 熊倉
Toshiyuki Kumakura
俊之 熊倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004206079A priority Critical patent/JP2006030383A/ja
Publication of JP2006030383A publication Critical patent/JP2006030383A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】どのような言語のテキストが入力された場合であっても、音声を合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供する。
【解決手段】入力テキストが変換された音声記号列の言語を言語判定部41にて判定する。言語判定部41にて判定された言語に応じて予め定められた複数の対応言語のルール又はこれら予め定められた複数の言語のいずれにも属さない未知言語のルールを適用して韻律データを生成し、韻律データに基づいて音声波形を生成する。
【選択図】図3

Description

本発明は、複数の言語を扱うことができるテキスト音声合成装置及びテキスト音声合成方法に関する。
テキスト音声合成は、タイプ入力などにより得られた入力テキストを人間の音声の生成機構に基づいて機械的に音声を合成するものである。図11に、従来のテキスト音声合成装置100の構成を示す。テキスト音声合成装置100は、入力テキストを音声記号列に変換する音声記号列生成部101と、音声記号列を韻律データに変換する韻律生成部102と、韻律データから音声波形を生成する波形生成部103とを有して構成されている。
音声記号列生成部101は、入力テキストを意味をもつ最小の言語単位である形態素に分割し、形態素に関する表記、品詞、読みなどの情報が格納された辞書を参照して音声記号列を生成する。この音声記号列は、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。
そして、韻律生成部102は、入力された音声記号列を解析し、音素毎に継続時間長、基本周波数及びパワーを決定する。決定された各音素の情報は、韻律データとして波形生成部103に出力する。ここで、音素とは、ある1つの言語で用いられる音の単位で、意味の相違をもたらす最小の単位である。
韻律生成部102から出力された韻律データは、波形生成部103で音素列情報、音素時間情報、ピッチパタン情報に分けられる。音素列情報には音素列が含まれており、選択された音素列に対応する音響特長パラメータは、音素時間情報に基づいて時間軸上で伸縮され、ピッチパタン情報に基づいてピッチが変更されて音声波形に変換される。
以上のような処理により、音声合成装置100は、タイプ入力などにより得られた入力テキストを音声波形に変換する。
特開2001−14305号公報
ところで、テキスト音声合成装置において、日本語、英語などの複数の言語を処理できるものが知られている(例えば、特許文献1参照。)。例えば、特許文献1に記載の電子文書処理装置は、電子文書を記述する言語を示す属性情報に基づいて音声合成エンジンを選択することにより複数の言語を処理可能としている。
しかしながら、特許文献1に記載の電子文書処理装置では、装置が備えていない音声合成エンジンの言語が入力された場合、音声を合成することができなかった。
本発明は、このような課題に鑑みてなされたものであり、どのような言語のテキストが入力された場合であっても、音声を合成することができるテキスト音声合成装置及びテキスト音声合成方法を提供することを目的とする。
上述した目的を達成するために、本発明に係るテキスト音声合成装置は、任意の言語の入力テキストを処理するテキスト音声合成装置であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成手段と、上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有することを特徴としている。
また、本発明に係るテキスト音声合成装置は、任意の言語の入力テキストを処理するテキスト音声合成装置であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成手段と、上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有し、上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴としている。
また、本発明に係るテキスト音声合成方法は、任意の言語の入力テキストを処理するテキスト音声合成方法であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成工程と、上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有することを特徴としている。
また、本発明に係るテキスト音声合成方法は、任意の言語の入力テキストを処理するテキスト音声合成方法であって、上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成工程と、上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有し、上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴としている。
本発明によれば、入力テキストが変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成し、当該韻律データに基づいて音声波形を生成することにより、どのような言語であっても音声を合成することができる。
以下、本発明の実施の形態について、図面を参照にしながら詳細に説明する。本発明の具体例として示すテキスト音声合成装置は、正しい韻律で音声を合成できる予め定められた言語以外のテキストが入力された場合でも、音声記号列を韻律データに変換することができるものである。なお、ここでは、装置に予め定められた言語であって、正しい韻律が生成可能な言語を対応言語と呼び、その他の言語を未知言語と呼ぶこととする。
図1は、テキスト音声合成装置1の全体構成を示すものである。テキスト音声合成装置1は、入力テキストの言語を解析する言語解析部2と、入力テキストを音声記号列に変換する音声記号列生成部3と、音声記号列の言語を判定し、判定結果に応じて韻律データを生成する韻律生成部4と、韻律データに基づいて音声波形を生成する波形生成部5とを有して構成されている。
言語解析部2は、入力テキストに含まれる言語を解析する。また、言語解析部2は、入力テキストを解析された言語毎に言語情報を示すタグを付与する。例えば、「これは日本語です」という日本語の文に対するタグ付きテキストは、以下のように記述される。
<Lang=japanese>これは日本語です<\Lang>
なお、<>で囲まれた文字列がタグ、それ以外がテキスト部分である。また、<Lang=japanese>は文内で日本語(Japanese)が開始することを示し、<\Lang>は当該言語が終了することを示す。また、テキストの属性情報として言語情報が記述されたタグを用いて説明するが、本発明の実施形態はこれに限られるものではない。
言語の解析は、例えば次のような方法により行われる。
1.外部から与えられた情報により言語を解析する
例えばタグ等の属性情報が付与されている場合、その属性情報に含まる言語情報に基づいて言語を解析する。
2.文字の種類により言語を解析する
例えば、ひらがな、カタカナ、漢字ならば日本語、アルファベットならば英語と解析する。
3.辞書を参照することにより言語を解析する
例えば、入力テキストを辞書に格納されている単語などと照合することにより言語を解析する。
4.文字コードにより言語を解析する
言語の種類などで決められた数値の羅列である文字コードを解析することにより、言語を解析する。
音声記号列生成部3は、図2に示すように、入力テキストを解析し、形態素情報を生成するテキスト解析部21と、形態素情報に基づいて音声記号列を生成する韻律情報生成部22とを有して構成されている。ここで、形態素とは、語幹、接頭辞、接尾辞など、意味をもつ文字列の最小単位で、単語よりやや小さいものである。また、音声記号列とは、発音記号やアクセント記号などで表現したものである。
テキスト解析部21は、テキスト解析ルール23と辞書24とを有している。テキスト解析ルール23には、形態素の並びに関する規則(文法や接続マトリックス、形態素Nグラムなど)と辞書24に登録されていない形態素に必要な情報を付与する規則とが格納されている。また、辞書24には、表記、品詞、読みなど、登録されている形態素に関する情報が納められている。
韻律情報生成部22は、形態素情報を解析し韻律情報を得るための韻律情報生成ルール25を有する。韻律情報生成ルール25には、形態素情報をもとにフレーズの区切り方を指すフレージングや読みの変更を行うための規則が納められている。また、入力された各形態素について、韻律生成のためのさらに詳しい情報を得るため、テキスト解析部21で用いた辞書24とも接続されている。韻律生成のための情報とは、例えば、複数の形態素が一緒になって複合語を形成する際に、読みがどのように変化するかの情報や、アクセント核位置の移動パタンの情報などである。
なお、図4に示す音声記号列生成部3の構成では、1つの辞書24に形態素に関する情報と韻律生成のための情報とを納める構成となっているが、それぞれ別の辞書を保持してもよい。すなわち、テキスト解析部21は、形態素に関する情報のみが納められた辞書と接続され、韻律情報生成部22は、韻律生成のための情報のみが納められた辞書と接続されるという構成でも同様の処理を行うことができる。また、テキスト解析ルール23、辞書24及び韻律情報生成ルール25は、各言語のルールを格納していることとしているが、言語毎にルールを独立して有する構成としてもよい。
ここで、入力テキストの処理について説明する。なお、入力テキストは、一文の場合でも、複数文からなる場合でもよい。
入力テキストは、言語解析部21にて言語毎のテキスト部分に区分される。区分されたテキスト部分は、テキスト解析部21において、テキスト解析ルール23と辞書24とを用いて形態素に分割され、辞書24からそれぞれの形態素に関する情報を得る。辞書24に登録されていない形態素については、テキスト解析ルール23を用いて、必要な形態素情報を生成する。このようにして得られた形態素情報は、韻律情報生成部22へと送られる。
韻律情報生成部22では、テキスト解析部21から受け取った形態素情報をもとに、入力文に対し、韻律情報生成ルール25を用いて韻律情報を付与するという処理を行う。韻律情報は、言語によって異なるが、日本語であれば、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などの情報である。なお、韻律情報は、装置の設計によって異なるので、上記情報を全て含む必要はなく、上記情報に限定されるものではない。
韻律情報生成部22の処理によって得られる韻律情報は、音声記号列で表現され、韻律生成部へと出力する。音声記号列とは、入力テキストを発音記号、アクセント記号、ポーズ記号、音調記号などを用いて表現したものである。これらの記号は、独自のものを定義してもよいし、既存の記号を採用してもよい。例えば、IPA(国際音声字母、International Phonetic Alphabet)、SAMPA(Speech Assessment Methods Phonetic Alphabet)などの発音記号、アクセント記号などを用いてもよい。又は、ToBI(Tone and Break Indices)などのポーズ記号、音調記号などを用いてもよい。本実施の形態では、便宜的にローマ字を用いて説明する。例えば、「これは日本語です。」という入力テキストに対し、音声記号列生成部22から出力される音声記号列は、例えば次のように記述される。
<Lang=japanese>korewanihongodesu<\Lang>
なお、<>で囲まれた文字列がタグ、それ以外が音声記号列である。また、<Lang=japanese>は文内で日本語(Japanese)が開始することを示し、<\Lang>は当該言語が終了することを示す。また、音声記号列の属性情報として言語情報が記述されたタグを用いて説明するが、本発明の実施の形態はこれに限られるものではない。
図3は、韻律生成部4の構成を示すブロック図である。韻律生成部4は、音声記号列の言語を判定する言語判定部41と、各音素の継続時間長を求めるための継続時間長決定部42と、各音素の基本周波数を求めるための基本周波数決定部43と、各音素のパワーを求めるためのパワー決定部44とを有して構成されている。
言語判定部41は、例えば音声記号列に付与されたタグの言語情報により音声記号列の言語を判定し、正しい韻律で音声を合成できる予め定められた対応言語か否かを判別する。
また、言語判定部41は、韻律の類似性による言語情報か格納されている類似性データ45を有しており、入力された音声記号列が対応言語ではない、つまり未知言語であると判別した場合、後述するように、類似性データ45に基づいて対応言語の中から選択して韻律データを生成させることができる。
この類似性データ45は、例えば図4に示すように言語対応表として保持されている。この例は、対応言語として、日本語、英語及びドイツ語が設定されており、この対応言語の韻律で代替可能な類似言語が定められているものである。例えば、フランス語は、日本語の韻律で代替可能であることを示している。また、言語対応表は、類似言語を優先順にに記述することにより優先度を設けることができる。
また、類似性データ45は、例えば図5に示すようなネットワーク構造として保持されていてもよい。この例において、片方向の矢印は、矢印の方向の言語に代替可能であることを示し、両方向の矢印は両方向に代替可能であることを示している。また、矢印の長さは、類似性の高さを示しており、短ければ短いほど類似性が高いため、代替言語の優先度が高くなる。この例において、例えば日本語、英語及びドイツ語を対応言語とした場合、言語判定部41は、中国語の音声記号列に対して、最短ルートである英語で代替するように指示することができる。
図3に戻って、継続時間長決定部42は、音声記号列解析部46と、ルール適用部47とを有している。音声記号列解析部46は、音声記号列を解析するための対応言語用の対応言語解析ルール48と未知言語用の未知言語解析ルール49とを有している。対応言語解析ルール48及び未知言語解析ルール49には、それぞれ、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。
ルール適用部47は、各音素の継続時間長を決めるための対応言語用の対応言語生成ルール50と未知言語用の未知言語生成ルール51とを有している。対応言語生成ルール50及び未知言語生成ルール51には、各音素の継続時間長を決定するためのルールが格納されており、どのような音韻環境のときにデフォルト継続時間長を伸縮させるかを決めるための規則が格納されている。また、音素のデフォルト継続時間長も格納されている。ここで、音韻環境とは、その音素が母音であるかどうか、前後の音素が何であるか、音節の何番目の音素であるか、アクセント核位置かどこかなどを示すものである。
継続時間長決定部42は、対応言語生成ルール50又は未知言語生成ルール51を用いて、各音素の継続時間長を決定する。対応言語生成ルール50又は未知言語生成ルール51を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定された継続時間長の情報は、基本周波数決定部43へ送信される。
基本周波数決定部43は、音声記号列解析部52と生成ルール適用部53と時間伸縮部54とを有している。音声記号列解析部52は、音声記号列を解析するための対応言語用の対応言語解析ルール55と未知言語用の未知言語解析ルール56とを有している。対応言語解析ルール55及び未知言語解析ルール56には、それぞれ、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。
ルール適用部53は、基本周波数パタンを生成するための対応言語用の対応言語生成ルール57と未知言語用の未知言語生成ルール58とを有している。対応言語生成ルール57及び未知言語生成ルール58には、アクセント型等の音調区分に対する基本周波数パタンの値及び、それらのパタンの選択、変形のためのルールが格納されている。
ここで、ルールの選択方法は装置によって、様々な形態が考えられるが、本実施の形態では、その音素が属する単語のアクセント型や、アクセントの強さ、係り受けなどの文構造などを基準にルールの適用可能性の是非を判定する。
対応言語生成ルール57及び未知言語生成ルール58に含まれる基本周波数パタンのデータは、複数の音素にまたがる基本周波数の値を保持しており、ルールにより選択できるように、アクセント型や音調など予測要因毎にパタンが分類してある。
基本周波数決定部43は、対応言語生成ルール57及び未知言語生成ルール58を用いて、各音素の基本周波数を決定する。対応言語生成ルール57又は未知言語生成ルール58を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。ルール適用部53は、音声記号列の解析により得られた情報から対応言語生成ルール57及び未知言語生成ルール58を用いて、最適なパタンを選択、変形する。時間伸縮部54は、選択されたパタンを、継続時間長決定部42ですでに決定された各音素の継続時間長にあわせて、変形させ、音素毎の基本周波数を決定する。
パワー決定部44は、音声記号列解析部59と、ルール適用部60とを有している。音声記号列解析部59は、音声記号列を解析するための対応言語用の対応言語解析ルール61と未知言語用の未知言語解析ルール62とを有している。対応言語解析ルール61及び未知言語解析ルール62には、例えば、アクセント核位置、アクセントの強さ、ポーズ位置、ポーズの長さ、読みの変化などを音声記号列から取得するためのルールが格納されている。
ルール適用部60は、各音素のパワーを決定するための対応言語用の対応言語生成ルール63と未知言語用の未知言語生成ルール64とを有している。対応言語生成ルール63及び未知言語生成ルール64には、各音素のパワーを決定するためのルールが格納されている。
パワー決定部53は、対応言語生成ルール63又は未知言語用の未知言語生成ルール64を用いて、各音素のパワーを決定する。対応言語生成ルール63又は未知言語用の未知言語生成ルール64を適用するのに必要な情報は、入力された音声記号列を解析することにより得られる。決定されたパワーの情報は、出力生成部65へ送信される。
出力生成部65は、継続時間長決定部42で決定された音素毎の継続時間長、基本周波数決定部43で決定された音素毎の基本周波数及びパワー決定部44で決定された音素毎のパワーの情報を韻律データとして生成し、韻律生成部4へ出力する。
図6は、波形生成部5の構成を示すブロック図である。波形生成部5は、韻律生成部4から出力された韻律データから音声波形を生成する。波形生成部5は、入力された韻律データを情報毎に分配する韻律データ分配部71と、音素列の音響特長パラメータを生成する素片選択部72と、音響特長パラメータを補正するパラメータ補正部73と、ピッチを変更しながら音声信号波形を合成する波形組立部74とを有して構成されている。また、素片選択部72は、音響的な特長を示すパラメータを格納した音声データ75を有している。
韻律データ分配部71は、入力された韻律データを音素列情報、音素時間長情報及びピッチパタン情報に分け、それぞれ、素片選択部72、パラメータ補正部73及び波形組立部74に出力する。
素片選択部72は、入力された音素列情報に基づいて音声データ75を参照して上記音素列情報に含まれる音素列を選択し、選択した音素列に対応する音響特長パラメータを音声データ75から順次読み出して出力する。
音声データ75は、既存の規則音声合成装置に使用されるものと同様のもので、例えばケプストラム係数などの音声の音響的な特長を示すパラメータなどである。また、素片のひとつひとつの長さは、CV、CVC(C:子音、V:母音)、その他の合成単位に応じた単位、あるいはコーパスベースの合成方式では特に合成単位に固定されない。
パラメータ補正部73は、音素列によって時間軸上に並べられた音響特長パラメータを、韻律データ分配部71から入力された音素時間情報によってそれぞれの音素の長さに等しくなるように時間軸上で伸縮する。また、素片の接続部での音響特長パラメータの不整合を避けるために音響特長パラメータを補正する。
波形組立部74は、パラメータ補正部73から出力される音響特長パラメータの系列に基づいて、また、韻律データ分配部71からのピッチパタン情報に基づいてピッチを変更しながら音声信号波形を合成して出力する。
次に、図7及び図8に示すフローチャートを用い、韻律生成部4の動作例について説明する。本実施の形態のテキスト音声合成装置1は、入力テキストの言語を解析し、解析された言語毎に言語情報を示すタグを付与することとして説明するが、これに限られるものではない。
先ず、図7に示すフローチャートを用いて韻律生成部4の動作例について説明する。言語判定部41に入力された音声記号列の言語を例えばタグの言語情報から判定する(ステップS71)。次に、言語判定部41は、判定された言語が対応言語であるか否かを判別する(ステップS72)。この対応言語の情報は、例えば、一覧として保持されており、言語判定部41は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。
判定された言語が対応言語である場合、言語判定部41は、対応言語解析ルール48、55、61及び対応言語生成ルール50、57、63を適用させるように音声記号列を継続時間長決定部42、基本周波数決定部43及びパワー決定部44へ出力する。継続時間長決定部42、基本周波数決定部43及びパワー決定部44は、入力された音声記号列を対応言語解析ルール48、55、61及び対応言語生成ルール50、57、63を適用し(ステップS73)、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。
判定された言語が未知言語である場合、言語判定部41は、未知言語解析ルール49、56、62及び未知言語生成ルール51、58、64を適用させるように音声記号列を継続時間長決定部42、基本周波数決定部43及びパワー決定部44へ出力する。継続時間長決定部42、基本周波数決定部43及びパワー決定部44は、入力された音声記号列を未知言語解析ルール49、56、62及び未知言語生成ルール51、58、64を適用し(ステップS74)、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。未知言語のルールを適用した場合の音声は、例えば「korewanihongodesu」と記述された音声記号列に対し、ko re wa ni ho n go de suとすべての音が確認でき、発音内容が理解できるようなものである。
このような動作により未知言語の音声記号列が入力された場合でも、未知言語用のルールを適用することにより韻律データを生成することができる。
次に、図8に示すフローチャートを用い、韻律生成部4の他の動作例について説明する。この動作例は、正しい韻律を生成できない言語である未知言語の音声記号列が入力された場合でも、対応言語の中から代替言語を決定し、その代替言語のルールを適用して韻律データを生成するものである。
ステップS81では、言語判定部41に入力された音声記号列の言語を例えばタグの言語情報から判定する。次に、言語判定部41は、判定された言語が対応言語であるか否かを判別する(ステップS82)。この対応言語の情報は、例えば、一覧として保持されており、言語判定部41は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。
判定された言語が対応言語である場合、言語判定部41は、対応言語解析ルール48、55、61及び対応言語生成ルール50、57、63を適用させるように音声記号列を継続時間長決定部42、基本周波数決定部43及びパワー決定部44へ出力する。継続時間長決定部42、基本周波数決定部43及びパワー決定部44は、入力された音声記号列を対応言語解析ルール48、55、61及び対応言語生成ルール50、57、63を適用し(ステップS83)、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。
判定された言語が未知言語である場合、言語判定部41は、類似性データ45を参照し(ステップS84)、代替言語があるかどうかを判別する(ステップS85)。類似性データ45は、例えば図4及び図5に示すように言語間の韻律の類似性に基づく情報として保持されている。例えば、図5に示すようなネットワーク構造として言語間の韻律の類似性が保持され、対象言語が英語とフランス語である場合、中国語はフランス語で代替可能であるが、スペイン語は代替できない未知言語となる。
ステップS85において代替言語を有する場合、上記ステップS83へ進む。代替言語を有さない場合、言語判定部41は、未知言語解析ルール49、56、62及び未知言語生成ルール51、58、64を適用させるように音声記号列を継続時間長決定部42、基本周波数決定部43及びパワー決定部44へ出力する。継続時間長決定部42、基本周波数決定部43及びパワー決定部44は、入力された音声記号列を未知言語解析ルール49、56、62及び未知言語生成ルール51、58、64を適用し(ステップS86)、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。未知言語のルールを適用した場合の音声は、例えば「korewanihongodesu」と記述された音声記号列に対し、ko re wa ni ho n go de suとすべての音が確認でき、発音内容が理解できるようなものである。
このような動作により未知言語の音声記号列が入力された場合、類似性データ45を参照し、代替言語のルールを適用することにより、入力された音声記号列の言語に正確な韻律に近づけることができる。
なお、韻律生成部4には、未知言語用のルールを有する構成としたが、どのような言語でも代替言語を指定できるように類似性データ45を作成し、対応言語を定めることにより、未知言語を処理することができる。
また、ステップS85において代替言語を有する場合、音声記号列をその代替言語の音声記号列に変換するステップを設けてもよい。例えば、英語が代替言語とされた場合「korewanihongodesu」と記述された音声記号列は、「k@rew@nIhoNg@des」と変換され、英語のように発声される。
図9は、本発明を適用させた韻律生成部の他の構成を示すブロック図である。この韻律生成部90は、図9に示すように、継続時間長決定部42、基本周波数決定部43及びパワー決定部44に音声記号列が入力される前に、それぞれ言語を判定する言語判定部91、92、93を有する構成となっている。なお、図9に示す韻律生成部90の構成は、上記図3とともに説明した韻律生成部4の具体例と同様であるため、同等の部分に同じ指示符号を付して説明を省略する。
この韻律生成部90は、音声記号列の言語を判定する言語判定部91と、各音素の継続時間長を求めるための継続時間長決定部42と、音声記号列の言語を判定する言語判定部92と、各音素の基本周波数を求めるための基本周波数決定部43と、音声記号列の言語を判定する言語判定部93と、各音素のパワーを求めるためのパワー決定部44とを有して構成されている。
言語判定部91は、継続時間長に関する言語間の類似性の情報を格納した類似性データ94を有している。また、言語判定部92は、基本周波数に関する言語間の類似性の情報を格納した類似性データ95を有している。また、言語判定部93は、パワーに関する言語間の類似性の情報を格納した類似性データ96を有している。これらの類似性データ94、95、96は、例えば図4に示すようなテーブルや、図5に示すようなネットワーク構造などとして保持することができる。
次に、図10に示すフローチャートを用い、韻律生成部90の動作について説明する。先ず、継続時間長決定部42に入力される音声記号列の処理について説明する。
ステップS101では、言語判定部91に入力された音声記号列の言語を例えばタグの言語情報から判定する。次に、言語判定部91は、判定された言語が対応言語であるか否かを判別する(ステップS102)。この対応言語の情報は、例えば、一覧として保持されており、言語判定部101は、判定された言語がその一覧に存在するか否かにより対応言語であるか否かを判別する。
判定された言語が対応言語である場合、言語判定部91は、対応言語解析ルール48、及び対応言語生成ルール50を適用させるように音声記号列を継続時間長決定部42へ出力する。継続時間長決定部42は、入力された音声記号列を対応言語解析ルール48及び対応言語生成ルール50を適用し(ステップS103)、それぞれ音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成する。
判定された言語が未知言語である場合、言語判定部91は、類似性データ94を参照し(ステップS104)、代替言語があるかどうかを判別する(ステップS105)。類似性データ94は、例えば図4及び図5に示すように言語間における音素の継続時間長の類似性に基づく情報として保持されている。例えば、図5に示すようなネットワーク構造として言語間の韻律の類似性が保持され、対象言語が英語とフランス語である場合、中国語はフランス語で代替可能であるが、スペイン語は代替できない未知言語となる。
ステップS105において代替言語を有する場合、上記ステップS103へ進む。代替言語を有さない場合、言語判定部91は、未知言語解析ルール49及び未知言語生成ルール51を適用させるように音声記号列を継続時間長決定部42へ出力する。継続時間長決定部42は、入力された音声記号列を未知言語解析ルール49及び未知言語生成ルール51を適用し(ステップS106)、音素の継続時間長を決定する(ステップS107)。
また、基本周波数決定部43及びパワー決定部44に入力される音声記号列も上記継続時間長決定部42に入力される音声記号列と同様に処理され、音素の基本周波数及びパワーが決定される。
このように韻律生成部90は、音素のパラメータである継続時間長、基本周波数及びパワーをそれぞれ類似性に基づいて決定することができるので、どのような言語の音声記号列が入力されても、入力された言語に正確な韻律データを生成することができる。
以上、本発明に係るテキスト音声合成装置1によれば、どのような言語のテキストが入力されても音声を合成することができ、さらに、入力された言語に正確な韻律で音声を出力することができる。
なお、本実施の形態では、解析された言語毎に言語情報を示すタグを付与することとしたが、これに限られるものではなく、例えば言語毎に異なる音声記号列を使用してもよい。
本発明に係るテキスト音声合成装置の構成を示すブロック図である。 本発明に係る音声記号列生成部の構成を示すブロック図である。 本発明に係る韻律生成部の構成を示すブロック図である。 本発明に係る類似性データを説明する図である。 本発明に係る類似性データを説明する図である。 本発明に係る波形生成部の構成を示すブロック図である。 本発明に係る韻律生成部の動作を説明するフローチャートである。 本発明に係る韻律生成部の動作を説明するフローチャートである。 本発明に係る韻律生成部の他の構成を示すブロック図である。 本発明に係る他の構成を有する韻律生成部の動作を説明するフローチャートである。 従来のテキスト音声合成装置の構成を示すブロック図である。
符号の説明
1 テキスト音声合成装置、 2 言語解析部、 3 音声記号列生成部、 4 韻律生成部、 5 波形生成部、 21 テキスト解析部、 22 韻律情報生成部、 23 テキスト解析ルール、 24 辞書、 25 韻律情報生成ルール、 41 言語判定部、 42 継続時間長決定部、 43 基本周波数決定部、 44 パワー決定部、 65 出力生成部、 71 韻律データ分配部、 72 素片選択部、 73 パラメータ補正部、 74 波形組立部、 75 音声データ、 90 韻律生成部、 91、92、93 言語判定部、 94、95、96 類似性データ、 100 テキスト音声合成装置、 101 音声記号列生成部、 102 韻律生成部、 103 波形生成部

Claims (12)

  1. 任意の言語の入力テキストを処理するテキスト音声合成装置であって、
    上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、
    上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成手段と、
    上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段と
    を有することを特徴とするテキスト音声合成装置。
  2. 上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、上記予め定められた複数の言語に代替する言語が存在しない場合、上記未知言語の韻律データを生成することを特徴とする請求項1記載のテキスト音声合成装置。
  3. 上記韻律生成手段は、
    上記音声記号列の各音素の継続時間長を決定する継続時間長決定手段と、
    上記音声記号列の各音素の基本周波数を決定する基本周波数決定手段と、
    上記音声記号列の各音素のパワーを決定するパワー決定手段とを有し、
    上記継続時間長決定手段、上記基本周波数決定手段及び上記パワー決定手段毎に上記音声記号列の言語をそれぞれ判定し、それぞれの言語判定結果に応じて上記音声記号列の各音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成することを特徴とする請求項1記載のテキスト音声合成装置。
  4. 上記言語の類似性は、優先度が設けられた対応表で表されることを特徴とした請求項2記載のテキスト音声合成装置。
  5. 上記言語の類似性は、優先度が設けられたネットワーク構造で表されることを特徴とした請求項2記載のテキスト音声合成装置。
  6. 任意の言語の入力テキストを処理するテキスト音声合成装置であって、
    上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理手段と、
    上記言語処理手段にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成手段と、
    上記韻律生成手段にて生成された韻律データに基づいて音声波形を生成する音声波形生成手段とを有し、
    上記韻律生成手段は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴とするテキスト音声合成装置。
  7. 任意の言語の入力テキストを処理するテキスト音声合成方法であって、
    上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、
    上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語及びこれら予め定められた複数の言語のいずれにも属さない未知言語の内のいずれかの韻律データを生成する韻律生成工程と、
    上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程と
    を有することを特徴とするテキスト音声合成方法。
  8. 上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、上記予め定められた複数の言語に代替する言語が存在しない場合、上記未知言語の韻律データを生成することを特徴とする請求項7記載のテキスト音声合成方法。
  9. 上記韻律生成工程は、
    上記音声記号列の各音素の継続時間長を決定する継続時間長決定工程と、
    上記音声記号列の各音素の基本周波数を決定する基本周波数決定工程と、
    上記音声記号列の各音素のパワーを決定するパワー決定工程とを有し、
    上記継続時間長決定工程、上記基本周波数決定工程及び上記パワー決定工程毎に上記音声記号列の言語をそれぞれ判定し、それぞれの言語判定結果に応じて上記音声記号列の各音素の継続時間長、基本周波数及びパワーを決定し、韻律データを生成することを特徴とする請求項7記載のテキスト音声合成方法。
  10. 上記言語の類似性は、優先度が設けられた対応表で表されることを特徴とした請求項8記載のテキスト音声合成方法。
  11. 上記言語の類似性は、優先度が設けられたネットワーク構造で表されることを特徴とした請求項8記載のテキスト音声合成方法。
  12. 任意の言語の入力テキストを処理するテキスト音声合成方法であって、
    上記入力テキストの言語を解析するとともに、上記入力テキストを音声記号列に変換する言語処理工程と、
    上記言語処理工程にて変換された音声記号列の言語を判定し、当該判定結果に応じて予め定められた複数の言語の韻律データを生成する韻律生成工程と、
    上記韻律生成工程にて生成された韻律データに基づいて音声波形を生成する音声波形生成工程とを有し、
    上記韻律生成工程は、上記判定結果が上記予め定められた複数の言語のいずれかに該当する場合、当該言語の韻律データを生成し、上記判定結果が上記予め定められた複数の言語のいずれにも該当しない場合、上記予め定められた複数の言語から代替する言語を言語の類似性に基づいて選択し、当該言語の韻律データを生成することを特徴とするテキスト音声合成方法。
JP2004206079A 2004-07-13 2004-07-13 テキスト音声合成装置及びテキスト音声合成方法 Withdrawn JP2006030383A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004206079A JP2006030383A (ja) 2004-07-13 2004-07-13 テキスト音声合成装置及びテキスト音声合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004206079A JP2006030383A (ja) 2004-07-13 2004-07-13 テキスト音声合成装置及びテキスト音声合成方法

Publications (1)

Publication Number Publication Date
JP2006030383A true JP2006030383A (ja) 2006-02-02

Family

ID=35896846

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004206079A Withdrawn JP2006030383A (ja) 2004-07-13 2004-07-13 テキスト音声合成装置及びテキスト音声合成方法

Country Status (1)

Country Link
JP (1) JP2006030383A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101160193B1 (ko) * 2010-10-28 2012-06-26 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
JP2015064543A (ja) * 2013-08-28 2015-04-09 シャープ株式会社 テキスト読み上げ装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101160193B1 (ko) * 2010-10-28 2012-06-26 (주)엠씨에스로직 감성적 음성합성 장치 및 그 방법
JP2015064543A (ja) * 2013-08-28 2015-04-09 シャープ株式会社 テキスト読み上げ装置

Similar Documents

Publication Publication Date Title
US8566099B2 (en) Tabulating triphone sequences by 5-phoneme contexts for speech synthesis
US6076060A (en) Computer method and apparatus for translating text to sound
KR100859532B1 (ko) 대응 문형 패턴 기반 자동통역 방법 및 장치
JP5198046B2 (ja) 音声処理装置及びそのプログラム
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JPH1039895A (ja) 音声合成方法および装置
Bettayeb et al. Speech synthesis system for the holy quran recitation.
JP2006030384A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP2006030383A (ja) テキスト音声合成装置及びテキスト音声合成方法
JP6197523B2 (ja) 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
JP6232724B2 (ja) 音声合成装置及び言語辞書登録方法
JP2004226505A (ja) ピッチパタン生成方法、音声合成方法とシステム及びプログラム
JP3589972B2 (ja) 音声合成装置
JP3366253B2 (ja) 音声合成装置
JP4751230B2 (ja) 韻律素片辞書作成方法、並びに音声合成装置及びプログラム
JP4736524B2 (ja) 音声合成装置及び音声合成プログラム
JP2002358091A (ja) 音声合成方法および音声合成装置
WO2008038994A1 (en) Method for converting pronunciation using boundary pause intensity and text-to-speech synthesis system based on the same
Roux et al. Data-driven approach to rapid prototyping Xhosa speech synthesis
KR20240036908A (ko) 음성합성 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램
JP2023075425A (ja) 言語処理装置、学習装置及びそれらのプログラム
Kumar et al. Empirical Study of Speech Synthesis Markup Language and Its Implementation for Punjabi Language.
JPH1097290A (ja) 音声合成装置
Demenko et al. The design of polish speech corpus for unit selection speech synthesis

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071002