JP5343293B2

JP5343293B2 - 音声編集合成装置及び音声編集合成方法

Info

Publication number: JP5343293B2
Application number: JP2011521765A
Authority: JP
Inventors: 慶華孫; 健司永松; 雄介藤田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-07-08
Filing date: 2009-07-08
Publication date: 2013-11-13
Anticipated expiration: 2029-07-08
Also published as: JPWO2011004502A1; WO2011004502A1

Description

本発明は、音声を合成する技術に関し、特に、混合言語テキストから自然な音声を合成する技術に関する。

近年、生活の多くの場面で人工的に音声合成処理された音声を耳にする機会が増えている。波形接続方式の導入などによって、音質の改善がかなり進んでおり、車載用ナビゲーション装置、公共施設における自動放送装置、メールを読み上げ装置、及び自動通訳システムなど、音声を用いて自動的に情報を提供するサービスが広く普及している。
その一方、グローバル化が進む中、国と国との交流が深まっているため、多言語が混じる文章が多く使われている。二言語テキスト列に対する混合言語ＴＴＳ（ＴｅｘｔｔｏＳｐｅｅｃｈ）において、テキストの大部分を構成する一つの主要な言語は通常、一次言語と呼ばれ、他の言語は二次言語と呼ばれる。例えば、テキストの大部分がテキストの作成者又は利用者の母国語によって構成され、残りの部分が外国語によって構成される場合、母国語が一次言語、外国語が二次言語に相当する。このようなテキストでは、特に人名、地名、固有名称、及び新生語などの外国語単語が、母国語に訳されずに、外国語の発音のままで使われることが多い。したがって、その様な多言語混合テキストから音声を合成するシステムが要求されている。
すでに、いくつかの多言語音声合成方法が提案されているが、それらは大きく二つに分類される。一つは、二次言語を発音列に解析したあと、一次言語の発音列に変換し、一次言語のみによる音声合成を行う方法である。
たとえば、日本語の場合は、外国の単語をカタカナに変換し、外来語として使ってきた歴史がある。そのため、日本語音声合成では、すべての外来語に対して、日本語発音に変換するルールを定義し、日本語発音で外国語単語を発音するような方法が一般的に使われている（特開２０００−３５２９９０号公報参照）。
しかし、例えば日本人がアメリカで自動車を運転中に、車載用ナビゲーション装置を使用する場合を想定すると、日本語での音声案内が望ましいが、地名及び固有名詞などの部分は普段聞きなれているアメリカ発音のほうが、より伝わりやすい場合がある。特に、電子辞書などの場合は、外国語発音のままで読み上げられなければならないため、このような方法は使えない。
もう一つは、あらかじめ一次言語と二次言語の合成エンジンをそれぞれ用意し、言語ごとに切り替える方法である（特開２００６−４８０５６号公報及び特開２００７−１５５８３３号公報参照）。
中国語の場合は、近年、中国語テキストの中の外来語を、外国語表記のままで表現することが多く、それを読み上げるときも外国語のままで発音するため、中国語音声合成システムだけでは、外来語の読み上げが実現できないのが現状である。したがって、このような方法は、多くの中国語音声合成システムに採用されている。
音声変換装置は、入力文章に対して言語的な解析を行い、文章中の各単語の読みを決定する言語処理部と、音素及びポーズの長さ、声の高さ、音の強さなどの韻律的特徴を予測する韻律予測部と、これらの情報を基にして実際の音声信号を合成する音響処理部と、の三つから構成されるのが一般的である。
言語処理部においては、一次言語と二次言語を含む単語辞書を利用することで、多言語を含むテキストの処理を簡単に解決できる。音響処理部においても、同じ話者から録音した一次言語と二次言語を含む音声データベースを用いることで、多言語を含むテキストの処理を簡単に解決できる。しかし、韻律予測部では、多言語を含むテキストを予測できる韻律モデルを作成することは極めて困難である。したがって、従来の多くのシステムは、テキストを、各々が単一言語しか含まない複数のユニットに分割してから、音声を合成し、それぞれの合成した音声をつなぎ合わせるような方法を用いる。このような方法によれば、ユニットごとに音声が合成されるため、ユニット間の不連続が生じやすい。そのため、合成した音声の音質が非常に悪い。二次言語単語の前後にポーズを挿入することによって、不連続を和らげるが、非常に自然性が悪くなり、違和感が生じる。

連結合成に基づくＴＴＳシステムにおいては、言葉はいくつかの音声断片を互いに連結することによって合成される。連結音声合成は、実用的な混合言語ＴＴＳシステムを実現するための有望なアプローチと考えられているが、文全体を考慮した韻律予測、及び二つの言語の合成音声セグメント間における不連続性は、合成音声品質に大きな影響を及ぼす。しかし、現在の技術では、それらの問題を解決できていない。
本発明の代表的な一例を示せば次の通りである。すなわち、文を読み上げる音声を合成する音声編集合成装置であって、前記音声編集合成装置は、文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、第１言語の第１単語及び第２言語の第２単語を含む第１文の入力を受け、前記第２単語を前記第１言語の第３単語によって置き換えることによって、複数の前記第１言語の単語を含み、前記第２言語の単語を含まない第２文を作成し、前記第２文を読み上げる音声を合成し、前記第２単語を含む、複数の前記第２言語の単語を含み、前記第１言語の単語を含まない第３文を取得し、前記第３文を読み上げる音声の音響特徴量の少なくとも一つが、前記第２文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第３文を読み上げる音声を合成し、前記第２文を読み上げる音声に含まれる、前記第３単語を読み上げる音声を、前記第３文を読み上げる音声に含まれる、前記第２単語を読み上げる音声で置き換えることによって、前記第１単語及び前記第２単語を含む前記第１文を読み上げる音声を合成することを特徴とする。
本発明の一実施形態によれば、混合言語テキストから、それぞれの言語の本来の発音を用いて、自然な音声を合成することができる。

第１図は、本発明の実施形態の音声編集合成装置の構成を示すブロック図である。
第２図Ａは、本発明の実施形態の言語置換装置の動作を示すフローチャートの第１の部分である。
第２図Ｂは、本発明の実施形態の言語置換装置の動作を示すフローチャートの第２の部分である。
第３図は、本発明の実施形態の言語間特徴対応表の説明図である。
第４図は、本発明の実施形態のテキストデータベースの説明図である。
第５図Ａは、本発明の実施形態の音声合成装置の動作を示すフローチャートの第１の部分である。
第５図Ｂは、本発明の実施形態の音声合成装置の動作を示すフローチャートの第２の部分である。
第６図は、本発明の実施形態の音声編集合成装置のハードウェア構成を示すブロック図である。

第１図は、本発明の実施形態の音声編集合成装置を示すブロック図である。
本実施形態の音声編集合成装置は、図示のとおり、テキスト入力装置１００、言語置換装置１１０、音声合成装置１２０及び音声出力装置１３０を備えている。
テキスト入力装置１００はテキストを取得する。例えば、テキスト入力装置１００は、キーボードを用いて入力されたテキスト又はニュース配信サービスによって提供されたテキストなどを取得する。
言語置換装置１１０は、言語判別部１１１、言語特徴解析部１１２、特徴変換部１１３、検索部１１４及び置換部１１５によって構成される。
言語判別部１１１は、テキスト入力装置１００から入力される多言語混在テキストを言語ごとにユニットに分割し、分割されたユニットに言語情報を付与し、一次言語及び二次言語を決定する。言語特徴解析部１１２は、言語判別部１１１から入力されたユニット列に含まれるすべての二次言語のユニットについて、二次言語のユニット特徴及び一次言語の環境特徴を分析する。特徴変換部１１３は、分析された二次言語のユニット特徴を一次言語のユニット特徴に、一次言語の環境特徴を二次言語の環境特徴に変換する。検索部１１４は、特徴変換部１１３から入力されたユニット特徴及び環境特徴を用いて、一次言語のユニット及び二次言語の文書を検索する。置換部１１５は、検索部１１４及び言語判別部１１１から入力されたユニット及び文書を置換し、単一言語のみを含む文書を作成する。
音声合成部装置１２０は、一次言語音声合成部１２１、二次言語音声合成部１２２及び音声編集部１２３によって構成される。一次言語音声合成部１２１は、言語置換装置１１０から入力された一次言語のみを含む文書から音声を合成する。二次言語音声合成部１２２は、一次言語音声合成部１２１から入力された音声を解析し、その解析の結果として得られた韻律特徴量及び音韻特徴量を用いて、入力された単一の二次言語のみを含む文書を合成する。音声編集部１２３は、合成した音声を編集し、音声出力装置１３０に出力する。
音声出力装置１３０は電気信号を音声に変換する装置であり、一般的に電気信号の増幅回路及びスピーカなどで構成されている。
第６図は、本発明の実施形態の音声編集合成装置のハードウェア構成を示すブロック図である。
本実施形態の音声編集合成装置は、相互に通信可能に接続された制御装置６１０、記憶装置６２０、テキスト入力装置１００及び音声出力装置１３０を備える。
制御装置６１０は、本実施形態の音声編集合成装置の動作を制御する。制御装置６１０は、ＣＰＵ６１１及びメモリ６１２を備える。ＣＰＵ６１１は、メモリ６１２に格納されたプログラムを実行するプロセッサである。メモリ６１２は、例えば半導体記憶装置であり、ＣＰＵ６１１によって実行されるプログラム及びＣＰＵ６１１によって参照されるデータを格納する。それらのプログラム及びデータは、記憶装置６２０に格納され、必要に応じて記憶装置６２０からメモリ６１２にコピーされてもよい。ＣＰＵ６１１は、メモリ６１２に格納されたプログラムを実行することによって、記憶装置６２０、テキスト入力装置１００及び音声出力装置１３０におけるデータの入出力、及び、本実施形態の音声合成等の処理を制御する。
記憶装置６２０は、ＣＰＵ６１１によって実行されるプログラム及びＣＰＵ６１１によって参照されるデータを格納する。記憶装置６２０は、例えば、ハードディスクドライブ（ＨＤＤ）のようなディスク装置又はフラッシュメモリのような半導体メモリであってもよい。本実施形態の記憶装置６２０には、言語判別部１１１、言語特徴解析部１１２、特徴変換部１１３、検索部１１４、置換部１１５、一次言語音声合成部１２１、二次言語音声合成部１２２及び音声編集部１２３が格納される。これらは、ＣＰＵ６１１によって実行されるプログラムである。したがって、第１図に示す音声編集合成装置の各部の機能は、ＣＰＵ６１１が上記のプログラムを実行することによって実現される。
なお、第６図には、第１図に示す言語置換装置１１０及び音声合成装置１２０が単一のハードウェアによって実現される例を示すが、これらの装置はそれぞれ独立した二つのハードウェアによって実現されてもよい。
さらに、記憶装置６２０には、テキストデータベース２２４及び言語間特徴対応表２２５が格納される。テキストデータベース２２４及び言語間特徴対応表２２５に格納されるデータの詳細については後述する（第３図及び第４図参照）。
テキスト入力装置１００は、テキストの入力を受け付ける少なくとも一つのインターフェースを備える。例えば、第６図に示すテキスト入力装置は、キーボード６３１及び通信装置６３２を備える。キーボード６３１は、操作者によるテキストの入力を受け付け、入力されたテキストを制御装置６１０に送信する。通信装置６３２は、ネットワーク（図示省略）に接続され、ネットワークを介してテキスト（例えば、ニュース配信サービスによって提供されたテキストなど）の入力を受け付け、入力されたテキストを制御装置６１０に送信する。テキスト入力装置１００は、テキストの入力を受け付ける上記以外の任意のインターフェースを備えてもよい。
音声出力装置１３０は、増幅回路６４２及びスピーカ６４１を備える。増幅回路６４２は、Ｄ／Ａ変換器（図示省略）によってアナログ電気信号に変換された音声信号を増幅する。スピーカ６４１は、増幅回路６４２によって増幅されたアナログ電気信号を音声に変換する。
次に、第２図Ａ、第２図Ｂ、第３図及び第４図を参照して、言語置換装置１１０の動作について説明する。
第２図Ａ及び第２図Ｂは、本発明の実施形態の言語置換装置１１０の動作を示すフローチャートである。
まず、テキスト入力装置１００からターゲットとする多言語混在テキスト２００が言語判別部２０１に入力される。第２図Ａに示す言語判別部２０１及びターゲット二次言語ユニット指定部２１０は、言語判別部１１１の一部（例えばサブプログラム）である。テキストは、Ｕｎｉｃｏｄｅなど、事前に定義された言語情報を含むフォーマットによって記述される。本実施形態では、一例として、文字列「我在Ｇｏｏｇｌｅ工作」が入力される。このテキストは中国語及び英語で構成され、「私はグーグルで仕事をしている」を意味する。なお、「Ｇｏｏｇｌｅ」は登録商標である。この文字列を発音記号列に変換すると、｛ｗｏ３ｚａｉ４／ｇｕ：ｇｌ／ｇｏｎｇ１ｚｕｏ４｝のように表現できる。言語判別部２０１は、入力された文字列に含まれる各文字について、言語の種類を特定し、最も多くの連続した単一言語の文字が一つのユニットを構成するように、文字列をユニット列に分割する。そして、言語判別部２０１は、すべてのユニットに言語種類をラベリングし、最も多いユニットを有する言語を一次言語と判定する。ただし、最も多いユニットを有する言語が複数存在する場合、テキストの先頭から最初に現れた言語を一次言語と判定する。そして、一次言語以外の言語をすべて二次言語と判定する。二次言語は必ず一つ以上存在する。あるいは、一次言語及び二次言語は、ユーザによる指定に基づいて判定されてもよい。
なお、言語判別部２０１は、種々の基準に基づいて文字列をユニットに分割することができる。例えば、言語判別部２０１は、一つの単語が一つのユニットとなるように分割してもよいし、一つの韻律語が一つのユニットとなるように分割してもよいし、一つの韻律フレーズが一つのユニットとなるように分割してもよい。
例えば、「我在Ｇｏｏｇｌｅ工作」が入力された場合、二つのユニットを有する中国語は一次言語と判定され、一つのユニットを有する英語は二次言語と判定される。そして、“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）、「工作」（中国語）（一次言語）”のようなフォーマットの言語ラベル付きユニット列２０２が生成され、ターゲット二次言語ユニット指定部２１０に入力される。
次に、ターゲット二次言語ユニット指定部２１０は、入力された言語ラベル付きユニット列２０２の先頭に最も近い二次言語ユニットをターゲットユニットと指定し、それぞれ所定のフォーマットで、ターゲットユニット及びユニット列をユニット特徴分析部２１１及び環境特徴解析部２１３に出力する。
例えば、ターゲット二次言語ユニット指定部２１０は、入力された“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）、「工作」（中国語）（一次言語）”から、“「Ｇｏｏｇｌｅ」（英語）（二次言語）”をターゲットに指定し、“「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）”の形式で、ターゲットユニットをユニット特徴分析部２１１に出力し、さらに、“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）、「工作」（中国語）（一次言語）”の形式で、ユニット列を環境特徴解析部２１３に出力する。
第２図Ａに示すユニット特徴分析部２１１及び環境特徴解析部２１３は、第１図に示す言語特徴解析部１１２の一部（例えばサブプログラム）である。
ユニット特徴分析部２１１は、ターゲット二次言語ユニット指定部２１０から出力されたターゲットユニットのユニット特徴を分析し、その結果をユニット特徴ベクトル２１２として、ユニット特徴変換部に出力する。このとき、ユニット特徴分析手法として、一般的に使われているテキスト解析手法が用いられる。すなわち、ユニット特徴分析部２１１は、得られたターゲットユニットに関する読み情報及びコンテキスト情報から、事前に作成されたユニット特徴項目リスト２１５に基づいてユニット特徴項目を指定し、事前に決められたフォーマットのユニット特徴ベクトルを出力する。
ユニット特徴項目リスト２１５は、ユニット特徴ベクトルに含まれるべき項目を指定する情報を含む。具体的には、ユニット特徴項目リスト２１５は、テキスト解析で得られる情報のうち、韻律及び音韻特徴と高い相関を持っている、ターゲットユニット自身の特徴、例えば、ターゲットユニットの開始音素、終了音素及び長さなどを指定する情報を含んでいるのが一般的である。ここで、ユニット長さの単位は、英語の場合は母音の数、中国語の場合は音節の数、日本語の場合はモーラの数など、事前に言語ごとに定義されている。
以下、ユニット特徴項目リスト２１５がターゲットユニットの開始音素、終了音素及び長さを指定する情報を含む場合を例として説明する。しかし、ユニット特徴項目リスト２１５は、上記以外の特徴項目を指定する情報、例えば、ターゲットユニットの品詞を指定する情報、ターゲットユニットのアクセントの位置を指定する情報、ターゲットユニットのストレスの位置を指定する情報、及び、ターゲットユニットの声調を指定する情報の少なくとも一つを含んでもよい。
一般的に使われているテキスト解析手法としては、辞書参照、決定木など、ルールベース手法とデータベース手法とを統合した手法が使われている。簡単な例では、発音辞書からターゲットユニットの発音記号列を作成し、簡単なルールで発音記号の先頭の音素（すなわち開始音素）、終了音素及び母音の数を調べることで、ユニット特徴ベクトルを得られる。
例えば、ユニット特徴項目リスト２１５がターゲットユニットの開始音素、終了音素及び長さを指定する情報を含む場合、ユニット特徴分析部２１１は、入力された“「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）”を、発音記号列“／ｇｕ：ｇｌ／”に変換したあと、先頭の音素、終了音素及び母音の数を調べ、“「開始音素＝ｇ、終了音素＝ｌ、ユニット長さ＝２母音」（英語）”のようなフォーマットのユニット特徴ベクトルを出力する。ただし、（）の中はベクトルの属性を示している。例のベクトル属性は“英語”である。
以下、ユニット特徴項目リスト２１５がユニットの開始音素、終了音素及び長さを指定する情報を含む場合を例として説明する。しかし、ユニット特徴項目リスト２１５は、前述のように、上記以外の特徴項目を指定する情報を含んでもよい。例えばユニット特徴項目リスト２１５がターゲットユニットの品詞を指定する情報を含む場合、出力されるユニット特徴ベクトルは、さらに、「Ｇｏｏｇｌｅ」の品詞を示す情報（例えば「名詞」又は「固有名詞」）を含む。
一方、ターゲット二次言語ユニット指定部２１０から出力されたユニット列は、環境特徴分析部２１３に入力され、環境特徴ベクトル２１４として出力される。この環境特徴分析部２１３は、ユニット特徴分析部２１１と同じく、一般的に使われているテキスト解析手法を用いて、得られたターゲットユニットに関する読み情報及びコンテキスト情報から、事前に作成された環境特徴項目リスト２１６に基づいて環境特徴項目を指定し、事前に決められたフォーマットの環境特徴ベクトルを出力する。
環境特徴項目リスト２１６は、環境特徴ベクトルに含まれるべき項目を指定する情報を含む。具体的には、環境特徴項目リスト２１６は、テキスト解析で得られる情報のうち、韻律及び音韻特徴と高い相関を持っている、ターゲット自身を含まない、周囲に関する特徴、例えば、先行音素、後続音素などを指定する情報を含んでいるのが一般的である。ここで、先行音素とは、ターゲットユニットの前に現れる音素（例えば、ターゲットユニットの直前の音素）を、後続音素とは、ターゲットユニットの後に現れる音素（例えば、ターゲットユニットの直後の音素）を意味する。
一般的に使われているテキスト解析手法としては、辞書参照、決定木など、ルールベース手法とデータベース手法とを統合した手法が使われている。簡単な例では、発音辞書からターゲットユニットの周囲の発音記号列を作成し、簡単なルールでターゲットユニットの直前音素及びターゲットユニットの直後音素などを調べることで、環境特徴ベクトルを得られる。
以下、環境特徴項目リスト２１６が先行音素及び後続音素を指定する情報を含む場合を例として説明する。しかし、環境特徴項目リスト２１６は、上記以外の特徴項目を指定する情報、例えば、ターゲットユニットを含む文においてターゲットユニットが占める位置を指定する情報、ターゲットユニットを含む文において、ターゲットユニットを含むフレーズが占める位置を指定する情報、ターゲットユニットにおいて、ターゲットユニットを含む韻律語が占める位置を指定する情報、ターゲットユニットを含む文の長さを指定する情報、及び、ターゲットユニットの品詞を指定する情報の少なくとも一つを含んでもよい。
例えば、環境特徴項目リスト２１６が先行音素及び後続音素を指定する情報を含む場合、環境特徴分析部２１３は、入力された“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）、「工作」（中国語）（一次言語）”を、音素列／ｗｏ３ｚａｉ４＊＊＊ｇｏｎｇ１ｚｕｏ４／に変換し（＊＊＊はターゲットユニットを意味する）、簡単なルールでターゲットユニットの直前音素及びターゲットユニットの直後音素などを調べ、“「先行音素＝ａｉ、後続音素＝ｇ」（中国語）”のようなフォーマットの環境特徴ベクトルを出力する。ただし、（）の中はベクトルの属性を示している。上記の例のベクトル属性は“中国語”である。
そして、言語間特徴変換部２２０は、ユニット特徴及び環境特徴（これらを合わせて言語的特徴と記載する）について、言語間特徴対応表２２５を定義し、変換するステップを実行する。第２図Ｂに示す言語間特徴変換部２２０は、第１図に示す特徴変換部１１３の一部（例えばサブプログラム）である。ユニット特徴分析部２１１から出力された二次言語ユニット特徴ベクトル２１２は、言語間特徴変換部２２０に入力され、一次言語のユニット特徴ベクトル２２１に変換される。一方、環境特徴分析部２１３から出力された一次言語環境特徴ベクトル２１４も、同じく、言語間特徴変換部２２０に入力され、二次言語の環境特徴ベクトル２２３に変換される。
言語間特徴対応表２２５は、音声合成のターゲットとなるすべての言語について、言語的特徴を、自分自身以外の言語に変換するために用いられる、言語間の対応関係を定義する情報を含む。
第３図は、本発明の実施形態の言語間特徴対応表２２５の説明図である。
具体的には、第３図は、言語間特徴対応表２２５の一部の例であり、言語的特徴を英語から日本語に変換するときの対応関係を示している。すなわち、第３図に示す“Ａ言語”は英語を、“Ｂ言語”は日本語を示す。典型的な例として、英語の音素／ｌ／は日本語の音素／ｒ／に対応している。前記の言語間特徴対応表２２５は、観測した音声の基本周波数、パワー、音素継続長又はスペクトルなどの音韻特徴量を用いた統計的な手法（例えばクラスタリング等）、又は、専門家の知識に基づく発見的な手法などを用いて、作成することができる。
第３図には英語の言語的特徴を日本語の言語的特徴に変換するための対応関係を示すが、言語間特徴対応表２２５は、さらに他の言語に関する対応関係を含んでもよい。例えば、言語間特徴対応表２２５は、日本語の言語的特徴を英語の言語的特徴に変換するための対応関係、英語の言語的特徴を中国語の言語的特徴に変換するための対応関係、及び、中国語の言語的特徴を英語の言語的特徴に変換するための対応関係を含んでもよい。例えば、第３図では省略されているが、言語間特徴対応表２２５は、英語の音素／ｌ／を中国語の音素／ｏｕ／に対応づける情報を含んでもよい。
例えば、ユニット特徴分析部２１１から入力された二次言語ユニット特徴ベクトル“「開始音素＝ｇ、終了音素＝ｌ、ユニット長さ＝２母音」（英語）”は、言語間特徴変換部２２０によって、一次言語ユニット特徴ベクトル“「開始音素＝ｇ、終了音素＝ｏｕ、ユニット長さ＝２音節」（中国語）”に変換される。環境特徴分析部２１３から入力された“「先行音素＝ａｉ、後続音素＝ｇ」（中国語）”は、言語間特徴変換部２２０によって、二次言語環境特徴ベクトル“「先行音素＝ａｉ、後続音素＝ｇ」（英語）”に変換される。
次に、ユニット検索部２３０は、入力された一次言語のユニット特徴ベクトル２２１を検索キーとして、テキストデータベース２２４を検索する。具体的には、ユニット検索部２３０は、入力された一次言語のユニット特徴ベクトル２２１と、一次言語テキストデータベースに含まれるすべてのユニットのユニット特徴ベクトルとの距離を計算し、最も距離の小さいユニットを検索し、検索されたユニットの文字列を出力する。ただし、一番小さい距離を有するユニットが複数存在するとき、それらの中から一つが任意に選択される。なお、第２図Ｂに示すユニット検索部２３０及び文検索部２３２は、第１図に示す検索部１１４の一部（例えばサブプログラム）である。
第４図は、本発明の実施形態のテキストデータベース２２４の説明図である。
テキストデータベース２２４は、第４図に示すように、すべてのユニットについて、文字列４１１、所在文（すなわち、ユニットの文字列を含む文）の文字列４１２、ユニット特徴ベクトル４１３及び環境特徴ベクトル４１４などを含む。
第４図には、例として、ユニット１についてテキストデータベース２２４に格納されている情報を示す。ユニット１に関する文字列４１１及び所在文の文字列４１２として、それぞれ、“「ｇｏｏｇｌｅ」”及び“「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ＊＊ｇｒｏｕｐｓ」”が格納されている。これらは、ユニット１が文字列「ｇｏｏｇｌｅ」からなること、及び、この文字列が「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ」という文の中に現れることを示す。
さらに、ユニット１に関するユニット特徴ベクトル４１３として、“「開始音素＝ｇ、終了音素＝ｌ、ユニット長さ＝２音節」（英語）”が格納されている。これらは、文字列「ｇｏｏｇｌｅ」の開始音素、終了音素及びユニット長さが、それぞれ、「ｇ」、「ｌ」及び「２音節」であることを示す。
ユニット特徴ベクトル４１３は、さらに、ユニットの文字列の品詞を示す情報、ユニットの文字列のアクセント（又はストレス）の位置を示す情報、及び、ユニットの文字列の声調を示す情報等を含んでもよい。
さらに、ユニット１に関する環境特徴ベクトル４１４として、“「先行音素＝ａｉ、後続音素＝ｇ」（英語）”が格納されている。これらは、文「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ」における文字列「ｇｏｏｇｌｅ」の先行音素（この例では、文字列「ｇｏｏｇｌｅ」に先行する単語「ｂｙ」の最後の音素）及び後続音素（この例では、文字列「ｇｏｏｇｌｅ」の後に続く単語「ｇｒｏｕｐｓ」の先頭の音素）が、それぞれ、「ａｉ」及び「ｇ」であることを示す。
環境特徴ベクトル４１４は、さらに、所在文においてユニットの文字列が占める位置を示す情報、所在文においてユニットを含むフレーズが占める位置を示す情報、所在文においてユニットの文字列を含む韻律語が占める位置を示す情報、及び、所在文の長さを示す情報等を含んでもよい。
なお、実際には文字列「ｇｏｏｇｌｅ」は種々の文に含まれ得る。このため、テキストデータベース２２４は、文字列４１１として「ｇｏｏｇｌｅ」を、それに対応する所在文の文字列４１２として「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ＊＊ｇｒｏｕｐｓ」以外の文を含む情報をさらに含んでもよい。すなわち、第４図には、“ｇｏｏｇｌｅ”を含む一つの文のみを例示したが、実際には、テキストデータベース２２４には、“ｇｏｏｇｌｅ”を含む複数の文が格納される。後述する文検索部２３２は、それらの複数の文から、検索条件を満たす文を検索する。
さらに、第４図では省略されているが、テキストデータベース２２４には、“ｇｏｏｇｌｅ”以外の英語のユニットに関する情報、及び、英語以外の言語のユニットに関する情報が格納されている。例えば、テキストデータベース２２４には、中国語のユニット“孤狗”に関する文字列４１１、ユニット特徴ベクトル４１３及び環境特徴ベクトル４１４として、それぞれ、“「孤狗」”、“「開始音素＝ｇ、終了音素＝ｏｕ、ユニット長さ＝２音節」（中国語）”及び“「先行音素＝ａｉ、後続音素＝ｇ」（中国語）”が格納されている。
二つのユニット特徴ベクトルの距離は、定義された計算式に基づいて計算される。一番簡単な計算は、二つのベクトルのすべてのファクターを比較し、比較結果を加算することである。ただし、ファクターが一致する場合は０、一致しない場合は１が加算される。
例えば、検索キーとして一次言語ユニット特徴ベクトル“「開始音素＝ｇ、終了音素＝ｏｕ、ユニット長さ＝２音節」（中国語）”が入力された場合、一次言語データベースから最もベクトル距離の近いユニット“孤狗”が選択され、文字列“孤狗”が出力される。“孤狗”の持つユニット特徴ベクトルは“「開始音素＝ｇ、終了音素＝ｏｕ、ユニット長さ＝２音節」（中国語）”である。この場合、二つのベクトルの開始音素、終了音素及びユニット長さのいずれも一致するため、計算された距離は０である。
検索キーとして入力される一次言語ユニット特徴ベクトルは、さらに多くのファクターを含んでもよい。例えば、検索キーとして“「開始音素＝ｇ、終了音素＝ｏｕ、ユニット長さ＝２音節、品詞＝名詞」（中国語）”が入力された場合、それに含まれる各ファクターがテキストデータベースのユニット特徴ベクトル４１３の対応するファクターと比較され、距離が計算される。
なお、各ファクターに重要度が設定され、その重要度に基づいてベクトル間の距離が計算されてもよい。例えば、開始音素、終了音素及び品詞の各ファクターに高い重要度が設定され、その他のファクター（例えば品詞等）にはより低い重要度が設定されてもよい。具体的には、例えば、ベクトル間の距離を計算する際に、対応するファクターが一致するか否かを判定し、ファクターが一致する場合には（重要度にかかわらず）０、重要度が低いファクターが一致しない場合には１、重要度が高いファクターが一致しない場合には１より大きい数（例えば２）が加算されてもよい。その結果、例えば開始音素のみが一致する二つのベクトル間の距離は、品詞のみが一致する二つのベクトル間の距離より小さくなる。
なお、上記のような計算方法は一例に過ぎず、上記以外の方法によってベクトル間の距離が計算されてもよい。
一方、文検索部２３２は、入力された二次言語の環境特徴ベクトル２２３を検索キーとしてテキストデータベース２２４を検索する。具体的には、文検索部２３２は、入力された二次言語の環境特徴ベクトル２２３と、二次言語テキストデータベースに含まれるすべてのユニットの環境特徴ベクトルとの距離を計算し、最も距離の小さいユニットを検索し、そのユニットの所在文の文字列を出力する。ただし、一番小さい距離を有するユニットが複数存在する場合、それらの中から一つが任意に選択される。前記のテキストデータベースは、第４図で示した構造を持っていて、すべてのユニットに対して、文字列４１１、所在文の文字列４１２、ユニット特徴４１３及び環境特徴４１４などが記述されている。前記の環境特徴ベクトルの距離は、定義された計算式に基づいて計算される。一番簡単な計算は、二つのベクトルのすべてのファクターを比較し、比較結果を加算することである。ただし、ファクターが一致する場合は０、一致しない場合は１が加算される。
例えば、二次言語環境特徴ベクトル“「先行音素＝ａｉ、後続音素＝ｇ」（英語）”が入力された場合、文検索部２３２は、二次言語データベースから最もベクトル距離の近いユニット“ｇｏｏｇｌｅ”を選択し、所在文の文字列“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ＊＊ｇｒｏｕｐｓ．”を出力する。ただし、＊＊はユニットの文中に占める位置を示す。第４図の例において、“ｇｏｏｇｌｅ”に関する環境特徴ベクトルは“「先行音素＝ａｉ、後続音素＝ｇ」（英語）”である。ターゲットユニットの文字列と選択されたユニットの文字列が同じであることが好ましいが、必須ではない。
検索キーとして入力される二次言語環境特徴ベクトルは、さらに多くのファクターを含んでもよい。例えば、検索キーとして“「先行音素＝ａｉ、後続音素＝ｇ、所在文の長さ＝５」（英語）”が入力された場合、その検索キーに含まれる各ファクターがテキストデータベースの環境特徴ベクトル４１４の対応するファクターと比較され、距離が計算される。
なお、ユニット特徴ベクトルの検索の場合と同様、各ファクターに重要度が設定され、その重要度に基づいてベクトル間の距離が計算されてもよい。例えば、先行音素及び後続音素の各ファクターに高い重要度が設定され、その他のファクター（例えば所在文の長さ等）にはより低い重要度が設定されてもよい。
なお、上記のような計算方法は一例に過ぎず、上記以外の方法によってベクトル間の距離が計算されてもよい。
言語間特徴変換部２２０による変換は、上記のようなユニット検索部２３０及び文検索部２３２による適切な検索を可能にするために実行される。例えば、上記のようなユニット特徴ベクトルの変換が実行されない場合、「終了音素＝ｌ」というファクターを含むベクトルが検索キーとして入力される可能性がある。しかし、中国語に音素「ｌ」が存在しない場合、「終了音素＝ｌ」と一致するファクターを含むユニット特徴ベクトルを検索によって発見することはできない。一方、音素「ｌ」に対応する中国語の音素「ｏｕ」が検索キーとして入力されれば、その音素を終了音素として含む中国語のユニット「孤狗」を取得することができる。
ユニット置換部２４０は、入力されたテキストユニット列２０２のターゲット二次言語ユニットを、入力された一次言語ユニット２３１で置換し、置換された文字列を出力する。なお、第２図Ｂに示すユニット置換部２４０及び文置換部２４２は、第１図に示す置換部１１５の一部（例えばサブプログラム）である。
例えば、ユニット置換部２４０は、入力されたテキストユニット列の“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）、「工作」（中国語）（一次言語）”にあるターゲット二次言語ユニット“Ｇｏｏｇｌｅ”を、入力された“孤狗”で置き換え、文字列“我在孤狗工作”を出力する。
文置換部２４２は、入力されたテキストユニット列２０２のターゲット二次言語ユニット以外の部分を、入力された二次言語文２３３で置換し、置換された文字列を出力する。ただし、文置換部２４２は、ターゲット二次言語ユニットに一次言語のユニット情報２３１を付ける。
例えば、文置換部２４２は、入力されたテキストユニット列の“「我在」（中国語）（一次言語）、「Ｇｏｏｇｌｅ」（英語）（二次言語）（ターゲット）、「工作」（中国語）（一次言語）”を、入力された“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ＊＊ｇｒｏｕｐｓ．”で置き換え、文字列“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ（ｇｏｏｇｌｅ）（孤狗）ｇｒｏｕｐｓ．”を出力する。
最後に、置換部１１５は、ユニット置換によって得られた文字列（すなわちテキスト２４１）に二次言語がまだ存在するか否かをチェックし（ステップ２４４）、存在する場合は、上記の言語判別部１１１、言語特徴解析部１１２、特徴変換部１１３、検索部１１４及び置換部１１５の処理を順次実行する。具体的には、テキスト２４１に含まれる一つ以上の二次言語ユニットのうち先頭のユニットがターゲット二次言語ユニットに指定され、その文字列がテキストユニット列２０３として言語特徴解析部１１２に入力される。
上記の処理は、文字列から二次言語がなくなるまで繰り返される。すなわち、ステップ２４４において、テキスト２４１に二次言語が存在しないと判定された場合、そのテキスト２４１が出力され、第２図Ａ及び第２図Ｂに示す言語置換プロセスが終了する。したがって、第２図Ａ及び第２図Ｂに示す言語置換プロセスが終了するとき、二次言語ユニットの数と同じ数の第二言語の文書（すなわち二次言語のテキスト２４３）及び一文の一次言語の文書（すなわちテキスト２４１）が出力される。
例えば、ユニット置換部２４０から出力されたテキスト２４１が「我在孤狗工作」である場合、このテキスト２４１に一次言語しか存在しないので、言語置換が終了し、「我在孤狗工作」（テキスト２４１）及び「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ（ｇｏｏｇｌｅ）（孤狗）ｇｒｏｕｐｓ．」（二次言語のテキスト２４３）が出力される。出力されたテキストは、音声合成装置１２０に入力される。
次に、第５図Ａ及び第５図Ｂを参照して、音声合成の動作について説明する。
第５図Ａ及び第５図Ｂは、本発明の実施形態の音声合成装置１２０の動作を示すフローチャートである。
まず、言語置換装置１１０から出力された一次言語テキスト５０１が一次言語合成部１２１に入力され、一次言語合成部１２１が一次言語テキスト５０１を読み上げる音声を合成する。一次言語テキスト５０１は、第２図Ｂにおいて出力されたテキスト２４１に相当する、一文の一次言語しか含まないテキストである。一次言語音声合成部１２１は、テキスト解析部５１０、言語韻律予測部５１１、単位選択部５１２、波形接続部５１３及び音声出力部５１４を含み、これらが現存の音声合成システムと同様の音声合成を実行する。すなわち、テキスト解析部５１０が言語モデル５４０を参照して言語解析し、言語韻律予測部５１１が韻律モデル５４１を参照して韻律予測し、単位選択部５１２が音声データベース５４２から音声素片を選択し、波形接続部５１３が音声素片を結合し、音声出力部５１４が合成した音声波形を一次言語の音声５２０として出力する。上記の処理は従来の技術によって実現できるため、詳細な説明は省略する。
例えば、テキスト「我在孤狗工作」が入力されると、一次言語音声合成部１２１は、「我在孤狗工作」の音声波形を合成して出力する。
なお、上記のテキスト解析部５１０から音声出力部５１４の各部は、一次言語音声合成部１２１の一部（例えばサブプログラム）である。言語モデル５４０、韻律モデル５４１及び音声データベース５４２は、記憶装置６２０に格納され、それらの少なくとも一部は必要に応じてメモリ６１２にコピーされてもよい。
一方、二次言語音声合成部１２２は、言語置換装置１１０から出力された二次言語テキスト５０２に含まれる複数文から、任意の一文を選択し、選択した一文を、それと同じ言語の二次言語のテキスト解析部５２２に入力する。なお、二次言語テキスト５０２は、第２図Ｂの処理において出力された二次言語のテキスト２４３に相当する。
さらに、二次言語音声合成部１２２の音声特徴解析部５２１は、一次言語合成部１２１から出力された音声５２０のうち、入力文に記述されたターゲット二次言語ユニットに対応する部分から、音響特徴量、具体的には、韻律特徴５２８及び音韻特徴５２９を抽出する。韻律特徴５２８は、少なくとも、ターゲット二次言語ユニットの音声開始点及び終了点の基本周波数を含む。音韻特徴５２９は、少なくとも、ターゲット二次言語ユニットの音声開始点及び終了点のスペクトルを含む。なお、音声開始点及び終了点のスペクトルとは、開始時刻及び終了時刻を含むフレーム（ある時間帯）にある波形を使って計算されたものである。
例えば、二次言語のテキスト２４３として「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙ（ｇｏｏｇｌｅ）（孤狗）ｇｒｏｕｐｓ．」が出力された場合、「Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ．」がテキスト解析部５２２に入力される。一方、合成された「我在孤狗工作」の音声波形のうち、「孤狗」の部分の開始点及び終了点の韻律特徴５２８及び音韻特徴５２９が抽出される。
なお、上記の音声特徴解析部５２１から音声出力部５２６の各部は、二次言語音声合成部１２２の一部（例えばサブプログラム）である。言語モデル５３０、韻律モデル５３１及び音声データベース５３２は、記憶装置６２０に格納され、それらの少なくとも一部は必要に応じてメモリ６１２にコピーされてもよい。
二次言語のテキスト解析部５２２は、二次言語の言語モデル５３０を参照して、テキストを合成最小単位に分割し、読み情報、コンテキスト情報、韻律構造情報などを分析し、分析の結果を二次言語の韻律予測部５２３に出力する。
二次言語の韻律予測部５２３は、二次言語の韻律モデル５３１を参照して、二次言語テキスト解析部５２２から入力された情報に基づいて、合成最小単位ごとに、韻律を予測する。ここで、韻律予測部５２３は、ターゲットユニットの最初の合成最小単位について予測された開始時周波数を、求められた韻律特徴５２８に含まれる開始点の基本周波数で置き換える。同様に、韻律予測部５２３は、ターゲットユニットの最後の合成最小単位について予測された終了時周波数を、求められた韻律特徴５２８に含まれる終了点の基本周波数で置き換える。このステップを実行した結果、合成された二次言語音声のターゲットユニットの開始点及び終了点の韻律特徴は、すでに合成した一次言語音声のターゲットユニットの、対応する部分の開始点及び終了点の韻律特徴に近づく。このため、一次言語のターゲットユニットの音声を二次言語のターゲットユニットの音声で置き換えるときに発生する韻律の不自然さが軽減される。
例えば、二次言語テキスト５０２として“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ”が入力された場合、韻律予測部５２３は、そのテキストの韻律予測をした後、予測されたｇｏｏｇｌｅの開始音素／ｇ／の開始基本周波数を、音声特徴解析部５２１から得られた“孤狗”部分の開始音素の開始基本周波数で置き換え、同様に、予測されたｇｏｏｇｌｅの終了音素／ｌ／の終了基本周波数を、音声特徴解析部５２１から得られた“孤狗”部分の終了音素の終了基本周波数で置き換える。
二次言語の単位選択部５２４は、二次言語の音声データベース５３２に含まれる、テキスト解析部で得られた最小合成単位の、時系列に構成可能な音声素片系列のすべての組み合わせに対して、韻律予測部５３２で出力された韻律特徴との距離を表すターゲットコスト、及び、素片間不連続を表す接続コストの総和を計算し、それが最小になるような音声素片系列を出力する。ただし、単位選択部５２４は、ターゲットユニットとそれに接する音素との接続コストを計算するとき、ターゲットユニットに接する音素から抽出した音韻特徴量ではなく、音声特徴解析部５２１によって得られた音韻特徴５２９を用いる。このステップを実行した結果、合成された二次言語音声のターゲットユニットの開始点及び終了点の音韻特徴は、すでに合成した一次言語音声のターゲットユニットの、対応する部分の開始点及び終了点の音韻特徴に近づく。このため、一次言語のターゲットユニットの音声を二次言語のターゲットユニットの音声に入れ替えるときに発生する音韻の不自然さが軽減される。
例えば、二次言語テキスト５０２として“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ”が入力された場合、単位選択部５２４は、“ｇｏｏｇｌｅ”に隣接する“ｂｙ”の終了音素／ｉ／（すなわち“ｇｏｏｇｌｅ”の先行音素）の終了点の音韻特徴として、実際に素片から観測したスペクトルではなく、音声特徴解析部５２１から得られた“孤狗”部分の開始点のスペクトルを用いる。同様に、単位選択部５２４は、“ｇｏｏｇｌｅ”に隣接する“ｇｒｏｕｐｓ”の開始音素／ｇ／（すなわち“ｇｏｏｇｌｅ”の後続音素）の開始点の音韻特徴として、実際素片から観測したスペクトルではなく、音声特徴解析部５２１から得られた“孤狗”部分の終了点のスペクトルを用いる。
さらに、二次言語の波形合成部５２５は、単位選択部５２４から出力された音声素片系列を結合することによって音声波形を合成する。二次言語の音声出力部５２６は、合成された音声波形を音声編集部１２３に出力する。
音声編集部１２３は、二次言語の音声出力部５２６から入力された二次言語音声からターゲットユニット部分の音声波形を切り出し、一次言語の音声出力部５１４から入力された一次言語音声のターゲットユニットに対応する部分の音声波形と入れ替えることによって音声波形を再合成する。
例えば、音声編集部１２３は、二次言語音声の“Ｉｔ’ｓｓｕｐｐｏｒｔｅｄｂｙｇｏｏｇｌｅｇｒｏｕｐｓ”からターゲットユニットである“ｇｏｏｇｌｅ”部分の音声を切り出し、一次言語音声の“我在孤狗工作”の“孤狗”の部分と入れ替える。これによって再合成された音声は、“我在ｇｏｏｇｌｅ工作”を読み上げる音声である。
二次言語合成部１２２及び音声編集部１２３の処理は、二次言語テキスト５０２に含まれるすべての二次言語文についての実行が終了するまで繰り返される。具体的には、音声編集部１２３の処理が終了した後、二次言語テキスト５０２に含まれるすべての二次言語文について二次言語合成部１２２及び音声編集部１２３の処理が終了したか否かが判定される（ステップ５５０）。全ての二次言語文について処理が終了していないと判定された場合、まだ処理されていない二次言語文の一つが選択され、それが二次言語のテキスト解析部５２２に入力される。ステップ５５０において全ての二次言語文について処理が終了したと判定された場合、音声編集部１２３から出力された音声波形は、音声出力装置１３０に入力される。
上記の“我在ｇｏｏｇｌｅ工作”の例では、二次言語テキスト５０２に含まれるすべての二次言語文は一文のみであるため、音声編集部１２３で得られる“我在ｇｏｏｇｌｅ工作”の音声波形が、最終結果として音声出力装置１３０に出力される。
音声出力装置１３０は、音声編集部１２３から出力された音声波形を増幅して、音声として出力する。
以上に説明した本発明の代表的な実施形態をまとめると、次の通りである。
本発明では、混合言語テキスト音声合成のための方法が提供される。この方法は、
少なくとも二つの言語の混合言語テキスト列を受信する手順と、
前記テキスト列内のテキストの言語構成を分析し、すべての二次言語のユニットを検出するテキスト解析手順と、
すべての二次言語のユニットを一次言語のユニットで置換する手順と、
二次言語のユニットごとに、そのユニット以外の部分を二次言語で置換する手順と、
得られた一次言語のみを含む文書及び二次言語のみを含む文書に基づいて、音声を合成する手順と、
合成した音声から、音声セグメントを切り出し、繋げ合わせる手順と、を含むことを特徴とする。
この構成によれば、二次言語と一次言語とが混在するテキストについて、それぞれの言語の本来の発音に一致する自然な連続発話音声を合成できる。
また、本発明のテキスト解析手順は、
言語の種類を特定し、単一言語のユニットに分割する手順と、
一次言語及び二次言語を決定する手順と、を含むことを特徴とする。
この構成によれば、使用するメインの言語（すなわち一次言語）が決定され、分割されたユニットは単一の言語のみを含む。
また、本発明の二次言語のユニットを一次言語のユニットで置換する手順は、二次言語のユニット特徴を解析する手順と、
二次言語のユニット特徴を、一次言語のユニット特徴に変換する手順と、
一次言語のテキストデータベースから、変換されたユニット特徴と最も近い特徴を持つユニットを検索する手順と、
検索された一次言語のユニットによって原文に対応する二次言語のユニットを置換する手順と、を含むことを特徴とする。
この構成によれば、すべての二次言語のユニットを一次言語のユニットで置換することで、一次言語のみを含む文書が得られる。
また、前記ユニット特徴は、ユニット開始音素、ユニット終了音素、ユニット長さ、ユニット品詞情報など、多くの言語的特徴を含むのが好ましい。
この構成によれば、最もユニットの特徴を適切に表現できる。
また、前記二次言語のユニット特徴を、一次言語のユニット特徴に変換する手順は、ユニット特徴の種類ごとに、対応テーブルを用意し、その対応テーブルに基づいて変換を実行することが好ましい。対応テーブルは、スペクトルなどの音声特徴量を用いたクラスタリングによる統計的手法、又は、専門家による経験を用いた発見的手法によって作成される。
この構成によれば、異なる言語間の特徴を変換することができる。
また、前記のユニットを検索する手順は、データベースに格納されたすべてのユニット（例えば単語、韻律語、韻律フレーズ、短文又は文など）に対して、事前に定義したベクトル距離計算式を用いて、最もターゲットユニットに近いユニットを得る手順を含むことを特徴とする。
この構成によれば、二次言語ユニットに最も近い韻律的特徴及び音韻的特徴を持つ一次言語のユニットが得られる。
また、前記の距離計算式において、すべての特徴量について、重要度が定義され、ユニット開始音素、ユニット終了音素及びユニットの長さに高い重要度が設定されることが好ましい。
この構成によれば、調音環境及び韻律特徴を再現できる。
また、前記二次言語のユニットごとに、そのユニット以外の部分を二次言語で置換する手順は、
二次言語の単語の前後の一次言語の環境特徴を解析する手順と、
一次言語の環境特徴を、二次言語の環境特徴に変換する手順と、
二次言語のテキストデータベースから、変換された文章特徴と最も近い特徴を持つ文書を検索する手順と、
検索された二次言語の文書によって原文に対応する一次言語の文書を置換する手順と、を含むことを特徴とする。
この構成によれば、すべての二次言語のユニットについて、元の文書と韻律及び音韻環境が最も近い二次言語のみを含む文書が得られる。
また、前記環境特徴は、すでに定義したユニット特徴に加えて、ユニット先行音素、ユニット後続音素、ユニットが文において占める位置、フレーズが文において占める位置、先行ポーズの有無、後続ポーズの有無、先行韻律境界の種類、後続韻律境界の種類など、多くの言語的特徴を含むのが好ましい。
この構成によれば、最もユニットの環境特徴を適切に表現できる。
また、前記二次言語の環境特徴を、一次言語の環境特徴に変換する手順は、ユニット特徴の種類ごとに、対応テーブルを用意し、その対応テーブルに基づいて変換を実行することが好ましい。対応テーブルは、スペクトルなどの音声特徴量を用いたクラスタリングによる統計的手法、又は、専門家による経験を用いた発見的手法によって作成できる。
この構成によれば、異なる言語間の環境特徴を変換することができる。
また、前記のユニットを検索する手法は、データベースにあるすべてのユニット（例えば単語、韻律語、韻律フレーズ、短文又は文など）に対して、事前に定義した環境距離計算式を用いて、最もターゲットユニットの環境特徴に近い文書を得る手順を含むことを特徴とする。
この構成によれば、二次言語ユニットの環境特徴に最も近い特徴を持つ一次言語の文書が得られる。
また、前記の距離計算式において、すべての特徴量について、重要度が定義され、ユニット特徴、ユニット先行音素及びユニット後続音素に高い重要度が設定されることが好ましい。
この構成によれば、調音環境及び韻律特徴を再現できる。
また、前記の二次言語の文書から、音声を合成する手順は、合成した一次言語の音声から、置換されたユニットの韻律特徴量及び音韻特徴量を抽出し、それらを対応する二次言語のユニットの目標特徴として音声を合成する手順を含むことを特徴とする。
この構成によれば、合成された二次言語のユニット韻律特徴量及び音韻特徴量は、置換された一次言語のユニットの韻律特徴量及び音韻特徴量と近くなる。
以上の構成によれば、複数の言語が混在するテキストの自然な読み上げ音声を合成することができる。

Claims

文を読み上げる音声を合成する音声編集合成装置であって、
前記音声編集合成装置は、
文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、
第１言語の第１単語及び第２言語の第２単語を含む第１文の入力を受け、
前記第２単語を前記第１言語の第３単語によって置き換えることによって、複数の前記第１言語の単語を含み、前記第２言語の単語を含まない第２文を作成し、
前記第２文を読み上げる音声を合成し、
前記第２単語を含む、複数の前記第２言語の単語を含み、前記第１言語の単語を含まない第３文を取得し、
前記第３文を読み上げる音声の音響特徴量の少なくとも一つが、前記第２文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第３文を読み上げる音声を合成し、
前記第２文を読み上げる音声に含まれる、前記第３単語を読み上げる音声を、前記第３文を読み上げる音声に含まれる、前記第２単語を読み上げる音声で置き換えることによって、前記第１単語及び前記第２単語を含む前記第１文を読み上げる音声を合成することを特徴とする音声編集合成装置。
前記音声編集合成装置は、
前記第１言語の複数の単語の特徴を示す情報を含むテキスト情報を保持し、
前記第１言語の特徴と、前記第２言語の特徴と、を対応付ける対応情報を保持し、
前記対応情報に基づいて、前記第２単語の特徴に対応する前記第１言語の単語の特徴を特定し、
前記特定された特徴を検索キーとして、前記テキスト情報に含まれる前記第１言語の単語を検索することによって、前記第３単語を取得することを特徴とする請求項１に記載の音声編集合成装置。
前記第２単語の特徴は、前記第２単語の開始音素及び前記第２単語の終了音素の少なくとも一つであることを特徴とする請求項２に記載の音声編集合成装置。
前記第２単語の特徴は、さらに、前記第２単語の品詞、前記第２単語の長さ、前記第２単語のアクセントの位置、前記第２単語のストレスの位置、及び、前記第２単語の声調の少なくとも一つを含むことを特徴とする請求項３に記載の音声編集合成装置。
前記テキスト情報は、さらに、前記第２単語を含む、前記第２言語の複数の単語を含む複数の文の特徴を示す情報を含み、
前記音声編集合成装置は、
前記対応情報に基づいて、前記第１文の特徴に対応する前記第２言語の文の特徴を特定し、
前記特定された特徴を検索キーとして、前記テキスト情報に含まれる文を検索することによって、前記第３文を取得することを特徴とする請求項２に記載の音声編集合成装置。
前記第１文の特徴は、前記第１文における前記第２単語の直前の音素、及び、前記第１文における前記第２単語の直後の音素の少なくとも一つであることを特徴とする請求項５に記載の音声編集合成装置。
前記第１文の特徴は、さらに、前記第１文において前記第２単語が占める位置、前記第１文において前記第２単語を含むフレーズが占める位置、前記第１文において前記第２単語を含む韻律語が占める位置、前記第２単語の品詞、及び、前記第１文の長さの少なくとも一つを含むことを特徴とする請求項６に記載の音声編集合成装置。
前記音声編集合成装置は、前記第２単語の開始点及び終了点の音響特徴量が、それぞれ、合成された前記第２文を読み上げる音声における、前記第３単語の開始点及び終了点の音響特徴量と一致するように、前記第３文を読み上げる音声を合成することを特徴とする請求項５に記載の音声編集合成装置。
前記音響特徴量は、韻律特徴量及び音韻特徴量の少なくとも一方を含み、
前記韻律特徴量は、少なくとも基本周波数を含み、
前記音韻特徴量は、少なくともスペクトルを含むことを特徴とする請求項８に記載の音声編集合成装置。
文を読み上げる音声を合成する音声編集合成装置による音声編集合成方法であって、
前記音声編集合成装置は、文のテキストの入力を受ける入力装置と、合成された音声を出力する出力装置と、前記入力装置及び前記出力装置に接続される制御装置と、前記制御装置に接続される記憶装置と、を備え、
前記音声編集合成方法は、
前記音声編集合成装置が、第１言語の第１単語及び第２言語の第２単語を含む第１文の入力を受ける第１手順と、
前記音声編集合成装置が、前記第２単語を前記第１言語の第３単語によって置き換えることによって、複数の前記第１言語の単語を含み、前記第２言語の単語を含まない第２文を作成する第２手順と、
前記音声編集合成装置が、前記第２文を読み上げる音声を合成する第３手順と、
前記音声編集合成装置が、前記第２単語を含む、複数の前記第２言語の単語を含み、前記第１言語の単語を含まない第３文を取得する第４手順と、
前記音声編集合成装置が、前記第３文を読み上げる音声の音響特徴量の少なくとも一つが前記第２文を読み上げる音声の音響特徴量の少なくとも一つと一致するように、前記第３文を読み上げる音声を合成する第５手順と、
前記音声編集合成装置が、前記第２文を読み上げる音声に含まれる前記第３単語を読み上げる音声を、前記第３文を読み上げる音声に含まれる前記第２単語を読み上げる音声で置き換えることによって、前記第１単語及び前記第２単語を含む前記第１文を読み上げる音声を合成する第６手順と、を含むことを特徴とする音声編集合成方法。
前記音声編集合成装置は、
前記第１言語の複数の単語の特徴を示す情報を含むテキスト情報を保持し、
前記第１言語の特徴と、前記第２言語の特徴と、を対応付ける対応情報を保持し、
前記音声編集合成方法は、さらに、
前記音声編集合成装置が、前記対応情報に基づいて、前記第２単語の特徴に対応する前記第１言語の単語の特徴を特定する手順と、
前記特定された特徴を検索キーとして、前記テキスト情報に含まれる前記第１言語の単語を検索することによって、前記第３単語を取得する手順を含むことを特徴とする請求項１０に記載の音声編集合成方法。
前記第２単語の特徴は、前記第２単語の開始音素及び前記第２単語の終了音素の少なくとも一つであることを特徴とする請求項１１に記載の音声編集合成方法。
前記第２単語の特徴は、さらに、前記第２単語の品詞、前記第２単語の長さ、前記第２単語のアクセントの位置、前記第２単語のストレスの位置、及び、前記第２単語の声調の少なくとも一つを含むことを特徴とする請求項１２に記載の音声編集合成方法。
前記テキスト情報は、さらに、前記第２単語を含む、前記第２言語の複数の単語を含む複数の文の特徴を示す情報を含み、
前記方法は、さらに、前記対応情報に基づいて、前記第１文の特徴に対応する前記第２言語の文の特徴を特定する手順を含み、
前記第４手順は、前記音声編集合成装置が、前記特定された特徴を検索キーとして、前記テキスト情報に含まれる文を検索することによって、前記第３文を取得する手順を含むことを特徴とする請求項１１に記載の音声編集合成方法。
前記第１文の特徴は、前記第１文における前記第２単語の直前の音素、及び、前記第１文における前記第２単語の直後の音素、の少なくとも一つであることを特徴とする請求項１４に記載の音声編集合成方法。
前記第１文の特徴は、さらに、前記第１文において前記第２単語が占める位置、前記第１文において前記第２単語を含むフレーズが占める位置、前記第１文において前記第２単語を含む韻律語が占める位置、前記第２単語の品詞、及び、前記第１文の長さの少なくとも一つを含むことを特徴とする請求項１５に記載の音声編集合成方法。
前記第５手順は、前記音声編集合成装置が、前記第２単語の開始点及び終了点の音響特徴量が、それぞれ、合成された前記第２文を読み上げる音声における前記第３単語の開始点及び終了点の音響特徴量と一致するように、前記第３文を読み上げる音声を合成する手順を含むことを特徴とする請求項１４に記載の音声編集合成方法。
前記音響特徴量は、韻律特徴量及び音韻特徴量の少なくとも一方を含み、
前記韻律特徴量は、少なくとも基本周波数を含み、
前記音韻特徴量は、少なくともスペクトルを含むことを特徴とする請求項１７に記載の音声編集合成方法。