JP4473193B2

JP4473193B2 - 混合言語テキスト音声合成方法および音声合成装置

Info

Publication number: JP4473193B2
Application number: JP2005226493A
Authority: JP
Inventors: ドン−ジエンユエ; グォイ−リンチェン; ジェン−リユ; イ−チンズー
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2004-08-05
Filing date: 2005-08-04
Publication date: 2010-06-02
Anticipated expiration: 2025-08-04
Also published as: JP2006048056A; CN1731510A; SG119357A1; KR20060049290A; CN1731510B

Description

本発明は一般にテキスト音声（ＴＴＳ）合成に関する。本発明は特に、混合言語テキストの合成発音のために文字を音に変換するのに有用である。

しばしば連結テキスト音声合成と呼ばれるテキスト音声（ＴＴＳ）変換は、電子装置が、入力テキスト列を受け取り、そのテキスト列を合成音声の形の表現に変換することを可能にする。しかしながら、不確定数の受信テキスト列から生じる音声を合成する必要がある装置は、高品質のリアルな合成音声を提供するのが難しい。困難なことの一つは、同一文字または同一文字群が、異なる音を有することがあり、また合成されるべきテキストセグメント内の他の隣接文字および位置に応じた母音強勢／強調を有することがある、文字音声変換に基づいている。

混合言語ＴＴＳ合成が、コールセンター、ハンドヘルド装置など多くの領域においてその用途があることが明らかとなりつつある。以下、混合言語ＴＴＳは、テキスト列の解析から識別され、検出され得る二つ以上の言語に対する音声合成技術を意味する。二言語テキスト列に対する混合言語ＴＴＳを考えたとき、テキストの大部分を構成する一つの主要な言語は通常、一次言語と呼ばれ、他の言語は二次言語と呼ばれる。一般的に、アジア言語（標準中国語、広東語、日本語、朝鮮語、タイ語など）などの一次言語には英語が混ざっている。

連結合成に基づくＴＴＳシステムにおいては、言葉はいくつかの音声断片を互いに連結することによって合成される。連結音声合成は、実用的な混合言語ＴＴＳシステムを実現するための有望なアプローチと確認されているが、発音ユニット、音素、およびそれらに対応する音響ユニットの特定に問題がある。また、各連結点または二つの連続ユニット間における可聴不連続性は、合成音声品質に影響を及ぼす。更に、各連結点における音声を平滑化すること、並びに、二つの言語の合成音声セグメント間の移行を平滑化することは共に、品質に影響を及ぼす。

特許請求の範囲を含む本明細書においては、用語「備える」、「からなる」、または同様な用語は、非排他的包含を意味するものであるため、多くの要素からなる方法または装置は、それらの要素だけを含むものではなく、記載されていない他の要素を容易に含むことができる。

本発明の一態様によれば、混合言語テキスト音声合成のための方法が提供される。該方法は、少なくとも二つの言語の混合言語テキスト列を受信するステップと、
前記テキスト列内のテキストを、（ｉ）音節に基づく文字の少なくとも一つの文字列と、（ｉｉ）アルファベットの文字によって形成された一つまたはそれ以上の単語からなる少なくとも一つの単語列とのいずれかに分割するテキスト分割ステップであって、前記文字のそれぞれが単一音節を表し、前記単語の少なくともいくつかは二以上の音節を表すことと、
前記音節に基づく文字のそれぞれに発音ユニットを割り当てる発音ユニット割当ステップと、
前記単語のそれぞれに音素を割り当てる音素割当ステップであって、該音素の一つまたはそれ以上が個々の音節を形成することと、
前記発音ユニットと音素の両方に対して個々の音響ユニットを選択する音響選択ステップと、
前記個々の音響ユニットを連結して、前記混合テキスト列に対応する順序を有する連結順序音響ユニットにする連結ステップと、
前記連結順序音響ユニットを用いて音声合成を行う音声合成ステップとを備える。

前記テキスト分割ステップはまた、前記二つの言語のいずれが一次言語であり、いずれが二次言語であるかを特定するのが適切である。
前記一次言語からなるテキストは、前記二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサを含むのが好ましい。

前記発音ユニット割当ステップは、辞書の中の単語が、音節に基づく文字のテキストの最も多くの連続文字一致セグメントと一致するように、最大マッチングによるセグメント化を含み、該セグメント化は最大一致単語を提供する、のが適切である。

前記音響選択ステップは、句読点によって明確に特定されない自然音声休止を特定するために前記最大一致単語に対する句の境界を決定するステップを含むのが好ましい。

前記音響選択ステップは、各文字に対する発音ユニットを、その文字が最大一致単語のいずれを構成するかを考慮しながら特定するステップを含むのが適切である。前記発音ユニットのそれぞれに関する韻律情報があるのが適切である。

前記音素割当ステップは、句読点によって明確に特定されない一つ以上の自然境界を特定するステップを含むのが好ましい。前記自然境界は、音声パターンの一部に基づく予測的な単語のまとまりの形成によって特定されるのが適切である。前記音声パターンの一部は、ルールを用いて特定されることが好ましく、そのルールは、
形容詞＋名詞は、自然境界を与える、
数字＋量は、自然境界を与える、
動詞＋名詞は、自然境界を与える、
副詞＋動詞は、自然境界を与える、
名詞＋名詞は、自然境界を与える、
数字＋名詞は、自然境界を与える、
動詞＋動詞は、自然境界を与える、および
名詞＋接続詞＋名詞は、自然境界を与える
ことを含む。

前記音素割当ステップは、単語を、サブワードシーケンスを形成するサブワードに分割するステップと、音節の境界を特定し、それにより、サブワードまたは音素を個々の音節に割り当てるステップを含むのが適切である。

前記音節の境界を特定するステップは、各サブワードを子音（Ｃ）、母音（Ｖ）、および子音群（ＣＧ）と特定するステップを含むのが好ましい。
前記音節の境界を特定するステップは、ＶＣＶの場合には、Ｖ｜ＣＶとなる；ＶＶの場合には、Ｖ｜Ｖとなる；ＶＣＣＶの場合には、ＶＣ｜ＣＶ（ＣＣがＣＧの中にない場合）となる；ＶＣＣＶの場合には、Ｖ｜ＣＣＶ（ＣＣがＣＧの中にある場合）となる；ＶＣＣＣＶの場合には、ＶＣ｜ＣＣＶとなる；ＶＣＣＣＣＶの場合にはＶＣ｜ＣＣＣＶとなるというルールを有するのが適切である。前記「｜」は音節の境界を表す。

連結の間、前記音響ユニットが、二次言語のテキストの位置を示すそれぞれのダミースペーサの中に挿入されるのが好ましい。
前記連結順序音響ユニットは、連結境界における音響ユニットに関する励起信号をマージすることを含む改善が施されるのが適切である。

本発明を容易に理解し、実効あるものにするために、好ましい実施態様を添付図面を参照して説明する。
図１は無線電話の形態の電子装置１００を示す。この電子装置１００は、一般的にタッチスクリーンまたは代替的には表示スクリーンとキーボードであるユーザーインターフェース１０４に、バス１０３によって動作可能に接続された装置プロセッサ１０２を備えている。

電子装置１００はまた、発話コーパス１０６、音声合成器１１０、不揮発性メモリ１２０、読み取り専用メモリ１１８、および無線周波数通信ユニットとしての無線通信モジュール１１６を備えており、これらはすべてバス１０３によって装置プロセッサ１０２に動作可能に接続されている。音声合成器１１０は、スピーカ１１２を駆動するように接続された出力を有している。発話コーパス１０６は、単語または音素と、それに関するサンプリングされ、ディジタル化され、処理された発話波形ＰＵＷとの表記を含んでいる。言い換えれば、以下に説明するように、使用中の不揮発性メモリ１２０（メモリモジュール）は、混合言語テキスト音声（ＴＴＳ）合成のためにある。また、発話コーパス１０６は、音素と韻律特徴の強勢／強調の形態の、サンプリングされ、ディジタル化された発話波形を有している。

当業者にとって明らかなように、無線通信モジュール１１６は一般的に、共通アンテナを有する送信機と受信機の組み合わせである。無線通信モジュール１１６は、無線周波数増幅器を解してアンテナに接続されたトランシーバを有している。このトランシーバはまた、無線通信モジュール１１６を装置プロセッサ１０２に接続する組み合わせ変調器／復調器に接続されている。また、本実施態様においては、不揮発性メモリ１２０（メモリモジュール）はユーザープログラマブル電話帳データベースＤｂを記憶しており、読み取り専用メモリ１１８は装置プロセッサ１０２のオペレーティングコード（ＯＣ）を記憶している。

図２は、混合言語テキスト音声合成のための方法２００を示している。開始ステップ２１０の後に、不揮発性メモリ１２０から混合言語テキスト列ＴＳを受信するステップ２２０を実行する。混合言語テキスト列ＴＳは、無線通信モジュール１１６またはなんらかの他の手段によって受信されたテキストメッセージから生じたものであってもよい。また、本明細書に述べられたような混合言語テキスト列ＴＳは一般的に、少なくとも二つの言語から形成されており、一例として、漢字とアルファベット文字との組み合わせが以下に述べられている。また、テキスト列ＴＳは０から９までの数字および句読点の少なくともいずれかを含むことができる。

次に、テキスト分割ステップ２３０は、テキスト列の中のテキストを、（ｉ）音節に基づく文字（ＳＢＣ）の少なくとも一つの文字列であって、その文字のそれぞれが単一音節を表す文字列、および（ｉｉ）アルファベットの文字によって形成された、一つまたはそれ以上の単語からなる少なくとも一つの単語列（以下、単語の列（ＳＯＷ）とも言う）であって、その単語の少なくともいくつかは二つ以上の音節を表す単語列のいずれかに分割する。このテキスト分割ステップ２３０は、この技術において知られているユニコーディングによって実行される。ユニコードでは、英文字は、各文字が００００から００７ｆまでの数字によって表されるようにエンコードされ、漢字は、各文字が４ｅ００から９ｆａ５までの数字によって記憶されるようにエンコードされるように、体系化されている。

テキスト分割ステップはまた、二つの言語のいずれがテキスト列の中の一次言語であり、いずれが二次言語であるかを特定する。これは、本実施態様（英語と漢字の混合言語テキスト）においては、漢字と英単語を数えることによって達成される。英単語よりも漢字が多ければ、一次言語は中国語となり、二次言語は英語となる。あるいは、漢字よりも英単語が多ければ、一次言語は英語となり、二次言語は中国語となる。

更なる説明のために、方法２００は、以下の４つの文の形態の４つのテキスト列を考える。

上記４つのテキスト列に対するテキスト分割ステップの後に、一次言語の４つの音節に基づく文字（ＳＢＣ）列があり、これらは以下の通りである。

また、二次言語の４つの単語列（ＳＯＷ）があり、それぞれ一つまたはそれ以上の単語からなっており、それらは以下のように特定される。
単語列１（ＳＯＷ１）−＞ブランク１：「mention 」
単語列２（ＳＯＷ２）−＞ブランク２：「Watson」
単語列３（ＳＯＷ３）−＞ブランク３：「Chicago 」
単語列４（ＳＯＷ４）−＞ブランク４：「APEC」
以上から、漢字が英単語よりも多いので、一次言語は中国語となり、二次言語は英語となる。このことは、音節に基づく文字（ＳＢＣ）列の中で英単語がブランクとして表されているので、明らかである。このように、一次言語からなるテキストは、二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサ（ブランク１からブランク４までの空白）を含んでいる。

音節に基づく文字列（ＳＢＣ１〜ＳＢＣ４）である漢字を考慮し、方法２００は、音節に基づく文字（ＳＢＣ）のそれぞれに発音ユニットを割り当てるための割り当てステップ
（２４０）を実行する。割り当てステップ（２４０）は本質的に３つのサブステップに分けられる。それら３つのサブステップは、（ａ）テキストの解析、（ｂ）句の境界の決定、および（ｃ）発音ユニットの特定である。

サブステップ（ａ）テキストの解析は、本質的に、単語辞書を用いて漢字のセグメント化と正規化を行う。この辞書は８０，０００以上の単語からなり、その一部を以下のリスト１に示す。

このセグメント化は、（メモリ１２０に記憶されている）辞書内の単語が、音節に基づく文字（ＳＢＣ）のテキストの最も多くの連続した文字が一致するセグメントと一致するように、最大マッチングによってセグメント（単語）を選択する。例えば、音節に基づく文字列１（ＳＢＣ１）：

を考える。セグメント化は最初の文字から最後の文字へ（文イニシャルから文ファイナルへ）と進む。従って、セグメント化は以下の順序で進む。「英」が辞書の中で見つけられ、「英文」が辞書の中で見つけられ、

は辞書の中で見つけられない。従って、第１のセグメントまたは単語は「英文」である。同様に、

が辞書の中で見つけられ、

が辞書の中で見つけられ、次の単語は空白なので、第２のセグメントまたは単語は、

である。空白「ブランク１」は飛ばされる（セグメント化のためには解析されない）。次に、「可」が辞書の中で見つけられ、「可翻」は辞書の中で見つけられず、従って、第３のセグメントまたは単語は「可」である。同様に、残りのセグメントまたは単語は、

である。当業者にとって明らかなように、同じセグメント化プロセスが、音節に基づく文字列（ＳＢＣ２〜ＳＢＣ４）について行われ、最大一致単語（ＭＭＷ）を提供する。
正規化は、数字および句読点などの特別な文字に対して有用である。正規化は、ルールを用いて、特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定する。従って、正規化は特別文字からなる正規化文字を提供する。また、正規化はルールベースによってもたらされる。その一部は以下の通りである。
ドットルール：
終止符は、「上海是中国最大的城市之一．」などの文の終わりである。
小数点は、「点」という音を有するように正規化される。例えば、１．２３４は、一点二三四。
ＵＲＬ内のドットは「ドット」という音を有するように正規化される。例えば、www.mot.com （www 点m ot 点com ，www ドットmot ドットcom ）

コロンルール：
文の切れ目，すなわち

比：比分是２：２（「比」に変換されるべきである）
時刻：１０：０５

スラッシュルール：
分数フラグ：２／３（三分之二）
日付フラグ：９７／１０（九七年十月，October, 1997 ）
コンマルール：
数識別子：１２３，４５６（十二万三千四百五十六，one hundred twenty three thousand four hundred fifty six ）
数列ルール:
数字：１２３４５６（一二三四五六，one two three four five six ）
サブステップ（ｂ）の句の境界の決定は、当業者にとって明らかなように、最大マッチングを使って、予測的な単語のまとまりの形成（フレージング）を行う。句の境界を決定する目的は、最大一致単語（ＭＭＷ）列内の句読点によって明確に特定されない自然境界（自然音声休止）を特定することである。予測的な単語のまとまりの形成は音声パターンの一部に基づいており、以下のルール、すなわち、
形容詞＋名詞は、自然境界を与える、
数字＋量は、自然境界を与える、
動詞＋名詞は、自然境界を与える、
副詞＋動詞は、自然境界を与える、
名詞＋名詞は、自然境界を与える、
数字＋名詞は、自然境界を与える、
動詞＋動詞は、自然境界を与える、および
名詞＋接続詞＋名詞は、自然境界を与える。
というルールを有する。
名詞＋名詞ルールは繰り返して用いられるので、連続した三つ以上の名詞も自然境界を与える（例えば、名詞＋名詞＋名詞、名詞＋名詞＋名詞＋名詞、など）。また、動詞＋動詞ルールも繰り返し用いられる。

自然境界は強調および休止を特定する。従って、セグメント化された音節に基づく文字列１（ＳＢＣ１）に対し、自然境界は以下のように特定される。

従って、自然境界（フレージング）は、

となる。ここで、「｜」は句の境界を表す。

また、ＳＢＣ２からＳＢＣ４に対する自然境界（フレージング）は以下の通りである。
ＳＢＣ２に対して、セグメント化後は、

となり、
フレージング後は、
「ブランク２｜是｜一位成功的商人」となる。
ＳＢＣ３に対して、セグメント化後は、

となり、
フレージング後は、

となる。

ＳＢＣ４に対して、セグメント化後は、

となり、
フレージング後は、

となる。

サブステップ（ｃ）の発音ユニット特定は、サブステップ（ａ）とサブステップ（ｂ）からの結果を使って、音節に基づく文字のそれぞれに対する発音ユニットを、その文字が最大一致単語のいずれを構成するかを考慮しながら、特定する。このサブステップはまた、自然休止および正規化文字に対する発音ユニットを特定する。
不揮発性メモリ１２０に記憶されている音声インベントリ内のユニットが、韻律位置と文脈情報において目標発音ユニットと一致した場合には、このユニットが選択される。例えば、

のように特定された自然境界を有するように予測的な単語のまとまりが形成（フレージング）されたテキスト列１（ＴＳ１）に対して、選択された発音ユニットを表１９に示す。表１９において、韻律位置に関する数字は、関連発音ユニットと共にピッチ期間とエネルギー（例えば、ＲＭＳ電力）に影響を及ぼす。これに関して、数字０は発音ユニットが文の最初にあることを意味し、数字１は発音ユニットが文の最後にあることを意味し、数字２は発音ユニットが句の最初にあることを意味し、数字３は発音ユニットが句の中間にあることを意味し、数字４は発音ユニットが句の最後にあることを意味する。

割り当てステップ（２４０）の後、この方法は、発音ユニットに対する個々の音響ユニットを選択するための選択ステップ（２５０）を実行する。（中国語などの音節ベース言語に対しては、ユニット選択を行うための韻律位置と文脈情報を有する発音ユニットが特定される）。

音節ベース言語に対するユニット選択手順は以下のように説明することができる。声調および韻律位置を有する音節が、メモリ１２０に記憶されているインベントリの中で検索され、音響ユニットが選択される。見つからなければ、この方法は、韻律位置に対する条件を緩和し、同じ声調と異なる韻律位置を有する音節を選択する。

今度は、テキスト分割ステップ２３０に戻り、英語の単語列（ＳＯＷ）について検討すると、これらの単語は、その単語のそれぞれに音素を割り当てる割り当てステップ（２６０）において処理される。ここで、これらの音素の一つまたはそれ以上が個々の音節を形成する。割り当てステップ（２６０）は本質的に、（ａ）正規化、（ｂ）句の境界の決定、（ｃ）文字から音への変換、および（ｄ）音節の境界の決定という４つのサブステップに分けられる。

サブステップ（ａ）は、本質的に上記と同一の正規化である正規化を行うが、前記ルールベースにおいて英語テキストを使用する。
サブステップ（ｂ）の句の境界の決定は、参照によって本明細書に援用される、出願番号第０３１３２７０８．７号にて出願された中国特許出願に記載されたプロセスによって行われる。要約すると、句の境界は、統計的解析と、９０，０００を超える転写の大量のトレーニングセットから選択される経験則とによって決定される。これらの経験則は不揮発性メモリ１２０に記憶されている。句の境界の目的は、句読点によって明確に特定されない自然境界（自然音声休止）を特定することである。

サブステップ（ｃ）の文字から音への変換は、同一文字または文字群が、異なる音を有することがあり、また、合成されるべきテキストセグメント内の他の隣接文字および位置に依存する母音の強勢／強調を有することがあるという事実に対処している。サブステッ
プ（ｃ）の文字から音への変換は、参照によって本明細書に援用される、出願番号第０３１３２７０９．５号にて出願された中国特許出願に記載されたプロセスによって行われる。しかしながら、要約すれば、文字から音への変換サブステップは、単語をサブワードに分割するステップを含み、サブワードは、少なくとも二つの文字からなる一つまたはそれ以上のサブワードを有するサブワードシーケンスを形成する。サブワードシーケンスは、選択した単語を構成するであろうすべての可能なサブワードの解析によって決定される。この解析は、非循環有向グラフ（ＤｉｒｅｃｔＡｃｙｃｌｉｃＧｒａｐｈ：ＤＡＧ）の構築によって行われる。

例えば、選択した単語「mention 」がステップ２６０によって処理されようとしている場合、図３の非循環有向グラフＤＡＧは、選択単語「mention 」を構成することができるであろうすべての可能なサブワードで構築されることを考えてみよう。各サブワードと共に所定の重みＷＴが与えられる。例えば、サブワード「ment」、「men 」、および「tion」はそれぞれ重み８８，８６、および２０４を有している。従って、出願番号第０３１３２７０９．５号にて出願された中国特許出願に記載されたように、ＤＡＧが検討され、選択した単語を形成する最大の総（合計）重みＷＴを有するサブワードが選択されて、音素と特定される。単語「mention 」の場合には、サブワード「men 」と「tion」が選択されるであろう。その後、音節の境界が特定されると、これらのサブワードに対して音素を特定することができる。

サブステップ（ｄ）音節の境界の特定は、以下のルールを用いて行われる。
子音（Ｃ）は以下のサブワードのいずれかで構成される：
TS,b,ch,d,dh,f,g,hh, k,l,m,n,ng, , p,r,s,sh,t,th, v,w,y,z,zh
母音（Ｖ）は以下のサブワードのいずれかで構成される：
aa,ae,ao,aw,ax, ay,eh,er, ey,ih,iy,ow,oy,uh,uw
子音群（ＣＧ）は以下のサブワードのいずれかで構成される：
bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,tr.

境界ルール１：ＶＣＶの場合は、Ｖ｜ＣＶとなる。
境界ルール２：ＶＶの場合は、Ｖ｜Ｖとなる。
境界ルール３：ＶＣＣＶの場合は、ＶＣ｜ＣＶ（ＣＣがＣＧの中にない場合）となる。
境界ルール４：ＶＣＣＶの場合は、Ｖ｜ＣＣＶ（ＣＣがＣＧの中にある場合）となる。
境界ルール５：ＶＣＣＣＶの場合は、ＶＣ｜ＣＣＶとなる。
境界ルール６：ＶＣＣＣＣＶの場合は、ＶＣ｜ＣＣＣＶとなる。
ここで、「｜」は音節の境界を表す。

音節の境界を特定するサブステップ（ｄ）の後に、「men 」と「tion」などのサブワードに対して音素が特定される。従って、特定ステップはサブワードで構成される各単語に対する音素を特定し、当業者にとって明らかなように、二以上の音素が個々の音節を形成することができる。例えば、テキスト列１からテキスト列３までの例に対して、音素とそれに関する韻律情報が、自然境界の特定に基づいて選択されるであろう。そのような音素と韻律情報（韻律位置）を表２０に示す。ここで、Ｍは単語が文の最初か中間にある（即ち、文の最後にない）ことを意味し、Ｆは単語が文の最後（最終位置）にあることを意味し、Ｏは音節が単語の最初または中間にある（即ち、単語の最後にない）ことを意味し、Ｆは音節が単語の最後（最終位置）にあることを意味する。

割り当てステップ２６０の後に、一つまたはそれ以上の音素からなる可変長ユニットモデル（ＶＬＵ）に基づいて個々の音響ユニットを選択するために選択ステップ２７０が設けられているが、一方、中国語に対する音響ユニットは、各音響ユニットが音節を構成するので、長さが一定である。

ＶＬＵに対して５つの可能なクラスがある。
クラス１：規則的子音＋母音、半母音＋母音、鼻音＋母音。規則的子音には、閉鎖音、摩擦音、歯音などがある。
クラス２：クラス１＋鼻音／半母音。
クラス３：サブＣＶ。これはクラス１またはクラス２の一部である。
クラス４：頭子音(consonant initial) と頭子音群(consonant initial group) 。頭子音は音節の頭音(syllable initial)として働く子音であり、頭子音群は主として閉鎖音とそれに続く歯音（例えば、ｓ＋ｔ）をいう。
クラス５：末子音(consonant final) と末子音群(consonant final group) 。

上記から、単語が二つの連続した母音または前後に母音がある半母音を有する場合には、最大マッチングはメモリ１２０に記憶されている音声インベントリ内で行われる。一致がない場合には、この方法は音節ごとに検索して音響ユニットを割り当てる。本実施態様においては、最大マッチングは必ず行われる。この音響ユニット選択の目的は、連結点を減らし、同一または類似した韻律上の制約を有する音響ユニットを選択することである。

選択ステップ２５０，２７０の後、結果として得られた音響ユニットが連結ステップ２７５においてマージされる。ここでは、個々の音響ユニットは、方法２００によって処理される混合言語テキストに対応した順序で、順序音響ユニットに連結される。連結プロセスにおいて、テキスト列の例１〜４を用いて、ＶＬＵ（音素）によって形成された音響ユニットが、対応するテキスト列内のそれぞれのダミースペーサ（ブランク１〜ブランク４）に挿入される。

連結プロセスの間、音響ユニットによって特定されるパラメータビットストリームは最初に、二つの主要構成要素からなるフレームにデコードされる。この二つの主要構成要素は、各フレームに対するＬＳＰ［ｉ］ベクトルを含む声道パラメータＬＳＰ（線スペクトル対）と、励起ストリームＥｘｃ［ｉ］［ｊ］（ｉはフレームの索引であり、ｊはフレーム内のサンプルの索引である）によって表される励起信号である。各フレームｉの概略ピ
ッチ推定値ＯＴ［ｉ］はまた、ビットストリームの適応遅延パラメータから得られる。当業者にとって明らかなように、一つの音響ユニットはいくつかのフレームで構成することができる。上記３つのパラメータは各音響ユニットに対してフレーム毎に示される。また、各フレームに対して、パラメータＬＳＰ［ｉ］はベクトルであり、１０要素を含み、その要素の例は、［１２２７，２０２７，３８８４，９１０８，１２８９２，１６４５４，１９８６６，２３０１９，２６３０４，２９５５３］である。また、パラメータＥｘｃ［ｉ］［ｊ］は２４０要素を含むベクトルであり、その要素の例は、［０，０，−１，−３，０，２，４，１０，６，−１，…］であり、パラメータＯＴ［ｉ］は範囲［４０，１５０］内の整数、例えば７８である。

次に、改善ステップ２８０において改善が行われる。ここでは、連結された順序音響ユニットに以下を含む改善が施される。
（ａ）二つの隣接音響ユニットの連結境界における各フレームのピッチ推定値ＯＴ［ｉ］を平滑化する。境界における二つのユニットのピッチ値を線形的に補間して、平滑化した新たな値、（前方または先行ユニットの最終フレームに対する）ＯＴ［Ｔ］と、（次のユニットの開始フレームに対する）ＯＴ［Ｈ_ｕ］を得る。

（ｂ）二つの隣接音響ユニットの連結境界における励起信号をマージする。三角ウィンドウによって、連続ユニットの第１サブフレーム励起信号を、前方ユニットの最後の一サブフレームを有する新サブフレームにマージする。

（ｃ）隣接音響ユニットの連結境界におけるＬＳＰ［ｉ］を補間する。マージされた励起信号に対応する各ＬＳＰ［ｉ］ベクトルは、前方ユニットの最後のＬＳＰ［ｉ］ベクトルと後続ユニットの最初のＬＳＰ［ｉ］ベクトルを補間することによって得られる。従って、連結ＬＳＰ［ｉ］ベクトル列が構築される。

音声合成実行ステップ２８５において、連続した音響ユニットの連結ＬＳＰ［ｉ］ベクトル列が予測係数ａ［ｉ］［ｊ］（ｉはフレームの索引であり、ｊは予測順序である）に変換される。平滑化は、ＯＴ［Ｔ］、ＯＴ［Ｈ_ｕ］などからなる連結された平滑化励起列を音声合成器１１０に供給することによって再構築されるので、多言語テキスト列ＴＳは、予測係数ａ［ｉ］［ｊ］とそれに関する平滑励起列とを波形合成音声に変えることによって、音声として合成される。また、当業者にとって明らかなように、母音の強勢（適宜、第１強勢、第２強勢、または強勢なし）を用いて、適切な強勢強調により合成音声品質を改善することもできる。

音声合成実行ステップ２８５の後に、方法２００は終了ステップ９０において終了する。例示および説明のために中国語を一次言語として特定したが、英語を一次言語とすることもできることは明らかである。英語が一次言語の場合、ダミー単語スペーサは英語テキストの中に含まれ、二次言語（例えば中国語）のテキストの位置を示す。また、連結の間、音響ユニットが、二次言語のテキストの位置を示すそれぞれのダミースペーサの中に挿入される。ステップ２４０，２５０をステップ２６０，２７０の前に説明したが、ステップ２６０，２７０をステップ２４０，２５０の前にまたはそれらと同時に実行することができることも明らかである。

本発明は、手持型または携帯型装置などの電子装置、例えば、ラップトップコンピュータ、パーソナルディジタルアシスタント、携帯電話および多くの他の装置に使用することができる混合言語ＴＴＳ合成を有利に提供する。

上記詳細な説明は、好ましい典型的な実施態様だけを提供するものであって、本発明の範囲、適用可能性、または構成を制限するものではない。むしろ、この好ましい典型的な
実施態様の詳細な説明は、当業者に、本発明の好ましい典型的な実施態様を実施するのを可能にする説明を提供する。特許請求の範囲に述べられたような本発明の精神と範囲から逸脱することなしに、要素の機能と配置において種々の変更を行うことができることは明らかである。

本発明による電子装置の概略ブロック図。図１の電子装置で実行することができる混合言語テキスト音声合成のための方法を示すフローチャート。非循環有向グラフの例を示す図。

Claims

中国語と英語が混合した混合言語テキスト（ＴＳ）を音声合成する音声合成方法であって、前記音声合成方法は、
前記混合言語テキスト列（ＴＳ）を受取る受取ステップ（２２０）と；
前記混合言語テキスト列（ＴＳ）の中のテキストを漢字列または英単語列に分割する分割ステップ（２３０）であって、前記漢字列の漢字はそれぞれ単一音節を表し、前記英単語列はアルファベットの文字によって形成された一つまたはそれ以上の英単語からなり、それぞれ前記英単語は二つ以上の音節を表すことと；
前記漢字にそれぞれ発音ユニットを割当てる発音ユニット割当ステップ（２４０）と；
前記英単語にそれぞれ音素を割当てる英語音素割当ステップ（２６０）と；
前記発音ユニットと前記音素にそれぞれ対応する音響ユニットを選択する音響選択ステップ（２５０，２７０）と；
前記混合言語テキスト列（ＴＳ）に対応する順序を有するように前記音響ユニットを連結して連結順序音響ユニットにする連結ステップ（２７５）と；
前記連結順序音響ユニットを用いて音声合成を行う音声合成実行ステップ（２８５）と
を備え、
前記発音ユニット割当ステップ（２４０）は、前記漢字のテキストを解析する漢字解析サブステップ（ａ）と、前記漢字の句の境界を決定する漢字境界決定サブステップ（ｂ）と、前記漢字解析サブステップ（ａ）と前記決定サブステップの結果を使って前記漢字それぞれに対する発音ユニットを特定する発音特定ステップ（ｃ）とを有し、
前記漢字解析サブステップ（ａ）は、辞書を用いて漢字のセグメント化と正規化を行い、
前記正規化は、数字および句読点といった特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定するために、前記特別な文字からなる正規化文字を提供するルールとしてドットについてのドットルール、コロンについてのコロンルール、スラッシュについてのスラッシュルール、コンマについてのコンマルール、および数列についての数列ルールを含み、
前記漢字境界決定サブステップ（ｂ）は、句読点によっては明確に特定されない強調および休止を特定する自然音声休止としての自然境界を決定し、
形容詞＋名詞は、前記自然境界を与え、
数字＋量は、前記自然境界を与え、
動詞＋名詞は、前記自然境界を与え、
副詞＋動詞は、前記自然境界を与え、
名詞＋名詞は、前記自然境界を与え、
数字＋名詞は、前記自然境界を与え、
動詞＋動詞は、前記自然境界を与え、
名詞＋接続詞＋名詞は、自然境界を与え、
連続した三つ以上の名詞も自然境界を与えるように名詞＋名詞ルールは繰返して用いられ、動詞＋動詞ルールも繰返し用いられ、
前記発音特定ステップ（ｃ）は更に、前記自然休止および前記正規化文字に対する発音ユニットを特定することを特徴とする、音声合成方法。
前記英語音素割当ステップ（２６０）は、
英単語を正規化する英単語正規化サブステップ（ａ）と；
英語の句の境界を決定する英語境界決定サブステップ（ｂ）と；
英語文字から音に変換する英語変換サブステップ（ｃ）と；
英語の音節の境界を決定する、英語音節境界決定サブステップ（ｄ）と
を有し、
前記英語音節境界決定サブステップ（ｄ）は、境界ルールを用いて行われ；
子音ＣはTS,b,ch,d,dh,f,g,hh,k,l,m,n,ng,p,r,s,sh,t,th,v,w,y,z,zhのサブワードのいずれかで構成され、
母音Ｖはaa,ae,ao,aw,ax,ay,eh,er,ey,ih,iy,ow,oy,uh,uwのサブワードのいずれかで構成され、
子音群ＣＧは
bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,trのサブワードのいずれかで構成され、
ＶＣＶの場合は、Ｖ｜ＣＶとなり、
ＶＶの場合は、Ｖ｜Ｖとなり、
ＶＣＣＶの場合は、ＶＣ｜ＣＶ、ただしＣＣがＣＧの中にない場合となり、
ＶＣＣＶの場合は、Ｖ｜ＣＣＶ、ただしＣＣがＣＧの中にある場合となり、
ＶＣＣＣＶの場合は、ＶＣ｜ＣＣＶとなり、
ＶＣＣＣＣＶの場合は、ＶＣ｜ＣＣＣＶとなり、
｜は音節の境界を表す、請求項１記載の音声合成方法。
前記英語境界決定サブステップ（ｂ）は、統計的解析と、転写のトレーニングセットから選択される経験則とを用いて前記境界を決定し、
前記英語変換サブステップ（ｃ）は、英単語をサブワードに分割するステップを含み、
前記サブワードは、少なくとも二つの文字からなる１以上のサブワードを有するサブワードシーケンスを形成され、
前記サブワードシーケンスは、選択した英単語を構成するサブワードのサブワード解析によって決定され、
前記サブワード解析は、非循環有向グラフの構築によって行われる、請求項２記載の音声合成方法。
前記音声合成方法は更に、前記連結順序音響ユニットに改善を施す改善ステップ（２８０）を含み、
前記改善ステップ（２８０）は、
２つの隣接音響ユニット連結境界における各フレームのピッチ推定値を平滑化し、境界における２つのユニットのピッチ値を線形的に補完し、平滑化した新たな値を得るサブステップと；
２つの隣接音響ユニットの連結境界における励起信号をマージし、連続ユニットの第１サブフレーム励起信号を、前方ユニットの最後の１サブフレームを有する新サブフレームにマージするサブステップと；
隣接音響ユニットの連結境界における声道パラメータを補間し、マージされた励起信号に対応する各声道パラメータは、前方ユニットの最後の声道パラメータと後続ユニットの最初の声道パラメータを補間し、連結声道パラメータを構築するサブステップと
を有する、請求項１記載の音声合成方法。
前記漢字境界決定サブステップ（ｂ）は、最大マッチングを使うことによって、予測的な単語のまとまりの形成を行う、請求項１記載の音声合成方法。
前記音声合成実行ステップ（２８５）は、予測係数と平滑励起列を波形合成音声に変えることを含む、請求項１記載の音声合成方法。
中国語と英語が混合した混合言語テキスト（ＴＳ）を音声合成する音声合成装置であって、前記音声合成装置は前記音声合成を行う装置プロセッサ（１０２）を備え、前記装置プロセッサ（１０２）は：
前記混合言語テキストをメモリ（１２０）から受取るか、または無線通信モジュール（１１１６）を介して受取るか、あるいはユーザインターフェース（１０４）を介して受取る受取ステップ（２２０）と；
前記混合言語テキスト列（ＴＳ）の中のテキストを漢字列または英単語列に分割する分割ステップ（２３０）であって、前記漢字列の漢字はそれぞれ単一音節を表し、前記英単語列はアルファベットの文字によって形成された一つまたはそれ以上の英単語からなり、それぞれ前記英単語は二つ以上の音節を表すことと；
前記漢字にそれぞれ発音ユニットを割当てる発音ユニット割当ステップ（２４０）と；
前記英単語にそれぞれ音素を割当てる英語音素割当ステップ（２６０）と；
前記発音ユニットと前記音素にそれぞれ対応する音響ユニットを選択する音響選択ステップ（２５０，２７０）と；
前記混合言語テキスト列（ＴＳ）に対応する順序を有するように前記音響ユニットを連結して連結順序音響ユニットにする連結ステップ（２７５）と；
前記連結順序音響ユニットを用いて音声合成を行う音声合成実行ステップ（２８５）と
を実行し、
前記発音ユニット割当ステップ（２４０）は、前記漢字のテキストを解析する漢字解析サブステップ（ａ）と、前記漢字の句の境界を決定する漢字境界決定サブステップ（ｂ）と、前記漢字解析サブステップ（ａ）と前記決定サブステップの結果を使って前記漢字それぞれに対する発音ユニットを特定する発音特定ステップ（ｃ）とを有し、
前記漢字解析サブステップ（ａ）は、辞書を用いて漢字のセグメント化と正規化を行い、
前記正規化は、数字および句読点といった特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定するために、前記特別な文字からなる正規化文字を提供するルールとしてドットについてのドットルール、コロンについてのコロンルール、スラッシュについてのスラッシュルール、コンマについてのコンマルール、および数列についての数列ルールを含み、
前記漢字境界決定サブステップ（ｂ）は、句読点によっては明確に特定されない強調および休止を特定する自然音声休止としての自然境界を決定し、
形容詞＋名詞は、前記自然境界を与え、
数字＋量は、前記自然境界を与え、
動詞＋名詞は、前記自然境界を与え、
副詞＋動詞は、前記自然境界を与え、
名詞＋名詞は、前記自然境界を与え、
数字＋名詞は、前記自然境界を与え、
動詞＋動詞は、前記自然境界を与え、
名詞＋接続詞＋名詞は、自然境界を与え、
連続した三つ以上の名詞も自然境界を与えるように名詞＋名詞ルールは繰返して用いられ、動詞＋動詞ルールも繰返し用いられ、
前記発音特定ステップ（ｃ）は更に、前記自然休止および前記正規化文字に対する発音ユニットを特定することを特徴とする、音声合成装置。