JP2006048056A - 混合言語テキスト音声合成 - Google Patents

混合言語テキスト音声合成 Download PDF

Info

Publication number
JP2006048056A
JP2006048056A JP2005226493A JP2005226493A JP2006048056A JP 2006048056 A JP2006048056 A JP 2006048056A JP 2005226493 A JP2005226493 A JP 2005226493A JP 2005226493 A JP2005226493 A JP 2005226493A JP 2006048056 A JP2006048056 A JP 2006048056A
Authority
JP
Japan
Prior art keywords
text
syllable
boundary
word
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005226493A
Other languages
English (en)
Other versions
JP4473193B2 (ja
Inventor
Dong-Jien Yue
ドン−ジエン ユエ
Gui-Lin Chen
グォイ−リン チェン
Zhen-Li Yu
ジェン−リ ユ
Yi-Qing Zu
イ−チン ズー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2006048056A publication Critical patent/JP2006048056A/ja
Application granted granted Critical
Publication of JP4473193B2 publication Critical patent/JP4473193B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Abstract

【課題】手持型または携帯型装置などの電子装置に使用することのできる混合言語TTS合成を提供する。
【解決手段】混合言語テキスト音声合成のための方法は、二つの言語の混合言語テキストを受信するステップ(220)を含む。次に、テキスト列内のテキストを、(i)音節に基づく文字の文字列であって、その文字のそれぞれが単一音節を表す文字列か、(ii)アルファベットの文字によって形成された一つまたはそれ以上の単語からなる単語列であってその単語のいくつかは二以上の音節を表す単語列、のいずれかに分割するステップを含む。音節に基づく文字のそれぞれに発音ユニットが割り当てられ(240)、単語のそれぞれに音素が割り当てられる(260)。発音ユニットと音素の両方に対する個々の音響ユニットが、選択され(250,270)、連結され(275)、合成(285)される。
【選択図】図2

Description

本発明は一般にテキスト音声(TTS)合成に関する。本発明は特に、混合言語テキストの合成発音のために文字を音に変換するのに有用である。
しばしば連結テキスト音声合成と呼ばれるテキスト音声(TTS)変換は、電子装置が、入力テキスト列を受け取り、そのテキスト列を合成音声の形の表現に変換することを可能にする。しかしながら、不確定数の受信テキスト列から生じる音声を合成する必要がある装置は、高品質のリアルな合成音声を提供するのが難しい。困難なことの一つは、同一文字または同一文字群が、異なる音を有することがあり、また合成されるべきテキストセグメント内の他の隣接文字および位置に応じた母音強勢/強調を有することがある、文字音声変換に基づいている。
混合言語TTS合成が、コールセンター、ハンドヘルド装置など多くの領域においてその用途があることが明らかとなりつつある。以下、混合言語TTSは、テキスト列の解析から識別され、検出され得る二つ以上の言語に対する音声合成技術を意味する。二言語テキスト列に対する混合言語TTSを考えたとき、テキストの大部分を構成する一つの主要な言語は通常、一次言語と呼ばれ、他の言語は二次言語と呼ばれる。一般的に、アジア言語(標準中国語、広東語、日本語、朝鮮語、タイ語など)などの一次言語には英語が混ざっている。
連結合成に基づくTTSシステムにおいては、言葉はいくつかの音声断片を互いに連結することによって合成される。連結音声合成は、実用的な混合言語TTSシステムを実現するための有望なアプローチと確認されているが、発音ユニット、音素、およびそれらに対応する音響ユニットの特定に問題がある。また、各連結点または二つの連続ユニット間における可聴不連続性は、合成音声品質に影響を及ぼす。更に、各連結点における音声を平滑化すること、並びに、二つの言語の合成音声セグメント間の移行を平滑化することは共に、品質に影響を及ぼす。
特許請求の範囲を含む本明細書においては、用語「備える」、「からなる」、または同様な用語は、非排他的包含を意味するものであるため、多くの要素からなる方法または装置は、それらの要素だけを含むものではなく、記載されていない他の要素を容易に含むことができる。
本発明の一態様によれば、混合言語テキスト音声合成のための方法が提供される。該方法は、
少なくとも二つの言語の混合言語テキスト列を受信するステップと、
前記テキスト列内のテキストを、(i)音節に基づく文字の少なくとも一つの文字列であって、前記文字のそれぞれが単一音節を表す文字列、および(ii)アルファベットの文字によって形成された一つまたはそれ以上の単語からなる少なくとも一つの単語列であって、前記単語の少なくともいくつかは二以上の音節を表す単語列のいずれかに、分割するステップと、
前記音節に基づく文字のそれぞれに発音ユニットを割り当てるステップと、
前記単語のそれぞれに音素を割り当てるステップであって、該音素の一つまたはそれ以
上が個々の音節を形成するステップと、
前記発音ユニットと音素の両方に対して個々の音響ユニットを選択するステップと、
前記個々の音響ユニットを連結して、前記混合テキスト列に対応する順序を有する連結順序音響ユニットにするステップと、
前記連結順序音響ユニットを用いて音声合成を行うステップとを備える。
前記テキスト分割ステップはまた、前記二つの言語のいずれが一次言語であり、いずれが二次言語であるかを特定するのが適切である。
前記一次言語からなるテキストは、前記二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサを含むのが好ましい。
前記発音ユニット割り当てステップは、辞書の中の単語が、音節に基づく文字のテキストの最も多くの連続文字一致セグメントと一致するように、最大マッチングによるセグメント化を含み、該セグメント化は最大一致単語を提供する、のが適切である。
前記音響ユニット割り当てステップは、句読点によって明確に特定されない自然音声休止を特定するために前記最大一致単語に対する句の境界を決定するステップを含むのが好ましい。
前記音響ユニット割り当てステップは、各文字に対する発音ユニットを、その文字が最大一致単語のいずれを構成するかを考慮しながら特定するステップを含むのが適切である。前記発音ユニットのそれぞれに関する韻律情報があるのが適切である。
前記音素割り当てステップは、句読点によって明確に特定されない一つ以上の自然境界を特定するステップを含むのが好ましい。前記自然境界は、音声パターンの一部に基づく予測的な単語のまとまりの形成によって特定されるのが適切である。前記音声パターンの一部は、ルールを用いて特定されることが好ましく、そのルールは、

形容詞+名詞は、自然境界を与える、
数字+量は、自然境界を与える、
動詞+名詞は、自然境界を与える、
副詞+動詞は、自然境界を与える、
名詞+名詞は、自然境界を与える、
数字+名詞は、自然境界を与える、
動詞+動詞は、自然境界を与える、および
名詞+接続詞+名詞は、自然境界を与える
ことを含む。
前記音素割り当てステップは、単語を、サブワードシーケンスを形成するサブワードに分割するステップと、音節の境界を特定し、それにより、サブワードまたは音素を個々の音節に割り当てるステップを含むのが適切である。
前記音節の境界を特定するステップは、各サブワードを子音(C)、母音(V)、および子音群(CG)と特定するステップを含むのが好ましい。
前記音節の境界を特定するステップは、VCVの場合には、V|CVとなる;VVの場合には、V|Vとなる;VCCVの場合には、VC|CV(CCがCGの中にない場合)となる;VCCVの場合には、V|CCV(CCがCGの中にある場合)となる;VCCCVの場合には、VC|CCVとなる;VCCCVの場合にはVC|CCCVとなるというルールを有するのが適切である。前記「|」は音節の境界を表す。
連結の間、前記音響ユニットが、二次言語のテキストの位置を示すそれぞれのダミースペーサの中に挿入されるのが好ましい。
前記連結順序音響ユニットは、連結境界における音響ユニットに関する励起信号をマージすることを含む改善が施されるのが適切である。
本発明を容易に理解し、実効あるものにするために、好ましい実施態様を添付図面を参照して説明する。
図1は無線電話の形態の電子装置100を示す。この電子装置100は、一般的にタッチスクリーンまたは代替的には表示スクリーンとキーボードであるユーザーインターフェース104に、バス103によって動作可能に接続された装置プロセッサ102を備えている。
電子装置100はまた、発話コーパス106、音声合成器110、不揮発性メモリ120、読み取り専用メモリ118、および無線通信モジュール116を備えており、これらはすべてバス103によってプロセッサ102に動作可能に接続されている。音声合成器110は、スピーカ112を駆動するように接続された出力を有している。コーパス106は、単語または音素と、それに関するサンプリングされ、ディジタル化され、処理された発話波形PUWとの表記を含んでいる。言い換えれば、以下に説明するように、使用中の不揮発性メモリ120(メモリモジュール)は、混合言語テキスト音声(TTS)合成のためにある。また、波形発話コーパス106は、音素と韻律特徴の強勢/強調の形態の、サンプリングされ、ディジタル化された発話波形を有している。
当業者にとって明らかなように、無線周波数通信ユニット116は一般的に、共通アンテナを有する送信機と受信機との組み合わせである。無線周波数通信ユニット116は、無線周波数増幅器を介してアンテナに接続されたトランシーバを有している。このトランシーバはまた、通信ユニット116をプロセッサ102に接続する組合せ変調器/復調器に接続されている。また、本実施態様においては、不揮発性メモリ120(メモリモジュール)はユーザープログラマブル電話帳データベースDbを記憶しており、読み取り専用メモリ118は装置プロセッサ102のオペレーティングコード(OC)を記憶している。
図2は、混合言語テキスト音声合成のための方法200を示している。開始ステップ210の後に、メモリ120から混合言語テキスト列TSを受信するステップ220を実行する。混合言語テキスト列TSは、モジュール116または何らかの他の手段によって受信されたテキストメッセージから生じたものであってもよい。また、本明細書に述べられたような混合言語テキスト列TSは一般的に、少なくとも二つの言語から形成されており、一例として、漢字とアルファベット文字との組合せが以下に述べられている。また、テキスト列TSは0から9までの数字および句読点の少なくともいずれかを含むことができる。
次に、テキスト分割ステップ230は、テキスト列の中のテキストを、(i)音節に基づく文字(SBC)の少なくとも一つの文字列であって、その文字のそれぞれが単一音節を表す文字列、および(ii)アルファベットの文字によって形成された、一つまたはそれ以上の単語からなる少なくとも一つの単語列(以下、単語の列(SOW)とも言う)であって、その単語の少なくともいくつかは二つ以上の音節を表す単語列のいずれかに分割する。このテキスト分割ステップ230は、この技術において知られているユニコーディングによって実行される。ユニコードでは、英文字は、各文字が0000から007fまでの数字によって表されるようにエンコードされ、漢字は、各文字が4e00から9fa5までの数字によって記憶されるようにエンコードされるように、体系化されている。
テキスト分割ステップはまた、二つの言語のいずれがテキスト列の中の一次言語であり、いずれが二次言語であるかを特定する。これは、本実施態様(英語と漢字の混合言語テキスト)においては、漢字と英単語を数えることによって達成される。英単語よりも漢字が多ければ、一次言語は中国語となり、二次言語は英語となる。あるいは、漢字よりも英単語が多ければ、一次言語は英語となり、二次言語は中国語となる。
更なる説明のために、方法200は、以下の4つの文の形態の4つのテキスト列を考える。
Figure 2006048056
上記4つのテキスト列に対するテキスト分割ステップの後に、一次言語の4つの音節に基づく文字(SBC)列があり、これらは以下の通りである。
Figure 2006048056
また、二次言語の4つの単語列(SOW)があり、それぞれ一つまたはそれ以上の単語からなっており、それらは以下のように特定される。
単語列1(SOW1)−> ブランク1:「mention 」
単語列2(SOW2)−> ブランク2:「Watson」
単語列3(SOW3)−> ブランク3:「Chicago 」
単語列4(SOW4)−> ブランク4:「APEC」
以上から、漢字が英単語よりも多いので、一次言語は中国語となり、二次言語は英語となる。このことは、音節に基づく文字(SBC)列の中で英単語がブランクとして表されているので、明らかである。このように、一次言語からなるテキストは、二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサ(ブランク1からブランク4までの空白)を含んでいる。
音節に基づく文字列(SBC1〜SBC4)である漢字を考慮し、方法200は、音節に基づく文字(SBC)のそれぞれに発音ユニットを割り当てるための割り当てステップ
(240)を実行する。割り当てステップ(240)は本質的に3つのサブステップに分けられる。それら3つのサブステップは、(a)テキストの解析、(b)句の境界の決定、および(c)発音ユニットの特定である。
サブステップ(a)テキストの解析は、本質的に、単語辞書を用いて漢字のセグメント化と正規化を行う。この辞書は80,000以上の単語からなり、その一部を以下のリスト1に示す。
Figure 2006048056
このセグメント化は、(メモリ120に記憶されている)辞書内の単語が、音節に基づく文字(SBC)のテキストの最も多くの連続した文字が一致するセグメントと一致するように、最大マッチングによってセグメント(単語)を選択する。例えば、音節に基づく文字列1(SBC1):
Figure 2006048056
を考える。セグメント化は最初の文字から最後の文字へ(文イニシャルから文ファイナルへ)と進む。従って、セグメント化は以下の順序で進む。「英」が辞書の中で見つけられ、「英文」が辞書の中で見つけられ、
Figure 2006048056
は辞書の中で見つけられない。従って、第1のセグメントまたは単語は「英文」である。同様に、
Figure 2006048056
が辞書の中で見つけられ、
Figure 2006048056
が辞書の中で見つけられ、次の単語は空白なので、第2のセグメントまたは単語は、
Figure 2006048056
である。空白「ブランク1」は飛ばされる(セグメント化のためには解析されない)。次に、「可」が辞書の中で見つけられ、「可翻」は辞書の中で見つけられず、従って、第3のセグメントまたは単語は「可」である。同様に、残りのセグメントまたは単語は、
Figure 2006048056
である。当業者にとって明らかなように、同じセグメント化プロセスが、音節に基づく文字列(SBC2〜SBC4)について行われ、最大一致単語(MMW)を提供する。
正規化は、数字および句読点などの特別な文字に対して有用である。正規化は、ルールを用いて、特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定する。従って、正規化は特別文字からなる正規化文字を提供する。また、正規化はルールベースによってもたらされる。その一部は以下の通りである。
ドットルール:
終止符は、「上海是中国最大的城市之一.」などの文の終わりである。
小数点は、「点」という音を有するように正規化される。例えば、1.234は、一点二三四。
URL内のドットは「ドット」という音を有するように正規化される。例えば、www.mot.com (www 点m ot 点com ,www ドットmot ドットcom )
コロンルール:
文の切れ目,すなわち
Figure 2006048056
比: 比分是 2:2(「比」に変換されるべきである)
時刻: 10:05
スラッシュルール:
分数フラグ: 2/3(三分之二)
日付フラグ: 97/10(九七年十月,October, 1997 )
コンマルール:
数識別子: 123,456(十二万三千四百五十六,one hundred twenty three thousand three hundred fifty six )
数列ルール
数字: 123456(一二三四五六,one two three four five six )
サブステップ(b)の句の境界の決定は、当業者にとって明らかなように、最大マッチングを使って、予測的な単語のまとまりの形成(フレージング)を行う。句の境界を決定する目的は、最大一致単語(MMW)列内の句読点によって明確に特定されない自然境界(自然音声休止)を特定することである。予測的な単語のまとまりの形成は音声パターンの一部に基づいており、以下のルール、すなわち、

形容詞+名詞は、自然境界を与える、
数字+量は、自然境界を与える、
動詞+名詞は、自然境界を与える、
副詞+動詞は、自然境界を与える、
名詞+名詞は、自然境界を与える、
数字+名詞は、自然境界を与える
動詞+動詞は、自然境界を与える、および
名詞+接続詞+名詞は、自然境界を与える。
というルールを有する。
名詞+名詞ルールは繰り返して用いられるので、連続した三つ以上の名詞も自然境界を与える(例えば、名詞+名詞+名詞、名詞+名詞+名詞+名詞、など)。また、動詞+動詞ルールも繰り返し用いられる。
自然境界は強調および休止を特定する。従って、セグメント化された音節に基づく文字列1(SBC1)に対し、自然境界は以下のように特定される。
Figure 2006048056
従って、自然境界(フレージング)は、
Figure 2006048056
となる。ここで、「|」は句の境界を表す。
また、SBC2からSBC4に対する自然境界(フレージング)は以下の通りである。
SBC2に対して、セグメント化後は、
Figure 2006048056
となり、
フレージング後は、
「ブランク2 | 是|一位 成功 的 商人」となる。
SBC3に対して、セグメント化後は、
Figure 2006048056
となり、
フレージング後は、
Figure 2006048056
となる。
SBC4に対して、セグメント化後は、

Figure 2006048056
となり、
フレージング後は、
Figure 2006048056
となる。
サブステップ(c)の発音ユニット特定は、サブステップ(a)とサブステップ(b)からの結果を使って、音節に基づく文字のそれぞれに対する発音ユニットを、その文字が最大一致単語のいずれを構成するかを考慮しながら、特定する。このサブステップはまた、自然休止および正規化文字に対する発音ユニットを特定する。
不揮発性メモリ120に記憶されている音声インベントリ内のユニットが、韻律位置と文脈情報において目標発音ユニットと一致した場合には、このユニットが選択される。例えば、
Figure 2006048056
のように特定された自然境界を有するように予測的な単語のまとまりが形成(フレージング)されたテキスト列1(TS1)に対して、選択された発音ユニットを表1に示す。表1において、韻律位置に関する数字は、関連発音ユニットと共にピッチ期間とエネルギー(例えば、RMS電力)に影響を及ぼす。これに関して、数字0は発音ユニットが文の最初にあることを意味し、数字1は発音ユニットが文の最後にあることを意味し、数字2は発音ユニットが句の最初にあることを意味し、数字3は発音ユニットが句の中間にあることを意味し、数字4は発音ユニットが句の最後にあることを意味する。
Figure 2006048056
割り当てステップ(240)の後、この方法は、発音ユニットに対する個々の音響ユニットを選択するための選択ステップ(250)を実行する。(中国語などの音節ベース言語に対しては、ユニット選択を行うための韻律位置と文脈情報を有する発音ユニットが特定される)。
音節ベース言語に対するユニット選択手順は以下のように説明することができる。声調および韻律位置を有する音節が、メモリ120に記憶されているインベントリの中で検索され、音響ユニットが選択される。見つからなければ、この方法は、韻律位置に対する条件を緩和し、同じ声調と異なる韻律位置を有する音節を選択する。
今度は、テキスト分割ステップ230に戻り、英語の単語列(SOW)について検討すると、これらの単語は、その単語のそれぞれに音素を割り当てる割り当てステップ(260)において処理される。ここで、これらの音素の一つまたはそれ以上が個々の音節を形成する。割り当てステップ(260)は本質的に、(a)正規化、(b)句の境界の決定、(c)文字から音への変換、および(d)音節の境界の決定という4つのサブステップに分けられる。
サブステップ(a)は、本質的に上記と同一の正規化である正規化を行うが、前記ルールベースにおいて英語テキストを使用する。
サブステップ(b)の句の境界の決定は、参照によって本明細書に援用される、出願番号第03132708.7号にて出願された中国特許出願に記載されたプロセスによって行われる。要約すると、句の境界は、統計的解析と、90,000を超える転写の大量のトレーニングセットから選択される経験則とによって決定される。これらの経験則は不揮発性メモリ120に記憶されている。句の境界の目的は、句読点によって明確に特定されない自然境界(自然音声休止)を特定することである。
サブステップ(c)の文字から音への変換は、同一文字または文字群が、異なる音を有することがあり、また、合成されるべきテキストセグメント内の他の隣接文字および位置に依存する母音の強勢/強調を有することがあるという事実に対処している。サブステッ
プ(c)の文字から音への変換は、参照によって本明細書に援用される、出願番号第03132709.5号にて出願された中国特許出願に記載されたプロセスによって行われる。しかしながら、要約すれば、文字から音への変換サブステップは、単語をサブワードに分割するステップを含み、サブワードは、少なくとも二つの文字からなる一つまたはそれ以上のサブワードを有するサブワードシーケンスを形成する。サブワードシーケンスは、選択した単語を構成するであろうすべての可能なサブワードの解析によって決定される。この解析は、非循環有向グラフ(Direct Acyclic Graph:DAG)の構築によって行われる。
例えば、選択した単語「mention 」がステップ260によって処理されようとしている場合、図3の非循環有向グラフDAGは、選択単語「mention 」を構成することができるであろうすべての可能なサブワードで構築されることを考えてみよう。各サブワードと共に所定の重みWTが与えられる。例えば、サブワード「ment」、「men 」、および「tion」はそれぞれ重み88,86、および204を有している。従って、出願番号第03132709.5号にて出願された中国特許出願に記載されたように、DAGが検討され、選択した単語を形成する最大の総(合計)重みWTを有するサブワードが選択されて、音素と特定される。単語「mention 」の場合には、サブワード「men 」と「tion」が選択されるであろう。その後、音節の境界が特定されると、これらのサブワードに対して音素を特定することができる。
サブステップ(d)音節の境界の特定は、以下のルールを用いて行われる。
子音(C)は以下のサブワードのいずれかで構成される:
TS,b,ch,d,dh,f,g,hh, k,l,m,n,ng, , p,r,s,sh,t,th, v,w,y,z,zh
母音(V)は以下のサブワードのいずれかで構成される:
aa,ae,ao,aw,ax, ay,eh,er, ey,ih,iy,ow,oy,uh,uw
子音群(CG)は以下のサブワードのいずれかで構成される:
bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,tr.
境界ルール1:VCVの場合は、V|CVとなる。
境界ルール2:VVの場合は、V|Vとなる。
境界ルール3:VCCVの場合は、VC|CV(CCがCGの中にない場合)となる。
境界ルール4:VCCVの場合は、V|CCV(CCがCGの中にある場合)となる。
境界ルール5:VCCCVの場合は、VC|CCVとなる。
境界ルール6:VCCCCVの場合は、VC|CCCVとなる。
ここで、「|」は音節の境界を表す。
音節の境界を特定するサブステップ(d)の後に、「men 」と「tion」などのサブワードに対して音素が特定される。従って、特定ステップはサブワードで構成される各単語に対する音素を特定し、当業者にとって明らかなように、二以上の音素が個々の音節を形成することができる。例えば、テキスト列1からテキスト列3までの例に対して、音素とそれに関する韻律情報が、自然境界の特定に基づいて選択されるであろう。そのような音素と韻律情報(韻律位置)を表2に示す。ここで、Mは単語が文の最初か中間にある(即ち、文の最後にない)ことを意味し、Fは単語が文の最後(最終位置)にあることを意味し、Oは音節が単語の最初または中間にある(即ち、単語の最後にない)ことを意味し、Fは音節が単語の最後(最終位置)にあることを意味する。
Figure 2006048056
割り当てステップ260の後に、一つまたはそれ以上の音素からなる可変長0 ユニットモデル(VLU)に基づいて個々の音響ユニットを選択するために選択ステップ270が設けられているが、一方、中国語に対する音響ユニットは、各音響ユニットが音節を構成するので、長さが一定である。
VLUに対して5つの可能なクラスがある。
クラス1:規則的子音+母音、半母音+母音、鼻音+母音。規則的子音には、閉鎖音、摩擦音、歯音などがある。
クラス2:クラス1+鼻音/半母音。
クラス3:サブCV。これはクラス1またはクラス2の一部である。
クラス4:頭子音(consonant initial) と頭子音群(consonant initial group) 。頭子音は音節の頭音(syllable initial)として働く子音であり、頭子音群は主として閉鎖音とそれに続く歯音(例えば、s+t)をいう。
クラス5:末子音(consonant final) と末子音群(consonant final group) 。
上記から、単語が二つの連続した母音または前後に母音がある半母音を有する場合には、最大マッチングはメモリ120に記憶されている音声インベントリ内で行われる。一致がない場合には、この方法は音節ごとに検索して音響ユニットを割り当てる。本実施態様においては、最大マッチングは必ず行われる。この音響ユニット選択の目的は、連結点を減らし、同一または類似した韻律上の制約を有する音響ユニットを選択することである。
選択ステップ250,270の後、結果として得られた音響ユニットが連結ステップ275においてマージされる。ここでは、個々の音響ユニットは、方法200によって処理される混合言語テキストに対応した順序で、順序音響ユニットに連結される。連結プロセスにおいて、テキスト列の例1〜4を用いて、VLU(音素)によって形成された音響ユニットが、対応するテキスト列内のそれぞれのダミースペーサ(ブランク1〜ブランク4)に挿入される。
連結プロセスの間、音響ユニットによって特定されるパラメータビットストリームは最初に、二つの主要構成要素からなるフレームにデコードされる。この二つの主要構成要素は、各フレームに対するLSP[i]ベクトルを含む声道パラメータLSP(線スペクトル対)と、励起ストリームExc[i][j](iはフレームの索引であり、jはフレーム内のサンプルの索引である)によって表される励起信号である。各フレームiの概略ピ
ッチ推定値OT[i]はまた、ビットストリームの適応遅延パラメータから得られる。当業者にとって明らかなように、一つの音響ユニットはいくつかのフレームで構成することができる。上記3つのパラメータは各音響ユニットに対してフレーム毎に示される。また、各フレームに対して、パラメータLSP[i]はベクトルであり、10要素を含み、その要素の例は、[1227,2027,3884,9108,12892,16454,19866,23019,26304,29553]である。また、パラメータExc[i][j]は240要素を含むベクトルであり、その要素の例は、[0,0,−1,−3,0,2,4,10,6,−1,…]であり、パラメータOT[i]は範囲[40,150]内の整数、例えば78である。
次に、改善ステップ280において改善が行われる。ここでは、連結された順序音響ユニットに以下を含む改善が施される。
(a)二つの隣接音響ユニットの連結境界における各フレームのピッチ推定値OT[i]を平滑化する。境界における二つのユニットのピッチ値を線形的に補間して、平滑化した新たな値、(前方または先行ユニットの最終フレームに対する)OT[T]と、(次のユニットの開始フレームに対する)OT[H]を得る。
(b)二つの隣接音響ユニットの連結境界における励起信号をマージする。三角ウィンドウによって、連続ユニットの第1サブフレーム励起信号を、前方ユニットの最後の一サブフレームを有する新サブフレームにマージする。
(c)隣接音響ユニットの連結境界におけるLSP[i]を補間する。マージされた励起信号に対応する各LSP[i]ベクトルは、前方ユニットの最後のLSP[i]ベクトルと後続ユニットの最初のLSP[i]ベクトルを補間することによって得られる。従って、連結LSP[i]ベクトル列が構築される。
音声合成実行ステップ285において、連続した音響ユニットの連結LSP[i]ベクトル列が予測係数a[i][j](iはフレームの索引であり、jは予測順序である)に変換される。平滑化は、OT[T]、OT[H]などからなる連結された平滑化励起列を音声合成器110に供給することによって再構築されるので、多言語テキスト列TSは、予測係数a[i][j]とそれに関する平滑励起列とを波形合成音声に変えることによって、音声として合成される。また、当業者にとって明らかなように、母音の強勢(適宜、第1強勢、第2強勢、または強勢なし)を用いて、適切な強勢強調により合成音声品質を改善することもできる。
音声合成実行ステップ285の後に、方法200は終了ステップ90において終了する。例示および説明のために中国語を一次言語として特定したが、英語を一次言語とすることもできることは明らかである。英語が一次言語の場合、ダミー単語スペーサは英語テキストの中に含まれ、二次言語(例えば中国語)のテキストの位置を示す。また、連結の間、音響ユニットが、二次言語のテキストの位置を示すそれぞれのダミースペーサの中に挿入される。ステップ240,250をステップ260,270の前に説明したが、ステップ260,270をステップ240,250の前にまたはそれらと同時に実行することができることも明らかである。
本発明は、手持型または携帯型装置などの電子装置、例えば、ラップトップコンピュータ、パーソナルディジタルアシスタント、携帯電話および多くの他の装置に使用することができる混合言語TTS合成を有利に提供する。
上記詳細な説明は、好ましい典型的な実施態様だけを提供するものであって、本発明の範囲、適用可能性、または構成を制限するものではない。むしろ、この好ましい典型的な
実施態様の詳細な説明は、当業者に、本発明の好ましい典型的な実施態様を実施するのを可能にする説明を提供する。特許請求の範囲に述べられたような本発明の精神と範囲から逸脱することなしに、要素の機能と配置において種々の変更を行うことができることは明らかである。
本発明による電子装置の概略ブロック図。 図1の電子装置で実行することができる混合言語テキスト音声合成のための方法を示すフローチャート。 非循環有向グラフの例を示す図。

Claims (15)

  1. 混合言語テキスト音声合成のための方法であって、
    少なくとも二つの言語の混合言語テキスト列を受信するステップと、
    前記テキスト列内のテキストを、(i)音節に基づく文字の少なくとも一つの文字列であって、前記文字のそれぞれが単一音節を表す文字列、および(ii)アルファベット文字によって形成された一つまたはそれ以上の単語からなる少なくとも一つの単語列であって、前記単語の少なくともいくつかは二つ以上の音節を表す単語列、のうちのいずれかに分割するステップと、
    前記音節に基づく文字のそれぞれに発音ユニットを割り当てるステップと、
    前記単語のそれぞれに音素を割り当てるステップであって、該音素の一つまたはそれ以上が個々の音節を形成するステップと、
    前記発音ユニットと音素の両方に対して個々の音響ユニットを選択するステップと、
    前記個々の音響ユニットを連結して、前記混合テキスト列に対応する順序を有する連結順序音響ユニットにするステップと、
    前記連結順序音響ユニットを用いて音声合成を行うステップとを備えることを特徴とする方法。
  2. 前記テキスト分割ステップは、前記二つの言語のいずれが一次言語であり、いずれが二次言語であるかを特定することを特徴とする請求項1に記載の方法。
  3. 前記一次言語からなるテキストは、前記二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサを含むことを特徴とする請求項1に記載の方法。
  4. 前記発音ユニット割り当てステップは、辞書の中の単語が、音節に基づく文字のテキストの最も多くの連続した文字が一致するセグメントと一致するように最大マッチングを行うことによるセグメント化を含み、該セグメント化は最大一致単語を提供することを特徴とする請求項1に記載の方法。
  5. 前記音響ユニット割り当てステップは、句読点によって明確に特定されない自然音声休止を特定するために、前記最大一致単語に対する句の境界を決定するステップを含むことを特徴とする請求項4に記載の方法。
  6. 前記音響ユニット割り当てステップは、各文字に対する発音ユニットを、その文字が最大一致単語のいずれを構成するかを考慮しながら特定するステップを含むことを特徴とする請求項5に記載の方法。
  7. 前記発音ユニットのそれぞれに関する韻律情報があることを特徴とする請求項6に記載の方法。
  8. 前記音素割り当てステップは、句読点によって明確に特定されない一つまたはそれ以上の自然境界を特定するステップを含むことを特徴とする請求項6に記載の方法。
  9. 前記自然境界は、音声パターンの一部に基づく予測的な単語のまとまりの形成によって特定されることを特徴とする請求項8に記載の方法。
  10. 前記音声パターンの一部は、ルールを用いて特定され、該ルールは、
    形容詞+名詞は、自然境界を与える、
    数字+量は、自然境界を与える、
    動詞+名詞は、自然境界を与える、
    副詞+動詞は、自然境界を与える、
    名詞+名詞は、自然境界を与える、
    数字+名詞は、自然境界を与える、
    動詞+動詞は、自然境界を与える、および
    名詞+接続詞+名詞は、自然境界を与える
    ことを含むことを特徴とする請求項9に記載の方法。
  11. 前記音素割り当てステップは、単語を、サブワードシーケンスを形成するサブワードに分割するステップと、音節の境界を特定するステップであって、それにより、サブワードまたは音素を個々の音節に割り当てるステップを含むことを特徴とする請求項8に記載の方法。
  12. 前記音節の境界を特定するステップは、各サブワードを子音(C)、母音(V)、および子音群(CG)に特定するステップを含むのが好ましいことを特徴とする請求項11に記載の方法。
  13. 前記音節の境界を特定するステップは、
    VCVの場合には、V|CVとなる;VVの場合には、V|Vとなる;VCCVの場合には、VC|CV(CCがCGの中にない場合)となる;VCCVの場合には、V|CCV(CCがCGの中にある場合)となる;VCCCVの場合には、VC|CCVとなる;VCCCVの場合にはVC|CCCVとなるというルールを有し、
    前記「|」は音節の境界を表すことを特徴とする請求項11に記載の方法。
  14. 連結の間、前記音響ユニットが、二次言語のテキストの位置を示すそれぞれのダミースペーサの中に挿入されることを特徴とする請求項1に記載の方法。
  15. 前記連結順序音響ユニットに対して、連結境界における音響ユニットに関連する励起信号をマージすることを含む改善が行われることを特徴とする請求項11に記載の方法。
JP2005226493A 2004-08-05 2005-08-04 混合言語テキスト音声合成方法および音声合成装置 Active JP4473193B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2004100558885A CN1731510B (zh) 2004-08-05 2004-08-05 混合语言文语转换

Publications (2)

Publication Number Publication Date
JP2006048056A true JP2006048056A (ja) 2006-02-16
JP4473193B2 JP4473193B2 (ja) 2010-06-02

Family

ID=35963851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005226493A Active JP4473193B2 (ja) 2004-08-05 2005-08-04 混合言語テキスト音声合成方法および音声合成装置

Country Status (4)

Country Link
JP (1) JP4473193B2 (ja)
KR (1) KR20060049290A (ja)
CN (1) CN1731510B (ja)
SG (1) SG119357A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118720A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
JP2018128607A (ja) * 2017-02-09 2018-08-16 ヤマハ株式会社 音声処理方法および音声処理装置
CN112735378A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 泰语语音合成方法、装置以及设备

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150364127A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Advanced recurrent neural network based letter-to-sound
CN106462579B (zh) 2014-10-15 2019-09-27 微软技术许可有限责任公司 为选定上下文构造词典
CN104517605B (zh) * 2014-12-04 2017-11-28 北京云知声信息技术有限公司 一种用于语音合成的语音片段拼接系统和方法
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
CN106297764B (zh) * 2015-05-27 2019-07-30 科大讯飞股份有限公司 一种多语种混语文本处理方法及系统
CN105096953B (zh) * 2015-08-11 2019-03-12 东莞市凡豆信息科技有限公司 实现多语种混合使用的语音识别方法
CN106098056B (zh) * 2016-06-14 2022-01-07 腾讯科技(深圳)有限公司 一种语音新闻的处理方法、新闻服务器及系统
CN108305611B (zh) * 2017-06-27 2022-02-11 腾讯科技(深圳)有限公司 文本转语音的方法、装置、存储介质和计算机设备
CN109086026B (zh) * 2018-07-17 2020-07-03 阿里巴巴集团控股有限公司 播报语音的确定方法、装置和设备
EP3955243A3 (en) * 2018-10-11 2022-05-11 Google LLC Speech generation using crosslingual phoneme mapping
CN110211562B (zh) * 2019-06-05 2022-03-29 达闼机器人有限公司 一种语音合成的方法、电子设备及可读存储介质
CN110797005B (zh) * 2019-11-05 2022-06-10 百度在线网络技术(北京)有限公司 韵律预测方法、装置、设备和介质
CN111179904B (zh) * 2019-12-31 2022-12-09 出门问问创新科技有限公司 混合文语转换方法及装置、终端和计算机可读存储介质
CN111292720B (zh) * 2020-02-07 2024-01-23 北京字节跳动网络技术有限公司 语音合成方法、装置、计算机可读介质及电子设备
CN112652294B (zh) * 2020-12-25 2023-10-24 深圳追一科技有限公司 语音合成方法、装置、计算机设备和存储介质
CN112735373B (zh) * 2020-12-31 2024-05-03 科大讯飞股份有限公司 语音合成方法、装置、设备及存储介质
CN113160792B (zh) * 2021-01-15 2023-11-17 广东外语外贸大学 一种多语种的语音合成方法、装置和系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012118720A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム
KR20180025559A (ko) * 2016-09-01 2018-03-09 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
KR102615290B1 (ko) 2016-09-01 2023-12-15 에스케이텔레콤 주식회사 발음 사전 학습 방법 및 장치
JP2018128607A (ja) * 2017-02-09 2018-08-16 ヤマハ株式会社 音声処理方法および音声処理装置
CN107481713A (zh) * 2017-07-17 2017-12-15 清华大学 一种混合语言语音合成方法及装置
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN112735378A (zh) * 2020-12-29 2021-04-30 科大讯飞股份有限公司 泰语语音合成方法、装置以及设备

Also Published As

Publication number Publication date
CN1731510A (zh) 2006-02-08
JP4473193B2 (ja) 2010-06-02
KR20060049290A (ko) 2006-05-18
SG119357A1 (en) 2006-02-28
CN1731510B (zh) 2010-12-08

Similar Documents

Publication Publication Date Title
JP4473193B2 (ja) 混合言語テキスト音声合成方法および音声合成装置
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7460997B1 (en) Method and system for preselection of suitable units for concatenative speech
US6990450B2 (en) System and method for converting text-to-voice
US6862568B2 (en) System and method for converting text-to-voice
US7233901B2 (en) Synthesis-based pre-selection of suitable units for concatenative speech
US6871178B2 (en) System and method for converting text-to-voice
EP1668628A1 (en) Method for synthesizing speech
JP5198046B2 (ja) 音声処理装置及びそのプログラム
Badino et al. Language independent phoneme mapping for foreign TTS
Bettayeb et al. Speech synthesis system for the holy quran recitation.
CN115101046A (zh) 一种特定说话人语音合成方法和装置
RU2320026C2 (ru) Преобразование буквы в звук для синтезированного произношения сегмента текста
Huckvale et al. Spoken language conversion with accent morphing
WO2008056590A1 (fr) Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole
US7451087B2 (en) System and method for converting text-to-voice
JP3366253B2 (ja) 音声合成装置
JP3006240B2 (ja) 音声合成方法および装置
JPH08263499A (ja) 自動翻訳装置及び自動通訳装置
Khamdamov et al. Syllable-Based Reading Model for Uzbek Language Speech Synthesizers
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP2016122033A (ja) 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム
JPH05210482A (ja) 発音辞書管理方法
JPH06168265A (ja) 言語処理装置および音声合成装置
Piorkowska et al. Conversion of Textual Information to Speech for Polish Language

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090427

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090727

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4473193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130312

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140312

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250