JP4473193B2 - 混合言語テキスト音声合成方法および音声合成装置 - Google Patents
混合言語テキスト音声合成方法および音声合成装置 Download PDFInfo
- Publication number
- JP4473193B2 JP4473193B2 JP2005226493A JP2005226493A JP4473193B2 JP 4473193 B2 JP4473193 B2 JP 4473193B2 JP 2005226493 A JP2005226493 A JP 2005226493A JP 2005226493 A JP2005226493 A JP 2005226493A JP 4473193 B2 JP4473193 B2 JP 4473193B2
- Authority
- JP
- Japan
- Prior art keywords
- boundary
- english
- natural
- kanji
- noun
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title claims 9
- 230000015572 biosynthetic process Effects 0.000 claims description 24
- 238000003786 synthesis reaction Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 13
- 230000005284 excitation Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 6
- 210000001072 colon Anatomy 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 5
- 238000010281 constant-current constant-voltage charging Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 4
- 125000002015 acyclic group Chemical group 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 17
- 125000006850 spacer group Chemical group 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 101000713310 Homo sapiens Sodium bicarbonate cotransporter 3 Proteins 0.000 description 2
- 102100036911 Sodium bicarbonate cotransporter 3 Human genes 0.000 description 2
- UXUFTKZYJYGMGO-CMCWBKRRSA-N (2s,3s,4r,5r)-5-[6-amino-2-[2-[4-[3-(2-aminoethylamino)-3-oxopropyl]phenyl]ethylamino]purin-9-yl]-n-ethyl-3,4-dihydroxyoxolane-2-carboxamide Chemical compound O[C@@H]1[C@H](O)[C@@H](C(=O)NCC)O[C@H]1N1C2=NC(NCCC=3C=CC(CCC(=O)NCCN)=CC=3)=NC(N)=C2N=C1 UXUFTKZYJYGMGO-CMCWBKRRSA-N 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
前記テキスト列内のテキストを、(i)音節に基づく文字の少なくとも一つの文字列と、(ii)アルファベットの文字によって形成された一つまたはそれ以上の単語からなる少なくとも一つの単語列とのいずれかに分割するテキスト分割ステップであって、前記文字のそれぞれが単一音節を表し、前記単語の少なくともいくつかは二以上の音節を表すことと、
前記音節に基づく文字のそれぞれに発音ユニットを割り当てる発音ユニット割当ステップと、
前記単語のそれぞれに音素を割り当てる音素割当ステップであって、該音素の一つまたはそれ以上が個々の音節を形成することと、
前記発音ユニットと音素の両方に対して個々の音響ユニットを選択する音響選択ステップと、
前記個々の音響ユニットを連結して、前記混合テキスト列に対応する順序を有する連結順序音響ユニットにする連結ステップと、
前記連結順序音響ユニットを用いて音声合成を行う音声合成ステップとを備える。
前記一次言語からなるテキストは、前記二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサを含むのが好ましい。
形容詞+名詞は、自然境界を与える、
数字+量は、自然境界を与える、
動詞+名詞は、自然境界を与える、
副詞+動詞は、自然境界を与える、
名詞+名詞は、自然境界を与える、
数字+名詞は、自然境界を与える、
動詞+動詞は、自然境界を与える、および
名詞+接続詞+名詞は、自然境界を与える
ことを含む。
前記音節の境界を特定するステップは、VCVの場合には、V|CVとなる;VVの場合には、V|Vとなる;VCCVの場合には、VC|CV(CCがCGの中にない場合)となる;VCCVの場合には、V|CCV(CCがCGの中にある場合)となる;VCCCVの場合には、VC|CCVとなる;VCCCCVの場合にはVC|CCCVとなるというルールを有するのが適切である。前記「|」は音節の境界を表す。
前記連結順序音響ユニットは、連結境界における音響ユニットに関する励起信号をマージすることを含む改善が施されるのが適切である。
図1は無線電話の形態の電子装置100を示す。この電子装置100は、一般的にタッチスクリーンまたは代替的には表示スクリーンとキーボードであるユーザーインターフェース104に、バス103によって動作可能に接続された装置プロセッサ102を備えている。
単語列1(SOW1)−> ブランク1:「mention 」
単語列2(SOW2)−> ブランク2:「Watson」
単語列3(SOW3)−> ブランク3:「Chicago 」
単語列4(SOW4)−> ブランク4:「APEC」
以上から、漢字が英単語よりも多いので、一次言語は中国語となり、二次言語は英語となる。このことは、音節に基づく文字(SBC)列の中で英単語がブランクとして表されているので、明らかである。このように、一次言語からなるテキストは、二次言語のテキストの位置を示す一つまたはそれ以上のダミースペーサ(ブランク1からブランク4までの空白)を含んでいる。
(240)を実行する。割り当てステップ(240)は本質的に3つのサブステップに分けられる。それら3つのサブステップは、(a)テキストの解析、(b)句の境界の決定、および(c)発音ユニットの特定である。
正規化は、数字および句読点などの特別な文字に対して有用である。正規化は、ルールを用いて、特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定する。従って、正規化は特別文字からなる正規化文字を提供する。また、正規化はルールベースによってもたらされる。その一部は以下の通りである。
ドットルール:
終止符は、「上海是中国最大的城市之一.」などの文の終わりである。
小数点は、「点」という音を有するように正規化される。例えば、1.234は、一点二三四。
URL内のドットは「ドット」という音を有するように正規化される。例えば、www.mot.com (www 点m ot 点com ,www ドットmot ドットcom )
分数フラグ: 2/3(三分之二)
日付フラグ: 97/10(九七年十月,October, 1997 )
コンマルール:
数識別子: 123,456(十二万三千四百五十六,one hundred twenty three thousand four hundred fifty six )
数列ルール:
数字: 123456(一二三四五六,one two three four five six )
サブステップ(b)の句の境界の決定は、当業者にとって明らかなように、最大マッチングを使って、予測的な単語のまとまりの形成(フレージング)を行う。句の境界を決定する目的は、最大一致単語(MMW)列内の句読点によって明確に特定されない自然境界(自然音声休止)を特定することである。予測的な単語のまとまりの形成は音声パターンの一部に基づいており、以下のルール、すなわち、
形容詞+名詞は、自然境界を与える、
数字+量は、自然境界を与える、
動詞+名詞は、自然境界を与える、
副詞+動詞は、自然境界を与える、
名詞+名詞は、自然境界を与える、
数字+名詞は、自然境界を与える、
動詞+動詞は、自然境界を与える、および
名詞+接続詞+名詞は、自然境界を与える。
というルールを有する。
名詞+名詞ルールは繰り返して用いられるので、連続した三つ以上の名詞も自然境界を与える(例えば、名詞+名詞+名詞、名詞+名詞+名詞+名詞、など)。また、動詞+動詞ルールも繰り返し用いられる。
SBC2に対して、セグメント化後は、
フレージング後は、
「ブランク2 | 是|一位 成功 的 商人」となる。
SBC3に対して、セグメント化後は、
フレージング後は、
不揮発性メモリ120に記憶されている音声インベントリ内のユニットが、韻律位置と文脈情報において目標発音ユニットと一致した場合には、このユニットが選択される。例えば、
サブステップ(b)の句の境界の決定は、参照によって本明細書に援用される、出願番号第03132708.7号にて出願された中国特許出願に記載されたプロセスによって行われる。要約すると、句の境界は、統計的解析と、90,000を超える転写の大量のトレーニングセットから選択される経験則とによって決定される。これらの経験則は不揮発性メモリ120に記憶されている。句の境界の目的は、句読点によって明確に特定されない自然境界(自然音声休止)を特定することである。
プ(c)の文字から音への変換は、参照によって本明細書に援用される、出願番号第03132709.5号にて出願された中国特許出願に記載されたプロセスによって行われる。しかしながら、要約すれば、文字から音への変換サブステップは、単語をサブワードに分割するステップを含み、サブワードは、少なくとも二つの文字からなる一つまたはそれ以上のサブワードを有するサブワードシーケンスを形成する。サブワードシーケンスは、選択した単語を構成するであろうすべての可能なサブワードの解析によって決定される。この解析は、非循環有向グラフ(Direct Acyclic Graph:DAG)の構築によって行われる。
子音(C)は以下のサブワードのいずれかで構成される:
TS,b,ch,d,dh,f,g,hh, k,l,m,n,ng, , p,r,s,sh,t,th, v,w,y,z,zh
母音(V)は以下のサブワードのいずれかで構成される:
aa,ae,ao,aw,ax, ay,eh,er, ey,ih,iy,ow,oy,uh,uw
子音群(CG)は以下のサブワードのいずれかで構成される:
bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,tr.
境界ルール2:VVの場合は、V|Vとなる。
境界ルール3:VCCVの場合は、VC|CV(CCがCGの中にない場合)となる。
境界ルール4:VCCVの場合は、V|CCV(CCがCGの中にある場合)となる。
境界ルール5:VCCCVの場合は、VC|CCVとなる。
境界ルール6:VCCCCVの場合は、VC|CCCVとなる。
ここで、「|」は音節の境界を表す。
クラス1:規則的子音+母音、半母音+母音、鼻音+母音。規則的子音には、閉鎖音、摩擦音、歯音などがある。
クラス2:クラス1+鼻音/半母音。
クラス3:サブCV。これはクラス1またはクラス2の一部である。
クラス4:頭子音(consonant initial) と頭子音群(consonant initial group) 。頭子音は音節の頭音(syllable initial)として働く子音であり、頭子音群は主として閉鎖音とそれに続く歯音(例えば、s+t)をいう。
クラス5:末子音(consonant final) と末子音群(consonant final group) 。
ッチ推定値OT[i]はまた、ビットストリームの適応遅延パラメータから得られる。当業者にとって明らかなように、一つの音響ユニットはいくつかのフレームで構成することができる。上記3つのパラメータは各音響ユニットに対してフレーム毎に示される。また、各フレームに対して、パラメータLSP[i]はベクトルであり、10要素を含み、その要素の例は、[1227,2027,3884,9108,12892,16454,19866,23019,26304,29553]である。また、パラメータExc[i][j]は240要素を含むベクトルであり、その要素の例は、[0,0,−1,−3,0,2,4,10,6,−1,…]であり、パラメータOT[i]は範囲[40,150]内の整数、例えば78である。
(a)二つの隣接音響ユニットの連結境界における各フレームのピッチ推定値OT[i]を平滑化する。境界における二つのユニットのピッチ値を線形的に補間して、平滑化した新たな値、(前方または先行ユニットの最終フレームに対する)OT[T]と、(次のユニットの開始フレームに対する)OT[Hu]を得る。
実施態様の詳細な説明は、当業者に、本発明の好ましい典型的な実施態様を実施するのを可能にする説明を提供する。特許請求の範囲に述べられたような本発明の精神と範囲から逸脱することなしに、要素の機能と配置において種々の変更を行うことができることは明らかである。
Claims (7)
- 中国語と英語が混合した混合言語テキスト(TS)を音声合成する音声合成方法であって、前記音声合成方法は、
前記混合言語テキスト列(TS)を受取る受取ステップ(220)と;
前記混合言語テキスト列(TS)の中のテキストを漢字列または英単語列に分割する分割ステップ(230)であって、前記漢字列の漢字はそれぞれ単一音節を表し、前記英単語列はアルファベットの文字によって形成された一つまたはそれ以上の英単語からなり、それぞれ前記英単語は二つ以上の音節を表すことと;
前記漢字にそれぞれ発音ユニットを割当てる発音ユニット割当ステップ(240)と;
前記英単語にそれぞれ音素を割当てる英語音素割当ステップ(260)と;
前記発音ユニットと前記音素にそれぞれ対応する音響ユニットを選択する音響選択ステップ(250,270)と;
前記混合言語テキスト列(TS)に対応する順序を有するように前記音響ユニットを連結して連結順序音響ユニットにする連結ステップ(275)と;
前記連結順序音響ユニットを用いて音声合成を行う音声合成実行ステップ(285)と
を備え、
前記発音ユニット割当ステップ(240)は、前記漢字のテキストを解析する漢字解析サブステップ(a)と、前記漢字の句の境界を決定する漢字境界決定サブステップ(b)と、前記漢字解析サブステップ(a)と前記決定サブステップの結果を使って前記漢字それぞれに対する発音ユニットを特定する発音特定ステップ(c)とを有し、
前記漢字解析サブステップ(a)は、辞書を用いて漢字のセグメント化と正規化を行い、
前記正規化は、数字および句読点といった特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定するために、前記特別な文字からなる正規化文字を提供するルールとしてドットについてのドットルール、コロンについてのコロンルール、スラッシュについてのスラッシュルール、コンマについてのコンマルール、および数列についての数列ルールを含み、
前記漢字境界決定サブステップ(b)は、句読点によっては明確に特定されない強調および休止を特定する自然音声休止としての自然境界を決定し、
形容詞+名詞は、前記自然境界を与え、
数字+量は、前記自然境界を与え、
動詞+名詞は、前記自然境界を与え、
副詞+動詞は、前記自然境界を与え、
名詞+名詞は、前記自然境界を与え、
数字+名詞は、前記自然境界を与え、
動詞+動詞は、前記自然境界を与え、
名詞+接続詞+名詞は、自然境界を与え、
連続した三つ以上の名詞も自然境界を与えるように名詞+名詞ルールは繰返して用いられ、動詞+動詞ルールも繰返し用いられ、
前記発音特定ステップ(c)は更に、前記自然休止および前記正規化文字に対する発音ユニットを特定することを特徴とする、音声合成方法。 - 前記英語音素割当ステップ(260)は、
英単語を正規化する英単語正規化サブステップ(a)と;
英語の句の境界を決定する英語境界決定サブステップ(b)と;
英語文字から音に変換する英語変換サブステップ(c)と;
英語の音節の境界を決定する、英語音節境界決定サブステップ(d)と
を有し、
前記英語音節境界決定サブステップ(d)は、境界ルールを用いて行われ;
子音CはTS,b,ch,d,dh,f,g,hh,k,l,m,n,ng,p,r,s,sh,t,th,v,w,y,z,zhのサブワードのいずれかで構成され、
母音Vはaa,ae,ao,aw,ax,ay,eh,er,ey,ih,iy,ow,oy,uh,uwのサブワードのいずれかで構成され、
子音群CGは
bl,br,by,dr,dy,fl,fr,fy,gl,gr,gw,gy,kl,kr,kw,ky,ly,my,ny,pl,pr,py,sk,sl,sm,sn,sp,st,trのサブワードのいずれかで構成され、
VCVの場合は、V|CVとなり、
VVの場合は、V|Vとなり、
VCCVの場合は、VC|CV、ただしCCがCGの中にない場合となり、
VCCVの場合は、V|CCV、ただしCCがCGの中にある場合となり、
VCCCVの場合は、VC|CCVとなり、
VCCCCVの場合は、VC|CCCVとなり、
|は音節の境界を表す、請求項1記載の音声合成方法。 - 前記英語境界決定サブステップ(b)は、統計的解析と、転写のトレーニングセットから選択される経験則とを用いて前記境界を決定し、
前記英語変換サブステップ(c)は、英単語をサブワードに分割するステップを含み、
前記サブワードは、少なくとも二つの文字からなる1以上のサブワードを有するサブワードシーケンスを形成され、
前記サブワードシーケンスは、選択した英単語を構成するサブワードのサブワード解析によって決定され、
前記サブワード解析は、非循環有向グラフの構築によって行われる、請求項2記載の音声合成方法。 - 前記音声合成方法は更に、前記連結順序音響ユニットに改善を施す改善ステップ(280)を含み、
前記改善ステップ(280)は、
2つの隣接音響ユニット連結境界における各フレームのピッチ推定値を平滑化し、境界における2つのユニットのピッチ値を線形的に補完し、平滑化した新たな値を得るサブステップと;
2つの隣接音響ユニットの連結境界における励起信号をマージし、連続ユニットの第1サブフレーム励起信号を、前方ユニットの最後の1サブフレームを有する新サブフレームにマージするサブステップと;
隣接音響ユニットの連結境界における声道パラメータを補間し、マージされた励起信号に対応する各声道パラメータは、前方ユニットの最後の声道パラメータと後続ユニットの最初の声道パラメータを補間し、連結声道パラメータを構築するサブステップと
を有する、請求項1記載の音声合成方法。 - 前記漢字境界決定サブステップ(b)は、最大マッチングを使うことによって、予測的な単語のまとまりの形成を行う、請求項1記載の音声合成方法。
- 前記音声合成実行ステップ(285)は、予測係数と平滑励起列を波形合成音声に変えることを含む、請求項1記載の音声合成方法。
- 中国語と英語が混合した混合言語テキスト(TS)を音声合成する音声合成装置であって、前記音声合成装置は前記音声合成を行う装置プロセッサ(102)を備え、前記装置プロセッサ(102)は:
前記混合言語テキストをメモリ(120)から受取るか、または無線通信モジュール(1116)を介して受取るか、あるいはユーザインターフェース(104)を介して受取る受取ステップ(220)と;
前記混合言語テキスト列(TS)の中のテキストを漢字列または英単語列に分割する分割ステップ(230)であって、前記漢字列の漢字はそれぞれ単一音節を表し、前記英単語列はアルファベットの文字によって形成された一つまたはそれ以上の英単語からなり、それぞれ前記英単語は二つ以上の音節を表すことと;
前記漢字にそれぞれ発音ユニットを割当てる発音ユニット割当ステップ(240)と;
前記英単語にそれぞれ音素を割当てる英語音素割当ステップ(260)と;
前記発音ユニットと前記音素にそれぞれ対応する音響ユニットを選択する音響選択ステップ(250,270)と;
前記混合言語テキスト列(TS)に対応する順序を有するように前記音響ユニットを連結して連結順序音響ユニットにする連結ステップ(275)と;
前記連結順序音響ユニットを用いて音声合成を行う音声合成実行ステップ(285)と
を実行し、
前記発音ユニット割当ステップ(240)は、前記漢字のテキストを解析する漢字解析サブステップ(a)と、前記漢字の句の境界を決定する漢字境界決定サブステップ(b)と、前記漢字解析サブステップ(a)と前記決定サブステップの結果を使って前記漢字それぞれに対する発音ユニットを特定する発音特定ステップ(c)とを有し、
前記漢字解析サブステップ(a)は、辞書を用いて漢字のセグメント化と正規化を行い、
前記正規化は、数字および句読点といった特別な意味を持つ特別な文字、またはこれらの特別な文字の文脈に因って異なり得る対応する発音ユニットを有する特別な文字を特定するために、前記特別な文字からなる正規化文字を提供するルールとしてドットについてのドットルール、コロンについてのコロンルール、スラッシュについてのスラッシュルール、コンマについてのコンマルール、および数列についての数列ルールを含み、
前記漢字境界決定サブステップ(b)は、句読点によっては明確に特定されない強調および休止を特定する自然音声休止としての自然境界を決定し、
形容詞+名詞は、前記自然境界を与え、
数字+量は、前記自然境界を与え、
動詞+名詞は、前記自然境界を与え、
副詞+動詞は、前記自然境界を与え、
名詞+名詞は、前記自然境界を与え、
数字+名詞は、前記自然境界を与え、
動詞+動詞は、前記自然境界を与え、
名詞+接続詞+名詞は、自然境界を与え、
連続した三つ以上の名詞も自然境界を与えるように名詞+名詞ルールは繰返して用いられ、動詞+動詞ルールも繰返し用いられ、
前記発音特定ステップ(c)は更に、前記自然休止および前記正規化文字に対する発音ユニットを特定することを特徴とする、音声合成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2004100558885A CN1731510B (zh) | 2004-08-05 | 2004-08-05 | 混合语言文语转换 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006048056A JP2006048056A (ja) | 2006-02-16 |
JP4473193B2 true JP4473193B2 (ja) | 2010-06-02 |
Family
ID=35963851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005226493A Active JP4473193B2 (ja) | 2004-08-05 | 2005-08-04 | 混合言語テキスト音声合成方法および音声合成装置 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP4473193B2 (ja) |
KR (1) | KR20060049290A (ja) |
CN (1) | CN1731510B (ja) |
SG (1) | SG119357A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5541124B2 (ja) * | 2010-11-30 | 2014-07-09 | 富士通株式会社 | 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム |
US20150364127A1 (en) * | 2014-06-13 | 2015-12-17 | Microsoft Corporation | Advanced recurrent neural network based letter-to-sound |
WO2016058138A1 (en) * | 2014-10-15 | 2016-04-21 | Microsoft Technology Licensing, Llc | Construction of lexicon for selected context |
CN104517605B (zh) * | 2014-12-04 | 2017-11-28 | 北京云知声信息技术有限公司 | 一种用于语音合成的语音片段拼接系统和方法 |
CN105989833B (zh) * | 2015-02-28 | 2019-11-15 | 讯飞智元信息科技有限公司 | 多语种混语文本字音转换方法及系统 |
CN106297764B (zh) * | 2015-05-27 | 2019-07-30 | 科大讯飞股份有限公司 | 一种多语种混语文本处理方法及系统 |
CN105096953B (zh) * | 2015-08-11 | 2019-03-12 | 东莞市凡豆信息科技有限公司 | 实现多语种混合使用的语音识别方法 |
CN106098056B (zh) * | 2016-06-14 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音新闻的处理方法、新闻服务器及系统 |
KR102615290B1 (ko) * | 2016-09-01 | 2023-12-15 | 에스케이텔레콤 주식회사 | 발음 사전 학습 방법 및 장치 |
JP6897132B2 (ja) * | 2017-02-09 | 2021-06-30 | ヤマハ株式会社 | 音声処理方法、音声処理装置およびプログラム |
CN108305611B (zh) * | 2017-06-27 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 文本转语音的方法、装置、存储介质和计算机设备 |
CN107481713B (zh) * | 2017-07-17 | 2020-06-02 | 清华大学 | 一种混合语言语音合成方法及装置 |
CN109086026B (zh) * | 2018-07-17 | 2020-07-03 | 阿里巴巴集团控股有限公司 | 播报语音的确定方法、装置和设备 |
US11430425B2 (en) * | 2018-10-11 | 2022-08-30 | Google Llc | Speech generation using crosslingual phoneme mapping |
CN110211562B (zh) * | 2019-06-05 | 2022-03-29 | 达闼机器人有限公司 | 一种语音合成的方法、电子设备及可读存储介质 |
CN110797005B (zh) * | 2019-11-05 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 韵律预测方法、装置、设备和介质 |
CN111179904B (zh) * | 2019-12-31 | 2022-12-09 | 出门问问创新科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN112652294B (zh) * | 2020-12-25 | 2023-10-24 | 深圳追一科技有限公司 | 语音合成方法、装置、计算机设备和存储介质 |
CN112735373B (zh) * | 2020-12-31 | 2024-05-03 | 科大讯飞股份有限公司 | 语音合成方法、装置、设备及存储介质 |
CN113160792B (zh) * | 2021-01-15 | 2023-11-17 | 广东外语外贸大学 | 一种多语种的语音合成方法、装置和系统 |
-
2004
- 2004-08-05 CN CN2004100558885A patent/CN1731510B/zh active Active
-
2005
- 2005-08-01 SG SG200504796A patent/SG119357A1/en unknown
- 2005-08-04 JP JP2005226493A patent/JP4473193B2/ja active Active
- 2005-08-04 KR KR1020050071348A patent/KR20060049290A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
JP2006048056A (ja) | 2006-02-16 |
SG119357A1 (en) | 2006-02-28 |
CN1731510A (zh) | 2006-02-08 |
CN1731510B (zh) | 2010-12-08 |
KR20060049290A (ko) | 2006-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4473193B2 (ja) | 混合言語テキスト音声合成方法および音声合成装置 | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7460997B1 (en) | Method and system for preselection of suitable units for concatenative speech | |
RU2421827C2 (ru) | Способ синтеза речи | |
EP4029010B1 (en) | Neural text-to-speech synthesis with multi-level context features | |
JP5198046B2 (ja) | 音声処理装置及びそのプログラム | |
Chou et al. | A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese | |
JP4811557B2 (ja) | 音声再生装置及び発話支援装置 | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Badino et al. | Language independent phoneme mapping for foreign TTS | |
CN115101046A (zh) | 一种特定说话人语音合成方法和装置 | |
RU2320026C2 (ru) | Преобразование буквы в звук для синтезированного произношения сегмента текста | |
Huckvale et al. | Spoken language conversion with accent morphing | |
WO2008056590A1 (fr) | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole | |
US7451087B2 (en) | System and method for converting text-to-voice | |
CN113571037A (zh) | 一种汉语盲文语音合成方法及系统 | |
JP3366253B2 (ja) | 音声合成装置 | |
JP3006240B2 (ja) | 音声合成方法および装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 | |
JP4208819B2 (ja) | 音声合成辞書登録方法および装置 | |
JP2016122033A (ja) | 記号列生成装置、音声合成装置、音声合成システム、記号列生成方法、及びプログラム | |
Gopal et al. | A simple phoneme based speech recognition system | |
JPH05210482A (ja) | 発音辞書管理方法 | |
Piorkowska et al. | Conversion of Textual Information to Speech for Polish Language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090427 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090501 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090727 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100304 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4473193 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130312 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140312 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |