JP3854713B2 - 音声合成方法および装置および記憶媒体 - Google Patents

音声合成方法および装置および記憶媒体 Download PDF

Info

Publication number
JP3854713B2
JP3854713B2 JP05790098A JP5790098A JP3854713B2 JP 3854713 B2 JP3854713 B2 JP 3854713B2 JP 05790098 A JP05790098 A JP 05790098A JP 5790098 A JP5790098 A JP 5790098A JP 3854713 B2 JP3854713 B2 JP 3854713B2
Authority
JP
Japan
Prior art keywords
phoneme
sequence
time length
utterance
standard deviation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP05790098A
Other languages
English (en)
Other versions
JPH11259095A (ja
Inventor
充 大塚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP05790098A priority Critical patent/JP3854713B2/ja
Priority to EP99301760A priority patent/EP0942410B1/en
Priority to DE69917961T priority patent/DE69917961T2/de
Priority to US09/264,866 priority patent/US6546367B2/en
Publication of JPH11259095A publication Critical patent/JPH11259095A/ja
Application granted granted Critical
Publication of JP3854713B2 publication Critical patent/JP3854713B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)
  • Studio Circuits (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、規則合成方式による音声合成方法および音声合成装置、および、音声合成方法を実装した、コンピュータが読むことができるプログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来の音声規則合成装置では、音韻時間長を制御する方法として、音韻時間長に関する統計量から導出した制御規則による方法(匂坂芳典、東倉洋一:“規則による音声合成のための音韻時間長制御”、電子通信学会論文誌、Vol.J67-A,No.7(1984)pp.629-636)、重回帰分析の一手法である数量化I類を用いる方法(洒寄哲也、佐々木昭一、北川博雄:“規則合成のための数量化I類を用いた韻律制御”、音響学会講演論文集、3-4-17(1986-10))がある。
【0003】
【発明が解決しようとする課題】
しかしながら、上述した従来技術においては、音韻系列の発声時間を指定することが難しいという問題がある。たとえば、制御規則による方法では、指定された発声時間に対応した制御規則の導出が難しい。また、制御規則による方法で例外的な入力がある場合や数量化I類を用いる方法で良い推定値が得られない場合に自然性を感じる音韻時間長に対する誤差が大きくなる、という問題がある。
【0004】
制御規則を用いて音韻時間長を制御する場合、統計量(平均値や標準偏差など)に対して前後の音韻の組み合わせを考慮した重み付けや、伸縮係数の設定などが必要になってくる。音韻の組み合わせの場合分けや、重み付けや伸縮係数などのパラメータなど操作する項目が多く、しかも、操作方法(制御規則)を経験則で決めていかなければならない。音韻系列の発声時間が指定されたときに、たとえ音韻の個数が同じでも、音韻の組み合わせは膨大になる。どのような音韻の組み合わせでも、音韻時間長の和が指定された発声時間に近くなるような、制御規則の導出は困難である。
【0005】
本発明は上記の問題点に鑑みてなされたものであり、指定した発声時間になるように音韻系列の音韻時間長を設定することを可能とし、発声時間の長短によらず自然な音韻時間長を与える音声合成方法および装置および記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による音声合成装置は例えば以下の構成を備える。すなわち、
音韻系列に従って音声を合成する音声合成装置であって、
音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段と、
前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得手段と、
前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得手段と、
前記取得手段で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定手段とを備える。
【0007】
また、本発明によれば、上記音声合成装置で実行される音声合成方法が提供される。更に、本発明によれば、上記音声合成方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体が提供される。
【0008】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0009】
[第1の実施形態]
図1は、第1の実施形態の音声合成装置の構成を示すブロック図である。101はCPUであり、本音声規則合成装置における各種制御を行なう。102はROMであり、各種パラメータやCPU101が実行する制御プログラムを格納する。103はRAMであり、CPU101が実行する制御プログラムを格納するとともに、CPU101の作業領域を提供する。104はハードディスク、フロッピーディスク、CD−ROM等の外部記憶装置である。105は入力部であり、キーボード、マウス等から構成される。106はディスプレイであり、CPU101の制御により各種表示を行なう。6は音声合成部であり、合成音声を生成する。107はスピーカであり、音声合成部6より出力される音声信号(電気信号)を音声に変換して出力する。
【0010】
図2は、第1の実施形態による音声合成装置の機能構成を示すブロック図である。以下に示される各機能は、ROM102に格納された制御プログラムあるいは外部記憶装置104からRAM103にロードされた制御プログラムをCPU101が実行することによって実現される。
【0011】
1は文字系列入力部であり、入力部105より入力された合成すべき音声の文字系列、すなわち表音テキストの入力処理を行なう。例えば合成すべき音声が「音声」であるときには、「おんせい」というような文字系列を入力する。また、この文字系列中には、発声速度や声の高さなどを設定するための制御シーケンスなどが含まれることもある。2は制御データ格納部であり、文字系列入力部1で制御シーケンスと判断された情報や、ユーザインタフェースより入力される発声速度や声の高さなどの制御データを内部レジスタに格納する。3は音韻系列生成部であり、文字系列入力部1より入力された文字系列を音韻系列へ変換する。例えば、「おんせい」という文字系列は、「o,X,s,e,i」という音韻系列へ変換される。4は音韻系列格納部であり、音韻系列生成部3で生成された音韻系列を内部レジスタに格納する。なお、上述の各内部レジスタとしてはRAM103を用いることが可能である。
【0012】
5は音韻時間長設定部であり、制御データ格納部2に格納された制御データの発声速度と音韻系列格納部4に格納された音韻の種類より、音韻時間長を設定する。6は音声合成部であり、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声を生成する。
【0013】
次に、音韻時間長設定部5で行なわれる音韻時間長の設定について説明する。以下の説明において、音韻集合をΩとする。Ωの例としては、
Ω={a,e,i,o,u,X(撥音),b,d,g,m,n,r,w,y,z,ch,f,h,k,p,s,sh,t,ts,Q(促音)}
などを使用することができる。
【0014】
また、音韻時間長設定区間を呼気段落(ポーズとポーズの間の区間)とする。さて、音韻時間長設定区間の音韻系列αi(1≦i≦N)を、制御データ格納部2に格納された制御データの発声速度によって決定される発声時間Tで発声するように、当該音韻系列の各音韻αiの音韻時間長diを決定する。すなわち、音韻系列の各αi(式(1a))の音韻時間長di(式(1b))を、式(1c)を満足するように決定する。
【0015】
【数1】
Figure 0003854713
【0016】
ここで、音韻αiの音韻時間長初期値をdαi0とする。また、音韻αiに関して、音韻時間長の平均、標準偏差、最小値をそれぞれμαi,σαi,dαiminとする。そして、これらの値を用いて、以下に示す式(2)に従ってdαiを決定し、これを新たな音韻時間長初期値とする。すなわち、音韻時間長の平均値、標準偏差値、最小値を音韻の種類毎(αi毎)に求め、これをメモリに格納しておき、これらの値を用いて音韻時間長の初期値を決定しなおす。
【0017】
【数2】
Figure 0003854713
【0018】
こうして得られた音韻時間長初期値dαiを用いて、音韻時間長diを式(3a)に従って設定する。なお、得られたdiが閾値θi(>0)に対してdi<θiとなるときは、式(3b)に従って設定される。
【0019】
【数3】
Figure 0003854713
【0020】
すなわち、更新された音韻時間長の初期値の和を設定された発声時間Tから差引き、これを音韻時間長の標準偏差σαiの二乗和で割った値を係数ρとし、この係数ρと標準偏差σαiの二乗との積を当該音韻時間長の初期値dαiに加えた値を、音韻時間長diとする。
【0021】
以上の動作を、図3のフローチャートを参照して説明する。
【0022】
まず、ステップS1で、文字系列入力部1より表音テキストが入力される。ステップS2では、外部入力された制御データ(発声速度、声の高さ)と入力された表音テキスト中の制御データが制御データ格納部2に格納される。ステップS3で、文字系列入力部1より入力された表音テキストから音韻系列生成部3において音韻系列が生成される。
【0023】
次に、ステップS4で、次の時間長設定区間の音韻系列が音韻系列格納部4に取り込まれる。ステップS5で、音韻時間長設定部5において、音韻αiの種類に応じて音韻時間長初期値dαiが設定される(式(2))。ステップS6では、まず、制御データ格納部2に格納された制御データの発声速度から音韻時間長設定区間の発声時間Tを設定する。そして、音韻時間長設定区間の音韻系列の音韻時間長の和が音韻時間長設定区間の発声時間Tに等しくなるように、上記式(3a)、(3b)を用いて、音韻時間長設定区間の音韻系列の各音韻時間長を設定する。
【0024】
ステップS7で、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声が生成される。そして、ステップS8で、入力された文字列に対する最後の音韻時間長設定区間であるか否かが判別され、最後の音韻時間長設定区間でない場合はステップS10で外部入力された制御データが制御データ格納部2に格納されてステップS4に戻り、処理が続けられる。
【0025】
一方、ステップS8で最後の音韻時間長設定区間であると判定された場合はステップS9に進み、入力が終了したか否かが判別される。入力が終了していない場合はステップS1に戻り、上記処理が繰り返される。
【0026】
なお、式(2)は、音韻時間長初期値が現実にはあり得ないような値や出現確率の低い値に設定されるのを防ぐためのものである。音韻時間長の確率密度が正規分布であると仮定したときに、平均値から標準偏差の±3倍以内に入る確率は0.996となる。更に、音韻時間長が短くなりすぎるのを防ぐために、標本集団の最小値未満にはならないようにしている。
【0027】
式(3a)は、式(2)で設定された音韻時間長初期値を平均値とする正規分布が各音韻時間長の確率密度関数であると仮定して、式(1c)の制約条件のもとで最尤推定(maximum likelihood estimation)を行った結果である。本例の最尤推定について説明すると次のとおりである。
【0028】
音韻αiの音韻時間長の標準偏差をσαiとする。音韻時間長の確率密度分布が正規分布であると仮定する(式(4a))。このとき、音韻時間長の対数尤度は式(4b)のようになる。ここで、対数尤度を最大にするのは、式(4c)のKを最小にするのと同値である。そこで、音韻時間長の対数尤度が最大になるように上述の式(1c)を満たすdiを決定する。
【0029】
【数4】
Figure 0003854713
【0030】
今、式(5a)のように変数変換を行うと、式(4c)及び式(1c)は式(5b)及び(5c)のようになる。Kが最小となるのは、球(式5b))が平面(式(5c))に接するときであり、式(5d)の場合である。この結果、式(3a)が導かれる。
【0031】
【数5】
Figure 0003854713
【0032】
式(2)と式(3a)、(3b)を総合して、自然発声の標本集団から求めた統計量(平均値、標準偏差、最小値)を用いて、所望の発声時間((1c)式)を満たす最も確からしい(尤度が最大になる)値に音韻時間長が設定される。したがって、所望の発声時間((1c)式)を満たすように自然発声したときに得られる音韻時間長に対する誤差が小さい、という意味で自然な音韻時間長が得られる。
【0033】
[第2の実施形態]
第1の実施形態では、発声速度(発声時間)や音韻のカテゴリにかかわらず、各音韻αiの音韻時間長diを同一の規則で決定した。第2の実施形態では、発声速度や音韻のカテゴリに応じて音韻時間長diの決定規則を変化させ、より自然な音声合成を可能とする。なお、第2の実施形態によるハードウエア構成、機能構成は第1の実施形態(図1、図2)と同様である。
【0034】
音韻αiに関して、発声速度でカテゴリーを分けて音韻時間長の平均値、標準偏差、最小値を求める。例えば、発声速度のカテゴリーを呼気段落の平均モーラ時間長で表すとして、
1:120ミリ秒未満、
2:120ミリ秒以上140ミリ秒未満、
3:140ミリ秒以上160ミリ秒未満、
4:160ミリ秒以上180ミリ秒未満、
5:180ミリ秒以上
とする。なお、上述した項目の先頭の数字を発声速度に対応するカテゴリーのインデックスとする。発声速度に対応するカテゴリーのインデックスをnとして音韻時間長の平均値、標準偏差、最小値を求め、それぞれμαi(n),σαi(n),dαimin(n)とする。
【0035】
音韻αiの音韻時間長初期値をdαi0とする。音韻時間長初期値dαi0を平均値によって決定する音韻の集合をΩa、重回帰分析の一手法である数量化I類(質的なデータから量的に測定される外的基準を予測したり、説明したりするための手法)によって決定する音韻の集合をΩrとする。ここで、Ωの要素で、Ωa,Ωrのどちらにも含まれない要素や、両者に含まれる要素は存在しないようにする。すなわち、以下の式(6)を満たすようにする。
【0036】
【数6】
Figure 0003854713
【0037】
αi∈Ωaのとき、すなわちαiがΩaに属するときは、平均値によって音韻時間長初期値を決定する。すなわち、音声速度に対応するカテゴリーのインデックスnを求めて、以下の式(7)によって音韻時間長初期値を決定する。
【0038】
【数7】
Figure 0003854713
【0039】
一方、αi∈Ωrのとき、すなわちαiがΩrに属するときは、数量化I類によって音韻時間長初期値を決定する。ここで、要因のインデックスをj(1≦j≦j),各要因に対応するカテゴリーのインデックスをk(1≦k≦K(j))として、(j,k)に対応する数量化I類の係数を、
ajk
とする。
【0040】
要因の一例として、
1:当該音韻の2つ前の先行音韻、
2:当該音韻の1つ前の先行音韻、
3:当該音韻、
4:当該音韻の1つ後の後続音韻、
5:当該音韻の2つ後の後続音韻、
6:呼気段落の平均モーラ時間長、
7:呼気段落内モーラ位置、
8:当該音韻を含む単語の品詞
などを使用することができる。上述した項目の先頭の数字が要因のインデックスjに対応する。
【0041】
さらに、各要因に対応するカテゴリーの例を述べる。音韻のカテゴリーは、
1:a、2:e、3:i、4:o、5:u、6:X、7:b、8:d、9:g、10:m、11:n、12:r、13:w、14:y、15:z、16:+、17:c、18:f、19:h、20:k、21:p、22:s、23:sh、24:t、25:ts、26:Q、27:ポーズ、とし、当該音韻のみ“ポーズ”をはずす。実施形態において、呼気段落を音韻時間長設定区間としているが、呼気段落はポーズを含まないので、当該音韻からポーズをはずす。なお、呼気段落という用語は、ポーズ(または文頭)とポーズ(または文末)の間の区間で、途中にポーズを含まないものという意味で使用している。
【0042】
また、呼気段落内の平均モーラ時間長のカテゴリは、
1:120ミリ秒未満
2:120ミリ秒以上140ミリ秒未満
3:140ミリ秒以上160ミリ秒未満
4:160ミリ秒以上180ミリ秒未満
5:180ミリ秒以上
とする。
【0043】
また、呼気段落内モーラ位置に関しては、
1:第1モーラ
2:第2モーラ
3:第3モーラ以降最後から第3番目のモーラまで
4:最後から2番目のモーラ
5:最後のモーラ
とする。
【0044】
更に、品詞のカテゴリーを
、1:名詞、2:副詞的名詞、3:代名詞、4:固有名詞、5:数、6:動詞、7:形容詞、8:形容動詞、9:副詞、10:連体詞、11:接続詞、12:感動詞、13:助動詞、14:格助詞、15:副助詞、16:並立助詞、17:準体助詞、18:接続助詞、19:終助詞、20:接頭辞、21:接尾辞、22:形動接尾、23:サ変接尾、24:形容詞接尾、25:動詞接尾、26:助数詞
とする。
【0045】
なお、要因(アイテムともいう)とは、数量化I類での予測に使用する質的なデータの種類を意味する。カテゴリーは、各要因毎に取りうる選択肢を意味する。したがって、上記の例に即して説明すると、次のようになる。
【0046】
要因のインデックスj=1:当該音韻の2つ前の先行音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0047】
要因のインデックスj=2:当該音韻の1つ前の先行音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0048】
要因のインデックスj=3:当該音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0049】
要因のインデックスj=4:当該音韻の1つ後の後続音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0050】
要因のインデックスj=5:当該音韻の2つ後の後続音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0051】
要因のインデックスj=6:呼気段落内の平均モーラ時間長
インデックスk=1に対応するカテゴリー:120ミリ秒未満
インデックスk=2に対応するカテゴリー:120ミリ秒以上140ミリ秒未満
インデックスk=3に対応するカテゴリー:140ミリ秒以上160ミリ秒未満
インデックスk=4に対応するカテゴリー:160ミリ秒以上180ミリ秒未満
インデックスk=5に対応するカテゴリー:180ミリ秒以上。
【0052】
要因のインデックスj=7:呼気段落内モーラ位置
インデックスk=1に対応するカテゴリー:第1モーラ
インデックスk=2に対応するカテゴリー:第2モーラ
(中略)
インデックスk=5に対応するカテゴリー:最後のモーラ。
【0053】
要因のインデックスj=8:当該音韻を含む単語の品詞
インデックスk=1に対応するカテゴリー:名詞
インデックスk=2に対応するカテゴリー:副詞的名詞
(中略)
インデックスk=26に対応するカテゴリー:助数詞
となる。
【0054】
上述した項目の先頭の数字がカテゴリーのインデックスkに対応する。
【0055】
そして、各要因ごとに係数ajkの平均が0になるようにする。すなわち、式(8)を満足するようにする。
【0056】
【数8】
Figure 0003854713
【0057】
また、音韻αiのダミー変数を、以下のように設定する。
【0058】
【数9】
Figure 0003854713
【0059】
係数とダミー変数の積和に加える定数をc0とする。このとき、音韻αiの音韻時間長の数量化I類による推定値は、式(10)となる。
【0060】
【数10】
Figure 0003854713
【0061】
そして、この推定値を用いて音韻αiの音韻時間長初期値を以下のように決定する。
【0062】
【数11】
Figure 0003854713
【0063】
さらに、発声速度と対応するカテゴリーのインデックスnを求めて、当該カテゴリーの音韻時間長の平均値、標準偏差、最小値を得て、これらを用いて音韻時間長初期値dαi0を以下の式で更新する。こうして得られたdαiを改めて音韻時間長初期値として設定する。
【0064】
【数12】
Figure 0003854713
【0065】
ここで、式中の標準偏差に掛ける係数のrσは、例えば、rσ=3とする。以上のようにして得られた音韻時間長初期値を用いて、第1の実施形態と類似の方法で音韻時間長を決定する。すなわち、以下の式(13a)を用いて音韻時間長diを決定し、閾値θi(>0)に対してdi<θiとなるときは、式(13b)により音韻時間長diを決定する。
【0066】
【数13】
Figure 0003854713
【0067】
以上の動作を、図3のフローチャートを流用して説明する。ステップS1で、文字系列入力部1より表音テキストが入力される。ステップS2で、外部入力された制御データ(発声速度、音の高さ)と入力された表音テキスト中の制御データが制御データ格納部2に格納される。ステップS3で、文字系列入力部1より入力された表音テキストから音韻系列生成部3において音韻系列が生成される。ステップS4で、次の音韻時間長設定区間の音韻系列が音韻系列格納部4に取り込まれる。
【0068】
ステップS5では、音韻時間長設定部5において、制御データ格納部2に格納された制御データの発声速度、音韻時間長の平均値と標準偏差と最小値、および、数量化I類による音韻時間長推定値を用いて、上述した方法により、音韻の種類(カテゴリ)に応じて音韻時間長初期値が設定される。
【0069】
ステップS6では、音韻時間長設定部5において、制御データ格納部2に格納された制御データの発声速度から音韻時間長設定区間の発声時間を設定し、音韻時間長設定区間の音韻系列の音韻時間長の和が音韻時間長設定区間の発声時間に等しくなるように、音韻時間長設定区間の音韻系列の音韻時間長を上述した方法により設定する。
【0070】
ステップS7で、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声が生成される。ステップS8で、入力された文字列に対する最後の音韻時間長設定区間であるか否かが判別される。最後の音韻時間長設定区間でない場合はステップS10へ進む。ステップS10では、外部入力された制御データが制御データ格納部2に格納されてステップS4に戻り、処理が続けられる。一方、最後の音韻時間長設定区間である場合はステップS9に進み、入力が終了したか否かが判別され、終了していない場合はステップS1に戻り、処理が続けられる。
【0071】
なお、上記各実施形態における構成は本発明の一実施形態を示したものであり、各種変形が可能である。変形例を示せば以下の通りである。
【0072】
(1)上述した各実施形態において音韻集合Ωは一例であり、それ以外の集合も使用でき、言語や音韻の種類に応じて音韻集合の要素を決めることができる。また、本発明は日本語以外の言語にも適用可能である。
【0073】
(2)上述した実施形態において、呼気段落は音韻時間長設定区間の一例であり、他にも、単語、形態素、文節、文などを音韻時間長設定区間とすることができる。なお、文を音韻時間長設定区間とするときは、当該音韻のポーズを考慮する必要がある。
【0074】
(3)上述した実施形態において、音韻時間長の初期値として設定する値として、自然発声した音声の音韻時間長を使用することができる。また、他の音韻時間長制御規則によって決定した値や数量化I類を用いて推定した値を使用することもできる。
【0075】
(4)上述した第2の実施形態において、音韻時間長の平均値を求めるのに使用する発声速度のカテゴリーは一例を示すものであり、他のカテゴリーを用いても良い。
【0076】
(5)上述した第2の実施形態において、数量化I類の要因とカテゴリーは一例を示すものであり、他の要因やカテゴリーを用いても良い。
【0077】
(6)上述した実施形態において、音韻時間長初期値の設定に使用する標準偏差に掛ける係数rσ=3は、一例を示すものであり、他の値を用いてもよい。
【0078】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0079】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0080】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0081】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0082】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0083】
【発明の効果】
以上説明したように、本発明によれば、指定した発声時間になるように音韻系列の音韻時間長を設定することが可能となり、発声時間の長短によらず自然な音韻時間長を与えることが可能である。
【0084】
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声合成装置の構成を示すブロック図である。
【図2】本発明の実施形態に係る音声合成装置の機能構成を示すブロック図である。
【図3】本発明の実施形態に係る音声合成手段を示すフローチャートである。
【符号の説明】
1 文字系列入力部
2 制御データ格納部
3 音韻系列生成部
4 音韻系列格納部
5 音韻時間長設定部
6 音声合成部

Claims (9)

  1. 音韻系列に従って音声を合成する音声合成装置であって、
    音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段と、
    前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得手段と、
    前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得手段と、
    前記取得手段で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定手段とを備えることを特徴とする音声合成装置。
  2. 前記格納手段は更に音韻の種類ごとに音韻時間長の平均値を格納し、
    前記取得手段は、前記音韻系列の各音韻の前記平均値又は重回帰分析による音韻時間長推定値のいずれかを用いて前記第1の音韻時間長を取得することを特徴とする請求項1記載の音声合成装置。
  3. 前記取得手段は、各音韻の第1の音韻時間長として、当該音韻の平均値を中心に標準偏差の定数倍の範囲内に収まる音韻時間長を設定することを特徴とする請求項1記載の音声合成装置。
  4. 前記格納手段は更に音韻の種類ごとに音韻時間長の最小値を格納し、
    前記取得手段は、各音韻の第1の音韻時間長が当該音韻の前記最小値より小さい場合は該第1の音韻時間長を該最小値に設定することを特徴とする請求項1記載の音声合成装置。
  5. 前記格納手段は各音韻の平均値、標準偏差、最小値を発声速度に基づいた分類毎に格納し、
    前記取得手段は、前記音韻系列の発声時間から算出した発声速度に対応する各音韻の平均値、標準偏差、最小値を利用して各音韻の第1の音韻時間長を算出することを特徴とする請求項1乃至請求項4のいずれかに記載の音声合成装置。
  6. 音声合成対象の文字系列を取得する文字系列取得手段と、
    前記文字系列取得手段で取得した文字系列を音韻系列に変換する変換手段とを更に備え、
    前記発声時間取得手段は、前記文字系列に含まれる発声速度を示す制御シーケンスに基づいて、前記発声時間情報を取得することを特徴とする請求項1記載の音声合成装置。
  7. 音声合成対象の文字系列を取得する文字系列取得手段と、
    前記文字系列取得手段で取得した文字系列を音韻系列に変換する変換手段とを更に備え、
    前記発声時間取得手段は、ユーザによって設定された発声速度に基づいて、前記発声時間情報を取得することを特徴とする請求項1記載の音声合成装置。
  8. 音韻系列に従って音声を合成する音声合成方法であって、
    前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得工程と、
    前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得工程と、
    音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段から前記音韻系列の各音韻に対応する標準偏差を取得し、前記取得工程で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に 加えた値を第2の音韻時間長として設定する設定工程とを備えることを特徴とする音声合成方法。
  9. 音韻系列に従って音声を合成する音声合成方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体であって、
    前記音声合成方法が、
    前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得工程と、
    前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得工程と、
    音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段から前記音韻系列の各音韻に対応する標準偏差を取得し、前記取得工程で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定工程とを備えることを特徴とする記憶媒体。
JP05790098A 1998-03-10 1998-03-10 音声合成方法および装置および記憶媒体 Expired - Fee Related JP3854713B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP05790098A JP3854713B2 (ja) 1998-03-10 1998-03-10 音声合成方法および装置および記憶媒体
EP99301760A EP0942410B1 (en) 1998-03-10 1999-03-09 Phoneme based speech synthesis
DE69917961T DE69917961T2 (de) 1998-03-10 1999-03-09 Phonembasierte Sprachsynthese
US09/264,866 US6546367B2 (en) 1998-03-10 1999-03-09 Synthesizing phoneme string of predetermined duration by adjusting initial phoneme duration on values from multiple regression by adding values based on their standard deviations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP05790098A JP3854713B2 (ja) 1998-03-10 1998-03-10 音声合成方法および装置および記憶媒体

Publications (2)

Publication Number Publication Date
JPH11259095A JPH11259095A (ja) 1999-09-24
JP3854713B2 true JP3854713B2 (ja) 2006-12-06

Family

ID=13068881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP05790098A Expired - Fee Related JP3854713B2 (ja) 1998-03-10 1998-03-10 音声合成方法および装置および記憶媒体

Country Status (4)

Country Link
US (1) US6546367B2 (ja)
EP (1) EP0942410B1 (ja)
JP (1) JP3854713B2 (ja)
DE (1) DE69917961T2 (ja)

Families Citing this family (136)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001282279A (ja) 2000-03-31 2001-10-12 Canon Inc 音声情報処理方法及び装置及び記憶媒体
JP3728172B2 (ja) 2000-03-31 2005-12-21 キヤノン株式会社 音声合成方法および装置
JP4054507B2 (ja) * 2000-03-31 2008-02-27 キヤノン株式会社 音声情報処理方法および装置および記憶媒体
JP4632384B2 (ja) * 2000-03-31 2011-02-16 キヤノン株式会社 音声情報処理装置及びその方法と記憶媒体
US7039588B2 (en) * 2000-03-31 2006-05-02 Canon Kabushiki Kaisha Synthesis unit selection apparatus and method, and storage medium
DE10033104C2 (de) * 2000-07-07 2003-02-27 Siemens Ag Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
JP4680429B2 (ja) * 2001-06-26 2011-05-11 Okiセミコンダクタ株式会社 テキスト音声変換装置における高速読上げ制御方法
US7483832B2 (en) * 2001-12-10 2009-01-27 At&T Intellectual Property I, L.P. Method and system for customizing voice translation of text to speech
GB2391143A (en) * 2002-04-17 2004-01-28 Rhetorical Systems Ltd Method and apparatus for scultping synthesized speech
US20060229877A1 (en) * 2005-04-06 2006-10-12 Jilei Tian Memory usage in a text-to-speech system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8321225B1 (en) 2008-11-14 2012-11-27 Google Inc. Generating prosodic contours for synthesized speech
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP4809913B2 (ja) * 2009-07-06 2011-11-09 日本電信電話株式会社 音素分割装置、方法及びプログラム
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
TWI413104B (zh) * 2010-12-22 2013-10-21 Ind Tech Res Inst 可調控式韻律重估測系統與方法及電腦程式產品
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
JP5999839B2 (ja) * 2012-09-10 2016-09-28 ルネサスエレクトロニクス株式会社 音声案内システム及び電子機器
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP3809407A1 (en) 2013-02-07 2021-04-21 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
JP6044490B2 (ja) * 2013-08-30 2016-12-14 ブラザー工業株式会社 情報処理装置、話速データ生成方法、及びプログラム
US9384731B2 (en) * 2013-11-06 2016-07-05 Microsoft Technology Licensing, Llc Detecting speech input phrase confusion risk
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
JP6300328B2 (ja) * 2016-02-04 2018-03-28 和彦 外山 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN113793590A (zh) * 2020-05-26 2021-12-14 华为技术有限公司 语音合成方法及装置
CN113793589A (zh) * 2020-05-26 2021-12-14 华为技术有限公司 语音合成方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3563772B2 (ja) 1994-06-16 2004-09-08 キヤノン株式会社 音声合成方法及び装置並びに音声合成制御方法及び装置
JPH11507740A (ja) 1995-06-13 1999-07-06 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 言語合成
US6038533A (en) * 1995-07-07 2000-03-14 Lucent Technologies Inc. System and method for selecting training text
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6101470A (en) * 1998-05-26 2000-08-08 International Business Machines Corporation Methods for generating pitch and duration contours in a text to speech system

Also Published As

Publication number Publication date
EP0942410A3 (en) 2000-01-05
US6546367B2 (en) 2003-04-08
EP0942410A2 (en) 1999-09-15
DE69917961T2 (de) 2005-06-23
JPH11259095A (ja) 1999-09-24
DE69917961D1 (de) 2004-07-22
EP0942410B1 (en) 2004-06-16
US20020107688A1 (en) 2002-08-08

Similar Documents

Publication Publication Date Title
JP3854713B2 (ja) 音声合成方法および装置および記憶媒体
US7089186B2 (en) Speech information processing method, apparatus and storage medium performing speech synthesis based on durations of phonemes
US7155390B2 (en) Speech information processing method and apparatus and storage medium using a segment pitch pattern model
US6751592B1 (en) Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically
US6778962B1 (en) Speech synthesis with prosodic model data and accent type
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
US20080059190A1 (en) Speech unit selection using HMM acoustic models
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
Anumanchipalli et al. Development of Indian language speech databases for large vocabulary speech recognition systems
JP4632384B2 (ja) 音声情報処理装置及びその方法と記憶媒体
JP4586615B2 (ja) 音声合成装置,音声合成方法およびコンピュータプログラム
JP3085631B2 (ja) 音声合成方法及びシステム
JP2001282278A (ja) 音声情報処理装置及びその方法と記憶媒体
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
Chen et al. A statistics-based pitch contour model for Mandarin speech
JP3706758B2 (ja) 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
JP2003186489A (ja) 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法
JP3006240B2 (ja) 音声合成方法および装置
JP2004246140A (ja) テキスト選択方法、装置及びプログラム
JPH0962286A (ja) 音声合成装置および音声合成方法
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP3060422B2 (ja) 音声規則合成装置
JP3485586B2 (ja) 音声合成方法
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP2004271615A (ja) 情報処理装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040527

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20040527

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060911

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090915

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100915

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110915

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110915

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120915

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120915

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130915

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees