JP4202090B2 - スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 - Google Patents

スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 Download PDF

Info

Publication number
JP4202090B2
JP4202090B2 JP2002317332A JP2002317332A JP4202090B2 JP 4202090 B2 JP4202090 B2 JP 4202090B2 JP 2002317332 A JP2002317332 A JP 2002317332A JP 2002317332 A JP2002317332 A JP 2002317332A JP 4202090 B2 JP4202090 B2 JP 4202090B2
Authority
JP
Japan
Prior art keywords
discontinuity
speech
phonemes
smoothing filter
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002317332A
Other languages
English (en)
Other versions
JP2003150187A (ja
Inventor
起 承 李
正 壽 金
在 原 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2003150187A publication Critical patent/JP2003150187A/ja
Application granted granted Critical
Publication of JP4202090B2 publication Critical patent/JP4202090B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声を合成するシステムに係り、特に、合成された音声の音声ユニットの転移部にスムージングの技術を適用して不連続歪みを防止する音声合成システム及びその方法に関する。
【0002】
【従来の技術】
文字と音声とを合成する文字−音声合成(Text−To−Speech:TTS)システムとは、ユーザが任意に入力した文章を、コンピュータ等を用いて自動的に音声を生成して聴取者に聞かせる一種の音声合成システムをいう。この種のTTSシステムは自動案内システム等の応用分野で汎用されており、人間と機器との対話を具現するためのキーテクノロジーの1つである。この種のTTSシステムは、1990年代に大容量データベースに基づくコーパス基盤のTTSシステムが紹介されて以来、人間の音声に一段と近い合成音を生成するに至った。また、データ−ドリブン(data−driven)技術の適用された韻律を予測する技術の性能が向上され一層臨場感のある音声が得られるようになった。
【0003】
しかしながら、この分野におけるこのような発展にも拘わらず、音声合成装置には解決すべき数々の問題点が内包されている。その問題点とは、合成された音声の音声ユニットの転移部で発生する音の不連続性である。音声合成装置は、基本的に音声ユニットの単位に分割された各々の音声信号を音素列により連結させて連続音を生成するものである。したがって、互いに隣り合った各々の音声が相異なる特性を有している場合、聴取上、歪みを来す恐れがある。このような聴取上の歪みは、スペクトルの急激な変動及び不連続性や、不自然に変動する音素の韻律、あるいは波形の変動による揺れといった形態で出現する。
【0004】
一方、音声ユニット間の転移部で発生する不連続性を除去するために、主として2種類の方法が用いられている。1つの方法は、音声ユニットの選択時に予め連結される音声ユニット間の違いを測定し、この違いを最小化させるように音声ユニットを選択することである。もう1つの方法は、合成された音声に対して連結される音声ユニットの転移部にスムージングの技術を適用することである。
【0005】
前者の方法については、これまで絶えず研究がなされてきており、最近では回帰特性を反映する不連続歪みを最小化する技術等が開発され、TTSシステムに実機で適用されている。これに対し、後者の方法については前者の方法に比べると研究例が少ない。その理由としては、スムージングの技術が、信号処理技術に基づく音声合成よりも音声の符号化技術により重要な要素技術であると認識されている点、及びスムージングの技術そのものが音声信号に歪みを来す恐れがあるという点が挙げられる。
【0006】
現在、前記音声合成装置に適用されているスムージング方法では、一般に、音声符号化に用いられる方法がそのまま適用されている。図1は、音声符号化に適用される各種のスムージング方法を、そのまま音声合成に適用した場合の自然性の歪み、及び明瞭性の歪みに対する結果が示す表である。ここで適用されたスムージングの技術は、WIに基づく技術、LP−ポール技術及び連続効果である。図1に示すように、各種のスムージングの技術を適用した場合よりもスムージングを適用しなかった場合に、自然性の歪み及び明瞭性の歪みがむしろ小さくなっており、音質的に優れている。この結果、音声合成にスムージングの技術を適用した場合よりも、この技術を適用しない場合の方がより音質の面で効果的であるため、音声符号化器に適用されるスムージングの技術をそのまま音声合成に適用することは好ましくないことが理解される(例えば、非特許文献1参照)。
【0007】
音声符号化器における歪みはその大部分が量子化エラー等により発生するものであり、前記スムージングの技術においてもこのような量子化エラー等の不具合を最小化させるために用いられる技術である。しかし、音声合成装置においては録音された音声信号そのものを用いるため、音声符号化器には量子化エラーが存在せず、したがってこの場合の歪みは、誤った音声ユニットの選択や音声ユニット間のスペクトルの急激な変動、あるいは音声ユニットの不連続性に起因するものである。すなわち、前記音声符号化器と音声合成装置とは、歪みを引き起こす原因が相異なるために、音声符号化器に適用されるスムージングの技術を音声合成装置に対して同じように適用しても、同様の効果が得られない。
【0008】
【非特許文献1】
IEEE Trans. on Speech and Audio、 JAN/2000 pp.39−40
【0009】
【発明が解決しようとする課題】
本発明は前記問題点に鑑みてなされたものであり、その第1の目的は、スムージングフィルタの係数を適切に変化させて不連続歪みを減らす音声合成システム及びその方法を提供することにある。
【0010】
また、本発明の第2の目的は、前記音声合成方法がコンピュータにて実行可能なプログラムコードとして記録された記録媒体を提供することにある。
【0011】
さらに、本発明の第3の目的は、音声合成システムでスムージングフィルタの係数を制御してその特性を制御するスムージングフィルタ特性制御装置及びその方法を提供することにある。
【0012】
そして、本発明の第4の目的は、前記スムージングフィルタ特性制御方法がコンピュータにて実行可能なプログラムコードとして記録された記録媒体を提供することにある。
【0013】
【課題を解決するための手段】
(1)前記第1の目的を達成するために、本発明に係るスムージングフィルタを用いた音声合成システムは、スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成システムであって、前記音声合成に用いられる標本音素間の不連続性を所定の学習により予測し、予測された不連続度と、実際の不連続度との割合を求め、その結果に基づいてスムージングフィルタの係数を決定し、前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性がスムージングされるように制御する不連続歪み処理部を含んで構成される。
【0014】
(2)また、前記所定の学習は、分類と回帰樹(CART)の方式により行うことができる。
【0015】
(3)また、前記スムージングフィルタを用いた音声合成システムは、合成された音声の音素間の境界で発生する不連続性をフィルタ係数に対応させてスムージングするスムージングフィルタと、前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた文脈情報である標本音素を利用して前記所定の学習結果により予測された不連続度とを比較し、この比較の結果を係数選択信号Rとして出力するフィルタ特性制御部と、前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記のように予測された不連続度に応じてスムージングするように、前記係数選択信号Rに応じて前記フィルタ係数αを決定するフィルタ係数決定部とを含んで構成することができる。
【0016】
(4)さらに、前記所定の学習は、CART方式により行うことができる。
(5)そして、前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として、これ以前の2音素及びこれ以後の2音素であるように構成することができる。
【0017】
(6)また、前記係数選択信号Rは、下記式(1)に基づいて求めることができる。
【0018】
【数7】
Figure 0004202090
【0019】
前記式(1)中、Dpは予測された不連続度を表し、Drは実際の不連続度を表す。
【0020】
(7)また、前記フィルタ係数決定部は、前記係数選択信号Rに応じて下記式(2)に基づき前記フィルタ係数を決定することができる。
【0021】
【数8】
Figure 0004202090
【0022】
前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
【0023】
(8)また、前記第1の目的を達成するための本発明に係るスムージングフィルタを用いた音声合成方法は、スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成方法において、(a)前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた標本音素を利用して所定の学習結果に基づき予測された不連続度との割合を求め、その結果を係数選択信号Rとして出力する段階と、(b)前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記予測された不連続度に応じてスムージングするように、前記(a)段階で出力された係数選択信号Rに応じて前記スムージングフィルタのフィルタ係数を決定する段階と、(c)前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性をスムージングする段階とを含んで構成される。
【0024】
(9)そして、前記第2の目的を解決するための本発明に係る記録媒体は、前記スムージングフィルタを用いた音声合成方法がコンピュータで実行することが可能なプログラムコードとして記録された記録媒体として構成される。
【0025】
(10)前記第3の目的を達成するための本発明に係るスムージングフィルタ特性制御装置は、合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御装置であって、前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める不連続測定部と、実際の発音上で発生する音素間の不連続性の学習結果を記憶し、前記音声信号の合成に用いられる標本音素が入力されると、この入力された前記標本音素間の境界に対する不連続性を学習結果に基づいて予測し、このように予測された不連続度として出力する不連続予測部と、前記実際の不連続度と前記予測された不連続度との割合を求め、その結果を前記スムージングフィルタのフィルタ係数を決定する係数選択信号として出力する比較部とを備えて構成される。
【0026】
(11)また、前記不連続予測部における前記学習は、CART方式により行うことが可能である。
(12)また、前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として以前の2音素及び以後の2音素であるように構成することができる。
【0027】
(13)さらに、前記実際の不連続度Dr及び前記予測された不連続度Dpは、下記式(3)に基づき各々求めることができる。
【0028】
【数9】
Figure 0004202090
【0029】
前記式(3)中、Wpは合成された音声で不連続度を求めようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Wnは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。また、W’pは不連続度を予測しようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、W’nは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。
【0030】
(14)さらにまた、前記比較部は、下記式(1)に基づき前記係数選択信号Rを求めることができる。
【0031】
【数10】
Figure 0004202090
【0032】
前記式(1)中、Dpは予測された不連続度であり、Drは実際の不連続度を表す。
【0033】
(15)そして、前記フィルタ係数は、前記係数選択信号Rに応じて下記式(2)に基づき決定することができる。
【0034】
【数11】
Figure 0004202090
【0035】
前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
【0036】
(16)前記第3の目的を達成するための本発明に係るスムージングフィルタ特性制御方法は、合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御方法であって、(a)標本音素を用いて音素間の不連続予測を学習する段階と、(b)前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める段階と、(c)前記音声信号の合成に用いられる標本音素間の境界に対する不連続性を前記学習結果により予測し、このように予測された不連続度を求める段階と、(d)前記実際の不連続度と前記予測された不連続度との割合を係数選択信号として出力し、求められた係数選択信号に基づき前記スムージングフィルタのフィルタ係数を決定する段階とを含んで構成される。
【0037】
(17)また、前記(d)段階は、(d1)前記予測された不連続度と前記実際の不連続度との割合Rを求める段階と、(d2)下記式(2)に基づき前記フィルタ係数αを決定する段階とを含んで構成することができる。
【0038】
【数12】
Figure 0004202090
【0039】
前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
【0040】
(18)そして、前記第4の目的を達成するための本発明に係る記録媒体は、前記スムージングフィルタ制御方法がコンピュータで実行することが可能なプログラムコードにて記録された記録媒体として構成される。
【0041】
【発明の実施の形態】
以下、添付した図面に基づいて、本発明に係るスムージングフィルタを利用した音声合成システム及びその方法について詳細に説明する。
図2は、本発明に係るスムージングフィルタを用いた音声合成システムの一実施の形態を模式的に示すブロック図である。図2に示す音声合成システムは、フィルタ特性制御部50、スムージングフィルタ30及びフィルタ係数決定部40を含む不連続歪み処理部を備えて構成されている。
【0042】
図2に示すように、フィルタ特性制御部50は、スムージングフィルタ30のフィルタ係数を制御することにより、スムージングフィルタ30の特性を制御する。具体的に、フィルタ特性制御部50は、合成された音声INの音素間の境界で発生する不連続度と学習された文脈情報に基づき予測された不連続度とを比較し、その比較の結果を係数選択信号Rとして前記フィルタ係数決定部40に出力する。ここで、フィルタ特性制御部50は、不連続測定部52、比較部54及び不連続予測部56を含んで構成される。
【0043】
不連続測定部52は、合成された音声INの音素間の境界で発生する実際の不連続度を求める。
不連続予測部56は、合成された音声INの合成に用いられる標本音素Conを利用して合成される音声の不連続度を予測する。ここで、不連続予測部56は、分類と回帰樹(CART:Classification and Regression Tree)により予測可能であり、CARTは、事前の学習過程を通じて形成される。これについては、図3及び図4を参照しながら詳細に説明する。
【0044】
比較部54は、不連続測定部52からの実際の不連続度と、不連続予測部56からの予測された不連続度との間の割合を求め、その結果を係数選択信号Rとして出力する。
引き続いて、フィルタ係数決定部40は、係数選択信号Rに応じてスムージングフィルタが前記合成された音声INの音素間で実際の不連続性が予測された不連続度に基づいてスムージングするように、スムージングの度合いを示すフィルタ係数αを決定する。
【0045】
スムージングフィルタ30は、フィルタ係数決定部40で決定されたフィルタ係数に対応させて合成された音声INの音素間の境界で発生する不連続性をスムージングする。ここで、スムージングフィルタ30の特性は、下記式(4)のように定義することができる。
【0046】
【数13】
Figure 0004202090
【0047】
前記式(4)中、W’n及びW’pは、各々、スムージングフィルタ30によりスムージングされた波形を表わし、Wpは、不連続度を測定しようとする音素の境界面を基準として、この音素の境界面より左側に位置する音声ユニット(音素ユニット)における最初のピッチ周期の音声波形であり、Wnは前記音素の境界面より右側に位置する音声ユニット(音素ユニット)における最後のピッチ周期の音声波形を表す。
【0048】
前記式(4)より、フィルタ係数が1に近くなるほどスムージングフィルタのスムージングの度合いが弱く、0に近くなるほどスムージングの度合いが強くなるということが理解される。
【0049】
図3は、図2に示す不連続予測部56で、CART方式により学習結果が形成される不連続予測ツリーを示す図面である。ここでは説明の便宜を図るために、図3では不連続の予測に用いられる変数として、音素が有声音であるか否かを判断するもののみを例示したが、実際により一層正確な予測を行うために、音素そのものに関する情報や、音素の音律構成成分等、種々の音素の特性を考慮することが望ましい。
【0050】
図4は、図3に示すようなCARTの入力される音素境界に隣接した4つの標本音素、及びCARTの出力を各々示す図面である。ここでは、不連続の予測に用いられる標本音素の数が、予測しようとする音素境界を中心として隣接した4音素、すなわち、この音素以前の2音素(p、pp)及びこの音素以後の2音素(n、nn)となっている。一方、不連続の予測に用いられるCARTの性能として相関値及び分散減少率が用いられる。
【0051】
ここで、前記相関値はCARTに関する研究でほとんど標準化した性能尺度であり、0.75を上回る値が得られたときにこのCARTを用いた予測装置に妥当性が与えられると提示される場合がある。例えば、CART学習に総342、899個のデータ及び性能評価のために総85、608個のテストデータ(総428、507個のデータ)サンプルを用い、不連続の予測時に音素境界を中心として隣接した4音素を用いた場合、相関値としては、学習データに対して0.757、テストデータに対して0.733の値が得られる。
【0052】
これら両方の値がともに0.75近傍で得られる値であり、前記CARTを用いた不連続予測が有用であるということが理解される。一方、隣接音素を2つのみ用いた場合、相関値は学習データの場合に0.685、テストデータの場合に0.681であり、4音素を用いた場合よりも性能が低下するということが理解される。また、音素境界を中心として6音素を用いた場合には、相関値は学習データの場合に0.750、テストデータを用いた場合に0.727となっている。その結、前記CARTを用いて不連続性を予測するとき、前記CARTへの入力に用いられる音素の数が4つであるときに最高の性能が得られる。
【0053】
また、図4(a)に示すように、音素境界を中心として4つの標本音素pp、p、n、nnが図3に示すCARTに入力されると、図4(b)に示すように、境界面を基準として、この境界面より左側に位置する音声ユニット(音素ユニット)における最後のピッチ周期の音声波形Wp、及び前記境界面より右側に位置する音声ユニット(音素ユニット)における最初のピッチ周期の音声波形Wnの不連続予測値が出力される。このようにして、前記CARTから出力される音声波形Wp及びWnを用いて不連続度を下記式(5)に基づいて予測することができる。
【0054】
【数14】
Figure 0004202090
【0055】
前記式(5)中、Dpは予測された不連続度を表し、Wpは図4(b)に示す境界面を基準として、この境界面より左側に位置する音声ユニット(音素ユニット)における最後のピッチ周期の音声波形を表し、Wnは図4(b)に示す境界面より右側に位置する音声ユニット(音素ユニット)における最初のピッチ周期の音声波形を表す。
【0056】
また、図3に示すように、前記CARTは、階層的な構造を有する質問によって予測値を決定するように設計される。各原案に記述された質問は、CARTの入力値に基づき決定される。そして、それ以上の質問がないターミナルノード64、72、68、70で予測値は決定される。まず、不連続度を予測しようとする音素境界を中心として直前の音素pが有声音であるか否かを判断し(60)、有声音ではなければ、前記式(5)により不連続度をAとして予測する(72)。一方、音素pが有声音であれば、音素ppが有声音であるか否かを判断し(62)、有声音であれば、前記式(5)により不連続度をBとして予測する。さらに、音素ppが有声音ではなければ、音素nが有声音であるか否かによって(66)不連続度をCまたはDとして予測する(68、70)。
【0057】
次に、図2〜図4に基づき、本発明に係る音声合成システムの動作を詳細に説明する。まず、図2を参照すると、フィルタ特性制御部50は、実際の不連続性を測定する不連続測定部52を通して合成された音声信号INの音素間の境界で発生する実際の不連続度Drを求め、不連続予測部56を通じて合成された音声INに用いられる標本音素Conを利用して不連続性を予測し、このように予測された不連続度Dpを求める。そして、下記式(1)のように、予測された不連続度Dpと実際の不連続度Drとの割合Rを求め、このように求めた割合を係数選択信号Rとして出力する。
【0058】
【数15】
Figure 0004202090
【0059】
前記式(1)中、Dpは予測された不連続度を表し、Drは実際の不連続度を表す。
【0060】
ここで、不連続予測部56は、前述したように、前記CART方式によって実際に人間の音声を通じて発生する文脈情報に基づき音素間の不連続予測が学習されており、音声合成に用いられる標本音素Conが入力されれば、学習された結果に基づく不連続度であるDpを求める。したがって、このようにして予測された不連続度Dpは、実際に人間が発音するときに発生する不連続性を予測した結果であるといえる。
【0061】
また、フィルタ係数決定部40は、係数選択信号Rに応じて下記式(2)に基づいてフィルタ係数を決定し、このように決定されたフィルタ係数αをスムージングフィルタ30に出力する。
【0062】
【数16】
Figure 0004202090
【0063】
前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
【0064】
前記式(2)を参照すると、Rが1より大きければ、すなわち、実際の不連続度Drが予測された不連続度Dpよりも小さければ、スムージングフィルタ30でスムージングが弱く行われるようにフィルタ係数αを小さくする(前記式(4)参照)。予測された不連続度Dpが実際の不連続度Drよりも大きいということは、実際の発音上で不連続度が大きいものの、合成された音声では不連続度が低く現れた場合である。
【0065】
すなわち、実際に発音された音声上の不連続度が大きい場合には、前記スムージングフィルタ30は、合成された音声INのスムージングの度合いを弱くすることにより、この合成された音声INが実際に発音されたとき音声上の不連続度を維持するように制御する。
【0066】
これに対して、Rが1より小さい、すなわち、実際の不連続度Drが予測された不連続度Dpよりも大きい場合には、スムージングフィルタ30で、フィルタ係数を大きくして、スムージングの度合いを強めてスムージングを行うようにする(前記式(4)参照)。
【0067】
また、予測された不連続度Dpが実際の不連続度Drよりも小さい場合は、実際に発音された音声上で不連続度が実際の不連続度Drよりも低く現れるということに対応する。したがって、この場合には、スムージングの度合いを強くして合成された音声INが、実際に発音された音声上の不連続度を維持するように制御する。
【0068】
そして、スムージングフィルタ30は、フィルタ係数決定部40で決定されたフィルタ係数に基づき合成された音声INをスムージングする。
以上説明したように、スムージングフィルタ30は、予測された不連続度Dpと実際の不連続度Drとの割合に対応して適切に変化するフィルタ係数により、合成された音声INの不連続度が予測された不連続度Dpに追従するように合成された音声INをスムージングする。すなわち、合成された音声INの不連続性が実際の発音上で発生する不連続に追従するようにスムージングされるので、合成された音声INが実際の音声に一層近くなる。
【0069】
本発明はまた、コンピュータで読取り可能な記録媒体に、コンピュータで読取り可能なコードを記録した記録媒体として具現することが可能である。コンピュータで読取り可能な記録媒体としては、コンピュータシステムに読み込むことが可能なデータが記憶され得るあらゆる種類の記録装置を含む。コンピュータで読取り可能な記録媒体の例としては、ROM(read only memory)、RAM(ramdom access memory)、CD−ROM(compact disk−read only memory)、磁気テープ、フレキシブルディスク、光データ記憶装置などが挙げられ、さらに、キャリアウェーブ(例えば、インタネットを介して伝送)の形で具現されるものも含む。また、コンピュータで読取り可能な記録媒体としては、ネットワークで結ばれたコンピュータシステムに分散され、分散方式によりコンピュータで読取り可能なコードが記録されて実行することができる。
【0070】
以上、添付した図面及び明細書において、本発明を、本発明に係る最適な実施形態を例として特定の用語を用いて説明したが、これらの用語は単に本発明を具体的に説明するために用いられたものであって、特定の構成物に限定する、あるいは本発明の技術範囲を特定の範囲に制限するために用いられたものではない。よって、当該技術分野に属する当業者であれば、これらの記載事項に基づいて種々の変形、及び均等な他の実施形態を具現することが可能な点は容易に理解されるであろう。よって、本発明の真の技術的な保護範囲は、特許請求の範囲に記載された技術的思想によって定められるべきである。
【0071】
【発明の効果】
以上、説明した通りに構成される本発明によれば以下の効果を奏する。
すなわち、本発明に係るスムージングフィルタを用いた音声合成システム及びその方法によれば、スムージングフィルタ30は予測された不連続度Dp及び実際の不連続度Drの割合に対応して適切に変化するフィルタ係数により、合成された音声INの不連続度が予測された不連続度Dpに追従するように合成された音声INをスムージングする。すなわち、合成された音声INの不連続性が実際の発音上で発生する不連続に追従するようにスムージングされるので、合成された音声INが実際の音声に一層近くなる。
【図面の簡単な説明】
【図1】音声符号化器に適用される各種のスムージング方法をそのまま音声合成に適用した場合の自然性及び明瞭性の面における歪みに対する結果を示す図面である。
【図2】本発明に係るスムージングフィルタを用いた音声合成システムの一実施の形態を概略的に示すブロック図である。
【図3】図2に示す不連続予測部でCART方式により学習結果が形成される不連続予測ツリーを示す図面である。
【図4】図3に示すCART入力となる2音素間の境界を中心に互いに隣接した4つの標本音素及び前記CART入力の1境界部分に対するCARTの出力を各々示す図面である。
【符号の説明】
30 スムージングフィルタ
40 フィルタ係数決定部
50 フィルタ特性制御部
52 不連続測定部
54 比較部
56 不連続予測部

Claims (18)

  1. スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成システムであって、
    前記音声合成に用いられる標本音素間の不連続性を所定の学習により予測し、予測された不連続度と、実際の不連続度との割合を求め、その結果に基づいてスムージングフィルタの係数を決定し、前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性がスムージングされるように制御する不連続歪み処理部を含むことを特徴とするスムージングフィルタを用いた音声合成システム。
  2. 前記所定の学習は、分類と回帰樹(CART)の方式により行われることを特徴とする請求項1に記載のスムージングフィルタを用いた音声合成システム。
  3. 合成された音声の音素間の境界で発生する不連続性をフィルタ係数に対応させてスムージングするスムージングフィルタと、
    前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた文脈情報である標本音素を利用して前記所定の学習結果により予測された不連続度との割合を求め、その結果を係数選択信号Rとして出力するフィルタ特性制御部と、
    前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記のように予測された不連続度に応じてスムージングするように、前記係数選択信号Rに応じて前記フィルタ係数αを決定するフィルタ係数決定部と、を含むことを特徴とするスムージングフィルタを用いた音声合成システム。
  4. 前記所定の学習は、CART方式により行われることを特徴とする請求項3に記載のスムージングフィルタを用いた音声合成システム。
  5. 前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として、これ以前の2音素及びこれ以後の2音素であることを特徴とする請求項4に記載のスムージングフィルタを用いた音声合成システム。
  6. 前記係数選択信号Rは、下記式(1)に基づき求められることを特徴とする請求項3に記載のスムージングフィルタを用いた音声合成システム。
    Figure 0004202090
    前記式(1)中、Dpは予測された不連続度を表し、Drは実際の不連続度を表す。
  7. 前記フィルタ係数決定部は、前記係数選択信号Rに応じて下記式(2)に基づき前記フィルタ係数を決定することを特徴とする請求項3に記載のスムージングフィルタを用いた音声合成システム。
    Figure 0004202090
    前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
  8. スムージングの技術を用いて合成された音声の音素間の不連続歪みを制御する音声合成方法であって、
    (a)前記合成された音声の音素間の境界で発生する実際の不連続度と、前記音声合成に用いられた標本音素を利用して所定の学習結果に基づき予測された不連続度との割合を求め、その結果を係数選択信号Rとして出力する段階と、
    (b)前記スムージングフィルタが前記合成された音声の音素間の不連続歪みを前記予測された不連続度に応じてスムージングするように、前記(a)段階で出力された係数選択信号Rに応じて前記スムージングフィルタのフィルタ係数を決定する段階と、
    (c)前記決定されたフィルタ係数に対応させて前記音声合成された音素簡の境界で発生する不連続性をスムージングする段階と、を含むことを特徴とするスムージングフィルタを用いた音声合成方法。
  9. 請求項8に記載のスムージングフィルタを用いた音声合成方法がコンピュータで実行することが可能なプログラムコードとして記録された記録媒体。
  10. 合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御装置であって、
    前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める不連続測定部と、
    実際の発音上で発生する音素間の不連続性の学習結果を記憶し、前記音声信号の合成に用いられる標本音素が入力されると、この入力された前記標本音素間の境界に対する不連続性を学習結果に基づいて予測し、このように予測された不連続度として出力する不連続予測部と、
    前記実際の不連続度と前記予測された不連続度との割合を求め、その結果を前記スムージングフィルタのフィルタ係数を決定する係数選択信号として出力する比較部と、を備えることを特徴とするスムージングフィルタ特性制御装置。
  11. 前記不連続予測部における前記学習は、CART方式により行われることを特徴とする請求項10に記載のスムージングフィルタ特性制御装置。
  12. 前記不連続の予測に用いられる標本音素は、予測しようとする音素境界を中心として以前の2音素及び以後の2音素であることを特徴とする請求項11に記載のスムージングフィルタ特性制御装置。
  13. 前記実際の不連続度Dr及び前記予測された不連続度Dpは、下記式(3)に基づき各々求められることを特徴とする請求項12に記載のスムージングフィルタ特性制御装置。
    Figure 0004202090
    前記式(3)中、Wpは合成された音声で不連続度を求めようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、Wnは前記音素境界面より右側に位置する音素ユニットにおける最初のピッチ周期の音声波形を表す。また、W’pは不連続度を予測しようとする音素境界面を基準として、この音素境界面より左側に位置する音素ユニットにおける最後のピッチ周期の音声波形を表し、W’nは前記音素境界面より右側に位置するユニットにおける最初のピッチ周期の音声波形を表す。
  14. 前記比較部は、下記式(1)に基づき前記係数選択信号Rを求めることを特徴とする請求項10に記載のスムージングフィルタ特性制御装置。
    Figure 0004202090
    前記式(4)中、Dpは予測された不連続度であり、Drは実際の不連続度を表す。
  15. 前記フィルタ係数は、前記係数選択信号Rに応じて下記式(2)に基づき決定されることを特徴とする請求項10に記載のスムージングフィルタ特性制御装置。
    Figure 0004202090
    前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
  16. 合成された音声の音素間の不連続歪みを制御する音声合成システムに用いられるスムージングフィルタの特性を音素境界の特性によって適切に変化させるスムージングフィルタ特性制御方法であって、
    (a)標本音素を用いて音素間の不連続予測を学習する段階と、
    (b)前記合成された音声信号の音素間の境界で発生する不連続度を実際の不連続度として求める段階と、
    (c)前記音声信号の合成に用いられる標本音素間の境界に対する不連続性を前記学習結果により予測し、このように予測された不連続度を求める段階と、
    (d)前記実際の不連続度と前記予測された不連続度との割合を係数選択信号として出力し、求められた係数選択信号に基づき前記スムージングフィルタのフィルタ係数を決定する段階と、を含むことを特徴とするスムージングフィルタ特性制御方法。
  17. 前記(d)段階は、
    (d1)前記予測された不連続度と前記実際の不連続度との割合Rを求める段階と、(d2)下記式(2)に基づき前記フィルタ係数αを決定する段階と、を含むことを特徴とする請求項16に記載のスムージングフィルタ特性制御方法。
    Figure 0004202090
    前記式(2)中、Rは係数選択信号を表し、αはフィルタ係数を表す。
  18. 請求項16に記載のスムージングフィルタ制御方法がコンピュータで実行することが可能なプログラムコードにて記録された記録媒体。
JP2002317332A 2001-10-31 2002-10-31 スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 Expired - Fee Related JP4202090B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2001-0067623A KR100438826B1 (ko) 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
KR2001-67623 2001-10-31

Publications (2)

Publication Number Publication Date
JP2003150187A JP2003150187A (ja) 2003-05-23
JP4202090B2 true JP4202090B2 (ja) 2008-12-24

Family

ID=19715573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002317332A Expired - Fee Related JP4202090B2 (ja) 2001-10-31 2002-10-31 スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法

Country Status (5)

Country Link
US (1) US7277856B2 (ja)
EP (1) EP1308928B1 (ja)
JP (1) JP4202090B2 (ja)
KR (1) KR100438826B1 (ja)
DE (1) DE60228381D1 (ja)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
WO2010008722A1 (en) 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3625791A4 (en) 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
KR102072627B1 (ko) * 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
SG11202009556XA (en) * 2018-03-28 2020-10-29 Telepathy Labs Inc Text-to-speech synthesis system and method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
US6175821B1 (en) * 1997-07-31 2001-01-16 British Telecommunications Public Limited Company Generation of voice messages
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
AU772874B2 (en) * 1998-11-13 2004-05-13 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Also Published As

Publication number Publication date
EP1308928B1 (en) 2008-08-20
KR20030035522A (ko) 2003-05-09
EP1308928A2 (en) 2003-05-07
DE60228381D1 (de) 2008-10-02
KR100438826B1 (ko) 2004-07-05
JP2003150187A (ja) 2003-05-23
US20030083878A1 (en) 2003-05-01
EP1308928A3 (en) 2005-03-09
US7277856B2 (en) 2007-10-02

Similar Documents

Publication Publication Date Title
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
EP1252621B1 (en) System and method for modifying speech signals
US20090144053A1 (en) Speech processing apparatus and speech synthesis apparatus
EP0764937A2 (en) Method for speech detection in a high-noise environment
US20020032563A1 (en) Method and system for synthesizing voices
EP1995723A1 (en) Neuroevolution training system
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP2000511651A (ja) 記録されたオーディオ信号の非均一的時間スケール変更
US9607610B2 (en) Devices and methods for noise modulation in a universal vocoder synthesizer
US20100217584A1 (en) Speech analysis device, speech analysis and synthesis device, correction rule information generation device, speech analysis system, speech analysis method, correction rule information generation method, and program
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
JP2012503212A (ja) オーディオ信号分析方法
US5999900A (en) Reduced redundancy test signal similar to natural speech for supporting data manipulation functions in testing telecommunications equipment
US5890104A (en) Method and apparatus for testing telecommunications equipment using a reduced redundancy test signal
US6219636B1 (en) Audio pitch coding method, apparatus, and program storage device calculating voicing and pitch of subframes of a frame
Mokhtari et al. Automatic measurement of pressed/breathy phonation at acoustic centres of reliability in continuous speech
US20050171777A1 (en) Generation of synthetic speech
Maddela et al. Durational and Formantshift characteristics of Telugu alveolar and bilabial nasal phonemes
JP4489371B2 (ja) 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置
EP0713208B1 (en) Pitch lag estimation system
Csapó et al. Automatic transformation of irregular to regular voice by residual analysis and synthesis.
JP3576792B2 (ja) 音声情報処理方法
Agiomyrgiannakis et al. Towards flexible speech coding for speech synthesis: an LF+ modulated noise vocoder.
EP0440335A2 (en) Encoding speech
JP2005331588A (ja) 音声再生速度調節方法、音声再生速度調節プログラム、およびこれを格納した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081008

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees