JP2003150187A - スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 - Google Patents

スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法

Info

Publication number
JP2003150187A
JP2003150187A JP2002317332A JP2002317332A JP2003150187A JP 2003150187 A JP2003150187 A JP 2003150187A JP 2002317332 A JP2002317332 A JP 2002317332A JP 2002317332 A JP2002317332 A JP 2002317332A JP 2003150187 A JP2003150187 A JP 2003150187A
Authority
JP
Japan
Prior art keywords
discontinuity
speech
phonemes
smoothing filter
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002317332A
Other languages
English (en)
Other versions
JP4202090B2 (ja
Inventor
Ki-Seung Lee
起 承 李
Jeong-Su Kim
正 壽 金
Jae-Won Lee
在 原 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2003150187A publication Critical patent/JP2003150187A/ja
Application granted granted Critical
Publication of JP4202090B2 publication Critical patent/JP4202090B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 スムージングフィルタを用いた音声合成シス
テム及びその方法を提供する。 【解決手段】 合成に用いられる標本音素間の不連続性
を学習により予測し、このように予測された不連続度に
対応して音声合成された音素間の不連続性が、適切にス
ムージングされるように制御する不連続歪み処理部を含
むスムージング技術を用いて合成された音声の音素間の
不連続歪みを制御する音声合成システムとする。スムー
ジングフィルタ30は、不連続性予測部56で予測され
た不連続度と不連続性測定部52で測定された実際の不
連続度との割合に応じて適切に変化するフィルタ係数α
がフィルタ係数決定部40でされ、このフィルタ係数α
により合成された音声の不連続度が不連続性予測部56
で予測された不連続度に追従するようにスムージングす
るように構成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を合成するシ
ステムに係り、特に、合成された音声の音声ユニットの
転移部にスムージングの技術を適用して不連続歪みを防
止する音声合成システム及びその方法に関する。
【0002】
【従来の技術】文字と音声とを合成する文字−音声合成
(Text−To−Speech:TTS)システムと
は、ユーザが任意に入力した文章を、コンピュータ等を
用いて自動的に音声を生成して聴取者に聞かせる一種の
音声合成システムをいう。この種のTTSシステムは自
動案内システム等の応用分野で汎用されており、人間と
機器との対話を具現するためのキーテクノロジーの1つ
である。この種のTTSシステムは、1990年代に大
容量データベースに基づくコーパス基盤のTTSシステ
ムが紹介されて以来、人間の音声に一段と近い合成音を
生成するに至った。また、データ−ドリブン(data
−driven)技術の適用された韻律を予測する技術
の性能が向上され一層臨場感のある音声が得られるよう
になった。
【0003】しかしながら、この分野におけるこのよう
な発展にも拘わらず、音声合成装置には解決すべき数々
の問題点が内包されている。その問題点とは、合成され
た音声の音声ユニットの転移部で発生する音の不連続性
である。音声合成装置は、基本的に音声ユニットの単位
に分割された各々の音声信号を音素列により連結させて
連続音を生成するものである。したがって、互いに隣り
合った各々の音声が相異なる特性を有している場合、聴
取上、歪みを来す恐れがある。このような聴取上の歪み
は、スペクトルの急激な変動及び不連続性や、不自然に
変動する音素の韻律、あるいは波形の変動による揺れと
いった形態で出現する。
【0004】一方、音声ユニット間の転移部で発生する
不連続性を除去するために、主として2種類の方法が用
いられている。1つの方法は、音声ユニットの選択時に
予め連結される音声ユニット間の違いを測定し、この違
いを最小化させるように音声ユニットを選択することで
ある。もう1つの方法は、合成された音声に対して連結
される音声ユニットの転移部にスムージングの技術を適
用することである。
【0005】前者の方法については、これまで絶えず研
究がなされてきており、最近では回帰特性を反映する不
連続歪みを最小化する技術等が開発され、TTSシステ
ムに実機で適用されている。これに対し、後者の方法に
ついては前者の方法に比べると研究例が少ない。その理
由としては、スムージングの技術が、信号処理技術に基
づく音声合成よりも音声の符号化技術により重要な要素
技術であると認識されている点、及びスムージングの技
術そのものが音声信号に歪みを来す恐れがあるという点
が挙げられる。
【0006】現在、前記音声合成装置に適用されている
スムージング方法では、一般に、音声符号化に用いられ
る方法がそのまま適用されている。図1は、音声符号化
に適用される各種のスムージング方法を、そのまま音声
合成に適用した場合の自然性の歪み、及び明瞭性の歪み
に対する結果が示す表である。ここで適用されたスムー
ジングの技術は、WIに基づく技術、LP−ポール技術
及び連続効果である。図1に示すように、各種のスムー
ジングの技術を適用した場合よりもスムージングを適用
しなかった場合に、自然性の歪み及び明瞭性の歪みがむ
しろ小さくなっており、音質的に優れている。この結
果、音声合成にスムージングの技術を適用した場合より
も、この技術を適用しない場合の方がより音質の面で効
果的であるため、音声符号化器に適用されるスムージン
グの技術をそのまま音声合成に適用することは好ましく
ないことが理解される(例えば、非特許文献1参照)。
【0007】音声符号化器における歪みはその大部分が
量子化エラー等により発生するものであり、前記スムー
ジングの技術においてもこのような量子化エラー等の不
具合を最小化させるために用いられる技術である。しか
し、音声合成装置においては録音された音声信号そのも
のを用いるため、音声符号化器には量子化エラーが存在
せず、したがってこの場合の歪みは、誤った音声ユニッ
トの選択や音声ユニット間のスペクトルの急激な変動、
あるいは音声ユニットの不連続性に起因するものであ
る。すなわち、前記音声符号化器と音声合成装置とは、
歪みを引き起こす原因が相異なるために、音声符号化器
に適用されるスムージングの技術を音声合成装置に対し
て同じように適用しても、同様の効果が得られない。
【0008】
【非特許文献1】IEEE Trans. on Sp
eech and Audio、 JAN/2000
pp.39−40
【0009】
【発明が解決しようとする課題】本発明は前記問題点に
鑑みてなされたものであり、その第1の目的は、スムー
ジングフィルタの係数を適切に変化させて不連続歪みを
減らす音声合成システム及びその方法を提供することに
ある。
【0010】また、本発明の第2の目的は、前記音声合
成方法がコンピュータにて実行可能なプログラムコード
として記録された記録媒体を提供することにある。
【0011】さらに、本発明の第3の目的は、音声合成
システムでスムージングフィルタの係数を制御してその
特性を制御するスムージングフィルタ特性制御装置及び
その方法を提供することにある。
【0012】そして、本発明の第4の目的は、前記スム
ージングフィルタ特性制御方法がコンピュータにて実行
可能なプログラムコードとして記録された記録媒体を提
供することにある。
【0013】
【課題を解決するための手段】(1)前記第1の目的を
達成するために、本発明に係るスムージングフィルタを
用いた音声合成システムは、スムージングの技術を用い
て合成された音声の音素間の不連続歪みを制御する音声
合成システムであって、前記音声合成に用いられる標本
音素間の不連続性を所定の学習により予測し、このよう
に予測された不連続度に対応させて前記合成された音声
の音素間の不連続性が適切にスムージングされるように
制御する不連続歪み処理部を含んで構成される。
【0014】(2)また、前記所定の学習は、分類と回
帰樹(CART)の方式により行うことができる。
【0015】(3)また、前記スムージングフィルタを
用いた音声合成システムは、合成された音声の音素間の
境界で発生する不連続性をフィルタ係数に対応させてス
ムージングするスムージングフィルタと、前記合成され
た音声の音素間の境界で発生する実際の不連続度と、前
記音声合成に用いられた文脈情報である標本音素を利用
して前記所定の学習結果により予測された不連続度とを
比較し、この比較の結果を係数選択信号Rとして出力す
るフィルタ特性制御部と、前記スムージングフィルタが
前記合成された音声の音素間の不連続歪みを前記のよう
に予測された不連続度に応じてスムージングするよう
に、前記係数選択信号Rに応じて前記フィルタ係数αを
決定するフィルタ係数決定部とを含んで構成することが
できる。
【0016】(4)さらに、前記所定の学習は、CAR
T方式により行うことができる。 (5)そして、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として、これ以前
の2音素及びこれ以後の2音素であるように構成するこ
とができる。
【0017】(6)また、前記係数選択信号Rは、下記
式(1)に基づいて求めることができる。
【0018】
【数7】
【0019】前記式(1)中、Dpは予測された不連続
度を表し、Drは実際の不連続度を表す。
【0020】(7)また、前記フィルタ係数決定部は、
前記係数選択信号Rに応じて下記式(2)に基づき前記
フィルタ係数を決定することができる。
【0021】
【数8】
【0022】前記式(2)中、Rは係数選択信号を表
し、αはフィルタ係数を表す。
【0023】(8)また、前記第1の目的を達成するた
めの本発明に係るスムージングフィルタを用いた音声合
成方法は、スムージングの技術を用いて合成された音声
の音素間の不連続歪みを制御する音声合成方法におい
て、(a)前記合成された音声の音素間の境界で発生す
る実際の不連続度と、前記音声合成に用いられた標本音
素を利用して所定の学習結果に基づき予測された不連続
度とを比較する段階と、(b)前記スムージングフィル
タが前記合成された音声の音素間の不連続歪みを前記予
測された不連続度に応じてスムージングするように、前
記(a)段階における比較結果に対応するフィルタ係数
を決定する段階と、(c)前記決定されたフィルタ係数
に対応させて前記音声合成された音素簡の境界で発生す
る不連続性をスムージングする段階とを含んで構成され
る。
【0024】(9)そして、前記第2の目的を解決する
ための本発明に係る記録媒体は、前記スムージングフィ
ルタを用いた音声合成方法がコンピュータで実行するこ
とが可能なプログラムコードとして記録された記録媒体
として構成される。
【0025】(10)前記第3の目的を達成するための
本発明に係るスムージングフィルタ特性制御装置は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御装置であって、前記合成された音声信号
の音素間の境界で発生する不連続度を実際の不連続度と
して求める不連続測定部と、実際の発音上で発生する音
素間の不連続性の学習結果を記憶し、前記音声信号の合
成に用いられる標本音素が入力されると、この入力され
た前記標本音素間の境界に対する不連続性を学習結果に
基づいて予測し、このように予測された不連続度として
出力する不連続予測部と、前記実際の不連続度と前記予
測された不連続度とを比較し、この比較の結果を前記ス
ムージングフィルタのフィルタ係数を決定する係数選択
信号として出力する比較部とを備えて構成される。
【0026】(11)また、前記不連続予測部における
前記学習は、CART方式により行うことが可能であ
る。 (12)また、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として以前の2音
素及び以後の2音素であるように構成することができ
る。
【0027】(13)さらに、前記実際の不連続度Dr
及び前記予測された不連続度Dpは、下記式(3)に基
づき各々求めることができる。
【0028】
【数9】
【0029】前記式(3)中、Wpは合成された音声で
不連続度を求めようとする音素境界面を基準として、こ
の音素境界面より左側に位置する音素ユニットにおける
最後のピッチ周期の音声波形を表し、Wnは前記音素境
界面より右側に位置する音素ユニットにおける最初のピ
ッチ周期の音声波形を表す。また、W’pは不連続度を
予測しようとする音素境界面を基準として、この音素境
界面より左側に位置する音素ユニットにおける最後のピ
ッチ周期の音声波形を表し、W’nは前記音素境界面よ
り右側に位置する音素ユニットにおける最初のピッチ周
期の音声波形を表す。
【0030】(14)さらにまた、前記比較部は、下記
式(1)に基づき前記係数選択信号Rを求めることがで
きる。
【0031】
【数10】
【0032】前記式(1)中、Dpは予測された不連続
度であり、Drは実際の不連続度を表す。
【0033】(15)そして、前記フィルタ係数は、前
記係数選択信号Rに応じて下記式(2)に基づき決定す
ることができる。
【0034】
【数11】
【0035】前記式(2)中、Rは係数選択信号を表
し、αはフィルタ係数を表す。
【0036】(16)前記第3の目的を達成するための
本発明に係るスムージングフィルタ特性制御方法は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御方法であって、(a)標本音素を用いて
音素間の不連続予測を学習する段階と、(b)前記合成
された音声信号の音素間の境界で発生する不連続度を実
際の不連続度として求める段階と、(c)前記音声信号
の合成に用いられる標本音素間の境界に対する不連続性
を前記学習結果により予測し、このように予測された不
連続度を求める段階と、(d)前記実際の不連続度と前
記予測された不連続度とに基づき前記スムージングフィ
ルタのフィルタ係数を決定する段階とを含んで構成され
る。
【0037】(17)また、前記(d)段階は、(d
1)前記予測された不連続度と前記実際の不連続度との
割合Rを求める段階と、(d2)下記式(2)に基づき
前記フィルタ係数αを決定する段階とを含んで構成する
ことができる。
【0038】
【数12】
【0039】前記式(2)中、Rは係数選択信号を表
し、αはフィルタ係数を表す。
【0040】(18)そして、前記第4の目的を達成す
るための本発明に係る記録媒体は、前記スムージングフ
ィルタ制御方法がコンピュータで実行することが可能な
プログラムコードにて記録された記録媒体として構成さ
れる。
【0041】
【発明の実施の形態】以下、添付した図面に基づいて、
本発明に係るスムージングフィルタを利用した音声合成
システム及びその方法について詳細に説明する。図2
は、本発明に係るスムージングフィルタを用いた音声合
成システムの一実施の形態を模式的に示すブロック図で
ある。図2に示す音声合成システムは、フィルタ特性制
御部50、スムージングフィルタ30及びフィルタ係数
決定部40を含む不連続歪み処理部を備えて構成されて
いる。
【0042】図2に示すように、フィルタ特性制御部5
0は、スムージングフィルタ30のフィルタ係数を制御
することにより、スムージングフィルタ30の特性を制
御する。具体的に、フィルタ特性制御部50は、合成さ
れた音声INの音素間の境界で発生する不連続度と学習
された文脈情報に基づき予測された不連続度とを比較
し、その比較の結果を係数選択信号Rとして前記フィル
タ係数決定部40に出力する。ここで、フィルタ特性制
御部50は、不連続測定部52、比較部54及び不連続
予測部56を含んで構成される。
【0043】不連続測定部52は、合成された音声IN
の音素間の境界で発生する実際の不連続度を求める。不
連続予測部56は、合成された音声INの合成に用いら
れる標本音素Conを利用して合成される音声の不連続
度を予測する。ここで、不連続予測部56は、分類と回
帰樹(CART:Classification an
d Regression Tree)により予測可能
であり、CARTは、事前の学習過程を通じて形成され
る。これについては、図3及び図4を参照しながら詳細
に説明する。
【0044】比較部54は、不連続測定部52からの実
際の不連続度と、不連続予測部56からの予測された不
連続度との間の割合を求め、その結果を係数選択信号R
として出力する。引き続いて、フィルタ係数決定部40
は、係数選択信号Rに応じてスムージングフィルタが前
記合成された音声INの音素間で実際の不連続性が予測
された不連続度に基づいてスムージングするように、ス
ムージングの度合いを示すフィルタ係数αを決定する。
【0045】スムージングフィルタ30は、フィルタ係
数決定部40で決定されたフィルタ係数に対応させて合
成された音声INの音素間の境界で発生する不連続性を
スムージングする。ここで、スムージングフィルタ30
の特性は、下記式(4)のように定義することができ
る。
【0046】
【数13】
【0047】前記式(4)中、W’n及びW’pは、各
々、スムージングフィルタ30によりスムージングされ
た波形を表わし、Wpは、不連続度を測定しようとする
音素の境界面を基準として、この音素の境界面より左側
に位置する音声ユニット(音素ユニット)における最初
のピッチ周期の音声波形であり、Wnは前記音素の境界
面より右側に位置する音声ユニット(音素ユニット)に
おける最後のピッチ周期の音声波形を表す。
【0048】前記式(4)より、フィルタ係数が1に近
くなるほどスムージングフィルタのスムージングの度合
いが弱く、0に近くなるほどスムージングの度合いが強
くなるということが理解される。
【0049】図3は、図2に示す不連続予測部56で、
CART方式により学習結果が形成される不連続予測ツ
リーを示す図面である。ここでは説明の便宜を図るため
に、図3では不連続の予測に用いられる変数として、音
素が有声音であるか否かを判断するもののみを例示した
が、実際により一層正確な予測を行うために、音素その
ものに関する情報や、音素の音律構成成分等、種々の音
素の特性を考慮することが望ましい。
【0050】図4は、図3に示すようなCARTの入力
される音素境界に隣接した4つの標本音素、及びCAR
Tの出力を各々示す図面である。ここでは、不連続の予
測に用いられる標本音素の数が、予測しようとする音素
境界を中心として隣接した4音素、すなわち、この音素
以前の2音素(p、pp)及びこの音素以後の2音素
(n、nn)となっている。一方、不連続の予測に用い
られるCARTの性能として相関値及び分散減少率が用
いられる。
【0051】ここで、前記相関値はCARTに関する研
究でほとんど標準化した性能尺度であり、0.75を上
回る値が得られたときにこのCARTを用いた予測装置
に妥当性が与えられると提示される場合がある。例え
ば、CART学習に総342、899個のデータ及び性
能評価のために総85、608個のテストデータ(総4
28、507個のデータ)サンプルを用い、不連続の予
測時に音素境界を中心として隣接した4音素を用いた場
合、相関値としては、学習データに対して0.757、
テストデータに対して0.733の値が得られる。
【0052】これら両方の値がともに0.75近傍で得
られる値であり、前記CARTを用いた不連続予測が有
用であるということが理解される。一方、隣接音素を2
つのみ用いた場合、相関値は学習データの場合に0.6
85、テストデータの場合に0.681であり、4音素
を用いた場合よりも性能が低下するということが理解さ
れる。また、音素境界を中心として6音素を用いた場合
には、相関値は学習データの場合に0.750、テスト
データを用いた場合に0.727となっている。その
結、前記CARTを用いて不連続性を予測するとき、前
記CARTへの入力に用いられる音素の数が4つである
ときに最高の性能が得られる。
【0053】また、図4(a)に示すように、音素境界
を中心として4つの標本音素pp、p、n、nnが図3
に示すCARTに入力されると、図4(b)に示すよう
に、境界面を基準として、この境界面より左側に位置す
る音声ユニット(音素ユニット)における最後のピッチ
周期の音声波形Wp、及び前記境界面より右側に位置す
る音声ユニット(音素ユニット)における最初のピッチ
周期の音声波形Wnの不連続予測値が出力される。この
ようにして、前記CARTから出力される音声波形Wp
及びWnを用いて不連続度を下記式(5)に基づいて予
測することができる。
【0054】
【数14】
【0055】前記式(5)中、Dpは予測された不連続
度を表し、Wpは図4(b)に示す境界面を基準とし
て、この境界面より左側に位置する音声ユニット(音素
ユニット)における最後のピッチ周期の音声波形を表
し、Wnは図4(b)に示す境界面より右側に位置する
音声ユニット(音素ユニット)における最初のピッチ周
期の音声波形を表す。
【0056】また、図3に示すように、前記CART
は、階層的な構造を有する質問によって予測値を決定す
るように設計される。各原案に記述された質問は、CA
RTの入力値に基づき決定される。そして、それ以上の
質問がないターミナルノード64、72、68、70で
予測値は決定される。まず、不連続度を予測しようとす
る音素境界を中心として直前の音素pが有声音であるか
否かを判断し(60)、有声音ではなければ、前記式
(5)により不連続度をAとして予測する(72)。一
方、音素pが有声音であれば、音素ppが有声音である
か否かを判断し(62)、有声音であれば、前記式
(5)により不連続度をBとして予測する。さらに、音
素ppが有声音ではなければ、音素nが有声音であるか
否かによって(66)不連続度をCまたはDとして予測
する(68、70)。
【0057】次に、図2〜図4に基づき、本発明に係る
音声合成システムの動作を詳細に説明する。まず、図2
を参照すると、フィルタ特性制御部50は、実際の不連
続性を測定する不連続測定部52を通して合成された音
声信号INの音素間の境界で発生する実際の不連続度D
rを求め、不連続予測部56を通じて合成された音声I
Nに用いられる標本音素Conを利用して不連続性を予
測し、このように予測された不連続度Dpを求める。そ
して、下記式(1)のように、予測された不連続度Dp
と実際の不連続度Drとの割合Rを求め、このように求
めた割合を係数選択信号Rとして出力する。
【0058】
【数15】
【0059】前記式(1)中、Dpは予測された不連続
度を表し、Drは実際の不連続度を表す。
【0060】ここで、不連続予測部56は、前述したよ
うに、前記CART方式によって実際に人間の音声を通
じて発生する文脈情報に基づき音素間の不連続予測が学
習されており、音声合成に用いられる標本音素Conが
入力されれば、学習された結果に基づく不連続度である
pを求める。したがって、このようにして予測された
不連続度Dpは、実際に人間が発音するときに発生する
不連続性を予測した結果であるといえる。
【0061】また、フィルタ係数決定部40は、係数選
択信号Rに応じて下記式(2)に基づいてフィルタ係数
を決定し、このように決定されたフィルタ係数αをスム
ージングフィルタ30に出力する。
【0062】
【数16】
【0063】前記式(2)中、Rは係数選択信号を表
し、αはフィルタ係数を表す。
【0064】前記式(2)を参照すると、Rが1より大
きければ、すなわち、実際の不連続度Drが予測された
不連続度Dpよりも小さければ、スムージングフィルタ
30でスムージングが弱く行われるようにフィルタ係数
αを小さくする(前記式(4)参照)。予測された不連
続度Dpが実際の不連続度Drよりも大きいということ
は、実際の発音上で不連続度が大きいものの、合成され
た音声では不連続度が低く現れた場合である。
【0065】すなわち、実際に発音された音声上の不連
続度が大きい場合には、前記スムージングフィルタ30
は、合成された音声INのスムージングの度合いを弱く
することにより、この合成された音声INが実際に発音
されたとき音声上の不連続度を維持するように制御す
る。
【0066】これに対して、Rが1より小さい、すなわ
ち、実際の不連続度Drが予測された不連続度Dpよりも
大きい場合には、スムージングフィルタ30で、フィル
タ係数を大きくして、スムージングの度合いを強めてス
ムージングを行うようにする(前記式(4)参照)。
【0067】また、予測された不連続度Dpが実際の不
連続度Drよりも小さい場合は、実際に発音された音声
上で不連続度が実際の不連続度Drよりも低く現れると
いうことに対応する。したがって、この場合には、スム
ージングの度合いを強くして合成された音声INが、実
際に発音された音声上の不連続度を維持するように制御
する。
【0068】そして、スムージングフィルタ30は、フ
ィルタ係数決定部40で決定されたフィルタ係数に基づ
き合成された音声INをスムージングする。以上説明し
たように、スムージングフィルタ30は、予測された不
連続度Dpと実際の不連続度Drとの割合に対応して適切
に変化するフィルタ係数により、合成された音声INの
不連続度が予測された不連続度Dpに追従するように合
成された音声INをスムージングする。すなわち、合成
された音声INの不連続性が実際の発音上で発生する不
連続に追従するようにスムージングされるので、合成さ
れた音声INが実際の音声に一層近くなる。
【0069】本発明はまた、コンピュータで読取り可能
な記録媒体に、コンピュータで読取り可能なコードを記
録した記録媒体として具現することが可能である。コン
ピュータで読取り可能な記録媒体としては、コンピュー
タシステムに読み込むことが可能なデータが記憶され得
るあらゆる種類の記録装置を含む。コンピュータで読取
り可能な記録媒体の例としては、ROM(read o
nly memory)、RAM(ramdom ac
cess memory)、CD−ROM(compa
ct disk−read only memor
y)、磁気テープ、フレキシブルディスク、光データ記
憶装置などが挙げられ、さらに、キャリアウェーブ(例
えば、インタネットを介して伝送)の形で具現されるも
のも含む。また、コンピュータで読取り可能な記録媒体
としては、ネットワークで結ばれたコンピュータシステ
ムに分散され、分散方式によりコンピュータで読取り可
能なコードが記録されて実行することができる。
【0070】以上、添付した図面及び明細書において、
本発明を、本発明に係る最適な実施形態を例として特定
の用語を用いて説明したが、これらの用語は単に本発明
を具体的に説明するために用いられたものであって、特
定の構成物に限定する、あるいは本発明の技術範囲を特
定の範囲に制限するために用いられたものではない。よ
って、当該技術分野に属する当業者であれば、これらの
記載事項に基づいて種々の変形、及び均等な他の実施形
態を具現することが可能な点は容易に理解されるであろ
う。よって、本発明の真の技術的な保護範囲は、特許請
求の範囲に記載された技術的思想によって定められるべ
きである。
【0071】
【発明の効果】以上、説明した通りに構成される本発明
によれば以下の効果を奏する。すなわち、本発明に係る
スムージングフィルタを用いた音声合成システム及びそ
の方法によれば、スムージングフィルタ30は予測され
た不連続度Dp及び実際の不連続度Drの割合に対応して
適切に変化するフィルタ係数により、合成された音声I
Nの不連続度が予測された不連続度Dpに追従するよう
に合成された音声INをスムージングする。すなわち、
合成された音声INの不連続性が実際の発音上で発生す
る不連続に追従するようにスムージングされるので、合
成された音声INが実際の音声に一層近くなる。
【図面の簡単な説明】
【図1】音声符号化器に適用される各種のスムージング
方法をそのまま音声合成に適用した場合の自然性及び明
瞭性の面における歪みに対する結果を示す図面である。
【図2】本発明に係るスムージングフィルタを用いた音
声合成システムの一実施の形態を概略的に示すブロック
図である。
【図3】図2に示す不連続予測部でCART方式により
学習結果が形成される不連続予測ツリーを示す図面であ
る。
【図4】図3に示すCART入力となる2音素間の境界
を中心に互いに隣接した4つの標本音素及び前記CAR
T入力の1境界部分に対するCARTの出力を各々示す
図面である。
【符号の説明】
30 スムージングフィルタ 40 フィルタ係数決定部 50 フィルタ特性制御部 52 不連続測定部 54 比較部 56 不連続予測部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 金 正 壽 大韓民国 京畿道 水原市 八達区 梅灘 4洞 810番地 三星2次アパート 3棟 1009号 (72)発明者 李 在 原 大韓民国 ソウル特別市 瑞草区 方背3 洞 1006−1番地 瑞草 ESA 3次ア パート 807号 Fターム(参考) 5D045 AA07

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 スムージングの技術を用いて合成された
    音声の音素間の不連続歪みを制御する音声合成システム
    であって、 前記音声合成に用いられる標本音素間の不連続性を所定
    の学習により予測し、このように予測された不連続度に
    対応させて前記合成された音声の音素間の不連続性が適
    切にスムージングされるように制御する不連続歪み処理
    部を含むことを特徴とするスムージングフィルタを用い
    た音声合成システム。
  2. 【請求項2】 前記所定の学習は、分類と回帰樹(CA
    RT)の方式により行われることを特徴とする請求項1
    に記載のスムージングフィルタを用いた音声合成システ
    ム。
  3. 【請求項3】 合成された音声の音素間の境界で発生す
    る不連続性をフィルタ係数に対応させてスムージングす
    るスムージングフィルタと、 前記合成された音声の音素間の境界で発生する実際の不
    連続度と、前記音声合成に用いられた文脈情報である標
    本音素を利用して前記所定の学習結果により予測された
    不連続度とを比較し、この比較の結果を係数選択信号R
    として出力するフィルタ特性制御部と、 前記スムージングフィルタが前記合成された音声の音素
    間の不連続歪みを前記のように予測された不連続度に応
    じてスムージングするように、前記係数選択信号Rに応
    じて前記フィルタ係数αを決定するフィルタ係数決定部
    と、を含むことを特徴とするスムージングフィルタを用
    いた音声合成システム。
  4. 【請求項4】 前記所定の学習は、CART方式により
    行われることを特徴とする請求項3に記載のスムージン
    グフィルタを用いた音声合成システム。
  5. 【請求項5】 前記不連続の予測に用いられる標本音素
    は、予測しようとする音素境界を中心として、これ以前
    の2音素及びこれ以後の2音素であることを特徴とする
    請求項4に記載のスムージングフィルタを用いた音声合
    成システム。
  6. 【請求項6】 前記係数選択信号Rは、下記式(1)に
    基づき求められることを特徴とする請求項3に記載のス
    ムージングフィルタを用いた音声合成システム。 【数1】 前記式(1)中、Dpは予測された不連続度を表し、Dr
    は実際の不連続度を表す。
  7. 【請求項7】 前記フィルタ係数決定部は、前記係数選
    択信号Rに応じて下記式(2)に基づき前記フィルタ係
    数を決定することを特徴とする請求項3に記載のスムー
    ジングフィルタを用いた音声合成システム。 【数2】 前記式(2)中、Rは係数選択信号を表し、αはフィル
    タ係数を表す。
  8. 【請求項8】 スムージングの技術を用いて合成された
    音声の音素間の不連続歪みを制御する音声合成方法であ
    って、 (a)前記合成された音声の音素間の境界で発生する実
    際の不連続度と、前記音声合成に用いられた標本音素を
    利用して所定の学習結果に基づき予測された不連続度と
    を比較する段階と、 (b)前記スムージングフィルタが前記合成された音声
    の音素間の不連続歪みを前記予測された不連続度に応じ
    てスムージングするように、前記(a)段階における比
    較結果に対応するフィルタ係数を決定する段階と、 (c)前記決定されたフィルタ係数に対応させて前記音
    声合成された音素簡の境界で発生する不連続性をスムー
    ジングする段階と、を含むことを特徴とするスムージン
    グフィルタを用いた音声合成方法。
  9. 【請求項9】 請求項8に記載のスムージングフィルタ
    を用いた音声合成方法がコンピュータで実行することが
    可能なプログラムコードとして記録された記録媒体。
  10. 【請求項10】 合成された音声の音素間の不連続歪み
    を制御する音声合成システムに用いられるスムージング
    フィルタの特性を音素境界の特性によって適切に変化さ
    せるスムージングフィルタ特性制御装置であって、 前記合成された音声信号の音素間の境界で発生する不連
    続度を実際の不連続度として求める不連続測定部と、 実際の発音上で発生する音素間の不連続性の学習結果を
    記憶し、前記音声信号の合成に用いられる標本音素が入
    力されると、この入力された前記標本音素間の境界に対
    する不連続性を学習結果に基づいて予測し、このように
    予測された不連続度として出力する不連続予測部と、 前記実際の不連続度と前記予測された不連続度とを比較
    し、この比較の結果を前記スムージングフィルタのフィ
    ルタ係数を決定する係数選択信号として出力する比較部
    と、を備えることを特徴とするスムージングフィルタ特
    性制御装置。
  11. 【請求項11】 前記不連続予測部における前記学習
    は、CART方式により行われることを特徴とする請求
    項10に記載のスムージングフィルタ特性制御装置。
  12. 【請求項12】 前記不連続の予測に用いられる標本音
    素は、予測しようとする音素境界を中心として以前の2
    音素及び以後の2音素であることを特徴とする請求項1
    1に記載のスムージングフィルタ特性制御装置。
  13. 【請求項13】 前記実際の不連続度Dr及び前記予測
    された不連続度Dpは、下記式(3)に基づき各々求め
    られることを特徴とする請求項12に記載のスムージン
    グフィルタ特性制御装置。 【数3】 前記式(3)中、Wpは合成された音声で不連続度を求
    めようとする音素境界面を基準として、この音素境界面
    より左側に位置する音素ユニットにおける最後のピッチ
    周期の音声波形を表し、Wnは前記音素境界面より右側
    に位置する音素ユニットにおける最初のピッチ周期の音
    声波形を表す。また、W’pは不連続度を予測しようと
    する音素境界面を基準として、この音素境界面より左側
    に位置する音素ユニットにおける最後のピッチ周期の音
    声波形を表し、W’nは前記音素境界面より右側に位置
    するユニットにおける最初のピッチ周期の音声波形を表
    す。
  14. 【請求項14】 前記比較部は、下記式(1)に基づき
    前記係数選択信号Rを求めることを特徴とする請求項1
    0に記載のスムージングフィルタ特性制御装置。 【数4】 前記式(4)中、Dpは予測された不連続度であり、Dr
    は実際の不連続度を表す。
  15. 【請求項15】 前記フィルタ係数は、前記係数選択信
    号Rに応じて下記式(2)に基づき決定されることを特
    徴とする請求項10に記載のスムージングフィルタ特性
    制御装置。 【数5】 前記式(2)中、Rは係数選択信号を表し、αはフィル
    タ係数を表す。
  16. 【請求項16】 合成された音声の音素間の不連続歪み
    を制御する音声合成システムに用いられるスムージング
    フィルタの特性を音素境界の特性によって適切に変化さ
    せるスムージングフィルタ特性制御方法であって、 (a)標本音素を用いて音素間の不連続予測を学習する
    段階と、 (b)前記合成された音声信号の音素間の境界で発生す
    る不連続度を実際の不連続度として求める段階と、 (c)前記音声信号の合成に用いられる標本音素間の境
    界に対する不連続性を前記学習結果により予測し、この
    ように予測された不連続度を求める段階と、 (d)前記実際の不連続度と前記予測された不連続度と
    に基づき前記スムージングフィルタのフィルタ係数を決
    定する段階と、を含むことを特徴とするスムージングフ
    ィルタ特性制御方法。
  17. 【請求項17】 前記(d)段階は、 (d1)前記予測された不連続度と前記実際の不連続度
    との割合Rを求める段階と、 (d2)下記式(2)に基づき前記フィルタ係数αを決
    定する段階と、を含むことを特徴とする請求項16に記
    載のスムージングフィルタ特性制御方法。 【数6】 前記式(2)中、Rは係数選択信号を表し、αはフィル
    タ係数を表す。
  18. 【請求項18】 請求項16に記載のスムージングフィ
    ルタ制御方法がコンピュータで実行することが可能なプ
    ログラムコードにて記録された記録媒体。
JP2002317332A 2001-10-31 2002-10-31 スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 Expired - Fee Related JP4202090B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2001-0067623A KR100438826B1 (ko) 2001-10-31 2001-10-31 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
KR2001-67623 2001-10-31

Publications (2)

Publication Number Publication Date
JP2003150187A true JP2003150187A (ja) 2003-05-23
JP4202090B2 JP4202090B2 (ja) 2008-12-24

Family

ID=19715573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002317332A Expired - Fee Related JP4202090B2 (ja) 2001-10-31 2002-10-31 スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法

Country Status (5)

Country Link
US (1) US7277856B2 (ja)
EP (1) EP1308928B1 (ja)
JP (1) JP4202090B2 (ja)
KR (1) KR100438826B1 (ja)
DE (1) DE60228381D1 (ja)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7643990B1 (en) * 2003-10-23 2010-01-05 Apple Inc. Global boundary-centric feature extraction and associated discontinuity metrics
US7409347B1 (en) * 2003-10-23 2008-08-05 Apple Inc. Data-driven global boundary optimization
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8380503B2 (en) * 2008-06-23 2013-02-19 John Nicholas and Kristin Gross Trust System and method for generating challenge items for CAPTCHAs
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9715873B2 (en) 2014-08-26 2017-07-25 Clearone, Inc. Method for adding realism to synthetic speech
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
EP3625791A4 (en) 2017-05-18 2021-03-03 Telepathy Labs, Inc. TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE
KR102072627B1 (ko) 2017-10-31 2020-02-03 에스케이텔레콤 주식회사 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
US11450307B2 (en) * 2018-03-28 2022-09-20 Telepathy Labs, Inc. Text-to-speech synthesis system and method

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5636325A (en) * 1992-11-13 1997-06-03 International Business Machines Corporation Speech synthesis and analysis of dialects
US6366883B1 (en) * 1996-05-15 2002-04-02 Atr Interpreting Telecommunications Concatenation of speech segments by use of a speech synthesizer
DE69840408D1 (de) * 1997-07-31 2009-02-12 Cisco Tech Inc Erzeugung von sprachnachrichten
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6665641B1 (en) * 1998-11-13 2003-12-16 Scansoft, Inc. Speech synthesis using concatenation of speech waveforms
US6978239B2 (en) * 2000-12-04 2005-12-20 Microsoft Corporation Method and apparatus for speech synthesis without prosody modification

Also Published As

Publication number Publication date
KR100438826B1 (ko) 2004-07-05
EP1308928A2 (en) 2003-05-07
EP1308928A3 (en) 2005-03-09
JP4202090B2 (ja) 2008-12-24
US20030083878A1 (en) 2003-05-01
DE60228381D1 (de) 2008-10-02
US7277856B2 (en) 2007-10-02
KR20030035522A (ko) 2003-05-09
EP1308928B1 (en) 2008-08-20

Similar Documents

Publication Publication Date Title
JP4202090B2 (ja) スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法
JP5238205B2 (ja) 音声合成システム、プログラム及び方法
JP2007249212A (ja) テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ
JP6561499B2 (ja) 音声合成装置および音声合成方法
CN105718503B (zh) 声音检索装置以及声音检索方法
JP2020507819A (ja) スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
KR20210035042A (ko) 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치
KR102626618B1 (ko) 감정 추정 기반의 감정 음성 합성 방법 및 시스템
US6219636B1 (en) Audio pitch coding method, apparatus, and program storage device calculating voicing and pitch of subframes of a frame
JP6400526B2 (ja) 音声合成装置、その方法、およびプログラム
Al-Radhi et al. A continuous vocoder using sinusoidal model for statistical parametric speech synthesis
EP1589524B1 (en) Method and device for speech synthesis
US20050171777A1 (en) Generation of synthetic speech
JP2008116826A (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
KR100624440B1 (ko) 음소별 코드북 매핑에 의한 음색변환방법
JP3881970B2 (ja) 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置
EP1640968A1 (en) Method and device for speech synthesis
JP2809769B2 (ja) 音声合成装置
Jayasinghe Machine Singing Generation Through Deep Learning
CN117711375A (zh) 语音生成方法、装置、计算机设备和存储介质
CN116189653A (zh) 跨语句条件相干的语音编辑方法、系统及终端
JP2009237015A (ja) 音声素片接続装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050209

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061107

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20061113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070618

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080916

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081008

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111017

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121017

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131017

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees