JP2003150187A - スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 - Google Patents
スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法Info
- Publication number
- JP2003150187A JP2003150187A JP2002317332A JP2002317332A JP2003150187A JP 2003150187 A JP2003150187 A JP 2003150187A JP 2002317332 A JP2002317332 A JP 2002317332A JP 2002317332 A JP2002317332 A JP 2002317332A JP 2003150187 A JP2003150187 A JP 2003150187A
- Authority
- JP
- Japan
- Prior art keywords
- discontinuity
- speech
- phonemes
- smoothing filter
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009499 grossing Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 45
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000001308 synthesis method Methods 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002844 continuous effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
テム及びその方法を提供する。 【解決手段】 合成に用いられる標本音素間の不連続性
を学習により予測し、このように予測された不連続度に
対応して音声合成された音素間の不連続性が、適切にス
ムージングされるように制御する不連続歪み処理部を含
むスムージング技術を用いて合成された音声の音素間の
不連続歪みを制御する音声合成システムとする。スムー
ジングフィルタ30は、不連続性予測部56で予測され
た不連続度と不連続性測定部52で測定された実際の不
連続度との割合に応じて適切に変化するフィルタ係数α
がフィルタ係数決定部40でされ、このフィルタ係数α
により合成された音声の不連続度が不連続性予測部56
で予測された不連続度に追従するようにスムージングす
るように構成する。
Description
ステムに係り、特に、合成された音声の音声ユニットの
転移部にスムージングの技術を適用して不連続歪みを防
止する音声合成システム及びその方法に関する。
(Text−To−Speech:TTS)システムと
は、ユーザが任意に入力した文章を、コンピュータ等を
用いて自動的に音声を生成して聴取者に聞かせる一種の
音声合成システムをいう。この種のTTSシステムは自
動案内システム等の応用分野で汎用されており、人間と
機器との対話を具現するためのキーテクノロジーの1つ
である。この種のTTSシステムは、1990年代に大
容量データベースに基づくコーパス基盤のTTSシステ
ムが紹介されて以来、人間の音声に一段と近い合成音を
生成するに至った。また、データ−ドリブン(data
−driven)技術の適用された韻律を予測する技術
の性能が向上され一層臨場感のある音声が得られるよう
になった。
な発展にも拘わらず、音声合成装置には解決すべき数々
の問題点が内包されている。その問題点とは、合成され
た音声の音声ユニットの転移部で発生する音の不連続性
である。音声合成装置は、基本的に音声ユニットの単位
に分割された各々の音声信号を音素列により連結させて
連続音を生成するものである。したがって、互いに隣り
合った各々の音声が相異なる特性を有している場合、聴
取上、歪みを来す恐れがある。このような聴取上の歪み
は、スペクトルの急激な変動及び不連続性や、不自然に
変動する音素の韻律、あるいは波形の変動による揺れと
いった形態で出現する。
不連続性を除去するために、主として2種類の方法が用
いられている。1つの方法は、音声ユニットの選択時に
予め連結される音声ユニット間の違いを測定し、この違
いを最小化させるように音声ユニットを選択することで
ある。もう1つの方法は、合成された音声に対して連結
される音声ユニットの転移部にスムージングの技術を適
用することである。
究がなされてきており、最近では回帰特性を反映する不
連続歪みを最小化する技術等が開発され、TTSシステ
ムに実機で適用されている。これに対し、後者の方法に
ついては前者の方法に比べると研究例が少ない。その理
由としては、スムージングの技術が、信号処理技術に基
づく音声合成よりも音声の符号化技術により重要な要素
技術であると認識されている点、及びスムージングの技
術そのものが音声信号に歪みを来す恐れがあるという点
が挙げられる。
スムージング方法では、一般に、音声符号化に用いられ
る方法がそのまま適用されている。図1は、音声符号化
に適用される各種のスムージング方法を、そのまま音声
合成に適用した場合の自然性の歪み、及び明瞭性の歪み
に対する結果が示す表である。ここで適用されたスムー
ジングの技術は、WIに基づく技術、LP−ポール技術
及び連続効果である。図1に示すように、各種のスムー
ジングの技術を適用した場合よりもスムージングを適用
しなかった場合に、自然性の歪み及び明瞭性の歪みがむ
しろ小さくなっており、音質的に優れている。この結
果、音声合成にスムージングの技術を適用した場合より
も、この技術を適用しない場合の方がより音質の面で効
果的であるため、音声符号化器に適用されるスムージン
グの技術をそのまま音声合成に適用することは好ましく
ないことが理解される(例えば、非特許文献1参照)。
量子化エラー等により発生するものであり、前記スムー
ジングの技術においてもこのような量子化エラー等の不
具合を最小化させるために用いられる技術である。しか
し、音声合成装置においては録音された音声信号そのも
のを用いるため、音声符号化器には量子化エラーが存在
せず、したがってこの場合の歪みは、誤った音声ユニッ
トの選択や音声ユニット間のスペクトルの急激な変動、
あるいは音声ユニットの不連続性に起因するものであ
る。すなわち、前記音声符号化器と音声合成装置とは、
歪みを引き起こす原因が相異なるために、音声符号化器
に適用されるスムージングの技術を音声合成装置に対し
て同じように適用しても、同様の効果が得られない。
eech and Audio、 JAN/2000
pp.39−40
鑑みてなされたものであり、その第1の目的は、スムー
ジングフィルタの係数を適切に変化させて不連続歪みを
減らす音声合成システム及びその方法を提供することに
ある。
成方法がコンピュータにて実行可能なプログラムコード
として記録された記録媒体を提供することにある。
システムでスムージングフィルタの係数を制御してその
特性を制御するスムージングフィルタ特性制御装置及び
その方法を提供することにある。
ージングフィルタ特性制御方法がコンピュータにて実行
可能なプログラムコードとして記録された記録媒体を提
供することにある。
達成するために、本発明に係るスムージングフィルタを
用いた音声合成システムは、スムージングの技術を用い
て合成された音声の音素間の不連続歪みを制御する音声
合成システムであって、前記音声合成に用いられる標本
音素間の不連続性を所定の学習により予測し、このよう
に予測された不連続度に対応させて前記合成された音声
の音素間の不連続性が適切にスムージングされるように
制御する不連続歪み処理部を含んで構成される。
帰樹(CART)の方式により行うことができる。
用いた音声合成システムは、合成された音声の音素間の
境界で発生する不連続性をフィルタ係数に対応させてス
ムージングするスムージングフィルタと、前記合成され
た音声の音素間の境界で発生する実際の不連続度と、前
記音声合成に用いられた文脈情報である標本音素を利用
して前記所定の学習結果により予測された不連続度とを
比較し、この比較の結果を係数選択信号Rとして出力す
るフィルタ特性制御部と、前記スムージングフィルタが
前記合成された音声の音素間の不連続歪みを前記のよう
に予測された不連続度に応じてスムージングするよう
に、前記係数選択信号Rに応じて前記フィルタ係数αを
決定するフィルタ係数決定部とを含んで構成することが
できる。
T方式により行うことができる。 (5)そして、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として、これ以前
の2音素及びこれ以後の2音素であるように構成するこ
とができる。
式(1)に基づいて求めることができる。
度を表し、Drは実際の不連続度を表す。
前記係数選択信号Rに応じて下記式(2)に基づき前記
フィルタ係数を決定することができる。
し、αはフィルタ係数を表す。
めの本発明に係るスムージングフィルタを用いた音声合
成方法は、スムージングの技術を用いて合成された音声
の音素間の不連続歪みを制御する音声合成方法におい
て、(a)前記合成された音声の音素間の境界で発生す
る実際の不連続度と、前記音声合成に用いられた標本音
素を利用して所定の学習結果に基づき予測された不連続
度とを比較する段階と、(b)前記スムージングフィル
タが前記合成された音声の音素間の不連続歪みを前記予
測された不連続度に応じてスムージングするように、前
記(a)段階における比較結果に対応するフィルタ係数
を決定する段階と、(c)前記決定されたフィルタ係数
に対応させて前記音声合成された音素簡の境界で発生す
る不連続性をスムージングする段階とを含んで構成され
る。
ための本発明に係る記録媒体は、前記スムージングフィ
ルタを用いた音声合成方法がコンピュータで実行するこ
とが可能なプログラムコードとして記録された記録媒体
として構成される。
本発明に係るスムージングフィルタ特性制御装置は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御装置であって、前記合成された音声信号
の音素間の境界で発生する不連続度を実際の不連続度と
して求める不連続測定部と、実際の発音上で発生する音
素間の不連続性の学習結果を記憶し、前記音声信号の合
成に用いられる標本音素が入力されると、この入力され
た前記標本音素間の境界に対する不連続性を学習結果に
基づいて予測し、このように予測された不連続度として
出力する不連続予測部と、前記実際の不連続度と前記予
測された不連続度とを比較し、この比較の結果を前記ス
ムージングフィルタのフィルタ係数を決定する係数選択
信号として出力する比較部とを備えて構成される。
前記学習は、CART方式により行うことが可能であ
る。 (12)また、前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として以前の2音
素及び以後の2音素であるように構成することができ
る。
及び前記予測された不連続度Dpは、下記式(3)に基
づき各々求めることができる。
不連続度を求めようとする音素境界面を基準として、こ
の音素境界面より左側に位置する音素ユニットにおける
最後のピッチ周期の音声波形を表し、Wnは前記音素境
界面より右側に位置する音素ユニットにおける最初のピ
ッチ周期の音声波形を表す。また、W’pは不連続度を
予測しようとする音素境界面を基準として、この音素境
界面より左側に位置する音素ユニットにおける最後のピ
ッチ周期の音声波形を表し、W’nは前記音素境界面よ
り右側に位置する音素ユニットにおける最初のピッチ周
期の音声波形を表す。
式(1)に基づき前記係数選択信号Rを求めることがで
きる。
度であり、Drは実際の不連続度を表す。
記係数選択信号Rに応じて下記式(2)に基づき決定す
ることができる。
し、αはフィルタ係数を表す。
本発明に係るスムージングフィルタ特性制御方法は、合
成された音声の音素間の不連続歪みを制御する音声合成
システムに用いられるスムージングフィルタの特性を音
素境界の特性によって適切に変化させるスムージングフ
ィルタ特性制御方法であって、(a)標本音素を用いて
音素間の不連続予測を学習する段階と、(b)前記合成
された音声信号の音素間の境界で発生する不連続度を実
際の不連続度として求める段階と、(c)前記音声信号
の合成に用いられる標本音素間の境界に対する不連続性
を前記学習結果により予測し、このように予測された不
連続度を求める段階と、(d)前記実際の不連続度と前
記予測された不連続度とに基づき前記スムージングフィ
ルタのフィルタ係数を決定する段階とを含んで構成され
る。
1)前記予測された不連続度と前記実際の不連続度との
割合Rを求める段階と、(d2)下記式(2)に基づき
前記フィルタ係数αを決定する段階とを含んで構成する
ことができる。
し、αはフィルタ係数を表す。
るための本発明に係る記録媒体は、前記スムージングフ
ィルタ制御方法がコンピュータで実行することが可能な
プログラムコードにて記録された記録媒体として構成さ
れる。
本発明に係るスムージングフィルタを利用した音声合成
システム及びその方法について詳細に説明する。図2
は、本発明に係るスムージングフィルタを用いた音声合
成システムの一実施の形態を模式的に示すブロック図で
ある。図2に示す音声合成システムは、フィルタ特性制
御部50、スムージングフィルタ30及びフィルタ係数
決定部40を含む不連続歪み処理部を備えて構成されて
いる。
0は、スムージングフィルタ30のフィルタ係数を制御
することにより、スムージングフィルタ30の特性を制
御する。具体的に、フィルタ特性制御部50は、合成さ
れた音声INの音素間の境界で発生する不連続度と学習
された文脈情報に基づき予測された不連続度とを比較
し、その比較の結果を係数選択信号Rとして前記フィル
タ係数決定部40に出力する。ここで、フィルタ特性制
御部50は、不連続測定部52、比較部54及び不連続
予測部56を含んで構成される。
の音素間の境界で発生する実際の不連続度を求める。不
連続予測部56は、合成された音声INの合成に用いら
れる標本音素Conを利用して合成される音声の不連続
度を予測する。ここで、不連続予測部56は、分類と回
帰樹(CART:Classification an
d Regression Tree)により予測可能
であり、CARTは、事前の学習過程を通じて形成され
る。これについては、図3及び図4を参照しながら詳細
に説明する。
際の不連続度と、不連続予測部56からの予測された不
連続度との間の割合を求め、その結果を係数選択信号R
として出力する。引き続いて、フィルタ係数決定部40
は、係数選択信号Rに応じてスムージングフィルタが前
記合成された音声INの音素間で実際の不連続性が予測
された不連続度に基づいてスムージングするように、ス
ムージングの度合いを示すフィルタ係数αを決定する。
数決定部40で決定されたフィルタ係数に対応させて合
成された音声INの音素間の境界で発生する不連続性を
スムージングする。ここで、スムージングフィルタ30
の特性は、下記式(4)のように定義することができ
る。
々、スムージングフィルタ30によりスムージングされ
た波形を表わし、Wpは、不連続度を測定しようとする
音素の境界面を基準として、この音素の境界面より左側
に位置する音声ユニット(音素ユニット)における最初
のピッチ周期の音声波形であり、Wnは前記音素の境界
面より右側に位置する音声ユニット(音素ユニット)に
おける最後のピッチ周期の音声波形を表す。
くなるほどスムージングフィルタのスムージングの度合
いが弱く、0に近くなるほどスムージングの度合いが強
くなるということが理解される。
CART方式により学習結果が形成される不連続予測ツ
リーを示す図面である。ここでは説明の便宜を図るため
に、図3では不連続の予測に用いられる変数として、音
素が有声音であるか否かを判断するもののみを例示した
が、実際により一層正確な予測を行うために、音素その
ものに関する情報や、音素の音律構成成分等、種々の音
素の特性を考慮することが望ましい。
される音素境界に隣接した4つの標本音素、及びCAR
Tの出力を各々示す図面である。ここでは、不連続の予
測に用いられる標本音素の数が、予測しようとする音素
境界を中心として隣接した4音素、すなわち、この音素
以前の2音素(p、pp)及びこの音素以後の2音素
(n、nn)となっている。一方、不連続の予測に用い
られるCARTの性能として相関値及び分散減少率が用
いられる。
究でほとんど標準化した性能尺度であり、0.75を上
回る値が得られたときにこのCARTを用いた予測装置
に妥当性が与えられると提示される場合がある。例え
ば、CART学習に総342、899個のデータ及び性
能評価のために総85、608個のテストデータ(総4
28、507個のデータ)サンプルを用い、不連続の予
測時に音素境界を中心として隣接した4音素を用いた場
合、相関値としては、学習データに対して0.757、
テストデータに対して0.733の値が得られる。
られる値であり、前記CARTを用いた不連続予測が有
用であるということが理解される。一方、隣接音素を2
つのみ用いた場合、相関値は学習データの場合に0.6
85、テストデータの場合に0.681であり、4音素
を用いた場合よりも性能が低下するということが理解さ
れる。また、音素境界を中心として6音素を用いた場合
には、相関値は学習データの場合に0.750、テスト
データを用いた場合に0.727となっている。その
結、前記CARTを用いて不連続性を予測するとき、前
記CARTへの入力に用いられる音素の数が4つである
ときに最高の性能が得られる。
を中心として4つの標本音素pp、p、n、nnが図3
に示すCARTに入力されると、図4(b)に示すよう
に、境界面を基準として、この境界面より左側に位置す
る音声ユニット(音素ユニット)における最後のピッチ
周期の音声波形Wp、及び前記境界面より右側に位置す
る音声ユニット(音素ユニット)における最初のピッチ
周期の音声波形Wnの不連続予測値が出力される。この
ようにして、前記CARTから出力される音声波形Wp
及びWnを用いて不連続度を下記式(5)に基づいて予
測することができる。
度を表し、Wpは図4(b)に示す境界面を基準とし
て、この境界面より左側に位置する音声ユニット(音素
ユニット)における最後のピッチ周期の音声波形を表
し、Wnは図4(b)に示す境界面より右側に位置する
音声ユニット(音素ユニット)における最初のピッチ周
期の音声波形を表す。
は、階層的な構造を有する質問によって予測値を決定す
るように設計される。各原案に記述された質問は、CA
RTの入力値に基づき決定される。そして、それ以上の
質問がないターミナルノード64、72、68、70で
予測値は決定される。まず、不連続度を予測しようとす
る音素境界を中心として直前の音素pが有声音であるか
否かを判断し(60)、有声音ではなければ、前記式
(5)により不連続度をAとして予測する(72)。一
方、音素pが有声音であれば、音素ppが有声音である
か否かを判断し(62)、有声音であれば、前記式
(5)により不連続度をBとして予測する。さらに、音
素ppが有声音ではなければ、音素nが有声音であるか
否かによって(66)不連続度をCまたはDとして予測
する(68、70)。
音声合成システムの動作を詳細に説明する。まず、図2
を参照すると、フィルタ特性制御部50は、実際の不連
続性を測定する不連続測定部52を通して合成された音
声信号INの音素間の境界で発生する実際の不連続度D
rを求め、不連続予測部56を通じて合成された音声I
Nに用いられる標本音素Conを利用して不連続性を予
測し、このように予測された不連続度Dpを求める。そ
して、下記式(1)のように、予測された不連続度Dp
と実際の不連続度Drとの割合Rを求め、このように求
めた割合を係数選択信号Rとして出力する。
度を表し、Drは実際の不連続度を表す。
うに、前記CART方式によって実際に人間の音声を通
じて発生する文脈情報に基づき音素間の不連続予測が学
習されており、音声合成に用いられる標本音素Conが
入力されれば、学習された結果に基づく不連続度である
Dpを求める。したがって、このようにして予測された
不連続度Dpは、実際に人間が発音するときに発生する
不連続性を予測した結果であるといえる。
択信号Rに応じて下記式(2)に基づいてフィルタ係数
を決定し、このように決定されたフィルタ係数αをスム
ージングフィルタ30に出力する。
し、αはフィルタ係数を表す。
きければ、すなわち、実際の不連続度Drが予測された
不連続度Dpよりも小さければ、スムージングフィルタ
30でスムージングが弱く行われるようにフィルタ係数
αを小さくする(前記式(4)参照)。予測された不連
続度Dpが実際の不連続度Drよりも大きいということ
は、実際の発音上で不連続度が大きいものの、合成され
た音声では不連続度が低く現れた場合である。
続度が大きい場合には、前記スムージングフィルタ30
は、合成された音声INのスムージングの度合いを弱く
することにより、この合成された音声INが実際に発音
されたとき音声上の不連続度を維持するように制御す
る。
ち、実際の不連続度Drが予測された不連続度Dpよりも
大きい場合には、スムージングフィルタ30で、フィル
タ係数を大きくして、スムージングの度合いを強めてス
ムージングを行うようにする(前記式(4)参照)。
連続度Drよりも小さい場合は、実際に発音された音声
上で不連続度が実際の不連続度Drよりも低く現れると
いうことに対応する。したがって、この場合には、スム
ージングの度合いを強くして合成された音声INが、実
際に発音された音声上の不連続度を維持するように制御
する。
ィルタ係数決定部40で決定されたフィルタ係数に基づ
き合成された音声INをスムージングする。以上説明し
たように、スムージングフィルタ30は、予測された不
連続度Dpと実際の不連続度Drとの割合に対応して適切
に変化するフィルタ係数により、合成された音声INの
不連続度が予測された不連続度Dpに追従するように合
成された音声INをスムージングする。すなわち、合成
された音声INの不連続性が実際の発音上で発生する不
連続に追従するようにスムージングされるので、合成さ
れた音声INが実際の音声に一層近くなる。
な記録媒体に、コンピュータで読取り可能なコードを記
録した記録媒体として具現することが可能である。コン
ピュータで読取り可能な記録媒体としては、コンピュー
タシステムに読み込むことが可能なデータが記憶され得
るあらゆる種類の記録装置を含む。コンピュータで読取
り可能な記録媒体の例としては、ROM(read o
nly memory)、RAM(ramdom ac
cess memory)、CD−ROM(compa
ct disk−read only memor
y)、磁気テープ、フレキシブルディスク、光データ記
憶装置などが挙げられ、さらに、キャリアウェーブ(例
えば、インタネットを介して伝送)の形で具現されるも
のも含む。また、コンピュータで読取り可能な記録媒体
としては、ネットワークで結ばれたコンピュータシステ
ムに分散され、分散方式によりコンピュータで読取り可
能なコードが記録されて実行することができる。
本発明を、本発明に係る最適な実施形態を例として特定
の用語を用いて説明したが、これらの用語は単に本発明
を具体的に説明するために用いられたものであって、特
定の構成物に限定する、あるいは本発明の技術範囲を特
定の範囲に制限するために用いられたものではない。よ
って、当該技術分野に属する当業者であれば、これらの
記載事項に基づいて種々の変形、及び均等な他の実施形
態を具現することが可能な点は容易に理解されるであろ
う。よって、本発明の真の技術的な保護範囲は、特許請
求の範囲に記載された技術的思想によって定められるべ
きである。
によれば以下の効果を奏する。すなわち、本発明に係る
スムージングフィルタを用いた音声合成システム及びそ
の方法によれば、スムージングフィルタ30は予測され
た不連続度Dp及び実際の不連続度Drの割合に対応して
適切に変化するフィルタ係数により、合成された音声I
Nの不連続度が予測された不連続度Dpに追従するよう
に合成された音声INをスムージングする。すなわち、
合成された音声INの不連続性が実際の発音上で発生す
る不連続に追従するようにスムージングされるので、合
成された音声INが実際の音声に一層近くなる。
方法をそのまま音声合成に適用した場合の自然性及び明
瞭性の面における歪みに対する結果を示す図面である。
声合成システムの一実施の形態を概略的に示すブロック
図である。
学習結果が形成される不連続予測ツリーを示す図面であ
る。
を中心に互いに隣接した4つの標本音素及び前記CAR
T入力の1境界部分に対するCARTの出力を各々示す
図面である。
Claims (18)
- 【請求項1】 スムージングの技術を用いて合成された
音声の音素間の不連続歪みを制御する音声合成システム
であって、 前記音声合成に用いられる標本音素間の不連続性を所定
の学習により予測し、このように予測された不連続度に
対応させて前記合成された音声の音素間の不連続性が適
切にスムージングされるように制御する不連続歪み処理
部を含むことを特徴とするスムージングフィルタを用い
た音声合成システム。 - 【請求項2】 前記所定の学習は、分類と回帰樹(CA
RT)の方式により行われることを特徴とする請求項1
に記載のスムージングフィルタを用いた音声合成システ
ム。 - 【請求項3】 合成された音声の音素間の境界で発生す
る不連続性をフィルタ係数に対応させてスムージングす
るスムージングフィルタと、 前記合成された音声の音素間の境界で発生する実際の不
連続度と、前記音声合成に用いられた文脈情報である標
本音素を利用して前記所定の学習結果により予測された
不連続度とを比較し、この比較の結果を係数選択信号R
として出力するフィルタ特性制御部と、 前記スムージングフィルタが前記合成された音声の音素
間の不連続歪みを前記のように予測された不連続度に応
じてスムージングするように、前記係数選択信号Rに応
じて前記フィルタ係数αを決定するフィルタ係数決定部
と、を含むことを特徴とするスムージングフィルタを用
いた音声合成システム。 - 【請求項4】 前記所定の学習は、CART方式により
行われることを特徴とする請求項3に記載のスムージン
グフィルタを用いた音声合成システム。 - 【請求項5】 前記不連続の予測に用いられる標本音素
は、予測しようとする音素境界を中心として、これ以前
の2音素及びこれ以後の2音素であることを特徴とする
請求項4に記載のスムージングフィルタを用いた音声合
成システム。 - 【請求項6】 前記係数選択信号Rは、下記式(1)に
基づき求められることを特徴とする請求項3に記載のス
ムージングフィルタを用いた音声合成システム。 【数1】 前記式(1)中、Dpは予測された不連続度を表し、Dr
は実際の不連続度を表す。 - 【請求項7】 前記フィルタ係数決定部は、前記係数選
択信号Rに応じて下記式(2)に基づき前記フィルタ係
数を決定することを特徴とする請求項3に記載のスムー
ジングフィルタを用いた音声合成システム。 【数2】 前記式(2)中、Rは係数選択信号を表し、αはフィル
タ係数を表す。 - 【請求項8】 スムージングの技術を用いて合成された
音声の音素間の不連続歪みを制御する音声合成方法であ
って、 (a)前記合成された音声の音素間の境界で発生する実
際の不連続度と、前記音声合成に用いられた標本音素を
利用して所定の学習結果に基づき予測された不連続度と
を比較する段階と、 (b)前記スムージングフィルタが前記合成された音声
の音素間の不連続歪みを前記予測された不連続度に応じ
てスムージングするように、前記(a)段階における比
較結果に対応するフィルタ係数を決定する段階と、 (c)前記決定されたフィルタ係数に対応させて前記音
声合成された音素簡の境界で発生する不連続性をスムー
ジングする段階と、を含むことを特徴とするスムージン
グフィルタを用いた音声合成方法。 - 【請求項9】 請求項8に記載のスムージングフィルタ
を用いた音声合成方法がコンピュータで実行することが
可能なプログラムコードとして記録された記録媒体。 - 【請求項10】 合成された音声の音素間の不連続歪み
を制御する音声合成システムに用いられるスムージング
フィルタの特性を音素境界の特性によって適切に変化さ
せるスムージングフィルタ特性制御装置であって、 前記合成された音声信号の音素間の境界で発生する不連
続度を実際の不連続度として求める不連続測定部と、 実際の発音上で発生する音素間の不連続性の学習結果を
記憶し、前記音声信号の合成に用いられる標本音素が入
力されると、この入力された前記標本音素間の境界に対
する不連続性を学習結果に基づいて予測し、このように
予測された不連続度として出力する不連続予測部と、 前記実際の不連続度と前記予測された不連続度とを比較
し、この比較の結果を前記スムージングフィルタのフィ
ルタ係数を決定する係数選択信号として出力する比較部
と、を備えることを特徴とするスムージングフィルタ特
性制御装置。 - 【請求項11】 前記不連続予測部における前記学習
は、CART方式により行われることを特徴とする請求
項10に記載のスムージングフィルタ特性制御装置。 - 【請求項12】 前記不連続の予測に用いられる標本音
素は、予測しようとする音素境界を中心として以前の2
音素及び以後の2音素であることを特徴とする請求項1
1に記載のスムージングフィルタ特性制御装置。 - 【請求項13】 前記実際の不連続度Dr及び前記予測
された不連続度Dpは、下記式(3)に基づき各々求め
られることを特徴とする請求項12に記載のスムージン
グフィルタ特性制御装置。 【数3】 前記式(3)中、Wpは合成された音声で不連続度を求
めようとする音素境界面を基準として、この音素境界面
より左側に位置する音素ユニットにおける最後のピッチ
周期の音声波形を表し、Wnは前記音素境界面より右側
に位置する音素ユニットにおける最初のピッチ周期の音
声波形を表す。また、W’pは不連続度を予測しようと
する音素境界面を基準として、この音素境界面より左側
に位置する音素ユニットにおける最後のピッチ周期の音
声波形を表し、W’nは前記音素境界面より右側に位置
するユニットにおける最初のピッチ周期の音声波形を表
す。 - 【請求項14】 前記比較部は、下記式(1)に基づき
前記係数選択信号Rを求めることを特徴とする請求項1
0に記載のスムージングフィルタ特性制御装置。 【数4】 前記式(4)中、Dpは予測された不連続度であり、Dr
は実際の不連続度を表す。 - 【請求項15】 前記フィルタ係数は、前記係数選択信
号Rに応じて下記式(2)に基づき決定されることを特
徴とする請求項10に記載のスムージングフィルタ特性
制御装置。 【数5】 前記式(2)中、Rは係数選択信号を表し、αはフィル
タ係数を表す。 - 【請求項16】 合成された音声の音素間の不連続歪み
を制御する音声合成システムに用いられるスムージング
フィルタの特性を音素境界の特性によって適切に変化さ
せるスムージングフィルタ特性制御方法であって、 (a)標本音素を用いて音素間の不連続予測を学習する
段階と、 (b)前記合成された音声信号の音素間の境界で発生す
る不連続度を実際の不連続度として求める段階と、 (c)前記音声信号の合成に用いられる標本音素間の境
界に対する不連続性を前記学習結果により予測し、この
ように予測された不連続度を求める段階と、 (d)前記実際の不連続度と前記予測された不連続度と
に基づき前記スムージングフィルタのフィルタ係数を決
定する段階と、を含むことを特徴とするスムージングフ
ィルタ特性制御方法。 - 【請求項17】 前記(d)段階は、 (d1)前記予測された不連続度と前記実際の不連続度
との割合Rを求める段階と、 (d2)下記式(2)に基づき前記フィルタ係数αを決
定する段階と、を含むことを特徴とする請求項16に記
載のスムージングフィルタ特性制御方法。 【数6】 前記式(2)中、Rは係数選択信号を表し、αはフィル
タ係数を表す。 - 【請求項18】 請求項16に記載のスムージングフィ
ルタ制御方法がコンピュータで実行することが可能なプ
ログラムコードにて記録された記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2001-0067623A KR100438826B1 (ko) | 2001-10-31 | 2001-10-31 | 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법 |
KR2001-67623 | 2001-10-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003150187A true JP2003150187A (ja) | 2003-05-23 |
JP4202090B2 JP4202090B2 (ja) | 2008-12-24 |
Family
ID=19715573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002317332A Expired - Fee Related JP4202090B2 (ja) | 2001-10-31 | 2002-10-31 | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7277856B2 (ja) |
EP (1) | EP1308928B1 (ja) |
JP (1) | JP4202090B2 (ja) |
KR (1) | KR100438826B1 (ja) |
DE (1) | DE60228381D1 (ja) |
Families Citing this family (122)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8380503B2 (en) * | 2008-06-23 | 2013-02-19 | John Nicholas and Kristin Gross Trust | System and method for generating challenge items for CAPTCHAs |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
WO2015020942A1 (en) | 2013-08-06 | 2015-02-12 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9715873B2 (en) | 2014-08-26 | 2017-07-25 | Clearone, Inc. | Method for adding realism to synthetic speech |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
EP3625791A4 (en) | 2017-05-18 | 2021-03-03 | Telepathy Labs, Inc. | TEXT-SPEECH SYSTEM AND PROCESS BASED ON ARTIFICIAL INTELLIGENCE |
KR102072627B1 (ko) | 2017-10-31 | 2020-02-03 | 에스케이텔레콤 주식회사 | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 |
US11450307B2 (en) * | 2018-03-28 | 2022-09-20 | Telepathy Labs, Inc. | Text-to-speech synthesis system and method |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5636325A (en) * | 1992-11-13 | 1997-06-03 | International Business Machines Corporation | Speech synthesis and analysis of dialects |
US6366883B1 (en) * | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
DE69840408D1 (de) * | 1997-07-31 | 2009-02-12 | Cisco Tech Inc | Erzeugung von sprachnachrichten |
US6304846B1 (en) * | 1997-10-22 | 2001-10-16 | Texas Instruments Incorporated | Singing voice synthesis |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6665641B1 (en) * | 1998-11-13 | 2003-12-16 | Scansoft, Inc. | Speech synthesis using concatenation of speech waveforms |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
-
2001
- 2001-10-31 KR KR10-2001-0067623A patent/KR100438826B1/ko not_active IP Right Cessation
-
2002
- 2002-10-28 DE DE60228381T patent/DE60228381D1/de not_active Expired - Fee Related
- 2002-10-28 EP EP02257456A patent/EP1308928B1/en not_active Expired - Fee Related
- 2002-10-31 JP JP2002317332A patent/JP4202090B2/ja not_active Expired - Fee Related
- 2002-10-31 US US10/284,189 patent/US7277856B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
KR100438826B1 (ko) | 2004-07-05 |
EP1308928A2 (en) | 2003-05-07 |
EP1308928A3 (en) | 2005-03-09 |
JP4202090B2 (ja) | 2008-12-24 |
US20030083878A1 (en) | 2003-05-01 |
DE60228381D1 (de) | 2008-10-02 |
US7277856B2 (en) | 2007-10-02 |
KR20030035522A (ko) | 2003-05-09 |
EP1308928B1 (en) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4202090B2 (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
JP5238205B2 (ja) | 音声合成システム、プログラム及び方法 | |
JP2007249212A (ja) | テキスト音声合成のための方法、コンピュータプログラム及びプロセッサ | |
JP6561499B2 (ja) | 音声合成装置および音声合成方法 | |
CN105718503B (zh) | 声音检索装置以及声音检索方法 | |
JP2020507819A (ja) | スペクトル包絡線のフォルマントの周波数シフトによって声の音質を動的に修正するための方法および装置 | |
KR102072627B1 (ko) | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 | |
JP4564416B2 (ja) | 音声合成装置および音声合成プログラム | |
KR20210035042A (ko) | 감정 간의 강도 조절이 가능한 감정 음성 생성 방법 및 장치 | |
KR102626618B1 (ko) | 감정 추정 기반의 감정 음성 합성 방법 및 시스템 | |
US6219636B1 (en) | Audio pitch coding method, apparatus, and program storage device calculating voicing and pitch of subframes of a frame | |
JP6400526B2 (ja) | 音声合成装置、その方法、およびプログラム | |
Al-Radhi et al. | A continuous vocoder using sinusoidal model for statistical parametric speech synthesis | |
EP1589524B1 (en) | Method and device for speech synthesis | |
US20050171777A1 (en) | Generation of synthetic speech | |
JP2008116826A (ja) | 休止時間長算出装置及びそのプログラム、並びに音声合成装置 | |
JP2000235400A (ja) | 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体 | |
KR100624440B1 (ko) | 음소별 코드북 매핑에 의한 음색변환방법 | |
JP3881970B2 (ja) | 知覚試験用音声データセット作成装置、コンピュータプログラム、音声合成用サブコスト関数の最適化装置、及び音声合成装置 | |
EP1640968A1 (en) | Method and device for speech synthesis | |
JP2809769B2 (ja) | 音声合成装置 | |
Jayasinghe | Machine Singing Generation Through Deep Learning | |
CN117711375A (zh) | 语音生成方法、装置、计算机设备和存储介质 | |
CN116189653A (zh) | 跨语句条件相干的语音编辑方法、系统及终端 | |
JP2009237015A (ja) | 音声素片接続装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050209 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20061107 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20061113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080916 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081008 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |