JPH1091183A - 言語合成のためのランタイムアコースティックユニット選択方法及び装置 - Google Patents
言語合成のためのランタイムアコースティックユニット選択方法及び装置Info
- Publication number
- JPH1091183A JPH1091183A JP9147013A JP14701397A JPH1091183A JP H1091183 A JPH1091183 A JP H1091183A JP 9147013 A JP9147013 A JP 9147013A JP 14701397 A JP14701397 A JP 14701397A JP H1091183 A JPH1091183 A JP H1091183A
- Authority
- JP
- Japan
- Prior art keywords
- instances
- acoustic unit
- speech
- instance
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Abstract
ピーチ合成装置及び方法を提供する。 【解決手段】 言語表現を表すスピーチ波形を発生する
のに使用できる各アコースティックユニットの多数のイ
ンスタンスが形成される。これら多数のインスタンス
は、合成プロセスの分析又はトレーニング段階中に形成
され、最も確率の高いインスタンスの健全な表示に限定
される。多数のインスタンスを形成することにより、合
成装置は、所望のインスタンスに良く似たインスタンス
を選択することができ、これにより、所望のインスタン
スに合致するよう記憶されたインスタンスを変更する必
要性が排除される。これは、隣接するインスタンスの境
界間のスペクトル歪を本質的に最小にし、より自然に発
音するスピーチを形成する。
Description
合成システムに係り、より詳細には、スピーチ合成シス
テムにおいてアコースティックユニットの選択を実行す
る方法及び装置に係る。
からスピーチを形成するようにスピーチ波形に対応する
アコースティックユニットを連結することに基づく一種
のスピーチ合成である。この分野で未解決となっている
問題は、流暢で、明瞭なそして自然に発音するスピーチ
を得るためにアコースティックユニットを最適に選択し
そして連結することである。
ては、アコースティックユニットがスピーチの発音ユニ
ット、例えば、ジホーン(diphone) 、音素又はフレーズ
である。スピーチの発音ユニットを表すために、スピー
チ波形のテンプレート即ちインスタンスが各アコーステ
ィックユニットと関連付けられる。インスタンスのスト
リングを単に連結してスピーチを合成する場合には、隣
接インスタンスの境界にスペクトル不連続部が存在する
ために不自然な即ち「ロボット的発音」のスピーチにな
ってしまうことがしばしばある。最良の自然に発音する
スピーチを得るには、意図されたテキストに適したタイ
ミング、強度及びイントネーション特性(即ち韻律学的
特性)をもつ連結インスタンスを形成しなければならな
い。
ットのインスタンスの連結から自然に発音するスピーチ
を形成するために、従来のシステムには2つの一般的な
技術が使用されている。即ち、それらは、平滑化技術の
使用と、長いアコースティックユニットの使用である。
平滑化は、インスタンス間の境界で整合するようにイン
スタンスを調整することにより隣接インスタンス間のス
ペクトル不整合を排除するよう試みるものである。調整
されたインスタンスは、滑らかに発音するスピーチを形
成するが、平滑化を実現するためにインスタンスに操作
が施されるために、スピーチは一般に不自然なものにな
る。
場合は、通常、ジホーン(diphone)が使用される。とい
うのは、それらが音素間の同時調音的効果を捕らえるか
らである。同時調音的効果とは、所与の音素に先行する
音素及び後続する音素により所与の音素に及ぼされる効
果である。ユニット当たり3つ以上の音素を有する長い
ユニットを使用する場合には、長いユニットにわたり同
時調音的効果を発生しそして捕らえる境界の数を減少す
る上で役立つ。長いユニットを使用する場合には、質の
高い発音スピーチが得られるが、著しい量のメモリを必
要とする。加えて、制限のない入力テキストと共に長い
ユニットを使用することは、モデルをカバーすることが
保証できないために、問題となる。
るスピーチを形成するスピーチ合成システム及び方法に
関する。既に話されたスピーチのトレーニングデータか
ら、ジホーン、トリホーン(triphone)等のアコースティ
ックユニットの多数のインスタンスが発生される。これ
らインスタンスは、関連する音を発生するのに使用され
るスピーチ信号又は波形のスペクトル表示に対応する。
トレーニングデータから発生されたインスタンスは剪定
されて、インスタンスの健全なサブセットを形成する。
各アコースティックユニットの1つのインスタンスを連
結する。インスタンスの選択は、隣接インスタンスの境
界間のスペクトル歪に基づく。これは、入力言語表現に
存在するインスタンスの考えられるシーケンスを列挙
し、そこから、シーケンスの隣接インスタンスの全ての
境界間のスペクトル歪を最小にする1つを選択するよう
に行うことができる。次いで、インスタンスの最良のシ
ーケンスを用いて、入力言語表現に対応する話されたス
ピーチを形成するスピーチ波形が発生される。
じ要素が同じ参照文字で表された添付図面を参照した本
発明の好ましい実施形態の以下の詳細な説明から明らか
となろう。図面は、必ずしも正しいスケールではなく、
本発明の原理を示すために強調されている。
の選択から入力テキストを合成するのに必要な各アコー
スティックユニットの1つのインスタンスを選択し、そ
してその選択されたインスタンスを連結することによ
り、自然に発音するスピーチを形成する。スピーチ合成
システムは、システムの分析又はトレーニング段階中に
アコースティックユニットの多数のインスタンスを発生
する。この段階中に、各アコースティックユニットの多
数のインスタンスが、特定の言語に最も生じ易いスピー
チパターンを反映するスピーチ発声から形成される。こ
の段階中に累積されたインスタンスは、次いで、ほとん
どの代表的なインスタンスを含む健全なサブセットを形
成するように剪定される。好ましい実施形態では、種々
の発音状況を表す最も確率の高いインスタンスが選択さ
れる。
現における各アコースティックユニットの最良のインス
タンスを、ランタイムにおいて、インスタンスの全ての
考えられる組み合わせに対して隣接インスタンスの境界
間に存在するスペクトル及び韻律的歪の関数として選択
することができる。このようにユニットを選択すること
により、隣接ユニット間の境界に存在する周波数スペク
トルを整合するためにユニットを平滑化する必要性が排
除される。これは、不自然に修正されたユニットではな
くて元の波形が使用されるので、より自然に発音するス
ピーチを形成する。
たスピーチ合成システム10を示している。スピーチ合
成システム10は、入力を受け取るための入力装置14
を含む。この入力装置14は、例えば、マイクロホン、
コンピュータターミナル等である。音声データ入力及び
テキストデータ入力は、以下に詳細に述べる個別の処理
要素によって処理される。入力装置14は、音声データ
を受け取ると、その音声入力をトレーニング要素13へ
送り、トレーニング要素は、音声入力に対してスピーチ
分析を実行する。入力装置14は、ユーザからの入力ス
ピーチ発声又は記憶された発声パターンである入力音声
データから対応するアナログ信号を発生する。このアナ
ログ信号はアナログ/デジタルコンバータ16へ送ら
れ、該コンバータは、アナログ信号をデジタルサンプル
のシーケンスに変換する。デジタルサンプルは、次い
で、特徴抽出器18へ送られ、これは、デジタル化され
た入力スピーチ信号のパラメータ表示を抽出する。好ま
しくは、特徴抽出器18は、デジタル化された入力スピ
ーチ信号のスペクトル分析を実行し、入力スピーチ信号
の周波数成分を表す係数を各々含むフレームのシーケン
スを発生する。スペクトル分析を行う方法は、信号処理
の分野で良く知られており、高速フーリエ変換、直線的
予想コード化(LPC)、及びセプストラル(cepstral)
係数を含む。特徴抽出器18は、スペクトル分析を行う
従来のプロセッサでよい。好ましい実施形態では、スペ
クトル分析が10ミリ秒ごとに行われ、入力スピーチ信
号が発声の一部分を表すフレームに分割される。しかし
ながら、本発明は、スペクトル分析の使用や、10ミリ
秒のサンプリング時間フレームに限定されない。他の信
号処理技術及び他のサンプリング時間フレームも使用で
きる。上記プロセスが全スピーチ信号に対して繰り返さ
れて、フレームのシーケンスが発生され、これらは、分
析エンジン20へ送られる。この分析エンジン20は、
図2ないし7を参照して以下に詳細に述べる多数のタス
クを実行する。
はトレーニングデータを分析して、スピーチ合成器36
によって使用される隠れたマルコフモデルのセノン(sen
one)(即ち異なる発音モデルにわたる同様のマルコフ状
態のクラスター)及びパラメータを発生する。更に、分
析エンジン20は、トレーニングデータに存在する各ア
コースティックユニットの多数のインスタンスを発生
し、そして合成器36により使用するためのこれらイン
スタンスのサブセットを形成する。分析エンジンは、セ
グメント化を実行するセグメント化要素21と、アコー
スティックユニットのインスタンスを選択する選択要素
23とを備えている。これら要素の役割については、以
下に詳細に説明する。分析エンジン20は、テキスト記
憶装置30から得られる入力スピーチ発声の発音表示、
ディクショナリ記憶装置22に記憶された各ワードの音
素記述を含むディクショナリ、及びHMM記憶装置24
に記憶されたセノンのテーブルを使用する。
に記憶するためのHMMパラメータを得、そして入力発
声をセノンへとセグメント化するという2つの目的をも
つ。この2つの目的は、HMMパラメータのセットが与
えられて入力スピーチをセグメント化することと、スピ
ーチのセグメント化が与えられてHMMパラメータを再
推定することとの間で交番する反復アルゴリズムによっ
て達成される。このアルゴリズムは、各反復において入
力発声を生じるHMMパラメータの確率を高める。この
アルゴリズムは、収斂点に到達しそしてそれ以上反復し
てもトレーニング確率を実質的に高めないときに、停止
される。
択要素23は、各アコースティックユニットの全ての考
えられる発生から各アコースティックユニットの高度な
代表的な発生(即ちジホーン)の小さなサブセットを選
択し、そしてそれらサブセットをユニット記憶装置28
に記憶する。発生についてのこの剪定は、以下に詳細に
述べるように、HMM確率及び韻律学的パラメータの値
に基づく。
ると、そのテキストデータ入力を、スピーチ合成を実行
する合成要素15へ送る。図8ないし12は、本発明の
好ましい実施形態に使用されるスピーチ合成技術を示
し、これについては以下に詳細に説明する。自然言語プ
ロセッサ(NLP)32は、入力テキストを受け取り、
そしてテキストの各ワードに記述ラベルをタグ付けす
る。これらタグは、文字−音声(LTS)要素33及び
韻律学的エンジン35へ送られる。文字−音声要素33
は、ディクショナリ記憶装置22からのディクショナリ
入力と、文字−音素ルール記憶装置40からの文字−音
素ルールとを用いて、入力テキストの文字を音素に変換
する。文字−音声要素33は、例えば、入力テキストの
適切な発音を決定することができる。文字−音声要素3
3は、発音ストリング及びアクセント要素34に接続さ
れる。この発音ストリング及びアクセント要素34は、
入力テキストに対して適切なアクセントをもつ発音スト
リングを発生し、これは、韻律学的エンジン35へ送ら
れる。文字−音声要素33及び発音アクセント要素34
は、別の実施形態においては、単一の要素へとカプセル
化されてもよい。韻律学的エンジン35は、発音ストリ
ングを受け取り、休止マーカーを挿入し、そしてストリ
ングにおける各音素の強度、ピッチ及び巾を指示する韻
律学的パラメータを決定する。韻律学的エンジン35
は、韻律学的データベース記憶装置42に記憶された韻
律学的モデルを使用する。休止マーカーと、ピッチ、巾
及び振幅を指示する韻律学的パラメータをもつ音素スト
リングは、スピーチ合成器36へ送信される。韻律学的
モデルは、話し手とは独立したものであってもよいし、
話し手に従属するものであってもよい。
を、ジホーン又は他のアコースティックユニットの対応
ストリングへと変換し、各ユニットに対する最良のイン
スタンスを選択し、韻律学的パラメータに基づいてイン
スタンスを調整し、そして入力テキストを表すスピーチ
波形を発生する。以下の説明においては、スピーチ合成
器が発音ストリングをジホーンのストリングに変換する
ものと仮定する。しかしながら、スピーチ合成器は、発
音ストリングを別のアコースティックユニットのストリ
ングに変換することもできる。これらタスクを実行する
際に、合成器は、ユニット記憶装置28に記憶された各
ユニットのインスタンスを使用する。
8へ送信することができ、この出力エンジンは、スピー
チを発生するための音声装置を含むか、或いはスピーチ
波形を他の処理要素又はプログラムへ転送して更に処理
することもできる。
は、パーソナルコンピュータやワークステーション等の
単一の処理ユニットに組み込むことができる。しかしな
がら、本発明は、この特定のコンピュータアーキテクチ
ャーに限定されるものでなく、並列処理システム、分散
型処理システム等の他の構造(これに限定されないが)
も使用できる。
態に使用されるセノン、HMM及びフレーム構造につい
て以下に述べる。各フレームは、入力スピーチ信号のあ
るセグメントに対応し、そのセグメントの周波数及びエ
ネルギースペクトルを表すことができる。好ましい実施
形態では、LPCセプストラル分析を用いて、スピーチ
信号をモデリングし、そしてフレームのシーケンスを形
成し、各フレームは、そのフレームの信号の部分に対し
て周波数及びエネルギースペクトルを表す次の39のセ
プストラル及びエネルギー係数を含む。(1)12のメ
ル周波数セプストラル係数;(2)12のデルタメル周
波数セプストラル係数;(3)12のデルタデルタメル
周波数セプストラル係数;及び(4)エネルギー、デル
タエネルギー及びデルタデルタエネルギー係数。
ーチの発音ユニットを表すのに使用される確率モデルで
ある。好ましい実施形態では、これは、音素を表すのに
使用される。しかしながら、本発明は、この発音に基づ
くものに限定されず、ジホーン、ワード、シラブル又は
センテンス(これに限定されないが)のような言語表現
を使用することもできる。
ーケンスよりなる。各状態には、その状態がフレームに
一致する見込みを指示する出力確率が関連している。各
遷移ごとに、その遷移に続く見込みを指示する関連遷移
確率がある。好ましい実施形態では、音素は、3状態H
MMによりモデリングすることができる。しかしなが
ら、本発明は、この形式のHMM構造に限定されるもの
ではなく、それより多数の又は少数の状態を用いる他の
ものも使用できる。状態に関連した出力確率は、フレー
ムに含まれたセプストラル係数のガウス確率密度関数
(pdfs)の混合体であってもよい。ガウスのpdf
sは好ましいものであるが、本発明は、この形式のpd
fsに限定されない。ラプラス型pdfs(これに限定
されないが)のような他のpdfsも使用できる。
である。これらパラメータの推定値は、トレーニングデ
ータを用いる統計学的な技術により得られる。トレーニ
ングデータからこれらのパラメータを推定するのに使用
できる多数の公知アルゴリズムが存在する。
る。その第1は、左右の音素コンテクストで音素をモデ
リングするコンテクスト従属のHMMである。1組の音
素及びそれに関連した左右の音素コンテクストよりなる
所定のパターンが、コンテクスト従属のHMMによりモ
デリングされるべく選択される。これらのパターンが選
択されるのは、最も頻繁に発生する音素及びそれら音素
の最も頻繁に発生するコンテクストを表すからである。
トレーニングデータは、これらのモデルのパラメータに
対する推定値を与える。又、左右の音素コンテクストと
は独立して音素をモデリングするように、コンテクスト
とは独立したHMMも使用できる。同様に、トレーニン
グデータは、コンテクストとは独立したモデルのパラメ
ータに対する推定値を与える。隠れたマルコフモデル
は、良く知られた技術であり、HMMの詳細な説明は、
ヒューン氏等の「スピーチ認識のための隠れたマルコフ
モデル(Hidden Markov Models For Speech Recognitio
n) 」、エジンバラ・ユニバーシティ・プレス、199
0年に見ることができる。
化されて、セノンを形成する。これは、大きな記憶要求
と多大な計算時間を合成装置に課する状態の数を減少す
るために行われる。セノン及びセノンを構成するために
用いる方法の詳細な説明は、M.ワング氏等の「セノン
を伴う未知のトリホーンの予想(Predicting Unseen Tri
phones with Senones)」、Proc.ICASSP '9
3、第II巻、第311−314ページ、1993年に
見ることができる。
態により実行される分析方法を示している。図2を参照
すれば、分析方法50は、スピーチ波形のシーケンス
(スピーチ信号又は発声とも称される)の形態でトレー
ニングデータを受け取ることにより開始され、これらの
スピーチ波形は、図1を参照して上記したように、フレ
ームに変換される。スピーチ波形は、センテンス、ワー
ド又は何らかの形式の言語表現で構成することができ、
ここでは、トレーニングデータと称する。
ズムを使用する。最初に、HMMのパラメータの初期セ
ットが推定されると仮定する。図3は、HMMのパラメ
ータを言語表現「This is great.」に対
応する入力スピーチ信号に対していかに推定するかを示
す。図3及び4を参照すれば、入力スピーチ信号即ち波
形64に対応するテキスト62が、テキスト記憶装置3
0から得られる。テキスト62は、音素のストリング6
6に変換することができ、これは、テキストの各ワード
に対し、ディクショナリ記憶装置22に記憶されたディ
クショナリから得られる。音素のストリング66を使用
して、音素ストリングの音素に対応するコンテクスト従
属のHMMのシーケンス68が発生される。例えば、図
示されたコンテクストの音素/DH/は、DH(SI
L,IH)70で示された関連するコンテクスト従属H
MMを有し、左側の音素は、/SIL/即ち無音であ
り、そして右側の音素は、/IH/である。このコンテ
クスト従属のHMMは、3つの状態を有し、各状態には
セノンが関連している。この特定例においては、セノン
は、状態1、2及び3に各々対応する20、1及び5で
ある。音素DH(SIL,IH)70に対するコンテク
スト従属のHMMは、次いで、残りのテキストに対する
音素を表すコンテクスト従属のHMMと連結される。
グメント化要素21でフレームをセグメント化し、即ち
フレームを各状態及びそれらの各セノンと時間整列する
ことにより、スピーチ波形がHMMの状態に対してマッ
プされる(図2のステップ52)。この例では、DH
(SIL,IH)70及びセノン20(72)に対する
HMMの状態1がフレーム1−4と整列され(78);
同じモデル及びセノン1(74)の状態2がフレーム5
−32と整列され(80);そして同じモデル及びセノ
ン5(76)の状態3がフレーム33−40と整列され
る(82)。この整列は、HMMシーケンス68の各状
態及びセノンに対して行われる。このセグメント化が行
われると、HMMのパラメータが再推定される(ステッ
プ54)。良く知られたバウム−ウェルチ(Baum-Welch)
又は順方向−逆方向アルゴリズムを使用することができ
る。バウム−ウェルチアルゴリズムは、混合密度関数の
取り扱いに精通しているので、好ましい。バウム−ウェ
ルチアルゴリズムの詳細な説明は、上記のヒューン氏の
参照文献に見ることができる。次いで、収斂点に到達し
たかどうかが決定される(ステップ56)。収斂点に到
達していない場合は、新たなHMMモデルで発声のセッ
トをセグメント化することによりプロセスが繰り返され
る(即ち、ステップ52が新たなHMMモデルで繰り返
される)。収斂点に到達すると、HMMパラメータ及び
セグメント化が最終的な形態となる。
のインスタンスに対応するフレームが、ユニットインス
タンスとして、或いは各ジホーン又は他のユニットに対
するインスタンスとして、ユニット記憶装置28に記憶
される(ステップ58)。これは、図3ないし6に示さ
れている。図3ないし5を参照すれば、音素ストリング
66は、ジホーンストリング67に変換される。ジホー
ンとは、2つの隣接する音素の定常部分及びそれらの間
の遷移を表す。例えば、図5において、ジホーンDH
IH84は、音素DH(SIL,IH)86の状態2−
3及び音素IH(DH,S)88の状態1−2から形成
される。これら状態に関連したフレームは、ジホーンD
H IH(0)92に対応するインスタンスとして記憶
される。フレーム90は、スピーチ波形91に対応す
る。
各入力スピーチ発声に対してステップ54−58が繰り
返される。これらのステップが完了すると、各ジホーン
に対しトレーニングデータから累積されたインスタンス
は、ステップ60に示すように、高い確率のインスタン
スをカバーする健全な表示を含むサブセットへと剪定さ
れる。図7は、インスタンスのセットをいかに剪定する
か示している。
ンに対して繰り返される(ステップ100)。全てのイ
ンスタンスに対する巾の平均値及び変動が計算される
(ステップ102)。各インスタンスは、1つ以上のフ
レームで構成することができ、各フレームは、ある時間
インターバルにわたるスピーチ信号のパラメータ表示を
表すことができる。各インスタンスの巾は、これらの時
間インターバルの累積である。ステップ104におい
て、平均値から特定量(例えば、標準偏差)だけずれる
インスタンスは、破棄される。好ましくは、ジホーンに
対し全インスタンス数の10ないし20%が破棄され
る。ピッチ及び振幅に対する平均値及び変動も計算され
る。平均値から所定量(例えば、±標準偏差)以上変化
するインスタンスは、破棄される。
ンスタンスに対しステップ108−110が実行され
る。各インスタンスに対し、インスタンスがHMMによ
り形成された関連確率を計算することができる(ステッ
プ108)。この確率は、上記ヒューンの参考文献に詳
細に述べられた良く知られた順方向−逆方向アルゴリズ
ムにより計算することができる。この計算は、特定のジ
ホーンを表すHMMの各状態又はセノンに関連した出力
及び遷移確率を使用する。ステップ110において、特
定のジホーンに対し、セノンの関連ストリング69が形
成される(図3を参照)。次いで、ステップ112にお
いて、始めと終わりのセノンが同一のセノンシーケンス
をもつジホーンがグループ分けされる。各グループに対
して、最も高い確率をもつセノンシーケンスがサブセッ
トの一部分として選択される(ステップ114)。ステ
ップ100−114の完了時に、特定のジホーンに対応
するインスタンスのサブセットが存在する(図5を参
照)。このプロセスが各ジホーンに対して繰り返され、
各ジホーンごとに多数のインスタンスを含むテーブルが
得られる。
充分に整合するインスタンスを保持するものである。こ
のような実施形態は、動的なプログラミングアルゴリズ
ムを使用することにより歪を最小にしようとする。
の合成方法が作用する。図8ないし12は、好ましい実
施形態のスピーチ合成方法120において実行されるス
テップを示す。入力テキストは、ワードストリングに処
理され(ステップ122)、そして入力テキストは、対
応する音素ストリングへと変換される(ステップ12
4)。従って、省略ワード及び頭文字が、ワードフレー
ズを完成するように拡張される。この拡張の部分は、省
略ワード及び頭文字が使用されたコンテクストを分析し
て、対応するワードを決定することを含むことができ
る。例えば、頭文字「WA」は、「Washingto
n」へと変換することができ、そして省略形「Dr.」
は、それが使用されたコンテクストに基づいて「Doc
tor」又は「Drive」へと変換することができ
る。文字及び数字ストリングは、テキスト等効物に置き
換えることができる。例えば、「2/1/95」は、
「1995年2月1日」に置き換えることができる。同
様に、「$120.15」は、120ドル15セントに
置き換えることができる。適切なイントネーションで話
せるようにセンテンスの構文構造を決定するために構文
分析を行うことができる。同形異義語の文字は、一次及
び二次のアクセントマークを含む音に変換される。例え
ば、ワード「read」は、そのワードの特定の意味に
基づいて異なる発音を行うことができる。これを考慮す
るために、ワードは、関連するアクセントマークを伴い
関連する発音を表す音に変換される。
プ122)、ワードストリングは、音素のストリングに
変換される(ステップ124)。この変換を行うため
に、文字−音声要素33は、ディクショナリ22及び文
字−音素ルール40を使用し、ワードストリングのワー
ドの文字を、そのワードに対応する音素へと変換する。
音素のストリングは、自然言語プロセッサからのタグと
共に、韻律学的エンジン35へ送られる。タグは、ワー
ドの分類の識別子である。ワードのタグは、その韻律学
的特性に影響を及ぼし、従って、韻律学的エンジン35
によって使用される。
ン35は、休止の位置と、各音素の韻律学的特性をセン
テンスベースで決定する。休止の位置は、自然韻律を得
るために重要である。これは、センテンス内に含まれた
句読点マークを使用しそして上記ステップ122で自然
言語プロセッサ32により実行された構文分析を用いる
ことにより決定することができる。各音素の韻律処理
は、センテンスベースで決定される。しかしながら、本
発明は、センテンスベースで韻律処理を行うことに限定
されない。韻律処理は、ワード又は多数のセンテンス
(これに限定されないが)のような他の言語学的特性に
基づいて行うこともできる。韻律学的パラメータは、各
音素の巾、ピッチ又はイントネーション、及び振幅で構
成することができる。音素の巾は、ワードが話されると
きにワードに置かれたアクセントによって影響を受け
る。音素のピッチは、センテンスのイントネーションに
より影響を受ける。例えば、平叙文及び疑問文は、異な
るイントネーションパターンを形成する。韻律学的パラ
メータは、韻律学的データベース42に記憶された韻律
学的モデルを用いて決定することができる。スピーチ合
成の分野では韻律学的パラメータを決定する多数の方法
が良く知られている。1つのこのような方法がJ.ピレ
ハンバート著の「英語のイントネーションの音韻学及び
音声学(The Phonology and Phonetics of English Into
nation) 」、MIT Ph.D.論文(1989年)に
掲載されている。休止マークと、ピッチ、巾及び振幅を
示す韻律学的パラメータとをもつ音素ストリングがスピ
ーチ合成装置36に送られる。
置36は、音素ストリングをジホーンストリングに変換
する。これは、各音素をその右の隣接音素と対にするこ
とにより行われる。図3は、音素ストリング66をジホ
ーンストリング67に変換するところを示している。
そのジホーンの最良のユニットインスタンスがステップ
130において選択される。好ましい実施形態では、最
良のユニットの選択は、言語表現を表すジホーンストリ
ングを形成するために連結できる隣接ジホーンの境界間
の最小のスペクトル歪に基づいて決定される。図9ない
し11は、言語表現「This is great.」
に対するユニット選択を示す。図9は、言語表現「Th
is is great.」を表すスピーチ波形を形成
するのに使用できる種々のユニットインスタンスを示
す。例えば、ジホーンDH IHに対して10個のイン
スタンスがあり(134)、ジホーンIH Sに対して1
00個のインスタンスがあり(136)、等々となる。
ユニット選択は、上記ヒューンの参照文献に見られる公
知のビタビサーチアルゴリズムと同様の形態で行われ
る。簡単に述べると、言語表現を表すスピーチ波形を形
成するように連結できるインスタンスの全ての考えられ
るシーケンスが形成される。これが図10に示されてい
る。次いで、インスタンスの隣接境界を横切るスペクト
ル歪が各シーケンスに対して決定される。この歪は、イ
ンスタンスの最後のフレームと、右に隣接するインスタ
ンスの最初のフレームとの間の距離として計算される。
スペクトル歪の計算に付加的な成分を追加できることに
注意されたい。特に、2つのインスタンスを横切るピッ
チ及び振幅のユークリッド距離が、スペクトル歪計算の
一部分として計算される。この成分は、ピッチ及び振幅
の過剰な変調に起因するアコースティック歪を補償す
る。図11を参照すれば、インスタンスストリング14
0の歪は、フレーム142と144、146と148、
150と152、154と165、158と160、1
62と164、166と168との間の距離である。最
小の歪をもつシーケンスが、スピーチを発生する基礎と
して使用される。
いられるステップを示す。図12を参照すれば、ステッ
プ172−182は、各ジホーンストリングに対して繰
り返される(ステップ170)。ステップ172におい
て、インスタンスの全ての考えられるシーケンスが形成
される(図10を参照)。ステップ176ないし178
は、各インスタンスシーケンスに対して繰り返される
(ステップ174)。最後のインスタンスを除く各イン
スタンスに対し、インスタンスとその直前の(即ちシー
ケンスにおいてその右側の)インスタンスとの間の歪
が、インスタンスの最後のフレームの係数とそれに続く
インスタンスの最初のフレームの係数との間のユークリ
ッド距離として計算される。この距離は、次の数1の数
学的定義によって表される。
ーケンスにおける全てのインスタンスに対する歪の和が
計算される。反復174の終わりに、最良のインスタン
スシーケンスがステップ182において選択される。最
良のインスタンスシーケンスとは、累積歪が最小のシー
ケンスである。
行われると、インスタンスは、入力テキストに対する韻
律学的パラメータに基づいて連結され、そしてその連結
されたインスタンスに対応するフレームから合成スピー
チ波形が発生される(ステップ132)。この連結プロ
セスは、選択されたインスタンスに対応するフレームを
変更して、所望の韻律学的特性に合致するようにする。
多数の良く知られたユニット連結技術を使用することが
できる。
のようなアコースティックユニットの多数のインスタン
スを与えることにより合成スピーチの自然さを改善す
る。多数のインスタンスは、合成波形を発生するところ
の包括的な種々の波形をスピーチ合成システムに与え
る。この多様性は、合成システムが、境界にわたり最小
のスペクトル歪を有するインスタンスを連結する見込み
を高めるので、隣接インスタンスの境界に存在するスペ
クトルの不連続性を最小にする。これは、隣接境界のス
ペクトル周波数に整合するようにインスタンスを変更す
る必要性を排除するものである。変更されないインスタ
ンスにより構成されたスピーチ波形は、波形を自然な形
態で包含するので、より自然に発音するスピーチを形成
する。
説明したが、これは、本発明を単に例示するものに過ぎ
ず、当業者であれば、上記した装置及び方法に対して変
更を必要とする種々の異なる用途に本発明を適応させる
ことができ、従って、上記の特定の説明は、本発明の範
囲をそれに限定するものではないことをここに強調して
おく。
るのに使用されるスピーチ合成システムを示す図であ
る。
ーチャートである。
対応するスピーチ波形をフレームへと整列する例を示す
図である。
セノンストリングを示す図である。
図である。
別の図である。
を構成するのに用いられるステップを示すフローチャー
トである。
である。
によりテキスト「This is great.」に対
してスピーチをいかに合成するかを例示する図である。
に対するユニット選択方法を例示する図である。
に対応する1つのインスタンスストリングに対するユニ
ット選択方法を例示する図である。
である。
Claims (20)
- 【請求項1】 入力言語表現からスピーチを形成するた
めのコンピュータシステムにおける方法であって、 入力言語表現をスピーチの複数のアコースティックユニ
ットに変換し、 各アコースティックユニットに対して複数のインスタン
スを形成し、各インスタンスは、アコースティックユニ
ットに関連したスピーチを発生するのに使用されるスピ
ーチ信号のアコースティック特性を指示し、 言語表現におけるアコースティックユニットに対応する
インスタンスの複数のシーケンスを形成し、 各シーケンスごとに、そのシーケンスにおける隣接イン
スタンス間の相違を決定し、 隣接インスタンス間に最小の相違を有する最良のシーケ
ンスを選択し、そして上記最良のシーケンスから生じる
スピーチを発生する、という段階を備えたことを特徴と
する方法。 - 【請求項2】 記憶装置を有するコンピュータシステム
において、スピーチを合成する方法が、 第1のアコースティックユニットの多数のインスタンス
を記憶装置に設け、 第2のアコースティックユニットの多数のインスタンス
を記憶装置に設け、そして選択されたインスタンス間の
歪を最小にするようにインスタンスを選択し、そして第
1のアコースティックユニットに対して設けられたイン
スタンスの1つと第2のアコースティックユニットに対
して設けられたインスタンスの1つを連結することによ
りスピーチを合成する、という段階を備えたことを特徴
とする方法。 - 【請求項3】 アコースティックユニットはジホーンで
ある請求項2に記載の方法。 - 【請求項4】 第1のアコースティックユニット及び第
2のアコースティックユニットに対するインスタンス
は、選択されたインスタンス間の韻律学的歪を最小にす
るように選択される請求項2に記載の方法。 - 【請求項5】 第1のアコースティックユニット及び第
2のアコースティックユニットに対するインスタンス
は、選択されたインスタンス間のスペクトル歪を最小に
するように選択される請求項2に記載の方法。 - 【請求項6】 シーケンスにおける隣接インスタンス間
の相違の決定は、スペクトル歪に基づく請求項1に記載
の方法。 - 【請求項7】 シーケンスにおける隣接インスタンス間
の相違の決定は、韻律学的歪に基づく請求項1に記載の
方法。 - 【請求項8】 コンピュータシステムにおいて、 アコースティックユニットのインスタンスのセットを用
意し、 アコースティックユニットのインスタンスのセットを剪
定して、アコースティックユニットのインスタンスの健
全なセットを形成し、そしてアコースティックユニット
のインスタンスの健全なセットからインスタンスの1つ
を選択してスピーチを合成する、 という段階を備えたことを特徴とする方法。 - 【請求項9】 インスタンスのセットにおける各インス
タンスは巾を有し、そしてアコースティックユニットの
インスタンスのセットを剪定する上記の段階は、アコー
スティックユニットのインスタンスのセットに対する平
均巾とは大きく巾が異なるインスタンスのセットにおけ
るアコースティックユニットのインスタンスを除去し
て、その除去されたインスタンスがインスタンスの健全
なセットに存在しないようにすることを含む請求項8に
記載の方法。 - 【請求項10】 インスタンスのセットにおける各イン
スタンスはピッチを有し、そしてアコースティックユニ
ットのインスタンスのセットを剪定する上記段階は、ア
コースティックユニットのインスタンスのセットに対す
る平均ピッチとは大きくピッチが異なるインスタンスの
セットにおけるアコースティックユニットのインスタン
スを除去して、その除去されたインスタンスがインスタ
ンスの健全なセットに存在しないようにすることを含む
請求項8に記載の方法。 - 【請求項11】 インスタンスのセットにおける各イン
スタンスは振幅を有し、そしてアコースティックユニッ
トのインスタンスのセットを剪定する上記の段階は、ア
コースティックユニットのインスタンスのセットに対す
る平均振幅とは大きく振幅が異なるインスタンスのセッ
トにおけるアコースティックユニットのインスタンスを
除去して、その除去されたインスタンスがインスタンス
の健全なセットに存在しないようにすることを含む請求
項8に記載の方法。 - 【請求項12】 インスタンスのセットにおける各イン
スタンスは、巾、ピッチ及び振幅を有し、そしてアコー
スティックユニットのインスタンスのセットを剪定する
上記の段階は、アコースティックユニットのインスタン
スのセットに対する平均巾、ピッチ及び振幅とは大きく
巾、ピッチ及び振幅が異なるインスタンスのセットにお
けるアコースティックユニットのインスタンスを除去し
て、その除去されたインスタンスがインスタンスの健全
なセットに存在しないようにすることを含む請求項8に
記載の方法。 - 【請求項13】 アコースティックユニットのインスタ
ンスのセットを用意する上記段階は、ユーザによりシス
テムのトレーニング中に用意する請求項8に記載の方
法。 - 【請求項14】 記憶装置を有するコンピュータシステ
ムにおいて、スピーチを合成する方法が、 入力テキストストリングを音素ストリングへと処理し、 音素ストリングを、境界を伴うジホーンを有するジホー
ンストリングへと変換し、 ジホーンストリングにおける各ジホーンの多数のインス
タンスを上記記憶装置に設け、 隣接ジホーンの境界間に最小のスペクトル歪を生じるジ
ホーンストリングにおけるジホーンのインスタンスを選
択し、そしてジホーンの選択されたインスタンスを連結
してスピーチを合成する、 という段階を備えたことを特徴とする方法。 - 【請求項15】 コンピュータシステムは韻律学的エン
ジンを含み、そして上記方法は、更に、音素ストリング
に対する韻律学的パラメータを韻律学的エンジンで決定
する段階を含む請求項14に記載の方法。 - 【請求項16】 アコースティックユニットの多数のイ
ンスタンスを記憶するための記憶装置と、 スピーチを合成するスピーチ合成装置とを備え、該スピ
ーチ合成装置は、 アコースティックユニットの記憶された多数のインスタ
ンスのうちの1つのインスタンスを選択するための選択
ユニットと、 アコースティックユニットの上記選択された1つのイン
スタンスを、異なるアコースティックユニットの少なく
とも1つの他のインスタンスと共に使用し、合成された
スピーチを出力するためのスピーチ出力ユニットとを含
むことを特徴とするコンピュータシステム。 - 【請求項17】 上記選択ユニットに入手できるが健全
さに欠けるアコースティックユニットのインスタンスを
除去するための剪定装置を更に備えた請求項16に記載
のコンピュータシステム。 - 【請求項18】 アコースティックユニットの各インス
タンスは巾を有し、そして上記剪定装置は、不当に短い
又は不当に長い巾を有するアコースティックユニットの
インスタンスを剪定する請求項16に記載のコンピュー
タシステム。 - 【請求項19】 アコースティックユニットの各インス
タンスはピッチを有し、そして上記剪定装置は、異常に
高い又は異常に低いピッチを有するアコースティックユ
ニットのインスタンスを剪定する請求項16に記載のコ
ンピュータシステム。 - 【請求項20】 アコースティックユニットの各インス
タンスは、振幅を有し、そして上記剪定装置は、不当に
大きい又は不当に小さい振幅を有するアコースティック
ユニットのインスタンスを剪定する請求項16に記載の
コンピュータシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/648,808 US5913193A (en) | 1996-04-30 | 1996-04-30 | Method and system of runtime acoustic unit selection for speech synthesis |
US08/648808 | 1996-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1091183A true JPH1091183A (ja) | 1998-04-10 |
JP4176169B2 JP4176169B2 (ja) | 2008-11-05 |
Family
ID=24602331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14701397A Expired - Lifetime JP4176169B2 (ja) | 1996-04-30 | 1997-04-30 | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5913193A (ja) |
EP (1) | EP0805433B1 (ja) |
JP (1) | JP4176169B2 (ja) |
CN (1) | CN1121679C (ja) |
DE (1) | DE69713452T2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019088635A1 (ko) * | 2017-10-31 | 2019-05-09 | 에스케이텔레콤 주식회사 | 음성 합성 장치 및 방법 |
Families Citing this family (242)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6036687A (en) * | 1996-03-05 | 2000-03-14 | Vnus Medical Technologies, Inc. | Method and apparatus for treating venous insufficiency |
US6490562B1 (en) | 1997-04-09 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd. | Method and system for analyzing voices |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
FR2769117B1 (fr) * | 1997-09-29 | 2000-11-10 | Matra Comm | Procede d'apprentissage dans un systeme de reconnaissance de parole |
US6807537B1 (en) * | 1997-12-04 | 2004-10-19 | Microsoft Corporation | Mixtures of Bayesian networks |
US7076426B1 (en) * | 1998-01-30 | 2006-07-11 | At&T Corp. | Advance TTS for facial animation |
JP3884856B2 (ja) * | 1998-03-09 | 2007-02-21 | キヤノン株式会社 | 音声合成用データ作成装置、音声合成装置及びそれらの方法、コンピュータ可読メモリ |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
US6502066B2 (en) | 1998-11-24 | 2002-12-31 | Microsoft Corporation | System for generating formant tracks by modifying formants synthesized from speech units |
US6400809B1 (en) | 1999-01-29 | 2002-06-04 | Ameritech Corporation | Method and system for text-to-speech conversion of caller information |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
CA2366952A1 (en) * | 1999-03-15 | 2000-09-21 | British Telecommunications Public Limited Company | Speech synthesis |
US6697780B1 (en) * | 1999-04-30 | 2004-02-24 | At&T Corp. | Method and apparatus for rapid acoustic unit selection from a large speech corpus |
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US7082396B1 (en) | 1999-04-30 | 2006-07-25 | At&T Corp | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
DE19920501A1 (de) * | 1999-05-05 | 2000-11-09 | Nokia Mobile Phones Ltd | Wiedergabeverfahren für sprachgesteuerte Systeme mit textbasierter Sprachsynthese |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7010489B1 (en) * | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP3728172B2 (ja) * | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP2001282278A (ja) * | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理装置及びその方法と記憶媒体 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
US7031908B1 (en) * | 2000-06-01 | 2006-04-18 | Microsoft Corporation | Creating a language model for a language processing system |
US6865528B1 (en) | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
US6684187B1 (en) | 2000-06-30 | 2004-01-27 | At&T Corp. | Method and system for preselection of suitable units for concatenative speech |
US6505158B1 (en) | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US20020052747A1 (en) * | 2000-08-21 | 2002-05-02 | Sarukkai Ramesh R. | Method and system of interpreting and presenting web content using a voice browser |
US6990449B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | Method of training a digital voice library to associate syllable speech items with literal text syllables |
US6990450B2 (en) * | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6871178B2 (en) * | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US7451087B2 (en) * | 2000-10-19 | 2008-11-11 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US20030061049A1 (en) * | 2001-08-30 | 2003-03-27 | Clarity, Llc | Synthesized speech intelligibility enhancement through environment awareness |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030101045A1 (en) * | 2001-11-29 | 2003-05-29 | Peter Moffatt | Method and apparatus for playing recordings of spoken alphanumeric characters |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
US7266497B2 (en) * | 2002-03-29 | 2007-09-04 | At&T Corp. | Automatic segmentation in speech synthesis |
DE10230884B4 (de) * | 2002-07-09 | 2006-01-12 | Siemens Ag | Vereinigung von Prosodiegenerierung und Bausteinauswahl bei der Sprachsynthese |
JP4064748B2 (ja) * | 2002-07-22 | 2008-03-19 | アルパイン株式会社 | 音声発生装置、音声発生方法及びナビゲーション装置 |
CN1259631C (zh) * | 2002-07-25 | 2006-06-14 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
US7236923B1 (en) | 2002-08-07 | 2007-06-26 | Itt Manufacturing Enterprises, Inc. | Acronym extraction system and method of identifying acronyms and extracting corresponding expansions from text |
US7308407B2 (en) * | 2003-03-03 | 2007-12-11 | International Business Machines Corporation | Method and system for generating natural sounding concatenative synthetic speech |
US8005677B2 (en) * | 2003-05-09 | 2011-08-23 | Cisco Technology, Inc. | Source-dependent text-to-speech system |
US7200559B2 (en) * | 2003-05-29 | 2007-04-03 | Microsoft Corporation | Semantic object synchronous understanding implemented with speech application language tags |
US8301436B2 (en) * | 2003-05-29 | 2012-10-30 | Microsoft Corporation | Semantic object synchronous understanding for highly interactive interface |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US7660400B2 (en) * | 2003-12-19 | 2010-02-09 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically building conversational systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
EP1704558B8 (en) * | 2004-01-16 | 2011-09-21 | Nuance Communications, Inc. | Corpus-based speech synthesis based on segment recombination |
CN1755796A (zh) * | 2004-09-30 | 2006-04-05 | 国际商业机器公司 | 文本到语音转换中基于统计技术的距离定义方法和系统 |
US7684988B2 (en) * | 2004-10-15 | 2010-03-23 | Microsoft Corporation | Testing and tuning of automatic speech recognition systems using synthetic inputs generated from its acoustic models |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US7613613B2 (en) * | 2004-12-10 | 2009-11-03 | Microsoft Corporation | Method and system for converting text to lip-synchronized speech in real time |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
US7418389B2 (en) * | 2005-01-11 | 2008-08-26 | Microsoft Corporation | Defining atom units between phone and syllable for TTS systems |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
DE602006003723D1 (de) * | 2006-03-17 | 2009-01-02 | Svox Ag | Text-zu-Sprache-Synthese |
JP2007264503A (ja) * | 2006-03-29 | 2007-10-11 | Toshiba Corp | 音声合成装置及びその方法 |
US8027377B2 (en) * | 2006-08-14 | 2011-09-27 | Intersil Americas Inc. | Differential driver with common-mode voltage tracking and method |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080189109A1 (en) * | 2007-02-05 | 2008-08-07 | Microsoft Corporation | Segmentation posterior based boundary point determination |
JP2008225254A (ja) * | 2007-03-14 | 2008-09-25 | Canon Inc | 音声合成装置及び方法並びにプログラム |
US8886537B2 (en) | 2007-03-20 | 2014-11-11 | Nuance Communications, Inc. | Method and system for text-to-speech synthesis with personalized voice |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8805687B2 (en) * | 2009-09-21 | 2014-08-12 | At&T Intellectual Property I, L.P. | System and method for generalized preselection for unit selection synthesis |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9514739B2 (en) * | 2012-06-06 | 2016-12-06 | Cypress Semiconductor Corporation | Phoneme score accelerator |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
GB2508411B (en) * | 2012-11-30 | 2015-10-28 | Toshiba Res Europ Ltd | Speech synthesis |
KR20230137475A (ko) | 2013-02-07 | 2023-10-04 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
AU2014251347B2 (en) | 2013-03-15 | 2017-05-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN104217149B (zh) * | 2013-05-31 | 2017-05-24 | 国际商业机器公司 | 基于语音的生物认证方法及设备 |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US8751236B1 (en) | 2013-10-23 | 2014-06-10 | Google Inc. | Devices and methods for speech unit reduction in text-to-speech synthesis systems |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9997154B2 (en) * | 2014-05-12 | 2018-06-12 | At&T Intellectual Property I, L.P. | System and method for prosodically modified unit selection databases |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9542927B2 (en) * | 2014-11-13 | 2017-01-10 | Google Inc. | Method and system for building text-to-speech voice from diverse recordings |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9520123B2 (en) * | 2015-03-19 | 2016-12-13 | Nuance Communications, Inc. | System and method for pruning redundant units in a speech synthesis process |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US9959341B2 (en) | 2015-06-11 | 2018-05-01 | Nuance Communications, Inc. | Systems and methods for learning semantic patterns from textual data |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
CN105206264B (zh) * | 2015-09-22 | 2017-06-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法和装置 |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
US10140973B1 (en) * | 2016-09-15 | 2018-11-27 | Amazon Technologies, Inc. | Text-to-speech processing using previously speech processed data |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN110473516B (zh) * | 2019-09-19 | 2020-11-27 | 百度在线网络技术(北京)有限公司 | 语音合成方法、装置以及电子设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4759068A (en) * | 1985-05-29 | 1988-07-19 | International Business Machines Corporation | Constructing Markov models of words from multiple utterances |
US4748670A (en) * | 1985-05-29 | 1988-05-31 | International Business Machines Corporation | Apparatus and method for determining a likely word sequence from labels generated by an acoustic processor |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
JPS62231993A (ja) * | 1986-03-25 | 1987-10-12 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声認識方法 |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
US5349645A (en) * | 1991-12-31 | 1994-09-20 | Matsushita Electric Industrial Co., Ltd. | Word hypothesizer for continuous speech decoding using stressed-vowel centered bidirectional tree searches |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US5621859A (en) * | 1994-01-19 | 1997-04-15 | Bbn Corporation | Single tree method for grammar directed, very large vocabulary speech recognizer |
-
1996
- 1996-04-30 US US08/648,808 patent/US5913193A/en not_active Expired - Lifetime
-
1997
- 1997-04-29 EP EP97107115A patent/EP0805433B1/en not_active Expired - Lifetime
- 1997-04-29 DE DE69713452T patent/DE69713452T2/de not_active Expired - Lifetime
- 1997-04-30 JP JP14701397A patent/JP4176169B2/ja not_active Expired - Lifetime
- 1997-04-30 CN CN97110845A patent/CN1121679C/zh not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019088635A1 (ko) * | 2017-10-31 | 2019-05-09 | 에스케이텔레콤 주식회사 | 음성 합성 장치 및 방법 |
KR20190048371A (ko) * | 2017-10-31 | 2019-05-09 | 에스케이텔레콤 주식회사 | 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법 |
US11170755B2 (en) | 2017-10-31 | 2021-11-09 | Sk Telecom Co., Ltd. | Speech synthesis apparatus and method |
Also Published As
Publication number | Publication date |
---|---|
DE69713452T2 (de) | 2002-10-10 |
EP0805433A3 (en) | 1998-09-30 |
CN1121679C (zh) | 2003-09-17 |
CN1167307A (zh) | 1997-12-10 |
EP0805433A2 (en) | 1997-11-05 |
DE69713452D1 (de) | 2002-07-25 |
EP0805433B1 (en) | 2002-06-19 |
JP4176169B2 (ja) | 2008-11-05 |
US5913193A (en) | 1999-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4176169B2 (ja) | 言語合成のためのランタイムアコースティックユニット選択方法及び装置 | |
JP2826215B2 (ja) | 合成音声生成方法及びテキスト音声合成装置 | |
Yoshimura et al. | Simultaneous modeling of spectrum, pitch and duration in HMM-based speech synthesis | |
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
US6163769A (en) | Text-to-speech using clustered context-dependent phoneme-based units | |
US7010488B2 (en) | System and method for compressing concatenative acoustic inventories for speech synthesis | |
US5970453A (en) | Method and system for synthesizing speech | |
Huang et al. | Recent improvements on Microsoft's trainable text-to-speech system-Whistler | |
US20040030555A1 (en) | System and method for concatenating acoustic contours for speech synthesis | |
US20060041429A1 (en) | Text-to-speech system and method | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JPH0772840B2 (ja) | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 | |
Ipsic et al. | Croatian HMM-based speech synthesis | |
Phan et al. | A study in vietnamese statistical parametric speech synthesis based on HMM | |
WO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
KR100259777B1 (ko) | 텍스트/음성변환기에서의최적합성단위열선정방법 | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Hirose et al. | Superpositional modeling of fundamental frequency contours for HMM-based speech synthesis | |
Phan et al. | Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis | |
Zervas et al. | A Greek TTS based on Non uniform unit concatenation and the utilization of Festival architecture | |
Georgila | 19 Speech Synthesis: State of the Art and Challenges for the Future | |
JP2862306B2 (ja) | 音声認識装置 | |
Lyudovyk et al. | Unit Selection Speech Synthesis Using Phonetic-Prosodic Description of Speech Databases | |
Pobar et al. | Development of Croatian unit selection and statistical parametric speech synthesis | |
Fares et al. | Usage of the HMM‐Based Speech Synthesis for Intelligent Arabic Voice |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060901 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061201 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080722 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080820 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |