JP2002539483A - 音声信号の特徴記述子を求める方法 - Google Patents
音声信号の特徴記述子を求める方法Info
- Publication number
- JP2002539483A JP2002539483A JP2000604404A JP2000604404A JP2002539483A JP 2002539483 A JP2002539483 A JP 2002539483A JP 2000604404 A JP2000604404 A JP 2000604404A JP 2000604404 A JP2000604404 A JP 2000604404A JP 2002539483 A JP2002539483 A JP 2002539483A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- model
- time pattern
- training
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000005236 sound signal Effects 0.000 title claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 11
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 101100290182 Mus musculus Mas1 gene Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
音声信号の特徴記述子を求める方法において、第1の時間パターンで第1の音声モデルをトレーニングし、第2の時間パターンで第2の時間モデルをトレーニングし、第2の音声モデルを第1の音声モデルによってイニシャライズする。
Description
【0001】 本発明は音声信号の特徴記述子を求める方法および装置に関する。
【0002】 この種の方法および装置は文献[1]から知られる。この文献では時間離散的
なシーケンスの特徴ベクトルが音声信号から抽出される。これは a)音声のディジタル表現 b)データ量の低減 c)表明内容(発話された音声および言葉)を識別する助けとなる変動性の強調 d)話者、発話形式、環境影響、および音響的伝達特性ないし電気的伝達特性を
表す変動性の溶暗 などを目的として行われる。
なシーケンスの特徴ベクトルが音声信号から抽出される。これは a)音声のディジタル表現 b)データ量の低減 c)表明内容(発話された音声および言葉)を識別する助けとなる変動性の強調 d)話者、発話形式、環境影響、および音響的伝達特性ないし電気的伝達特性を
表す変動性の溶暗 などを目的として行われる。
【0003】 一般に適用領域に関連するパターンクラスの特徴ベクトルが特徴空間の領域を
なるべくコンパクトに占有し、種々のパターンクラスの領域をできる限り相互に
シャープに分離可能でなければならない。特徴獲得のための公知の技術は、主と
してディジタル信号処理法(特に行列展開)と音声生成または音声受容に対する
関数モデルとの組み合わせに基づく。
なるべくコンパクトに占有し、種々のパターンクラスの領域をできる限り相互に
シャープに分離可能でなければならない。特徴獲得のための公知の技術は、主と
してディジタル信号処理法(特に行列展開)と音声生成または音声受容に対する
関数モデルとの組み合わせに基づく。
【0004】
【外1】
【0005】 音波は非定常的な信号であり、そのスペクトル特性は音声ごとに変化している
。音素内でさえアーティキュレーション法則のダイナミクスにより音声構造の連
続的な変化(2重母音)および急激な変化(破裂音および破擦音)が生じる。き
わめて短い時間区間、例えば5ms〜30msの間だけしか音声信号をほぼ定常
的であると見なすことはできない。
。音素内でさえアーティキュレーション法則のダイナミクスにより音声構造の連
続的な変化(2重母音)および急激な変化(破裂音および破擦音)が生じる。き
わめて短い時間区間、例えば5ms〜30msの間だけしか音声信号をほぼ定常
的であると見なすことはできない。
【0006】 音声信号の短時間の特徴はサンプリング時点mごとに計算しなくてもよい。音
声信号の25msのオーダのウィンドウ区間は10msのステップ時間で音声信
号により運動される。10msの時点ごとに特徴ベクトルが発生する。10ms
の時点でデータウィンドウ(25ms)の値のスペクトル特性および周期特性が
解析され、特徴ベクトルのかたちで記憶される。
声信号の25msのオーダのウィンドウ区間は10msのステップ時間で音声信
号により運動される。10msの時点ごとに特徴ベクトルが発生する。10ms
の時点でデータウィンドウ(25ms)の値のスペクトル特性および周期特性が
解析され、特徴ベクトルのかたちで記憶される。
【0007】 さらに音声のモデリングのための隠れマルコフモデルHMMが文献[2]から
知られる。語を音声的に生成する際には可変の持続時間と種々のスペクトル組成
とを有する連続的な音声が実現される。発話テンポおよび発話リズムに依存して
、発音における個々の音素セグメントのうち予測不能な数の特徴ベクトルが欠落
してしまう。各ベクトルは音素内容のほかに、話者、環境、および不明瞭な発音
に起因する情報成分を有しており、これらは音声による識別を著しく困難にする
。
知られる。語を音声的に生成する際には可変の持続時間と種々のスペクトル組成
とを有する連続的な音声が実現される。発話テンポおよび発話リズムに依存して
、発音における個々の音素セグメントのうち予測不能な数の特徴ベクトルが欠落
してしまう。各ベクトルは音素内容のほかに、話者、環境、および不明瞭な発音
に起因する情報成分を有しており、これらは音声による識別を著しく困難にする
。
【0008】 この状態は簡単に2段階のプロセスによってモデリングされ、これについては
図1の語“haben”についての実施例で示されている。この語の音素につい
てはモデル内に相応の数のステータス102〜106が保存され、これらのステ
ータスが音声生成のために矢印方向101に沿って経過する。それぞれのタイミ
ングクロックではその時点でのステータスにとどまるか、または次のステータス
へ移行することができる。システムは統計的に動作し、図示の移行の確率107
〜111によって定められる。例えば音素/a/に属するステータス103には
複数(平均で10個以上)の連続する短時間解析インターバルを越える時間がか
かり、これに対して破裂音/b/の実現は僅かな時間で応答される。
図1の語“haben”についての実施例で示されている。この語の音素につい
てはモデル内に相応の数のステータス102〜106が保存され、これらのステ
ータスが音声生成のために矢印方向101に沿って経過する。それぞれのタイミ
ングクロックではその時点でのステータスにとどまるか、または次のステータス
へ移行することができる。システムは統計的に動作し、図示の移行の確率107
〜111によって定められる。例えば音素/a/に属するステータス103には
複数(平均で10個以上)の連続する短時間解析インターバルを越える時間がか
かり、これに対して破裂音/b/の実現は僅かな時間で応答される。
【0009】 前述のランダムプロセスの第1段階では種々の発音バリエーションの時間的な
歪みがモデリングされ、第2段階ではスペクトルバリエーションが検出される。
語のモデルの各ステータスには統計的な出力関数が結びついており、この出力関
数では音素の実現選択肢が重みづけされている。図1の実施例では音素/a/の
生成に対して本来該当する音声のクラス113のほかに、正の確率(ここでは0
.1)を有する音声のクラス114も許容される。同様に音素/n/の生成につ
いては確率0.3の音声のクラス118も許容される。また前述の形式によれば
付加的な音声の消去の記述子も得られる。これはステータス105の“ブリッジ
”すなわちステータス104とステータス106との間の直接の移行により表さ
れている。このブリッジは例えば確率0.2で行われる。
歪みがモデリングされ、第2段階ではスペクトルバリエーションが検出される。
語のモデルの各ステータスには統計的な出力関数が結びついており、この出力関
数では音素の実現選択肢が重みづけされている。図1の実施例では音素/a/の
生成に対して本来該当する音声のクラス113のほかに、正の確率(ここでは0
.1)を有する音声のクラス114も許容される。同様に音素/n/の生成につ
いては確率0.3の音声のクラス118も許容される。また前述の形式によれば
付加的な音声の消去の記述子も得られる。これはステータス105の“ブリッジ
”すなわちステータス104とステータス106との間の直接の移行により表さ
れている。このブリッジは例えば確率0.2で行われる。
【0010】 隠れマルコフモデルの移行確率はトレーニングデータに基づいて求められる。
完全にトレーニングされた隠れマルコフモデルHMMは音声シーケンスの生成プ
ロトコルとなる(文献[2]127頁〜139頁を参照)。隠れマルコフモデルHMM
のトレーニング法としてBaum-Welchアルゴリズムを使用することが挙げられる。
完全にトレーニングされた隠れマルコフモデルHMMは音声シーケンスの生成プ
ロトコルとなる(文献[2]127頁〜139頁を参照)。隠れマルコフモデルHMM
のトレーニング法としてBaum-Welchアルゴリズムを使用することが挙げられる。
【0011】 ここでトレーニングされた隠れマルコフモデルHMMが音声認識すなわち自然
言語による表現とモデルとの比較にも、音声合成すなわちトレーニングデータに
基づく音声の生成にも使用可能であることを指摘しておく。
言語による表現とモデルとの比較にも、音声合成すなわちトレーニングデータに
基づく音声の生成にも使用可能であることを指摘しておく。
【0012】 冒頭で言及した10ms区間は特に音声合成に対する特徴ベクトルには充分で
ない。ただしこれ以上微細な時間分割を行うと、周知の機構では隠れマルコフモ
デルHMMのトレーニングの収束に欠陥が生じる。
ない。ただしこれ以上微細な時間分割を行うと、周知の機構では隠れマルコフモ
デルHMMのトレーニングの収束に欠陥が生じる。
【0013】 本発明の課題は、音声信号の特徴記述子を獲得して高いサンプリングレートで
記述力の高い特徴を得ることである。
記述力の高い特徴を得ることである。
【0014】 この課題は独立請求項に記載の特徴により解決される。本発明の他の実施形態
は従属請求項から得られる。
は従属請求項から得られる。
【0015】 この課題は音声信号の特徴記述子を求める方法において、第1の時間パターン
で第1の音声モデルをトレーニングし、第2の時間パターンで第2の音声モデル
をトレーニングし、第2の音声モデルを第1の音声モデルでイニシャライズする
ことにより解決される。
で第1の音声モデルをトレーニングし、第2の時間パターンで第2の音声モデル
をトレーニングし、第2の音声モデルを第1の音声モデルでイニシャライズする
ことにより解決される。
【0016】 別の実施形態では第2の時間パターンが第1の時間パターンよりも小さい。
【0017】 第1の音声モデルから得られた知識を用いたイニシャライズにより第2の音声
モデルはきわめて小さな第2の時間パターンに対しても収束し、これにより相応
の高分解能の音声信号の情報が供給される。音声合成ではまさにこの情報が必要
である。なぜなら合成すべき音の間の移行は高い時間分解能で精確にモデリング
することが困難だからである。
モデルはきわめて小さな第2の時間パターンに対しても収束し、これにより相応
の高分解能の音声信号の情報が供給される。音声合成ではまさにこの情報が必要
である。なぜなら合成すべき音の間の移行は高い時間分解能で精確にモデリング
することが困難だからである。
【0018】 一般に時間パターンはここでは音声信号のサンプリングが行われる反復レート
、または(冒頭で25ms幅とした)時間ウィンドウがシフトされる反復レート
であると解されたい。
、または(冒頭で25ms幅とした)時間ウィンドウがシフトされる反復レート
であると解されたい。
【0019】 別の実施形態では第2の音声モデルが第1の音声モデルのセグメント境界(Se
gmentgrenze)でイニシャライズされる。第1の音声モデル、有利には隠れマル
コフモデルHMMのトレーニングに関して、例えば音声/a/で可能な複数の代
理候補(Repraesentant)が見出される。これらの代理候補は音声/a/に対し
て第1の粗いセグメンテーションを設定する。この音声は第2の音声モデルに対
して基礎として利用され、第2の時間パターンにより精確な時間分解能で第1の
音声モデルを用いて見出された音声/a/の代理候補の精確な判別が可能となる
。新たなトレーニングが収束し、さらに第1の音声モデルと比べて一段と改善さ
れた音声の判別性ないし記述性が保証される。
gmentgrenze)でイニシャライズされる。第1の音声モデル、有利には隠れマル
コフモデルHMMのトレーニングに関して、例えば音声/a/で可能な複数の代
理候補(Repraesentant)が見出される。これらの代理候補は音声/a/に対し
て第1の粗いセグメンテーションを設定する。この音声は第2の音声モデルに対
して基礎として利用され、第2の時間パターンにより精確な時間分解能で第1の
音声モデルを用いて見出された音声/a/の代理候補の精確な判別が可能となる
。新たなトレーニングが収束し、さらに第1の音声モデルと比べて一段と改善さ
れた音声の判別性ないし記述性が保証される。
【0020】 別の実施形態では音声モデルは隠れマルコフモデルHMMであり、特に第2の
音声モデルのイニシャライズのためのセグメント境界は隠れマルコフモデルHM
Mのトレーニングの結果である。
音声モデルのイニシャライズのためのセグメント境界は隠れマルコフモデルHM
Mのトレーニングの結果である。
【0021】 別の実施形態では特徴記述子は特徴ベクトルである。
【0022】 別の実施形態では第1の時間パターンは4ms〜10msの範囲である。相応
に第2の時間パターンは0ms〜6msの範囲よりも大きい。
に第2の時間パターンは0ms〜6msの範囲よりも大きい。
【0023】 更なる実施形態では、前述の方法を音声処理、特に音声合成に使用する。
【0024】 音声合成に関して、重要なタスクは適切な音声の境界を包括的なトレーニング
材料(発話されたテキスト)から求める(“切り出す”)ことである。その際に
種々の音声、すなわち音素、ダイフォン、トライフォン、ハーフシラブル、シラ
ブル、語、結合語などが考慮される。特に個々の音声はコンテクストに照らして
切り出さなければならない。その際に左方コンテクストと右方コンテクストとは
区別しやすく、それぞれそれ自体で音声に結合されているか、または種々の長さ
のコンビネーションで音声に結合されている。このことの例(語のコンテクスト
)には次のようなものがある。“Verfahren zur Ermittlung einer Merkmalbesc
hreibung eines Sprachsignals”のなかの語“Ermittlung”を観察してみよう。
長さ1の右方コンテクストは語“einer”を含んでおり、相応に長さ1の左方コ
ンテクストは語“zur”を含んでいる。相応に種々の長さの別のコンテクストを
考慮することができる。
材料(発話されたテキスト)から求める(“切り出す”)ことである。その際に
種々の音声、すなわち音素、ダイフォン、トライフォン、ハーフシラブル、シラ
ブル、語、結合語などが考慮される。特に個々の音声はコンテクストに照らして
切り出さなければならない。その際に左方コンテクストと右方コンテクストとは
区別しやすく、それぞれそれ自体で音声に結合されているか、または種々の長さ
のコンビネーションで音声に結合されている。このことの例(語のコンテクスト
)には次のようなものがある。“Verfahren zur Ermittlung einer Merkmalbesc
hreibung eines Sprachsignals”のなかの語“Ermittlung”を観察してみよう。
長さ1の右方コンテクストは語“einer”を含んでおり、相応に長さ1の左方コ
ンテクストは語“zur”を含んでいる。相応に種々の長さの別のコンテクストを
考慮することができる。
【0025】 音声単位の長さと考慮すべきそれぞれのコンテクストとに相応して、セグメン
テーションの際には音声の間の境界を精確に検出することが重要となる。
テーションの際には音声の間の境界を精確に検出することが重要となる。
【0026】 また前述の課題は本発明の音声信号の特徴記述子を求める装置により解決され
る。この装置にはプロセッサユニットが設けられており、このプロセッサユニッ
トは第1の時間パターンで第1の音声信号をトレーニング可能であり、第2の時
間パターンで第2の音声モデルをトレーニング可能であり、第2の音声モデルは
第1の音声モデルによってイニシャライズされるように構成されていることを特
徴とする。
る。この装置にはプロセッサユニットが設けられており、このプロセッサユニッ
トは第1の時間パターンで第1の音声信号をトレーニング可能であり、第2の時
間パターンで第2の音声モデルをトレーニング可能であり、第2の音声モデルは
第1の音声モデルによってイニシャライズされるように構成されていることを特
徴とする。
【0027】 この装置は特に、本発明の方法または前述の実施形態を実施するのに適してい
る。
る。
【0028】 本発明の実施例を以下に図に即して説明する。図1には隠れマルコフモデルH
MMを用いた音声モデルの概略図が示されている。図2には音声信号の特徴記述
子を求める方法のブロック図が示されている。図3には所定の時間にわたる音声
信号の特徴抽出ないしセグメンテーションの様子が示されている。図4にはプロ
セッサユニットが示されている。
MMを用いた音声モデルの概略図が示されている。図2には音声信号の特徴記述
子を求める方法のブロック図が示されている。図3には所定の時間にわたる音声
信号の特徴抽出ないしセグメンテーションの様子が示されている。図4にはプロ
セッサユニットが示されている。
【0029】 図2には音声信号の特徴記述子を求める方法の動作の様子を表すブロック図が
示されている。ステップ201では第1の音声モデルが所定の第1の時間パター
ンt1にわたってトレーニングされる。この場合自然言語テキストのトレーニン
グ材料が隠れマルコフモデルのトレーニングに使用され、各サンプリング時点(
特にt1=6ms)で特徴ベクトルが音声信号から求められ、隠れマルコフモデ
ルHMMのトレーニングに使用される。隠れマルコフモデルHMMのトレーニン
グが終了した後、第1の音声モデル202が発生する。この音声モデル202に
基づいて音声を識別可能であり、そのセグメント境界(すなわち第1の音声モデ
ル内で求められた音声信号区間)を第2の隠れマルコフモデルHMMのトレーニ
ングに対するイニシャライゼーションとして利用できる。第2の音声モデルに基
づいて第2の時間パターンt2が生じ、ここでt2<t1(特にt2=2ms)
が成り立つ。第1のトレーニングから識別された区間による第2の隠れマルコフ
モデルHMMのトレーニングをイニシャライズすることにより第2の音声モデル
204も収束し、これにより音声モデル204は格段に高い時間分解能で形成さ
れる。したがって高い分解能を維持しつつ有意義なトレーニングが行われること
が保証される。
示されている。ステップ201では第1の音声モデルが所定の第1の時間パター
ンt1にわたってトレーニングされる。この場合自然言語テキストのトレーニン
グ材料が隠れマルコフモデルのトレーニングに使用され、各サンプリング時点(
特にt1=6ms)で特徴ベクトルが音声信号から求められ、隠れマルコフモデ
ルHMMのトレーニングに使用される。隠れマルコフモデルHMMのトレーニン
グが終了した後、第1の音声モデル202が発生する。この音声モデル202に
基づいて音声を識別可能であり、そのセグメント境界(すなわち第1の音声モデ
ル内で求められた音声信号区間)を第2の隠れマルコフモデルHMMのトレーニ
ングに対するイニシャライゼーションとして利用できる。第2の音声モデルに基
づいて第2の時間パターンt2が生じ、ここでt2<t1(特にt2=2ms)
が成り立つ。第1のトレーニングから識別された区間による第2の隠れマルコフ
モデルHMMのトレーニングをイニシャライズすることにより第2の音声モデル
204も収束し、これにより音声モデル204は格段に高い時間分解能で形成さ
れる。したがって高い分解能を維持しつつ有意義なトレーニングが行われること
が保証される。
【0030】 図3には音声信号301が時間tに関して示されている。音声信号は"Heute i
st schoenes Fruehlingswetter"というセンテンスである。音声信号の経過に基
づいて発音境界のセグメンテーションがあまり細かくないことがわかる。短い区
間(音声の移行を表す区間)の記述情報を抽出することにより、特に自動的な抽
出が可能となる。図3にはさらに特徴ベクトル(図2を参照)内に収容されてい
る情報から取り出し可能なエネルギ特性302が示されている。
st schoenes Fruehlingswetter"というセンテンスである。音声信号の経過に基
づいて発音境界のセグメンテーションがあまり細かくないことがわかる。短い区
間(音声の移行を表す区間)の記述情報を抽出することにより、特に自動的な抽
出が可能となる。図3にはさらに特徴ベクトル(図2を参照)内に収容されてい
る情報から取り出し可能なエネルギ特性302が示されている。
【0031】 図4にはプロセッサユニットPRZEが示されている。プロセッサユニットP
RZEはプロセッサCPU、メモリSPE、入出力インタフェースIOSを有し
ており、このユニットはインタフェースIFCを介して種々に利用される。グラ
フィックインタフェースを介して出力はモニタMONで可視に出力されるか、お
よび/またはプリンタPRTへ出力される。入力はマウスMASまたはキーボー
ドTASTを介して行われる。またプロセッサユニットPRZEにはデータバス
BUSが設けられており、このバスはメモリMEM、プロセッサCPUおよび入
出力インタフェースIOSの接続を保証している。さらにデータバスBUSへは
付加的なコンポーネント、例えば付加的なメモリ、データメモリ(ハードディス
ク)またはスキャナを接続することができる。
RZEはプロセッサCPU、メモリSPE、入出力インタフェースIOSを有し
ており、このユニットはインタフェースIFCを介して種々に利用される。グラ
フィックインタフェースを介して出力はモニタMONで可視に出力されるか、お
よび/またはプリンタPRTへ出力される。入力はマウスMASまたはキーボー
ドTASTを介して行われる。またプロセッサユニットPRZEにはデータバス
BUSが設けられており、このバスはメモリMEM、プロセッサCPUおよび入
出力インタフェースIOSの接続を保証している。さらにデータバスBUSへは
付加的なコンポーネント、例えば付加的なメモリ、データメモリ(ハードディス
ク)またはスキャナを接続することができる。
【0032】 参照文献リスト [1]E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.45-74 [2]E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.125-139
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.45-74 [2]E.G.Schukat-Talamazzini, "Automatische Spracherkennung-Grundlagen,
statistische Modelle und effiziente Algorithmen", Vieweg&Sohn Verlagsge
sellschaft mbH, Braunschweig/Wiesbaden 1995 p.125-139
【図1】 隠れマルコフモデルHMMを用いた音声モデルの概略図である。
【図2】 音声信号の特徴記述子を求める方法のブロック図である。
【図3】 所定の時間にわたる音声信号の特徴抽出ないしセグメンテーションを示す図で
ある。
ある。
【図4】 プロセッサユニットを示す図である。
Claims (11)
- 【請求項1】 a)第1の時間パターンで第1の音声モデルをトレーニング
し、 b)第2の時間パターンで第2の音声モデルをトレーニングし、第2の音声モデ
ルを第1の音声モデルでイニシャライズする、 ことを特徴とする音声信号の特徴記述子を求める方法。 - 【請求項2】 第2の時間パターンは第1の時間パターンよりも小さい、請
求項1記載の方法。 - 【請求項3】 第2の音声モデルを第1の音声モデルのセグメント境界でイ
ニシャライズする、請求項1または2記載の方法。 - 【請求項4】 音声モデルは隠れマルコフモデルである、請求項1から3ま
でのいずれか1項記載の方法。 - 【請求項5】 隠れマルコフモデルをトレーニングすることによりセグメン
ト境界を求める、請求項4記載の方法。 - 【請求項6】 特徴記述子は特徴ベクトルである、請求項1から5までのい
ずれか1項記載の方法。 - 【請求項7】 第1の時間パターンは4ms〜10msの範囲である、請求
項1から6までのいずれか1項記載の方法。 - 【請求項8】 第2の時間パターンは0ms〜6msの範囲よりも大きい、
請求項1から7までのいずれか1項記載の方法。 - 【請求項9】 音声処理システムに使用することを特徴とする請求項1から
8までのいずれか1項記載の音声信号の特徴記述子を求める方法。 - 【請求項10】 音声合成システムに使用することを特徴とする請求項1か
ら8までのいずれか1項記載の音声信号の特徴記述子を求める方法。 - 【請求項11】 プロセッサユニットが設けられており、該プロセッサユニ
ットは a)第1の時間パターンで第1の音声信号をトレーニング可能であり、 b)第2の時間パターンで第2の音声モデルをトレーニング可能であり、第2の
音声モデルは第1の音声モデルによってイニシャライズされる ように構成されている、 ことを特徴とする音声信号の特徴記述子を求める装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19910038 | 1999-03-08 | ||
DE19910038.1 | 1999-03-08 | ||
PCT/DE2000/000597 WO2000054256A1 (de) | 1999-03-08 | 2000-03-01 | Verfahren und anordnung zur ermittlung einer merkmalsbeschreibung eines sprachsignals |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002539483A true JP2002539483A (ja) | 2002-11-19 |
Family
ID=7900039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000604404A Pending JP2002539483A (ja) | 1999-03-08 | 2000-03-01 | 音声信号の特徴記述子を求める方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6523005B2 (ja) |
EP (1) | EP1159734B1 (ja) |
JP (1) | JP2002539483A (ja) |
DE (1) | DE50006493D1 (ja) |
WO (1) | WO2000054256A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176132A (ja) * | 2007-01-19 | 2008-07-31 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Families Citing this family (121)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
US8321427B2 (en) * | 2002-10-31 | 2012-11-27 | Promptu Systems Corporation | Method and apparatus for generation and augmentation of search terms from external and internal sources |
TWI224771B (en) * | 2003-04-10 | 2004-12-01 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
US7409347B1 (en) * | 2003-10-23 | 2008-08-05 | Apple Inc. | Data-driven global boundary optimization |
US7643990B1 (en) * | 2003-10-23 | 2010-01-05 | Apple Inc. | Global boundary-centric feature extraction and associated discontinuity metrics |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
EP3809407A1 (en) | 2013-02-07 | 2021-04-21 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
JP2016521948A (ja) | 2013-06-13 | 2016-07-25 | アップル インコーポレイテッド | 音声コマンドによって開始される緊急電話のためのシステム及び方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN110689902B (zh) * | 2019-12-11 | 2020-07-14 | 北京影谱科技股份有限公司 | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 |
CN111402867B (zh) * | 2020-04-21 | 2021-01-22 | 北京字节跳动网络技术有限公司 | 混合采样率声学模型训练方法、装置及电子设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5754978A (en) | 1995-10-27 | 1998-05-19 | Speech Systems Of Colorado, Inc. | Speech recognition system |
DE19706516C1 (de) | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
US6272463B1 (en) * | 1998-03-03 | 2001-08-07 | Lernout & Hauspie Speech Products N.V. | Multi-resolution system and method for speaker verification |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
-
2000
- 2000-03-01 EP EP00916777A patent/EP1159734B1/de not_active Expired - Lifetime
- 2000-03-01 DE DE50006493T patent/DE50006493D1/de not_active Expired - Fee Related
- 2000-03-01 JP JP2000604404A patent/JP2002539483A/ja active Pending
- 2000-03-01 WO PCT/DE2000/000597 patent/WO2000054256A1/de active IP Right Grant
-
2001
- 2001-09-10 US US09/950,434 patent/US6523005B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008176132A (ja) * | 2007-01-19 | 2008-07-31 | Casio Comput Co Ltd | 音声合成辞書構築装置、音声合成辞書構築方法、及び、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20020035469A1 (en) | 2002-03-21 |
US6523005B2 (en) | 2003-02-18 |
EP1159734A1 (de) | 2001-12-05 |
EP1159734B1 (de) | 2004-05-19 |
DE50006493D1 (de) | 2004-06-24 |
WO2000054256A1 (de) | 2000-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002539483A (ja) | 音声信号の特徴記述子を求める方法 | |
JP7445267B2 (ja) | 多言語テキスト音声合成モデルを利用した音声翻訳方法およびシステム | |
WO2020118521A1 (en) | Multi-speaker neural text-to-speech synthesis | |
US5682501A (en) | Speech synthesis system | |
JP6266372B2 (ja) | 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム | |
Rashad et al. | An overview of text-to-speech synthesis techniques | |
JP6127422B2 (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP2001265375A (ja) | 規則音声合成装置 | |
Hatala | Practical speech recognition with htk | |
Mullah | A comparative study of different text-to-speech synthesis techniques | |
Hatala | Speech recognition for Indonesian language and its application to home automation | |
Takaki et al. | Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012 | |
JP2021148942A (ja) | 声質変換システムおよび声質変換方法 | |
Sharma et al. | Recurrent neural network based approach to recognize assamese vowels using experimentally derived acoustic-phonetic features | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
Huckvale | 14 An Introduction to Phonetic Technology | |
JP2018041116A (ja) | 音声合成装置、音声合成方法およびプログラム | |
Balyan et al. | Development and implementation of Hindi TTS | |
Javidan et al. | Concatenative Synthesis of Persian Language Based on Word, Diphone and Triphone Databases | |
KR100608643B1 (ko) | 음성 합성 시스템의 억양 모델링 장치 및 방법 | |
RU160585U1 (ru) | Система распознавания речи с моделью вариативности произношения | |
Weiss et al. | Blizzard entry: Integrated voice building and synthesis for unit-selection tts | |
Nurk | Creation of HMM-based Speech Model for Estonian Text-to-Speech Synthesis. | |
Rao et al. | Prosody Modification | |
JPH07129193A (ja) | 音声出力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040415 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040917 |