JPH07168594A - スピーチ認識方法および装置 - Google Patents
スピーチ認識方法および装置Info
- Publication number
- JPH07168594A JPH07168594A JP6153901A JP15390194A JPH07168594A JP H07168594 A JPH07168594 A JP H07168594A JP 6153901 A JP6153901 A JP 6153901A JP 15390194 A JP15390194 A JP 15390194A JP H07168594 A JPH07168594 A JP H07168594A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- stress
- neural network
- changes
- normal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000009021 linear effect Effects 0.000 claims abstract description 9
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 230000000694 effects Effects 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 7
- 238000003384 imaging method Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 3
- 238000005312 nonlinear dynamic Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009022 nonlinear effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 241000534414 Anotopterus nikparini Species 0.000 description 1
- 241001413866 Diaphone Species 0.000 description 1
- 238000004833 X-ray photoelectron spectroscopy Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electric Clocks (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 本発明は、発声者の強勢の状態においても高
いスピーチ認識率を可能にするピーチ認識装置を提供す
ることを目的とする。 【構成】 スピーチを入力する装置E1 , E2 , E3 ,
と、神経ネットワークのための訓練を実行する第1の手
段Aと、神経ネットワークNNと、神経ネットワークN
Nへのアクセスを得るための手段によりスピーチ認識を
実行する第2の手段Bと、神経ネットワークNNの非線
形の映像特性を利用し、正常あるいは正常の雑音が減少
されたスピーチパターンに雑音の多い環境における強勢
によって影響されたスピーチパターンを写像する第3の
手段Cとを具備しているを特徴とする。
いスピーチ認識率を可能にするピーチ認識装置を提供す
ることを目的とする。 【構成】 スピーチを入力する装置E1 , E2 , E3 ,
と、神経ネットワークのための訓練を実行する第1の手
段Aと、神経ネットワークNNと、神経ネットワークN
Nへのアクセスを得るための手段によりスピーチ認識を
実行する第2の手段Bと、神経ネットワークNNの非線
形の映像特性を利用し、正常あるいは正常の雑音が減少
されたスピーチパターンに雑音の多い環境における強勢
によって影響されたスピーチパターンを写像する第3の
手段Cとを具備しているを特徴とする。
Description
【0001】
【産業上の利用分野】本発明は、強勢誘起(stress-ind
uced)発音変化を有するスピーチあるいは雑音の多い強
勢誘起発音変化を有するスピーチ認識方法および装置に
関する。
uced)発音変化を有するスピーチあるいは雑音の多い強
勢誘起発音変化を有するスピーチ認識方法および装置に
関する。
【0002】
【従来の技術】強勢の状態に基づくスピーチにおける変
化の研究は当業者においてすでに良く知られている。強
勢の状態に基づくスピーチにおける変化の効果は、発明
者Etienne Lombard 氏にちなんだ「ロンバード(Lombar
d )効果」として知られている。この効果は、例えば言
葉の存続時間および発音周波数が強勢によって変化する
ことである。言葉の存続時間は明白に増加する。この例
において、強勢は集中の一部あるいは大部分を要求する
非常に雑音の多い環境あるいは第2の活性を意味する。
化の研究は当業者においてすでに良く知られている。強
勢の状態に基づくスピーチにおける変化の効果は、発明
者Etienne Lombard 氏にちなんだ「ロンバード(Lombar
d )効果」として知られている。この効果は、例えば言
葉の存続時間および発音周波数が強勢によって変化する
ことである。言葉の存続時間は明白に増加する。この例
において、強勢は集中の一部あるいは大部分を要求する
非常に雑音の多い環境あるいは第2の活性を意味する。
【0003】自動スピーチ認識システムは発声者依存ス
ピーチおよび発声者に無関係のスピーチを認識させるよ
うに機能し、ロンバード効果に基づいたスピーチにおけ
る変化を考慮する特別な付加的な情報を使用する。それ
ぞれ異なる結果が発声者依存スピーチ認識および発声者
独立スピーチ認識に対して得られる。
ピーチおよび発声者に無関係のスピーチを認識させるよ
うに機能し、ロンバード効果に基づいたスピーチにおけ
る変化を考慮する特別な付加的な情報を使用する。それ
ぞれ異なる結果が発声者依存スピーチ認識および発声者
独立スピーチ認識に対して得られる。
【0004】例えばクラスタリング技術、確率的なモデ
ル化あるいは神経ネットワークのような伝統的な方法
は、スピーチ認識のための異なった可能性である。この
例における選択的に訓練された神経ネットワーク方法
は、ロンバード効果が減少されている孤立された言葉を
認識するために使用される。例えば、85%の認識の正
確さがこの方法で達成される(1992年のESCA Workshop
on Speech Processing inAdverse Condirions、43乃至5
1頁に記載)。
ル化あるいは神経ネットワークのような伝統的な方法
は、スピーチ認識のための異なった可能性である。この
例における選択的に訓練された神経ネットワーク方法
は、ロンバード効果が減少されている孤立された言葉を
認識するために使用される。例えば、85%の認識の正
確さがこの方法で達成される(1992年のESCA Workshop
on Speech Processing inAdverse Condirions、43乃至5
1頁に記載)。
【0005】さらに、自動スピーチ認識のための方法は
当業者に知られており、スピーチの静的、動的および加
速特性を使用し、発声者に無関係のスピーチ認識を実行
する。その方法はロンバードタイプおよび雑音の多いス
ピーチのために使用され、異なる結果を生じる。個々の
方法の組合わせにより異なる結果が生じる。結果とし
て、特に発声者依存スピーチ認識に関する問題が生じる
(1990年、Applebaum IEEE ICASSP 1990、857 乃至860
頁に記載)。
当業者に知られており、スピーチの静的、動的および加
速特性を使用し、発声者に無関係のスピーチ認識を実行
する。その方法はロンバードタイプおよび雑音の多いス
ピーチのために使用され、異なる結果を生じる。個々の
方法の組合わせにより異なる結果が生じる。結果とし
て、特に発声者依存スピーチ認識に関する問題が生じる
(1990年、Applebaum IEEE ICASSP 1990、857 乃至860
頁に記載)。
【0006】環境的な発音変化の効果に基づいた自動ス
ピーチ認識方法は、ドイツ特許DE-4024 890.9 号明細書
により知られている。それにおいては、認識段階が終了
した後、新しい基準スピーチサンプルは、正確に認識さ
れたスピーチサンプルおよびその基準スピーチサンプル
の加重平均によって適合され、記憶される。さらに、例
えば、オフィス環境あるいは異なる速度の自動車におい
てシステムを使用するときに達成された結果の記載およ
び説明も公表されている(DAGA 1991,1 乃至3頁に記
載)。
ピーチ認識方法は、ドイツ特許DE-4024 890.9 号明細書
により知られている。それにおいては、認識段階が終了
した後、新しい基準スピーチサンプルは、正確に認識さ
れたスピーチサンプルおよびその基準スピーチサンプル
の加重平均によって適合され、記憶される。さらに、例
えば、オフィス環境あるいは異なる速度の自動車におい
てシステムを使用するときに達成された結果の記載およ
び説明も公表されている(DAGA 1991,1 乃至3頁に記
載)。
【0007】雑音およびロンバード効果の発生における
自動スピーチ認識のためのLC−MBCE−HMMアル
ゴリズム(Lombard Compensation,Morphological Based
Constrained Enhancement,Hidden Markov Model)は、
当業者に知られている。この方法は、36.44%乃至
77.78%の認識率の改善を達成した(EUSIPCO 199
2、403 乃至406 頁に記載)。
自動スピーチ認識のためのLC−MBCE−HMMアル
ゴリズム(Lombard Compensation,Morphological Based
Constrained Enhancement,Hidden Markov Model)は、
当業者に知られている。この方法は、36.44%乃至
77.78%の認識率の改善を達成した(EUSIPCO 199
2、403 乃至406 頁に記載)。
【0008】
【発明が解決しようとする課題】ロンバード効果およ
び、または雑音の多いスピーチに関する全ての示された
処理および方法の認識率は増加される必要がある。発声
者の強勢の状態は、特にスピーチ認識装置が自動車ある
いはオフィスにおいて使用される時に非常に高い。スピ
ーチは、強勢状態により高速度の自動車においてかなり
変化する。それ故、本発明の目的は、高いスピーチ認識
率を可能にすることである。
び、または雑音の多いスピーチに関する全ての示された
処理および方法の認識率は増加される必要がある。発声
者の強勢の状態は、特にスピーチ認識装置が自動車ある
いはオフィスにおいて使用される時に非常に高い。スピ
ーチは、強勢状態により高速度の自動車においてかなり
変化する。それ故、本発明の目的は、高いスピーチ認識
率を可能にすることである。
【0009】
【課題を解決するための手段】本発明は、強勢誘起発音
変化または雑音の多い環境における強勢誘起発音変化を
有するスピーチ認識方法において、非線形映像特性を利
用している神経ネットワークが通常のスピーチパターン
に強勢によって変えられたスピーチパターンを写像し、
あるいは雑音が減少された通常のスピーチパターンに雑
音の多い環境における強勢によって変えられたスピーチ
パターンを写像することを特徴とする。本発明はまた、
強勢誘起発音変化あるいは雑音の多い環境における強勢
誘起発音変化を有するスピーチ認識装置において、スピ
ーチを入力する装置と、神経ネットワークのための訓練
を実行する第1の手段と、神経ネットワークと、この神
経ネットワークへのアクセスを得るための手段によりス
ピーチ認識を実行する第2の手段と、神経ネットワーク
の非線形の映像特性を利用し、正常あるいは正常の雑音
が減少されたスピーチパターンに雑音の多い環境におけ
る強勢によって影響されたスピーチパターンを写像する
第3の手段とを具備していることを特徴とする。
変化または雑音の多い環境における強勢誘起発音変化を
有するスピーチ認識方法において、非線形映像特性を利
用している神経ネットワークが通常のスピーチパターン
に強勢によって変えられたスピーチパターンを写像し、
あるいは雑音が減少された通常のスピーチパターンに雑
音の多い環境における強勢によって変えられたスピーチ
パターンを写像することを特徴とする。本発明はまた、
強勢誘起発音変化あるいは雑音の多い環境における強勢
誘起発音変化を有するスピーチ認識装置において、スピ
ーチを入力する装置と、神経ネットワークのための訓練
を実行する第1の手段と、神経ネットワークと、この神
経ネットワークへのアクセスを得るための手段によりス
ピーチ認識を実行する第2の手段と、神経ネットワーク
の非線形の映像特性を利用し、正常あるいは正常の雑音
が減少されたスピーチパターンに雑音の多い環境におけ
る強勢によって影響されたスピーチパターンを写像する
第3の手段とを具備していることを特徴とする。
【0010】示された方法による特定の利点は、孤立さ
れた言葉に限定されないことである。示された方法は、
複数の言葉から成る文章を認識する。
れた言葉に限定されないことである。示された方法は、
複数の言葉から成る文章を認識する。
【0011】さらに特別の利点は、発声者依存スピーチ
認識により良好な結果が得られることである。したがっ
て、この方法は問題なく発声者に依存するスピーチ認識
および発声者に無関係なスピーチ認識に使用されること
ができる。
認識により良好な結果が得られることである。したがっ
て、この方法は問題なく発声者に依存するスピーチ認識
および発声者に無関係なスピーチ認識に使用されること
ができる。
【0012】この方法に関する別の重要な利点は、自動
訓練が神経ネットワークの使用により行われることであ
る。換言すれば、学習されるべき単語は複数回反復され
なければならない。
訓練が神経ネットワークの使用により行われることであ
る。換言すれば、学習されるべき単語は複数回反復され
なければならない。
【0013】しかし、これは、同じ状態で全く同じ言葉
を繰り返すことは難しいので、きびしい要求である。し
かしながら、神経ネットワークは自動訓練の可能性のあ
る利点を有する。
を繰り返すことは難しいので、きびしい要求である。し
かしながら、神経ネットワークは自動訓練の可能性のあ
る利点を有する。
【0014】さらに別の利点は、雑音のないスピーチパ
ターンに雑音の多いスピーチパターンを映す工程の目標
測定が神経ネットワークの訓練段階中に観測されること
ができることである。例えば、スピーチパターン間の2
次映像エラーの形成はエラーを最小にすることができ
る。通常の方法は、スピーチ認識装置によって認識さ
れ、スピーチ認識装置自体に対する付加的な依存性を要
求する言葉を最適化することを必要とする。
ターンに雑音の多いスピーチパターンを映す工程の目標
測定が神経ネットワークの訓練段階中に観測されること
ができることである。例えば、スピーチパターン間の2
次映像エラーの形成はエラーを最小にすることができ
る。通常の方法は、スピーチ認識装置によって認識さ
れ、スピーチ認識装置自体に対する付加的な依存性を要
求する言葉を最適化することを必要とする。
【0015】別の利点は、本発明の方法がロンバード効
果を減少させ、付加的な雑音を減少させるために他の方
法と組合わせられることである。
果を減少させ、付加的な雑音を減少させるために他の方
法と組合わせられることである。
【0016】さらに効果的な構成は、請求項2乃至4お
よび6乃至7に記載されている。
よび6乃至7に記載されている。
【0017】請求項3によれば、特別の利点は、いわゆ
る線形の動的時間ワーピング(DTW)によって訓練段
階中にスピーチパターンを対応させるために探索するこ
とである。スピーチ適応により知られているこの方法
は、スピーチパターンを対応させるための探索に効果的
に貢献することができる。
る線形の動的時間ワーピング(DTW)によって訓練段
階中にスピーチパターンを対応させるために探索するこ
とである。スピーチ適応により知られているこの方法
は、スピーチパターンを対応させるための探索に効果的
に貢献することができる。
【0018】請求項4によれば、多数の発声者に存在
し、時間と共に大きいあるいは小さい量で表される方言
およびアクセント依存発音変化が訓練されることができ
る。
し、時間と共に大きいあるいは小さい量で表される方言
およびアクセント依存発音変化が訓練されることができ
る。
【0019】
【実施例】以下図面を参照に本発明を詳細に説明する。
本発明による方法および装置によって、スピーチは、強
勢誘起発音変化を有するスピーチと、強勢誘起発音変化
および周囲の雑音を有するスピーチと、および強勢がな
く雑音のないスピーチとに分けられる。
本発明による方法および装置によって、スピーチは、強
勢誘起発音変化を有するスピーチと、強勢誘起発音変化
および周囲の雑音を有するスピーチと、および強勢がな
く雑音のないスピーチとに分けられる。
【0020】ここで説明された構成例は、ロンバード効
果と呼ばれている強勢誘起発音変化および強勢のない発
音特性のみをアドレスする。発音の変化は、例えば高速
度で自動車を走らせるときのようなストレス状態におい
て起こる。本質的な特性は、前に説明されている。スピ
ーチ認識の場合、スピーチ認識装置に知られている言葉
は強勢のない状態で発音されており、特性における変化
はスピーチ認識装置には知られていないため、ストレス
下で話される言葉はもはや認識されないという問題が生
じる。
果と呼ばれている強勢誘起発音変化および強勢のない発
音特性のみをアドレスする。発音の変化は、例えば高速
度で自動車を走らせるときのようなストレス状態におい
て起こる。本質的な特性は、前に説明されている。スピ
ーチ認識の場合、スピーチ認識装置に知られている言葉
は強勢のない状態で発音されており、特性における変化
はスピーチ認識装置には知られていないため、ストレス
下で話される言葉はもはや認識されないという問題が生
じる。
【0021】非線形の映像特性を有する神経ネットワー
クNNは、スピーチ認識を実行するために使用される。
この神経ネットワークNNは、非線形映像特性を使用し
て強勢誘起スピーチパターンあるいは強勢誘起および雑
音スピーチパターンを強勢のないあるいは強勢がなく雑
音が減少されたスピーチパターンにイメージする。
クNNは、スピーチ認識を実行するために使用される。
この神経ネットワークNNは、非線形映像特性を使用し
て強勢誘起スピーチパターンあるいは強勢誘起および雑
音スピーチパターンを強勢のないあるいは強勢がなく雑
音が減少されたスピーチパターンにイメージする。
【0022】非線形の映像特性が使用されるとき、具体
的な映像機能が供給される必要はない。したがって、映
像機能のパラメータは個々の最適化を必要としないが、
全体的な映像はこのように最適化される。
的な映像機能が供給される必要はない。したがって、映
像機能のパラメータは個々の最適化を必要としないが、
全体的な映像はこのように最適化される。
【0023】強勢誘起発音変化あるいは雑音の多い環境
における強勢誘起発音変化を有するスピーチを認識する
装置は、スピーチE1 、E2 、E3 を入力する装置から
成る。
における強勢誘起発音変化を有するスピーチを認識する
装置は、スピーチE1 、E2 、E3 を入力する装置から
成る。
【0024】スピーチの第1の入力E1 は強勢のないス
ピーチを入力させるように機能し、スピーチの第2の入
力E2 は強勢誘起スピーチを入力させるように機能す
る。スピーチの第3の入力E3 は混合したスピーチを入
力させるように機能し、読込みスピーチが強勢のないス
ピーチおよび強勢誘起スピーチの両方が可能であること
を意味する。
ピーチを入力させるように機能し、スピーチの第2の入
力E2 は強勢誘起スピーチを入力させるように機能す
る。スピーチの第3の入力E3 は混合したスピーチを入
力させるように機能し、読込みスピーチが強勢のないス
ピーチおよび強勢誘起スピーチの両方が可能であること
を意味する。
【0025】装置はさらに、神経ネットワークNNの訓
練を実行している第1の手段Aを具備する。これらの第
1の手段Aは第1および第2の入力スピーチE1 および
E2の両方をアクセスすることができる。
練を実行している第1の手段Aを具備する。これらの第
1の手段Aは第1および第2の入力スピーチE1 および
E2の両方をアクセスすることができる。
【0026】第1の手段Aから神経ネットワークNNへ
の接続が存在する。第1の手段Aは、後にさらに詳細に
説明されるように神経ネットワークNNを訓練する。
の接続が存在する。第1の手段Aは、後にさらに詳細に
説明されるように神経ネットワークNNを訓練する。
【0027】神経ネットワークNNは、訓練された神経
ネットワークNNにアクセスしている第2の手段Bに接
続されている。第2の手段Bはスピーチを認識するよう
に機能する。第2の手段Bによって認められている混合
したスピーチは、スピーチの第3の入力E3 を介して入
力される。
ネットワークNNにアクセスしている第2の手段Bに接
続されている。第2の手段Bはスピーチを認識するよう
に機能する。第2の手段Bによって認められている混合
したスピーチは、スピーチの第3の入力E3 を介して入
力される。
【0028】スピーチ認識用の装置は、神経ネットワー
クNNの非線形特性を利用して強勢のないスピーチパタ
ーンに強勢誘起スピーチパターンを映す第3の手段Cを
有する。
クNNの非線形特性を利用して強勢のないスピーチパタ
ーンに強勢誘起スピーチパターンを映す第3の手段Cを
有する。
【0029】訓練段階中、強勢のないスピーチおよび強
勢誘起スピーチの両方は神経ネットワークNNの訓練を
する手段Aに与えられる。強勢のないスピーチと強勢誘
起スピーチの間の発音変化は規則的なパラメータ変化を
受けやすい。規則的なパラメータ変化は、典型的なデー
タ材料、すなわち強勢のない環境から得られたデータ材
料および自動車の運転中または雑音の多い環境での動作
中に得られるようなその他の環境の高いコストの集中で
得られたようなデータ材料から習得され、訓練される。
勢誘起スピーチの両方は神経ネットワークNNの訓練を
する手段Aに与えられる。強勢のないスピーチと強勢誘
起スピーチの間の発音変化は規則的なパラメータ変化を
受けやすい。規則的なパラメータ変化は、典型的なデー
タ材料、すなわち強勢のない環境から得られたデータ材
料および自動車の運転中または雑音の多い環境での動作
中に得られるようなその他の環境の高いコストの集中で
得られたようなデータ材料から習得され、訓練される。
【0030】スピーチパターンの間のエラーは、例えば
2次映像エラーの形式によってすでに訓練段階中に最小
化されることができる。したがって、最適化は使用され
ているスピーチ認識装置と独立して行われることができ
る。
2次映像エラーの形式によってすでに訓練段階中に最小
化されることができる。したがって、最適化は使用され
ているスピーチ認識装置と独立して行われることができ
る。
【0031】訓練段階が終了した後、その結果は訓練さ
れた神経ネットワークNNに供給され、常にスピーチ認
識のために利用可能である。
れた神経ネットワークNNに供給され、常にスピーチ認
識のために利用可能である。
【0032】スピーチ認識装置の動作中、スピーチ認識
段階は、スピーチがスピーチの第3の入力E3 を介して
認識のために利用可能とされるとき、訓練された神経ネ
ットワークNNにおける第2の手段Bをアクセスする。
段階は、スピーチがスピーチの第3の入力E3 を介して
認識のために利用可能とされるとき、訓練された神経ネ
ットワークNNにおける第2の手段Bをアクセスする。
【0033】第3の手段Cは、強勢誘起スピーチパター
ンを強勢のないスピーチパターンに映させるように機能
する。これは、神経ネットワークの非線形特性の補助に
より行われる。
ンを強勢のないスピーチパターンに映させるように機能
する。これは、神経ネットワークの非線形特性の補助に
より行われる。
【0034】スピーチ認識のための第2の手段Bは、認
識された言葉を読み出すあるいはパスすることができ
る。
識された言葉を読み出すあるいはパスすることができ
る。
【0035】強勢のないスピーチパターンへ強勢誘起ス
ピーチパターンを映すことに加えて、上記された装置お
よび方法は付加的な雑音の減少を行うことができる。
ピーチパターンを映すことに加えて、上記された装置お
よび方法は付加的な雑音の減少を行うことができる。
【0036】上記説明された方法および装置は、方言誘
起発音変化がそれらの規則的なパラメータ変化に対して
訓練されるとき、方言あるいはアクセントによって変え
られるスピーチを認識するためにも使用されることがで
きる。
起発音変化がそれらの規則的なパラメータ変化に対して
訓練されるとき、方言あるいはアクセントによって変え
られるスピーチを認識するためにも使用されることがで
きる。
【0037】前に説明されたように、強勢のないスピー
チおよび強勢誘起スピーチは訓練段階中に利用可能でな
ければならない。しかしながら、例えば、ストレス下で
予め生成され、得られた言葉が強勢をなくすことは非常
に難しいので、強勢のないスピーチの発音は難しい。例
えば言語平面における期間変動は特に問題となる。例え
ば、幾つかの音節の言葉を強勢に基づいて、および強勢
なしに同一に再生することは困難である。
チおよび強勢誘起スピーチは訓練段階中に利用可能でな
ければならない。しかしながら、例えば、ストレス下で
予め生成され、得られた言葉が強勢をなくすことは非常
に難しいので、強勢のないスピーチの発音は難しい。例
えば言語平面における期間変動は特に問題となる。例え
ば、幾つかの音節の言葉を強勢に基づいて、および強勢
なしに同一に再生することは困難である。
【0038】以下、図2による問題の解決について説明
する。可能性のある解決法は、非線形の動的時間ワーピ
ング(DTW)を使用することによってスピーチパター
ンにおける節を対応させるための探索である。非線形の
動的時間ワーピングはスピーチ適応から知られる標準的
なパターン認識方法であり、言語平面はスピーチの節に
対応するために探索され、神経ネットワークNNを訓練
するために使用される。
する。可能性のある解決法は、非線形の動的時間ワーピ
ング(DTW)を使用することによってスピーチパター
ンにおける節を対応させるための探索である。非線形の
動的時間ワーピングはスピーチ適応から知られる標準的
なパターン認識方法であり、言語平面はスピーチの節に
対応するために探索され、神経ネットワークNNを訓練
するために使用される。
【0039】非線形の動的時間ワーピング、DTWの使
用の可能性は、図2に示されたような特徴ベクトル平面
における使用である。
用の可能性は、図2に示されたような特徴ベクトル平面
における使用である。
【0040】話された言葉は、DTWによって特徴ベク
トルの定数k、例えばk=40に正規化される。言葉に
おける節に対応する位置の探索は、強勢のない特性ベク
トルおよび強勢誘起特性ベクトルの両方において行われ
る。DTWが対応している信号部分を発見したため、映
像のための神経ネットワークNNの訓練およびスピーチ
認識中のイメージングがベクトルベースにおいて行われ
る。
トルの定数k、例えばk=40に正規化される。言葉に
おける節に対応する位置の探索は、強勢のない特性ベク
トルおよび強勢誘起特性ベクトルの両方において行われ
る。DTWが対応している信号部分を発見したため、映
像のための神経ネットワークNNの訓練およびスピーチ
認識中のイメージングがベクトルベースにおいて行われ
る。
【0041】別の可能性(図示されていない)は、例え
ば音素(フォニーム)「ダイアフォン」(二重母音
?)、母音、子音、音節あるいは音節の一部のような言
葉のサブユニットに基いての使用である。この場合、言
葉のサブユニットの長さは同数の特徴ベクトルに正規化
される。対応している信号部分は、この方法によるDT
Wによって割当てられる。神経ネットワークNNの訓練
は言葉のサブユニット平面において行われ、強勢の効果
によるスピーチ変化の減少は特徴ベクトル平面あるいは
言葉のサブユニットに基いて行われる。
ば音素(フォニーム)「ダイアフォン」(二重母音
?)、母音、子音、音節あるいは音節の一部のような言
葉のサブユニットに基いての使用である。この場合、言
葉のサブユニットの長さは同数の特徴ベクトルに正規化
される。対応している信号部分は、この方法によるDT
Wによって割当てられる。神経ネットワークNNの訓練
は言葉のサブユニット平面において行われ、強勢の効果
によるスピーチ変化の減少は特徴ベクトル平面あるいは
言葉のサブユニットに基いて行われる。
【0042】別の可能性は、全体的な言葉に対する正規
化である。スピーチにおける強勢効果の減少は、全体的
な言語平面においても行われる。
化である。スピーチにおける強勢効果の減少は、全体的
な言語平面においても行われる。
【図1】本発明の構成例のブロック回路図。
【図2】本発明の方法を実行する構成例のブロック回路
図。
図。
Claims (7)
- 【請求項1】 強勢誘起発音変化または雑音の多い環境
における強勢誘起発音変化を有するスピーチ認識方法に
おいて、 非線形映像特性を利用している神経ネットワークが通常
のスピーチパターンに強勢によって変えられたスピーチ
パターンを写像し、あるいは雑音が減少された通常のス
ピーチパターンに雑音の多い環境における強勢によって
変えられたスピーチパターンを写像することを特徴とす
るスピーチ認識方法。 - 【請求項2】 訓練段階中に、神経ネットワークがロン
バード効果による強勢誘起発音変化および典型的なデー
タに基づいた雑音の多い強勢誘起発音変化の規則的なパ
ラメータ変化において訓練され、通常のスピーチパター
ンあるいは訓練されたパラメータ変化によるスピーチ認
識段階における雑音の減少された通常のスピーチパター
ンへのイメージングが行われる請求項1記載の方法。 - 【請求項3】 神経ネットワークの訓練段階中に、探索
が、通常のおよびロンバードスピーチパターンに対応
し、あるいは動的時間ワーピングを使用している雑音の
多いロンバードスピーチパターンに対応する節によって
節を京成する請求項2記載の方法。 - 【請求項4】 神経ネットワークがアクセントおよび方
言依存発音変化に対して訓練される請求項1記載の方
法。 - 【請求項5】 強勢誘起発音変化あるいは雑音の多い環
境における強勢誘起発音変化を有するスピーチを認識す
る装置において、 スピーチを入力する装置と、 神経ネットワークのための訓練を実行する第1の手段
と、 神経ネットワークと、 神経ネットワークへのアクセスを得るための手段により
スピーチ認識を実行する第2の手段と、 神経ネットワークの非線形の映像特性を利用し、正常あ
るいは正常の雑音が減少されたスピーチパターンに雑音
の多い環境における強勢によって影響されたスピーチパ
ターンを写像する第3の手段とを具備しているスピーチ
を認識させる装置。 - 【請求項6】 第2の神経ネットワークが付加的な背景
の雑音を減少させるために付加される請求項5記載の装
置。 - 【請求項7】 付加的な背景の雑音を減少させる付加的
な手段が設けられている請求項5記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4322372A DE4322372A1 (de) | 1993-07-06 | 1993-07-06 | Verfahren und Vorrichtung zur Spracherkennung |
DE4322372.9 | 1993-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07168594A true JPH07168594A (ja) | 1995-07-04 |
Family
ID=6492014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6153901A Pending JPH07168594A (ja) | 1993-07-06 | 1994-07-05 | スピーチ認識方法および装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US5758022A (ja) |
EP (1) | EP0633559B1 (ja) |
JP (1) | JPH07168594A (ja) |
AT (1) | ATE183843T1 (ja) |
AU (1) | AU672696B2 (ja) |
DE (2) | DE4322372A1 (ja) |
NZ (1) | NZ260811A (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19813061A1 (de) * | 1998-03-25 | 1999-09-30 | Keck Klaus | Vorrichtung zur Veränderung der in elektrischen Sprachsignalen enthaltenden Mikromodulationen |
US7016835B2 (en) * | 1999-10-29 | 2006-03-21 | International Business Machines Corporation | Speech and signal digitization by using recognition metrics to select from multiple techniques |
US7003455B1 (en) | 2000-10-16 | 2006-02-21 | Microsoft Corporation | Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech |
US6876966B1 (en) * | 2000-10-16 | 2005-04-05 | Microsoft Corporation | Pattern recognition training method and apparatus using inserted noise followed by noise reduction |
WO2003017252A1 (de) * | 2001-08-13 | 2003-02-27 | Knittel, Jochen | Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge |
WO2003034402A1 (de) * | 2001-10-11 | 2003-04-24 | Siemens Aktiengesellschaft | Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters |
US7117148B2 (en) | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US10438581B2 (en) * | 2013-07-31 | 2019-10-08 | Google Llc | Speech recognition using neural networks |
US9729957B1 (en) | 2016-01-25 | 2017-08-08 | Cirrus Logic, Inc. | Dynamic frequency-dependent sidetone generation |
US10255905B2 (en) * | 2016-06-10 | 2019-04-09 | Google Llc | Predicting pronunciations with word stress |
EP3640934B1 (en) | 2018-10-19 | 2021-12-29 | Samsung Electronics Co., Ltd. | Speech recognition method and apparatus |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0215718A (ja) * | 1988-07-01 | 1990-01-19 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 神経回路網モデルを用いた雑音除去装置 |
JPH0242495A (ja) * | 1988-02-09 | 1990-02-13 | Nec Corp | スペクトル正規化装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5001761A (en) * | 1988-02-09 | 1991-03-19 | Nec Corporation | Device for normalizing a speech spectrum |
US5228087A (en) * | 1989-04-12 | 1993-07-13 | Smiths Industries Public Limited Company | Speech recognition apparatus and methods |
US5278911A (en) * | 1989-05-18 | 1994-01-11 | Smiths Industries Public Limited Company | Speech recognition using a neural net |
JP2969862B2 (ja) * | 1989-10-04 | 1999-11-02 | 松下電器産業株式会社 | 音声認識装置 |
DE69030561T2 (de) * | 1989-12-28 | 1997-10-09 | Sharp Kk | Spracherkennungseinrichtung |
DE4024890A1 (de) * | 1990-08-06 | 1992-02-13 | Standard Elektrik Lorenz Ag | Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten |
US5263107A (en) * | 1991-01-31 | 1993-11-16 | Sharp Kabushiki Kaisha | Receptive field neural network with shift-invariant pattern recognition |
-
1993
- 1993-07-06 DE DE4322372A patent/DE4322372A1/de not_active Withdrawn
-
1994
- 1994-06-22 NZ NZ260811A patent/NZ260811A/en unknown
- 1994-06-27 AU AU65977/94A patent/AU672696B2/en not_active Ceased
- 1994-07-05 JP JP6153901A patent/JPH07168594A/ja active Pending
- 1994-07-05 EP EP94110416A patent/EP0633559B1/de not_active Expired - Lifetime
- 1994-07-05 AT AT94110416T patent/ATE183843T1/de not_active IP Right Cessation
- 1994-07-05 DE DE59408652T patent/DE59408652D1/de not_active Expired - Lifetime
- 1994-07-06 US US08/271,128 patent/US5758022A/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0242495A (ja) * | 1988-02-09 | 1990-02-13 | Nec Corp | スペクトル正規化装置 |
JPH0215718A (ja) * | 1988-07-01 | 1990-01-19 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 神経回路網モデルを用いた雑音除去装置 |
JPH0566795A (ja) * | 1991-09-06 | 1993-03-19 | Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho | 雑音抑圧装置とその調整装置 |
Also Published As
Publication number | Publication date |
---|---|
US5758022A (en) | 1998-05-26 |
DE4322372A1 (de) | 1995-01-12 |
NZ260811A (en) | 1997-03-24 |
DE59408652D1 (de) | 1999-09-30 |
EP0633559B1 (de) | 1999-08-25 |
AU6597794A (en) | 1995-01-19 |
AU672696B2 (en) | 1996-10-10 |
EP0633559A3 (de) | 1995-08-23 |
ATE183843T1 (de) | 1999-09-15 |
EP0633559A2 (de) | 1995-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nakamura et al. | Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
US6912499B1 (en) | Method and apparatus for training a multilingual speech model set | |
JPH07168594A (ja) | スピーチ認識方法および装置 | |
JP2001503154A (ja) | 音声認識システムにおける隠れマルコフ音声モデルの適合方法 | |
US5742928A (en) | Apparatus and method for speech recognition in the presence of unnatural speech effects | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
US11676572B2 (en) | Instantaneous learning in text-to-speech during dialog | |
US20040117180A1 (en) | Speaker adaptation of vocabulary for speech recognition | |
Shahnawazuddin et al. | Effect of prosody modification on children's ASR | |
JPH075892A (ja) | 音声認識方法 | |
Shaikh Naziya et al. | Speech recognition system—a review | |
JP4061094B2 (ja) | 音声認識装置、その音声認識方法及びプログラム | |
JP2008046538A (ja) | テキスト音声合成を支援するシステム | |
US5864809A (en) | Modification of sub-phoneme speech spectral models for lombard speech recognition | |
Aggarwal et al. | Integration of multiple acoustic and language models for improved Hindi speech recognition system | |
US7133827B1 (en) | Training speech recognition word models from word samples synthesized by Monte Carlo techniques | |
Bub et al. | In-service adaptation of multilingual hidden-Markov-models | |
Gao et al. | Multistage coarticulation model combining articulatory, formant and cepstral features. | |
Fernandez et al. | Voice-transformation-based data augmentation for prosodic classification | |
Fischer et al. | Database and online adaptation for improved speech recognition in car environments | |
US7139708B1 (en) | System and method for speech recognition using an enhanced phone set | |
Junqua et al. | Robustness in language and speech technology | |
Sharma et al. | Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art | |
Lévy et al. | Reducing computational and memory cost for cellular phone embedded speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040907 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20050215 |