JPH07168594A - スピーチ認識方法および装置 - Google Patents

スピーチ認識方法および装置

Info

Publication number
JPH07168594A
JPH07168594A JP6153901A JP15390194A JPH07168594A JP H07168594 A JPH07168594 A JP H07168594A JP 6153901 A JP6153901 A JP 6153901A JP 15390194 A JP15390194 A JP 15390194A JP H07168594 A JPH07168594 A JP H07168594A
Authority
JP
Japan
Prior art keywords
speech
stress
neural network
changes
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6153901A
Other languages
English (en)
Inventor
Michael Trompf
ミヒャエル・トロムプフ
Heidi Hackbarth
ハイディ・ハックバルト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent NV
Original Assignee
Alcatel NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel NV filed Critical Alcatel NV
Publication of JPH07168594A publication Critical patent/JPH07168594A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electric Clocks (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 本発明は、発声者の強勢の状態においても高
いスピーチ認識率を可能にするピーチ認識装置を提供す
ることを目的とする。 【構成】 スピーチを入力する装置E1 , E2 , E3 ,
と、神経ネットワークのための訓練を実行する第1の手
段Aと、神経ネットワークNNと、神経ネットワークN
Nへのアクセスを得るための手段によりスピーチ認識を
実行する第2の手段Bと、神経ネットワークNNの非線
形の映像特性を利用し、正常あるいは正常の雑音が減少
されたスピーチパターンに雑音の多い環境における強勢
によって影響されたスピーチパターンを写像する第3の
手段Cとを具備しているを特徴とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、強勢誘起(stress-ind
uced)発音変化を有するスピーチあるいは雑音の多い強
勢誘起発音変化を有するスピーチ認識方法および装置に
関する。
【0002】
【従来の技術】強勢の状態に基づくスピーチにおける変
化の研究は当業者においてすでに良く知られている。強
勢の状態に基づくスピーチにおける変化の効果は、発明
者Etienne Lombard 氏にちなんだ「ロンバード(Lombar
d )効果」として知られている。この効果は、例えば言
葉の存続時間および発音周波数が強勢によって変化する
ことである。言葉の存続時間は明白に増加する。この例
において、強勢は集中の一部あるいは大部分を要求する
非常に雑音の多い環境あるいは第2の活性を意味する。
【0003】自動スピーチ認識システムは発声者依存ス
ピーチおよび発声者に無関係のスピーチを認識させるよ
うに機能し、ロンバード効果に基づいたスピーチにおけ
る変化を考慮する特別な付加的な情報を使用する。それ
ぞれ異なる結果が発声者依存スピーチ認識および発声者
独立スピーチ認識に対して得られる。
【0004】例えばクラスタリング技術、確率的なモデ
ル化あるいは神経ネットワークのような伝統的な方法
は、スピーチ認識のための異なった可能性である。この
例における選択的に訓練された神経ネットワーク方法
は、ロンバード効果が減少されている孤立された言葉を
認識するために使用される。例えば、85%の認識の正
確さがこの方法で達成される(1992年のESCA Workshop
on Speech Processing inAdverse Condirions、43乃至5
1頁に記載)。
【0005】さらに、自動スピーチ認識のための方法は
当業者に知られており、スピーチの静的、動的および加
速特性を使用し、発声者に無関係のスピーチ認識を実行
する。その方法はロンバードタイプおよび雑音の多いス
ピーチのために使用され、異なる結果を生じる。個々の
方法の組合わせにより異なる結果が生じる。結果とし
て、特に発声者依存スピーチ認識に関する問題が生じる
(1990年、Applebaum IEEE ICASSP 1990、857 乃至860
頁に記載)。
【0006】環境的な発音変化の効果に基づいた自動ス
ピーチ認識方法は、ドイツ特許DE-4024 890.9 号明細書
により知られている。それにおいては、認識段階が終了
した後、新しい基準スピーチサンプルは、正確に認識さ
れたスピーチサンプルおよびその基準スピーチサンプル
の加重平均によって適合され、記憶される。さらに、例
えば、オフィス環境あるいは異なる速度の自動車におい
てシステムを使用するときに達成された結果の記載およ
び説明も公表されている(DAGA 1991,1 乃至3頁に記
載)。
【0007】雑音およびロンバード効果の発生における
自動スピーチ認識のためのLC−MBCE−HMMアル
ゴリズム(Lombard Compensation,Morphological Based
Constrained Enhancement,Hidden Markov Model)は、
当業者に知られている。この方法は、36.44%乃至
77.78%の認識率の改善を達成した(EUSIPCO 199
2、403 乃至406 頁に記載)。
【0008】
【発明が解決しようとする課題】ロンバード効果およ
び、または雑音の多いスピーチに関する全ての示された
処理および方法の認識率は増加される必要がある。発声
者の強勢の状態は、特にスピーチ認識装置が自動車ある
いはオフィスにおいて使用される時に非常に高い。スピ
ーチは、強勢状態により高速度の自動車においてかなり
変化する。それ故、本発明の目的は、高いスピーチ認識
率を可能にすることである。
【0009】
【課題を解決するための手段】本発明は、強勢誘起発音
変化または雑音の多い環境における強勢誘起発音変化を
有するスピーチ認識方法において、非線形映像特性を利
用している神経ネットワークが通常のスピーチパターン
に強勢によって変えられたスピーチパターンを写像し、
あるいは雑音が減少された通常のスピーチパターンに雑
音の多い環境における強勢によって変えられたスピーチ
パターンを写像することを特徴とする。本発明はまた、
強勢誘起発音変化あるいは雑音の多い環境における強勢
誘起発音変化を有するスピーチ認識装置において、スピ
ーチを入力する装置と、神経ネットワークのための訓練
を実行する第1の手段と、神経ネットワークと、この神
経ネットワークへのアクセスを得るための手段によりス
ピーチ認識を実行する第2の手段と、神経ネットワーク
の非線形の映像特性を利用し、正常あるいは正常の雑音
が減少されたスピーチパターンに雑音の多い環境におけ
る強勢によって影響されたスピーチパターンを写像する
第3の手段とを具備していることを特徴とする。
【0010】示された方法による特定の利点は、孤立さ
れた言葉に限定されないことである。示された方法は、
複数の言葉から成る文章を認識する。
【0011】さらに特別の利点は、発声者依存スピーチ
認識により良好な結果が得られることである。したがっ
て、この方法は問題なく発声者に依存するスピーチ認識
および発声者に無関係なスピーチ認識に使用されること
ができる。
【0012】この方法に関する別の重要な利点は、自動
訓練が神経ネットワークの使用により行われることであ
る。換言すれば、学習されるべき単語は複数回反復され
なければならない。
【0013】しかし、これは、同じ状態で全く同じ言葉
を繰り返すことは難しいので、きびしい要求である。し
かしながら、神経ネットワークは自動訓練の可能性のあ
る利点を有する。
【0014】さらに別の利点は、雑音のないスピーチパ
ターンに雑音の多いスピーチパターンを映す工程の目標
測定が神経ネットワークの訓練段階中に観測されること
ができることである。例えば、スピーチパターン間の2
次映像エラーの形成はエラーを最小にすることができ
る。通常の方法は、スピーチ認識装置によって認識さ
れ、スピーチ認識装置自体に対する付加的な依存性を要
求する言葉を最適化することを必要とする。
【0015】別の利点は、本発明の方法がロンバード効
果を減少させ、付加的な雑音を減少させるために他の方
法と組合わせられることである。
【0016】さらに効果的な構成は、請求項2乃至4お
よび6乃至7に記載されている。
【0017】請求項3によれば、特別の利点は、いわゆ
る線形の動的時間ワーピング(DTW)によって訓練段
階中にスピーチパターンを対応させるために探索するこ
とである。スピーチ適応により知られているこの方法
は、スピーチパターンを対応させるための探索に効果的
に貢献することができる。
【0018】請求項4によれば、多数の発声者に存在
し、時間と共に大きいあるいは小さい量で表される方言
およびアクセント依存発音変化が訓練されることができ
る。
【0019】
【実施例】以下図面を参照に本発明を詳細に説明する。
本発明による方法および装置によって、スピーチは、強
勢誘起発音変化を有するスピーチと、強勢誘起発音変化
および周囲の雑音を有するスピーチと、および強勢がな
く雑音のないスピーチとに分けられる。
【0020】ここで説明された構成例は、ロンバード効
果と呼ばれている強勢誘起発音変化および強勢のない発
音特性のみをアドレスする。発音の変化は、例えば高速
度で自動車を走らせるときのようなストレス状態におい
て起こる。本質的な特性は、前に説明されている。スピ
ーチ認識の場合、スピーチ認識装置に知られている言葉
は強勢のない状態で発音されており、特性における変化
はスピーチ認識装置には知られていないため、ストレス
下で話される言葉はもはや認識されないという問題が生
じる。
【0021】非線形の映像特性を有する神経ネットワー
クNNは、スピーチ認識を実行するために使用される。
この神経ネットワークNNは、非線形映像特性を使用し
て強勢誘起スピーチパターンあるいは強勢誘起および雑
音スピーチパターンを強勢のないあるいは強勢がなく雑
音が減少されたスピーチパターンにイメージする。
【0022】非線形の映像特性が使用されるとき、具体
的な映像機能が供給される必要はない。したがって、映
像機能のパラメータは個々の最適化を必要としないが、
全体的な映像はこのように最適化される。
【0023】強勢誘起発音変化あるいは雑音の多い環境
における強勢誘起発音変化を有するスピーチを認識する
装置は、スピーチE1 、E2 、E3 を入力する装置から
成る。
【0024】スピーチの第1の入力E1 は強勢のないス
ピーチを入力させるように機能し、スピーチの第2の入
力E2 は強勢誘起スピーチを入力させるように機能す
る。スピーチの第3の入力E3 は混合したスピーチを入
力させるように機能し、読込みスピーチが強勢のないス
ピーチおよび強勢誘起スピーチの両方が可能であること
を意味する。
【0025】装置はさらに、神経ネットワークNNの訓
練を実行している第1の手段Aを具備する。これらの第
1の手段Aは第1および第2の入力スピーチE1 および
2の両方をアクセスすることができる。
【0026】第1の手段Aから神経ネットワークNNへ
の接続が存在する。第1の手段Aは、後にさらに詳細に
説明されるように神経ネットワークNNを訓練する。
【0027】神経ネットワークNNは、訓練された神経
ネットワークNNにアクセスしている第2の手段Bに接
続されている。第2の手段Bはスピーチを認識するよう
に機能する。第2の手段Bによって認められている混合
したスピーチは、スピーチの第3の入力E3 を介して入
力される。
【0028】スピーチ認識用の装置は、神経ネットワー
クNNの非線形特性を利用して強勢のないスピーチパタ
ーンに強勢誘起スピーチパターンを映す第3の手段Cを
有する。
【0029】訓練段階中、強勢のないスピーチおよび強
勢誘起スピーチの両方は神経ネットワークNNの訓練を
する手段Aに与えられる。強勢のないスピーチと強勢誘
起スピーチの間の発音変化は規則的なパラメータ変化を
受けやすい。規則的なパラメータ変化は、典型的なデー
タ材料、すなわち強勢のない環境から得られたデータ材
料および自動車の運転中または雑音の多い環境での動作
中に得られるようなその他の環境の高いコストの集中で
得られたようなデータ材料から習得され、訓練される。
【0030】スピーチパターンの間のエラーは、例えば
2次映像エラーの形式によってすでに訓練段階中に最小
化されることができる。したがって、最適化は使用され
ているスピーチ認識装置と独立して行われることができ
る。
【0031】訓練段階が終了した後、その結果は訓練さ
れた神経ネットワークNNに供給され、常にスピーチ認
識のために利用可能である。
【0032】スピーチ認識装置の動作中、スピーチ認識
段階は、スピーチがスピーチの第3の入力E3 を介して
認識のために利用可能とされるとき、訓練された神経ネ
ットワークNNにおける第2の手段Bをアクセスする。
【0033】第3の手段Cは、強勢誘起スピーチパター
ンを強勢のないスピーチパターンに映させるように機能
する。これは、神経ネットワークの非線形特性の補助に
より行われる。
【0034】スピーチ認識のための第2の手段Bは、認
識された言葉を読み出すあるいはパスすることができ
る。
【0035】強勢のないスピーチパターンへ強勢誘起ス
ピーチパターンを映すことに加えて、上記された装置お
よび方法は付加的な雑音の減少を行うことができる。
【0036】上記説明された方法および装置は、方言誘
起発音変化がそれらの規則的なパラメータ変化に対して
訓練されるとき、方言あるいはアクセントによって変え
られるスピーチを認識するためにも使用されることがで
きる。
【0037】前に説明されたように、強勢のないスピー
チおよび強勢誘起スピーチは訓練段階中に利用可能でな
ければならない。しかしながら、例えば、ストレス下で
予め生成され、得られた言葉が強勢をなくすことは非常
に難しいので、強勢のないスピーチの発音は難しい。例
えば言語平面における期間変動は特に問題となる。例え
ば、幾つかの音節の言葉を強勢に基づいて、および強勢
なしに同一に再生することは困難である。
【0038】以下、図2による問題の解決について説明
する。可能性のある解決法は、非線形の動的時間ワーピ
ング(DTW)を使用することによってスピーチパター
ンにおける節を対応させるための探索である。非線形の
動的時間ワーピングはスピーチ適応から知られる標準的
なパターン認識方法であり、言語平面はスピーチの節に
対応するために探索され、神経ネットワークNNを訓練
するために使用される。
【0039】非線形の動的時間ワーピング、DTWの使
用の可能性は、図2に示されたような特徴ベクトル平面
における使用である。
【0040】話された言葉は、DTWによって特徴ベク
トルの定数k、例えばk=40に正規化される。言葉に
おける節に対応する位置の探索は、強勢のない特性ベク
トルおよび強勢誘起特性ベクトルの両方において行われ
る。DTWが対応している信号部分を発見したため、映
像のための神経ネットワークNNの訓練およびスピーチ
認識中のイメージングがベクトルベースにおいて行われ
る。
【0041】別の可能性(図示されていない)は、例え
ば音素(フォニーム)「ダイアフォン」(二重母音
?)、母音、子音、音節あるいは音節の一部のような言
葉のサブユニットに基いての使用である。この場合、言
葉のサブユニットの長さは同数の特徴ベクトルに正規化
される。対応している信号部分は、この方法によるDT
Wによって割当てられる。神経ネットワークNNの訓練
は言葉のサブユニット平面において行われ、強勢の効果
によるスピーチ変化の減少は特徴ベクトル平面あるいは
言葉のサブユニットに基いて行われる。
【0042】別の可能性は、全体的な言葉に対する正規
化である。スピーチにおける強勢効果の減少は、全体的
な言語平面においても行われる。
【図面の簡単な説明】
【図1】本発明の構成例のブロック回路図。
【図2】本発明の方法を実行する構成例のブロック回路
図。

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 強勢誘起発音変化または雑音の多い環境
    における強勢誘起発音変化を有するスピーチ認識方法に
    おいて、 非線形映像特性を利用している神経ネットワークが通常
    のスピーチパターンに強勢によって変えられたスピーチ
    パターンを写像し、あるいは雑音が減少された通常のス
    ピーチパターンに雑音の多い環境における強勢によって
    変えられたスピーチパターンを写像することを特徴とす
    るスピーチ認識方法。
  2. 【請求項2】 訓練段階中に、神経ネットワークがロン
    バード効果による強勢誘起発音変化および典型的なデー
    タに基づいた雑音の多い強勢誘起発音変化の規則的なパ
    ラメータ変化において訓練され、通常のスピーチパター
    ンあるいは訓練されたパラメータ変化によるスピーチ認
    識段階における雑音の減少された通常のスピーチパター
    ンへのイメージングが行われる請求項1記載の方法。
  3. 【請求項3】 神経ネットワークの訓練段階中に、探索
    が、通常のおよびロンバードスピーチパターンに対応
    し、あるいは動的時間ワーピングを使用している雑音の
    多いロンバードスピーチパターンに対応する節によって
    節を京成する請求項2記載の方法。
  4. 【請求項4】 神経ネットワークがアクセントおよび方
    言依存発音変化に対して訓練される請求項1記載の方
    法。
  5. 【請求項5】 強勢誘起発音変化あるいは雑音の多い環
    境における強勢誘起発音変化を有するスピーチを認識す
    る装置において、 スピーチを入力する装置と、 神経ネットワークのための訓練を実行する第1の手段
    と、 神経ネットワークと、 神経ネットワークへのアクセスを得るための手段により
    スピーチ認識を実行する第2の手段と、 神経ネットワークの非線形の映像特性を利用し、正常あ
    るいは正常の雑音が減少されたスピーチパターンに雑音
    の多い環境における強勢によって影響されたスピーチパ
    ターンを写像する第3の手段とを具備しているスピーチ
    を認識させる装置。
  6. 【請求項6】 第2の神経ネットワークが付加的な背景
    の雑音を減少させるために付加される請求項5記載の装
    置。
  7. 【請求項7】 付加的な背景の雑音を減少させる付加的
    な手段が設けられている請求項5記載の装置。
JP6153901A 1993-07-06 1994-07-05 スピーチ認識方法および装置 Pending JPH07168594A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE4322372A DE4322372A1 (de) 1993-07-06 1993-07-06 Verfahren und Vorrichtung zur Spracherkennung
DE4322372.9 1993-07-06

Publications (1)

Publication Number Publication Date
JPH07168594A true JPH07168594A (ja) 1995-07-04

Family

ID=6492014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6153901A Pending JPH07168594A (ja) 1993-07-06 1994-07-05 スピーチ認識方法および装置

Country Status (7)

Country Link
US (1) US5758022A (ja)
EP (1) EP0633559B1 (ja)
JP (1) JPH07168594A (ja)
AT (1) ATE183843T1 (ja)
AU (1) AU672696B2 (ja)
DE (2) DE4322372A1 (ja)
NZ (1) NZ260811A (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19813061A1 (de) * 1998-03-25 1999-09-30 Keck Klaus Vorrichtung zur Veränderung der in elektrischen Sprachsignalen enthaltenden Mikromodulationen
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
US7003455B1 (en) 2000-10-16 2006-02-21 Microsoft Corporation Method of noise reduction using correction and scaling vectors with partitioning of the acoustic space in the domain of noisy speech
US6876966B1 (en) * 2000-10-16 2005-04-05 Microsoft Corporation Pattern recognition training method and apparatus using inserted noise followed by noise reduction
WO2003017252A1 (de) * 2001-08-13 2003-02-27 Knittel, Jochen Verfahren und vorrichtung zum erkennen einer phonetischen lautfolge oder zeichenfolge
WO2003034402A1 (de) * 2001-10-11 2003-04-24 Siemens Aktiengesellschaft Verfahren zur erzeugung von sprachbausteine beschreibenden referenzsegmenten und verfahren zur modellierung von spracheinheiten eines gesprochenen testmusters
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US10438581B2 (en) * 2013-07-31 2019-10-08 Google Llc Speech recognition using neural networks
US9729957B1 (en) 2016-01-25 2017-08-08 Cirrus Logic, Inc. Dynamic frequency-dependent sidetone generation
US10255905B2 (en) * 2016-06-10 2019-04-09 Google Llc Predicting pronunciations with word stress
EP3640934B1 (en) 2018-10-19 2021-12-29 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0215718A (ja) * 1988-07-01 1990-01-19 A T R Jido Honyaku Denwa Kenkyusho:Kk 神経回路網モデルを用いた雑音除去装置
JPH0242495A (ja) * 1988-02-09 1990-02-13 Nec Corp スペクトル正規化装置
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5001761A (en) * 1988-02-09 1991-03-19 Nec Corporation Device for normalizing a speech spectrum
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods
US5278911A (en) * 1989-05-18 1994-01-11 Smiths Industries Public Limited Company Speech recognition using a neural net
JP2969862B2 (ja) * 1989-10-04 1999-11-02 松下電器産業株式会社 音声認識装置
DE69030561T2 (de) * 1989-12-28 1997-10-09 Sharp Kk Spracherkennungseinrichtung
DE4024890A1 (de) * 1990-08-06 1992-02-13 Standard Elektrik Lorenz Ag Anpassung von referenzsprachmustern an umgebungsbedingte aussprachevarianten
US5263107A (en) * 1991-01-31 1993-11-16 Sharp Kabushiki Kaisha Receptive field neural network with shift-invariant pattern recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0242495A (ja) * 1988-02-09 1990-02-13 Nec Corp スペクトル正規化装置
JPH0215718A (ja) * 1988-07-01 1990-01-19 A T R Jido Honyaku Denwa Kenkyusho:Kk 神経回路網モデルを用いた雑音除去装置
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置

Also Published As

Publication number Publication date
US5758022A (en) 1998-05-26
DE4322372A1 (de) 1995-01-12
NZ260811A (en) 1997-03-24
DE59408652D1 (de) 1999-09-30
EP0633559B1 (de) 1999-08-25
AU6597794A (en) 1995-01-19
AU672696B2 (en) 1996-10-10
EP0633559A3 (de) 1995-08-23
ATE183843T1 (de) 1999-09-15
EP0633559A2 (de) 1995-01-11

Similar Documents

Publication Publication Date Title
Nakamura et al. Differences between acoustic characteristics of spontaneous and read speech and their effects on speech recognition performance
US5865626A (en) Multi-dialect speech recognition method and apparatus
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
JPH07168594A (ja) スピーチ認識方法および装置
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
US5742928A (en) Apparatus and method for speech recognition in the presence of unnatural speech effects
JP2002014692A (ja) 音響モデル作成装置及びその方法
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
US20040117180A1 (en) Speaker adaptation of vocabulary for speech recognition
Shahnawazuddin et al. Effect of prosody modification on children's ASR
JPH075892A (ja) 音声認識方法
Shaikh Naziya et al. Speech recognition system—a review
JP4061094B2 (ja) 音声認識装置、その音声認識方法及びプログラム
JP2008046538A (ja) テキスト音声合成を支援するシステム
US5864809A (en) Modification of sub-phoneme speech spectral models for lombard speech recognition
Aggarwal et al. Integration of multiple acoustic and language models for improved Hindi speech recognition system
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
Bub et al. In-service adaptation of multilingual hidden-Markov-models
Gao et al. Multistage coarticulation model combining articulatory, formant and cepstral features.
Fernandez et al. Voice-transformation-based data augmentation for prosodic classification
Fischer et al. Database and online adaptation for improved speech recognition in car environments
US7139708B1 (en) System and method for speech recognition using an enhanced phone set
Junqua et al. Robustness in language and speech technology
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Lévy et al. Reducing computational and memory cost for cellular phone embedded speech recognition system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040907

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050215