JPH07168594A

JPH07168594A - スピーチ認識方法および装置

Info

Publication number: JPH07168594A
Application number: JP6153901A
Authority: JP
Inventors: Michael Trompf; ミヒャエル・トロムプフ; Heidi Hackbarth; ハイディ・ハックバルト
Original assignee: Alcatel NV
Current assignee: Alcatel Lucent NV
Priority date: 1993-07-06
Filing date: 1994-07-05
Publication date: 1995-07-04
Also published as: US5758022A; DE4322372A1; NZ260811A; DE59408652D1; EP0633559B1; AU6597794A; AU672696B2; EP0633559A3; ATE183843T1; EP0633559A2

Abstract

(57)【要約】【目的】本発明は、発声者の強勢の状態においても高
いスピーチ認識率を可能にするピーチ認識装置を提供す
ることを目的とする。【構成】スピーチを入力する装置Ｅ₁, Ｅ₂, Ｅ₃,
と、神経ネットワークのための訓練を実行する第１の手
段Ａと、神経ネットワークＮＮと、神経ネットワークＮ
Ｎへのアクセスを得るための手段によりスピーチ認識を
実行する第２の手段Ｂと、神経ネットワークＮＮの非線
形の映像特性を利用し、正常あるいは正常の雑音が減少
されたスピーチパターンに雑音の多い環境における強勢
によって影響されたスピーチパターンを写像する第３の
手段Ｃとを具備しているを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、強勢誘起（stress-ind
uced）発音変化を有するスピーチあるいは雑音の多い強
勢誘起発音変化を有するスピーチ認識方法および装置に
関する。

【０００２】

【従来の技術】強勢の状態に基づくスピーチにおける変
化の研究は当業者においてすでに良く知られている。強
勢の状態に基づくスピーチにおける変化の効果は、発明
者Etienne Lombard 氏にちなんだ「ロンバード（Lombar
d ）効果」として知られている。この効果は、例えば言
葉の存続時間および発音周波数が強勢によって変化する
ことである。言葉の存続時間は明白に増加する。この例
において、強勢は集中の一部あるいは大部分を要求する
非常に雑音の多い環境あるいは第２の活性を意味する。

【０００３】自動スピーチ認識システムは発声者依存ス
ピーチおよび発声者に無関係のスピーチを認識させるよ
うに機能し、ロンバード効果に基づいたスピーチにおけ
る変化を考慮する特別な付加的な情報を使用する。それ
ぞれ異なる結果が発声者依存スピーチ認識および発声者
独立スピーチ認識に対して得られる。

【０００４】例えばクラスタリング技術、確率的なモデ
ル化あるいは神経ネットワークのような伝統的な方法
は、スピーチ認識のための異なった可能性である。この
例における選択的に訓練された神経ネットワーク方法
は、ロンバード効果が減少されている孤立された言葉を
認識するために使用される。例えば、８５％の認識の正
確さがこの方法で達成される（1992年のESCA Workshop
on Speech Processing inAdverse Condirions、43乃至5
1頁に記載）。

【０００５】さらに、自動スピーチ認識のための方法は
当業者に知られており、スピーチの静的、動的および加
速特性を使用し、発声者に無関係のスピーチ認識を実行
する。その方法はロンバードタイプおよび雑音の多いス
ピーチのために使用され、異なる結果を生じる。個々の
方法の組合わせにより異なる結果が生じる。結果とし
て、特に発声者依存スピーチ認識に関する問題が生じる
（1990年、Applebaum IEEE ICASSP 1990、857 乃至860
頁に記載）。

【０００６】環境的な発音変化の効果に基づいた自動ス
ピーチ認識方法は、ドイツ特許DE-4024 890.9 号明細書
により知られている。それにおいては、認識段階が終了
した後、新しい基準スピーチサンプルは、正確に認識さ
れたスピーチサンプルおよびその基準スピーチサンプル
の加重平均によって適合され、記憶される。さらに、例
えば、オフィス環境あるいは異なる速度の自動車におい
てシステムを使用するときに達成された結果の記載およ
び説明も公表されている（DAGA 1991,1 乃至3頁に記
載）。

【０００７】雑音およびロンバード効果の発生における
自動スピーチ認識のためのＬＣ−ＭＢＣＥ−ＨＭＭアル
ゴリズム（Lombard Compensation,Morphological Based
Constrained Enhancement,Hidden Markov Model）は、
当業者に知られている。この方法は、３６．４４％乃至
７７．７８％の認識率の改善を達成した（EUSIPCO 199
2、403 乃至406 頁に記載）。

【０００８】

【発明が解決しようとする課題】ロンバード効果およ
び、または雑音の多いスピーチに関する全ての示された
処理および方法の認識率は増加される必要がある。発声
者の強勢の状態は、特にスピーチ認識装置が自動車ある
いはオフィスにおいて使用される時に非常に高い。スピ
ーチは、強勢状態により高速度の自動車においてかなり
変化する。それ故、本発明の目的は、高いスピーチ認識
率を可能にすることである。

【０００９】

【課題を解決するための手段】本発明は、強勢誘起発音
変化または雑音の多い環境における強勢誘起発音変化を
有するスピーチ認識方法において、非線形映像特性を利
用している神経ネットワークが通常のスピーチパターン
に強勢によって変えられたスピーチパターンを写像し、
あるいは雑音が減少された通常のスピーチパターンに雑
音の多い環境における強勢によって変えられたスピーチ
パターンを写像することを特徴とする。本発明はまた、
強勢誘起発音変化あるいは雑音の多い環境における強勢
誘起発音変化を有するスピーチ認識装置において、スピ
ーチを入力する装置と、神経ネットワークのための訓練
を実行する第１の手段と、神経ネットワークと、この神
経ネットワークへのアクセスを得るための手段によりス
ピーチ認識を実行する第２の手段と、神経ネットワーク
の非線形の映像特性を利用し、正常あるいは正常の雑音
が減少されたスピーチパターンに雑音の多い環境におけ
る強勢によって影響されたスピーチパターンを写像する
第３の手段とを具備していることを特徴とする。

【００１０】示された方法による特定の利点は、孤立さ
れた言葉に限定されないことである。示された方法は、
複数の言葉から成る文章を認識する。

【００１１】さらに特別の利点は、発声者依存スピーチ
認識により良好な結果が得られることである。したがっ
て、この方法は問題なく発声者に依存するスピーチ認識
および発声者に無関係なスピーチ認識に使用されること
ができる。

【００１２】この方法に関する別の重要な利点は、自動
訓練が神経ネットワークの使用により行われることであ
る。換言すれば、学習されるべき単語は複数回反復され
なければならない。

【００１３】しかし、これは、同じ状態で全く同じ言葉
を繰り返すことは難しいので、きびしい要求である。し
かしながら、神経ネットワークは自動訓練の可能性のあ
る利点を有する。

【００１４】さらに別の利点は、雑音のないスピーチパ
ターンに雑音の多いスピーチパターンを映す工程の目標
測定が神経ネットワークの訓練段階中に観測されること
ができることである。例えば、スピーチパターン間の２
次映像エラーの形成はエラーを最小にすることができ
る。通常の方法は、スピーチ認識装置によって認識さ
れ、スピーチ認識装置自体に対する付加的な依存性を要
求する言葉を最適化することを必要とする。

【００１５】別の利点は、本発明の方法がロンバード効
果を減少させ、付加的な雑音を減少させるために他の方
法と組合わせられることである。

【００１６】さらに効果的な構成は、請求項２乃至４お
よび６乃至７に記載されている。

【００１７】請求項３によれば、特別の利点は、いわゆ
る線形の動的時間ワーピング（ＤＴＷ）によって訓練段
階中にスピーチパターンを対応させるために探索するこ
とである。スピーチ適応により知られているこの方法
は、スピーチパターンを対応させるための探索に効果的
に貢献することができる。

【００１８】請求項４によれば、多数の発声者に存在
し、時間と共に大きいあるいは小さい量で表される方言
およびアクセント依存発音変化が訓練されることができ
る。

【００１９】

【実施例】以下図面を参照に本発明を詳細に説明する。
本発明による方法および装置によって、スピーチは、強
勢誘起発音変化を有するスピーチと、強勢誘起発音変化
および周囲の雑音を有するスピーチと、および強勢がな
く雑音のないスピーチとに分けられる。

【００２０】ここで説明された構成例は、ロンバード効
果と呼ばれている強勢誘起発音変化および強勢のない発
音特性のみをアドレスする。発音の変化は、例えば高速
度で自動車を走らせるときのようなストレス状態におい
て起こる。本質的な特性は、前に説明されている。スピ
ーチ認識の場合、スピーチ認識装置に知られている言葉
は強勢のない状態で発音されており、特性における変化
はスピーチ認識装置には知られていないため、ストレス
下で話される言葉はもはや認識されないという問題が生
じる。

【００２１】非線形の映像特性を有する神経ネットワー
クＮＮは、スピーチ認識を実行するために使用される。
この神経ネットワークＮＮは、非線形映像特性を使用し
て強勢誘起スピーチパターンあるいは強勢誘起および雑
音スピーチパターンを強勢のないあるいは強勢がなく雑
音が減少されたスピーチパターンにイメージする。

【００２２】非線形の映像特性が使用されるとき、具体
的な映像機能が供給される必要はない。したがって、映
像機能のパラメータは個々の最適化を必要としないが、
全体的な映像はこのように最適化される。

【００２３】強勢誘起発音変化あるいは雑音の多い環境
における強勢誘起発音変化を有するスピーチを認識する
装置は、スピーチＥ₁、Ｅ₂、Ｅ₃を入力する装置から
成る。

【００２４】スピーチの第１の入力Ｅ₁は強勢のないス
ピーチを入力させるように機能し、スピーチの第２の入
力Ｅ₂は強勢誘起スピーチを入力させるように機能す
る。スピーチの第３の入力Ｅ₃は混合したスピーチを入
力させるように機能し、読込みスピーチが強勢のないス
ピーチおよび強勢誘起スピーチの両方が可能であること
を意味する。

【００２５】装置はさらに、神経ネットワークＮＮの訓
練を実行している第１の手段Ａを具備する。これらの第
１の手段Ａは第１および第２の入力スピーチＥ₁および
Ｅ₂の両方をアクセスすることができる。

【００２６】第１の手段Ａから神経ネットワークＮＮへ
の接続が存在する。第１の手段Ａは、後にさらに詳細に
説明されるように神経ネットワークＮＮを訓練する。

【００２７】神経ネットワークＮＮは、訓練された神経
ネットワークＮＮにアクセスしている第２の手段Ｂに接
続されている。第２の手段Ｂはスピーチを認識するよう
に機能する。第２の手段Ｂによって認められている混合
したスピーチは、スピーチの第３の入力Ｅ₃を介して入
力される。

【００２８】スピーチ認識用の装置は、神経ネットワー
クＮＮの非線形特性を利用して強勢のないスピーチパタ
ーンに強勢誘起スピーチパターンを映す第３の手段Ｃを
有する。

【００２９】訓練段階中、強勢のないスピーチおよび強
勢誘起スピーチの両方は神経ネットワークＮＮの訓練を
する手段Ａに与えられる。強勢のないスピーチと強勢誘
起スピーチの間の発音変化は規則的なパラメータ変化を
受けやすい。規則的なパラメータ変化は、典型的なデー
タ材料、すなわち強勢のない環境から得られたデータ材
料および自動車の運転中または雑音の多い環境での動作
中に得られるようなその他の環境の高いコストの集中で
得られたようなデータ材料から習得され、訓練される。

【００３０】スピーチパターンの間のエラーは、例えば
２次映像エラーの形式によってすでに訓練段階中に最小
化されることができる。したがって、最適化は使用され
ているスピーチ認識装置と独立して行われることができ
る。

【００３１】訓練段階が終了した後、その結果は訓練さ
れた神経ネットワークＮＮに供給され、常にスピーチ認
識のために利用可能である。

【００３２】スピーチ認識装置の動作中、スピーチ認識
段階は、スピーチがスピーチの第３の入力Ｅ₃を介して
認識のために利用可能とされるとき、訓練された神経ネ
ットワークＮＮにおける第２の手段Ｂをアクセスする。

【００３３】第３の手段Ｃは、強勢誘起スピーチパター
ンを強勢のないスピーチパターンに映させるように機能
する。これは、神経ネットワークの非線形特性の補助に
より行われる。

【００３４】スピーチ認識のための第２の手段Ｂは、認
識された言葉を読み出すあるいはパスすることができ
る。

【００３５】強勢のないスピーチパターンへ強勢誘起ス
ピーチパターンを映すことに加えて、上記された装置お
よび方法は付加的な雑音の減少を行うことができる。

【００３６】上記説明された方法および装置は、方言誘
起発音変化がそれらの規則的なパラメータ変化に対して
訓練されるとき、方言あるいはアクセントによって変え
られるスピーチを認識するためにも使用されることがで
きる。

【００３７】前に説明されたように、強勢のないスピー
チおよび強勢誘起スピーチは訓練段階中に利用可能でな
ければならない。しかしながら、例えば、ストレス下で
予め生成され、得られた言葉が強勢をなくすことは非常
に難しいので、強勢のないスピーチの発音は難しい。例
えば言語平面における期間変動は特に問題となる。例え
ば、幾つかの音節の言葉を強勢に基づいて、および強勢
なしに同一に再生することは困難である。

【００３８】以下、図２による問題の解決について説明
する。可能性のある解決法は、非線形の動的時間ワーピ
ング（ＤＴＷ）を使用することによってスピーチパター
ンにおける節を対応させるための探索である。非線形の
動的時間ワーピングはスピーチ適応から知られる標準的
なパターン認識方法であり、言語平面はスピーチの節に
対応するために探索され、神経ネットワークＮＮを訓練
するために使用される。

【００３９】非線形の動的時間ワーピング、ＤＴＷの使
用の可能性は、図２に示されたような特徴ベクトル平面
における使用である。

【００４０】話された言葉は、ＤＴＷによって特徴ベク
トルの定数ｋ、例えばｋ＝４０に正規化される。言葉に
おける節に対応する位置の探索は、強勢のない特性ベク
トルおよび強勢誘起特性ベクトルの両方において行われ
る。ＤＴＷが対応している信号部分を発見したため、映
像のための神経ネットワークＮＮの訓練およびスピーチ
認識中のイメージングがベクトルベースにおいて行われ
る。

【００４１】別の可能性（図示されていない）は、例え
ば音素（フォニーム）「ダイアフォン」（二重母音
？）、母音、子音、音節あるいは音節の一部のような言
葉のサブユニットに基いての使用である。この場合、言
葉のサブユニットの長さは同数の特徴ベクトルに正規化
される。対応している信号部分は、この方法によるＤＴ
Ｗによって割当てられる。神経ネットワークＮＮの訓練
は言葉のサブユニット平面において行われ、強勢の効果
によるスピーチ変化の減少は特徴ベクトル平面あるいは
言葉のサブユニットに基いて行われる。

【００４２】別の可能性は、全体的な言葉に対する正規
化である。スピーチにおける強勢効果の減少は、全体的
な言語平面においても行われる。

【図面の簡単な説明】

【図１】本発明の構成例のブロック回路図。

【図２】本発明の方法を実行する構成例のブロック回路
図。

Claims

【特許請求の範囲】

【請求項１】強勢誘起発音変化または雑音の多い環境
における強勢誘起発音変化を有するスピーチ認識方法に
おいて、非線形映像特性を利用している神経ネットワークが通常
のスピーチパターンに強勢によって変えられたスピーチ
パターンを写像し、あるいは雑音が減少された通常のス
ピーチパターンに雑音の多い環境における強勢によって
変えられたスピーチパターンを写像することを特徴とす
るスピーチ認識方法。
【請求項２】訓練段階中に、神経ネットワークがロン
バード効果による強勢誘起発音変化および典型的なデー
タに基づいた雑音の多い強勢誘起発音変化の規則的なパ
ラメータ変化において訓練され、通常のスピーチパター
ンあるいは訓練されたパラメータ変化によるスピーチ認
識段階における雑音の減少された通常のスピーチパター
ンへのイメージングが行われる請求項１記載の方法。
【請求項３】神経ネットワークの訓練段階中に、探索
が、通常のおよびロンバードスピーチパターンに対応
し、あるいは動的時間ワーピングを使用している雑音の
多いロンバードスピーチパターンに対応する節によって
節を京成する請求項２記載の方法。
【請求項４】神経ネットワークがアクセントおよび方
言依存発音変化に対して訓練される請求項１記載の方
法。
【請求項５】強勢誘起発音変化あるいは雑音の多い環
境における強勢誘起発音変化を有するスピーチを認識す
る装置において、スピーチを入力する装置と、神経ネットワークのための訓練を実行する第１の手段
と、神経ネットワークと、神経ネットワークへのアクセスを得るための手段により
スピーチ認識を実行する第２の手段と、神経ネットワークの非線形の映像特性を利用し、正常あ
るいは正常の雑音が減少されたスピーチパターンに雑音
の多い環境における強勢によって影響されたスピーチパ
ターンを写像する第３の手段とを具備しているスピーチ
を認識させる装置。
【請求項６】第２の神経ネットワークが付加的な背景
の雑音を減少させるために付加される請求項５記載の装
置。
【請求項７】付加的な背景の雑音を減少させる付加的
な手段が設けられている請求項５記載の装置。