JPH11506845A

JPH11506845A - 実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法及びこの方法を実施する装置

Info

Publication number: JPH11506845A
Application number: JP9511639A
Authority: JP
Inventors: シュタムラーヴァルター; クラスフリッツ; メラーカルステン−ウーヴェ; ニュスレゲルハルト; レーフランク; ブッシュキュールブルカルト; ハインリヒクリスティアン
Original assignee: ダイムラー−ベンツエーロスペイスアクチエンゲゼルシャフト; ダイムラー−ベンツアクチエンゲゼルシャフト
Priority date: 1995-09-11
Filing date: 1996-09-09
Publication date: 1999-06-15
Anticipated expiration: 2016-09-09
Also published as: EP0852051B1; ATE211572T1; WO1997010583A1; JP3479691B2; CA2231504C; DE59608614D1; EP0852051A1; US6839670B1; DE19533541C1; CA2231504A1; ES2170870T3

Abstract

(57)【要約】本発明は、音声対話による機器の自動制御方法が適用される音声対話システムに関し、この音声対話システムは、音声出力、音声信号前処理及び音声認識、構文的文法的後処理及び対話制御、シーケンス制御及びインターフェース制御のための方法を利用し、この音声対話システムは、構文構造及び命令構造が実時間対話作動の間に固定され、前処理、認識及び対話制御が、雑音を伴う環境の中での作動のために形成され、一般的命令の認識のためにユーザによるトレーニングは不要であり、音声入力のための１つの命令を形成する単語の数が可変であり、音声対話の実時間処理及び実時間実行が可能であり、音声入出力がハンドフリーモードで行われることを特徴とする。

Description

【発明の詳細な説明】実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法及びこの方法を実施する装置本発明は、請求項１の上位概念に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法と、請求項４６の上位概念に記載のこの方法を実施する装置とに関する。この形式の方法及び装置は一般的に、例えば自動車、コンピュータロボット、機械、装置等のためのいわゆる音声対話システム又は音声操作システムにおいて使用される。音声対話システム（ＳＤＳ）は一般的に次の構成要素に帰することが可能である。・音声認識システム。音声認識システムは、話者が発声した命令（”音声命令 ”）を別の許容される音声命令と比較し、いずれの命令が最も高い確率で話者が発声したかを決定する。・音声出力装置。音声出力装置は、ユーザ案内のために必要な音声命令とシグナリングトーンとを出力し、場合に応じて認識結果を応答する。・対話及びシーケンス制御装置。対話及びシーケンス制御装置は、いずれの種類の入力が予測されるかをユーザに明瞭にするか又は、行われた入力が要求及びアプリケーションの瞬時のステータスと一致しているかどうかを検査し、そして、アプリケーション（例えば制御する機器）において結果のアクションをトリガする。・アプリケーションへのインターフェースとしてのコントロールインターフェース。コントロールインターフェースは、アプリケーションを含む種々のアクチュエータ及び計算機を制御するためのハードウェア及びソフトウェアモジュールを含んでいる。・音声により制御されるアプリケーション。これは例えば注文システム又は情報提供システム、ＣＡＥ作業場所又は障害者用車椅子等であることもある。本明細書は、説明した方法の一般的な適用性を制限することなしに音声認識、対話構造及び自動車搭載の特別のアプリケーションに集中している。公知の解決法における問題点は次のようである。ａ）その都度の話者の特性又は変化する語彙にシステムを適合調整するために大きいコストのトレーニングを実行する必要性。システムは完全に話者独立型であるか又は完全に話者依存型すなわち話者適応型であり、後者はそれぞれの新ユーザのためにトレーニングを必要とする。これは時間がかかり、話者が頻繁に交替する場合には操作快適性を著しく低減する。この理由から従来のシステムにおいては語彙規模は、話者が交替し個々の話者の時間不足を考慮しなければならないアプリケーションにおいて小さい。ｂ）操作快適性が不充分であり、これは次のように現れる。 − 認識信頼性を保証するために語彙が最小に制限される。 − １つの命令の単一単語を孤立して（すなわち中休みをおいて）入力する。 − 誤りを認識するために単一単語が確認応答されなければならない。 − 多重の機能を制御するために多段対話ハイアラーキを処理しなければならない。 − マイクロフォンを手に取らなくてはならないか又はヘッドセット（ヘッドホーンとリップマイクロフォンとの組合せ）を着用しなければならない。ｃ）ロバスト性が、 − 操作誤りに対して、 − 障害環境雑音に対して無い。ｄ）特に中間及び小さい個数においてハードウェア実現にコストがかかり高価になる。本発明の課題は一方では、できるだけ小さいコストで１つ又は複数の機器を音声命令により又は音声対話により確実に実時間作動で制御される又は操作されることを可能にする方法を提供することにある。更に、この本発明の方法を実施する適切な装置を提供することにある。前記課題の本発明の解決法は、この本発明の方法において請求項１の特徴部分に記載の特徴により表され、本発明の装置においては請求項４６の特徴部分に記載の特徴により表される。その他の請求項は本発明の方法の有利な実施の形態（請求項２〜４５）及び本発明の装置の有利な実施の形態（請求項４７〜５８）を含む。本発明の１つの重要な利点は、比較的小さいコストにより音声命令による又は音声対話による機器の高信頼性の制御又は操作が可能であることにある。１つの更なる重要な利点は、音声命令又は音声対話の実行における自然な話し方に大幅に適合調整された入力が可能であり、このために話者に高信頼性の命令の大規模な語彙が使用可能に提供されることにある。第３の利点は、システムがエラートレランスで動作し、本発明の１つの有利な実施の形態では例えば話者により入力された音声命令の中の信頼性のない単語、名前、音又は単語位置変更でも通常はそのまま認識され、これらの入力された音声命令から話者が本当に希望した音声命令が抽出される。次に本発明が図を用いて詳細に説明される。図１は本発明の方法を実施するための本発明の装置の１つの有利な実施の形態（”音声対話システム”）のブロック回路図、図２は図１の実際の音声対話システムを詳細に示すブロック回路図、図３は図２の音声対話システムのための入力された音声命令のセグメンテーションの１つの有利な実施の形態のフローチャート、図４及び５は隠れマルコフモデルの実施の形態の略線図、図６は図２の音声対話システムの１つの有利な実施の形態のハードウェア構成を示すブロック回路図、図７は電話の音声制御操作のための図２の音声対話システムの適用のための状態線図、図８は図７の電話の操作のためのフローチャート、図９及び１０は図８のフローチャートの電話の操作での機能”名前選択”（図９）又は”番号選択 ”（図１０）のためのフローチャートである。図１の次に説明する音声対話システム（ＳＤＳ）は、（マイクロフォン２の記号により示されている）音声入力装置、音声認識装置、対話制御装置及びシーケンス制御装置、通信及びコントロールインターフェース、（スピーカ３が接続されている）音声出力装置、（例として）アプリケーションすなわちＳＤＳにより制御する又は操作する機器を構成要素として含む。ＳＤＳ及びアプリケーションは共働して音声操作システム（ＳＢＳ）を形成し、音声操作システムは実時間（”オンライン”）で作動される。構文及び対話構造と、すべてのユーザ／話者にとって拘束的な基本音声命令とは”オフライン”で（例として）ＳＤＳ又はＳＢＳの外部で”オフライン対話エディタモード”４の中のＰＣワークステーションを用いて作成され、固定され、プリセットされるべきパラメータ及びシーケンス構造及びシーケンス構造と一緒にＳＤＳ又はＳＢＳに作動開始前にデータファイルの形で供給される。図１のＳＤＳは図２において詳細に示されている。（図示されていない）マイクロフォンがアナログ／ディジタル変換器に接続され、アナログ／ディジタル変換器はエコー補償、雑音低減及びセグメンテーションのための装置を介して、話者独立型連続単語音声認識器と、話者依存型音声認識器とに接続されている。双方の音声認識器は出力側で、認識器出力信号の構文的文法的及び意味的処理のための後処理装置に接続されている。この後処理装置も対話制御装置及びシーケンス制御装置に接続され、対話制御装置とシーケンス制御装置は、ＳＤＳと、ＳＤＳにより制御する機器とを制御する制御装置を形成する。更に音声入出力装置が設けられ、音声入出力装置は音声エンコーダ、音声デコーダ及び音声メモリから成る。音声エンコーダは入力側において雑音低減装置に接続され、出力側において音声メモリに接続されている。音声メモリは出力側において音声デコーダに接続され、音声デコーダは出力側においてデジタル／アナログ変換器を介して（図示されていない）スピーカに接続されている。エコー補償装置はインターフェースを介して、場合に応じて補償する（図中” オーディオ”により示されている）オーディオ信号を供給する（図示されていない）機器／センサに接続されている。話者独立型連続単語音声認識器は一方では、特徴抽出装置を有し、特徴抽出装置においてケプストラム形成と、とりわけ入力信号のアナログ伝達特性への認識器の適応とが行われ、他方、話者独立型連続単語音声認識器は、後置接続されているクラス分け装置を有する。話者依存型音声認識器も一方では、特徴抽出装置を有し、他方、クラス分け装置を有する。しかし付加的に切換えスイッチを介してクラス分け装置の代りに話者特有付加的音声命令装置に切換え接続可能であり、話者特有付加的音声命令装置はトレーニングフェーズにおいてＳＤＳの実時間作動の前、間又は後に認識器によりトレーニングされなければならない。話者依存型認識器は例えばダイナミック時間歪法すなわちＤＴＷ（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ）法で動作し、このＤＴＷ法により話者依存型認識器のクラス分け装置は、認識する命令と事前トレーニングされたリファレンスパターンを検出し、最小距離を有するリファレンスパターンを、認識する命令として識別する。話者依存型認識器は、話者独立型音声認識器において適用される特徴抽出法（ケプストラム形成、適応等）により動作することが可能である。出力側において双方の認識器は、認識器出力信号の構文的文法的及び意味的処理装置に接続されている（この装置の役割及び機能は後に説明される）。出力側において後処理装置に対話制御装置が後置接続され、対話制御装置はシーケンス制御装置に接続されている。対話制御装置とシーケンス制御装置とは共働してＳＤＳ制御装置を形成し、ＳＤＳ制御装置は前処理装置、音声入出力装置、双方の認識器、後処理装置、通信及びコントロールインターフェースも制御し、制御する又は操作する機器も（図２に示されているように適切なインターフェースを介して）制御する。次にＳＤＳの動作を詳細に説明する。ＳＤＳは前述のように、入力音声命令を認識するための２つのタイプの音声認識器を含む。双方の認識に対して次のように特徴付けることが可能である。・話者独立型認識器：連続して話された複数の単語の話者独立型認識。これにより一般的な制御命令、数字、名前、文字等を認識することが可能であり、しかもその際、使用された単語の１つ又は複数に対して話者又はユーザを前もってトレーニングすることは不要である。更に連続単語モードでの入力を行うことが可能である、すなわち複数の単語、数字、名前の組合せが１つの命令を形成し、この命令は一気にすなわち休み無しに話される（例えば命令：”半径１の円”）。クラス分けアルゴリズムにおいてＨＭＭ（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌすなわち隠れマルコフモデル）認識器が用いられ、この認識器は実質的に音素（音韻の最小単位）及び／又は全単語モデルを認識して、それらから単語又は命令を形成する。語彙及び語彙から形成される命令（”構文構造”）は前もって実験室で固定され、認識器にデータファイルの形で供給される（”オフライン対話編集モード”）。実時間作動において独立型認識器の語彙及び構文構造をユーザにより変更することはできない。・話者依存型認識器：ユーザ／話者が定義しトレーニングするユーザ／話者特有の名前又は機能の話者依存型認識。ユーザ／話者は、名前リスト、機能リスト等の形の個人的語彙を形成する又は編集することが可能である。これによりユーザ／話者は彼の個人的語彙を選択し、この語彙をいつでも”オンライン”すなわち実時間作動で彼の必要性に適合することが可能である。電話環境の中での用途の例として”名前リスト”、すなわち電話加入者の名前の個人的にユーザ／話者により作成されたリストが挙げられ、その際、・トレーニングフェーズにおけるそれぞれの名前は一度又は複数回ユーザにより発声され（例えば”ウィリーおじさん”）、この名前にキー入力によりしかし有利には独立型音声認識器により電話番号が割当てられ、・前述のトレーニング及び番号割当ての終了後にはユーザは話者依存型認識器に名前（”ウィリーおじさん”）のみを言い、システムに既に知られている所属の電話番号は言わない。話者依存型認識器は、・最も簡単な形では孤立単語認識器として形成され、・高性能の形では連続単語認識器として形成され、連続単語認識器は継目無しに話者独立型認識器に結合されている。（例えば”ウィリーおじさんを呼出す” を完全な命令として、ただし単語”呼出す”は話者独立型語彙の一部であり、” ウィリーおじさん”は話者依存型語彙の一部である）。音声認識に続いて後処理装置において、双方の音声認識器のある所定の認識確率を伴う結果の後処理が実行される。話者独立型連続単語音声認識器は例えば複数の文仮定を、認識確率を表す順序で供給する。この文仮定は通常は既に、許容される構文構造を考慮している。これが当てはまらない場合、構文的後処理（図２）の中で、許容されない単語列が選択除去されるか又は種々の基準に従って、これらの単語列の中に出現する単語組合せはいかなる確率を有するかが評価される。更に、音声認識器により生成された文仮定がそれらの意味的なリーズナブルネスについて計算され、次いで最大の確率の仮定が選択される。正しく認識された音声命令は対話制御装置に供給され、次いで、アプリケーションへのこの音声コマンドに割当てられているアクションが行われ、メッセージはコントロールインターフェースを介して供給される。場合に応じて、認識された音声命令は対話制御装置により音声出力装置にも（のみに）供給されて出力される。概略的に説明されたシステムは”オンライン”作動で、固定された構文及び命令構造により、そして、（話者独立型認識器の）固定された語彙と例えば（話者依存型認識器の）名前等の自由に定義可能な語彙との組合せとを特徴とする。この最初は剛性に見えるフレームは、例えば雑音を伴う環境において等の（現在の時点では数百の単語までの）大きい語彙量において、乗客室の中の変化する音響状態において、及び異なる複数の話者において高い認識性能のための前提条件である。大きい語彙量は、ユーザフレンドリ性を、同義語又は異なる表現変形の使用により高めるために使用される。構文も、単語を音声命令に変換することを可能にし、例えば、 ”左側の円において大きな半径” 又は代替的に、 ”大きな半径の左側の円において”、ただし代替は最初から”オフライン対話エディタ”における取決めの際に定義されなければならない。前述のアプローチは特に次の理由から有利である。・命令の連続単語入力が、孤立単語入力に比して自然かつ迅速である。実際の上での使用により分かったことは、無頓着なユーザは、多単語命令を入力するために（明瞭な中休みにより）途切れ途切れに話すことに慣れることが困難なことである（従ってこのようなシステムの容認は大幅に低い）。・例えば連続形の数字又は文字列等の入力は、個別入力に比して容易であり要求される集中力が低い。・対話の実行がより自然である、何故ならば例えば数字列においてそれぞれの単一数字が確認応答される必要がなく、入力された数字ブロックのみが確認応答されればよいからである。・例えば数百に及ぶ単語の語彙に起因して１つの音声毎に、以前は手動操作を必要とした多数の機能が操作可能である。・手動切換え素子の数が低減されるか又は音声入力の際に手を別の個所例えば機関の品質コントロールにおいて使用可能である。本システムにおいて操作快適性は、ヘッドセット（ヘッドホーン及びリップマイクロフォン）又はハンドマイクロフォンの代りに（又はの補足に）ハンドフリー形マイクロフォンを使用する利点により更に高められる。しかしハンドフリーマイクロフォンの使用は通常は、例えば対話スピーカ又はその他のスピーカから到来する信号の、高性能雑音低減装置（図２）及び場合に応じてエコー補償を必要とする。しかしアプリケーション又は雑音レベルに依存してこれらの方法は、ヘッドセット又はハンドマイクロフォンの使用においても必要であることもある。エコー補償によりユーザ／話者は特に、音声出力中に口を挟むことが可能となる、すなわち音声出力がアクティブである間に認識器に話しかけることが可能となる。更に実験室において”オフライン対話エディタ”により何時でも語彙及び命令を変化することが可能であり、しかもその際、これは、話者独立型認識器の新単語のための多数の話者により新トレーニングを必要としない。その理由は、実験室において話者独立型音素及び／又は話者独立型全単語モデルのためのデータバンクが存在し、これらの音素又は全単語モデルからその時の開発環境にて、簡単に新単語及び新命令を生成することが可能であることにある。最後に、命令又は語彙の変化は、実験室において開発システムにより計算された新パラメータ及びデータをデータファイルとして話者独立型”実時間認識器”に伝送して、そこでメモリに格納することを目的としている。ＳＤＳにより、ＳＤＳが組込まれているコンピュータの中の機能も、外部の機器も操作することが可能である。ＳＤＳは例えばＰＣＭＣＩＡインターフェースの外に、外部機器にとってアクセス可能であるインターフェースも有する。これは例えばＶ．２４インターフェース、光データ制御バス、ＣＡＮインターフェース等である。選択的にＳＤＳは更なるインターフェースを設けられることが可能である。ＳＤＳは有利には、プッシュツウトーク（ｐｕｓｈ −ｔｏ−ｔａｌｋ）キー（ＰＴＴキー）の作動により又は定められているキーワードによりアクティブにされる。スイッチオフは、ＳＤＳによりプリセットされた又は適応的にその都度のユーザのために調整設定された時間の経過後及び／又はＳＤＳの問合せの後に音声入力が行われない場合、又はユーザにより選択された対話が予定通りに終了した場合（例えば所望の電話番号が電話に接続形成のために伝送された場合）、対応する音声命令（”中断命令”）を対話の定められた個所に入力することにより、又は何時でもＰＴＴキー又は中断キーの作動により、又は自動的に内部のシーケンス制御装置により行われる。低雑音環境においてＳＤＳを連続的にもアクティブにすることが可能である。シーケンスの説明ここで、図２のＳＤＳは、本発明により可能な音声対話システムのための１つの例にすぎないことを強調しておく。データ入力又はデータ出力又は接続されている構成要素の制御装置へのインターフェースの構成もここでは単に例として示されているにすぎない。図２に示されている機能ブロックが次に詳細に説明される。１．エコー補償：エコー補償を介して例えば音声出力装置又はスイッチオンされたラジオのディジタル化されたスピーカ信号が適応形フィルタアルゴリズムを介してマイクロフォン信号から減算される。フィルタアルゴリズムはスピーカからマイクロフォンへのエコーパスをシミュレートする。２．雑音低減：雑音低減により、ディジタル化された音声信号の定常の環境雑音と準定常の環境雑音とを区別することが可能であり、これらの雑音を音声信号から減算することが可能である。この種類の雑音は例えば自動車における走行雑音、実験室及び事務所における環境雑音、及び工場内の換気装置又は機械雑音等である。３．セグメンテーション図３に示されているようにセグメンテーションは、スペクトル変換されたデータを基礎にしている。このために信号はブロック毎にいわゆる”フレーム”に統合され高速フーリエ変換（ＦＦＴ）により周波数領域内に変換される。音声領域（〜２００Ｈｚから〜６ＫＨｚまで）が聴覚を基準として個々の周波数領域（” チャネル”）に分割される、聴覚を基準としているＭＥＬフィルタすなわち音の高さのメロディー的感受をシミュレートしたフィルタにより値形成及び重み付けによりスペクトル値はチャネルベクトルに統合され、チャネルベクトルは、異なる周波数帯域における出力を示す。次いで、恒久的にアクティブであり命令開始及び命令終了を粗に検出する粗セグメンテーションが行われ、次いで正確な限界を定める微細セグメンテーションが行われる。４．特徴抽出特徴抽出器は、複数の段にわたるディジタル化されセグメント化された音声信号から特徴ベクトルを計算し、所属の正規化されたエネルギー値を求める。このために話者独立型認識器においてチャネルベクトルは離散コサイン変換（ＤＣＴ）によりケプストラムベクトルに変換される。付加的に信号のエネルギーが計算され、正規化される。これに平行してケプストラム値の連続的な平均値計算が行われ、これは認識器を瞬時の話者にも、例えばマイクロフォン及びチャネル（話者→マイクロフォン）の伝達特性にも適応することを目的としている。ケプストラムベクトルは、この適応された平均値が差引かれ、前に計算された正規化されたエネルギーによりいわゆるＣＭＦ（ＣｅｐｓｔｒａｌｋｏｅｆｆｉｚｉｅｒｔｅｎＭｉｔｔｅｌｗｅｒｔｆｒｅｉ）ベクトルに統合される。５．話者独立型連続単語音声認識器のクラス分け５．１隠れマルコフモデル（ＨＭＭ）隠れマルコフモデルは、互いに遷移により接続されている状態の集合である（図４）。１つの状態ｑｉから別の１つ状態ｑｊへのそれぞれの遷移はいわゆる遷移確率により表される。それぞれのノード（状態）にいわゆる長さＭの放射確率のベクトルが割当てられている。これらの放射確率を介して物理的世界への接続が形成される。モデル構想は、ある特定の状態ｑｉにおいて、Ｍとは異なるシンボルのうちの１つのシンボルが、状態を基準とする放射確率に従って”放射”されることになっている。モデルが生成する”放射された”シンボル系列は可視可能である。これに対して、モデルの中で発生する状態の具体的な順序は可視できない（隠れている）。隠れマルコフモデルは次の値により定められる。・Ｔシンボルの数・ｔ観測されたシンボルの時点、ｔ＝１．．．Ｔ・Ｎモデルの状態（ノード）の数・Ｍ可能なシンボルの数（＝コードブック値）・Ｑモデルの状態｛ｑ１，ｑ２，．．．ｑｎ｝・Ｖ可能なシンボルの量・Ａ１つの状態から別の１つの状態への遷移確率・Ｂモデルの１つの状態における出力シンボルの確率（放射確率）・ π （ＨＭＭのトレーニングにおける）モデルの初期状態の確率確率分布Ａ及びＢを使用してこのモデルを用いて出力シンボルを生成することが可能である。５．２音素を基礎にしたＨＭＭ認識器の構成多くの語彙を有する話者認識システムにおいて単語認識は好適には全単語を基礎にせず、音韻的な単語構成単位を基礎にしている。このような単語構成単位は例えば音、二重音又は音遷移である。次いで、認識する単語は、対応する単語構成単位モデルの連鎖により表される。図５において、連鎖されている隠れマルコフモデル（ＨＭＭ）のこのような表現の例として一方では、単語”ｂｒａｔｅｎ（焼く、あぶるの意味）”の標準発音形（図５Ａ）が示され、他方、発音変形（図５Ｂ）の音韻的説明が示されている。これらの単語構成単位モデルは、システムの作成の際に多数の話者を無作為抽出検査におけるサンプルとして使用してトレーニングされ、”オンライン対話エディタ”が基礎とするデータベースを形成する。単語構成単位によるこのコンセプトは、新単語を比較的簡単に既存の辞書の中に採用することが可能であることにある、何故ならば単語構成単位のためのパラメータが既知であるからである。理論的にはこの認識器により任意に大きな語彙を認識することが可能である。しかし実際の上では、制限されている計算性能により、そしてその都度の用途に必要な認識性能とにより限界が課せられている。クラス分けはいわゆるビタービのアルゴリズムを基礎にし、このアルゴリズムにおいては、それぞれの単語の確率が到来シンボル系列に対して計算される。１つの単語はこの場合には異なる音素の連鎖のことである。ビタービのアルゴリズムは単語列統計（”言語モデル”）により補足される、すなわち”オフライン対話エディタ”において特定化された多単語命令が、許容される単語組合せを供給する。極端な場合にはクラ ”ガーベッジ単語”（”非単語”）の認識及び選択除去も含む。”ガーベッジ単語”は、実際の音声命令に不必要に話者により付加されるしかし音声認識器の語彙の中に含まれていない音声的補足である。例えば話者は”半径１を有する円形 ”との命令を例えば”私はいま．．．したい”又は”どうぞ１つの．．．”等の表現だけ更に拡張することが可能である。アプリケーション又は必要語彙の量に依存してこれらの音素を基礎とした隠れマルコフモデルを、必要に応じて、全単語を基礎にしている隠れマルコフモデルだけ補足又は拡張することも可能である。６．話者依存型認識器話者依存型認識においては、話者独立型認識器におおけるのと同一の前処理が行われる。文献から、実時間作動でのトレーニングを可能にする異なるアプローチが公知である（例えばダイナミック時間正規化（”ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ（ＤＴＰ）”）、ニューラルネットワーク・クラス分け器）。この場合第一に単一単語認識器が挙げられ、この場合に有利にはダイナミック時間正規化法が使用される。ユーザフレンドリ性を高めるために、本明細書で説明されるＳＤＳにおいては話者独立型認識器（第５の項を参照）と話者依存型認識器との組合せが連続単語モードで利用され（”グロリアを呼び出す”、”ウィリーおじさんの新しい目標 ”、”斜め楕円関数を描く”）、”グロリア”、”ウィリーおじさん”、”斜め楕円”との単語はユーザによりトレーニングの際に自由に選択され、所属の電話番号／目標アドレス／機能説明と一緒に当該のリストの中に格納された。このアプローチの利点は、１つから２つまでの（又は場合に応じてより多くの）対話ステップが節約されることにある。７．後処理：構文及び意味検査：ＳＤＳは、音声認識器から供給される結果の高性能後処理を含む。これには、求められた文仮定が音声命令の先天的に定められた構成（”構文”）に対応するかどうかの構文検査が所属する。ノーの場合、対応する仮定が棄却される。この構文分析は個別の場合には部分的又は完全に認識器自身の中に組込まれれていることもあり、これは例えば、クラス分け器の決定ツリーの中に構文が既に考慮される。更に、音声認識器から供給される文仮定はその意味及びそのリーズナブルネスに関して検査される。このリーズナブルネステストの後に対話制御装置に渡されるかか又は棄却される。棄却の場合には音声認識器の次に高い確率の仮定が採用され、同様の方法で処理される。構文的に正しくリーズナブルな命令の場合には意味の説明と一緒に対話制御装置に供給される。８．対話及びシーケンス制御装置対話制御装置は、認識された文に反応し、実行する機能を定める。例えば対話制御装置は次のことを定める。・いずれの問合せ、情報又は要求がユーザに出力されるか。・いずれのアクチュエータがいかに話しかけられるか。・いずれのシステムモジュールがアクティブであるか（話者独立型認識器、トレーニング）。・いずれの部分語彙が、次に予測される応答においてアクティブであるか（例えば数字のみ）。更に対話制御装置は、アプリケーションのステータスがＳＤＳに通報されている限りアプリケーションのステータスの概観的知識を含む。対話制御装置にはシーケンス制御装置が下位に所属し、シーケンス制御装置は個々のプロセスを時間的及び論理的に制御する。９．通信及びコントロールインターフェースこの場合に通信は、操作する機器を含む接続されている周辺機器により実行される。このために、異なるインターフェースが使用可能である。しかしＳＤＳは通常はこれらのインターフェースのすべてを前提としてはいない。図２に示されているインターフェースは、可能な１つの実施例を示すにすぎない。通信及びコントロールインターフェースは通常は音声入出力も例えばＡ／Ｄ変換器又はＤ／Ａ変換器を介して行う。１０．音声入出力装置音声入出力は装置、”音声信号圧縮モジュール”（＝”音声エンコーダ”）から成り、”音声信号圧縮モジュール”は、ディジタル化された音声信号から冗長性及び重要でない部分を除去して、大幅に小さいメモリの中に所定長の音声信号をＡ／Ｄ変換の後に直接に格納することを可能にする。圧縮された情報は音声メモリの中に格納され、出力のために”音声デコーダ”で再生され、これにより、オリジナル入力単語は再び聴取可能となる。この場合に場合に応じて発生する再生における品質損失は、現在使用可能な符号化又は復号化方式においては容認可能な範囲内に維持される。対話の実行のために音声メモリにおいて既に最初から（”オフライン対話エディタ”）一連の命令、補助テキスト又は指示が格納され、これらの一連の命令、補助テキスト又は指示はユーザを操作の際に支援するか又はユーザに情報をアプリケーション側から供給させる。更に音声符号化が話者独立型認識器のためのトレーニングの間にアクティブにされる、何故ならばユーザにより発声された名前も音声メモリに格納される。ユーザは、ユーザの名前リスト又は機能リストを聴取することにより何時でも音響的に内容すなわち個々の名前又は機能について情報を得ることが可能である。音声符号化アルゴリズム及び音声復号化アルゴリズムに関して例えば音声伝送から”ソースコーディング”との用語の下に公知であり、ソフトウェアによりプログラム可能なプロセッサにおいて実施できる方法を適用可能である。図６において図２のＳＤＳの可能なハードウェア構成のための１つの例が示されている。個々の機能ブロックの構成と、データ入出力及び接続されている素子の制御のためのインターフェースとは例としてのみ示されている。話者独立型で話された単語のためのこの場合に到来するアクティブな語彙は例えば数百の単語を含むこともある。ディジタル信号プロセッサ（ＤＳＰ）は市販のプログラム可能なプロセッサであり、このプロセッサはマイクロプロセッサとは、別のバスアーキテクチャ（例えばフォンノイマンアーキテクチャの代りにハーバードアーキテクチャ）、特別の”オンチップ”ハードウェア演算装置（乗算器／アキュムレータ／シフタ等）、及び実時間ディジタル信号処理において必要とされるＩ／Ｏ機能の点で異なる。ますます高性能ＲＩＳＣプロセッサはＤＳＰに類似の機能を提供し、これらの機能を場合に応じて置換することが可能である。本明細書に示されているＤＳＰ（又は類似の性能の別のマイクロプロセッサ）は特別のインターフェースコントロール機能以外は、図３のすべての機能をソフトウェア又は集積ハードウェアにより実行することが可能である。現在市販のＤＳＰにより、本明細書で説明されるコンセプトにより現在（例として）数百の単語の語彙を実現することが可能であり、その際、この語彙は完全に”アクティブな語彙”として選択可能であり、部分語彙の形成により大幅に小さくならないと仮定されている。部分語彙が形成される場合にはそれらの部分語彙のそれぞれは前述の大きさを含むことが可能である。図６のハードウェア構造により、そして特に認識のための及び／又は対話実行、シーケンス制御、音声符号化及びインターフェースプロトコル実行のための付加的モジュールを不要にすることにより、コンパクトで小コストで小さい電流消費量のハードウェアの実現が可能となる。更なる技術開発により将来においてより大きい計算能力及びより大きいメモリ容量がＤＳＰにおいて使用可能となり、大きい外部メモリ領域がアドレス可能となり、これにより膨大な量の語彙又は一層高性能のアルゴリズムが実現可能となる。ＳＤＳは、ＳＤＰに接続されている”プッシュツウトーク”キー（ＰＴＴキー）によりアクティブにされる。このキーを作動することにより制御ソフトウェアは認識動作を開始する。詳細にはＤＳＰの外に次の更なるハードウェアモジュールが設けられている。・Ａ／Ｄ変換器及びＤ／Ａ変換器：接続されているＡ／Ｄ変換器及びＤ／Ａ変換器を介して、 − マイクロフォン信号及び場合に応じてスピーカ信号がディジタル化され、更なる処理のためにＤＳＰに伝送され、 − 音声出力／対話制御のためのディジタル化された音声データはアナログ信号に変換され、増幅され、適切な再生媒体（例えばスピーカ）に供給される。・Ｄ２Ｂオプチカル：これは光バスシステムであり、この光バスシステムを介して種々のオーディオ機器及び情報機器を制御可能である（例えば：オーディオ及びＣＤチェンジャ、自動車電話及びナビゲーション機器等）。このバスは制御データだけでなくオーディオデータも伝送する。極端な場合（すなわちマイクロフォン信号及びスピーカ信号がこのバスを介して伝送される場合）ＳＤＳの中でのＡ／Ｄ変換及びＤ／Ａ変換は不要となる。・ＣＡＮバス：ＣＡＮバスはバスシステムであり、このバスシステムを介して自動車の中の情報機器及びアクチュエータを制御することが可能である。オーディオ伝送は通常は不可能である。・Ｖ．２４インターフェース：このインターフェースは、種々の周辺機器を制御するために用いられる。更にこのインターフェースを介してＳＤＳのソフトウェアの更新が可能である。例えば当該の語彙又は当該の言語（例えば：ドイツ語、英語、フランス語等）をロードすることが可能である。・ＰＣＭＣＩＡインターフェース：このインターフェースはデスクトップ又はポータブルコンピュータとの通信の外にＳＤＳへの電圧供給にも用いられる。前述の機能のうちの多数の機能はこのインターフェースに統合することが可能である。更にこのインターフェースはＳＤＳの電気的特性の外に機械的寸法も定めることが可能である。これらの機械的寸法は、例えばＳＤＳがデスクトップ又はポータブルコンピュータのＰＣＭＣＩＡコンパートメントの中に差込み可能に選択することが可能である。・メモリＤＳＰに接続されているメモリ（データ／プログラムＲＡＭ及びＲＯＭ）はＤＳＰにプログラム及びデータメモリとして用いられる。更にこのプログラム及びデータメモリは特定のクラス分けモデルと場合に応じて双方の音声認識器のリファレンスパターンと対話制御及びユーザガイドのための固定テキストとを含む。ＦＬＡＳＨメモリ又はバッテリー緩衝メモリの中にユーザ固有情報が格納される（アドレスリスト、データリスト）。本明細書に説明されているハードウェア構成は特にインターフェースに関してそれぞれのアプリケーション又は特定のカストマ要求に強く依存し、本明細書においては例としていくつかの用途のために説明されている。別のアプリケーション（例えばＰＣ又はワークステーションへの接続又はポータブル電話における使用）においてはインターフェースの選択は全く別であることもある。Ａ／Ｄ変換器及びＤ／Ａ変換器も既にＤＳＰに集積可能である。音声操作自動車電話の例における機能説明次に対話シーケンスが例として（例えば自動車の中で）音声により制御される電話制御を例にして説明される。この例は電話及びラジオ及び／又はＣＤ及び／又は自動車におけるナビゲーションの制御又はＣＡＥ作業場等の操作に拡張することが可能である。これらの例のそれぞれの特徴は次のようである。 − 多単語命令及び文字列又は数字列の話者独立型認識。 − ユーザにより前もってトレーニングされ自由に選択された名前、又は機能が割当てられている機能語、数字コード（例えば電話帳の電話番号又はラジオ放送局リストの放送局周波数）又は文字組合せ（例えばナビゲーションシステムにおける目的地）の話者依存型入力。割当てを定める際にユーザは機能組合せ又は数字組合せを話者独立型連続単語モードで入力する（機能、文字、数字は許容語彙の一部でなければならない、すなわち”オフライン対話エディタ”により前もって定められていなければならない）。 − この名前選択に常に関連しているのが、同一ユーザの異なる名前又は機能語の当該のリスト（電話帳、放送局リスト、目的地リスト）の管理である。このようなリストは拡張され、消去され、質問され又は補正されることが可能である。状態線図ＳＤＳ（図７）：音声入力を介しての電話の操作の間にＳＤＳは異なる状態をとり、これらの状態のうちのいくつかが例として図７に示されている（デアクティブにされた状態；命令モード”電話”；選択機能に関連しての番号入力又は番号選択及び名前入力又は名前選択；メモリ機能に関連しての名前入力又は名前トレーニング；消去機能に関連して名前を消去する又は電話帳を完全に又は選択的に消去する）。遷移は音声命令の表明（”番号選択”、”名前選択”、 ”名前を記憶する”、”番号を記憶する”、”終了”、”消去”）により制御され、ＳＤＳをアクティブにすることはＰＴＴキーの作動により行われる。会話中断は例えば特別の中断命令（”終了”）の入力又は中断キーの作動により行われる。作動状態”デアクティブにされる”：音声対話システムはこの状態では認識準備完了状態ではない。しかし信号処理ソフトウェアの一部は好適には常にアクティブ（雑音低減、エコー補償）であり、これにより雑音状態及びエコー状態が恒久的に更新される。作動状態”アクティブ”（図８）：音声対話システムはＰＴＴキーによりアクティブにされて、周辺機器（電話）の更なる制御のために許容される命令を待っている。作動状態”アクティブ”の機能シーケンスは図８にフローチャートの形で（例として）示され、すなわち、 ”電話帳を選択する”、”電話帳を消去する”、”名前を消去する”、”名前選択”、”番号選択”、”名前を記憶する”、”番号を記憶する”、”電話帳を聴取する”という機能と、所属のアクション及びリアクション（名前リストの出力、完全な又は選択的な消去、名前選択又は番号選択、番号入力又は名前トレーニング）とのために示されている。勿論、これらの機能は必要に応じて付加的な更なる機能により補足される又は拡張されるか又は別の機能により完全に又は部分的に置換することが可能である。一般的にこれに関連して、アクティブにされたＳＤＳは何時でも、すなわち次に詳細に説明される機能シーケンスのうちの１つの機能シーケンスの間にも再びデアクティブにされることが可能であり、これにより、場合に応じてまだ完了されていない機能シーケンスが最終的に又は一時的に中断されることに注意されたい。ＳＤＳをデアクティブにすることは例えば、対話の所定の個所において何時でも、場合に応じて設けられている中断キーの作動により又は特別な中断命令（例えば”終了する”、”中断する”等）の入力により行われる。作動状態”名前選択”（図９）：この状態は、当該の音声命令”名前選択”又は”電話名前選択”等が正しく認識されたことを前提とする。この状態では電話番号の選択は名前の入力により可能である。このために話者依存型音声認識器に切換えられる。話者対話システムは名前の入力を要求する。名前はユーザに確認応答される。音声対話システムはこの時点で再び話者独立型認識器に切換える。名前が正しく認識された場合には、名前に割当られている電話番号が電話に供給され、電話において当該の電話加入者への接続が形成される。名前が間違って理解された場合には中断機能（例えば中断キーの作動等）により電話番号の選択を阻止することが可能である。これに対して代替的に、音声命令に割当られているアクション／機能が実行されるべきかどうかについてＳＤＳの問合せが可能である。電話帳の範囲はメモリ場所に依存して例えば５０以上の記憶されている名前を含むこともある。作動状態”名前選択”の機能シーケンスは図９にフローチャートの形で示されている。作動状態”番号選択”（図１０）：この状態は、当該の音声命令（例えば”番号選択”等）が正しく認識されたことを前提とする。この状態では電話番号の選択が１つの数字列の入力により行われる。入力は連続して（場合に応じてブロック毎に）かつ話者独立型で行われる。ＳＤＳはこの作動状態で番号の入力を要求する。これに続いてユーザは番号を完全に又は個々のブロックで音声命令として入力する。入力された番号又はその都度に入力された番号ブロックはユーザに、その都度の音声命令の入力後に確認応答される。”選択する”との要求が行われると番号が電話に供給され、電話において当該電話加入者への接続が形成される。番号が間違って理解された場合にはエラー機能により番号が補正又は消去されるか又は中断機能を介して例えば命令”終了する”により音声操作が中断される、すなわちＳＤＳがデアクティブにされる。作動状態”番号選択”の機能シーケンスは図１０にフローチャートの形で示されている。作動状態”接続”：所望の電話加入者への電話接続が形成される。この状態では音声認識器はデアクティブにされる。電話会話は例えば中断キーにより終了される。作動状態”番号を記憶する／名前を記憶する” 音声命令”番号を記憶する”又は”名前を記憶する”に基づいてＳＤＳがユーザ／話者に、数字を入力することを要求し、ユーザがこれらの数字を発声すると（作動状態”番号選択”を参照）、命令”選択する” の代りに命令”記憶する”又は類似の命令が入力される。電話番号がこの時点で記憶される。次いでＳＤＳはユーザに、所属の名前を発声することを要求し、トレーニング結果の改善のために名前入力をもう一度又は数回繰返させる。この繰返しの後に対話が終了される。最初の数字入力が例えば”中断する”又は”中断 ”、”繰返す”、”補正する”又は”補正”、”誤り”等の対話命令によりコントロールされることが可能である。作動状態”電話帳を消去する／名前を消去する” ”電話帳”（すべてのトレーニングされた名前及び所属の電話番号のリスト）に関連して、ユーザのためのシステムの快適性を高める例えば次のような一連の編集機能が定められる。電話帳を消去する：完全な又は選択的な消去、その際、最終的な消去の前のＳＤＳの問合せ（”貴方は本当に間違っていませんか”）により、そして特別の名前を場合に応じて出力することにより認識エラーによる間違いの消去が回避される。名前を消去する：ＳＤＳがユーザに、消去する名前を発声することを要求する。名前はＳＤＳにより繰返される。次いでユーザが”貴方は本当に間違っていませんか？”という質問により、消去動作を確認応答することを要求される。音声命令”イエス”の入力により名前が電話帳から消去される。音声命令として入力されたその他のそれぞれの単語が対話を終了する。作動状態”電話帳を聴取する”：ＳＤＳは電話帳全体の内容をアナウンスする。所望の名前がアナウンスされた後、中断命令又は選択命令が与えられるか又はＰＴＴキーが作動されると、選択された名前が再度アナウンスされ、”番号を選択するか？”と質問される。音声命令”イエス”を入力すると選択動作すなわち接続が形成される。 ”ノー”によりＳＤＳは電話帳のアナウンスを続行する。音声命令”中断”、 ”中断する”等又は中断キーの作動はアナウンス又は対話を終了する。最後に挙げた２つの機能”電話帳を聴取する”及び”電話帳を選択する”は単一の機能に統合することも可能である。これは例えば”電話帳を聴取する”において適切な名前の聴取後にＰＴＴが作動され、ＳＤＳが例えば”名前’ウィリーおじさん’が選択される” との通報の後に選択動作が導入されることにより行われる。前に説明されたＳＤＳの特性は、更なるアプリケーションを組込で次のようにまとめることが可能である。実時間作動での音声命令又は音声対話により１つ又は複数の機器を自動制御及び／又は操作する方法を使用できる。この方法において、音声出力方法、音声信号処理方法及び音声認識方法、構文的文法的後処理方法、対話制御方法、シーケンス制御方法及びインターフェース制御方法が適用される。この方法はその基本バージョンにおいて”オンライン”作動で、固定された構文構造及び固定された命令構造と、そして固定された語彙（話者独立型認識器）と例えば名前又は機能語等の自由に定めることが可能な語彙（話者依存型認識器）との組合せとを特徴とする。有利な実施の形態においてこの方法は一連の特徴により特徴付けられ、これらの有利な実施の形態では次のようである。 − 構文構造及び命令構造が実時間対話作動の間にわたり固定されている。 − 前処理、認識及び対話制御が、雑音を伴う環境の中での作動のために形成されている。 − 一般的な命令、名前又はデータを認識するためにユーザによるトレーニングが不要である（”話者独立性”）。 − 個々のユーザの特別の名前、データ又は命令を認識するためにトレーニングが必要である（ユーザ特有の名前又は機能語における”話者依存性”）。 − 命令、名前又はデータの入力が有利には連続して行われ、音声入力のための１つの命令を形成する単語の数は可変である、すなわち１単語命令又は２単語命令だけでなく、３単語命令、４単語命令又は多単語命令を定めることが可能である。 − 音声対話の実時間処理及び実行がなされている。 − 音声入出力が手持ち装置、ヘッドホーン、ヘッドセット等を介さずに又はこれらのみを介してではなく、有利にはハンドフリー作動で行われる。 − マイクロフォンでハンドフリーで話す際に記録されるスピーカエコーが電気的に補償され、これにより（例えば音声処理、レディ信号等のための）音声入力とスピーカとの同時の作動が可能となる（”エコー補償”）。 − アナログ伝達特性（室内音響効果、マイクロフォン特性及び増幅器特性、スピーカ特性）への連続的な自動適合が作動中に行われる。 − ”オフライン対話エディタ”において構文構造、対話構造、語彙及び発音変形が認識器のために新たに構成され、定められることが可能であり、しかもその際、これは独立型認識器のための付加的な又は新しい音声録音を必要としない。 − ”オフライン対話エディタ”において音声出力のための音声範囲が定められ、その際、ａ）記録された音声信号がディジタル音声伝達圧縮にかけられ（”音声符号化 ”）、次いで記憶され、実時間音声出力作動においてメモリからの読出しの後に当該の音声復号化が行われるか、又は、ｂ）音声範囲が前もってテキストの形で記憶され、実時間音声出力作動で”テキストツウスピーチ”合成にかけられる。 − １つの命令の個々の単語の交換により単語位置を変化することが可能である。 − 前もって与えられている同義単語が利用可能である。 − 同一の機能を、異なる単語数の命令（例えば２単語又は３単語命令）により実現することが可能である。 Bitte（どうぞ）”、又は語彙に所属しないその他の命令等の挿入を認識し次いで選択除去するために使用語彙に更なる単語又は音単位が付加されるか（”非単語”、”ガーベッジ単語”）又はワードスポッティング付加が使用される。 − 対話構造は次の特性を特徴とする、すなわち、 − 低層ハイアラーキ、すなわちいくつかの僅かなハイアラーキ面、有利には１つ又は２つの選択面、 − ”省略文”の組込み、すなわち多数の命令単語を有する命令文全体を繰返すことを不要とし、その代わりに短い命令、例えば”続けて”、”より高く” 、”より強く”等に制限され、この場合、システムには、その都度に先行の命令から、この発言が何に関してであるかが知られており、 − ”補助メニュー”又は”情報メニュー”を取り入れる、 − 認識器の不確実な決定におけるＳＤＳの側での質問を取り入れる（”何と言いましたか”、”繰返して下さい”、”続けて”）、 − ある特定の話し方を奨励する（例えば”もっと大きな声で”と要求する）ことにより認識確実性を高めるために音声出力を取り入れる。 − 音声認識が”プッシュツウトーク”キー（”ＰＴＴキー”）を一度作動することによりアクティブにされ、これは音響的に（例えば”ピー”音により）確認応答され、これにより、入力がこの時点で行われることが可能であることが示される。 − ＰＴＴキーの作動は、音声出力の側からの問合せの後にこれに続いて音声入力が必要である場合には不要とすることが可能であり、その際、 − ＰＴＴキーは、例えば電話する間に（”受話器を置く”、”受話器を取る”）又は音声対話システムの新スタートの際に又は電話選択動作の中断の際に多機能を利用するか含むか又は、 − ＰＴＴキーは付加的スイッチにより補足され、付加的スイッチは例えば新スタート又は機能／アクションの中断を可能にし（”中断キー”）、なおＰＴＴ機能及び中断機能を、場合に応じて１つの共通のレバーの中に組込むことが可能である（例えばレバーを手前に引くことによりＰＴＴ機能を消去する、レバーを押し離すことにより中断機能を消去する）。 − 対話システムは次の性能特徴のうちの１つ又は複数を有する、すなわち、 − 異なるユーザの特別の（例えばトレーニングされた命令、データ、名前又はパラメータが必要に応じて後の再使用のために固定保持され、 − 話者によりトレーニングされた命令又は名前がトレーニングフェーズの間に認識器に供給されるだけでなく、これらの命令又は名前の時間的経過においても検出され、データ圧縮器（”音声符号化”）に供給され、不揮発記憶され、これにより読出しにより実際のステータスがユーザに再び供給され、 − 話者によりトレーニングされた命令又は名前がトレーニングフェーズ中に、環境雑音が検出中に大幅に補償されるように、処理される。 − 認識動作の終了が必要に応じて光学的又は音響的に確認応答されるか（”ピー”音等）又はこれに対して代替的に安全性又は時間又はコストに関して適切な決定において認識結果が音響的に繰返され（音声出力）、ユーザは、音声命令により又はスイッチ（例えば中断スイッチ）の作動により当該のアクションの実行を阻止することが可能である。 − 音声対話システムは光学表示媒体（ＬＣＤディスプレイ、モニター等）に接続され、光学表示媒体は次の機能の個々又は複数又はすべてを引受けることが可能である、すなわち、 − コントロールの目的のために、認識された命令を出力し、 − 目標機器により音声命令に対するリアクションとして設定された機能を表わし、 − 音声命令により次いで設定又は選択されるか又は変更される異なる機能／代替を表わす。 − それぞれのユーザは固有の名前リスト又は短縮リストを設置でき（電話帳又はアドレスブックに類似）、その際、 − ユーザにより話者依存型認識器においてトレーニングされた名前に、話者独立型作動モードにおいて入力された数字連鎖、文字連鎖又は１つの命令又は１つの命令シーケンスが割当てられ、 − 数字連鎖、文字連鎖又は命令シーケンスの新たな入力の代りにユーザはリスト名称及びユーザにより選択された名前を入力するか又は名前の外に、正しいリストを推定させる適切な命令が入力され、 − リストを音声制御して何時でも更なる入力だけ拡張することが可能であり、 − リストを音声制御して完全に又は選択的に消去することが可能であり、 − リストを音声命令に基づいて聴取し、ユーザにより入力された名前と必要に応じて所属の数字連鎖、文字連鎖又は命令を音響的に出力することが可能であり、 − リストの音響的出力をそれぞれの任意の時点で中断することが可能である。 − 数字列を一体的に又はブロック毎に発声することが可能であり、ＳＤＳは有利には次の機能のうちの１つ又は複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力ブロックが音声出力により繰返されることにより行われ、 − 命令”誤り”、”間違い”等による確認応答の後に最後の入力ブロックが消去され、残りの記憶されたブロックが音響的に再生され、 − 命令”消去する”又は類似の命令入力による確認応答の後にすべての入力された数字ブロックが消去され、 − 命令”繰返す”等による確認応答の後に、今まで記憶されたブロックが音響的に出力され、 − 命令”中断”又は類似の命令入力による確認応答の後に数字列の入力が完全に中断され、 − 確認応答の後に更なる数字又は数字ブロックが入力され、 − 確認応答の後に数字入力が適切な命令により終了され、 − 命令”誤り”等又は命令”繰返す”に続く、今まで発声された数字の出力において、入力の場合と同一のブロック化が使用される。 − 複合機能の選択ために又は多数の情報の入力のために設けられている文字列が発声され、文字列は一体的に又はブロック毎に入力され、ＳＤＳは有利には次の特徴のうちの１つ又は複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力ブロックが音声出力により繰返されることにより行われ、 − 命令”誤り”、”間違い”等による確認応答の後に最後の入力ブロックが消去され、残りの記憶されたブロックが音響的に出力され、 − 命令”消去する”等による確認応答の後にすべての入力された文字が消去され、これに続いて新たな入力が行われ、 − 命令”繰返す”等による確認応答の後に、今まで記憶されたブロックが音響的に出力され、 − 確認応答の後に更なる文字又は文字ブロックが入力され、 − 場合に応じて文字列が、記憶されている単語リストと適合調整され、これから最良に適合する単語が抽出されるか又はこれに対して代替的にこの適合調整が既に個々の文字ブロックの入力後に行われ、 − 命令”中断”又は類似の命令入力による確認応答の後に文字列の入力が完全に中断され、 − 確認応答の後に文字入力が適切な命令により終了される。 − 音声出力及び”ピーピー”音の出力音量が環境雑音に適合され、環境雑音は音声休止の間に環境雑音の音量及び特性に関して検出される。 − 音声対話システムへのアクセス又はユーザ固有のデータ／命令へのアクセスは特別のキーワード又はパスワードの入力後のみにしか可能でないか又は特別のキーワード又はパスワードの入力後に、認可された話者により行われ、話者の音声特性は対話システムに既知であり、対話システムにより検査される。 − 長く持続する音声出力（例えば情報メニュー）は、発声される中断命令又はＰＴＴキー又は中断キーにより早期に終了させることが可能である。 − 音声対話システムは次の形のうちの１つの形で前述の機能の手動操作を（例えばスイッチ、キー、回転つまみにより）補足する又は置換する、すなわち、 −音声命令実行は何等の手動操作も置換せず、始動の操作の外に存在し（すなわち操作は何時でも手動で行われる又は継続されることが可能である）、 − いくつかの特別の性能特徴は音声入力のみによってしか活かせることができず、重要な機器機能及び操作機能は手動でも音声によっても命令することができ、 − 手動の操作素子の数が大幅に低減され、個々のキー又は回転つまみは多機能を引受け、音声により手動の操作素子に特別の機能が割当てられ、重要な操作機能のみが依然として手動で制御可能であり、しかし操作機能の基本は音声命令ですることである。 − ただ１つの多単語により多数の種々の機器及び機器機能が応動可能及び変更可能であり、従って複雑な多段階の操作プロセス（例えば第１のステップで機器の選択、次いで第２のステップで機能の選択、次いで第３のステップで変化の種類の選択）は不要である。 − 次の機能のうちの個々及び複数のための自動車の中の音声対話システムが適用される、すなわち、 − 例えば自動車電話、（場合に応じてカセット、ＣＤチェンジャ、サウンドシステムを有する）自動車ラジオ、ナビゲーションシステム、非常呼出し装置、テレマティークサービス、搭載モニター、空調装置、暖房装置、ポータブル計算機、照明装置、スライディングルーフ、窓開閉装置、シート位置調整装置、座席暖房装置、後部窓加熱装置、ミラー位置調整及びミラーメモリ、シート位置調整及びシートメモリ、ステアリングホイール位置調整及びステアリングホイール調整メモリ等の個々の又は複数の機器の操作、 − 例えば油圧、油温度、冷却水温度、消費量、タイヤ圧力等のパラメータの情報問合せ、 − 例えば過度に高い冷却水温度、過度に低いタイヤ圧力等の特別の状態での必要な措置に関する情報、 − 自動車の故障における運転者の警報、その際、 − 自動車ラジオにおける新放送局の音声制御による選択は有利には次のシーケンスのうちの１つに従って行われる、すなわち、 − 上方又は下方のサーチ走行の命令、 − 放送局の音声入力は有利には日常言語の形で行われ（例えば”Ｅｉｎｈｕｎｄｅｒｔｄｒｅｉｋｏｍｍａｓｉｅｂｅｎ（１０３コンマ７）”又は”Ｈｕｎｄｅｒｔｄｒｅｉｋｏｍｍａｓｉｅｂｅｎ（１０３コンマ７”、”Ｈｕｎｄｅｒｔｕｎｄｄｒｅｉｋｏｍｍａｓｉｅｂｅｎ（１００と３コンマ７”又は”周波数指示を含めて（例えば”ＨｕｎｄｅｒｔｄｒｅｉｋｏｍｍａｓｉｅｂｅｎＭｅｇａＨｅｒｔｚ”））、 − 通常使用されている放送局名（例えば”ＳＤＲ１”）。 − 空調装置において（場合に応じて自動車の乗客室の中の場所に応じて左方、右方、前方、後方へ段階付けられている）所望の温度を音声入力により相対的にだけでなく有利には絶対的に（すなわち°Ｆ等）定めることが可能であり、付加的に最小又は最大又は平均の温度又は通常温度を命令することが可能であり、同様に自動車乗客室の中の送風機のための作動条件を定めることが可能である。 − ナビゲーションシステムに目的地（場所名、通り名）が”文字綴モード ”での文字列の入力により伝達され、名前の始端も入力として充分であり、ナビゲーションシステムは複数の候補を選択のために提供する。 − 次のユーザ固有の名前リストのうちの１つ又は複数が設置される、すなわち、 − プリセット可能な名前／略称での電話番号の記憶のためのリスト、 − プリセット可能な名前／略称でのナビゲーションシステムのための目的地の記憶のためのリスト、 − 命令又は命令列のための機能名の記憶のためのリスト、 − プリセット可能な放送局名又は略称での自動車ラジオの放送局周波数の記憶のためのリスト。 − 音声出力及び”ピーピー”音の出力音量、場合に応じてラジオ音量も、次のパラメータのうちの１つ又は複数を考慮して定めるか又は適応整合する、すなわち、 − 自動車速度、 − 窓及びスライディングルーフの開放幅 − 送風機の調整、 − 自動車タイプ、 − その都度の対話状況での音声出力の重要性。前述の音声対話システムの１つの有利な実施の形態では特に、シーケンス制御、対話制御、インターフェース制御、音声入出力及び音声信号前処理、認識、構文的文法的及び意味的後処理がマイクロプロセッサ及び信号プロセッサ、メモリ及びインターフェースモジュールにより行われるが、しかし有利にはただ１つのディジタル信号プロセッサ又はマイクロプロセッサ又は所要の外部のデータ及びプログラムメモリ、インターフェース及び所属のドライバモジュール、クロック発生器、制御論理回路、及び音声入出力に必要なマイクロフォン及びスピーカ、及び場合に応じてプッシュツウトーク（ＰＴＴ）キー及び中断キーにより行われる。更に、１つ及び複数のインターフェースを介して次のことが可能である、すなわち、 − データ及び／又はパラメータがロード可能又は事後ロード可能であり、これにより例えばプロシージャ変更又は別の言語のための音声対話システムが実現可能である。 − １つの別個の計算機で定められた又は変更された構文構造、対話構造、シーケンス制御、音声出力等が音声対話システムに伝送される（”オフライン対話エディタ”）。 − ステータス情報又は対話情報をＳＤＳにより要求し、取出すことが可能である。 − 音声対話システムを、制御する機器のうちの複数の機器に（個々の機器へのポイントツウポイント接続の代りに）バスシステム及び／又はリング状ネットワークを介して接続し、このバス又はネットワークを介して自動車又は操作する機器の制御データ又はオーディオ信号又はステータスメッセージを伝送する。 − 個々の制御する機器がそれぞれ１つの固有の音声対話システムを含まず、ただ１つの（共通の）音声対話システムにより操作される。 − 自動車構成要素又は自動車計算機への１つ又は複数のインターフェースが設けられ、前記インターフェースを介して恒久的又は実際の自動車データ例えば速度、機関温度等が音声対話システムに伝達される。 − 音声対話システムに（音声入出力が行われない）待ち時間の間に例えばラジオ、電話等の別の機能を引受ける。 − 拡張されたメモリにより多言語の話者独立型対話システムが形成され、短期間に異なる言語の対話システムと対話システムとの間で切換えを行うことが可能である。 − 光学ディスプレイが音声対話システムに１つの特別のインターフェースを介して又はバス端子を介して接続され、このバスは有利には光学データバスであり、このデータバスを介して制御信号もオーディオ信号も伝送される。本発明が図示の実施の形態及び用途例に制限されず、意味的に別の実施の形態又は用途に適用可能であることは自明である。例えばこのような音声対話システムは電子辞書又は電子ディクタフォン又は電子翻訳システムの操作に適用可能である。本発明の１つの特別の実施の形態では、・小さな構文での比較的制限されている用途では構文的単語の２つの組（ｂｉｇｒａｍ）−音声モデルの形の構文的検査が認識プロセスの中に組込まれ、従って構文的後処理を実行することが可能であり、・複合的課題設定においては認識器と後処理装置との間のインターフェースがもはや個々の文ではなくいわゆる”単語仮定ネット”であり、この単語仮定ネットから後処理段において、特別の対形成ストラテジによる構文的プリセットに起因して最適の文が抽出される。更に、音声出力に対して補足的又は代替的に、光学的ベースで動作する出力装置（例えばディスプレイ）を設け、この出力装置で例えば入力された音声命令が、ＳＤＳにより認識される形で表示可能である。最後に、アクティブにされたＳＤＳは、システムにより固定してプリセットされているか又は適応的にユーザ／話者に調整されている比較的長い時間にわたりユーザ／話者により何等の新音声命令ももはや入力されないことにより再びデアクティブにされるようにすることも考えられる。略称ＰＴＴプッシュツウトークＨＭＭ隠れマルコフモデルＤＴＷダイナミックタイムワーピング（ダイナミック時間正規化）ＣＭＦ平均値フリーのケプストラムベクトルＦＦＴ高速フーリエ変換ＬＤＡ線形識別分析ＰＣＭパルス符号変調ＶＱベクトル量子化ＳＤＳ音声対話システムＳＢＳ音声操作システム

【手続補正書】特許法第１８４条の８第１項【提出日】１９９７年８月７日【補正内容】請求の範囲１．実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法において、入力された音声命令を、話者独立型連続単語音声認識器及び話者依存型付加的音声認識器により認識されて前記音声命令の認識確率に従ってクラス分けし、認識された許容される音声命令を、前記音声命令のリーズナブルネスに関して検査し、最大の認識確率を有する許容されリーズナブルである音声命令を、入力された音声命令として識別し、１つ又は複数の前記機器のこの音声命令に割当てられている機能又は前記音声対話システムの応答を開始する又は生成することを特徴とする実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ１０Ｌ 3/00 ５５１Ｇ１０Ｌ 3/00 ５５１Ａ５７１５７１Ｋ 3/02 ３０１ 3/02 ３０１Ｃ 9/16 ３０１ 9/16 ３０１Ｂ (72)発明者フリッツクラスドイツ連邦共和国Ｄ−72587 レーマーシュタインネルケンヴェーク７ (72)発明者カルステン−ウーヴェメラードイツ連邦共和国Ｄ−72730 エスリンゲンフリードリヒ−エーベルト−シュトラーセ 17 (72)発明者ゲルハルトニュスレドイツ連邦共和国Ｄ−89134 ブラウシュタインコルンブルーメンヴェーク７ (72)発明者フランクレードイツ連邦共和国Ｄ−70439 シュツツトガルトインデンヴァインベルゲン８ (72)発明者ブルカルトブッシュキュールドイツ連邦共和国Ｄ−71069 ジンデルフィンゲンパッペルヴェーク 62 (72)発明者クリスティアンハインリヒドイツ連邦共和国Ｄ−73733 エスリンゲンラウンスヴィーゼンヴェーク 35

Claims

【特許請求の範囲】１．実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法において、入力された音声命令を、話者独立型連続単語音声認識器及び場合に応じて話者依存型付加的音声認識器により認識して前記音声命令の認識確率に従ってクラス分けし、認識された許容音声命令を、前記音声命令のリーズナブルネスに関して検査し、最大の認識確率を有するリーズナブルな前記許容音声命令を、入力された前記音声命令として識別し、１つ又は複数の前記機器の前記音声命令に割当てられている機能又は前記音声対話システムの応答を開始する又は生成することを特徴とする実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。２．複数の音声命令又は１つの音声対話を、少なくとも１つの構文構造、少なくとも１つの基本命令語彙、及び必要に応じて少なくとも１つの話者固有の付加的命令語彙をベースにして形成し又は行い、１つ又は複数の前記構文構造と１つ又は複数の前記基本命令語彙とを話者独立型の形でプリセットして、実時間作動の間固定し、話者又はその都度の話者が、トレーニングフェーズにおいて実時間作動の中及び／又は外で、話者依存型認識方法で動作する付加的音声認識器を前記付加的命令の一回又は複数回の入力により前記話者又は前記その都度の話者の話者固有の特徴に対してトレーニングすることにより、前記話者又は前記その都度の話者が１つ及び複数の話者固有の付加的命令語彙を入力し又は変更し、実時間作動で音声対話の実行及び／又は１つ又は複数の前記機器の制御を次のように行い、すなわち、前記話者又はその都度の前記話者により入力された音声命令を、音素及び／又は全単語モデルをベースに動作する話者独立型連続単語音声認識器と話者依存型音声認識器とに供給し、前記音声認識器でそれぞれ特徴抽出を行い、連続単語音声認識器において、前記音声認識器で抽出された特徴を使用して、それぞれプリセットされている構文構造のそれぞれの基本命令語彙からの基本命令の存在を検査してクラス分けし、話者依存型付加的音声認識器において、前記認識器で抽出された特徴を使用して、その都度の付加的命令語彙からの付加的命令の存在を検査してクラス分けし、次いで、所定の確率で認識されてクラス分けされた命令と、双方の前記認識器の構文構造とを仮定的音声命令に統合し、前記仮定的音声命令を、プリセットされている前記構文構造に従って前記仮定的音声命令の信頼性及び認識確率に関して検査してクラス分けし、次いで、許容される仮定的音声命令を、プリセット基準に従って前記仮定的音声命令のリーズナブルネスに関して検査し、リーズナブルと認識された前記仮定的音声命令から、最大の認識確率を有する前記仮定的音声命令を選択して、前記話者又は前記その都度の話者により入力された音声命令として識別し、次いで、識別された前記音声命令に割当られている、制御する前記機器の機能を開始する及び／又は、応答をプリセットされている音声対話構造に従って音声対話の継続のために生成することを特徴とする請求項１に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。３．音声命令の入力を音響的に有利にはハンドフリー作動で行うことを特徴とする請求項１又は請求項２に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。４．音響的に入力された音声命令を、定常的又は準定常的環境雑音により発生された雑音信号を音声信号受信チャネルの中で双方の音声認識器の前で有利には適応形ディジタルフィルタ方法により補償することにより雑音低減して双方の音声認識器に供給することを特徴とする請求項１から請求項３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。５．音響的に入力された音声命令を、音声出力装置又は音楽出力装置の音声信号受信チャネルの中にフィードバックされた信号を音声信号受信チャネルの中で双方の音声認識器の前で特に有利には雑音低減装置の前で適応形ディジタルフィルタ方法により補償することにより、エコー補償して双方の前記音声認識器に供給することを特徴とする請求項１から請求項４のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。６．入力された音声命令をディジタル化の後にブロック毎に統合し重み付けの後にスペクトル変換有利には高速フーリエ変換（ＦＴＴ）により周波数領域に変換し、次いで絶対値形成及び後続の聴覚を基準としてＭＥＬフィルタリングによりチャネルベクトルに統合し、これに続いてセグメンテーションを行うことを特徴とする請求項１から請求項５のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。７．セグメンテーションを粗セグメンテーションと微細セグメンテーションとに分割することを特徴とする請求項６に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。８．話者独立型連続単語音声認識器において特徴抽出を次のように行う、すなわち、チャネルベクトルを離散コサイン変換（ＤＣＴ）によりケプストラムベクトルに変換し、付加的に所属信号のエネルギーを計算及び正規化し、認識器をその都度の話者及び／又は音声信号受信チャネルのその都度の伝達特性に適応するために連続的にケプストラムベクトルの平均値を計算して前記ケプストラムベクトルから減算し、前記ケプストラムベクトルの前記平均値が差引かれたケプストラムベクトルと、計算された正規化された信号エネルギーとを、平均値が差引かれたケプストラム係数（ＣＭＦベクトル）に統合するように行うことを特徴とする請求項６又は請求項７に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。９．話者独立型連続単語認識器が、クラス分けにおいて音素及び／又は全単語を基礎する隠れマルコフモデル（ＨＭＭ）により動作することを特徴とする請求項１から請求項８のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 10．クラス分けをビタービアルゴリズムを用いて行い、前記ビタービアルゴリズムを、有利には前もって与えられている単語列統計により補足することを特徴とする請求項９に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 11．クラス分けにおいて付加的に充填語又は充填音又はその他の前もって与えられている基本語彙の中に含まれていない誤り命令もそれとして認識し、相応してクラス分けして選択除去することを特徴とする請求項１から請求項１０のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 12．話者独立型連続単語音声認識器と話者依存型付加的音声認識器とを入力音声命令に対して、同一の信号前処理、有利には雑音低減、エコー補償及びセグメンテーション方法を含む同一の信号前処理にかけることを特徴とする請求項１から請求項１１のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 13．付加的音声認識器が単一単語音声認識器として有利にはダイナミック時間正規化方法に従って動作することを特徴とする請求項１から請求項１２のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 14．話者独立型連続単語音声認識器と話者依存型音声認識器とが組合せられて連続単語モードにおいて動作することを特徴とする請求項１から請求項１３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 15．実時間作動の間に音声信号受信チャネルをアナログ伝送特性特に空間音響特性及び／又はマイクロフォン特性及び／又は増幅器特性及び／又は話者特性に連続的に適合することを特徴とする請求項１から請求項１４のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 16．前もって与えらる基本命令を音声符号化された形で前もって与えて記憶し、及び／又は話者又はその都度の話者によりトレーニングフェーズで入力された付加的命令及び／又は実時間作動において入力された音声命令をそれらの入力の後に音声符号化して更に処理し及び／又は不揮発記憶し、音響的に出力する符号化された音声命令をそれらの出力の前に音声復号化することを特徴とする請求項１から請求項１５のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 17．前もって与えられている基本命令及び／又は付加的命令及び／又は実時間作動において入力された音声命令をテキストの形で記憶し、音響的に出力される音声命令をそれらの出力の前にテキストから言語への合成にかけることを特徴とする請求項１から請求項１５のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 18．構文構造及び話者独立型命令を前もって”オフライン対話エディタモード ”で実験室において作成及び固定し、連続単語音声認識器にデータファイルの形で供給することを特徴とする請求項１から請求項１７のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 19．音声命令の中の単語位置を、１つの命令の個々の単語を交換することにより変化可能である、及び／又は、前もって与えられている同義の単語を音声命令の形成の際に使用可能である、及び／又は、同一の機能を異なる単語数の音声命令により実現することが可能であることを特徴とする請求項１から請求項１８のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 20．挿入句又はその他の語彙に所属しない命令を認識し次いで選択除去するために、許容される語彙に更なる単語又は音単位を付加する又はワードスポッティング部分を利用することを特徴とする請求項１から請求項１９のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 21．対話構造が、いくつかの僅かなハイアラーキ面、有利には１つ又は２つのハイアラーキ面を有する低層ハイアラーキと、音声対話の実行の際の省略文の組込みと、補助メニュー又は情報メニューの取り入れと、認識器の不確実な決定の際の音声対話システムの問合せの取り入れと、ある特定の話し方を奨励することにより認識信頼性を高めるための音声出力の取り入れ、の特性を有することを特徴とする請求項１から請求項２０のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 22．音声認識又は音声対話を、１つ又は複数の機器機能を制御するために、有利にはプッシュツウトーク（ＰＴＴ）キーの一回の作動によりアクティブにし、このアクティブ化を有利には音響的及び／又は光学的に確認応答することを特徴とする請求項１から請求項２１のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 23．アクティブ化を、プリセット可能であるか又はその都度のユーザのために調整設定される時間の経過後及び／又は音声対話システムの問合せの後に音声入力が行われない場合又はユーザにより選択された対話が予定通りに終了された場合に自動的に中断することを特徴とする請求項１から請求項２２のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 24．音声対話又は音声命令の入力を、プリセットされている特別の中断音声命令の入力により音声対話の所定個所で又は何時でもキー、有利にはプッシュツウトークキー又は中断キーの作動により中断することが可能であることを特徴とする請求項１から請求項２３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 25．音声対話システムが、異なる話者の特別の（例えばトレーニングされた）音声命令を必要に応じて後の再利用のために固定保持する特徴と、話者によりトレーニングされた音声命令又は名前をトレーニングフェーズの間に認識器に供給するだけでなく、それらの時間的経過の間に検出し、伝達圧縮装置（”音声符号化装置”）に供給して不揮発記憶する特徴と、話者によりトレーニングされた音声命令をトレーニングフェーズの間に、環境雑音が検出の間に大幅に補償されるように処理する特徴とのうちの１つ又は複数の特徴を有することを特徴とする請求項１から請求項２４のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 26．認識動作の終了を音響的にコントロールトーンにより確認応答することを特徴とする請求項１から請求項２５のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 27．有利には安全性又は時間又はコストに関して適切な決定において認識結果を音響的に繰返し（音声出力）、話者が、音声命令により又はスイッチ有利にはプッシュツウトークキー又は中断キーの作動により、音声命令に割当てられている機能の実行を阻止する又は取消す可能性を有することを特徴とする請求項１から請求項２６のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 28．音声対話システムを光学表示媒体有利にはＬＣＤディスプレイ又はモニター又は１つの制御される機器のディスプレイに接続することを特徴とする請求項１から請求項２７のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 29．光学表示媒体が、コントロール目的のために認識された音声命令を出力する機能と、目的機器により音声命令に対するリアクションとして設定された機能を表現する機能と、音声命令により次いで設定された又は選択された又は変更された異なる機能／代替を表現する機能とのうちの個々の機能又は複数の機能を引受けることを特徴とする請求項２８に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 30．それぞれの話者が固有の名前リスト又は略称リストを設けることが可能であり、前記リストは、話者により話者依存型認識器においてトレーニングされた名前が、話者独立型作動モードにおいて入力された数字連鎖、文字連鎖及び／又は命令又は命令シーケンスを表す特徴と、前記数字連鎖、前記文字連鎖又は前記命令シーケンスの再度の入力の代りにユーザはリスト名称と、ユーザにより選択された名前とを入力するか又は前記名前の外に正しい前記リストを推定させる適切な命令を入力する特徴と、前記リストを音声制御して何時でも更なる入力だけ拡張することが可能である特徴と、前記リストを音声制御して完全に又は選択的に消去する特徴と、前記リストを音声命令に基づいて聴取し、ユーザにより入力された名前と必要に応じて所属の数字連鎖、文字連鎖又は命令とを音響的に出力する特徴と、リストの音響的出力を任意の時点で中断することが可能である特徴とのうちの１つ又は複数又はすべての特徴を有することを特徴とする請求項１から請求項２９のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 31．１列の数字（数字列）を一気に一体的に又はブロック毎に発声することが可能であり、音声入力又は音声対話が有利には、次の特徴すなわちその都度の入力休止の後に、最後の入力ブロックが音声出力により繰返されることにより確認応答を行う特徴と、前記確認応答の後に音声命令”誤り”等により最後の入力ブロックを消去し、残りの記憶されているブロックを音響的に出力する特徴と、前記確認応答の後に音声命令”消去する”等によりすべての入力された数字ブロックを消去する特徴と、前記確認応答の後に音声命令”繰返す”等により、今まで記憶されたブロックを音響的に出力する特徴と、前記確認応答の後に音声命令”中断”等により数字列の入力を完全に中断する特徴と、前記確認応答の後に更なる数字又は数字ブロックを入力する特徴と、前記確認応答の後に数字入力を適切な音声命令”ストップ”、”記憶する”等により終了する特徴と、アクション／機能をスタートする音声命令例えば”選択する”等の入力により入力を終了し、前記音声命令に割当てられているアクション／機能を開始する特徴とのうちの１つ又は複数又はすべての特徴を有することを特徴とする請求項１から請求項３０のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 32．複合機能を選択するために又は多数の情報を入力するために前もって与えられている１列の文字（文字列）を発声し、前記文字列を一体的に又はブロック毎に入力し、音声入力又は音声対話が有利には、次の特徴すなわちその都度の入力休止の後に、最後の入力ブロックが音声出力により繰返されることにより確認応答を行う特徴と、前記確認応答の後に音声命令”誤り”等により最後の入力ブロックを消去し、残りの記憶されているブロックを音響的に出力する特徴と、前記確認応答の後に音声命令”消去する”等によりすべての入力された文字を消去し、これに続いて再度の入力を行う特徴と、前記確認応答の後に音声命令”繰返す”等により、今まで記憶されたブロックを音響的に出力する特徴と、前記確認応答の後に更なる文字又は文字ブロックを入力する特徴と、場合に応じて前記文字列又は個々の文字ブロックを、記憶されている単語リストと適合調整し、前記単語リストから最適な単語を抽出する特徴と、前記確認応答の後に音声命令”中断”等により前記文字列の入力を完全に中断する特徴と、前記確認応答の後に文字入力を音声命令”ストップ”、”記憶する”等により終了する特徴と、アクション／機能をスタートする音声命令例えば”選択する”等の入力後に入力を終了し、前記音声命令に割当てられているアクション／機能を開始する特徴とのうちの１つ又は複数又はすべての特徴を有することを特徴とする請求項１から請求項３１のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 33．音声命令”誤り”等又は音声命令”繰返す”等に続く、今まで発声された数字の出力において、入力の際と同一のブロック化が使用されることを特徴とする請求項３１又は３２に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 34．音声出力及びコントロールトーンの出力音量を環境雑音に適合し、前記環境雑音を音声休止の間に前記環境雑音の音量又は特性に関して検出することを特徴とする請求項１から請求項３３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 35．音声対話システムへのアクセス又はユーザ固有のデータ／命令へのアクセスを、特別の命令語の入力により又は音声特性が音声対話システムに既知であり前記音声対話システムにより検査されている認可された話者の特別の命令語の入力により行うことを特徴とする請求項１から請求項３３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 36．長く持続する音声出力（例えば情報メニュー）を、発声される又は手動の中断命令により早期に終了することが可能であることを特徴とする請求項１から請求項３５のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 37．音声対話システムが、次のような形態すなわち音声命令実行が手動操作の外に存在し、従って操作を何時でも手動で行う又は継続することが可能である、いくつかの特別の性能特徴が音声入力のみによりアクティブ化可能であり、その他の機器機能及び操作機能は手動でも音声によっても命令可能のままである、手動の操作素子の数が大幅に低減され、個々のキー又は回転つまみが多重機能を引受け、音声により手動の前記操作素子に１つの特別の機能が割当てられ、重要な操作機能のみが依然として手動で制御可能であり、前記操作機能の基本は音声命令実行である形態のうちの１つの形態で（例えばスイッチ、キー、回転つまみによる）機能の手動の操作を補足する又は置換することを特徴とする請求項１から請求項３６のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 38．ただ１つの単一単語命令又は多単語命令により多数の異なる機器及び機器機能に作用可能又は変更可能であり、従って多段階のプロシージャが不要であるか又は僅かな規模でしか必要としないことを特徴とする請求項１から請求３７項のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 39．自動車搭載の音声対話システムを、個々の又は複数の機器例えば自動車電話、（場合に応じてカセット、ＣＤチェンジャ、サウンドシステムを有する）自動車ラジオ、ナビゲーションシステム、非常呼出し装置、搭載モニター、空調装置、暖房装置、ポータブル計算機、照明装置、スライディングルーフ、窓開閉装置、シート位置調整装置等を操作する機能と、例えば油圧、油温度、冷却水温度、消費量、タイヤ圧力等のパラメータの情報問合せ機能と、例えば過度に高い冷却水温度等において必要な措置に関する情報の機能と、自動車の故障の際の運転者への警報の機能とのうちの個々の又は複数の機能のために適用することを特徴とする請求項１から請求項３８のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 40．自動車ラジオにおける新放送局の音声制御される選択を、上方又は下方へのサーチ走行の命令実行のシーケンスと、音声入力シーケンス、有利には日常語の形での有利には周波数指示を含めての放送局周波数の音声入力のシーケンスと、通常使用される放送局名の音声入力のシーケンスとのうちの１つのシーケンスに従って行うことを特徴とする請求項３９に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 41．空調装置において所望の温度を音声入力により相対的に及び／又は有利には絶対的に定めることが可能であり、有利には付加的に最低又は最高又は平均温度又は通常温度を命令することが可能であることを特徴とする請求項３９に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 42．ナビゲーションシステムに目的地（場所名、通り名）を”文字綴モード” で文字列を入力することにより伝達し、有利には名前の始端も入力として充分であり、ナビゲーションシステムは場合に応じて複数の候補を選択のために提供することを特徴とする請求項３９に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 43．プリセット可能な名前／略称での電話番号を記憶するためのユーザ固有の名前リストと、プリセット可能な名前／略称でのナビゲーションシステムのための目的地を記憶するためのユーザ固有の名前リストと、命令又は命令列のための機能名を記憶するためのユーザ固有の名前リストと、プリセット可能な放送局名又は略称での自動車ラジオの放送局周波数を記憶するためのユーザ固有の名前リストと、のうちの１つ又は複数のユーザ固有の名前リストを設けることを特徴とする請求項３９から請求項４２のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 44．音声出力及び１つ又は複数のコントロールトーンの出力音量と場合に応じてラジオ音量とを、自動車速度パラメータと、送風機調整設定パラメータと、回転数パラメータと、窓及びスライディングルーフの開放幅パラメータと、自動車タイプパラメータと、その都度の対話状況での音声出力の重要性パラメータとのうちの１つ又は複数のパラメータを考慮して定めるか又は適応的に適合調整することを特徴とする請求項３９から請求項４３のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 45．プッシュツウトークキーが、例えば電話している間に（”受話器を置く”、”受話器をとる”）又音声対話システムの新スタートの際に又は電話選択動作の中断の際に多重機能を利用するか又は含むか又は、プッシュツウトークキーを、例えば新スタート又は機能の中断を可能にする付加的スイッチ又は付加的切換え位置により補足することを特徴とする請求項２２から請求項４４のうちのいずれか１つの請求項に記載の実時間作動での音声対話又は音声命令による１つ又は複数の機器の自動制御方法。 46．音声入出力装置を、音声信号前処理装置を介して音声認識装置に接続し、前記音声認識装置をシーケンス制御装置、対話制御装置及びインターフェース制御装置に接続する請求項１から請求項４５のうちのいずれか１つの請求項に記載の方法を実施する装置において、前記音声認識装置を、音声独立型連続単語認識器と音声依存型付加的音声認識器とから形成し、双方の前記認識器の出力側を構文的文法的又は意味的後処理装置に接続し、前記後処理装置を前記シーケンス制御装置、前記対話制御装置及び前記インターフェース制御装置に接続することを特徴とする装置。 47．音声前処理装置が、雑音低減装置及び／又はエコー補償装置及び／又はセグメンテーション装置を含むことを特徴とする請求項４６に記載の装置。 48．音声入出力装置が音声エンコーダ、音声デコーダ及び音声メモリを含むことを特徴とする請求項４６又は４７に記載の装置。 49．シーケンス制御、対話制御及びインターフェース制御、入出力及び音声信号前処理、音声認識、構文的文法的及び意味的後処理をマイクロプロセッサ、信号プロセッサ、メモリ又はインターフェースモジュールにより行うが、しかし有利にはただ１つのディジタル信号プロセッサ又はマイクロプロセッサ及び所要の外部のドライバモジュール、クロック発生器、制御論理回路及び入出力に必要なマイクロフォン及びスピーカ、及び所属の変換器及び増幅器及び場合に応じてプッシュツウトーク（ＰＴＴ）キー及び中断キーにより行うことを特徴とする請求項４６から請求項４８のうちのいずれか１つの請求項に記載の装置。 50．１つ又は複数のインターフェースを介して、データ及び／又はパラメータをロード可能又は事後ロード可能であり、これにより例えば別の音声に対して方法変更又は音声対話システムを実現し、別個の計算機において定められているか又は変更されている構文構造、対話構造、シーケンス制御、音声出力等を音声対話システムに伝達し（”オフライン対話エディタ”）、ステータス情報又は対話情報を音声対話システムが要求し取出すことが可能であることを特徴とする請求項４９に記載の装置。 51．制御する機器のうちの複数の機器にバスシステム又はリング状ネットワークを介して接続し、前記バス又は前記ネットワークを介して制御データ及び／又はオーディオ信号及び／又は音声対話システム及び／又は操作する機器のステータスメッセージ伝送することを特徴とする請求項４９に記載の装置。 52．個々の制御する機器がそれぞれ１つの固有の音声対話システムを含むのではなく、ただ１つの共通の音声対話システムが前記機器を操作することを特徴とする自動車への適用のための請求項４６から請求項５１のうちのいずれか１つの請求項に記載の装置。 53．自動車構成要素に対して１つ又は複数のインターフェースを設け、前記インターフェースを介して恒久的な又は実際の自動車データ例えば速度等を音声対話システムに伝達することを特徴とする請求項４６から請求項５２のうちのいずれか１つの請求項に記載の装置。 54．音声入出力が行われない待ち時間の間に例えばラジオ、電話等の別の機能を引受けることを特徴とする請求項４６から請求項５３のうちのいずれか１つの請求項に記載の装置。 55．拡張されたメモリにより多言語の話者独立型対話システムを実現し、異なる言語の前記対話システムと前記対話システムとの間での切換えが可能であることを特徴とする請求項４６から請求項５４のうちのいずれか１つの請求項に記載の装置。 56．光学ディスプレイを音声対話システムに特別のインターフェースを介して又はバス端子を介して接続することを特徴とする請求項４６から請求項５５のうちのいずれか１つの請求項に記載の装置。 57．完全な音声対話システムをＰＣＭＣＩＡインターフェースを介して、音声により制御又は操作する機器又はホスト計算機又はアプリケーション計算機に接続することを特徴とする請求項４６から請求項５６のうちのいずれか１つの請求項に記載の装置。 58．バス又はネットワークが光データバスであり、前記光データバスを介して制御信号もオーディオ信号も又は音声対話システム及び操作する機器のステータスメッセージを伝送することが可能である請求項５１又は５７に記載の装置。