JPH11506845A - 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 - Google Patents

実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置

Info

Publication number
JPH11506845A
JPH11506845A JP9511639A JP51163997A JPH11506845A JP H11506845 A JPH11506845 A JP H11506845A JP 9511639 A JP9511639 A JP 9511639A JP 51163997 A JP51163997 A JP 51163997A JP H11506845 A JPH11506845 A JP H11506845A
Authority
JP
Japan
Prior art keywords
voice
dialogue
real
command
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9511639A
Other languages
English (en)
Other versions
JP3479691B2 (ja
Inventor
シュタムラー ヴァルター
クラス フリッツ
メラー カルステン−ウーヴェ
ニュスレ ゲルハルト
レー フランク
ブッシュキュール ブルカルト
ハインリヒ クリスティアン
Original Assignee
ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト
ダイムラー−ベンツ アクチエンゲゼルシャフト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=7771821&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JPH11506845(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト, ダイムラー−ベンツ アクチエンゲゼルシャフト filed Critical ダイムラー−ベンツ エーロスペイス アクチエンゲゼルシャフト
Publication of JPH11506845A publication Critical patent/JPH11506845A/ja
Application granted granted Critical
Publication of JP3479691B2 publication Critical patent/JP3479691B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

(57)【要約】 本発明は、音声対話による機器の自動制御方法が適用される音声対話システムに関し、この音声対話システムは、音声出力、音声信号前処理及び音声認識、構文的文法的後処理及び対話制御、シーケンス制御及びインターフェース制御のための方法を利用し、この音声対話システムは、構文構造及び命令構造が実時間対話作動の間に固定され、前処理、認識及び対話制御が、雑音を伴う環境の中での作動のために形成され、一般的命令の認識のためにユーザによるトレーニングは不要であり、音声入力のための1つの命令を形成する単語の数が可変であり、音声対話の実時間処理及び実時間実行が可能であり、音声入出力がハンドフリーモードで行われることを特徴とする。

Description

【発明の詳細な説明】 実時間作動での音声対話又は音声命令による 1つ又は複数の機器の自動制御方法 及びこの方法を実施する装置 本発明は、請求項1の上位概念に記載の実時間作動での音声対話又は音声命令 による1つ又は複数の機器の自動制御方法と、請求項46の上位概念に記載のこ の方法を実施する装置とに関する。 この形式の方法及び装置は一般的に、例えば自動車、コンピュータロボット、 機械、装置等のためのいわゆる音声対話システム又は音声操作システムにおいて 使用される。 音声対話システム(SDS)は一般的に次の構成要素に帰することが可能であ る。 ・ 音声認識システム。音声認識システムは、話者が発声した命令(”音声命令 ”)を別の許容される音声命令と比較し、いずれの命令が最も高い確率で話者が 発声したかを決定する。 ・ 音声出力装置。音声出力装置は、ユーザ案内のために必要な音声命令とシグ ナリングトーンとを出力し、場合に応じて認識結果を応答する。 ・ 対話及びシーケンス制御装置。対話及びシーケンス制御装置は、いずれの種 類の入力が予測されるかを ユーザに明瞭にするか又は、行われた入力が要求及びアプリケーションの瞬時の ステータスと一致しているかどうかを検査し、そして、アプリケーション(例え ば制御する機器)において結果のアクションをトリガする。 ・ アプリケーションへのインターフェースとしてのコントロールインターフェ ース。コントロールインターフェースは、アプリケーションを含む種々のアクチ ュエータ及び計算機を制御するためのハードウェア及びソフトウェアモジュール を含んでいる。 ・ 音声により制御されるアプリケーション。これは例えば注文システム又は情 報提供システム、CAE作業場所又は障害者用車椅子等であることもある。 本明細書は、説明した方法の一般的な適用性を制限することなしに音声認識、 対話構造及び自動車搭載の特別のアプリケーションに集中している。 公知の解決法における問題点は次のようである。 a) その都度の話者の特性又は変化する語彙にシステムを適合調整するために 大きいコストのトレーニングを実行する必要性。システムは完全に話者独立型で あるか又は完全に話者依存型すなわち話者適応型であり、後者はそれぞれの新ユ ーザのためにトレーニングを必要とする。これは時間がかかり、話者が頻繁に交 替する場合には操作快適性を著しく低減する。この理由から従来のシステムにお いては語彙規模は、話者が交替し個々の話者の時間不足を考慮しなければならな いアプリケーションにおいて小さい。 b) 操作快適性が不充分であり、これは次のように現れる。 − 認識信頼性を保証するために語彙が最小に制限される。 − 1つの命令の単一単語を孤立して(すなわち中休みをおいて)入力する 。 − 誤りを認識するために単一単語が確認応答されなければならない。 − 多重の機能を制御するために多段対話ハイアラーキを処理しなければな らない。 − マイクロフォンを手に取らなくてはならないか又はヘッドセット(ヘッ ドホーンとリップマイクロフォンとの組合せ)を着用しなければならない。 c) ロバスト性が、 − 操作誤りに対して、 − 障害環境雑音に対して 無い。 d) 特に中間及び小さい個数においてハードウェア 実現にコストがかかり高価になる。 本発明の課題は一方では、できるだけ小さいコストで1つ又は複数の機器を音 声命令により又は音声対話により確実に実時間作動で制御される又は操作される ことを可能にする方法を提供することにある。更に、この本発明の方法を実施す る適切な装置を提供することにある。 前記課題の本発明の解決法は、この本発明の方法において請求項1の特徴部分 に記載の特徴により表され、本発明の装置においては請求項46の特徴部分に記 載の特徴により表される。その他の請求項は本発明の方法の有利な実施の形態( 請求項2〜45)及び本発明の装置の有利な実施の形態(請求項47〜58)を 含む。 本発明の1つの重要な利点は、比較的小さいコストにより音声命令による又は 音声対話による機器の高信頼性の制御又は操作が可能であることにある。 1つの更なる重要な利点は、音声命令又は音声対話の実行における自然な話し 方に大幅に適合調整された入力が可能であり、このために話者に高信頼性の命令 の大規模な語彙が使用可能に提供されることにある。 第3の利点は、システムがエラートレランスで動作し、本発明の1つの有利な 実施の形態では例えば話者 により入力された音声命令の中の信頼性のない単語、名前、音又は単語位置変更 でも通常はそのまま認識され、これらの入力された音声命令から話者が本当に希 望した音声命令が抽出される。 次に本発明が図を用いて詳細に説明される。 図1は本発明の方法を実施するための本発明の装置の1つの有利な実施の形態 (”音声対話システム”)のブロック回路図、図2は図1の実際の音声対話シス テムを詳細に示すブロック回路図、図3は図2の音声対話システムのための入力 された音声命令のセグメンテーションの1つの有利な実施の形態のフローチャー ト、図4及び5は隠れマルコフモデルの実施の形態の略線図、図6は図2の音声 対話システムの1つの有利な実施の形態のハードウェア構成を示すブロック回路 図、図7は電話の音声制御操作のための図2の音声対話システムの適用のための 状態線図、図8は図7の電話の操作のためのフローチャート、図9及び10は図 8のフローチャートの電話の操作での機能”名前選択”(図9)又は”番号選択 ”(図10)のためのフローチャートである。 図1の次に説明する音声対話システム(SDS)は、(マイクロフォン2の記 号により示されている)音声入力装置、音声認識装置、対話制御装置及びシーケ ンス制御装置、通信及びコントロールインターフェース、(スピーカ3が接続さ れている)音声出力装置、 (例として)アプリケーションすなわちSDSにより制御する又は操作する機器 を構成要素として含む。SDS及びアプリケーションは共働して音声操作システ ム(SBS)を形成し、音声操作システムは実時間(”オンライン”)で作動さ れる。 構文及び対話構造と、すべてのユーザ/話者にとって拘束的な基本音声命令と は”オフライン”で(例として)SDS又はSBSの外部で”オフライン対話エ ディタモード”4の中のPCワークステーションを用いて作成され、固定され、 プリセットされるべきパラメータ及びシーケンス構造及びシーケンス構造と一緒 にSDS又はSBSに作動開始前にデータファイルの形で供給される。 図1のSDSは図2において詳細に示されている。(図示されていない)マイ クロフォンがアナログ/ディジタル変換器に接続され、アナログ/ディジタル変 換器はエコー補償、雑音低減及びセグメンテーションのための装置を介して、話 者独立型連続単語音声認識器と、話者依存型音声認識器とに接続されている。双 方の音声認識器は出力側で、認識器出力信号の構文的文法的及び意味的処理のた めの後処理装置に接続されている。この後処理装置も対話制御装置及びシーケン ス制御装置に接続され、対話制御装置とシーケンス制御装置は、SDSと、SD Sにより制御する機器とを制御する制御装置を形成する。更に音声入出力装置が 設けられ、音声入出力装置は音声エンコーダ、音声デコーダ及び音声メモリから 成る。 音声エンコーダは入力側において雑音低減装置に接続され、出力側において音 声メモリに接続されている。音声メモリは出力側において音声デコーダに接続さ れ、音声デコーダは出力側においてデジタル/アナログ変換器を介して(図示さ れていない)スピーカに接続されている。 エコー補償装置はインターフェースを介して、場合に応じて補償する(図中” オーディオ”により示されている)オーディオ信号を供給する(図示されていな い)機器/センサに接続されている。 話者独立型連続単語音声認識器は一方では、特徴抽出装置を有し、特徴抽出装 置においてケプストラム形成と、とりわけ入力信号のアナログ伝達特性への認識 器の適応とが行われ、他方、話者独立型連続単語音声認識器は、後置接続されて いるクラス分け装置を有する。 話者依存型音声認識器も一方では、特徴抽出装置を有し、他方、クラス分け装 置を有する。しかし付加的に切換えスイッチを介してクラス分け装置の代りに話 者特有付加的音声命令装置に切換え接続可能であり、話者特有付加的音声命令装 置はトレーニングフェーズにおいてSDSの実時間作動の前、間又は後に認識器 によりトレーニングされなければならない。話者依存 型認識器は例えばダイナミック時間歪法すなわちDTW(dynamic ti me warping)法で動作し、このDTW法により話者依存型認識器のク ラス分け装置は、認識する命令と事前トレーニングされたリファレンスパターン を検出し、最小距離を有するリファレンスパターンを、認識する命令として識別 する。話者依存型認識器は、話者独立型音声認識器において適用される特徴抽出 法(ケプストラム形成、適応等)により動作することが可能である。 出力側において双方の認識器は、認識器出力信号の構文的文法的及び意味的処 理装置に接続されている(この装置の役割及び機能は後に説明される)。出力側 において後処理装置に対話制御装置が後置接続され、対話制御装置はシーケンス 制御装置に接続されている。対話制御装置とシーケンス制御装置とは共働してS DS制御装置を形成し、SDS制御装置は前処理装置、音声入出力装置、双方の 認識器、後処理装置、通信及びコントロールインターフェースも制御し、制御す る又は操作する機器も(図2に示されているように適切なインターフェースを介 して)制御する。 次にSDSの動作を詳細に説明する。 SDSは前述のように、入力音声命令を認識するための2つのタイプの音声認 識器を含む。双方の認識に対して次のように特徴付けることが可能である。 ・ 話者独立型認識器: 連続して話された複数の単語の話者独立型認識。これ により一般的な制御命令、数字、名前、文字等を認識することが可能であり、し かもその際、使用された単語の1つ又は複数に対して話者又はユーザを前もって トレーニングすることは不要である。 更に連続単語モードでの入力を行うことが可能である、すなわち複数の単語、 数字、名前の組合せが1つの命令を形成し、この命令は一気にすなわち休み無し に話される(例えば命令:”半径1の円”)。クラス分けアルゴリズムにおいて HMM(hidden Markov modelすなわち隠れマルコフモデル )認識器が用いられ、この認識器は実質的に音素(音韻の最小単位)及び/又は 全単語モデルを認識して、それらから単語又は命令を形成する。語彙及び語彙か ら形成される命令(”構文構造”)は前もって実験室で固定され、認識器にデー タファイルの形で供給される(”オフライン対話編集モード”)。実時間作動に おいて独立型認識器の語彙及び構文構造をユーザにより変更することはできない 。 ・ 話者依存型認識器: ユーザ/話者が定義しトレーニングするユーザ/話者 特有の名前又は機能の話者依存型認識。ユーザ/話者は、名前リスト、機能リス ト等の形の個人的語彙を形成する又は編集することが 可能である。これによりユーザ/話者は彼の個人的語彙を選択し、この語彙をい つでも”オンライン”すなわち実時間作動で彼の必要性に適合することが可能で ある。 電話環境の中での用途の例として”名前リスト”、すなわち電話加入者の名前 の個人的にユーザ/話者により作成されたリストが挙げられ、その際、 ・ トレーニングフェーズにおけるそれぞれの名前は一度又は複数回ユーザによ り発声され(例えば”ウィリーおじさん”)、この名前にキー入力によりしかし 有利には独立型音声認識器により電話番号が割当てられ、 ・ 前述のトレーニング及び番号割当ての終了後にはユーザは話者依存型認識器 に名前(”ウィリーおじさん”)のみを言い、システムに既に知られている所属 の電話番号は言わない。 話者依存型認識器は、 ・ 最も簡単な形では孤立単語認識器として形成され、 ・ 高性能の形では連続単語認識器として形成され、連続単語認識器は継目無し に話者独立型認識器に結合されている。(例えば”ウィリーおじさんを呼出す” を完全な命令として、ただし単語”呼出す”は話者独立型語彙の一部であり、” ウィリーおじさん”は話者 依存型語彙の一部である)。 音声認識に続いて後処理装置において、双方の音声認識器のある所定の認識確 率を伴う結果の後処理が実行される。 話者独立型連続単語音声認識器は例えば複数の文仮定を、認識確率を表す順序 で供給する。この文仮定は通常は既に、許容される構文構造を考慮している。こ れが当てはまらない場合、構文的後処理(図2)の中で、許容されない単語列が 選択除去されるか又は種々の基準に従って、これらの単語列の中に出現する単語 組合せはいかなる確率を有するかが評価される。更に、音声認識器により生成さ れた文仮定がそれらの意味的なリーズナブルネスについて計算され、次いで最大 の確率の仮定が選択される。 正しく認識された音声命令は対話制御装置に供給され、次いで、アプリケーシ ョンへのこの音声コマンドに割当てられているアクションが行われ、メッセージ はコントロールインターフェースを介して供給される。場合に応じて、認識され た音声命令は対話制御装置により音声出力装置にも(のみに)供給されて出力さ れる。 概略的に説明されたシステムは”オンライン”作動で、固定された構文及び命 令構造により、そして、(話者独立型認識器の)固定された語彙と例えば(話者 依存型認識器の)名前等の自由に定義可能な語彙との組合せとを特徴とする。 この最初は剛性に見えるフレームは、例えば雑音を伴う環境において等の(現 在の時点では数百の単語までの)大きい語彙量において、乗客室の中の変化する 音響状態において、及び異なる複数の話者において高い認識性能のための前提条 件である。大きい語彙量は、ユーザフレンドリ性を、同義語又は異なる表現変形 の使用により高めるために使用される。構文も、単語を音声命令に変換すること を可能にし、例えば、 ”左側の円において大きな半径” 又は代替的に、 ”大きな半径の左側の円において”、 ただし代替は最初から”オフライン対話エディタ”における取決めの際に定義さ れなければならない。 前述のアプローチは特に次の理由から有利である。 ・ 命令の連続単語入力が、孤立単語入力に比して自然かつ迅速である。実際の 上での使用により分かったことは、無頓着なユーザは、多単語命令を入力するた めに(明瞭な中休みにより)途切れ途切れに話すことに慣れることが困難なこと である(従ってこのようなシステムの容認は大幅に低い)。 ・ 例えば連続形の数字又は文字列等の入力は、個別入力に比して容易であり要 求される集中力が低い。 ・ 対話の実行がより自然である、何故ならば例えば数字列においてそれぞれの 単一数字が確認応答される必要がなく、入力された数字ブロックのみが確認応答 されればよいからである。 ・ 例えば数百に及ぶ単語の語彙に起因して1つの音声毎に、以前は手動操作を 必要とした多数の機能が操作可能である。 ・ 手動切換え素子の数が低減されるか又は音声入力の際に手を別の個所例えば 機関の品質コントロールにおいて使用可能である。 本システムにおいて操作快適性は、ヘッドセット(ヘッドホーン及びリップマ イクロフォン)又はハンドマイクロフォンの代りに(又はの補足に)ハンドフリ ー形マイクロフォンを使用する利点により更に高められる。しかしハンドフリー マイクロフォンの使用は通常は、例えば対話スピーカ又はその他のスピーカから 到来する信号の、高性能雑音低減装置(図2)及び場合に応じてエコー補償を必 要とする。しかしアプリケーション又は雑音レベルに依存してこれらの方法は、 ヘッドセット又はハンドマイクロフォンの使用においても必要であることもある 。 エコー補償によりユーザ/話者は特に、音声出力中 に口を挟むことが可能となる、すなわち音声出力がアクティブである間に認識器 に話しかけることが可能となる。 更に実験室において”オフライン対話エディタ”により何時でも語彙及び命令 を変化することが可能であり、しかもその際、これは、話者独立型認識器の新単 語のための多数の話者により新トレーニングを必要としない。その理由は、実験 室において話者独立型音素及び/又は話者独立型全単語モデルのためのデータバ ンクが存在し、これらの音素又は全単語モデルからその時の開発環境にて、簡単 に新単語及び新命令を生成することが可能であることにある。最後に、命令又は 語彙の変化は、実験室において開発システムにより計算された新パラメータ及び データをデータファイルとして話者独立型”実時間認識器”に伝送して、そこで メモリに格納することを目的としている。 SDSにより、SDSが組込まれているコンピュータの中の機能も、外部の機 器も操作することが可能である。SDSは例えばPCMCIAインターフェース の外に、外部機器にとってアクセス可能であるインターフェースも有する。これ は例えばV.24インターフェース、光データ制御バス、CANインターフェー ス等である。選択的にSDSは更なるインターフェースを設けられることが可能 である。 SDSは有利には、プッシュツウトーク(push −to−talk)キー(PTTキー)の作動により又は定められているキーワ ードによりアクティブにされる。スイッチオフは、SDSによりプリセットされ た又は適応的にその都度のユーザのために調整設定された時間の経過後及び/又 はSDSの問合せの後に音声入力が行われない場合、又はユーザにより選択され た対話が予定通りに終了した場合(例えば所望の電話番号が電話に接続形成のた めに伝送された場合)、対応する音声命令(”中断命令”)を対話の定められた 個所に入力することにより、又は何時でもPTTキー又は中断キーの作動により 、又は自動的に内部のシーケンス制御装置により行われる。低雑音環境において SDSを連続的にもアクティブにすることが可能である。 シーケンスの説明 ここで、図2のSDSは、本発明により可能な音声対話システムのための1つ の例にすぎないことを強調しておく。データ入力又はデータ出力又は接続されて いる構成要素の制御装置へのインターフェースの構成もここでは単に例として示 されているにすぎない。 図2に示されている機能ブロックが次に詳細に説明される。 1. エコー補償: エコー補償を介して例えば音声出力装置又はスイッチオンされたラジオのディ ジタル化されたスピーカ信号が適応形フィルタアルゴリズムを介してマイクロフ ォン信号から減算される。フィルタアルゴリズムはスピーカからマイクロフォン へのエコーパスをシミュレートする。 2. 雑音低減: 雑音低減により、ディジタル化された音声信号の定常の環境雑音と準定常の環 境雑音とを区別することが可能であり、これらの雑音を音声信号から減算するこ とが可能である。この種類の雑音は例えば自動車における走行雑音、実験室及び 事務所における環境雑音、及び工場内の換気装置又は機械雑音等である。 3. セグメンテーション 図3に示されているようにセグメンテーションは、スペクトル変換されたデー タを基礎にしている。このために信号はブロック毎にいわゆる”フレーム”に統 合され高速フーリエ変換(FFT)により周波数領域内に変換される。音声領域 (〜200Hzから〜6KHzまで)が聴覚を基準として個々の周波数領域(” チャネル”)に分割される、聴覚を基準としているMELフィルタすなわち音の 高さのメロディー的感受を シミュレートしたフィルタにより値形成及び重み付けによりスペクトル値はチャ ネルベクトルに統合され、チャネルベクトルは、異なる周波数帯域における出力 を示す。次いで、恒久的にアクティブであり命令開始及び命令終了を粗に検出す る粗セグメンテーションが行われ、次いで正確な限界を定める微細セグメンテー ションが行われる。 4. 特徴抽出 特徴抽出器は、複数の段にわたるディジタル化されセグメント化された音声信 号から特徴ベクトルを計算し、所属の正規化されたエネルギー値を求める。 このために話者独立型認識器においてチャネルベクトルは離散コサイン変換( DCT)によりケプストラムベクトルに変換される。付加的に信号のエネルギー が計算され、正規化される。これに平行してケプストラム値の連続的な平均値計 算が行われ、これは認識器を瞬時の話者にも、例えばマイクロフォン及びチャネ ル(話者→マイクロフォン)の伝達特性にも適応することを目的としている。ケ プストラムベクトルは、この適応された平均値が差引かれ、前に計算された正規 化されたエネルギーによりいわゆるCMF(epstralkoeffizi erten ittelwertrei)ベクトルに統合される。 5. 話者独立型連続単語音声認識器のクラス分け 5.1 隠れマルコフモデル(HMM) 隠れマルコフモデルは、互いに遷移により接続されている状態の集合である( 図4)。 1つの状態qiから別の1つ状態qjへのそれぞれの遷移はいわゆる遷移確率 により表される。それぞれのノード(状態)にいわゆる長さMの放射確率のベク トルが割当てられている。これらの放射確率を介して物理的世界への接続が形成 される。モデル構想は、ある特定の状態qiにおいて、Mとは異なるシンボルの うちの1つのシンボルが、状態を基準とする放射確率に従って”放射”されるこ とになっている。 モデルが生成する”放射された”シンボル系列は可視可能である。これに対し て、モデルの中で発生する状態の具体的な順序は可視できない(隠れている)。 隠れマルコフモデルは次の値により定められる。 ・ T シンボルの数 ・ t 観測されたシンボルの時点、t=1...T ・ N モデルの状態(ノード)の数 ・ M 可能なシンボルの数(=コードブック値) ・ Q モデルの状態{q1,q2,...qn} ・ V 可能なシンボルの量 ・ A 1つの状態から別の1つの状態への遷移確率 ・ B モデルの1つの状態における出力シンボルの確率(放射確率) ・ π (HMMのトレーニングにおける)モデルの初期状態の確率 確率分布A及びBを使用してこのモデルを用いて出力シンボルを生成すること が可能である。 5.2 音素を基礎にしたHMM認識器の構成 多くの語彙を有する話者認識システムにおいて単語認識は好適には全単語を基 礎にせず、音韻的な単語構成単位を基礎にしている。このような単語構成単位は 例えば音、二重音又は音遷移である。次いで、認識する単語は、対応する単語構 成単位モデルの連鎖により表される。図5において、連鎖されている隠れマルコ フモデル(HMM)のこのような表現の例として一方では、単語”braten (焼く、あぶるの意味)”の標準発音形(図5A)が示され、他方、発音変形( 図5B)の音韻的説明が示されている。これらの単語構成単位モデルは、システ ムの作成の際に多数の話者を無作為抽出検査におけるサンプルとして使用してト レーニングされ、”オンライン対話エディタ”が基礎とするデータベースを形成 する。単語構成単位によるこのコンセプトは、新単語を比較的簡単に既存の辞書 の中に採用することが可能であることにある、何故な らば単語構成単位のためのパラメータが既知であるからである。 理論的にはこの認識器により任意に大きな語彙を認識することが可能である。 しかし実際の上では、制限されている計算性能により、そしてその都度の用途に 必要な認識性能とにより限界が課せられている。 クラス分けはいわゆるビタービのアルゴリズムを基礎にし、このアルゴリズム においては、それぞれの単語の確率が到来シンボル系列に対して計算される。1 つの単語はこの場合には異なる音素の連鎖のことである。ビタービのアルゴリズ ムは単語列統計(”言語モデル”)により補足される、すなわち”オフライン対 話エディタ”において特定化された多単語命令が、許容される単語組合せを供給 する。極端な場合にはクラ ”ガーベッジ単語”(”非単語”)の認識及び選択除去も含む。”ガーベッジ単 語”は、実際の音声命令に不必要に話者により付加されるしかし音声認識器の語 彙の中に含まれていない音声的補足である。例えば話者は”半径1を有する円形 ”との命令を例えば”私はいま...したい”又は”どうぞ1つの...”等の 表現だけ更に拡張することが可能である。アプリケーション又は必要語彙の量に 依存してこれらの音素を基礎とした隠れマルコフモデルを、必要に応じて、全単 語を基礎にしている隠れマルコフモデルだけ補足又は 拡張することも可能である。 6. 話者依存型認識器 話者依存型認識においては、話者独立型認識器におおけるのと同一の前処理が 行われる。文献から、実時間作動でのトレーニングを可能にする異なるアプロー チが公知である(例えばダイナミック時間正規化(”dynamic time warping(DTP)”)、ニューラルネットワーク・クラス分け器)。 この場合第一に単一単語認識器が挙げられ、この場合に有利にはダイナミック時 間正規化法が使用される。 ユーザフレンドリ性を高めるために、本明細書で説明されるSDSにおいては 話者独立型認識器(第5の項を参照)と話者依存型認識器との組合せが連続単語 モードで利用され(”グロリアを呼び出す”、”ウィリーおじさんの新しい目標 ”、”斜め楕円関数を描く”)、”グロリア”、”ウィリーおじさん”、”斜め 楕円”との単語はユーザによりトレーニングの際に自由に選択され、所属の電話 番号/目標アドレス/機能説明と一緒に当該のリストの中に格納された。このア プローチの利点は、1つから2つまでの(又は場合に応じてより多くの)対話ス テップが節約されることにある。 7. 後処理: 構文及び意味検査: SDSは、音声認識器から供給される結果の高性能後処理を含む。これには、 求められた文仮定が音声命令の先天的に定められた構成(”構文”)に対応する かどうかの構文検査が所属する。ノーの場合、対応する仮定が棄却される。この 構文分析は個別の場合には部分的又は完全に認識器自身の中に組込まれれている こともあり、これは例えば、クラス分け器の決定ツリーの中に構文が既に考慮さ れる。 更に、音声認識器から供給される文仮定はその意味及びそのリーズナブルネス に関して検査される。 このリーズナブルネステストの後に対話制御装置に渡されるかか又は棄却され る。 棄却の場合には音声認識器の次に高い確率の仮定が採用され、同様の方法で処 理される。 構文的に正しくリーズナブルな命令の場合には意味の説明と一緒に対話制御装 置に供給される。 8. 対話及びシーケンス制御装置 対話制御装置は、認識された文に反応し、実行する機能を定める。例えば対話 制御装置は次のことを定める。 ・ いずれの問合せ、情報又は要求がユーザに出力されるか。 ・ いずれのアクチュエータがいかに話しかけられるか。 ・ いずれのシステムモジュールがアクティブであるか(話者独立型認識器、ト レーニング)。 ・ いずれの部分語彙が、次に予測される応答においてアクティブであるか(例 えば数字のみ)。 更に対話制御装置は、アプリケーションのステータスがSDSに通報されてい る限りアプリケーションのステータスの概観的知識を含む。対話制御装置にはシ ーケンス制御装置が下位に所属し、シーケンス制御装置は個々のプロセスを時間 的及び論理的に制御する。 9. 通信及びコントロールインターフェース この場合に通信は、操作する機器を含む接続されている周辺機器により実行さ れる。 このために、異なるインターフェースが使用可能である。しかしSDSは通常 はこれらのインターフェースのすべてを前提としてはいない。図2に示されてい るインターフェースは、可能な1つの実施例を示すにすぎない。通信及びコント ロールインターフェースは通常は音声入出力も例えばA/D変換器又はD/A変 換器を介して行う。 10. 音声入出力装置 音声入出力は装置、”音声信号圧縮モジュール”(=”音声エンコーダ”)か ら成り、”音声信号圧縮モ ジュール”は、ディジタル化された音声信号から冗長性及び重要でない部分を除 去して、大幅に小さいメモリの中に所定長の音声信号をA/D変換の後に直接に 格納することを可能にする。圧縮された情報は音声メモリの中に格納され、出力 のために”音声デコーダ”で再生され、これにより、オリジナル入力単語は再び 聴取可能となる。この場合に場合に応じて発生する再生における品質損失は、現 在使用可能な符号化又は復号化方式においては容認可能な範囲内に維持される。 対話の実行のために音声メモリにおいて既に最初から(”オフライン対話エデ ィタ”)一連の命令、補助テキスト又は指示が格納され、これらの一連の命令、 補助テキスト又は指示はユーザを操作の際に支援するか又はユーザに情報をアプ リケーション側から供給させる。 更に音声符号化が話者独立型認識器のためのトレーニングの間にアクティブに される、何故ならばユーザにより発声された名前も音声メモリに格納される。ユ ーザは、ユーザの名前リスト又は機能リストを聴取することにより何時でも音響 的に内容すなわち個々の名前又は機能について情報を得ることが可能である。 音声符号化アルゴリズム及び音声復号化アルゴリズムに関して例えば音声伝送 から”ソースコーディング”との用語の下に公知であり、ソフトウェアによりプ ログラム可能なプロセッサにおいて実施できる方法を 適用可能である。 図6において図2のSDSの可能なハードウェア構成のための1つの例が示さ れている。個々の機能ブロックの構成と、データ入出力及び接続されている素子 の制御のためのインターフェースとは例としてのみ示されている。話者独立型で 話された単語のためのこの場合に到来するアクティブな語彙は例えば数百の単語 を含むこともある。 ディジタル信号プロセッサ(DSP)は市販のプログラム可能なプロセッサで あり、このプロセッサはマイクロプロセッサとは、別のバスアーキテクチャ(例 えばフォンノイマンアーキテクチャの代りにハーバードアーキテクチャ)、特別 の”オンチップ”ハードウェア演算装置(乗算器/アキュムレータ/シフタ等) 、及び実時間ディジタル信号処理において必要とされるI/O機能の点で異なる 。ますます高性能RISCプロセッサはDSPに類似の機能を提供し、これらの 機能を場合に応じて置換することが可能である。 本明細書に示されているDSP(又は類似の性能の別のマイクロプロセッサ) は特別のインターフェースコントロール機能以外は、図3のすべての機能をソフ トウェア又は集積ハードウェアにより実行することが可能である。現在市販のD SPにより、本明細書で説明されるコンセプトにより現在(例として)数百の単 語の語彙を実現することが可能であり、その際、この語彙は完全に”アクティブ な語彙”として選択可能であり、部分語彙の形成により大幅に小さくならないと 仮定されている。部分語彙が形成される場合にはそれらの部分語彙のそれぞれは 前述の大きさを含むことが可能である。 図6のハードウェア構造により、そして特に認識のための及び/又は対話実行 、シーケンス制御、音声符号化及びインターフェースプロトコル実行のための付 加的モジュールを不要にすることにより、コンパクトで小コストで小さい電流消 費量のハードウェアの実現が可能となる。更なる技術開発により将来においてよ り大きい計算能力及びより大きいメモリ容量がDSPにおいて使用可能となり、 大きい外部メモリ領域がアドレス可能となり、これにより膨大な量の語彙又は一 層高性能のアルゴリズムが実現可能となる。 SDSは、SDPに接続されている”プッシュツウトーク”キー(PTTキー )によりアクティブにされる。このキーを作動することにより制御ソフトウェア は認識動作を開始する。詳細にはDSPの外に次の更なるハードウェアモジュー ルが設けられている。 ・ A/D変換器及びD/A変換器: 接続されているA/D変換器及びD/A変換器を介して、 − マイクロフォン信号及び場合に応じてスピーカ信号がディジタル化され、 更なる処理のためにDSPに伝送され、 − 音声出力/対話制御のためのディジタル化された音声データはアナログ信 号に変換され、増幅され、適切な再生媒体(例えばスピーカ)に供給される。 ・ D2Bオプチカル: これは光バスシステムであり、この光バスシステムを介して種々のオーディオ 機器及び情報機器を制御可能である(例えば:オーディオ及びCDチェンジャ、 自動車電話及びナビゲーション機器等)。このバスは制御データだけでなくオー ディオデータも伝送する。極端な場合(すなわちマイクロフォン信号及びスピー カ信号がこのバスを介して伝送される場合)SDSの中でのA/D変換及びD/ A変換は不要となる。 ・ CANバス: CANバスはバスシステムであり、このバスシステムを介して自動車の中の情 報機器及びアクチュエータを制御することが可能である。オーディオ伝送は通常 は不可能である。 ・ V.24インターフェース: このインターフェースは、種々の周辺機器を制御す るために用いられる。更にこのインターフェースを介してSDSのソフトウェア の更新が可能である。例えば当該の語彙又は当該の言語(例えば:ドイツ語、英 語、フランス語等)をロードすることが可能である。 ・ PCMCIAインターフェース: このインターフェースはデスクトップ又はポータブルコンピュータとの通信の 外にSDSへの電圧供給にも用いられる。前述の機能のうちの多数の機能はこの インターフェースに統合することが可能である。更にこのインターフェースはS DSの電気的特性の外に機械的寸法も定めることが可能である。これらの機械的 寸法は、例えばSDSがデスクトップ又はポータブルコンピュータのPCMCI Aコンパートメントの中に差込み可能に選択することが可能である。 ・ メモリ DSPに接続されているメモリ(データ/プログラムRAM及びROM)はD SPにプログラム及びデータメモリとして用いられる。更にこのプログラム及び データメモリは特定のクラス分けモデルと場合に応じて双方の音声認識器のリフ ァレンスパターンと対話制御及びユーザガイドのための固定テキストとを含む。 FLASHメモリ又はバッテリー緩衝メモリの中にユーザ固有情報が格納される (アドレスリスト、データ リスト)。 本明細書に説明されているハードウェア構成は特にインターフェースに関して それぞれのアプリケーション又は特定のカストマ要求に強く依存し、本明細書に おいては例としていくつかの用途のために説明されている。別のアプリケーショ ン(例えばPC又はワークステーションへの接続又はポータブル電話における使 用)においてはインターフェースの選択は全く別であることもある。A/D変換 器及びD/A変換器も既にDSPに集積可能である。 音声操作自動車電話の例における機能説明 次に対話シーケンスが例として(例えば自動車の中で)音声により制御される 電話制御を例にして説明される。 この例は電話及びラジオ及び/又はCD及び/又は自動車におけるナビゲーシ ョンの制御又はCAE作業場等の操作に拡張することが可能である。 これらの例のそれぞれの特徴は次のようである。 − 多単語命令及び文字列又は数字列の話者独立型認識。 − ユーザにより前もってトレーニングされ自由に選 択された名前、又は機能が割当てられている機能語、数字コード(例えば電話帳 の電話番号又はラジオ放送局リストの放送局周波数)又は文字組合せ(例えばナ ビゲーションシステムにおける目的地)の話者依存型入力。 割当てを定める際にユーザは機能組合せ又は数字組合せを話者独立型連続単語 モードで入力する(機能、文字、数字は許容語彙の一部でなければならない、す なわち”オフライン対話エディタ”により前もって定められていなければならな い)。 − この名前選択に常に関連しているのが、同一ユーザの異なる名前又は機能語 の当該のリスト(電話帳、放送局リスト、目的地リスト)の管理である。このよ うなリストは拡張され、消去され、質問され又は補正されることが可能である。 状態線図SDS(図7): 音声入力を介しての電話の操作の間にSDSは異なる状態をとり、これらの状 態のうちのいくつかが例として図7に示されている(デアクティブにされた状態 ;命令モード”電話”;選択機能に関連しての番号入力又は番号選択及び名前入 力又は名前選択;メモリ機能に関連しての名前入力又は名前トレーニング;消去 機能に関連して名前を消去する又は電話帳を完全に又 は選択的に消去する)。遷移は音声命令の表明(”番号選択”、”名前選択”、 ”名前を記憶する”、”番号を記憶する”、”終了”、”消去”)により制御さ れ、SDSをアクティブにすることはPTTキーの作動により行われる。会話中 断は例えば特別の中断命令(”終了”)の入力又は中断キーの作動により行われ る。 作動状態”デアクティブにされる”: 音声対話システムはこの状態では認識準備完了状態ではない。しかし信号処理 ソフトウェアの一部は好適には常にアクティブ(雑音低減、エコー補償)であり 、これにより雑音状態及びエコー状態が恒久的に更新される。 作動状態”アクティブ”(図8): 音声対話システムはPTTキーによりアクティブにされて、周辺機器(電話) の更なる制御のために許容される命令を待っている。作動状態”アクティブ”の 機能シーケンスは図8にフローチャートの形で(例として)示され、すなわち、 ”電話帳を選択する”、”電話帳を消去する”、”名前を消去する”、”名前選 択”、”番号選択”、”名前を記憶する”、”番号を 記憶する”、”電話帳を聴取する”という機能と、所属のアクション及びリアク ション(名前リストの出力、完全な又は選択的な消去、名前選択又は番号選択、 番号入力又は名前トレーニング)とのために示されている。勿論、これらの機能 は必要に応じて付加的な更なる機能により補足される又は拡張されるか又は別の 機能により完全に又は部分的に置換することが可能である。 一般的にこれに関連して、アクティブにされたSDSは何時でも、すなわち次 に詳細に説明される機能シーケンスのうちの1つの機能シーケンスの間にも再び デアクティブにされることが可能であり、これにより、場合に応じてまだ完了さ れていない機能シーケンスが最終的に又は一時的に中断されることに注意された い。SDSをデアクティブにすることは例えば、対話の所定の個所において何時 でも、場合に応じて設けられている中断キーの作動により又は特別な中断命令( 例えば”終了する”、”中断する”等)の入力により行われる。 作動状態”名前選択”(図9): この状態は、当該の音声命令”名前選択”又は”電話 名前選択”等が正しく 認識されたことを前提とする。この状態では電話番号の選択は名前の入力により 可能である。このために話者依存型音声認識器に切換えられる。 話者対話システムは名前の入力を要求する。名前はユーザに確認応答される。 音声対話システムはこの時点で再び話者独立型認識器に切換える。名前が正しく 認識された場合には、名前に割当られている電話番号が電話に供給され、電話に おいて当該の電話加入者への接続が形成される。 名前が間違って理解された場合には中断機能(例えば中断キーの作動等)によ り電話番号の選択を阻止することが可能である。これに対して代替的に、音声命 令に割当られているアクション/機能が実行されるべきかどうかについてSDS の問合せが可能である。 電話帳の範囲はメモリ場所に依存して例えば50以上の記憶されている名前を 含むこともある。作動状態”名前選択”の機能シーケンスは図9にフローチャー トの形で示されている。 作動状態”番号選択”(図10): この状態は、当該の音声命令(例えば”番号選択”等)が正しく認識されたこ とを前提とする。この状態では電話番号の選択が1つの数字列の入力により行わ れる。入力は連続して(場合に応じてブロック毎に)かつ話者独立型で行われる 。SDSはこの作動状態で番号の入力を要求する。これに続いてユーザは番号を 完全に又は個々のブロックで音声命令として入力する。入力された番号又はその 都度に入力された番号ブロックはユーザに、その都度の音声命令の入力後に確認 応答される。”選択する”との要求が行われると番号が電話に供給され、電話に おいて当該電話加入者への接続が形成される。 番号が間違って理解された場合にはエラー機能により番号が補正又は消去され るか又は中断機能を介して例えば命令”終了する”により音声操作が中断される 、すなわちSDSがデアクティブにされる。 作動状態”番号選択”の機能シーケンスは図10にフローチャートの形で示さ れている。 作動状態”接続”: 所望の電話加入者への電話接続が形成される。この状態では音声認識器はデア クティブにされる。電話会話は例えば中断キーにより終了される。 作動状態”番号を記憶する/名前を記憶する” 音声命令”番号を記憶する”又は”名前を記憶する”に基づいてSDSがユー ザ/話者に、数字を入力することを要求し、ユーザがこれらの数字を発声すると (作動状態”番号選択”を参照)、命令”選択する” の代りに命令”記憶する”又は類似の命令が入力される。電話番号がこの時点で 記憶される。次いでSDSはユーザに、所属の名前を発声することを要求し、ト レーニング結果の改善のために名前入力をもう一度又は数回繰返させる。この繰 返しの後に対話が終了される。最初の数字入力が例えば”中断する”又は”中断 ”、”繰返す”、”補正する”又は”補正”、”誤り”等の対話命令によりコン トロールされることが可能である。 作動状態”電話帳を消去する/名前を消去する” ”電話帳”(すべてのトレーニングされた名前及び所属の電話番号のリスト) に関連して、ユーザのためのシステムの快適性を高める例えば次のような一連の 編集機能が定められる。 電話帳を消去する: 完全な又は選択的な消去、その際、最終的な消去の前のSDSの問合せ(”貴 方は本当に間違っていませんか”)により、そして特別の名前を場合に応じて出 力することにより認識エラーによる間違いの消去が回避される。 名前を消去する: SDSがユーザに、消去する名前を発声することを要求する。名前はSDSに より繰返される。 次いでユーザが”貴方は本当に間違っていませんか?”という質問により、消 去動作を確認応答することを要求される。 音声命令”イエス”の入力により名前が電話帳から消去される。 音声命令として入力されたその他のそれぞれの単語が対話を終了する。 作動状態”電話帳を聴取する”: SDSは電話帳全体の内容をアナウンスする。所望の名前がアナウンスされた 後、中断命令又は選択命令が与えられるか又はPTTキーが作動されると、選択 された名前が再度アナウンスされ、”番号を選択するか?”と質問される。 音声命令”イエス”を入力すると選択動作すなわち接続が形成される。 ”ノー”によりSDSは電話帳のアナウンスを続行する。音声命令”中断”、 ”中断する”等又は中断キーの作動はアナウンス又は対話を終了する。 最後に挙げた2つの機能”電話帳を聴取する”及び”電話帳を選択する”は単 一の機能に統合することも 可能である。これは例えば”電話帳を聴取する”において適切な名前の聴取後に PTTが作動され、SDSが例えば”名前’ウィリーおじさん’が選択される” との通報の後に選択動作が導入されることにより行われる。 前に説明されたSDSの特性は、更なるアプリケーションを組込で次のように まとめることが可能である。 実時間作動での音声命令又は音声対話により1つ又は複数の機器を自動制御及 び/又は操作する方法を使用できる。この方法において、音声出力方法、音声信 号処理方法及び音声認識方法、構文的文法的後処理方法、対話制御方法、シーケ ンス制御方法及びインターフェース制御方法が適用される。この方法はその基本 バージョンにおいて”オンライン”作動で、固定された構文構造及び固定された 命令構造と、そして固定された語彙(話者独立型認識器)と例えば名前又は機能 語等の自由に定めることが可能な語彙(話者依存型認識器)との組合せとを特徴 とする。有利な実施の形態においてこの方法は一連の特徴により特徴付けられ、 これらの有利な実施の形態では次のようである。 − 構文構造及び命令構造が実時間対話作動の間にわたり固定されている。 − 前処理、認識及び対話制御が、雑音を伴う環境の 中での作動のために形成されている。 − 一般的な命令、名前又はデータを認識するためにユーザによるトレーニング が不要である(”話者独立性”)。 − 個々のユーザの特別の名前、データ又は命令を認識するためにトレーニング が必要である(ユーザ特有の名前又は機能語における”話者依存性”)。 − 命令、名前又はデータの入力が有利には連続して行われ、音声入力のための 1つの命令を形成する単語の数は可変である、すなわち1単語命令又は2単語命 令だけでなく、3単語命令、4単語命令又は多単語命令を定めることが可能であ る。 − 音声対話の実時間処理及び実行がなされている。 − 音声入出力が手持ち装置、ヘッドホーン、ヘッドセット等を介さずに又はこ れらのみを介してではなく、有利にはハンドフリー作動で行われる。 − マイクロフォンでハンドフリーで話す際に記録されるスピーカエコーが電気 的に補償され、これにより(例えば音声処理、レディ信号等のための)音声入力 とスピーカとの同時の作動が可能となる(”エコー補償”)。 − アナログ伝達特性(室内音響効果、マイクロフォン特性及び増幅器特性、ス ピーカ特性)への連続的な自動適合が作動中に行われる。 − ”オフライン対話エディタ”において構文構造、 対話構造、語彙及び発音変形が認識器のために新たに構成され、定められること が可能であり、しかもその際、これは独立型認識器のための付加的な又は新しい 音声録音を必要としない。 − ”オフライン対話エディタ”において音声出力のための音声範囲が定められ 、その際、 a) 記録された音声信号がディジタル音声伝達圧縮にかけられ(”音声符号化 ”)、次いで記憶され、実時間音声出力作動においてメモリからの読出しの後に 当該の音声復号化が行われるか、又は、 b) 音声範囲が前もってテキストの形で記憶され、実時間音声出力作動で”テ キストツウスピーチ”合成にかけられる。 − 1つの命令の個々の単語の交換により単語位置を変化することが可能である 。 − 前もって与えられている同義単語が利用可能である。 − 同一の機能を、異なる単語数の命令(例えば2単語又は3単語命令)により 実現することが可能である。 Bitte(どうぞ)”、又は語彙に所属しないその他の命令等の挿入を認識し次い で選択除去するために使用語彙に更なる単語又は音単位が付加されるか(”非単 語”、”ガーベッジ単語”)又はワードスポッティ ング付加が使用される。 − 対話構造は次の特性を特徴とする、すなわち、 − 低層ハイアラーキ、すなわちいくつかの僅かなハイアラーキ面、有利に は1つ又は2つの選択面、 − ”省略文”の組込み、すなわち多数の命令単語を有する命令文全体を繰 返すことを不要とし、その代わりに短い命令、例えば”続けて”、”より高く” 、”より強く”等に制限され、この場合、システムには、その都度に先行の命令 から、この発言が何に関してであるかが知られており、 − ”補助メニュー”又は”情報メニュー”を取り入れる、 − 認識器の不確実な決定におけるSDSの側での質問を取り入れる(”何 と言いましたか”、”繰返して下さい”、”続けて”)、 − ある特定の話し方を奨励する(例えば”もっと大きな声で”と要求する )ことにより認識確実性を高めるために音声出力を取り入れる。 − 音声認識が”プッシュツウトーク”キー(”PTTキー”)を一度作動する ことによりアクティブにされ、これは音響的に(例えば”ピー”音により)確認 応答され、これにより、入力がこの時点で行われることが可能であることが示さ れる。 − PTTキーの作動は、音声出力の側からの問合せの後にこれに続いて音声入 力が必要である場合には不 要とすることが可能であり、その際、 − PTTキーは、例えば電話する間に(”受話器を置く”、”受話器を取 る”)又は音声対話システムの新スタートの際に又は電話選択動作の中断の際に 多機能を利用するか含むか又は、 − PTTキーは付加的スイッチにより補足され、付加的スイッチは例えば 新スタート又は機能/アクションの中断を可能にし(”中断キー”)、なおPT T機能及び中断機能を、場合に応じて1つの共通のレバーの中に組込むことが可 能である(例えばレバーを手前に引くことによりPTT機能を消去する、レバー を押し離すことにより中断機能を消去する)。 − 対話システムは次の性能特徴のうちの1つ又は複数を有する、すなわち、 − 異なるユーザの特別の(例えばトレーニングされた命令、データ、名前 又はパラメータが必要に応じて後の再使用のために固定保持され、 − 話者によりトレーニングされた命令又は名前がトレーニングフェーズの 間に認識器に供給されるだけでなく、これらの命令又は名前の時間的経過におい ても検出され、データ圧縮器(”音声符号化”)に供給され、不揮発記憶され、 これにより読出しにより実際のステータスがユーザに再び供給され、 − 話者によりトレーニングされた命令又は名前がトレーニングフェーズ中 に、環境雑音が検出中に大 幅に補償されるように、処理される。 − 認識動作の終了が必要に応じて光学的又は音響的に確認応答されるか(”ピ ー”音等)又はこれに対して代替的に安全性又は時間又はコストに関して適切な 決定において認識結果が音響的に繰返され(音声出力)、ユーザは、音声命令に より又はスイッチ(例えば中断スイッチ)の作動により当該のアクションの実行 を阻止することが可能である。 − 音声対話システムは光学表示媒体(LCDディスプレイ、モニター等)に接 続され、光学表示媒体は次の機能の個々又は複数又はすべてを引受けることが可 能である、すなわち、 − コントロールの目的のために、認識された命令を出力し、 − 目標機器により音声命令に対するリアクションとして設定された機能を 表わし、 − 音声命令により次いで設定又は選択されるか又は変更される異なる機能 /代替を表わす。 − それぞれのユーザは固有の名前リスト又は短縮リストを設置でき(電話帳又 はアドレスブックに類似)、その際、 − ユーザにより話者依存型認識器においてトレーニングされた名前に、話 者独立型作動モードにおいて入力された数字連鎖、文字連鎖又は1つの命令又は 1つの命令シーケンスが割当てられ、 − 数字連鎖、文字連鎖又は命令シーケンスの新たな入力の代りにユーザは リスト名称及びユーザにより選択された名前を入力するか又は名前の外に、正し いリストを推定させる適切な命令が入力され、 − リストを音声制御して何時でも更なる入力だけ拡張することが可能であ り、 − リストを音声制御して完全に又は選択的に消去することが可能であり、 − リストを音声命令に基づいて聴取し、ユーザにより入力された名前と必 要に応じて所属の数字連鎖、文字連鎖又は命令を音響的に出力することが可能で あり、 − リストの音響的出力をそれぞれの任意の時点で中断することが可能であ る。 − 数字列を一体的に又はブロック毎に発声することが可能であり、SDSは有 利には次の機能のうちの1つ又は複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力ブロックが音声出力 により繰返されることにより行われ、 − 命令”誤り”、”間違い”等による確認応答の後に最後の入力ブロック が消去され、残りの記憶されたブロックが音響的に再生され、 − 命令”消去する”又は類似の命令入力による確認応答の後にすべての入 力された数字ブロックが消 去され、 − 命令”繰返す”等による確認応答の後に、今まで記憶されたブロックが 音響的に出力され、 − 命令”中断”又は類似の命令入力による確認応答の後に数字列の入力が 完全に中断され、 − 確認応答の後に更なる数字又は数字ブロックが入力され、 − 確認応答の後に数字入力が適切な命令により終了され、 − 命令”誤り”等又は命令”繰返す”に続く、今まで発声された数字の出 力において、入力の場合と同一のブロック化が使用される。 − 複合機能の選択ために又は多数の情報の入力のために設けられている文字列 が発声され、文字列は一体的に又はブロック毎に入力され、SDSは有利には次 の特徴のうちの1つ又は複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力ブロックが音声出力 により繰返されることにより行われ、 − 命令”誤り”、”間違い”等による確認応答の後に最後の入力ブロック が消去され、残りの記憶されたブロックが音響的に出力され、 − 命令”消去する”等による確認応答の後にすべての入力された文字が消 去され、これに続いて新た な入力が行われ、 − 命令”繰返す”等による確認応答の後に、今まで記憶されたブロックが 音響的に出力され、 − 確認応答の後に更なる文字又は文字ブロックが入力され、 − 場合に応じて文字列が、記憶されている単語リストと適合調整され、こ れから最良に適合する単語が抽出されるか又はこれに対して代替的にこの適合調 整が既に個々の文字ブロックの入力後に行われ、 − 命令”中断”又は類似の命令入力による確認応答の後に文字列の入力が 完全に中断され、 − 確認応答の後に文字入力が適切な命令により終了される。 − 音声出力及び”ピーピー”音の出力音量が環境雑音に適合され、環境雑音は 音声休止の間に環境雑音の音量及び特性に関して検出される。 − 音声対話システムへのアクセス又はユーザ固有のデータ/命令へのアクセス は特別のキーワード又はパスワードの入力後のみにしか可能でないか又は特別の キーワード又はパスワードの入力後に、認可された話者により行われ、話者の音 声特性は対話システムに既知であり、対話システムにより検査される。 − 長く持続する音声出力(例えば情報メニュー)は、発声される中断命令又は PTTキー又は中断キーにより早期に終了させることが可能である。 − 音声対話システムは次の形のうちの1つの形で前述の機能の手動操作を(例 えばスイッチ、キー、回転つまみにより)補足する又は置換する、すなわち、 −音声命令実行は何等の手動操作も置換せず、始動の操作の外に存在し(す なわち操作は何時でも手動で行われる又は継続されることが可能である)、 − いくつかの特別の性能特徴は音声入力のみによってしか活かせることが できず、重要な機器機能及び操作機能は手動でも音声によっても命令することが でき、 − 手動の操作素子の数が大幅に低減され、個々のキー又は回転つまみは多 機能を引受け、音声により手動の操作素子に特別の機能が割当てられ、重要な操 作機能のみが依然として手動で制御可能であり、しかし操作機能の基本は音声命 令ですることである。 − ただ1つの多単語により多数の種々の機器及び機器機能が応動可能及び変更 可能であり、従って複雑な多段階の操作プロセス(例えば第1のステップで機器 の選択、次いで第2のステップで機能の選択、次いで第3のステップで変化の種 類の選択)は不要である。 − 次の機能のうちの個々及び複数のための自動車の中の音声対話システムが適 用される、すなわち、 − 例えば自動車電話、(場合に応じてカセット、CDチェンジャ、サウン ドシステムを有する)自動車ラジオ、ナビゲーションシステム、非常呼出し装置 、テレマティークサービス、搭載モニター、空調装置、暖房装置、ポータブル計 算機、照明装置、スライディングルーフ、窓開閉装置、シート位置調整装置、座 席暖房装置、後部窓加熱装置、ミラー位置調整及びミラーメモリ、シート位置調 整及びシートメモリ、ステアリングホイール位置調整及びステアリングホイール 調整メモリ等の個々の又は複数の機器の操作、 − 例えば油圧、油温度、冷却水温度、消費量、タイヤ圧力等のパラメータ の情報問合せ、 − 例えば過度に高い冷却水温度、過度に低いタイヤ圧力等の特別の状態で の必要な措置に関する情報、 − 自動車の故障における運転者の警報、 その際、 − 自動車ラジオにおける新放送局の音声制御による選択は有利には次のシ ーケンスのうちの1つに従って行われる、すなわち、 − 上方又は下方のサーチ走行の命令、 − 放送局の音声入力は有利には日常言語の形で行われ(例えば”Ein hundertdreikommasieben(103コンマ7)”又は”H undertdreikommasieben(103コンマ7”、”Hund ertunddreikommasieben(100と3コンマ7”又は”周 波数指示を含めて(例えば”Hundertdrei kommasieben MegaHertz”))、 − 通常使用されている放送局名(例えば”SDR1”)。 − 空調装置において(場合に応じて自動車の乗客室の中の場所に応じて左 方、右方、前方、後方へ段階付けられている)所望の温度を音声入力により相対 的にだけでなく有利には絶対的に(すなわち°F等)定めることが可能であり、 付加的に最小又は最大又は平均の温度又は通常温度を命令することが可能であり 、同様に自動車乗客室の中の送風機のための作動条件を定めることが可能である 。 − ナビゲーションシステムに目的地(場所名、通り名)が”文字綴モード ”での文字列の入力により伝達され、名前の始端も入力として充分であり、ナビ ゲーションシステムは複数の候補を選択のために提供する。 − 次のユーザ固有の名前リストのうちの1つ又は複数が設置される、すなわち 、 − プリセット可能な名前/略称での電話番号の記憶のためのリスト、 − プリセット可能な名前/略称でのナビゲーションシステムのための目的 地の記憶のためのリスト、 − 命令又は命令列のための機能名の記憶のためのリスト、 − プリセット可能な放送局名又は略称での自動車ラジオの放送局周波数の 記憶のためのリスト。 − 音声出力及び”ピーピー”音の出力音量、場合に応じてラジオ音量も、次の パラメータのうちの1つ又は複数を考慮して定めるか又は適応整合する、すなわ ち、 − 自動車速度、 − 窓及びスライディングルーフの開放幅 − 送風機の調整、 − 自動車タイプ、 − その都度の対話状況での音声出力の重要性。 前述の音声対話システムの1つの有利な実施の形態では特に、シーケンス制御 、対話制御、インターフェース制御、音声入出力及び音声信号前処理、認識、構 文的文法的及び意味的後処理がマイクロプロセッサ及び信号プロセッサ、メモリ 及びインターフェースモジュールにより行われるが、しかし有利にはただ1つの ディジタル信号プロセッサ又はマイクロプロセッサ又は所要の外部のデータ及び プログラムメモリ、インターフェース及び所属のドライバモジュール、クロック 発生器、制御論理回路、及び音声入出力に必要なマイクロフォン及びスピーカ、 及び場合に応じてプッシュツウトーク(PTT)キー及び中断キーにより行われ る。 更に、1つ及び複数のインターフェースを介して次のことが可能である、すな わち、 − データ及び/又はパラメータがロード可能又は事後ロード可能であり、これ により例えばプロシージャ変更又は別の言語のための音声対話システムが実現可 能である。 − 1つの別個の計算機で定められた又は変更された構文構造、対話構造、シー ケンス制御、音声出力等が音声対話システムに伝送される(”オフライン対話エ ディタ”)。 − ステータス情報又は対話情報をSDSにより要求し、取出すことが可能であ る。 − 音声対話システムを、制御する機器のうちの複数の機器に(個々の機器への ポイントツウポイント接続の代りに)バスシステム及び/又はリング状ネットワ ークを介して接続し、このバス又はネットワークを介して自動車又は操作する機 器の制御データ又はオーディオ信号又はステータスメッセージを伝送する。 − 個々の制御する機器がそれぞれ1つの固有の音声対話システムを含まず、た だ1つの(共通の)音声対話システムにより操作される。 − 自動車構成要素又は自動車計算機への1つ又は複数のインターフェースが設 けられ、前記インターフェースを介して恒久的又は実際の自動車データ例えば速 度、機関温度等が音声対話システムに伝達される。 − 音声対話システムに(音声入出力が行われない)待ち時間の間に例えばラジ オ、電話等の別の機能を引受ける。 − 拡張されたメモリにより多言語の話者独立型対話システムが形成され、短期 間に異なる言語の対話システムと対話システムとの間で切換えを行うことが可能 である。 − 光学ディスプレイが音声対話システムに1つの特別のインターフェースを介 して又はバス端子を介して接続され、このバスは有利には光学データバスであり 、このデータバスを介して制御信号もオーディオ信号も伝送される。 本発明が図示の実施の形態及び用途例に制限されず、意味的に別の実施の形態 又は用途に適用可能であることは自明である。例えばこのような音声対話システ ムは電子辞書又は電子ディクタフォン又は電子翻訳システムの操作に適用可能で ある。 本発明の1つの特別の実施の形態では、 ・ 小さな構文での比較的制限されている用途では構文的単語の2つの組(bi gram)−音声モデルの形の構文的検査が認識プロセスの中に組込まれ、従っ て構文的後処理を実行することが可能であり、 ・ 複合的課題設定においては認識器と後処理装置との間のインターフェースが もはや個々の文ではなくい わゆる”単語仮定ネット”であり、この単語仮定ネットから後処理段において、 特別の対形成ストラテジによる構文的プリセットに起因して最適の文が抽出され る。 更に、音声出力に対して補足的又は代替的に、光学的ベースで動作する出力装 置(例えばディスプレイ)を設け、この出力装置で例えば入力された音声命令が 、SDSにより認識される形で表示可能である。 最後に、アクティブにされたSDSは、システムにより固定してプリセットさ れているか又は適応的にユーザ/話者に調整されている比較的長い時間にわたり ユーザ/話者により何等の新音声命令ももはや入力されないことにより再びデア クティブにされるようにすることも考えられる。 略称 PTT プッシュツウトーク HMM 隠れマルコフモデル DTW ダイナミックタイムワーピング(ダイナミック時間正規化) CMF 平均値フリーのケプストラムベクトル FFT 高速フーリエ変換 LDA 線形識別分析 PCM パルス符号変調 VQ ベクトル量子化 SDS 音声対話システム SBS 音声操作システム
【手続補正書】特許法第184条の8第1項 【提出日】1997年8月7日 【補正内容】 請求の範囲 1.実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制 御方法において、 入力された音声命令を、話者独立型連続単語音声認識器及び話者依存型付加的 音声認識器により認識されて前記音声命令の認識確率に従ってクラス分けし、 認識された許容される音声命令を、前記音声命令のリーズナブルネスに関して 検査し、最大の認識確率を有する許容されリーズナブルである音声命令を、入力 された音声命令として識別し、1つ又は複数の前記機器のこの音声命令に割当て られている機能又は前記音声対話システムの応答を開始する又は生成することを 特徴とする実時間作動での音声対話又は音声命令による1つ又は複数の機器の自 動制御方法。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI G10L 3/00 551 G10L 3/00 551A 571 571K 3/02 301 3/02 301C 9/16 301 9/16 301B (72)発明者 フリッツ クラス ドイツ連邦共和国 D−72587 レーマー シュタイン ネルケンヴェーク 7 (72)発明者 カルステン−ウーヴェ メラー ドイツ連邦共和国 D−72730 エスリン ゲン フリードリヒ−エーベルト−シュト ラーセ 17 (72)発明者 ゲルハルト ニュスレ ドイツ連邦共和国 D−89134 ブラウシ ュタイン コルンブルーメンヴェーク 7 (72)発明者 フランク レー ドイツ連邦共和国 D−70439 シュツツ トガルト イン デン ヴァインベルゲン 8 (72)発明者 ブルカルト ブッシュキュール ドイツ連邦共和国 D−71069 ジンデル フィンゲン パッペルヴェーク 62 (72)発明者 クリスティアン ハインリヒ ドイツ連邦共和国 D−73733 エスリン ゲン ラウンスヴィーゼンヴェーク 35

Claims (1)

  1. 【特許請求の範囲】 1.実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制 御方法において、 入力された音声命令を、話者独立型連続単語音声認識器及び場合に応じて話者 依存型付加的音声認識器により認識して前記音声命令の認識確率に従ってクラス 分けし、 認識された許容音声命令を、前記音声命令のリーズナブルネスに関して検査し 、最大の認識確率を有するリーズナブルな前記許容音声命令を、入力された前記 音声命令として識別し、1つ又は複数の前記機器の前記音声命令に割当てられて いる機能又は前記音声対話システムの応答を開始する又は生成することを特徴と する実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御 方法。 2.複数の音声命令又は1つの音声対話を、少なくとも1つの構文構造、少な くとも1つの基本命令語彙、及び必要に応じて少なくとも1つの話者固有の付加 的命令語彙をベースにして形成し又は行い、 1つ又は複数の前記構文構造と1つ又は複数の前記基本命令語彙とを話者独立 型の形でプリセットして、実時間作動の間固定し、 話者又はその都度の話者が、トレーニングフェーズにおいて実時間作動の中及 び/又は外で、話者依存型 認識方法で動作する付加的音声認識器を前記付加的命令の一回又は複数回の入力 により前記話者又は前記その都度の話者の話者固有の特徴に対してトレーニング することにより、前記話者又は前記その都度の話者が1つ及び複数の話者固有の 付加的命令語彙を入力し又は変更し、 実時間作動で音声対話の実行及び/又は1つ又は複数の前記機器の制御を次の ように行い、すなわち、 前記話者又はその都度の前記話者により入力された音声命令を、音素及び/ 又は全単語モデルをベースに動作する話者独立型連続単語音声認識器と話者依存 型音声認識器とに供給し、前記音声認識器でそれぞれ特徴抽出を行い、 連続単語音声認識器において、前記音声認識器で抽出された特徴を使用し て、それぞれプリセットされている構文構造のそれぞれの基本命令語彙からの基 本命令の存在を検査してクラス分けし、 話者依存型付加的音声認識器において、前記認識器で抽出された特徴を使 用して、その都度の付加的命令語彙からの付加的命令の存在を検査してクラス分 けし、 次いで、所定の確率で認識されてクラス分けされた命令と、双方の前記認識 器の構文構造とを仮定的音声命令に統合し、前記仮定的音声命令を、プリセット されている前記構文構造に従って前記仮定的音声命令 の信頼性及び認識確率に関して検査してクラス分けし、 次いで、許容される仮定的音声命令を、プリセット基準に従って前記仮定的 音声命令のリーズナブルネスに関して検査し、リーズナブルと認識された前記仮 定的音声命令から、最大の認識確率を有する前記仮定的音声命令を選択して、前 記話者又は前記その都度の話者により入力された音声命令として識別し、 次いで、識別された前記音声命令に割当られている、 制御する前記機器の機能を開始する 及び/又は、 応答をプリセットされている音声対話構造に従って音声対話の継続のため に生成することを特徴とする請求項1に記載の実時間作動での音声対話又は音声 命令による1つ又は複数の機器の自動制御方法。 3.音声命令の入力を音響的に有利にはハンドフリー作動で行うことを特徴と する請求項1又は請求項2に記載の実時間作動での音声対話又は音声命令による 1つ又は複数の機器の自動制御方法。 4.音響的に入力された音声命令を、定常的又は準定常的環境雑音により発生 された雑音信号を音声信号受信チャネルの中で双方の音声認識器の前で有利には 適応形ディジタルフィルタ方法により補償することにより雑音低減して双方の音 声認識器に供給することを 特徴とする請求項1から請求項3のうちのいずれか1つの請求項に記載の実時間 作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 5.音響的に入力された音声命令を、音声出力装置又は音楽出力装置の音声信 号受信チャネルの中にフィードバックされた信号を音声信号受信チャネルの中で 双方の音声認識器の前で特に有利には雑音低減装置の前で適応形ディジタルフィ ルタ方法により補償することにより、エコー補償して双方の前記音声認識器に供 給することを特徴とする請求項1から請求項4のうちのいずれか1つの請求項に 記載の実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制 御方法。 6.入力された音声命令をディジタル化の後にブロック毎に統合し重み付けの 後にスペクトル変換有利には高速フーリエ変換(FTT)により周波数領域に変 換し、次いで絶対値形成及び後続の聴覚を基準としてMELフィルタリングによ りチャネルベクトルに統合し、これに続いてセグメンテーションを行うことを特 徴とする請求項1から請求項5のうちのいずれか1つの請求項に記載の実時間作 動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 7.セグメンテーションを粗セグメンテーションと微細セグメンテーションと に分割することを特徴とする請求項6に記載の実時間作動での音声対話又は音声 命令による1つ又は複数の機器の自動制御方法。 8.話者独立型連続単語音声認識器において特徴抽出を次のように行う、すな わち、 チャネルベクトルを離散コサイン変換(DCT)によりケプストラムベクトル に変換し、 付加的に所属信号のエネルギーを計算及び正規化し、 認識器をその都度の話者及び/又は音声信号受信チャネルのその都度の伝達特 性に適応するために連続的にケプストラムベクトルの平均値を計算して前記ケプ ストラムベクトルから減算し、 前記ケプストラムベクトルの前記平均値が差引かれたケプストラムベクトルと 、計算された正規化された信号エネルギーとを、平均値が差引かれたケプストラ ム係数(CMFベクトル)に統合する ように行うことを特徴とする請求項6又は請求項7に記載の実時間作動での音声 対話又は音声命令による1つ又は複数の機器の自動制御方法。 9.話者独立型連続単語認識器が、クラス分けにおいて音素及び/又は全単語 を基礎する隠れマルコフモデル(HMM)により動作することを特徴とする請求 項1から請求項8のうちのいずれか1つの請求項に記載の実時間作動での音声対 話又は音声命令による1つ又は複数の機器の自動制御方法。 10.クラス分けをビタービアルゴリズムを用いて行 い、前記ビタービアルゴリズムを、有利には前もって与えられている単語列統計 により補足することを特徴とする請求項9に記載の実時間作動での音声対話又は 音声命令による1つ又は複数の機器の自動制御方法。 11.クラス分けにおいて付加的に充填語又は充填音又はその他の前もって与え られている基本語彙の中に含まれていない誤り命令もそれとして認識し、相応し てクラス分けして選択除去することを特徴とする請求項1から請求項10のうち のいずれか1つの請求項に記載の実時間作動での音声対話又は音声命令による1 つ又は複数の機器の自動制御方法。 12.話者独立型連続単語音声認識器と話者依存型付加的音声認識器とを入力音 声命令に対して、同一の信号前処理、有利には雑音低減、エコー補償及びセグメ ンテーション方法を含む同一の信号前処理にかけることを特徴とする請求項1か ら請求項11のうちのいずれか1つの請求項に記載の実時間作動での音声対話又 は音声命令による1つ又は複数の機器の自動制御方法。 13.付加的音声認識器が単一単語音声認識器として有利にはダイナミック時間 正規化方法に従って動作することを特徴とする請求項1から請求項12のうちの いずれか1つの請求項に記載の実時間作動での音声対話又は音声命令による1つ 又は複数の機器の自動制御方法。 14.話者独立型連続単語音声認識器と話者依存型音声認識器とが組合せられて 連続単語モードにおいて動作することを特徴とする請求項1から請求項13のう ちのいずれか1つの請求項に記載の実時間作動での音声対話又は音声命令による 1つ又は複数の機器の自動制御方法。 15.実時間作動の間に音声信号受信チャネルをアナログ伝送特性特に空間音響 特性及び/又はマイクロフォン特性及び/又は増幅器特性及び/又は話者特性に 連続的に適合することを特徴とする請求項1から請求項14のうちのいずれか1 つの請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の 機器の自動制御方法。 16.前もって与えらる基本命令を音声符号化された形で前もって与えて記憶し 、及び/又は話者又はその都度の話者によりトレーニングフェーズで入力された 付加的命令及び/又は実時間作動において入力された音声命令をそれらの入力の 後に音声符号化して更に処理し及び/又は不揮発記憶し、音響的に出力する符号 化された音声命令をそれらの出力の前に音声復号化することを特徴とする請求項 1から請求項15のうちのいずれか1つの請求項に記載の実時間作動での音声対 話又は音声命令による1つ又は複数の機器の自動制御方法。 17.前もって与えられている基本命令及び/又は付 加的命令及び/又は実時間作動において入力された音声命令をテキストの形で記 憶し、音響的に出力される音声命令をそれらの出力の前にテキストから言語への 合成にかけることを特徴とする請求項1から請求項15のうちのいずれか1つの 請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機器 の自動制御方法。 18.構文構造及び話者独立型命令を前もって”オフライン対話エディタモード ”で実験室において作成及び固定し、連続単語音声認識器にデータファイルの形 で供給することを特徴とする請求項1から請求項17のうちのいずれか1つの請 求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機器の 自動制御方法。 19.音声命令の中の単語位置を、1つの命令の個々の単語を交換することによ り変化可能である、及び/又は、 前もって与えられている同義の単語を音声命令の形成の際に使用可能である、 及び/又は、 同一の機能を異なる単語数の音声命令により実現することが可能であることを 特徴とする請求項1から請求項18のうちのいずれか1つの請求項に記載の実時 間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 20.挿入句又はその他の語彙に所属しない命令を認 識し次いで選択除去するために、許容される語彙に更なる単語又は音単位を付加 する又はワードスポッティング部分を利用することを特徴とする請求項1から請 求項19のうちのいずれか1つの請求項に記載の実時間作動での音声対話又は音 声命令による1つ又は複数の機器の自動制御方法。 21.対話構造が、 いくつかの僅かなハイアラーキ面、有利には1つ又は2つのハイアラーキ面を 有する低層ハイアラーキと、 音声対話の実行の際の省略文の組込みと、 補助メニュー又は情報メニューの取り入れと、 認識器の不確実な決定の際の音声対話システムの問合せの取り入れと、 ある特定の話し方を奨励することにより認識信頼性を高めるための音声出力の 取り入れ、 の特性を有することを特徴とする請求項1から請求項20のうちのいずれか1つ の請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機 器の自動制御方法。 22.音声認識又は音声対話を、1つ又は複数の機器機能を制御するために、有 利にはプッシュツウトーク(PTT)キーの一回の作動によりアクティブにし、 このアクティブ化を有利には音響的及び/又は光学的に確認応答することを特徴 とする請求項1から請求項 21のうちのいずれか1つの請求項に記載の実時間作動での音声対話又は音声命 令による1つ又は複数の機器の自動制御方法。 23.アクティブ化を、プリセット可能であるか又はその都度のユーザのために 調整設定される時間の経過後及び/又は音声対話システムの問合せの後に音声入 力が行われない場合又はユーザにより選択された対話が予定通りに終了された場 合に自動的に中断することを特徴とする請求項1から請求項22のうちのいずれ か1つの請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複 数の機器の自動制御方法。 24.音声対話又は音声命令の入力を、プリセットされている特別の中断音声命 令の入力により音声対話の所定個所で又は何時でもキー、有利にはプッシュツウ トークキー又は中断キーの作動により中断することが可能であることを特徴とす る請求項1から請求項23のうちのいずれか1つの請求項に記載の実時間作動で の音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 25.音声対話システムが、 異なる話者の特別の(例えばトレーニングされた)音声命令を必要に応じて後 の再利用のために固定保持する特徴と、 話者によりトレーニングされた音声命令又は名前をトレーニングフェーズの間 に認識器に供給するだけで なく、それらの時間的経過の間に検出し、伝達圧縮装置(”音声符号化装置”) に供給して不揮発記憶する特徴と、 話者によりトレーニングされた音声命令をトレーニングフェーズの間に、環境 雑音が検出の間に大幅に補償されるように処理する特徴とのうちの1つ又は複数 の特徴を有することを特徴とする請求項1から請求項24のうちのいずれか1つ の請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機 器の自動制御方法。 26.認識動作の終了を音響的にコントロールトーンにより確認応答することを 特徴とする請求項1から請求項25のうちのいずれか1つの請求項に記載の実時 間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 27.有利には安全性又は時間又はコストに関して適切な決定において認識結果 を音響的に繰返し(音声出力)、話者が、音声命令により又はスイッチ有利には プッシュツウトークキー又は中断キーの作動により、音声命令に割当てられてい る機能の実行を阻止する又は取消す可能性を有することを特徴とする請求項1か ら請求項26のうちのいずれか1つの請求項に記載の実時間作動での音声対話又 は音声命令による1つ又は複数の機器の自動制御方法。 28.音声対話システムを光学表示媒体有利にはLC Dディスプレイ又はモニター又は1つの制御される機器のディスプレイに接続す ることを特徴とする請求項1から請求項27のうちのいずれか1つの請求項に記 載の実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御 方法。 29.光学表示媒体が、 コントロール目的のために認識された音声命令を出力する機能と、 目的機器により音声命令に対するリアクションとして設定された機能を表現す る機能と、 音声命令により次いで設定された又は選択された又は変更された異なる機能/ 代替を表現する機能とのうちの個々の機能又は複数の機能を引受けることを特徴 とする請求項28に記載の実時間作動での音声対話又は音声命令による1つ又は 複数の機器の自動制御方法。 30.それぞれの話者が固有の名前リスト又は略称リストを設けることが可能で あり、前記リストは、 話者により話者依存型認識器においてトレーニングされた名前が、話者独立型 作動モードにおいて入力された数字連鎖、文字連鎖及び/又は命令又は命令シー ケンスを表す特徴と、 前記数字連鎖、前記文字連鎖又は前記命令シーケンスの再度の入力の代りにユ ーザはリスト名称と、ユーザにより選択された名前とを入力するか又は前記名前 の外に正しい前記リストを推定させる適切な命令を入力する特徴と、 前記リストを音声制御して何時でも更なる入力だけ拡張することが可能である 特徴と、 前記リストを音声制御して完全に又は選択的に消去する特徴と、 前記リストを音声命令に基づいて聴取し、ユーザにより入力された名前と必要 に応じて所属の数字連鎖、文字連鎖又は命令とを音響的に出力する特徴と、 リストの音響的出力を任意の時点で中断することが可能である特徴とのうちの 1つ又は複数又はすべての特徴を有することを特徴とする請求項1から請求項2 9のうちのいずれか1つの請求項に記載の実時間作動での音声対話又は音声命令 による1つ又は複数の機器の自動制御方法。 31.1列の数字(数字列)を一気に一体的に又はブロック毎に発声することが 可能であり、音声入力又は音声対話が有利には、次の特徴すなわち その都度の入力休止の後に、最後の入力ブロックが音声出力により繰返される ことにより確認応答を行う特徴と、 前記確認応答の後に音声命令”誤り”等により最後の入力ブロックを消去し、 残りの記憶されているブロックを音響的に出力する特徴と、 前記確認応答の後に音声命令”消去する”等により すべての入力された数字ブロックを消去する特徴と、 前記確認応答の後に音声命令”繰返す”等により、今まで記憶されたブロック を音響的に出力する特徴と、 前記確認応答の後に音声命令”中断”等により数字列の入力を完全に中断する 特徴と、 前記確認応答の後に更なる数字又は数字ブロックを入力する特徴と、 前記確認応答の後に数字入力を適切な音声命令”ストップ”、”記憶する”等 により終了する特徴と、 アクション/機能をスタートする音声命令例えば”選択する”等の入力により 入力を終了し、前記音声命令に割当てられているアクション/機能を開始する特 徴とのうちの1つ又は複数又はすべての特徴を有することを特徴とする請求項1 から請求項30のうちのいずれか1つの請求項に記載の実時間作動での音声対話 又は音声命令による1つ又は複数の機器の自動制御方法。 32.複合機能を選択するために又は多数の情報を入力するために前もって与え られている1列の文字(文字列)を発声し、前記文字列を一体的に又はブロック 毎に入力し、音声入力又は音声対話が有利には、次の特徴すなわち その都度の入力休止の後に、最後の入力ブロックが音声出力により繰返される ことにより確認応答を行う 特徴と、 前記確認応答の後に音声命令”誤り”等により最後の入力ブロックを消去し、 残りの記憶されているブロックを音響的に出力する特徴と、 前記確認応答の後に音声命令”消去する”等によりすべての入力された文字を 消去し、これに続いて再度の入力を行う特徴と、 前記確認応答の後に音声命令”繰返す”等により、今まで記憶されたブロック を音響的に出力する特徴と、 前記確認応答の後に更なる文字又は文字ブロックを入力する特徴と、 場合に応じて前記文字列又は個々の文字ブロックを、記憶されている単語リス トと適合調整し、前記単語リストから最適な単語を抽出する特徴と、 前記確認応答の後に音声命令”中断”等により前記文字列の入力を完全に中断 する特徴と、 前記確認応答の後に文字入力を音声命令”ストップ”、”記憶する”等により 終了する特徴と、 アクション/機能をスタートする音声命令例えば”選択する”等の入力後に入 力を終了し、前記音声命令に割当てられているアクション/機能を開始する特徴 とのうちの1つ又は複数又はすべての特徴を有することを特徴とする請求項1か ら請求項31のうちのいずれか1つの請求項に記載の実時間作動での音声対話又 は音声命令による1つ又は複数の機器の自動制御方法。 33.音声命令”誤り”等又は音声命令”繰返す”等に続く、今まで発声された 数字の出力において、入力の際と同一のブロック化が使用されることを特徴とす る請求項31又は32に記載の実時間作動での音声対話又は音声命令による1つ 又は複数の機器の自動制御方法。 34.音声出力及びコントロールトーンの出力音量を環境雑音に適合し、前記環 境雑音を音声休止の間に前記環境雑音の音量又は特性に関して検出することを特 徴とする請求項1から請求項33のうちのいずれか1つの請求項に記載の実時間 作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 35.音声対話システムへのアクセス又はユーザ固有のデータ/命令へのアクセ スを、特別の命令語の入力により又は音声特性が音声対話システムに既知であり 前記音声対話システムにより検査されている認可された話者の特別の命令語の入 力により行うことを特徴とする請求項1から請求項33のうちのいずれか1つの 請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機器 の自動制御方法。 36.長く持続する音声出力(例えば情報メニュー)を、発声される又は手動の 中断命令により早期に終了することが可能であることを特徴とする請求項1から 請求項35のうちのいずれか1つの請求項に記載の実時間作動での音声対話又は 音声命令による1つ又は複数の機器の自動制御方法。 37.音声対話システムが、次のような形態すなわち 音声命令実行が手動操作の外に存在し、従って操作を何時でも手動で行う又は 継続することが可能である、 いくつかの特別の性能特徴が音声入力のみによりアクティブ化可能であり、そ の他の機器機能及び操作機能は手動でも音声によっても命令可能のままである、 手動の操作素子の数が大幅に低減され、個々のキー又は回転つまみが多重機能 を引受け、音声により手動の前記操作素子に1つの特別の機能が割当てられ、重 要な操作機能のみが依然として手動で制御可能であり、前記操作機能の基本は音 声命令実行である形態のうちの1つの形態で(例えばスイッチ、キー、回転つま みによる)機能の手動の操作を補足する又は置換することを特徴とする請求項1 から請求項36のうちのいずれか1つの請求項に記載の実時間作動での音声対話 又は音声命令による1つ又は複数の機器の自動制御方法。 38.ただ1つの単一単語命令又は多単語命令により多数の異なる機器及び機器 機能に作用可能又は変更可能であり、従って多段階のプロシージャが不要である か又は僅かな規模でしか必要としないことを特徴とす る請求項1から請求37項のうちのいずれか1つの請求項に記載の実時間作動で の音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 39.自動車搭載の音声対話システムを、 個々の又は複数の機器例えば自動車電話、(場合に応じてカセット、CDチェ ンジャ、サウンドシステムを有する)自動車ラジオ、ナビゲーションシステム、 非常呼出し装置、搭載モニター、空調装置、暖房装置、ポータブル計算機、照明 装置、スライディングルーフ、窓開閉装置、シート位置調整装置等を操作する機 能と、 例えば油圧、油温度、冷却水温度、消費量、タイヤ圧力等のパラメータの情報 問合せ機能と、 例えば過度に高い冷却水温度等において必要な措置に関する情報の機能と、 自動車の故障の際の運転者への警報の機能とのうちの個々の又は複数の機能の ために適用することを特徴とする請求項1から請求項38のうちのいずれか1つ の請求項に記載の実時間作動での音声対話又は音声命令による1つ又は複数の機 器の自動制御方法。 40. 自動車ラジオにおける新放送局の音声制御される選択を、 上方又は下方へのサーチ走行の命令実行のシーケンスと、 音声入力シーケンス、有利には日常語の形での有利 には周波数指示を含めての放送局周波数の音声入力のシーケンスと、 通常使用される放送局名の音声入力のシーケンスとのうちの1つのシーケンス に従って行うことを特徴とする請求項39に記載の実時間作動での音声対話又は 音声命令による1つ又は複数の機器の自動制御方法。 41.空調装置において所望の温度を音声入力により相対的に及び/又は有利に は絶対的に定めることが可能であり、有利には付加的に最低又は最高又は平均温 度又は通常温度を命令することが可能であることを特徴とする請求項39に記載 の実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方 法。 42.ナビゲーションシステムに目的地(場所名、通り名)を”文字綴モード” で文字列を入力することにより伝達し、有利には名前の始端も入力として充分で あり、ナビゲーションシステムは場合に応じて複数の候補を選択のために提供す ることを特徴とする請求項39に記載の実時間作動での音声対話又は音声命令に よる1つ又は複数の機器の自動制御方法。 43.プリセット可能な名前/略称での電話番号を記憶するためのユーザ固有の 名前リストと、 プリセット可能な名前/略称でのナビゲーションシステムのための目的地を記 憶するためのユーザ固有の名前リストと、 命令又は命令列のための機能名を記憶するためのユーザ固有の名前リストと、 プリセット可能な放送局名又は略称での自動車ラジオの放送局周波数を記憶す るためのユーザ固有の名前リストと、 のうちの1つ又は複数のユーザ固有の名前リストを設けることを特徴とする請求 項39から請求項42のうちのいずれか1つの請求項に記載の実時間作動での音 声対話又は音声命令による1つ又は複数の機器の自動制御方法。 44.音声出力及び1つ又は複数のコントロールトーンの出力音量と場合に応じ てラジオ音量とを、 自動車速度パラメータと、 送風機調整設定パラメータと、 回転数パラメータと、 窓及びスライディングルーフの開放幅パラメータと、 自動車タイプパラメータと、 その都度の対話状況での音声出力の重要性パラメータとのうちの1つ又は複数 のパラメータを考慮して定めるか又は適応的に適合調整することを特徴とする請 求項39から請求項43のうちのいずれか1つの請求項に記載の実時間作動での 音声対話又は音声命令による1つ又は複数の機器の自動制御方法。 45.プッシュツウトークキーが、 例えば電話している間に(”受話器を置く”、”受話器をとる”)又音声対話 システムの新スタートの際に又は電話選択動作の中断の際に多重機能を利用する か又は含むか又は、 プッシュツウトークキーを、例えば新スタート又は機能の中断を可能にする付 加的スイッチ又は付加的切換え位置により補足することを特徴とする請求項22 から請求項44のうちのいずれか1つの請求項に記載の実時間作動での音声対話 又は音声命令による1つ又は複数の機器の自動制御方法。 46.音声入出力装置を、音声信号前処理装置を介して音声認識装置に接続し、 前記音声認識装置をシーケンス制御装置、対話制御装置及びインターフェース制 御装置に接続する請求項1から請求項45のうちのいずれか1つの請求項に記載 の方法を実施する装置において、 前記音声認識装置を、音声独立型連続単語認識器と音声依存型付加的音声認識 器とから形成し、双方の前記認識器の出力側を構文的文法的又は意味的後処理装 置に接続し、前記後処理装置を前記シーケンス制御装置、前記対話制御装置及び 前記インターフェース制御装置に接続することを特徴とする装置。 47.音声前処理装置が、雑音低減装置及び/又はエコー補償装置及び/又はセ グメンテーション装置を含むことを特徴とする請求項46に記載の装置。 48.音声入出力装置が音声エンコーダ、音声デコーダ及び音声メモリを含むこ とを特徴とする請求項46又は47に記載の装置。 49.シーケンス制御、対話制御及びインターフェース制御、入出力及び音声信 号前処理、音声認識、構文的文法的及び意味的後処理をマイクロプロセッサ、信 号プロセッサ、メモリ又はインターフェースモジュールにより行うが、しかし有 利にはただ1つのディジタル信号プロセッサ又はマイクロプロセッサ及び所要の 外部のドライバモジュール、クロック発生器、制御論理回路及び入出力に必要な マイクロフォン及びスピーカ、及び所属の変換器及び増幅器及び場合に応じてプ ッシュツウトーク(PTT)キー及び中断キーにより行うことを特徴とする請求 項46から請求項48のうちのいずれか1つの請求項に記載の装置。 50.1つ又は複数のインターフェースを介して、 データ及び/又はパラメータをロード可能又は事後ロード可能であり、これに より例えば別の音声に対して方法変更又は音声対話システムを実現し、 別個の計算機において定められているか又は変更されている構文構造、対話構 造、シーケンス制御、音声出力等を音声対話システムに伝達し(”オフライン対 話エディタ”)、 ステータス情報又は対話情報を音声対話システムが要求し取出すことが可能で あることを特徴とする請求 項49に記載の装置。 51.制御する機器のうちの複数の機器にバスシステム又はリング状ネットワー クを介して接続し、前記バス又は前記ネットワークを介して制御データ及び/又 はオーディオ信号及び/又は音声対話システム及び/又は操作する機器のステー タスメッセージ伝送することを特徴とする請求項49に記載の装置。 52.個々の制御する機器がそれぞれ1つの固有の音声対話システムを含むので はなく、ただ1つの共通の音声対話システムが前記機器を操作することを特徴と する自動車への適用のための請求項46から請求項51のうちのいずれか1つの 請求項に記載の装置。 53.自動車構成要素に対して1つ又は複数のインターフェースを設け、前記イ ンターフェースを介して恒久的な又は実際の自動車データ例えば速度等を音声対 話システムに伝達することを特徴とする請求項46から請求項52のうちのいず れか1つの請求項に記載の装置。 54.音声入出力が行われない待ち時間の間に例えばラジオ、電話等の別の機能 を引受けることを特徴とする請求項46から請求項53のうちのいずれか1つの 請求項に記載の装置。 55.拡張されたメモリにより多言語の話者独立型対話システムを実現し、異な る言語の前記対話システムと前記対話システムとの間での切換えが可能であるこ とを特徴とする請求項46から請求項54のうちのいずれか1つの請求項に記載 の装置。 56.光学ディスプレイを音声対話システムに特別のインターフェースを介して 又はバス端子を介して接続することを特徴とする請求項46から請求項55のう ちのいずれか1つの請求項に記載の装置。 57.完全な音声対話システムをPCMCIAインターフェースを介して、音声 により制御又は操作する機器又はホスト計算機又はアプリケーション計算機に接 続することを特徴とする請求項46から請求項56のうちのいずれか1つの請求 項に記載の装置。 58.バス又はネットワークが光データバスであり、前記光データバスを介して 制御信号もオーディオ信号も又は音声対話システム及び操作する機器のステータ スメッセージを伝送することが可能である請求項51又は57に記載の装置。
JP51163997A 1995-09-11 1996-09-09 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 Expired - Lifetime JP3479691B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19533541A DE19533541C1 (de) 1995-09-11 1995-09-11 Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
DE19533541.4 1995-09-11
PCT/EP1996/003939 WO1997010583A1 (de) 1995-09-11 1996-09-09 Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens

Publications (2)

Publication Number Publication Date
JPH11506845A true JPH11506845A (ja) 1999-06-15
JP3479691B2 JP3479691B2 (ja) 2003-12-15

Family

ID=7771821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP51163997A Expired - Lifetime JP3479691B2 (ja) 1995-09-11 1996-09-09 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置

Country Status (8)

Country Link
US (1) US6839670B1 (ja)
EP (1) EP0852051B1 (ja)
JP (1) JP3479691B2 (ja)
AT (1) ATE211572T1 (ja)
CA (1) CA2231504C (ja)
DE (2) DE19533541C1 (ja)
ES (1) ES2170870T3 (ja)
WO (1) WO1997010583A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528751A (ja) * 1998-10-16 2002-09-03 フオルクスヴアーゲン アクチエンゲゼルシヤフト 情報および/またはメッセージを音声によって出力する方法および装置
JP2003280688A (ja) * 2002-03-25 2003-10-02 Nissan Diesel Motor Co Ltd 情報交換システム
JP2005167866A (ja) * 2003-12-05 2005-06-23 Kenwood Corp データ記録装置及びデータ記録方法
JP4724943B2 (ja) * 2001-04-05 2011-07-13 株式会社デンソー 音声認識装置
JP2012215673A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Families Citing this family (319)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5616549A (en) * 1995-12-29 1997-04-01 Clark; Lawrence A. Molecular level cleaning of contaminates from parts utilizing an envronmentally safe solvent
DE19635754A1 (de) * 1996-09-03 1998-03-05 Siemens Ag Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung
DE19709518C5 (de) 1997-03-10 2006-05-04 Harman Becker Automotive Systems Gmbh Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb
DE19715101C2 (de) * 1997-04-11 2003-04-10 Saechsisches Inst Fuer Die Dru Verfahren zur Steuerung einer graphischen Maschine
DE19715325A1 (de) * 1997-04-12 1998-10-15 Bayerische Motoren Werke Ag Anzeige- und Bedienvorrichtung für Menüs und/oder Funktionen eines Fahrzeugs
JP3358498B2 (ja) * 1997-07-17 2002-12-16 株式会社デンソー 音声認識装置及びナビゲーションシステム
DE19730935C2 (de) * 1997-07-18 2002-12-19 Siemens Ag Verfahren zum Generieren einer Sprachausgabe und Navigationssystem
DE19730816A1 (de) * 1997-07-18 1999-01-21 Ise Interactive Systems Entwic Freisprecheinrichtung
DE19730920A1 (de) * 1997-07-18 1999-01-21 Ise Interactive Systems Entwic Computeranlage
DE19738339C2 (de) * 1997-09-02 2000-08-31 Siemens Ag Verfahren zum benutzergesteuerten Abbauen von drahtlosen Telekommunikationsverbindungen in drahtlosen Telekommunikationssystemen, insbesondere DECT-Systemen
EP1073957B1 (en) * 1998-03-23 2003-05-21 Microsoft Corporation Application program interfaces in an operating system
DE19818262A1 (de) * 1998-04-23 1999-10-28 Volkswagen Ag Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug
EP0971330A1 (en) * 1998-07-07 2000-01-12 Otis Elevator Company Verbal remote control device
EP1116221B1 (en) * 1998-09-30 2003-07-23 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
JP2000259198A (ja) * 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
DE19913677A1 (de) * 1999-03-25 2000-10-05 Groza Igor Sprachsystem im Auto und LKW mit erweiterter Steuerungsmöglichkeit
DE19925064B4 (de) * 1999-04-21 2004-12-16 Thomas Böhner Vorrichtung und Verfahren zur Steuerung von Beleuchtungsanlagen, Maschinen u. dgl.
DE19939065A1 (de) * 1999-08-18 2001-02-22 Volkswagen Ag Multifunktions-Bedieneinrichtung
DE19955890B4 (de) * 1999-11-20 2006-10-05 Robert Bosch Gmbh Verfahren und Vorrichtung zur Ausgabe von Bedienhinweisen
DE19956747C1 (de) * 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
DE10007223B4 (de) 2000-02-17 2019-04-25 Harman Becker Automotive Systems Gmbh System mit einem Sprachbediensystem als einer ersten Systemeinheit und einer zweiten Systemeinheit in einem Kraftfahrzeug
DE10008226C2 (de) * 2000-02-22 2002-06-13 Bosch Gmbh Robert Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung
DE10012572C2 (de) * 2000-03-15 2003-03-27 Bayerische Motoren Werke Ag Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
DE10012756B4 (de) * 2000-03-16 2017-11-02 Volkswagen Ag Verfahren und Einrichtung zur Abspeicherung und Abrufung individueller Einstellungen
DE10017717B4 (de) * 2000-04-11 2006-01-05 Leopold Kostal Gmbh & Co. Kg Spracheingabe gesteuertes Steuergerät
DE10021389A1 (de) 2000-05-03 2001-11-08 Nokia Mobile Phones Ltd Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung
US6587824B1 (en) * 2000-05-04 2003-07-01 Visteon Global Technologies, Inc. Selective speaker adaptation for an in-vehicle speech recognition system
US20030105632A1 (en) * 2000-05-23 2003-06-05 Huitouze Serge Le Syntactic and semantic analysis of voice commands
DE10030369A1 (de) * 2000-06-21 2002-01-03 Volkswagen Ag Spracherkennungssystem
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
DE10037023A1 (de) * 2000-07-29 2002-02-21 Bosch Gmbh Robert Verfahren und System zur akustischen Funktionssteuerung im Kraftfahrzeug
WO2002015169A1 (en) * 2000-08-15 2002-02-21 Koninklijke Philips Electronics N.V. Multi-device audio-video with common echo canceling
DE10040466C2 (de) * 2000-08-18 2003-04-10 Bosch Gmbh Robert Verfahren zur Steuerung einer Spracheingabe und -ausgabe
DE10041456A1 (de) * 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US8135589B1 (en) 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
DE10062669A1 (de) * 2000-12-15 2002-06-20 Bsh Bosch Siemens Hausgeraete Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit
DE10103608A1 (de) * 2001-01-28 2002-08-14 Audioton Kabelwerk Gmbh Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen
DE10103609A1 (de) * 2001-01-28 2002-08-14 Audioton Kabelwerk Gmbh Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen
DE10103610A1 (de) * 2001-01-28 2002-08-14 Audioton Kabelwerk Gmbh Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen
JP3919210B2 (ja) * 2001-02-15 2007-05-23 アルパイン株式会社 音声入力案内方法及び装置
DE10110977C1 (de) * 2001-03-07 2002-10-10 Siemens Ag Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
DE10115899B4 (de) * 2001-03-30 2005-04-14 Siemens Ag Verfahren zur Erstellung von Computer-Programmen mittels Spracherkennung
JP2002304188A (ja) * 2001-04-05 2002-10-18 Sony Corp 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体
DE10118668B4 (de) * 2001-04-14 2004-02-05 Schott Glas Koordinatenmeßvorrichtung
DE10127852A1 (de) * 2001-06-08 2002-12-12 Mende Speech Solutions Gmbh & Verfahren zur Erkennung von Sprachinformationen
DE10129720B4 (de) * 2001-06-15 2004-02-19 Forschungsinstitut Für Die Biologie Landwirtschaftlicher Nutztiere Lautverarbeitungsvorrichtung und -verfahren
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
DE10228408B4 (de) 2001-07-10 2021-09-30 Sew-Eurodrive Gmbh & Co Kg Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung
DE10151007A1 (de) * 2001-10-16 2003-04-17 Volkswagen Ag Bedienvorrichtung für Fahrzeuge
US7610189B2 (en) 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
GB2385664B (en) * 2001-10-19 2004-03-10 Visteon Global Tech Inc LCC-Based strain-gage sensor integrated with cylinder-head gasket
JP3863765B2 (ja) * 2001-11-30 2006-12-27 三洋電機株式会社 ナビゲーション装置
US7174300B2 (en) * 2001-12-11 2007-02-06 Lockheed Martin Corporation Dialog processing method and apparatus for uninhabited air vehicles
DE10163214A1 (de) * 2001-12-21 2003-07-10 Philips Intellectual Property Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
DE10207895B4 (de) * 2002-02-23 2005-11-03 Harman Becker Automotive Systems Gmbh Verfahren zur Spracherkennung und Spracherkennungssystem
DE10208466A1 (de) * 2002-02-27 2004-01-29 BSH Bosch und Siemens Hausgeräte GmbH Elektrisches Haushaltsgerät
JP3654262B2 (ja) * 2002-05-09 2005-06-02 株式会社デンソー 音声認識装置及びナビゲーションシステム
JP2004032430A (ja) * 2002-06-26 2004-01-29 Fujitsu Ltd 制御装置及び制御プログラム
DE10237951A1 (de) * 2002-08-20 2004-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Betrieb eines Roboters zu laufender Musik
JP2004110613A (ja) * 2002-09-20 2004-04-08 Toshiba Corp 制御装置、制御プログラム、対象装置及び制御システム
EP2544101A1 (en) 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
DE10344007A1 (de) 2002-12-24 2004-07-08 Robert Bosch Gmbh Informationssystem für Fahrzeuge und Verfahren zur Sprachsteuerung
US20040143440A1 (en) * 2003-01-03 2004-07-22 Venkatesh Prasad Vehicle speech recognition system
ES2245546B1 (es) * 2003-03-12 2006-11-01 Carlos Catala Costa Cabinas de ducha, mini piscinas (spas), bañeras de hidromasaje controladas por voz.
DE10334400A1 (de) * 2003-07-28 2005-02-24 Siemens Ag Verfahren zur Spracherkennung und Kommunikationsgerät
DE10338512A1 (de) * 2003-08-22 2005-03-17 Daimlerchrysler Ag Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen
DE102004006467A1 (de) * 2003-09-09 2005-04-21 Volkswagen Ag Verfahren und Vorrichtung zur Navigation eines Kraftfahrzeugführers
US20050071170A1 (en) * 2003-09-30 2005-03-31 Comerford Liam D. Dissection of utterances into commands and voice data
US7552221B2 (en) 2003-10-15 2009-06-23 Harman Becker Automotive Systems Gmbh System for communicating with a server through a mobile communication device
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
EP1560199B1 (en) 2004-01-29 2008-07-09 Harman Becker Automotive Systems GmbH Multimodal data input
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
EP1562180B1 (en) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
US7366535B2 (en) * 2004-04-21 2008-04-29 Nokia Corporation Push-to-talk mobile communication terminals
FR2871978B1 (fr) * 2004-06-16 2006-09-22 Alcatel Sa Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede
DE102004046932A1 (de) * 2004-09-28 2006-04-13 Aug. Winkhaus Gmbh & Co. Kg Schließeinrichtung und Verfahren zur Programmierung einer Schließeinrichtung
US8725505B2 (en) * 2004-10-22 2014-05-13 Microsoft Corporation Verb error recovery in speech recognition
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7689423B2 (en) * 2005-04-13 2010-03-30 General Motors Llc System and method of providing telematically user-optimized configurable audio
US20060253272A1 (en) * 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
JP4660299B2 (ja) * 2005-06-29 2011-03-30 三菱電機株式会社 移動体用情報装置
US7424431B2 (en) * 2005-07-11 2008-09-09 Stragent, Llc System, method and computer program product for adding voice activation and voice control to a media player
ATE550756T1 (de) * 2005-08-04 2012-04-15 Nuance Communications Inc Sprachdialogsystem
US7904300B2 (en) * 2005-08-10 2011-03-08 Nuance Communications, Inc. Supporting multiple speech enabled user interface consoles within a motor vehicle
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7590541B2 (en) * 2005-09-30 2009-09-15 Rockwell Automation Technologies, Inc. HMI presentation layer configuration system
DE102005059630A1 (de) * 2005-12-14 2007-06-21 Bayerische Motoren Werke Ag Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
US20070198271A1 (en) * 2006-02-23 2007-08-23 Dana Abramson Method for training a user of speech recognition software
JP4131978B2 (ja) * 2006-02-24 2008-08-13 本田技研工業株式会社 音声認識機器制御装置
DE102006035780B4 (de) * 2006-08-01 2019-04-25 Bayerische Motoren Werke Aktiengesellschaft Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems
US7899673B2 (en) * 2006-08-09 2011-03-01 Microsoft Corporation Automatic pruning of grammars in a multi-application speech recognition interface
US20080045256A1 (en) * 2006-08-16 2008-02-21 Microsoft Corporation Eyes-free push-to-talk communication
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
DE602006002132D1 (de) 2006-12-14 2008-09-18 Harman Becker Automotive Sys beitung
US8831183B2 (en) * 2006-12-22 2014-09-09 Genesys Telecommunications Laboratories, Inc Method for selecting interactive voice response modes using human voice detection analysis
JP4827721B2 (ja) * 2006-12-26 2011-11-30 ニュアンス コミュニケーションズ,インコーポレイテッド 発話分割方法、装置およびプログラム
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8886545B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8996379B2 (en) * 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20080228493A1 (en) * 2007-03-12 2008-09-18 Chih-Lin Hu Determining voice commands with cooperative voice recognition
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
DE102007037567A1 (de) 2007-08-09 2009-02-12 Volkswagen Ag Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug
WO2009028647A1 (ja) * 2007-08-31 2009-03-05 National Institute Of Information And Communications Technology 非対話型学習装置及び対話型学習装置
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
ES2363037T3 (es) * 2007-09-21 2011-07-19 The Boeing Company Control de vehículos.
DE102007046761A1 (de) * 2007-09-28 2009-04-09 Robert Bosch Gmbh Verfahren zum Betrieb eines Navigationssystems, welches über eine Sprachausgabe verfügt
WO2009047858A1 (ja) * 2007-10-12 2009-04-16 Fujitsu Limited エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体
EP2051241B1 (en) * 2007-10-17 2010-12-08 Harman Becker Automotive Systems GmbH Speech dialog system with play back of speech output adapted to the user
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
DE102008008948A1 (de) 2008-02-13 2009-08-20 Volkswagen Ag Systemarchitektur und Verfahren zur multimodalen Informationseingabe
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US7516068B1 (en) * 2008-04-07 2009-04-07 International Business Machines Corporation Optimized collection of audio for speech recognition
US8958848B2 (en) 2008-04-08 2015-02-17 Lg Electronics Inc. Mobile terminal and menu control method thereof
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8682660B1 (en) * 2008-05-21 2014-03-25 Resolvity, Inc. Method and system for post-processing speech recognition results
US8983841B2 (en) * 2008-07-15 2015-03-17 At&T Intellectual Property, I, L.P. Method for enhancing the playback of information in interactive voice response systems
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
JP5598331B2 (ja) * 2008-11-28 2014-10-01 日本電気株式会社 言語モデル作成装置
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
DE102009018590B4 (de) * 2009-04-23 2022-11-17 Volkswagen Ag Kraftfahrzeug mit einer Bedienvorrichtung und dazugehöriges Verfahren
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
DE102009025530B4 (de) * 2009-06-19 2019-05-23 Volkswagen Ag Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
DE102009041007A1 (de) 2009-09-10 2011-03-24 Bayerische Motoren Werke Aktiengesellschaft Navigationssystem und Radioempfangssystem
US8428947B2 (en) 2009-12-15 2013-04-23 At&T Intellectual Property I, L.P. Automatic sound level control
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8787977B2 (en) * 2010-04-08 2014-07-22 General Motors Llc Method of controlling dialing modes in a vehicle
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8468012B2 (en) 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US20120065972A1 (en) * 2010-09-12 2012-03-15 Var Systems Ltd. Wireless voice recognition control system for controlling a welder power supply by voice commands
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US10032127B2 (en) 2011-02-18 2018-07-24 Nuance Communications, Inc. Methods and apparatus for determining a clinician's intent to order an item
US8768723B2 (en) 2011-02-18 2014-07-01 Nuance Communications, Inc. Methods and apparatus for formatting text for clinical fact extraction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
JP5681041B2 (ja) * 2011-06-03 2015-03-04 富士通株式会社 名寄せ規則生成方法、装置、およびプログラム
US20120316884A1 (en) * 2011-06-10 2012-12-13 Curtis Instruments, Inc. Wheelchair System Having Voice Activated Menu Navigation And Auditory Feedback
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP2013068532A (ja) * 2011-09-22 2013-04-18 Clarion Co Ltd 情報端末、サーバー装置、検索システムおよびその検索方法
US9847083B2 (en) * 2011-11-17 2017-12-19 Universal Electronics Inc. System and method for voice actuated configuration of a controlling device
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US20140016797A1 (en) * 2012-07-16 2014-01-16 Ford Global Technologies, Llc Method for Changing Audio System Mode for Roof Open/Closed Condition
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014068788A1 (ja) * 2012-11-05 2014-05-08 三菱電機株式会社 音声認識装置
US9148499B2 (en) 2013-01-22 2015-09-29 Blackberry Limited Method and system for automatically identifying voice tags through user operation
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US20140270249A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression
US11024406B2 (en) 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US20140278393A1 (en) 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US9237225B2 (en) 2013-03-12 2016-01-12 Google Technology Holdings LLC Apparatus with dynamic audio signal pre-conditioning and methods therefor
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US11183300B2 (en) 2013-06-05 2021-11-23 Nuance Communications, Inc. Methods and apparatus for providing guidance to medical professionals
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10163455B2 (en) * 2013-12-03 2018-12-25 Lenovo (Singapore) Pte. Ltd. Detecting pause in audible input to device
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
DE102014108371B4 (de) * 2014-06-13 2016-04-14 LOEWE Technologies GmbH Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
DE102014111503B4 (de) * 2014-08-12 2016-04-28 Gls It Services Gmbh Intelligentes Zustellsystem
US9418679B2 (en) 2014-08-12 2016-08-16 Honeywell International Inc. Methods and apparatus for interpreting received speech data using speech recognition
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9792901B1 (en) * 2014-12-11 2017-10-17 Amazon Technologies, Inc. Multiple-source speech dialog input
US10403265B2 (en) * 2014-12-24 2019-09-03 Mitsubishi Electric Corporation Voice recognition apparatus and voice recognition method
CN104615052A (zh) * 2015-01-15 2015-05-13 深圳乐投卡尔科技有限公司 Android车载导航全局声控装置及方法
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) * 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
CN104899002A (zh) * 2015-05-29 2015-09-09 深圳市锐曼智能装备有限公司 机器人基于对话预测的在线与离线的识别切换方法及系统
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10672385B2 (en) * 2015-09-04 2020-06-02 Honeywell International Inc. Method and system for remotely training and commanding the speech recognition system on a cockpit via a carry-on-device in a connected aircraft
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
DE102015222105A1 (de) * 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11152084B2 (en) 2016-01-13 2021-10-19 Nuance Communications, Inc. Medical report coding with acronym/abbreviation disambiguation
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
EP3270575A1 (de) 2016-07-12 2018-01-17 Veecoo Ug Plattform zur integration von mobilen endgräten und peripheren geräten des nachrüstmarktes in einem fahrzeug
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
EP3516560A1 (en) 2016-09-20 2019-07-31 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102588423B1 (ko) * 2016-12-22 2023-10-12 삼성전자주식회사 벤디드 디스플레이를 통한 부품 실장 구조를 갖는 전자 장치
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
WO2018206359A1 (en) * 2017-05-08 2018-11-15 Philips Lighting Holding B.V. Voice control
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
DE102017211202A1 (de) 2017-06-30 2019-01-03 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zur Steuerung von Klimatisierungseinrichtungen in einem Kraftfahrzeug
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
DE102017212980B4 (de) 2017-07-27 2023-01-19 Volkswagen Aktiengesellschaft Verfahren zur Kompensation von Störgeräuschen bei einer Freisprecheinrichtung in einem Kraftfahrzeug und Freisprecheinrichtung
EP3642835A4 (en) 2017-08-03 2021-01-06 Telepathy Labs, Inc. PROACTIVE, INTELLIGENT AND OMNICANAL VIRTUAL AGENT
CN107642864B (zh) * 2017-08-18 2021-08-24 重庆海尔空调器有限公司 一种多空调语音控制方法、控制装置和空调系统
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
DE102017123443A1 (de) * 2017-10-09 2019-04-11 Lenze Automation Gmbh System für die Steuerung und/oder Diagnose eines elektrischen Antriebssystems
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances
WO2020033595A1 (en) 2018-08-07 2020-02-13 Pangissimo, LLC Modular speaker system
US10978064B2 (en) 2018-11-30 2021-04-13 International Business Machines Corporation Contextually relevant spoken device-to-device communication between IoT devices
RU2761940C1 (ru) * 2018-12-18 2021-12-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу
WO2020142640A1 (en) * 2019-01-03 2020-07-09 Lucomm Technologies, Inc. Robotic devices
CN110288988A (zh) * 2019-05-16 2019-09-27 平安科技(深圳)有限公司 目标数据筛选方法、装置及存储介质
CN112885340A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 设备控制方法、装置和系统
CN111274365B (zh) * 2020-02-25 2023-09-19 广州七乐康药业连锁有限公司 基于语义理解的智能问诊方法、装置、存储介质及服务器
DE102020202506A1 (de) * 2020-02-27 2021-09-02 Siemens Mobility GmbH Verfahren zur Dokumentation einer sprachbasierten Kommunikation
CN111724768A (zh) * 2020-04-22 2020-09-29 深圳市伟文无线通讯技术有限公司 用于离线语音识别的实时生成解码文件的系统和方法
KR20210149969A (ko) * 2020-06-02 2021-12-10 삼성전자주식회사 컨텐츠를 수정하기 위한 전자 장치 및 방법
US11996095B2 (en) 2020-08-12 2024-05-28 Kyndryl, Inc. Augmented reality enabled command management
KR102494051B1 (ko) * 2021-01-26 2023-01-31 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법

Citations (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS493507A (ja) * 1972-04-19 1974-01-12
JPS4957702A (ja) * 1972-10-02 1974-06-05
JPS5689799A (en) * 1979-12-22 1981-07-21 Fujitsu Ltd Voice identification device
JPS5816700U (ja) * 1981-07-27 1983-02-01 日産自動車株式会社 車両用音声認識装置
JPS5823097A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5830800A (ja) * 1981-08-17 1983-02-23 トヨタ自動車株式会社 車両用音声認識方式
JPS5850598A (ja) * 1981-09-22 1983-03-25 富士通株式会社 音声認識装置の入力監視方式
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPS58151000A (ja) * 1982-03-02 1983-09-07 三菱電機株式会社 音声入力制御装置
JPS5971100A (ja) * 1982-10-18 1984-04-21 日本電信電話株式会社 音声認識方式
JPS59107391A (ja) * 1982-12-13 1984-06-21 株式会社日立製作所 発声法訓練装置
JPS59122634U (ja) * 1983-02-07 1984-08-18 横河電機株式会社 外部スイツチ付音声入力装置
JPS59180600A (ja) * 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
JPS59228434A (ja) * 1983-06-09 1984-12-21 Fujitsu Ltd 音声入力制御方式
JPS6062221A (ja) * 1983-09-14 1985-04-10 Hitachi Micro Comput Eng Ltd 選局装置
JPS60104999A (ja) * 1983-11-14 1985-06-10 松下電器産業株式会社 音声認識装置
JPS6135494A (ja) * 1984-07-27 1986-02-19 日本電気株式会社 音声認識処理装置
JPS61112198A (ja) * 1984-11-07 1986-05-30 株式会社日立製作所 音声認識装置
JPS61151600A (ja) * 1984-12-26 1986-07-10 株式会社日立製作所 音声認識方法
JPS62105198A (ja) * 1985-10-31 1987-05-15 富士通株式会社 音声出力制御方式
JPS62138900A (ja) * 1985-12-12 1987-06-22 日本電気株式会社 正規化ケプストラム分析装置
JPS62245296A (ja) * 1986-04-18 1987-10-26 シチズン時計株式会社 音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPS637978B2 (ja) * 1980-09-17 1988-02-19 Toyota Motor Co Ltd
JPS63116199A (ja) * 1986-11-05 1988-05-20 富士通株式会社 音声入力装置の音声辞書格納方式
JPS6335999B2 (ja) * 1981-10-22 1988-07-18 Nissan Motor
JPS63281199A (ja) * 1987-05-13 1988-11-17 日本電気株式会社 音声セグメンテ−ション装置
JPS63301998A (ja) * 1987-06-02 1988-12-08 日本電気株式会社 音声認識応答装置
JPH0114496B2 (ja) * 1980-01-21 1989-03-13 Tokyo Shibaura Electric Co
JPH0197044A (ja) * 1987-10-08 1989-04-14 Nec Corp 音声ダイヤル装置
JPH0123702B2 (ja) * 1983-12-07 1989-05-08 Sharp Kk
JPH0132425Y2 (ja) * 1982-01-28 1989-10-04
JPH0217118B2 (ja) * 1984-03-21 1990-04-19 Denshi Keisanki Kippon Gijutsu
JPH02184900A (ja) * 1989-01-11 1990-07-19 Ricoh Co Ltd 音声ダイヤル装置
JPH02184899A (ja) * 1989-01-11 1990-07-19 Ricoh Co Ltd 標準パターン及び電話番号登録方式
JPH02312426A (ja) * 1989-05-29 1990-12-27 Nissan Motor Co Ltd 車両用電話装置
JPH032793A (ja) * 1989-05-30 1991-01-09 Nec Corp 音声認識用前処理装置
JPH037119B2 (ja) * 1982-01-11 1991-01-31 Nippon Denshin Denwa Kk
JPH0323810B2 (ja) * 1981-12-29 1991-03-29 Matsushita Electric Ind Co Ltd
JPH03155598A (ja) * 1989-11-14 1991-07-03 Nec Corp 認識対象テンプレート差し替え型音声認識装置
JPH0376759B2 (ja) * 1983-05-16 1991-12-06 Fujitsu Ltd
JPH04120850A (ja) * 1990-09-12 1992-04-21 Toshiba Corp 音声合成装置
JPH04125597A (ja) * 1990-09-17 1992-04-27 Toshiba Corp 音声認識装置
JPH04172052A (ja) * 1990-11-06 1992-06-19 Toshiba Corp 音声合成装置
JPH0438358B2 (ja) * 1984-11-30 1992-06-24
JPH04301697A (ja) * 1991-03-29 1992-10-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH05290101A (ja) * 1992-04-13 1993-11-05 Mitsubishi Electric Corp 連続音声認識処理方法およびその装置
JPH068999B2 (ja) * 1985-08-21 1994-02-02 株式会社日立製作所 音声入力方法
JPH06133039A (ja) * 1992-10-16 1994-05-13 Oki Electric Ind Co Ltd 気象情報自動案内装置
JPH06202689A (ja) * 1992-12-28 1994-07-22 Sony Corp 音声認識方法および装置
JPH0766272B2 (ja) * 1987-08-24 1995-07-19 日本電気株式会社 音声セグメンテ−ション装置
JPH0782351B2 (ja) * 1987-10-19 1995-09-06 モトローラ・インコーポレーテッド 音声コマンドによりデジットシーケンスを入力するための方法
JPH08307509A (ja) * 1995-04-19 1996-11-22 Texas Instr Inc <Ti> 手を使わずに電話機のダイアル操作を行う方法および装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0235127B2 (en) * 1985-09-03 1993-05-05 Motorola, Inc. Hands-free control system for a radiotelephone
US4751737A (en) 1985-11-06 1988-06-14 Motorola Inc. Template generation method in a speech recognition system
US4856072A (en) * 1986-12-31 1989-08-08 Dana Corporation Voice actuated vehicle security system
DE3819178A1 (de) * 1987-06-04 1988-12-22 Ricoh Kk Spracherkennungsverfahren und -einrichtung
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
DE3928049A1 (de) * 1989-08-25 1991-02-28 Grundig Emv Sprachgesteuertes archivsystem
US5144672A (en) 1989-10-05 1992-09-01 Ricoh Company, Ltd. Speech recognition apparatus including speaker-independent dictionary and speaker-dependent
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
US5125022A (en) * 1990-05-15 1992-06-23 Vcs Industries, Inc. Method for recognizing alphanumeric strings spoken over a telephone network
US5303299A (en) * 1990-05-15 1994-04-12 Vcs Industries, Inc. Method for continuous recognition of alphanumeric strings spoken over a telephone network
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
DE4130632A1 (de) * 1991-09-14 1993-03-18 Philips Patentverwaltung Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
US5388183A (en) 1991-09-30 1995-02-07 Kurzwell Applied Intelligence, Inc. Speech recognition providing multiple outputs
US5353376A (en) * 1992-03-20 1994-10-04 Texas Instruments Incorporated System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5893059A (en) * 1997-04-17 1999-04-06 Nynex Science And Technology, Inc. Speech recoginition methods and apparatus
US5913192A (en) * 1997-08-22 1999-06-15 At&T Corp Speaker identification with user-selected password phrases

Patent Citations (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS493507A (ja) * 1972-04-19 1974-01-12
JPS4957702A (ja) * 1972-10-02 1974-06-05
JPS5689799A (en) * 1979-12-22 1981-07-21 Fujitsu Ltd Voice identification device
JPH0114496B2 (ja) * 1980-01-21 1989-03-13 Tokyo Shibaura Electric Co
JPS637978B2 (ja) * 1980-09-17 1988-02-19 Toyota Motor Co Ltd
JPS5816700U (ja) * 1981-07-27 1983-02-01 日産自動車株式会社 車両用音声認識装置
JPS5823097A (ja) * 1981-08-03 1983-02-10 日本電信電話株式会社 音声認識装置
JPS5830800A (ja) * 1981-08-17 1983-02-23 トヨタ自動車株式会社 車両用音声認識方式
JPS5850598A (ja) * 1981-09-22 1983-03-25 富士通株式会社 音声認識装置の入力監視方式
JPS6335999B2 (ja) * 1981-10-22 1988-07-18 Nissan Motor
JPS5876893A (ja) * 1981-10-30 1983-05-10 日本電気株式会社 音声認識装置
JPH0323810B2 (ja) * 1981-12-29 1991-03-29 Matsushita Electric Ind Co Ltd
JPH037119B2 (ja) * 1982-01-11 1991-01-31 Nippon Denshin Denwa Kk
JPH0132425Y2 (ja) * 1982-01-28 1989-10-04
JPS58151000A (ja) * 1982-03-02 1983-09-07 三菱電機株式会社 音声入力制御装置
JPS5971100A (ja) * 1982-10-18 1984-04-21 日本電信電話株式会社 音声認識方式
JPS59107391A (ja) * 1982-12-13 1984-06-21 株式会社日立製作所 発声法訓練装置
JPS59122634U (ja) * 1983-02-07 1984-08-18 横河電機株式会社 外部スイツチ付音声入力装置
JPS59180600A (ja) * 1983-03-31 1984-10-13 日本電気ホームエレクトロニクス株式会社 車載用音声認識制御装置
JPH0376759B2 (ja) * 1983-05-16 1991-12-06 Fujitsu Ltd
JPS59228434A (ja) * 1983-06-09 1984-12-21 Fujitsu Ltd 音声入力制御方式
JPS6062221A (ja) * 1983-09-14 1985-04-10 Hitachi Micro Comput Eng Ltd 選局装置
JPS60104999A (ja) * 1983-11-14 1985-06-10 松下電器産業株式会社 音声認識装置
JPH0123702B2 (ja) * 1983-12-07 1989-05-08 Sharp Kk
JPH0217118B2 (ja) * 1984-03-21 1990-04-19 Denshi Keisanki Kippon Gijutsu
JPS6135494A (ja) * 1984-07-27 1986-02-19 日本電気株式会社 音声認識処理装置
JPS61112198A (ja) * 1984-11-07 1986-05-30 株式会社日立製作所 音声認識装置
JPH0438358B2 (ja) * 1984-11-30 1992-06-24
JPS61151600A (ja) * 1984-12-26 1986-07-10 株式会社日立製作所 音声認識方法
JPH068999B2 (ja) * 1985-08-21 1994-02-02 株式会社日立製作所 音声入力方法
JPS62105198A (ja) * 1985-10-31 1987-05-15 富士通株式会社 音声出力制御方式
JPS62138900A (ja) * 1985-12-12 1987-06-22 日本電気株式会社 正規化ケプストラム分析装置
JPS62245296A (ja) * 1986-04-18 1987-10-26 シチズン時計株式会社 音声認識装置
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPS63116199A (ja) * 1986-11-05 1988-05-20 富士通株式会社 音声入力装置の音声辞書格納方式
JPS63281199A (ja) * 1987-05-13 1988-11-17 日本電気株式会社 音声セグメンテ−ション装置
JPS63301998A (ja) * 1987-06-02 1988-12-08 日本電気株式会社 音声認識応答装置
JPH0766272B2 (ja) * 1987-08-24 1995-07-19 日本電気株式会社 音声セグメンテ−ション装置
JPH0197044A (ja) * 1987-10-08 1989-04-14 Nec Corp 音声ダイヤル装置
JPH0782351B2 (ja) * 1987-10-19 1995-09-06 モトローラ・インコーポレーテッド 音声コマンドによりデジットシーケンスを入力するための方法
JPH02184899A (ja) * 1989-01-11 1990-07-19 Ricoh Co Ltd 標準パターン及び電話番号登録方式
JPH02184900A (ja) * 1989-01-11 1990-07-19 Ricoh Co Ltd 音声ダイヤル装置
JPH02312426A (ja) * 1989-05-29 1990-12-27 Nissan Motor Co Ltd 車両用電話装置
JPH032793A (ja) * 1989-05-30 1991-01-09 Nec Corp 音声認識用前処理装置
JPH03155598A (ja) * 1989-11-14 1991-07-03 Nec Corp 認識対象テンプレート差し替え型音声認識装置
JPH04120850A (ja) * 1990-09-12 1992-04-21 Toshiba Corp 音声合成装置
JPH04125597A (ja) * 1990-09-17 1992-04-27 Toshiba Corp 音声認識装置
JPH04172052A (ja) * 1990-11-06 1992-06-19 Toshiba Corp 音声合成装置
JPH04301697A (ja) * 1991-03-29 1992-10-26 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置
JPH05216618A (ja) * 1991-11-18 1993-08-27 Toshiba Corp 音声対話システム
JPH05290101A (ja) * 1992-04-13 1993-11-05 Mitsubishi Electric Corp 連続音声認識処理方法およびその装置
JPH06133039A (ja) * 1992-10-16 1994-05-13 Oki Electric Ind Co Ltd 気象情報自動案内装置
JPH06202689A (ja) * 1992-12-28 1994-07-22 Sony Corp 音声認識方法および装置
JPH08307509A (ja) * 1995-04-19 1996-11-22 Texas Instr Inc <Ti> 手を使わずに電話機のダイアル操作を行う方法および装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002528751A (ja) * 1998-10-16 2002-09-03 フオルクスヴアーゲン アクチエンゲゼルシヤフト 情報および/またはメッセージを音声によって出力する方法および装置
JP4705242B2 (ja) * 1998-10-16 2011-06-22 フオルクスヴアーゲン アクチエンゲゼルシヤフト 情報および/またはメッセージを音声によって出力する方法および装置
JP4724943B2 (ja) * 2001-04-05 2011-07-13 株式会社デンソー 音声認識装置
JP2003280688A (ja) * 2002-03-25 2003-10-02 Nissan Diesel Motor Co Ltd 情報交換システム
JP2005167866A (ja) * 2003-12-05 2005-06-23 Kenwood Corp データ記録装置及びデータ記録方法
JP2012215673A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
JP2016177045A (ja) * 2015-03-19 2016-10-06 株式会社レイトロン 音声認識装置および音声認識プログラム

Also Published As

Publication number Publication date
EP0852051B1 (de) 2002-01-02
ATE211572T1 (de) 2002-01-15
WO1997010583A1 (de) 1997-03-20
JP3479691B2 (ja) 2003-12-15
CA2231504C (en) 2005-08-02
DE59608614D1 (de) 2002-02-28
EP0852051A1 (de) 1998-07-08
US6839670B1 (en) 2005-01-04
DE19533541C1 (de) 1997-03-27
CA2231504A1 (en) 1997-03-20
ES2170870T3 (es) 2002-08-16

Similar Documents

Publication Publication Date Title
JP3479691B2 (ja) 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置
US8688451B2 (en) Distinguishing out-of-vocabulary speech from in-vocabulary speech
US8639508B2 (en) User-specific confidence thresholds for speech recognition
CN101462522B (zh) 交通工具内根据状况的语音识别
US7630878B2 (en) Speech recognition with language-dependent model vectors
US6519479B1 (en) Spoken user interface for speech-enabled devices
US9570066B2 (en) Sender-responsive text-to-speech processing
US8438028B2 (en) Nametag confusability determination
US7983916B2 (en) Sampling rate independent speech recognition
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
US9911408B2 (en) Dynamic speech system tuning
KR20160060335A (ko) 대화 분리 장치 및 이에서의 대화 분리 방법
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
KR19980070329A (ko) 사용자 정의 문구의 화자 독립 인식을 위한 방법 및 시스템
WO2005098817A2 (en) System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode
US20120197643A1 (en) Mapping obstruent speech energy to lower frequencies
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
Alewine et al. Pervasive speech recognition
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2004184803A (ja) 車両用音声認識装置
US20090254335A1 (en) Multilingual weighted codebooks
US20240046924A1 (en) Flexible-format voice command
JP3465334B2 (ja) 音声対話装置及び音声対話方法
KR20220129366A (ko) 음성 인식 시스템 및 그 제어 방법

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131010

Year of fee payment: 10

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term