JP3479691B2 - 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 - Google Patents
実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置Info
- Publication number
- JP3479691B2 JP3479691B2 JP51163997A JP51163997A JP3479691B2 JP 3479691 B2 JP3479691 B2 JP 3479691B2 JP 51163997 A JP51163997 A JP 51163997A JP 51163997 A JP51163997 A JP 51163997A JP 3479691 B2 JP3479691 B2 JP 3479691B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- command
- devices
- input
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 88
- 230000003993 interaction Effects 0.000 claims description 73
- 230000001419 dependent effect Effects 0.000 claims description 27
- 238000012790 confirmation Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 16
- 238000012805 post-processing Methods 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 9
- 230000002452 interceptive effect Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 239000000498 cooling water Substances 0.000 claims description 4
- 238000010438 heat treatment Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000007792 addition Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000011049 filling Methods 0.000 claims description 3
- 238000010348 incorporation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 2
- 230000003203 everyday effect Effects 0.000 claims description 2
- 238000003786 synthesis reaction Methods 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 claims 2
- 238000001914 filtration Methods 0.000 claims 1
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000005923 long-lasting effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 4
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 230000008901 benefit Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000005855 radiation Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- YBYIRNPNPLQARY-UHFFFAOYSA-N 1H-indene Chemical compound C1=CC=C2CC=CC2=C1 YBYIRNPNPLQARY-UHFFFAOYSA-N 0.000 description 1
- 101000604054 Homo sapiens Neuroplastin Proteins 0.000 description 1
- 101000806155 Homo sapiens Short-chain dehydrogenase/reductase 3 Proteins 0.000 description 1
- 102100037857 Short-chain dehydrogenase/reductase 3 Human genes 0.000 description 1
- 201000004283 Shwachman-Diamond syndrome Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000003931 cognitive performance Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 235000019333 sodium laurylsulphate Nutrition 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
- Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
- Selective Calling Equipment (AREA)
- Telephone Function (AREA)
- Input From Keyboards Or The Like (AREA)
Description
の音声対話又は音声命令による1つ又は複数の機器の自
動制御方法と、請求項45の上位概念に記載のこの方法を
実施する装置とに関する。
コンピュータロボット、機械、装置等のためのいわゆる
音声対話システム又は音声操作システムにおいて使用さ
れる。
帰することが可能である。
声した命令(“音声命令”)を別の許容される音声命令
と比較し、いずれの命令が最も高い確率で話者が発声し
たかを決定する。
に必要な音声命令とシグナリングトーンとを出力し、場
合に応じて認識結果を応答する。
制御装置は、いずれの種類の入力が予測されるかをユー
ザに明瞭にするか又は、行われた入力が要求及びアプリ
ケーションの瞬時のステータスと一致しているかどうか
を検査し、そして、アプリケーション(例えば制御する
機器)において結果のアクションをトリガする。
ントロールインターフェース。コントロールインターフ
ェースは、アプリケーションを含む種々のアクチュエー
タ及び計算機を制御するためのハードウェア及びソフト
ウェアモジュールを含んでいる。
えば注文システム又は情報提供システム、CAE作業場所
又は障害者用車椅子等であることもある。
ることなしに音声認識、対話構造及び自動車搭載の特別
のアプリケーションに集中している。
ムを適合調整するために大きいコストのトレーニングを
実行する必要性。システムは完全に話者独立型であるか
又は完全に話者依存型すなわち話者適応型であり、後者
はそれぞれの新ユーザのためにトレーニングを必要とす
る。これは時間がかかり、話者が頻繁に交替する場合に
は操作快適性を著しく低減する。この理由から従来のシ
ステムにおいては語彙規模は、話者が交替し個々の話者
の時間不足を考慮しなければならないアプリケーション
において小さい。
れる。
る。
をおいて)入力する。
ればならない。
を処理しなければならない。
ヘッドセット(ヘッドホーンとリップマイクロフォンと
の組合せ)を着用しなければならない。
現にコストがかかり高価になる。
1つ又は複数の機器を音声命令により又は音声対話によ
り確実に実時間作動で制御される又は操作されることを
可能にする方法を提供することにある。更に、この本発
明の方法を実施する適切な装置を提供することにある。
いて請求項1の特徴部分に記載の特徴により表され、本
発明の装置においては請求項45の特徴部分に記載の特徴
により表される。その他の請求項は本発明の方法の有利
な実施の形態(請求項2〜44)及び本発明の装置の有利
な実施の形態(請求項46〜57)を含む。
より音声命令による又は音声対話による機器の高信頼性
の制御又は操作が可能であることにある。
実行における自然な話し方に大幅に適合調整された入力
が可能であり、このために話者に高信頼性の命令の大規
模な語彙が使用可能に提供されることにある。
し、本発明の1つの有利な実施の形態では例えば話者に
より入力された音声命令の中の信頼性のない単語、名
前、音又は単語位置変更でも通常はそのまま認識され、
これらの入力された音声命令から話者が本当に希望した
音声命令が抽出される。
1つの有利な実施の形態(“音声対話システム”)のブ
ロック回路図、図2は図1の実際の音声対話システムを
詳細に示すブロック回路図、図3は図2の音声対話シス
テムのための入力された音声命令のセグメンテーション
の1つの有利な実施の形態のフローチャート、図4及び
5は隠れマルコフモデルの実施の形態の略線図、図6は
図2の音声対話システムの1つの有利な実施の形態のハ
ードウェア構成を示すブロック回路図、図7は電話の音
声制御操作のための図2の音声対話システムの適用のた
めの状態線図、図8は図7の電話の操作のためのフロー
チャート、図9及び10は図8のフローチャートの電話の
操作での機能“名前選択”(図9)又は“番号選択”
(図10)のためのフローチャートである。
(マイクロフォン2の記号により示されている)音声入
力装置、音声認識装置、対話制御装置及びシーケンス制
御装置、通信及びコントロールインターフェース、(ス
ピーカ3が接続されている)音声出力装置、(例とし
て)アプリケーションすなわちSDSにより制御する又は
操作する機器を構成要素として含む。SDS及びアプリケ
ーションは共働して音声操作システム(SBS)を形成
し、音声操作システムは実時間(“オンライン”)で作
動される。
拘束的な基本音声命令とは“オフライン”で(例とし
て)SDS又はSBSの外部で“オフライン対話エディタモー
ド"4の中のPCワークステーションを用いて作成され、固
定され、プリセットされるべきパラメータ及びシーケン
ス構造及びシーケンス構造と一緒にSDS又はSBSに作動開
始前にデータファイルの形で供給される。
示されていない)マイクロフォンがアナログ/ディジタ
ル変換器に接続され、アナログ/ディジタル変換器はエ
コー補償、雑音低減及びセグメンテーションのための装
置を介して、話者独立型連続単語音声認識器と、話者依
存型音声認識器とに接続されている。双方の音声認識器
は出力側で、認識器出力信号の構文的文法的及び意味的
処理のための後処理装置に接続されている。この後処理
装置も対話制御装置及びシーケンス制御装置に接続さ
れ、対話制御装置とシーケンス制御装置は、SDSと、SDS
により制御する機器とを制御する制御装置を形成する。
更に音声入出力装置が設けられ、音声入出力装置は音声
エンコーダ、音声デコーダ及び音声メモリから成る。
され、出力側において音声メモリに接続されている。音
声メモリは出力側において音声デコーダに接続され、音
声デコーダは出力側においてデジタル/アナログ変換器
を介して(図示されていない)スピーカに接続されてい
る。
応じて補償する(図中“オーディオ”により示されてい
る)オーディオ信号を供給する(図示されていない)機
器/センサに接続されている。
装置を有し、特徴抽出装置においてケプストラム形成
と、とりわけ入力信号のアナログ伝達特性への認識器の
適応とが行われ、他方、話者独立型連続単語音声認識器
は、後置接続されているクラス分け装置を有する。
し、他方、クラス分け装置を有する。しかし付加的な切
換えスイッチを介してクラス分け装置の代りに話者特有
付加的音声命令装置に切換え接続可能であり、話者特有
付加的音声命令装置はトレーニングフェーズにおいてSD
Sの実時間作動の前、間又は後に認識器によりトレーニ
ングされなければならない。話者依存型認識器は例えば
ダイナミック時間歪法すなわちDTW(dynamic time wa
rping)法で動作し、このDTW法により話者依存型認識器
のクラス分け装置は、認識する命令と事前トレーニング
されたリファレンスパターンを検出し、最小距離を有す
るリファレンスパターンを、認識する命令として識別す
る。話者依存型認識器は、話者独立型音声認識器におい
て適用される特徴抽出法(ケプストラム形成、適応等)
により動作することが可能である。
文的文法的及び意味的処理装置に接続されている(この
装置の役割及び機能は後に説明される)。出力側におい
て後処理装置に対話制御装置が後置接続され、対話制御
装置はシーケンス制御装置に接続されている。対話制御
装置とシーケンス制御装置とは共働してSDS制御装置を
形成し、SDS制御装置は前処理装置、音声入出力装置、
双方の認識器、後処理装置、通信及びコントロールイン
ターフェースも制御し、制御する又は操作する機器も
(図2に示されているように適切なインターフェースを
介して)制御する。
2つのタイプの音声認識器を含む。双方の認識に対して
次のように特徴付けることが可能である。
話者独立型認識。これにより一般的な制御命令、数字、
名前、文字等を認識することが可能であり、しかもその
際、使用された単語の1つ又は複数に対して話者又はユ
ーザを前もってトレーニングすることは不要である。
る、すなわち複数の単語、数字、名前の組合せが1つの
命令を形成し、この命令は一気にすなわち休み無しに話
される(例えば命令:“半径1の円”)。クラス分けア
ルゴリズムにおいてHMM(hidden Markov modelすなわ
ち隠れマルコフモデル)認識器が用いられ、この認識器
は実質的に音素(音韻の最小単位)及び/又は全単語モ
デルを認識して、それらから単語又は命令を形成する。
語彙及び語彙から形成される命令(“構文構造”)は前
もって実験室で固定され、認識器にデータファイルの形
で供給される(“オフライン対話編集モード”)。実時
間作動において独立型認識器の語彙及び構文構造をユー
ザにより変更することはできない。
ングするユーザ/話者特有の名前又は機能の話者依存型
認識。ユーザ/話者は、名前リスト、機能リスト等の形
の個人的語彙を形成する又は編集することが可能であ
る。これによりユーザ/話者は彼の個人的語彙を選択
し、この語彙をいつでも“オンライン”すなわち実時間
作動で彼の必要性に適合することが可能である。
なわち電話加入者の名前の個人的にユーザ/話者により
作成されたリストが挙げられ、その際、 ・ トレーニングフェーズにおけるそれぞれの名前は一
度又は複数回ユーザにより発声され(例えば“ウィリー
おじさん”)、その名前にキー入力によりしかし有利に
は独立型音声認識器により電話番号が割当てられ、 ・ 前述のトレーニング及び番号割当ての終了後にはユ
ーザは話者依存型認識器に名前(“ウィリーおじさ
ん”)のみを言い、システムに既に知られている所属の
電話番号は言わない。
続単語認識器は継目無しに話者独立型認識器に結合され
ている。(例えば“ウィリーおじさんを呼出す”を完全
な命令として、ただし単語“呼出す”は話者独立型語彙
の一部であり、“ウィリーおじさん”は話者依存型語彙
の一部である)。
識器のある所定の認識確率を伴う結果の後処理が実行さ
れる。
を、認識確率を表す順序で供給する。この文仮定は通常
は既に、許容される構文構造を考慮している。これが当
てはまらない場合、構文的後処理(図2)の中で、許容
されない単語列が選択除去されるか又は種々の基準に従
って、これらの単語列の中に出現する単語組合せはいか
なる確率を有するかが評価される。更に、音声認識器に
より生成された文仮定がそれらの意味的なリーズナブル
ネスについて計算され、次いで最大の確率の仮定が選択
される。
れ、次いで、アプリケーションへのこの音声コマンドに
割当てられているアクションが行われ、メッセージはコ
ントロールインターフェースを介して供給される。場合
に応じて、認識された音声命令は対話制御装置により音
声出力装置にも(のみに)供給されて出力される。
固定された構文及び命令構造により、そして、(話者独
立型認識器の)固定された語彙と例えば(話者依存型認
識器の)名前等の自由に定義可能な語彙との組合せとを
特徴とする。
う環境において等の(現在の時点では数百の単語まで
の)大きい語彙量において、乗客室の中の変化する音響
状態において、及び異なる複数の話者において高い認識
性能のための前提条件である。大きい語彙量は、ユーザ
フレンドリ性を、同義語又は異なる表現変形の使用によ
り高めるために使用される。構文も、単語を音声命令に
変換することを可能にし、例えば、 “左側の円において大きな半径” 又は代替的に、 “大きな半径の左側の円において”、 ただし代替は最初から“オフライン対話エディタ”にお
ける取決めの際に定義されなければならない。
かつ迅速である。実際の上での使用により分かったこと
は、無頓着なユーザは、多単語命令を入力するために
(明瞭な中休みにより)途切れ途切れに話すことに慣れ
ることが困難なことである(従ってこのようなシステム
の容認は大幅に低い)。
力に比して容易であり要求される集中力が低い。
字列においてそれぞれの単一数字が確認応答される必要
がなく、入力された数字ブロックのみが容認応答されれ
ばよいからである。
毎に、以前は手動操作を必要とした多数の機能が操作可
能である。
際に手を別の個所例えば機関の品質コントロールにおい
て使用可能である。
ッドホーン及びリップマイクロフォン)又はハンドマイ
クロフォンの代りに(又はの補足に)ハンドフリー形マ
イクロフォンを使用する利点により更に高められる。し
かしハンドフリーマイクロフォンの使用は通常は、例え
ば対話スピーカ又はその他のスピーカから到来する信号
の、高性能雑音低減装置(図2)及び場合に応じてエコ
ー補償を必要とする。しかしアプリケーション又は雑音
レベルに依存してこれらの方法は、ヘッドセット又はハ
ンドマイクロフォンの使用においても必要であることも
ある。
口を挟むことが可能となる、すなわち音声出力がアクテ
ィブである間に認識器に話しかけることが可能となる。
り何時でも語彙及び命令を変化することが可能であり、
しかもその際、これは、話者独立型認識器の新単語のた
めの多数の話者により新トレーニングを必要としない。
その理由は、実験室において話者独立型音素及び/又は
話者独立型全単語モデルのためのデータバンクが存在
し、これらの音素又は全単語モデルからその時の開発環
境にて、簡単に新単語及び新命令を生成することが可能
であることにある。最後に、命令又は語彙の変化は、実
験室において開発システムにより計算された新パラメー
タ及びデータをデータファイルとして話者独立型“実時
間認識器”に伝送して、そこでメモリに格納することを
目的としている。
機能も、外部の機器も操作することが可能である。SDS
は例えばPCMCIAインターフェースの外に、外部機器にと
ってアクセス可能であるインターフェースも有する。こ
れは例えばV.24インターフェース、光データ制御バス、
CANインターフェース等である。選択的にSDSは更なるイ
ンターフェースを設けられることが可能である。
k)キー(PTTキー)の作動により又は定められているキ
ーワードによりアクティブにされる。スイッチオフは、
SDSによりプリセットされた又は適応的にその都度のユ
ーザのために調整設定された時間の経過後及び/又はSD
Sの問合せの後に音声入力が行われない場合、又はユー
ザにより選択された対話が予定通りに終了した場合(例
えば所望の電話番号が電話に接続形成のために伝送され
た場合)、対応する音声命令(“中断命令”)を対話の
定められた個所に入力することにより、又は何時でもPT
Tキー又は中断キーの作動により、又は自動的に内部の
シーケンス制御装置により行われる。低雑音環境におい
てSDSを連続的にもアクティブにすることが可能であ
る。
システムのための1つの例にすぎないことを強調してお
く。データ入力又はデータ出力又は接続されている構成
要素の制御装置へのインターフェースの構成もここでは
単に例として示されているにすぎない。
れる。
オンされたラジオのディジタル化されたスピーカ信号が
適応形フィルタアルゴリズムを介してマイクロフォン信
号から減算される。フィルタアルゴリズムはスピーカか
らマイクロフォンへのエコーパスをシミュレートする。
の環境雑音と準定常の環境雑音とを区別することが可能
であり、これらの雑音を音声信号から減算することが可
能である。この種類の雑音は例えば自動車における走行
雑音、実験室及び事務所における環境雑音、及び工場内
の換気装置又は機械雑音等である。
ペクトル変換されたデータを基礎にしている。このため
に信号はブロック毎にいわゆる“フレーム”に統合され
高速フーリエ変換(FFT)により周波数領域内に変換さ
れる。音声領域(〜200Hzから〜6KHzまで)が聴覚を基
準として個々の周波数領域(“チャネル”)に分割され
る、聴覚を基準としているMELフィルタすなわち音の高
さのメロディー的感受をシミュレートしたフィルタによ
り値形成及び重み付けによりスペクトル値はチャネルベ
クトルに統合され、チャネルベクトルは、異なる周波数
帯域における出力を示す。次いで、恒久的にアクティブ
であり命令開始及び命令終了を粗に検出する粗セグメン
テーションが行われ、次いで正確な限界を定める微細セ
グメンテーションが行われる。
グメント化された音声信号から特徴ベクトルを計算し、
所属の正規化されたエネルギー値を求める。
ルは離散コサイン変換(DCT)によりケプストラムベク
トルに変換される。付加的に信号のエネルギーが計算さ
れ、正規化される。これに平行してケプストラム値の連
続的な平均値計算が行われ、これは認識器を瞬時の話者
にも、例えばマイクロフォン及びチャネル(話者→マイ
クロフォン)の伝達特性にも適応することを目的として
いる。ケプストラムベクトルは、この適応された平均値
が差引かれ、前に計算された正規化されたエネルギーに
よりいわゆるCMF(Cepstralkoeffizierten Mittelwert
frei)ベクトルに統合される。
いる状態の集合である(図4)。
はいわゆる遷移確率により表される。それぞれのノード
(状態)にいわゆる長さMの放射確率のベクトルが割当
てられている。これらの放射確率を介して物理的世界へ
の接続が形成される。モデル構想は、ある特定の状態qi
において、Mとは異なるシンボルのうちの1つのシンボ
ルが、状態を基準とする放射確率に従って“放射”され
ることになっている。
可能である。これに対して、モデルの中で発生する状態
の具体的な順序は可視できない(隠れている)。
率(放射確率) ・ π (HMMのトレーニングにおける)モデルの初期
状態の確率 確率分布A及びBを使用してこのモデルを用いて出力
シンボルを生成することが可能である。
識は好適には全単語を基礎にせず、音韻的な単語構成単
位を基礎にしている。このような単語構成単位は例えば
音、二重音又は音遷移である。次いで、認識する単語
は、対応する単語構成単位モデルの連鎖により表され
る。図5において、連鎖されている隠れマルコフモデル
(HMM)のこのような表現の例として一方では、単語“b
raten(焼く、あぶるの意味)”の標準発音形(図5A)
が示され、他方、発音変形(図5B)の音韻的説明が示さ
れている。これらの単語構成単位モデルは、システムの
作成の際に多数の話者を無作為抽出検査におけるサンプ
ルとして使用してトレーニングされ、“オンライン対話
エディタ”が基礎とするデータベースを形成する。単語
構成単位によるこのコンセプトは、新単語を比較的簡単
に既存の辞書の中に採用することが可能であることにあ
る、何故ならば単語構成単位のためのパラメータが既知
であるからである。
することが可能である。しかし実際の上では、制限され
ている計算性能により、そしてその都度の用途に必要な
認識性能とにより限界が課せられている。
にし、このアルゴリズムにおいては、それぞれの単語の
確率が到来シンボル系列に対して計算される。1つの単
語はこの場合には異なる音素の連鎖のことである。ビタ
ービのアルゴリズムは単語列統計(“言語モデル”)に
より補足される、すなわち“オフライン対話エディタ”
において特定化された多単語命令が、許容される単語組
合せを供給する。極端な場合にはクラス分けは、充填音
(h、Hmm、咳払い、休止)又は“ガーベッジ単語”
(“非単語”)の認識及び選択除去も含む。“ガーベッ
ジ単語”は、実際の音声命令に不必要に話者により付加
されるしかし音声認識器の語彙の中に含まれていない音
声的補足である。例えば話者は“半径1を有する円形”
との命令を例えば“私はいま...したい”又は“どうぞ
1つの..."等の表現だけ更に拡張することが可能であ
る。アプリケーション又は必要語彙の量に依存してこれ
らの音素を基礎とした隠れマルコフモデルを、必要に応
じて、全単語を基礎にしている隠れマルコフモデルだけ
補足又は拡張することも可能である。
けるのと同一の前処理が行われる。文献から、実時間作
動でのトレーニングを可能にする異なるアプローチが公
知である(例えばダイナミック時間正規化(“dynamic
time warping(DTP)”)、ニューラルネットワーク
・クラス分け器)。この場合第一に単一単語認識器が挙
げられ、この場合に有利にはダイナミック時間正規化法
が使用される。
されるSDSにおいては話者独立型認識器(第5の項を参
照)と話者依存型認識器との組合せが連続単語モードで
利用され(“グロリアを呼び出す”、“ウィリーおじさ
んの新しい目標”、“斜め楕円関数を描く”)、“グロ
リア”、“ウィリーおじさん”、“斜め楕円”との単語
はユーザによりトレーニングの際に自由に選択され、所
属の電話番号/目標アドレス/機能説明と一緒に当該の
リストの中に格納された。このアプローチの利点は、1
つから2つまでの(又は場合に応じてより多くの)対話
ステップが節約されることにある。
理を含む。これには、求められた文仮定が音声命令の先
天的に定められた構成(“構文”)に対応するかどうか
の構文検査が所属する。ノーの場合、対応する仮定が棄
却される。この構文分析は個別の場合には部分的又は完
全に認識器自身の中に組込まれれていることもあり、こ
れは例えば、クラス分け器の決定ツリーの中に構文が既
に考慮される。
びそのリーズナブルネスに関して検査される。
されるかか又は棄却される。
用され、同様の方法で処理される。
説明と一緒に対話制御装置に供給される。
能を定める。例えば対話制御装置は次のことを定める。
るか。
か。
(話者独立型認識器、トレーニング)。
アクティブであるか(例えば数字のみ)。
がSDSに通報されている限りアプリケーションのステー
タスの概観的知識を含む。対話制御装置にはシーケンス
制御装置が下位に所属し、シーケンス制御装置は個々の
プロセスを時間的及び論理的に制御する。
る周辺機器により実行される。
る。しかしSDSは通常はこれらのインターフェースのす
べてを前提としてはいない。図2に示されているインタ
ーフェースは、可能な1つの実施例を示すにすぎない。
通信及びコントロールインターフェースは通常は音声入
出力も例えばA/D変換器又はD/A変換器を介して行う。
“音声エンコーダ”)から成り、“音声信号圧縮モジュ
ール”は、ディジタル化された音声信号から冗長性及び
重要でない部分を除去して、大幅に小さいメモリの中に
所定長の音声信号をA/D変換の後に直接に格納すること
を可能にする。圧縮された情報は音声メモリの中に格納
され、出力のために“音声デコーダ”で再生され、これ
により、オリジナル入力単語は再び聴取可能となる。こ
の場合に場合に応じて発生する再生における品質損失
は、現在使用可能な符号化又は復号化方式においては容
認可能な範囲内に維持される。
(“オフライン対話エディタ”)一連の命令、補助テキ
スト又は指示が格納され、これらの一連の命令、補助テ
キスト又は指示はユーザを操作の際に支援するか又はユ
ーザに情報をアプリケーション側から供給させる。
ングの間にアクティブにされる、何故ならばユーザによ
り発声された名前も音声メモリに格納される。ユーザ
は、ユーザの名前リスト又は機能リスト聴取することに
より何時でも音響的に内容すなわち個々の名前又は機能
について情報を得ることが可能である。
に関して例えば音声伝送から“ソースコーディング”と
の用語の下に公知であり、ソフトウェアによりプログラ
ム可能なプロセッサにおいて実施できる方法を適用可能
である。
ための1つの例が示されている。個々の機能ブロックの
構成と、データ入出力及び接続されている素子の制御の
ためのインターフェースとは例としてのみ示されてい
る。話者独立型で話された単語のためのこの場合に到来
するアクティブな語彙は例えば数百の単語を含むことも
ある。
ム可能なプロセッサであり、このプロセッサはマイクロ
プロセッサとは、別のバスアーキティクチャ(例えばフ
ォンノイマンアーキテクチャの代りにハーバードアーキ
テクチャ)、特別の“オンチップ”ハードウェア演算装
置(乗算器/アキュムレータ/シフタ等)、及び実時間
ディジタル信号処理において必要とされるI/O機能の点
で異なる。ますます高性能RISCプロセッサはDSPに類似
の機能を提供し、これらの機能を場合に応じて置換する
ことが可能である。
マイクロプロセッサ)は特別のインターフェースコント
ロール機能以外は、図3のすべての機能をソフトウェア
又は集積ハードウェアにより実行することが可能であ
る。現在市販のDSPにより、本明細書で説明されるコン
セプトにより現在(例として)数百の単語の語彙を実現
することが可能であり、その際、この語彙は完全に“ア
クティブな語彙”として選択可能であり、部分語彙の形
成により大幅に小さくならないと仮定されている。部分
語彙が形成される場合にはそれらの部分語彙のそれぞれ
は前述の大きさを含むことが可能である。
めの及び/又は対話実行、シーケンス制御、音声符号化
及びインターフェースプロトコル実行のための付加的モ
ジュールを不要にすることにより、コンパクトで小コス
トで小さい電流消費量のハードウェアの実現が可能とな
る。更なる技術開発により将来においてより大きい計算
能力及びより大きいメモリ容量がDSPにおいて使用可能
となり、大きい外部メモリ領域がアドレス可能となり、
これにより膨大な量の語彙又は一層高性能のアルゴリズ
ムが実現可能となる。
キー(PTTキー)によりアクティブにされる。このキー
を作動することにより制御ソフトウェアは認識動作を開
始する。詳細にはDSPの外に次の更なるハードウェアモ
ジュールが設けられている。
がディジタル化され、更なる処理のためにDSPに伝送さ
れ、 − 音声出力/対話制御のためのディジタル化された音
声データはアナログ信号に変換され、増幅され、適切な
再生媒体(例えばスピーカ)に供給される。
介して種々のオーディオ機器及び情報機器を制御可能で
ある(例えば:オーディオ及びCDチェンジャ、自動車電
話及びナビゲーション機器等)、このバスは制御データ
だけでなくオーディオデータも伝送する。極端な場合
(すなわちマイクロフォン信号及びスピーカ信号がこの
バスを介して伝送される場合)SDSの中でのA/D変換及び
D/A変換は不要となる。
介して自動車の中の情報機器及びアクチュエータを制御
することが可能である。オーディオ伝送は、通常は不可
能である。
ために用いられる。更にこのインターフェースを介して
SDSのソフトウェアの更新が可能である。例えば当該の
語彙又は当該の言語(例えば:ドイツ語、英語、フラン
ス語等)をロードすることが可能である。
コンピュータとの通信の外にSDSへの電圧供給にも用い
られる。前述の機能のうちの多数の機能はこのインター
フェースに統合することが可能である。更にこのインタ
ーフェースはSDSの電気的特性の外に機械的寸法も定め
ることが可能である。これらの機械的寸法は、例えばSD
Sがデスクトップ又はポータブルコンピュータのPCMCIA
コンパートメントの中に差込み可能に選択することが可
能である。
及びROM)はDSPにプログラム及びデータメモリとして用
いられる。更にこのプログラム及びデータメモリは特定
のクラス分けモデルと場合に応じて双方の音声認識器の
リファレンスパターンと対話制御及びユーザガイドのた
めの固定テキストとを含む。FLASHメモリ又はバッテリ
ー緩衝メモリの中にユーザ固有情報が格納される(アド
レスリスト、データリスト)。
ンターフェースに関してそれぞれのアプリケーション又
は特定のカストマ要求に強く依存し、本明細書において
は例としていくつかの用途のために説明されている。別
のアプリケーション(例えばPC又はワークステーション
への接続又はポータブル電話における使用)においては
インターフェースの選択は全く別であることもある。A/
D変換器及びD/A変換器も既にDSPに集積可能である。
で)音声により制御される電話制御を例にして説明され
る。
車におけるナビゲーションの制御又はCAE作業場等の操
作に拡張することが可能である。
識。
された名前、又は機能が割当てられている機能語、数字
コード(例えば電話帳の電話番号又はラジオ放送局リス
トの放送局周波数)又は文字組合せ(例えばナビゲーシ
ョンシステムにおける目的地)の話者依存型入力。
せを話者独立型連続単語モードで入力する(機能、文
字、数字は許容語彙の一部でなければならなない、すな
わち“オフライン対話エディタ”により前もって定めら
れていなければならない)。
の異なる名前又は機能語の当該のリスト(電話帳、放送
局リスト、目的地リスト)の管理である。このようなリ
ストは拡張され、消去され、質問され又は補正されるこ
とが可能である。
態をとり、これらの状態のうちのいくつかが例として図
7に示されている(デアクティブにされた状態;命令モ
ード“電話";選択機能に関連しての番号入力又は番号選
択及び名前入力又は名前選択;メモリ機能に関連しての
名前入力又は名前トレーニング;消去機能に関連して名
前を消去する又は電話帳を完全に又は選択的に消去す
る)。遷移は音声命令の表明(“番号選択”、“名前選
択”、“名前を記憶する”、“番号を記憶する”、“終
了”、“消去”)により制御され、SDSをアクティブに
することはPTTキーの作動により行われる。会話中断は
例えば特別の中断命令(“終了”)の入力又は中断キー
の作動により行われる。
はない。しかし信号処理ソフトウェアの一部は好適には
常にアクティブ(雑音低減、エコー補償)であり、これ
により雑音状態及びエコー状態が恒久的に更新される。
て、周辺機器(電話)の更なる制御のために許容される
命令を待っている。作動状態“アクティブ”の機能シー
ケンスは図8にフローチャートの形で(例として)示さ
れ、すなわち、“電話帳を選択する”、“電話帳を消去
する”、“名前を消去する”、“名前選択”、“番号選
択”、“名前を記憶する”、“番号を記憶する”、“電
話帳を聴取する”という機能と、所属のアクション及び
リアクション(名前リストの出力、完全な又は選択的な
消去、名前選択又は番号選択、番号入力又は名前トレー
ニング)とのために示されている。勿論、これらの機能
は必要に応じて付加的な更なる機能により補足される又
は拡張されるか又は別の機能により完全に又は部分的に
置換することが可能である。
何時でも、すなわち次に詳細に説明される機能シーケン
スのうちの1つの機能シーケンスの間にも再びデアクテ
ィブにされることが可能であり、これにより、場合に応
じてまだ完了されていない機能シーケンスが最終的に又
は一時的に中断されることに注意されたい。SDSをデア
クティブにすることは例えば、対話の所定の個所におい
て何時でも、場合に応じて設けられている中断キーの作
動により又は特別な中断命令(例えば“終了する”、
“中断する”等)の入力により行われる。
名前選択”等が正しく認識されたことを前提とする。
この状態では電話番号の選択は名前の入力により可能で
ある。このために話者依存型音声認識器に切換えられ
る。
ーザに確認応答される。音声対話システムはこの時点で
再び話者独立型認識器に切換える。名前が正しく認識さ
れた場合には、名前に割当られている電話番号が電話に
供給され、電話において当該の電話加入者への接続が形
成される。
中断キーの作動等)により電話番号の選択を阻止するこ
とが可能である。これに対して代替的に、音声命令に割
当られているアクション/機能が実行されるべきかどう
かについてSDSの問合せが可能である。
記憶されている名前を含むこともある。作動状態“名前
選択”の機能シーケンスは図9にフローチャートの形で
示されている。
等)が正しく認識されたことを前提とする。この状態で
は電話番号の選択が1つの数字列の入力により行われ
る。入力は連続して(場合に応じてブロック毎に)かつ
話者独立型で行われる。SDSはこの作動状態で番号の入
力を要求する。これに続いてユーザは番号を完全に又は
個々のブロックで音声命令として入力する。入力された
番号又はその都度に入力された番号ブロックはユーザ
に、その都度の音声命令の入力後に確認応答される。
“選択する”との要求が行われると番号が電話に供給さ
れ、電話において当該電話加入者への接続が形成され
る。
番号が補正又は消去されるか又は中断機能を介して例え
ば命令“終了する”により音声操作が中断される、すな
わちSDSがデアクティブにされる。
ーチャートの形で示されている。
態では音声認識器はデアクティブにされる。電話会話は
例えば中断キーにより終了される。
に基づいてSDSがユーザ/話者に、数字を入力すること
を要求し、ユーザがこれらの数字を発声すると(作動状
態“番号選択”を参照)、命令“選択する”の代りに命
令“記憶する”又は類似の命令が入力される。電話番号
がこの時点で記憶される。次いでSDSはユーザに、所属
の名前を発声することを要求し、トレーニング結果の改
善のために名前入力をもう一度又は数回繰返させる。こ
の繰返しの後に対話が終了される。最初の数字入力が例
えば“中断する”又は“中断”、“繰返す”、“補正す
る”又は“補正”、“誤り”等の対話命令によりコント
ロールされることが可能である。
属の電話番号のリスト)に関連して、ユーザのためのシ
ステムの快適性を高める例えば次のような一連の編集機
能が定められる。
のSDSの問合せ(“貴方は本当に間違っていません
か”)により、そして特別の名前を場合に応じて出力す
ることにより認識エラーによる間違いの消去が回避され
る。
する。名前はSDSにより繰返される。
という質問により、消去動作を確認応答することを要求
される。
去される。
対話を終了する。
前がアナウンスされた後、中断命令又は選択命令が与え
られるか又はPTTキーが作動されると、選択された名前
が再度アナウンスされ、“番号を選択するか?"と質問さ
れる。
続が形成される。
る。音声命令“中断”、“中断する”等又は中断キーの
作動はアナウンス又は対話を終了する。
“電話帳を選択する”は単一の機能に統合することも可
能である。これは例えば“電話帳を聴取する”において
適切な名前の聴取後にPTTが作動され、SDSが例えば“名
前‘ウィリーおじさん’が選択される”との通報の後に
選択動作が導入されることにより行われる。
ンを組込で次のようにまとめることが可能である。
複数の機器を自動制御及び/又は操作する方法を使用で
きる。この方法において、音声出力方法、音声信号処理
方法及び音声認識方法、構文的文法的後処理方法、対話
制御方法、シーケンス制御方法及びインターフェース制
御方法が適用される。この方法はその基本バージョンに
おいて“オンライン”作動で、固定された構文構造及び
固定された命令構造と、そして固定された語彙(話者独
立型認識器)と例えば名前又は機能語等の自由に定める
ことが可能な語彙(話者依存型認識器)との組合せとを
特徴とする。有利な実施の形態においてこの方法は一連
の特徴により特徴付けられ、これらの有利は実施の形態
では次のようである。
り固定されている。
での作動のために形成されている。
ーザによるトレーニングが不要である(“話者独立
性”)。
するためにトレーニングが必要である(ユーザ特有の名
前又は機能語における“話者依存性”)。
われ、音声入力のための1つの命令を形成する単語の数
は可変である、すなわち1単語命令又は2単語命令だけ
でなく、3単語命令、4単語命令又は多単語命令を定め
ることが可能である。
ット等を介さずに又はこれらのみを介してではなく、有
利にはハンドフリー作動で行われる。
るスピーカエコーが電気的に補償され、これにより(例
えば音声処理、レディ信号等のための)音声入力とスピ
ーカとの同時の作動が可能となる(“エコー補償”)。
特性及び増幅器特性、スピーカ特性)への連続的な自動
適合が作動中に行われる。
話構造、語彙及び発音変形が認識器のために新たに構成
され、定められることが可能であり、しかもその際、こ
れは独立型認識器のための付加的な又は新しい音声録音
を必要としない。
めの音声範囲が定められ、その際、 a) 記録された音声信号がディジタル音声伝達圧縮に
かけられ(“音声符号化”)、次いで記憶され、実時間
音声出力作動においてメモリからの読出しの後に当該の
音声復号化が行われるか、又は、 b) 音声範囲が前もってテキストの形で記憶され、実
時間音声出力作動で“テキストツウスピーチ”合成にか
けられる。
化することが可能である。
る。
又は3単語命令)により実現することが可能である。
tte(どうぞ)”、又は語彙に所属しないその他の命令
等の挿入を認識し次いで選択除去するために使用語彙に
更なる単語又は音単位が付加されるか(“非単語”、
“ガーベッジ単語”)又はワードスポッティング付加が
使用される。
ラルヒー面、有利には1つ又は2つの選択面、 − “省略文”の組込み、すなわち多数の命令単語を有
する命令文全体を繰返すことを不要とし、その代わりに
短い命令、例えば“続けて”、“より高く”、“より強
く”等に制限され、この場合、システムには、その都度
に先行の命令から、この発言が何に関してであるかが知
られており、 − “補助メニュー”又は“情報メニュー”を取り入れ
る、 − 認識器の不確実な決定におけるSDSの側での質問を
取り入れる(“何と言いましたか”、“繰返して下さ
い”、“続けて”)、 − ある特定の話し方を奨励する(例えば“もっと大き
な声で”と要求する)ことにより認識確実性を高めるた
めに音声出力を取り入れる。
ー”)を一度作動することによりアクティブにされ、こ
れは音響的に(例えば“ピー”音により)確認応答さ
れ、これにより、入力がこの時点で行われることが可能
であることが示される。
にこれに続いて音声入力が必要である場合には不要とす
ることが可能であり、その際、 − PTTキーは、例えば電話する間に(“受話器を置
く”、“受話器を取る”)又は音声対話システムの新ス
タートの際に又は電話選択動作の中断の際に多機能を利
用するか含むか又は、 − PTTキーは付加的スイッチにより補足され、付加的
スイッチは例えば新スタート又は機能/アクションの中
断を可能にし(“中断キー”)、なおPTT機能及び中断
機能を、場合に応じて1つの共通のレバーの中に組込む
ことが可能である(例えばレバーを手前に引くことによ
りPTT機能を消去する、レバーを押し離すことにより中
断機能を消去する)。
を有する、すなわち、 − 異なるユーザの特別の(例えばトレーニングされた
命令、データ、名前又はパラメータが必要に応じて後の
再使用のために固定保持され、 − 話者によりトレーニングされた命令又は名前がトレ
ーニングフェーズの間に認識器に供給されるだけでな
く、これらの命令又は名前の時間的経過においても検出
され、データ圧縮器(“音声符号化”)に供給され、不
揮発記憶され、これにより読出しにより実際のステータ
スがユーザに再び供給され、 − 話者によりトレーニングされた命令又は名前がトレ
ーニングフェーズ中に、環境雑音が検出中に大幅に補償
されるように、処理される。
確認応答されるか(“ピー”音等)又はこれに対して代
替的に安全性又は時間又はコストに関して適切な決定に
おいて認識結果が音響的に繰返され(音声出力)、ユー
ザは、音声命令により又はスイッチ(例えば中断スイッ
チ)の作動により当該のアクションの実行を阻止するこ
とが可能である。
イ、モニター等)に接続され、光学表示媒体は次の機能
の個々又は複数又はすべてを引受けることが可能であ
る、すなわち、 − コントロールの目的のために、認識された命令を出
力し、 − 目標機器により音声命令に対するリアクションとし
て設定された機能を表わし、 − 音声命令により次いで設定又は選択されるか又は変
更される異なる機能/代替を表わす。
トを設置でき(電話帳又はアドレスブックに類似)、そ
の際、 − ユーザにより話者依存型認識器においてトレーニン
グされた名前に、話者独立型作動モードにおいて入力さ
れた数字連鎖、文字連鎖又は1つの命令又は1つの命令
シーケンスが割当てられ、 − 数字連鎖、文字連鎖又は命令シーケンスの新たな入
力の代りにユーザはリスト名称及びユーザにより選択さ
れた名前を入力するか又は名前の外に、正しいリストを
推定させる適切な命令が入力され、 − リストを音声制御して何時でも更なる入力だけ拡張
することが可能であり、 − リストを音声制御して完全に又は選択的に消去する
ことが可能であり、 − リストを音声命令に基づいて聴取し、ユーザにより
入力された名前と必要に応じて所属の数字連鎖、文字連
鎖又は命令を音響的に出力することが可能であり、 − リストの音響的出力をそれぞれの任意の時点で中断
することが可能である。
可能であり、SDSは有利には次の機能のうちの1つ又は
複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力
ブロックが音声出力により繰返されることにより行わ
れ、 − 命令“誤り”、“間違い”等による確認応答の後に
最後の入力ブロックが消去され、残りの記憶されたブロ
ックが音響的に再生され、 − 命令“消去する”又は類似の命令入力による確認応
答の後にすべての入力された数字ブロックが消去され、 − 命令“繰返す”等による確認応答の後に、今まで記
憶されたブロックが音響的に出力され、 − 命令“中断”又は類似の命令入力による確認応答の
後に数字列の入力が完全に中断され、 − 確認応答の後に更なる数字又は数字ブロックが入力
され、 − 確認応答の後に数字入力が適切な命令により終了さ
れ、 − 命令“誤り”等又は命令“繰返す”に続く、今まで
発声された数字の出力において、入力の場合と同一のブ
ロック化が使用される。
に設けられている文字列が発声され、文字列は一体的に
又はブロック毎に入力され、SDSは有利には次の特徴の
うちの1つ又は複数又はすべてを有する、すなわち、 − それぞれの入力休止の後に確認応答が、最後の入力
ブロックが音声出力により繰返されることにより行わ
れ、 − 命令“誤り”、“間違い”等による確認応答の後に
最後の入力ブロックが消去され、残りの記憶されたブロ
ックが音響的に出力され、 − 命令“消去する”等による確認応答の後にすべての
入力された文字が消去され、これに続いて新たな入力が
行われ、 − 命令“繰返す”等による確認応答の後に、今まで記
憶されたブロックが音響的に出力され、 − 確認応答の後に更なる文字又は文字ブロックが入力
され、 − 場合に応じて文字列が、記憶されている単語リスト
と適合調整され、これから最良に適合する単語が抽出さ
れるか又はこれに対して代替的にこの適合調整が既に個
々の文字ブロックの入力後に行われ、 − 命令“中断”又は類似の命令入力による確認応答の
後に文字列の入力が完全に中断され、 − 確認応答の後に文字入力が適切な命令により終了さ
れる。
に適合され、環境雑音は音声休止の間に環境雑音の音量
及び特性に関して検出される。
ータ/命令へのアクセスは特別のキーワード又はパスワ
ードの入力後のみにしか可能でないか又は特別のキーワ
ード又はパスワードの入力後に、認可された話者により
行われ、話者の音声特性は対話システムに既知であり、
対話システムにより検査される。
発声される中断命令又はPTTキー又は中断キーにより早
期に終了させることが可能である。
の機能の手動操作を(例えばスイッチ、キー、回転つま
みにより)補足する又は置換する、すなわち、 − 音声命令実行は何等の手動操作も置換せず、始動の
操作の外に存在し(すなわち操作は何時でも手動で行わ
れる又は接続されることが可能である)、 − いくつかの特別の性能特徴は音声入力のみによって
しか活かせることができず、重要な機器機能及び操作機
能は手動でも音声によっても命令することができ、 − 手動の操作素子の数が大幅に低減され、個々のキー
又は回転つまみは多機能を引受け、音声により手動の操
作素子に特別の機能が割当てられ、重要な操作機能のみ
が依然として手動で制御可能であり、しかし操作機能の
基本は音声命令ですることである。
機能が応動可能及び変更可能であり、従って複雑な多段
階の操作プロセス(例えば第1のステップで機器の選
択、次いで第2のステップで機能の選択、次いで第3の
ステップで変化の種類の選択)は不要である。
の音声対話システムが適用される、すなわち、 − 例えば自動車電話、(場合に応じてカセット、CDチ
ェンジャ、サウンドシステムを有する)自動車ラジオ、
ナビゲーションシステム、非常呼出し装置、テレマティ
ークサービス、搭載モニター、空調装置、暖房装置、ポ
ータブル計算機、照明装置、スライディングルーフ、窓
開閉装置、シート位置調整装置、座席暖房装置、後部窓
加熱装置、ミラー位置調整及びミラーメモリ、シート位
置調整及びシートメモリ、ステアリングホイール位置調
整及びステアリングホイール調整メモリ等の個々の又は
複数の機器の操作、 − 例えば油圧、油温度、冷却水温度、消費量、タイヤ
圧力等のパラメータの情報問合せ、 − 例えば過度に高い冷却水温度、過度に低いタイヤ圧
力等の特別の状態での必要な措置に関する情報、 − 自動車の故障における運転者の警報、 その際、 − 自動車ラジオにおける新放送局の音声制御による選
択は有利には次のシーケンスのうちの1つに従って行わ
れる、すなわち、 − 上方又は下方のサーチ走行の命令、 − 放送局の音声入力は有利には日常言語の形で行われ
(例えば“Einhundertdreikommasieben(103コンマ
7)”又は“Hundertdreikommasieben(103コンマ7"、
“Hundertunddreikommasieben(100と3コンマ7"又は
“周波数指示を含めて(例えば“Hundertdreikommasieb
en MegaHertz"))、 − 通常使用されている放送局名(例えば“SDR1")。
中の場所に応じて左方、右方、前方、後方へ段階付けら
れている)所望の温度を音声入力により相対的にだけで
なく有利には絶対的に(すなわち゜F等)定めることが
可能であり、付加的に最小又は最大又は平均の温度又は
通常温度を命令することが可能であり、同様に自動車乗
客室の中の送風機のための作動条件を定めることが可能
である。
名)が“文字綴モード”での文字列の入力により伝達さ
れ、名前の始端も入力として充分であり、ナビゲーショ
ンシステムは複数の候補を選択のために提供する。
が設置される、すなわち、 − プリセット可能な名前/略称での電話番号の記憶の
ためのリスト、 − プリセット可能な名前/略称でのナビゲーションシ
ステムのための目的地の記憶のためのリスト、 − 命令又は命令列のための機能名の記憶のためのリス
ト、 − プリセット可能な放送局名又は略称での自動車ラジ
オの放送局周波数の記憶のためのリスト。
じてラジオ音量も、次のパラメータのうちの1つ又は複
数を考慮して定めるか又は適応整合する、すなわち、 − 自動車速度、 − 窓多びスライディングルーフの開放幅 − 送風機の調整、 − 自動車タイプ、 − その都度の対話状況での音声出力の重要性。
は特に、シーケンス制御、対話制御、インターフェース
制御、音声入出力及び音声信号前処理、認識、構文的文
法的及び意味的後処理がマイクロプロセッサ及び信号プ
ロセッサ、メモリ及びインターフェースモジュールによ
り行われるが、しかし有利にはただ1つのディジタル信
号プロセッサ又はマイクロプロセッサ又は所要の外部の
データ及びプログラムメモリ、インターフェース及び所
属のドライバモジュール、クロック発生器、制御論理回
路、及び音声入出力に必要なマイクロフォン及びスピー
カ、及び場合に応じてプッシュツウトーク(PTT)キー
及び中断キーにより行われる。
ことが可能である、すなわち、 − データ及び/又はパラメータがロード可能又は事後
ロード可能であり、これにより例えばプロシージャ変更
又は別の言語のための音声対話システムが実現可能であ
る。
文構造、対話構造、シーケンス制御、音声出力等が音声
対話システムに伝送される(“オフライン対話エディ
タ”)。
取出すことが可能である。
機器に(個々の機器へのポイントツウポイント接続の代
りに)バスシステム及び/又はリング状ネットワークを
介して接続し、このバス又はネットワークを介して自動
車又は操作する機器の制御データ又はオーディオ信号又
はステータスメッセージを伝送する。
話システムを含まず、ただ1つの(共通の)音声対話シ
ステムにより操作される。
のインターフェースが設けられ、前記インターフェース
を介して恒久的又は実際の自動車データ例えば速度、機
関温度等が音声対話システムに伝達される。
ち時間の間に例えばラジオ、電話等の別の機能を引受け
る。
ステムが形成され、短期間に異なる言語の対話システム
と対話システムとの間で切換えを行うことが可能であ
る。
のインターフェースを介して又はバス端子を介して接続
され、このバスは有利には光学データバスであり、この
データバスを介して制御信号もオーディオ信号も伝送さ
れる。
意味的に別の実施の形態又は用途に適用可能であること
は自明である。例えばこのような音声対話システムは電
子辞書又は電子ディクタフォン又は電子翻訳システムの
操作に適用可能である。
的単語の2つの組(bigram)−音声モデルの形の構文的
検査が認識プロセスの中に組込まれ、従って構文的後処
理を実行することが可能であり、 ・ 複合的課題設定においては認識器と後処理装置との
間のインターフェースがもはや個々の文ではなくいわゆ
る“単語仮定ネット”であり、この単語仮定ネットから
後処理段において、特別の対形成ストラテジによる構文
的プリセットに起因して最適の文が抽出される。
ベースで動作する出力装置(例えばディスプレイ)を設
け、この出力装置で例えば入力された音声命令が、SDS
により認識される形で表示可能である。
固定してプリセットされているか又は適応的にユーザ/
話者に調整されている比較的長い時間にわたりユーザ/
話者により何等の新音声命令ももはや入力されないこと
により再びデアクティブにされるようにすることも考え
られる。
間正規化) CMF 平均値フリーのケプストラムベクトル FFT 高速フーリエ変換 LDA 線形識別分析 PCM パルス符号変調 VQ ベクトル量子化 SDS 音声対話システム SBS 音声操作システム
Claims (57)
- 【請求項1】実時間作動での音声対話又は音声命令によ
る1つ又は複数の機器の自動制御方法であって、入力さ
れた音声命令を、話者独立型連続単語音声認識器及び場
合に応じて話者依存型付加的音声認識器により認識して
前記音声命令の認識確率に従ってクラス分けする、実時
間作動での音声対話又は音声命令による1つ又は複数の
機器の自動制御方法において、 複数の音声命令又は1つの音声対話を、少なくとも1つ
の構文構造、少なくとも1つの基本命令語彙、及び必要
に応じて少なくとも1つの話者固有の付加的命令語彙を
ベースにして形成し又は行い、 1つ又は複数の前記構文構造と1つ又は複数の前記基本
命令語彙とを話者独立型の形でプリセットして、実時間
作動の間固定し、 話者又はその都度の話者が、トレーニングフェーズにお
いて実時間作動の中及び/又は外で、話者依存型認識方
法で動作する付加的音声認識器を前記付加的命令の一回
又は複数回の入力により前記話者又は前記その都度の話
者の話者固有の特徴に対してトレーニングすることによ
り、前記話者又は前記その都度の話者が1つ及び複数の
話者固有の付加的命令語彙を入力し又は変更し、 実時間作動で音声対話の実行及び/又は1つ又は複数の
前記機器の制御を次のように行い、すなわち、 前記話者又はその都度の前記話者により入力された音声
命令を、音素及び/又は全単語モデルをベースに動作す
る話者独立型連続単語音声認識器と話者依存型付加的音
声認識器とに供給し、前記音声認識器でそれぞれ特徴抽
出を行い、 話者独立型連続単語音声認識器において、前記音声認識
器で抽出された特徴を使用して、それぞれプリセットさ
れている構文構造のそれぞれの基本命令語彙から基本命
令の存在を検査してクラス分けし、 話者依存型付加的音声認識器において、前記認識器で抽
出された特徴を使用して、その都度の付加的命令語彙か
らの付加的命令の存在を検査してクラス分けし、 次いで、双方の前記認識器の所定の確率で認識されてク
ラス分けされた命令及び構文構造を仮定的音声命令に統
合し、前記仮定的音声命令を、プリセットされている前
記構文構造に従って前記仮定的音声命令の信頼性及び認
識確率に関して検査してクラス分けし、 次いで、許容される仮定的音声命令を、プリセット基準
に従って前記仮定的音声命令のリーズナブルネスに関し
て検査し、リーズナブルと認識された前記仮定的音声命
令から、最大の認識確率を有する前記仮定的音声命令を
選択して、前記話者又は前記その都度の話者により入力
された音声命令として識別し、 次いで、識別された前記音声命令に割当られている 制御すべき前記機器の機能を開始する 及び/又は、 応答をプリセットされている音声対話構造に従って音声
対話の継続のために生成することを特徴とする請求項1
に記載の実時間作動での音声対話又は音声命令による1
つ又は複数の機器の自動制御方法。 - 【請求項2】音声命令の入力を音響的に有利にはハンド
フリー作動で行うことを特徴とする請求項1に記載の実
時間作動での音声対話又は音声命令による1つ又は複数
の機器の自動制御方法。 - 【請求項3】音響的に入力された音声命令を、定常的又
は準定常的環境雑音により発生された雑音信号を音声信
号受信チャネルの中で双方の音声認識器の前で有利には
適応形ディジタルフィルタ方法により補償することによ
り雑音低減して双方の音声認識器に供給することを特徴
とする請求項1又は請求項2に記載の実時間作動での音
声対話又は音声命令による1つ又は複数の機器の自動制
御方法。 - 【請求項4】音響的に入力された音声命令を、音声出力
装置又は音楽出力装置の音声信号受信チャネルの中にフ
ィードバックされた信号を音声信号受信チャネルの中で
双方の音声認識器の前で特に有利には雑音低減装置の前
で適応形ディジタルフィルタ方法により補償することに
より、エコー補償して双方の前記音声認識器に供給する
ことを特徴とする請求項1から請求項3のうちのいずれ
か1つの請求項に記載の実時間作動での音声対話又は音
声命令による1つ又は複数の機器の自動制御方法。 - 【請求項5】入力された音声命令をディジタル化の後に
ブロック毎に統合し重み付けの後にスペクトル変換有利
には高速フーリエ変換(FTT)により周波数領域に変換
し、次いで絶対値形成及び後続の聴覚を基準としてMEL
フィルタリングによりチャネルベクトルに統合し、これ
に続いてセグメンテーションを行うことを特徴とする請
求項1から請求項4のうちのいずれか1つの請求項に記
載の実時間作動での音声対話又は音声命令による1つ又
は複数の機器の自動制御方法。 - 【請求項6】セグメンテーションを粗セグメンテーショ
ンと微細セグメンテーションとに分割することを特徴と
する請求項5に記載の実時間作動での音声対話又は音声
命令による1つ又は複数の機器の自動制御方法。 - 【請求項7】話者独立型連続単語音声認識器において特
徴抽出を次のように行う、すなわち、 チャネルベクトルを離散コサイン変換(DCT)によりケ
プストラムベクトルに変換し、 付加的に所属信号のエネルギーを計算及び正規化し、 認識器をその都度の話者及び/又は音声信号受信チャネ
ルのその都度の伝達特性に適応するために連続的にケプ
ストラムベクトルの平均値を計算して前記ケプストラム
ベクトルから減算し、 前記ケプストラムベクトルの前記平均値が差引かれたケ
プストラムベクトルと、計算された正規化された信号エ
ネルギーとを、平均値が差引かれたケプストラム係数
(CMFベクトル)に統合する ように行うことを特徴とする請求項5又は6に記載の実
時間作動での音声対話又は音声命令による1つ又は複数
の機器の自動制御方法。 - 【請求項8】話者独立型連続単語認識器が、クラス分け
において音素及び/又は全単語を基礎する隠れマルコフ
モデル(HMM)により動作することを特徴とする請求項
1から請求項7のうちのいずれか1つの請求項に記載の
実時間作動での音声対話又は音声命令による1つ又は複
数の機器の自動制御方法。 - 【請求項9】クラス分けをビタービアルゴリズムを用い
て行い、前記ビタービアルゴリズムを、有利には前もっ
て与えらえている単語列統計により補足することを特徴
とする請求項8に記載の実時間作動での音声対話又は音
声命令による1つ又は複数の機器の自動制御方法。 - 【請求項10】クラス分けにおいて付加的に充填語又は
充填音又はその他の前もって与えられている基本語彙の
中に含まれていない誤り命令もそれとして認識し、相応
してクラス分けして選択除去することを特徴とする請求
項1から請求項9のうちのいずれか1つの請求項に記載
の実時間作動での音声対話又は音声命令による1つ又は
複数の機器の自動制御方法。 - 【請求項11】話者独立型連続単語音声認識器と話者依
存型付加的音声認識器とを入力音声命令に対して、同一
の信号前処理、有利には雑音低減、エコー補償及びセグ
メンテーション方法を含む同一の信号前処理にかけるこ
とを特徴とする請求項1から請求項10のうちのいずれか
1つの請求項に記載の実時間作動での音声対話又は音声
命令による1つ又は複数の機器の自動制御方法。 - 【請求項12】付加的音声認識器が単一単語音声認識器
として有利にはダイナミック時間正規化方法に従って動
作することを特徴とする請求項1から請求項11のうちの
いずれか1つの請求項に記載の実時間作動での音声対話
又は音声命令による1つ又は複数の機器の自動制御方
法。 - 【請求項13】話者独立型連続単語音声認識器と話者依
存型音声認識器とが組合せられて連続単語コードにおい
て動作することを特徴とする請求項1から請求項12のう
ちのいずれか1つの請求項に記載の実時間作動での音声
対話又は音声命令による1つ又は複数の機器の自動制御
方法。 - 【請求項14】実時間作動の間に音声信号受信チャネル
をアナログ伝送特性特に空間音響特性及び/又はマイク
ロフォン特性及び/又は増幅器特性及び/又は話者特性
に連続的に適合することを特徴とする請求項1から請求
項13のうちのいずれか1つの請求項に記載の実時間作動
での音声対話又は音声命令による1つ又は複数の機器の
自動制御方法。 - 【請求項15】前もって与えらる基本命令を音声符号化
された形で前もって与えて記憶し、及び/又は話者又は
その都度の話者によりトレーニングフェーズで入力され
た付加的命令及び/又は実時間作動において入力された
音声命令をそれらの入力の後に音声符号化して更に処理
し及び/又は不揮発記憶し、音響的に出力する符号化さ
れた音声命令をそれらの出力の前に音声復号化すること
を特徴とする請求項1から請求項14のうちのいずれか1
つの請求項に記載の実時間作動での音声対話又は音声命
令による1つ又は複数の機器の自動制御方法。 - 【請求項16】前もって与えられている基本命令及び/
又は付加的命令及び/又は実時間作動において入力され
た音声命令をテキストの形で記憶し、音響的に出力され
る音声命令をそれらの出力の前にテキストから言語への
合成にかけることを特徴とする請求項1から請求項14の
うちのいずれか1つの請求項に記載の実時間作動での音
声対話又は音声命令による1つ又は複数の機器の自動制
御方法。 - 【請求項17】構文構造及び話者独立型命令を前もって
“オフライン対話エディタモード”で実験室において作
成及び固定し、連続単語音声認識器にデータファイルの
形で供給することを特徴とする請求項1から請求項16の
うちのいずれか1つの請求項に記載の実時間作動での音
声対話又は音声命令による1つ又は複数の機器の自動制
御方法。 - 【請求項18】音声命令の中の単語位置を、1つの命令
の個々の単語を交換することにより変化可能である、及
び、 前もって与えられている同義の単語を音声命令の形成の
際に使用可能である、及び、 同一の機能を異なる単語数の音声命令により実現するこ
とが可能であることを特徴とする請求項1から請求項17
のうちのいずれか1つの請求項に記載の実時間作動での
音声対話又は音声命令による1つ又は複数の機器の自動
制御方法。 - 【請求項19】挿入句又はその他の語彙に所属しない命
令を認識し次いで選択除去するために、許容される語彙
に更なる単語又は音単位を付加する又はワードスポッテ
ィング部分を利用することを特徴とする請求項1から請
求項18のうちのいずれか1つの請求項に記載の実時間作
動での音声対話又は音声命令による1つ又は複数の機器
の自動制御方法。 - 【請求項20】対話構造が、 いくつかの僅かなヒエラルヒー面、有利には1つ又は2
つのヒエラルヒー面を有する低層ヒエラルヒーと、 音声対話の実行の際の省略文の組込みと、 補助メニュー又は情報メニューの取り入れと、 認識器の不確実な決定の際の音声対話システムの問合せ
の取り入れと、 ある特定の話し方を奨励することにより認識信頼性を高
めるための音声出力の取り入れ、 の特性を有することを特徴とする請求項1から請求項19
のうちのいずれか1つの請求項に記載の実時間作動での
音声対話又は音声命令による1つ又は複数の機器の自動
制御方法。 - 【請求項21】音声認識又は音声対話を、1つ又は複数
の機器機能を制御するために、有利にはプッシュツウト
ーク(PTT)キーの一回の作動によりアクティブにし、
このアクティブ化を有利には音響的及び/又は光学的に
確認応答することを特徴とする請求項1から請求項20の
うちのいずれか1つの請求項に記載の実時間作動での音
声対話又は音声命令による1つ又は複数の機器の自動制
御方法。 - 【請求項22】アクティブ化を、プリセット可能である
か又はその都度のユーザのために調整設定される時間の
経過後及び/又は音声対話システムの問合せの後に音声
入力が行われない場合又はユーザにより選択された対話
が予定通りに終了された場合に自動的に中断することを
特徴とする請求項1から請求項21のうちのいずれか1つ
の請求項に記載の実時間作動での音声対話又は音声命令
による1つ又は複数の機器の自動制御方法。 - 【請求項23】音声対話又は音声命令の入力を、プリセ
ットされている特別の中断音声命令の入力により音声対
話の所定個所で又は何時でもキー、有利にはプッシュツ
ウトークキー又は中断キーの作動により中断することが
可能であることを特徴とする請求項1から請求項22のう
ちのいずれか1つの請求項に記載の実時間作動での音声
対話又は音声命令による1つ又は複数の機器の自動制御
方法。 - 【請求項24】音声対話システムが、 異なる話者の特別の(例えばトレーニングされた)音声
命令を必要に応じて後の再利用のために固定保持する特
徴と、 話者によりトレーニングされた音声命令又は名前をトレ
ーニングフェーズの間に認識器に供給するだけでなく、
それらの時間的経過の間に検出し、伝達圧縮装置(“音
声符号化装置”)に供給して不揮発記憶する特徴と、 話者によりトレーニングされた音声命令をトレーニング
フェーズの間に、環境雑音が検出の間に大幅に補償され
るように処理する特徴とを有することを特徴とする請求
項1から請求項23のうちのいずれか1つの請求項に記載
の実時間作動での音声対話又は音声命令による1つ又は
複数の機器の自動制御方法。 - 【請求項25】認識動作の終了を音響的にコントロール
トーンにより確認応答することを特徴とする請求項1か
ら請求項24のうちのいずれか1つの請求項に記載の実時
間作動での音声対話又は音声命令による1つ又は複数の
機器の自動制御方法。 - 【請求項26】有利には安全性又は時間又はコストに関
して適切な決定において認識結果を音響的に繰返し(音
声出力)、話者が、音声命令により又はスイッチ有利に
はプッシュツウトークキー又は中断キーの作動により、
音声命令に割当てられている機能の実行を阻止する又は
取消す可能性を有することを特徴とする請求項1から請
求項25のうちのいずれか1つの請求項に記載の実時間作
動での音声対話又は音声命令による1つ又は複数の機器
の自動制御方法。 - 【請求項27】音声対話システムを光学表示媒体有利に
はLCDディスプレイ又はモニター又は1つの制御される
機器のディスプレイに接続することを特徴とする請求項
1から請求項26のうちのいずれか1つの請求項に記載の
実時間作動での音声対話又は音声命令による1つ又は複
数の機器の自動制御方法。 - 【請求項28】光学表示媒体が、 コントロール目的のために認識された音声命令を出力す
る機能と、 目的機器により音声命令に対するリアクションとして設
定された機能を表現する機能と、 音声命令により次いで設定された又は選択された又は変
更された異なる機能/代替を表現する機能とを引受ける
ことを特徴とする請求項27に記載の実時間作動での音声
対話又は音声命令による1つ又は複数の機器の自動制御
方法。 - 【請求項29】それぞれの話者が固有の名前リスト又は
略称リストを設けることが可能であり、前記リストは、 話者により話者依存型認識器においてトレーニングされ
た名前が、話者独立型作動モードにおいて入力された数
字連鎖、文字連鎖及び/又は命令又は命令シーケンスを
表す特徴と、 前記数字連鎖、前記文字連鎖又は前記命令シーケンスの
再度の入力の代りにユーザはリスト名称と、ユーザによ
り選択された名前とを入力するか又は前記名前の外に正
しい前記リストを推定させる適切な命令を入力する特徴
と、 前記リストを音声制御して何時でも更なる入力だけ拡張
することが可能である特徴と、 前記リストを音声制御して完全に又は選択的に消去する
特徴と、 前記リストを音声命令に基づいて聴取し、ユーザにより
入力された名前と必要に応じて所属の数字連鎖、文字連
鎖又は命令とを音響的に出力する特徴と、 リストの音響的出力を任意の時点で中断することが可能
である特徴とを有することを特徴とする請求項1から請
求項28のうちのいずれか1つの請求項に記載の実時間作
動での音声対話又は音声命令による1つ又は複数の機器
の自動制御方法。 - 【請求項30】1列の数字(数字列)を一気に一体的に
又はブロック毎に発声することが可能であり、音声入力
又は音声対話が有利には、次の特徴すなわち その都度の入力休止の後に、最後の入力ブロックが音声
出力により繰返されることにより確認応答を行う特徴
と、 前記確認応答の後に音声命令“誤り”等により最後の入
力ブロックを消去し、残りの記憶されているブロックを
音響的に出力する特徴と、 前記確認応答の後に音声命令“消去する”等によりすべ
ての入力された数字ブロックを消去する特徴と、 前記確認応答の後に音声命令“繰返す”等により、今ま
で記憶されたブロックを音響的に出力する特徴と、 前記確認応答の後に音声命令“中断”等により数字列の
入力を完全に中断する特徴と、 前記確認応答の後に更なる数字又は数字ブロックを入力
する特徴と、 前記確認応答の後に数字入力を適切な音声命令“ストッ
プ”、“記憶する”等により終了する特徴と、 アクション/機能をスタートする音声命令例えば“選択
する”等の入力により入力を終了し、前記音声命令に割
当てられているアクション/機能を開始する特徴とを有
することを特徴とする請求項1から請求項29のうちのい
ずれか1つの請求項に記載の実時間作動での音声対話又
は音声命令による1つ又は複数の機器の自動制御方法。 - 【請求項31】複合機能を選択するために又は多数の情
報を入力するために前もって与えられている1列の文字
(文字列)を発声し、前記文字列を一体的に又はブロッ
ク毎に入力し、音声入力又は音声対話が有利には、次の
特徴すなわち その都度の入力休止の後に、最後の入力ブロックが音声
出力により繰返されることにより確認応答を行う特徴
と、 前記確認応答の後に音声命令“誤り”等により最後の入
力ブロックを消去し、残りの記憶されているブロックを
音響的に出力する特徴と、 前記確認応答の後に音声命令“消去する”等によりすべ
ての入力された文字を消去し、これに続いて再度の入力
を行う特徴と、 前記確認応答の後に音声命令“繰返す”等により、今ま
で記憶されたブロックを音響的に出力する特徴と、 前記確認応答の後に更なる文字又は文字ブロックを入力
する特徴と、 場合に応じて前記文字列又は個々の文字ブロックを、記
憶されている単語リストと適合調整し、前記単語リスト
から最適な単語を抽出する特徴と、 前記確認応答の後に音声命令“中断”等により前記文字
列の入力を完全に中断する特徴と、 前記確認応答の後に文字入力を音声命令“ストップ”、
“記憶する”等により終了する特徴と、 アクション/機能をスタートする音声命令例えば“選択
する”等の入力後に入力を終了し、前記音声命令に割当
てられているアクション/機能を開始する特徴とのうち
の1つ又は複数又はすべての特徴を有することを特徴と
する請求項1から請求項30のうちのいずれか1つの請求
項に記載の実時間作動での音声対話又は音声命令による
1つ又は複数の機器の自動制御方法。 - 【請求項32】音声命令“誤り”等又は音声命令“繰返
す”等に続く、今まで発声された数字の出力において、
入力の場合と同様にブロック化が使用されることを特徴
とする請求項30又は31に記載の実時間作動での音声対話
又は音声命令による1つ又は複数の機器の自動制御方
法。 - 【請求項33】音声出力及びコントロールトーンの出力
音量を環境雑音に適合し、前記環境雑音を音声休止の間
に前記環境雑音の音量又は特性に関して検出することを
特徴とする請求項1から請求項32のうちのいずれか1つ
の請求項に記載の実時間作動での音声対話又は音声命令
による1つ又は複数の機器の自動制御方法。 - 【請求項34】音声対話システムへのアクセス又はユー
ザ固有のデータ/命令へのアクセスを、特別の命令語の
入力により又は音声特性が音声対話システムに機知であ
り前記音声対話システムにより検査されている認可され
た話者の特別の命令語の入力により行うことを特徴とす
る請求項1から請求項32のうちのいずれか1つの請求項
に記載の実時間作動での音声対話又は音声命令による1
つ又は複数の機器の自動制御方法。 - 【請求項35】長く持続する音声出力(例えば情報メニ
ュー)を、発声される又は手動の中断命令により早期に
終了することが可能であることを特徴とする請求項1か
ら請求項34のうちのいずれか1つの請求項に記載の実時
間作動での音声対話又は音声命令による1つ又は複数の
機器の自動制御方法。 - 【請求項36】音声対話システムが、次のような形態す
なわち 音声命令実行が手動操作の外に存在し、従って操作を何
時でも手動で行う又は継続することが可能である、 いくつかの特別の性能特徴が音声入力のみによりアクテ
ィブ化可能であり、その他の機器機能及び操作機能は手
動でも音声によっても命令可能のままである、 手動の操作素子の数が大幅に低減され、個々のキー又は
回転つまみが多重機能を引受け、音声により手動の前記
操作素子に1つの特別の機能が割当てられ、重要な操作
機能のみが依然として手動で制御可能であり、前記操作
機能の基本は音声命令実行である形態のうちの1つの形
態で(例えばスイッチ、キー、回転つまみによる)機能
の手動の操作を補足する又は置換することを特徴とする
請求項1から請求項35のうちのいずれか1つの請求項に
記載の実時間作動での音声対話又は音声命令による1つ
又は複数の機器の自動制御方法。 - 【請求項37】ただ1つの単一単語命令又は多単語命令
により多数の異なる機器及び機器機能に作用可能又は変
更可能であり、従って多段階のプロシージャが不要であ
るか又は僅かな規模でしか必要としないことを特徴とす
る請求項1から請求36項のうちのいずれか1つの請求項
に記載の実時間作動での音声対話又は音声命令による1
つ又は複数の機器の自動制御方法。 - 【請求項38】自動車搭載の音声対話システムを、 個々の又は複数の機器例えば自動車電話、(場合に応じ
てカセット、CDチェンジャ、サウンドシステムを有す
る)自動車ラジオ、ナビゲーションシステム、非常呼出
し装置、搭載モニター、空調装置、暖房装置、ポータブ
ル計算機、照明装置、スライディングルーフ、窓開閉装
置、シート位置調整装置等を操作する機能と、 例えば油圧、油温度、冷却水温度、消費量、タイヤ圧力
等のパラメータの情報問合せ機能と、 例えば過度に高い冷却水温度等において必要な措置に関
する情報の機能と、 自動車の故障の際の運転者への警報の機能とのうちの個
々の又は複数の機能のために適用することを特徴とする
請求項1から請求項37のうちのいずれか1つの請求項に
記載の実時間作動での音声対話又は音声命令による1つ
又は複数の機器の自動制御方法。 - 【請求項39】自動車ラジオにおける新放送局の音声制
御される選択を、 上方又は下方へのサーチ走行の命令実行のシーケンス
と、 音声入力シーケンス、有利には日常語の形での有利には
周波数指示を含めての放送局周波数の音声入力のシーケ
ンスと、 通常使用される放送局名の音声入力のシーケンスと のうちの1つのシーケンスに従って行うことを特徴とす
る請求項38に記載の実時間作動での音声対話又は音声命
令による1つ又は複数の機器の自動制御方法。 - 【請求項40】空調装置において所望の温度を音声入力
により相対的に及び/又は有利には絶対的に定めること
が可能であり、有利には付加的に最低又は最高又は平均
温度又は通常温度を命令することが可能であることを特
徴とする請求項38に記載の実時間作動での音声対話又は
音声命令による1つ又は複数の機器の自動制御方法。 - 【請求項41】ナビゲーションシステムに目的地(場所
名、通り名)を“文字綴モード”で文字列を入力するこ
とにより伝達し、有利には名前の始端も入力として充分
であり、ナビゲーションシステムは場合に応じて複数の
候補を選択のために提供することを特徴とする請求項38
に記載の実時間作動での音声対話又は音声命令による1
つ又は複数の機器の自動制御方法。 - 【請求項42】プリセット可能な名前/略称での電話番
号を記憶するためのユーザ固有の名前リストと、 プリセット可能な名前/略称でのナビゲーションシステ
ムのための目的地を記憶するためのユーザ固有の名前リ
ストと、 命令又は命令列のための機能名を記憶するためのユーザ
固有の名前リストと、 プリセット可能な放送局名又は略称での自動車ラジオの
放送局周波数を記憶するためのユーザ固有の名前リスト
を設けることを特徴とする請求項38から請求項41のうち
のいずれか1つの請求項に記載の実時間作動での音声対
話又は音声命令による1つ又は複数の機器の自動制御方
法。 - 【請求項43】音声出力及び1つ又は複数のコントロー
ルトーンの出力音量と場合に応じてラジオ音量とを、 自動車速度パラメータと、 送風機調整設定パラメータと、 回転数パラメータと、 窓及びスライディングルーフの開放幅パラメータと、 自動車タイプパラメータと、 その都度の対話状況での音声出力の重要性パラメータと
のうちの1つ又は複数のパラメータを考慮して定めるか
又は適応的に適合調整することを特徴とする請求項38か
ら請求項42のうちのいずれか1つの請求項に記載の実時
間作動での音声対話又は音声命令による1つ又は複数の
機器の自動制御方法。 - 【請求項44】プッシュツウトークキーが、 例えば電話している間に(“受話器を置く”、“受話器
をとる”)又音声対話システムの新スタートの際に又は
電話選択動作の中断の際に多重機能を利用するか又は含
むか又は、 プッシュツウトークキーを、例えば新スタート又は機能
の中断を可能にする付加的スイッチ又は付加的切換え位
置により補足することを特徴とする請求項21から請求項
43のうちのいずれか1つの請求項に記載の実時間作動で
の音声対話又は音声命令による1つ又は複数の機器の自
動制御方法。 - 【請求項45】音声入出力装置を、音声信号前処理装置
を介して音声認識装置に接続し、前記音声認識装置をシ
ーケンス制御装置、対話制御装置及びインターフェース
制御装置に接続する請求項1から請求項44のうちのいず
れか1つの請求項に記載の方法を実施する装置におい
て、 前記音声認識装置を、音声独立型連続単語認識器と音声
依存型付加的音声認識器とから形成し、双方の前記認識
器の出力側を構文的文法的又は意味的後処理装置に接続
し、前記後処理装置を前記シーケンス制御装置、前記対
話制御装置及び前記インターフェース制御装置に接続す
ることを特徴とする装置。 - 【請求項46】音声前処理装置が、雑音低域装置及び/
又はエコー補償装置及び/又はセグメンテーション装置
を含むことを特徴とする請求項45に記載の装置。 - 【請求項47】音声入出力装置が音声エンコーダ、音声
デコーダ及び音声メモリを含むことを特徴とする請求項
45又は46に記載の装置。 - 【請求項48】シーケンス制御、対話制御及びインター
フェース制御、入出力及び音声信号前処理、音声認識、
構文的文法的及び意味的後処理をマイクロプロセッサ、
信号プロセッサ、メモリ又はインターフェースモジュー
ルにより行うが、しかし有利にはただ1つのディジタル
信号プロセッサ又はマイクロプロセッサ及び所要の外部
のドライバモジュール、クロック発生器、制御論理回路
及び入出力に必要なマイクロフォン及びスピーカ、及び
所属の変換器及び増幅器及び場合に応じてプッシュツウ
トーク(PTT)キー及び中断キーにより行うことを特徴
とする請求項45から請求項47のうちのいずれか1つの請
求項に記載の装置。 - 【請求項49】1つ又は複数のインターフェースを介し
て、 データ及び/又はパラメータをロード可能又は事後ロー
ド可能であり、これにより例えば別の音声に対して方法
変更又は音声対話システムを実現し、 別個の計算機において定められているか又は変更されて
いる構文構造、対話構造、シーケンス制御、音声出力等
を音声対話システムに伝達し(“オフライン対話エディ
タ”)、 ステータス情報又は対話情報を音声対話システムが要求
し取出すことが可能であることを特徴とする請求項48に
記載の装置。 - 【請求項50】制御する機器のうちの複数の機器にバス
システム又はリング状ネットワークを介して接続し、前
記バス又は前記ネットワークを介して制御データ及び/
又はオーディオ信号及び/又は音声対話システム及び/
又は操作する機器のステータスメッセージ伝送すること
を特徴とする請求項48に記載の装置。 - 【請求項51】個々の制御する機器がそれぞれ1つの固
有の音声対話システムを含むのではなく、ただ1つの共
通の音声対話システムが前記機器を操作することを特徴
とする自動車への適用のための請求項45から請求項50の
うちのいずれか1つの請求項に記載の装置。 - 【請求項52】自動車構成要素に対して1つ又は複数の
インターフェースを設け、前記インターフェースを介し
て恒久的な又は実際の自動車データ例えば速度等を音声
対話システムに伝達することを特徴とする請求項45から
請求項51のうちのいずれか1つの請求項に記載の装置。 - 【請求項53】音声入出力が行われない待ち時間の間に
例えばラジオ、電話等の別の機能を引受けることを特徴
とする請求項45から請求項52のうちのいずれか1つの請
求項に記載の装置。 - 【請求項54】拡張されたメモリにより多言語の話者独
立型対話システムを実現し、異なる言語の前記対話シス
テムと前記対話システムとの間での切換えが可能である
ことを特徴とする請求項45から請求項53のうちのいずれ
か1つの請求項に記載の装置。 - 【請求項55】光学ディスプレイを音声対話システムに
特別のインターフェースを介して又はバス端子を介して
接続することを特徴とする請求項45から請求項54のうち
のいずれか1つの請求項に記載の装置。 - 【請求項56】完全な音声対話システムをPCMCIAインタ
ーフェースを介して、音声により制御又は操作する機器
又はホスト計算機又はアプリケーション計算機に接続す
ることを特徴とする請求項45から請求項55のうちのいず
れか1つの請求項に記載の装置。 - 【請求項57】バス又はネットワークが光データバスで
あり、前記光データバスを介して制御信号もオーディオ
信号も又は音声対話システム及び操作する機器のステー
タスメッセージを伝送することが可能である請求項50又
は56に記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19533541A DE19533541C1 (de) | 1995-09-11 | 1995-09-11 | Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens |
DE19533541.4 | 1995-09-11 | ||
PCT/EP1996/003939 WO1997010583A1 (de) | 1995-09-11 | 1996-09-09 | Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11506845A JPH11506845A (ja) | 1999-06-15 |
JP3479691B2 true JP3479691B2 (ja) | 2003-12-15 |
Family
ID=7771821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP51163997A Expired - Lifetime JP3479691B2 (ja) | 1995-09-11 | 1996-09-09 | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6839670B1 (ja) |
EP (1) | EP0852051B1 (ja) |
JP (1) | JP3479691B2 (ja) |
AT (1) | ATE211572T1 (ja) |
CA (1) | CA2231504C (ja) |
DE (2) | DE19533541C1 (ja) |
ES (1) | ES2170870T3 (ja) |
WO (1) | WO1997010583A1 (ja) |
Families Citing this family (328)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE29509089U1 (de) | 1995-06-01 | 1995-11-16 | Eschenbach, Wolfram, 80687 München | Akustischer Wandlichtschalter mit Spracherkennungssystem |
US5616549A (en) * | 1995-12-29 | 1997-04-01 | Clark; Lawrence A. | Molecular level cleaning of contaminates from parts utilizing an envronmentally safe solvent |
DE19635754A1 (de) * | 1996-09-03 | 1998-03-05 | Siemens Ag | Sprachverarbeitungssystem und Verfahren zur Sprachverarbeitung |
DE19709518C5 (de) | 1997-03-10 | 2006-05-04 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
DE19715101C2 (de) * | 1997-04-11 | 2003-04-10 | Saechsisches Inst Fuer Die Dru | Verfahren zur Steuerung einer graphischen Maschine |
DE19715325A1 (de) * | 1997-04-12 | 1998-10-15 | Bayerische Motoren Werke Ag | Anzeige- und Bedienvorrichtung für Menüs und/oder Funktionen eines Fahrzeugs |
JP3358498B2 (ja) * | 1997-07-17 | 2002-12-16 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
DE19730816A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Freisprecheinrichtung |
DE19730920A1 (de) * | 1997-07-18 | 1999-01-21 | Ise Interactive Systems Entwic | Computeranlage |
DE19730935C2 (de) * | 1997-07-18 | 2002-12-19 | Siemens Ag | Verfahren zum Generieren einer Sprachausgabe und Navigationssystem |
DE19738339C2 (de) * | 1997-09-02 | 2000-08-31 | Siemens Ag | Verfahren zum benutzergesteuerten Abbauen von drahtlosen Telekommunikationsverbindungen in drahtlosen Telekommunikationssystemen, insbesondere DECT-Systemen |
EP1073957B1 (en) * | 1998-03-23 | 2003-05-21 | Microsoft Corporation | Application program interfaces in an operating system |
DE19818262A1 (de) * | 1998-04-23 | 1999-10-28 | Volkswagen Ag | Verfahren und Einrichtung zum Betrieb bzw. zum Bedienen verschiedener Geräte in einem Fahrzeug |
EP0971330A1 (en) * | 1998-07-07 | 2000-01-12 | Otis Elevator Company | Verbal remote control device |
DE69909806T2 (de) * | 1998-09-30 | 2004-01-22 | Lernout & Hauspie Speech Products N.V. | Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems |
DE19908137A1 (de) * | 1998-10-16 | 2000-06-15 | Volkswagen Ag | Verfahren und Vorrichtung zur automatischen Steuerung mindestens eines Gerätes per Sprachdialog |
US6411926B1 (en) * | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
JP2000259198A (ja) * | 1999-03-04 | 2000-09-22 | Sony Corp | パターン認識装置および方法、並びに提供媒体 |
DE19913677A1 (de) * | 1999-03-25 | 2000-10-05 | Groza Igor | Sprachsystem im Auto und LKW mit erweiterter Steuerungsmöglichkeit |
DE19925064B4 (de) * | 1999-04-21 | 2004-12-16 | Thomas Böhner | Vorrichtung und Verfahren zur Steuerung von Beleuchtungsanlagen, Maschinen u. dgl. |
DE19939065A1 (de) * | 1999-08-18 | 2001-02-22 | Volkswagen Ag | Multifunktions-Bedieneinrichtung |
DE19955890B4 (de) * | 1999-11-20 | 2006-10-05 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur Ausgabe von Bedienhinweisen |
DE19956747C1 (de) * | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
DE10007223B4 (de) | 2000-02-17 | 2019-04-25 | Harman Becker Automotive Systems Gmbh | System mit einem Sprachbediensystem als einer ersten Systemeinheit und einer zweiten Systemeinheit in einem Kraftfahrzeug |
DE10008226C2 (de) * | 2000-02-22 | 2002-06-13 | Bosch Gmbh Robert | Vorrichtung zur Sprachsteuerung und Verfahren zur Sprachsteuerung |
DE10012572C2 (de) * | 2000-03-15 | 2003-03-27 | Bayerische Motoren Werke Ag | Vorrichtung und Verfahren zur Spracheingabe eines Zielortes mit Hilfe eines definierten Eingabedialogs in ein Zielführungssystem |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
DE10012756B4 (de) * | 2000-03-16 | 2017-11-02 | Volkswagen Ag | Verfahren und Einrichtung zur Abspeicherung und Abrufung individueller Einstellungen |
DE10017717B4 (de) * | 2000-04-11 | 2006-01-05 | Leopold Kostal Gmbh & Co. Kg | Spracheingabe gesteuertes Steuergerät |
DE10021389A1 (de) | 2000-05-03 | 2001-11-08 | Nokia Mobile Phones Ltd | Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung |
US6587824B1 (en) * | 2000-05-04 | 2003-07-01 | Visteon Global Technologies, Inc. | Selective speaker adaptation for an in-vehicle speech recognition system |
AU2001262408A1 (en) * | 2000-05-23 | 2001-12-03 | Thomson Licensing S.A. | Syntactic and semantic analysis of voice commands |
DE10030369A1 (de) * | 2000-06-21 | 2002-01-03 | Volkswagen Ag | Spracherkennungssystem |
DE10034235C1 (de) * | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
DE10037023A1 (de) * | 2000-07-29 | 2002-02-21 | Bosch Gmbh Robert | Verfahren und System zur akustischen Funktionssteuerung im Kraftfahrzeug |
EP1312078A1 (en) * | 2000-08-15 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Multi-device audio-video with common echo canceling |
DE10040466C2 (de) * | 2000-08-18 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zur Steuerung einer Spracheingabe und -ausgabe |
DE10041456A1 (de) * | 2000-08-23 | 2002-03-07 | Philips Corp Intellectual Pty | Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen |
US6915262B2 (en) | 2000-11-30 | 2005-07-05 | Telesector Resources Group, Inc. | Methods and apparatus for performing speech recognition and using speech recognition results |
US8135589B1 (en) | 2000-11-30 | 2012-03-13 | Google Inc. | Performing speech recognition over a network and using speech recognition results |
US7203651B2 (en) * | 2000-12-07 | 2007-04-10 | Art-Advanced Recognition Technologies, Ltd. | Voice control system with multiple voice recognition engines |
DE10062669A1 (de) * | 2000-12-15 | 2002-06-20 | Bsh Bosch Siemens Hausgeraete | Eingabevorrichtung und Verfahren zur Eingabe von Informationen in eine Steuereinheit |
DE10103608A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103609A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
DE10103610A1 (de) * | 2001-01-28 | 2002-08-14 | Audioton Kabelwerk Gmbh | Freisprecheinrichtung für den Betrieb von Mobiltelefonen in Kraftfahrzeugen |
JP3919210B2 (ja) * | 2001-02-15 | 2007-05-23 | アルパイン株式会社 | 音声入力案内方法及び装置 |
DE10110977C1 (de) * | 2001-03-07 | 2002-10-10 | Siemens Ag | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem |
DE10115899B4 (de) * | 2001-03-30 | 2005-04-14 | Siemens Ag | Verfahren zur Erstellung von Computer-Programmen mittels Spracherkennung |
JP4724943B2 (ja) * | 2001-04-05 | 2011-07-13 | 株式会社デンソー | 音声認識装置 |
JP2002304188A (ja) * | 2001-04-05 | 2002-10-18 | Sony Corp | 単語列出力装置および単語列出力方法、並びにプログラムおよび記録媒体 |
DE10118668B4 (de) * | 2001-04-14 | 2004-02-05 | Schott Glas | Koordinatenmeßvorrichtung |
DE10127852A1 (de) * | 2001-06-08 | 2002-12-12 | Mende Speech Solutions Gmbh & | Verfahren zur Erkennung von Sprachinformationen |
DE10129720B4 (de) * | 2001-06-15 | 2004-02-19 | Forschungsinstitut Für Die Biologie Landwirtschaftlicher Nutztiere | Lautverarbeitungsvorrichtung und -verfahren |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
DE10228408B4 (de) | 2001-07-10 | 2021-09-30 | Sew-Eurodrive Gmbh & Co Kg | Bussystem, umfassend mindestens einen Bus und Busteilnehmer und Verfahren zur Sprachsteuerung |
DE10151007A1 (de) * | 2001-10-16 | 2003-04-17 | Volkswagen Ag | Bedienvorrichtung für Fahrzeuge |
US7610189B2 (en) | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
GB2384636A (en) * | 2001-10-19 | 2003-07-30 | Visteon Global Tech Inc | Communication system with a signal conduction matrix and surface signal router |
JP3863765B2 (ja) * | 2001-11-30 | 2006-12-27 | 三洋電機株式会社 | ナビゲーション装置 |
US7174300B2 (en) * | 2001-12-11 | 2007-02-06 | Lockheed Martin Corporation | Dialog processing method and apparatus for uninhabited air vehicles |
DE10163214A1 (de) * | 2001-12-21 | 2003-07-10 | Philips Intellectual Property | Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
DE10208466A1 (de) * | 2002-02-27 | 2004-01-29 | BSH Bosch und Siemens Hausgeräte GmbH | Elektrisches Haushaltsgerät |
JP2003280688A (ja) * | 2002-03-25 | 2003-10-02 | Nissan Diesel Motor Co Ltd | 情報交換システム |
JP3654262B2 (ja) * | 2002-05-09 | 2005-06-02 | 株式会社デンソー | 音声認識装置及びナビゲーションシステム |
JP2004032430A (ja) * | 2002-06-26 | 2004-01-29 | Fujitsu Ltd | 制御装置及び制御プログラム |
DE10237951A1 (de) * | 2002-08-20 | 2004-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Betrieb eines Roboters zu laufender Musik |
JP2004110613A (ja) * | 2002-09-20 | 2004-04-08 | Toshiba Corp | 制御装置、制御プログラム、対象装置及び制御システム |
EP1567941A2 (en) | 2002-11-28 | 2005-08-31 | Koninklijke Philips Electronics N.V. | Method to assign word class information |
DE10344007A1 (de) | 2002-12-24 | 2004-07-08 | Robert Bosch Gmbh | Informationssystem für Fahrzeuge und Verfahren zur Sprachsteuerung |
US20040143440A1 (en) * | 2003-01-03 | 2004-07-22 | Venkatesh Prasad | Vehicle speech recognition system |
ES2245546B1 (es) * | 2003-03-12 | 2006-11-01 | Carlos Catala Costa | Cabinas de ducha, mini piscinas (spas), bañeras de hidromasaje controladas por voz. |
DE10334400A1 (de) | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
DE10338512A1 (de) * | 2003-08-22 | 2005-03-17 | Daimlerchrysler Ag | Unterstützungsverfahren für Sprachdialoge zur Bedienung von Kraftfahrzeugfunktionen |
DE102004006467A1 (de) * | 2003-09-09 | 2005-04-21 | Volkswagen Ag | Verfahren und Vorrichtung zur Navigation eines Kraftfahrzeugführers |
US20050071170A1 (en) * | 2003-09-30 | 2005-03-31 | Comerford Liam D. | Dissection of utterances into commands and voice data |
US7552221B2 (en) | 2003-10-15 | 2009-06-23 | Harman Becker Automotive Systems Gmbh | System for communicating with a server through a mobile communication device |
JP2005167866A (ja) * | 2003-12-05 | 2005-06-23 | Kenwood Corp | データ記録装置及びデータ記録方法 |
DE602004010054T2 (de) * | 2004-01-19 | 2008-03-06 | Harman Becker Automotive Systems Gmbh | Betätigung eines Sprachdialogsystems |
EP1560199B1 (en) | 2004-01-29 | 2008-07-09 | Harman Becker Automotive Systems GmbH | Multimodal data input |
DE602004017955D1 (de) * | 2004-01-29 | 2009-01-08 | Daimler Ag | Verfahren und System zur Sprachdialogschnittstelle |
EP1562180B1 (en) * | 2004-02-06 | 2015-04-01 | Nuance Communications, Inc. | Speech dialogue system and method for controlling an electronic device |
US20090164215A1 (en) * | 2004-02-09 | 2009-06-25 | Delta Electronics, Inc. | Device with voice-assisted system |
US7366535B2 (en) * | 2004-04-21 | 2008-04-29 | Nokia Corporation | Push-to-talk mobile communication terminals |
FR2871978B1 (fr) * | 2004-06-16 | 2006-09-22 | Alcatel Sa | Procede de traitement de signaux sonores pour un terminal de communication et terminal de communication mettant en oeuvre ce procede |
DE102004046932A1 (de) * | 2004-09-28 | 2006-04-13 | Aug. Winkhaus Gmbh & Co. Kg | Schließeinrichtung und Verfahren zur Programmierung einer Schließeinrichtung |
US8725505B2 (en) * | 2004-10-22 | 2014-05-13 | Microsoft Corporation | Verb error recovery in speech recognition |
US7689423B2 (en) * | 2005-04-13 | 2010-03-30 | General Motors Llc | System and method of providing telematically user-optimized configurable audio |
US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
US20060253272A1 (en) * | 2005-05-06 | 2006-11-09 | International Business Machines Corporation | Voice prompts for use in speech-to-speech translation system |
JP4660299B2 (ja) * | 2005-06-29 | 2011-03-30 | 三菱電機株式会社 | 移動体用情報装置 |
US7424431B2 (en) * | 2005-07-11 | 2008-09-09 | Stragent, Llc | System, method and computer program product for adding voice activation and voice control to a media player |
EP1750253B1 (en) * | 2005-08-04 | 2012-03-21 | Nuance Communications, Inc. | Speech dialog system |
US7904300B2 (en) * | 2005-08-10 | 2011-03-08 | Nuance Communications, Inc. | Supporting multiple speech enabled user interface consoles within a motor vehicle |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7590541B2 (en) * | 2005-09-30 | 2009-09-15 | Rockwell Automation Technologies, Inc. | HMI presentation layer configuration system |
DE102005059630A1 (de) * | 2005-12-14 | 2007-06-21 | Bayerische Motoren Werke Ag | Verfahren zur Erzeugung von Sprachmustern für eine sprachgesteuerte Senderwahl |
US20090222270A2 (en) * | 2006-02-14 | 2009-09-03 | Ivc Inc. | Voice command interface device |
US20070198271A1 (en) * | 2006-02-23 | 2007-08-23 | Dana Abramson | Method for training a user of speech recognition software |
JP4131978B2 (ja) * | 2006-02-24 | 2008-08-13 | 本田技研工業株式会社 | 音声認識機器制御装置 |
DE102006035780B4 (de) * | 2006-08-01 | 2019-04-25 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren zur Unterstützung des Bedieners eines Spracheingabesystems |
US7899673B2 (en) * | 2006-08-09 | 2011-03-01 | Microsoft Corporation | Automatic pruning of grammars in a multi-application speech recognition interface |
US20080045256A1 (en) * | 2006-08-16 | 2008-02-21 | Microsoft Corporation | Eyes-free push-to-talk communication |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
ATE403928T1 (de) | 2006-12-14 | 2008-08-15 | Harman Becker Automotive Sys | Sprachdialogkontrolle basierend auf signalvorverarbeitung |
US8831183B2 (en) * | 2006-12-22 | 2014-09-09 | Genesys Telecommunications Laboratories, Inc | Method for selecting interactive voice response modes using human voice detection analysis |
JP4827721B2 (ja) * | 2006-12-26 | 2011-11-30 | ニュアンス コミュニケーションズ,インコーポレイテッド | 発話分割方法、装置およびプログラム |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20080312934A1 (en) * | 2007-03-07 | 2008-12-18 | Cerra Joseph P | Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US20080221899A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile messaging environment speech processing facility |
US20090030687A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Adapting an unstructured language model speech recognition system based on usage |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8880405B2 (en) | 2007-03-07 | 2014-11-04 | Vlingo Corporation | Application text entry in a mobile environment using a speech processing facility |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US20080228493A1 (en) * | 2007-03-12 | 2008-09-18 | Chih-Lin Hu | Determining voice commands with cooperative voice recognition |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
DE102007037567A1 (de) | 2007-08-09 | 2009-02-12 | Volkswagen Ag | Verfahren zur multimodalen Bedienung mindestens eines Gerätes in einem Kraftfahrzeug |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
JP5238205B2 (ja) * | 2007-09-07 | 2013-07-17 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声合成システム、プログラム及び方法 |
ATE509345T1 (de) * | 2007-09-21 | 2011-05-15 | Boeing Co | Gesprochene fahrzeugsteuerung |
DE102007046761A1 (de) * | 2007-09-28 | 2009-04-09 | Robert Bosch Gmbh | Verfahren zum Betrieb eines Navigationssystems, welches über eine Sprachausgabe verfügt |
WO2009047858A1 (ja) * | 2007-10-12 | 2009-04-16 | Fujitsu Limited | エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置、音出力装置、オーディオシステム、ナビゲーションシステム及び移動体 |
DE602007011073D1 (de) * | 2007-10-17 | 2011-01-20 | Harman Becker Automotive Sys | Sprachdialogsystem mit an den Benutzer angepasster Sprachausgabe |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
DE102008008948A1 (de) | 2008-02-13 | 2009-08-20 | Volkswagen Ag | Systemarchitektur und Verfahren zur multimodalen Informationseingabe |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US7516068B1 (en) * | 2008-04-07 | 2009-04-07 | International Business Machines Corporation | Optimized collection of audio for speech recognition |
US8958848B2 (en) | 2008-04-08 | 2015-02-17 | Lg Electronics Inc. | Mobile terminal and menu control method thereof |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8682660B1 (en) * | 2008-05-21 | 2014-03-25 | Resolvity, Inc. | Method and system for post-processing speech recognition results |
US8983841B2 (en) * | 2008-07-15 | 2015-03-17 | At&T Intellectual Property, I, L.P. | Method for enhancing the playback of information in interactive voice response systems |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
JP5598331B2 (ja) * | 2008-11-28 | 2014-10-01 | 日本電気株式会社 | 言語モデル作成装置 |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
DE102009018590B4 (de) * | 2009-04-23 | 2022-11-17 | Volkswagen Ag | Kraftfahrzeug mit einer Bedienvorrichtung und dazugehöriges Verfahren |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
DE102009025530B4 (de) * | 2009-06-19 | 2019-05-23 | Volkswagen Ag | Verfahren zur Bedienung eines Fahrzeugs mittels eines automatisierten Sprachdialogs sowie entsprechend ausgestaltetes Sprachdialogsystem und Fahrzeug |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
DE102009041007A1 (de) | 2009-09-10 | 2011-03-24 | Bayerische Motoren Werke Aktiengesellschaft | Navigationssystem und Radioempfangssystem |
US8428947B2 (en) * | 2009-12-15 | 2013-04-23 | At&T Intellectual Property I, L.P. | Automatic sound level control |
EP2339576B1 (en) * | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8700405B2 (en) * | 2010-02-16 | 2014-04-15 | Honeywell International Inc | Audio system and method for coordinating tasks |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8787977B2 (en) * | 2010-04-08 | 2014-07-22 | General Motors Llc | Method of controlling dialing modes in a vehicle |
US8265928B2 (en) * | 2010-04-14 | 2012-09-11 | Google Inc. | Geotagged environmental audio for enhanced speech recognition accuracy |
US8468012B2 (en) | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US20120065972A1 (en) * | 2010-09-12 | 2012-03-15 | Var Systems Ltd. | Wireless voice recognition control system for controlling a welder power supply by voice commands |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US10032127B2 (en) | 2011-02-18 | 2018-07-24 | Nuance Communications, Inc. | Methods and apparatus for determining a clinician's intent to order an item |
US8768723B2 (en) | 2011-02-18 | 2014-07-01 | Nuance Communications, Inc. | Methods and apparatus for formatting text for clinical fact extraction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
JP2012215673A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
US9368107B2 (en) * | 2011-04-20 | 2016-06-14 | Nuance Communications, Inc. | Permitting automated speech command discovery via manual event to command mapping |
JP5681041B2 (ja) * | 2011-06-03 | 2015-03-04 | 富士通株式会社 | 名寄せ規則生成方法、装置、およびプログラム |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120316884A1 (en) * | 2011-06-10 | 2012-12-13 | Curtis Instruments, Inc. | Wheelchair System Having Voice Activated Menu Navigation And Auditory Feedback |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
JP2013068532A (ja) * | 2011-09-22 | 2013-04-18 | Clarion Co Ltd | 情報端末、サーバー装置、検索システムおよびその検索方法 |
US9847083B2 (en) * | 2011-11-17 | 2017-12-19 | Universal Electronics Inc. | System and method for voice actuated configuration of a controlling device |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9569594B2 (en) | 2012-03-08 | 2017-02-14 | Nuance Communications, Inc. | Methods and apparatus for generating clinical reports |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US20140016797A1 (en) * | 2012-07-16 | 2014-01-16 | Ford Global Technologies, Llc | Method for Changing Audio System Mode for Roof Open/Closed Condition |
US9809185B2 (en) | 2012-09-04 | 2017-11-07 | Ford Global Technologies, Llc | Method and apparatus for subjective command control of vehicle systems |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014068788A1 (ja) * | 2012-11-05 | 2014-05-08 | 三菱電機株式会社 | 音声認識装置 |
US9148499B2 (en) | 2013-01-22 | 2015-09-29 | Blackberry Limited | Method and system for automatically identifying voice tags through user operation |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
US11024406B2 (en) | 2013-03-12 | 2021-06-01 | Nuance Communications, Inc. | Systems and methods for identifying errors and/or critical results in medical reports |
US20140270249A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Method and Apparatus for Estimating Variability of Background Noise for Noise Suppression |
US9237225B2 (en) | 2013-03-12 | 2016-01-12 | Google Technology Holdings LLC | Apparatus with dynamic audio signal pre-conditioning and methods therefor |
US20140278393A1 (en) | 2013-03-12 | 2014-09-18 | Motorola Mobility Llc | Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US11183300B2 (en) | 2013-06-05 | 2021-11-23 | Nuance Communications, Inc. | Methods and apparatus for providing guidance to medical professionals |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US10163455B2 (en) * | 2013-12-03 | 2018-12-25 | Lenovo (Singapore) Pte. Ltd. | Detecting pause in audible input to device |
KR102210433B1 (ko) | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10754925B2 (en) | 2014-06-04 | 2020-08-25 | Nuance Communications, Inc. | NLU training with user corrections to engine annotations |
US10373711B2 (en) | 2014-06-04 | 2019-08-06 | Nuance Communications, Inc. | Medical coding system with CDI clarification request notification |
DE102014108371B4 (de) * | 2014-06-13 | 2016-04-14 | LOEWE Technologies GmbH | Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
DE102014111503B4 (de) * | 2014-08-12 | 2016-04-28 | Gls It Services Gmbh | Intelligentes Zustellsystem |
US9418679B2 (en) | 2014-08-12 | 2016-08-16 | Honeywell International Inc. | Methods and apparatus for interpreting received speech data using speech recognition |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9792901B1 (en) * | 2014-12-11 | 2017-10-17 | Amazon Technologies, Inc. | Multiple-source speech dialog input |
DE112014007287B4 (de) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
CN104615052A (zh) * | 2015-01-15 | 2015-05-13 | 深圳乐投卡尔科技有限公司 | Android车载导航全局声控装置及方法 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6481939B2 (ja) * | 2015-03-19 | 2019-03-13 | 株式会社レイトロン | 音声認識装置および音声認識プログラム |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10083697B2 (en) * | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9966073B2 (en) | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
CN104899002A (zh) * | 2015-05-29 | 2015-09-09 | 深圳市锐曼智能装备有限公司 | 机器人基于对话预测的在线与离线的识别切换方法及系统 |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10672385B2 (en) * | 2015-09-04 | 2020-06-02 | Honeywell International Inc. | Method and system for remotely training and commanding the speech recognition system on a cockpit via a carry-on-device in a connected aircraft |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DE102015222105A1 (de) * | 2015-11-10 | 2017-05-11 | Volkswagen Aktiengesellschaft | Audiosignalverarbeitung in einem Fahrzeug |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11152084B2 (en) | 2016-01-13 | 2021-10-19 | Nuance Communications, Inc. | Medical report coding with acronym/abbreviation disambiguation |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
EP3270575A1 (de) | 2016-07-12 | 2018-01-17 | Veecoo Ug | Plattform zur integration von mobilen endgräten und peripheren geräten des nachrüstmarktes in einem fahrzeug |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10949602B2 (en) | 2016-09-20 | 2021-03-16 | Nuance Communications, Inc. | Sequencing medical codes methods and apparatus |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR102588423B1 (ko) * | 2016-12-22 | 2023-10-12 | 삼성전자주식회사 | 벤디드 디스플레이를 통한 부품 실장 구조를 갖는 전자 장치 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
EP3622784B1 (en) * | 2017-05-08 | 2020-11-11 | Signify Holding B.V. | Voice control |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
DE102017211202A1 (de) | 2017-06-30 | 2019-01-03 | Volkswagen Aktiengesellschaft | Verfahren und Vorrichtung zur Steuerung von Klimatisierungseinrichtungen in einem Kraftfahrzeug |
US11133091B2 (en) | 2017-07-21 | 2021-09-28 | Nuance Communications, Inc. | Automated analysis system and method |
DE102017212980B4 (de) | 2017-07-27 | 2023-01-19 | Volkswagen Aktiengesellschaft | Verfahren zur Kompensation von Störgeräuschen bei einer Freisprecheinrichtung in einem Kraftfahrzeug und Freisprecheinrichtung |
EP3642835A4 (en) * | 2017-08-03 | 2021-01-06 | Telepathy Labs, Inc. | PROACTIVE, INTELLIGENT AND OMNICANAL VIRTUAL AGENT |
CN107642864B (zh) * | 2017-08-18 | 2021-08-24 | 重庆海尔空调器有限公司 | 一种多空调语音控制方法、控制装置和空调系统 |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
DE102017123443A1 (de) * | 2017-10-09 | 2019-04-11 | Lenze Automation Gmbh | System für die Steuerung und/oder Diagnose eines elektrischen Antriebssystems |
US11024424B2 (en) | 2017-10-27 | 2021-06-01 | Nuance Communications, Inc. | Computer assisted coding systems and methods |
US10586537B2 (en) * | 2017-11-30 | 2020-03-10 | International Business Machines Corporation | Filtering directive invoking vocal utterances |
US10869128B2 (en) | 2018-08-07 | 2020-12-15 | Pangissimo Llc | Modular speaker system |
US10770061B2 (en) * | 2018-10-06 | 2020-09-08 | Harman International Industries, Incorporated | False trigger correction for a voice-activated intelligent device |
US10978064B2 (en) | 2018-11-30 | 2021-04-13 | International Business Machines Corporation | Contextually relevant spoken device-to-device communication between IoT devices |
RU2761940C1 (ru) * | 2018-12-18 | 2021-12-14 | Общество С Ограниченной Ответственностью "Яндекс" | Способы и электронные устройства для идентификации пользовательского высказывания по цифровому аудиосигналу |
WO2020142640A1 (en) * | 2019-01-03 | 2020-07-09 | Lucomm Technologies, Inc. | Robotic devices |
CN110288988A (zh) * | 2019-05-16 | 2019-09-27 | 平安科技(深圳)有限公司 | 目标数据筛选方法、装置及存储介质 |
CN112885340A (zh) * | 2019-11-29 | 2021-06-01 | 阿里巴巴集团控股有限公司 | 设备控制方法、装置和系统 |
CN111274365B (zh) * | 2020-02-25 | 2023-09-19 | 广州七乐康药业连锁有限公司 | 基于语义理解的智能问诊方法、装置、存储介质及服务器 |
DE102020202506A1 (de) * | 2020-02-27 | 2021-09-02 | Siemens Mobility GmbH | Verfahren zur Dokumentation einer sprachbasierten Kommunikation |
CN111724768A (zh) * | 2020-04-22 | 2020-09-29 | 深圳市伟文无线通讯技术有限公司 | 用于离线语音识别的实时生成解码文件的系统和方法 |
KR20210149969A (ko) * | 2020-06-02 | 2021-12-10 | 삼성전자주식회사 | 컨텐츠를 수정하기 위한 전자 장치 및 방법 |
US11996095B2 (en) | 2020-08-12 | 2024-05-28 | Kyndryl, Inc. | Augmented reality enabled command management |
KR102494051B1 (ko) * | 2021-01-26 | 2023-01-31 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
Family Cites Families (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS493507A (ja) * | 1972-04-19 | 1974-01-12 | ||
JPS4957702A (ja) * | 1972-10-02 | 1974-06-05 | ||
JPS5689799A (en) * | 1979-12-22 | 1981-07-21 | Fujitsu Ltd | Voice identification device |
JPS56102635A (en) * | 1980-01-21 | 1981-08-17 | Toshiba Corp | Controller for air conditioner |
JPS5755240A (en) * | 1980-09-17 | 1982-04-02 | Toyota Motor Corp | Voice input-output control method for vehicle |
JPS5816700U (ja) * | 1981-07-27 | 1983-02-01 | 日産自動車株式会社 | 車両用音声認識装置 |
JPS5823097A (ja) * | 1981-08-03 | 1983-02-10 | 日本電信電話株式会社 | 音声認識装置 |
JPS5830800A (ja) * | 1981-08-17 | 1983-02-23 | トヨタ自動車株式会社 | 車両用音声認識方式 |
JPS5850598A (ja) * | 1981-09-22 | 1983-03-25 | 富士通株式会社 | 音声認識装置の入力監視方式 |
JPS5870287A (ja) * | 1981-10-22 | 1983-04-26 | 日産自動車株式会社 | 音声認識装置 |
JPS5876893A (ja) * | 1981-10-30 | 1983-05-10 | 日本電気株式会社 | 音声認識装置 |
JPS58117926A (ja) * | 1981-12-29 | 1983-07-13 | Matsushita Electric Ind Co Ltd | 加熱装置 |
JPS58120297A (ja) * | 1982-01-11 | 1983-07-18 | 日本電信電話株式会社 | 音声応答認識装置 |
JPS58114625U (ja) * | 1982-01-28 | 1983-08-05 | 富士通テン株式会社 | ラジオ受信機 |
JPS58151000A (ja) * | 1982-03-02 | 1983-09-07 | 三菱電機株式会社 | 音声入力制御装置 |
JPS5971100A (ja) * | 1982-10-18 | 1984-04-21 | 日本電信電話株式会社 | 音声認識方式 |
JPS59107391A (ja) * | 1982-12-13 | 1984-06-21 | 株式会社日立製作所 | 発声法訓練装置 |
JPS59122634U (ja) * | 1983-02-07 | 1984-08-18 | 横河電機株式会社 | 外部スイツチ付音声入力装置 |
JPS59180600A (ja) * | 1983-03-31 | 1984-10-13 | 日本電気ホームエレクトロニクス株式会社 | 車載用音声認識制御装置 |
JPS59211099A (ja) * | 1983-05-16 | 1984-11-29 | 富士通株式会社 | 音声認識装置 |
JPS59228434A (ja) * | 1983-06-09 | 1984-12-21 | Fujitsu Ltd | 音声入力制御方式 |
JPS6062221A (ja) * | 1983-09-14 | 1985-04-10 | Hitachi Micro Comput Eng Ltd | 選局装置 |
JPS60104999A (ja) * | 1983-11-14 | 1985-06-10 | 松下電器産業株式会社 | 音声認識装置 |
JPS60122850A (ja) * | 1983-12-07 | 1985-07-01 | Sharp Corp | 空気調和機等の音声入力装置 |
JPS60198596A (ja) * | 1984-03-21 | 1985-10-08 | 電子計算機基本技術研究組合 | 音声入力装置 |
JPS6135494A (ja) * | 1984-07-27 | 1986-02-19 | 日本電気株式会社 | 音声認識処理装置 |
JPS61112198A (ja) * | 1984-11-07 | 1986-05-30 | 株式会社日立製作所 | 音声認識装置 |
JPS61130999A (ja) * | 1984-11-30 | 1986-06-18 | 株式会社神戸製鋼所 | 音声認識装置 |
JPS61151600A (ja) * | 1984-12-26 | 1986-07-10 | 株式会社日立製作所 | 音声認識方法 |
JPH068999B2 (ja) * | 1985-08-21 | 1994-02-02 | 株式会社日立製作所 | 音声入力方法 |
EP0235127B2 (en) * | 1985-09-03 | 1993-05-05 | Motorola, Inc. | Hands-free control system for a radiotelephone |
JPS62105198A (ja) * | 1985-10-31 | 1987-05-15 | 富士通株式会社 | 音声出力制御方式 |
US4751737A (en) * | 1985-11-06 | 1988-06-14 | Motorola Inc. | Template generation method in a speech recognition system |
JPS62138900A (ja) * | 1985-12-12 | 1987-06-22 | 日本電気株式会社 | 正規化ケプストラム分析装置 |
JPS62245296A (ja) * | 1986-04-18 | 1987-10-26 | シチズン時計株式会社 | 音声認識装置 |
JPS6332596A (ja) * | 1986-07-25 | 1988-02-12 | 日本電信電話株式会社 | 音声認識装置 |
JPS63116199A (ja) * | 1986-11-05 | 1988-05-20 | 富士通株式会社 | 音声入力装置の音声辞書格納方式 |
US4856072A (en) * | 1986-12-31 | 1989-08-08 | Dana Corporation | Voice actuated vehicle security system |
JPS63281199A (ja) * | 1987-05-13 | 1988-11-17 | 日本電気株式会社 | 音声セグメンテ−ション装置 |
JPS63301998A (ja) * | 1987-06-02 | 1988-12-08 | 日本電気株式会社 | 音声認識応答装置 |
DE3819178A1 (de) * | 1987-06-04 | 1988-12-22 | Ricoh Kk | Spracherkennungsverfahren und -einrichtung |
JPH0766272B2 (ja) * | 1987-08-24 | 1995-07-19 | 日本電気株式会社 | 音声セグメンテ−ション装置 |
JPH0197044A (ja) * | 1987-10-08 | 1989-04-14 | Nec Corp | 音声ダイヤル装置 |
US4870686A (en) * | 1987-10-19 | 1989-09-26 | Motorola, Inc. | Method for entering digit sequences by voice command |
JPH02184900A (ja) * | 1989-01-11 | 1990-07-19 | Ricoh Co Ltd | 音声ダイヤル装置 |
JPH02184899A (ja) * | 1989-01-11 | 1990-07-19 | Ricoh Co Ltd | 標準パターン及び電話番号登録方式 |
US5033087A (en) * | 1989-03-14 | 1991-07-16 | International Business Machines Corp. | Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system |
JPH02312426A (ja) * | 1989-05-29 | 1990-12-27 | Nissan Motor Co Ltd | 車両用電話装置 |
JP2867425B2 (ja) * | 1989-05-30 | 1999-03-08 | 日本電気株式会社 | 音声認識用前処理装置 |
DE3928049A1 (de) * | 1989-08-25 | 1991-02-28 | Grundig Emv | Sprachgesteuertes archivsystem |
US5144672A (en) * | 1989-10-05 | 1992-09-01 | Ricoh Company, Ltd. | Speech recognition apparatus including speaker-independent dictionary and speaker-dependent |
JPH03155598A (ja) * | 1989-11-14 | 1991-07-03 | Nec Corp | 認識対象テンプレート差し替え型音声認識装置 |
US5125022A (en) * | 1990-05-15 | 1992-06-23 | Vcs Industries, Inc. | Method for recognizing alphanumeric strings spoken over a telephone network |
US5303299A (en) * | 1990-05-15 | 1994-04-12 | Vcs Industries, Inc. | Method for continuous recognition of alphanumeric strings spoken over a telephone network |
US5127043A (en) * | 1990-05-15 | 1992-06-30 | Vcs Industries, Inc. | Simultaneous speaker-independent voice recognition and verification over a telephone network |
JPH04120850A (ja) * | 1990-09-12 | 1992-04-21 | Toshiba Corp | 音声合成装置 |
JP3029654B2 (ja) * | 1990-09-17 | 2000-04-04 | 株式会社東芝 | 音声認識装置 |
JPH04172052A (ja) * | 1990-11-06 | 1992-06-19 | Toshiba Corp | 音声合成装置 |
JPH04301697A (ja) * | 1991-03-29 | 1992-10-26 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置 |
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
DE4130632A1 (de) * | 1991-09-14 | 1993-03-18 | Philips Patentverwaltung | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal |
US5388183A (en) * | 1991-09-30 | 1995-02-07 | Kurzwell Applied Intelligence, Inc. | Speech recognition providing multiple outputs |
JPH05216618A (ja) * | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
US5353376A (en) * | 1992-03-20 | 1994-10-04 | Texas Instruments Incorporated | System and method for improved speech acquisition for hands-free voice telecommunication in a noisy environment |
JPH05290101A (ja) * | 1992-04-13 | 1993-11-05 | Mitsubishi Electric Corp | 連続音声認識処理方法およびその装置 |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
JPH06133039A (ja) * | 1992-10-16 | 1994-05-13 | Oki Electric Ind Co Ltd | 気象情報自動案内装置 |
JP3277579B2 (ja) * | 1992-12-28 | 2002-04-22 | ソニー株式会社 | 音声認識方法および装置 |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
EP0739121A3 (en) * | 1995-04-19 | 1999-11-17 | Texas Instruments Incorporated | Voice activated telephone |
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
US5913192A (en) * | 1997-08-22 | 1999-06-15 | At&T Corp | Speaker identification with user-selected password phrases |
-
1995
- 1995-09-11 DE DE19533541A patent/DE19533541C1/de not_active Expired - Lifetime
-
1996
- 1996-09-09 US US09/043,134 patent/US6839670B1/en not_active Expired - Lifetime
- 1996-09-09 WO PCT/EP1996/003939 patent/WO1997010583A1/de active IP Right Grant
- 1996-09-09 EP EP96932482A patent/EP0852051B1/de not_active Revoked
- 1996-09-09 AT AT96932482T patent/ATE211572T1/de active
- 1996-09-09 DE DE59608614T patent/DE59608614D1/de not_active Revoked
- 1996-09-09 ES ES96932482T patent/ES2170870T3/es not_active Expired - Lifetime
- 1996-09-09 CA CA002231504A patent/CA2231504C/en not_active Expired - Lifetime
- 1996-09-09 JP JP51163997A patent/JP3479691B2/ja not_active Expired - Lifetime
Non-Patent Citations (3)
Title |
---|
L.R.Rabiner,B−H.Juang,Fundamentals of Speech Recognition,米国,Prentice−Hall,1993年,Pages 42−51,183−190,200−238,285−291,305−317,321−389,414−416,448,488−493 |
古井,デジタル音声処理,日本,東海大学出版会,1985年 9月25日,Pages 44−48,151−153 |
谷萩,デジタル信号処理の理論 3.推定・適応信号処理,日本,コロナ社,1986年12月10日,Pages 190−194 |
Also Published As
Publication number | Publication date |
---|---|
CA2231504C (en) | 2005-08-02 |
WO1997010583A1 (de) | 1997-03-20 |
JPH11506845A (ja) | 1999-06-15 |
DE19533541C1 (de) | 1997-03-27 |
ES2170870T3 (es) | 2002-08-16 |
DE59608614D1 (de) | 2002-02-28 |
EP0852051A1 (de) | 1998-07-08 |
US6839670B1 (en) | 2005-01-04 |
EP0852051B1 (de) | 2002-01-02 |
ATE211572T1 (de) | 2002-01-15 |
CA2231504A1 (en) | 1997-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3479691B2 (ja) | 実時間作動での音声対話又は音声命令による1つ又は複数の機器の自動制御方法及びこの方法を実施する装置 | |
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US8688451B2 (en) | Distinguishing out-of-vocabulary speech from in-vocabulary speech | |
US8423362B2 (en) | In-vehicle circumstantial speech recognition | |
KR102643501B1 (ko) | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 | |
US7630878B2 (en) | Speech recognition with language-dependent model vectors | |
US7676363B2 (en) | Automated speech recognition using normalized in-vehicle speech | |
US7725316B2 (en) | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle | |
US9570066B2 (en) | Sender-responsive text-to-speech processing | |
US8880402B2 (en) | Automatically adapting user guidance in automated speech recognition | |
US8438028B2 (en) | Nametag confusability determination | |
US7983916B2 (en) | Sampling rate independent speech recognition | |
US8756062B2 (en) | Male acoustic model adaptation based on language-independent female speech data | |
EP1876584A2 (en) | Spoken user interface for speech-enabled devices | |
US9245526B2 (en) | Dynamic clustering of nametags in an automated speech recognition system | |
US9997155B2 (en) | Adapting a speech system to user pronunciation | |
US9911408B2 (en) | Dynamic speech system tuning | |
WO2006083020A1 (ja) | 抽出された音声データを用いて応答音声を生成する音声認識システム | |
US20120197643A1 (en) | Mapping obstruent speech energy to lower frequencies | |
JP2011203434A (ja) | 音声認識装置及び音声認識方法 | |
US20070129945A1 (en) | Voice quality control for high quality speech reconstruction | |
KR20220129366A (ko) | 음성 인식 시스템 및 그 제어 방법 | |
JP2004184803A (ja) | 車両用音声認識装置 | |
US20240046924A1 (en) | Flexible-format voice command | |
KR20230164494A (ko) | 대화 시스템 및 그 제어 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081010 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091010 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091010 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101010 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101010 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111010 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121010 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131010 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |