JP2005331882A - 音声認識装置、音声認識方法、および音声認識プログラム - Google Patents
音声認識装置、音声認識方法、および音声認識プログラム Download PDFInfo
- Publication number
- JP2005331882A JP2005331882A JP2004152434A JP2004152434A JP2005331882A JP 2005331882 A JP2005331882 A JP 2005331882A JP 2004152434 A JP2004152434 A JP 2004152434A JP 2004152434 A JP2004152434 A JP 2004152434A JP 2005331882 A JP2005331882 A JP 2005331882A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- user
- speech
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 91
- 230000006978 adaptation Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 208000033991 Device difficult to use Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】ユーザからの入力音声を認識して、当該音声に対応する処理を実行する機器において、未知語の登録を容易化することで利便性の向上をはかる。
【解決手段】入力音声の認識に成功した場合は、そのまま認識結果に対応する処理を実行する一方(ステップS404〜S406)、認識に失敗した場合は未知語である入力音声の登録処理へと移行し(ステップS404、ステップS407〜S409)、ユーザに目的の処理を選択させた上で、当該処理を実行する(ステップS406)。
【選択図】 図4
【解決手段】入力音声の認識に成功した場合は、そのまま認識結果に対応する処理を実行する一方(ステップS404〜S406)、認識に失敗した場合は未知語である入力音声の登録処理へと移行し(ステップS404、ステップS407〜S409)、ユーザに目的の処理を選択させた上で、当該処理を実行する(ステップS406)。
【選択図】 図4
Description
この発明は音声認識装置、音声認識方法、および音声認識プログラムに関する。
キーボードやマウスなどから所望の処理を指定させるのでなく、ユーザが発話した音声を認識して、当該音声に対応する処理を実行する機器がすでに実用化されている。その種類は様々であるが、特に目や手による操作が危険を伴う機器、たとえばカーナビゲーションシステムやカーオーディオなどの車載機器に多い。
そして上記機器では、通常、たとえば自車の現在位置を画面表示させる音声として「現在地」が一律に用意されるほか、個々のユーザが任意の音声を任意の処理に対応づけられるようになっている。すなわち、もとからある「現在地」のほか、たとえば「ここはどこ」を上記処理に対応づけて登録することで、以後は「現在地」と発話しても「ここはどこ」と発話しても、同様に自車位置を表示させられるようになる。こうした未知語の登録機能とを備えた機器としては、たとえば下記特許文献1に記載のものが挙げられる。
この特許文献1に記載の従来技術では、音声入力部に音声を入力すると、音声認識部では入力された音声を周波数分析して言葉の特徴パターンを作成し、認識辞書に登録されている言葉の特徴パターンと照合し、一致或いは近似する言葉の特徴パターンに対応する操作情報を操作部へ出力し、操作部を動作させる。操作部の操作が発声者の意図に反しているとき、或いは音声認識部で音声が認識不能と判定されたときは、再度同一の音声を音声入力部に入力すると共に、操作部を手動により操作して発声者の意図する操作内容を選択する。すると、音声認識部では、操作部の操作内容に対応する操作情報を読込み、認識辞書の追加登録部に読込んだ操作情報に対応する言葉の特徴パターンとして、今回作成した言葉の特徴パターンを追加登録する。
しかしながら、たとえば上記特許文献1に記載の従来技術では、未知語を登録するには同じ言葉をユーザがもう一度言い直さなければならなかった。このほか、たとえば機器のモードを「操作モード」から「登録モード」に切り替えなければならないなど、登録にさきだって煩雑・冗長な操作が必要であった。このため特に初心者は、未知語の登録機能を利用しない傾向があり、よく使う機能に覚えやすい言葉を割り当てるなどのカスタマイズをしない結果、機器に使いづらい印象を持ってしまうといった問題点があった。なお、上記は従来技術の問題点の一例に過ぎず、必ずしも従来技術の問題点が上記に限定されるとの趣旨ではない。
上述した課題を解決し、目的を達成するため、請求項1の発明にかかる音声認識装置は、ユーザからの入力音声を認識する音声認識手段と、前記音声認識手段により得られた認識結果の正誤を判定する正誤判定手段と、前記正誤判定手段により前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択手段と、前記入力音声を前記処理選択手段によりユーザが選択した処理の実行を指示するための音声として登録する音声登録手段と、前記処理選択手段によりユーザが選択した処理の実行を指示する実行指示手段と、を備えることを特徴とする。
また、請求項5の発明にかかる音声認識方法は、ユーザからの入力音声を認識する音声認識工程と、前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、を含むことを特徴とする。
また、請求項9の発明にかかる音声認識プログラムは、ユーザからの入力音声を認識する音声認識工程と、前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、をコンピュータに実行させることを特徴とする。
以下に添付図面を参照して、この発明にかかる音声認識装置、音声認識方法、および音声認識プログラムの好適な実施の形態を詳細に説明する。
(実施の形態)
図1は、この発明の実施の形態にかかる音声認識装置のハードウエア構成の一例を示す説明図である。ここでは本発明にかかる音声認識装置の具体例として、たとえば音声による各種処理の実行指示が可能なカーナビゲーションシステムを考えるものとする。図示するように本装置は、少なくともプロセッサ100、メモリ101、マイク102、スピーカ103およびディスプレイ104を備えている。
図1は、この発明の実施の形態にかかる音声認識装置のハードウエア構成の一例を示す説明図である。ここでは本発明にかかる音声認識装置の具体例として、たとえば音声による各種処理の実行指示が可能なカーナビゲーションシステムを考えるものとする。図示するように本装置は、少なくともプロセッサ100、メモリ101、マイク102、スピーカ103およびディスプレイ104を備えている。
また、図2はこの発明の実施の形態にかかる音声認識装置の構成を機能的に示す説明図である。図示するように本装置は、入出力部200、音響分析部201、音声記憶部202、音声認識部203、正誤判定部204、話者適応処理部205、音声登録部206および実行部207を備えている。
まず、入出力部200はユーザからの音声の入力を受け付けたり、ユーザへの通知や問い合わせなどを音や画面の形で出力したりする機能部であり、具体的には図1に示したマイク102、スピーカ103、ディスプレイ104、およびそれらを制御するプロセッサ100により実現される。また、入出力部200は入力音声を一時的に保存しておく入力音声記憶部200aを備えており、これはメモリ101により実現される。
音響分析部201は、入出力部200から入力した音声について、当該音声を特徴づける各種音響パラメータの算出などを行う機能部であり、具体的にはプロセッサ100により実現される。
音声記憶部202は、処理とその実行を指示するための音声(のテンプレート)との対応表を保持する機能部であり、具体的にはメモリ101により実現される。図3は上記対応表の内容を模式的に示す説明図である。図示するように、一つの処理には少なくとも一つの音声が対応づけられている。
音声認識部203は、音響分析部201による分析結果にもとづいて、上記対応表中の音声のうち入力音声に一致するものを特定する機能部であり、具体的にはプロセッサ100により実現される。なお、音声認識の手法としては動的計画法(DPマッチング)、ニューラルネットワークなどもあるが、ここでは現在一般的となっているHMM(隠れマルコフモデル)を採用する。すなわち音声認識部203は、入力音声の音響パラメータをあらかじめ用意されたテンプレート(図3に示した対応表中の各音声)とマッチングし、各テンプレートの尤度(スコア)を算出する。そして認識結果として、尤度が最大となったテンプレートを後述する正誤判定部204に通知する。
正誤判定部204は、音声認識部203から入力した認識結果の正誤を判定するとともに、ユーザが意図する処理の実行指示を後述する実行部207に出力する機能部であり、具体的にはプロセッサ100により実現される。ここでは認識結果の尤度が所定の閾値以上であれば正解とし、当該正解を後述する話者適応処理部205へ、当該正解に対応する処理の実行指示を実行部207へ、それぞれ出力する。一方、尤度が閾値未満であれば不正解とし、後述する音声登録部206に指示して、入力音声を図3の対応表に登録させるとともに、登録時に対応づけられた処理の実行指示を実行部207へ出力する。
話者適応処理部205は、正誤判定部204で認識結果が正解と判定された場合に、上記ユーザの音声の認識率が向上するようテンプレートを適応する処理(話者適応処理)を行う機能部であり、具体的にはプロセッサ100により実現される。なお、上記処理の手法としてはたとえばMLLR、MAP推定法など既知の手法を採用する。
音声登録部206は、正誤判定部204で認識結果が不正解と判定された場合に、入力音声を図3の対応表中のいずれかの処理に対応づける機能部であり、具体的にはプロセッサ100により実現される。実行部207は、正誤判定部204から実行指示のあった処理を実際に実行する機能部であり、具体的にはプロセッサ100のほか、処理に必要な各種ハードウエア(図示せず)により実現される。
次に、図4はこの発明の実施の形態にかかる音声認識装置の動作手順を示すフローチャートである。本装置は、その入出力部200によりユーザからの音声入力を受け付けると(ステップS401)、上記音声について音響分析部201により音響分析を行い(ステップS402)、さらに音声認識部203によりその認識を行う(ステップS403)。
そして、正誤判定部204により認識結果が正解とされた場合(ステップS404:Yes)、正誤判定部204は上記正解を話者適応処理部205に出力し、これを受けた話者適応処理部205が話者適応処理を行う(ステップS405)。また、音声認識部203は上記正解に対応する処理の実行指示を実行部207に出力し、これを受けた実行部207が当該処理を実行する(ステップS406)。
一方、認識結果が不正解とされた場合(ステップS404:No)、正誤判定部204は音声登録部206に指示して、図3に示した対応表へ入力音声を登録させる。すなわち、これを受けた音声登録部206はまず音響分析部201に指示して、入力音声記憶部200a内の入力音声を対象に、当該音声を図3の対応表に追加するのに必要な音響分析(テンプレートを作成するための音響分析)を行わせる(ステップS407)。なお、たとえば音響分析部201内に分析結果記憶部を設け、ステップS402の分析結果を一時的に保存しておくようにすれば、これを使い回すことでステップS407の処理を省略することができる。
次に、音声登録部206は入出力部200に指示して、エラー発生を意味する所定の報知音をスピーカ103に出力させるとともに、図5に示すような処理選択画面をディスプレイ104に表示させる(ステップS408)。そして、図示する画面でユーザが選択した処理を入出力部200から通知されると、図3の対応表中の当該処理のエントリに入力音声のテンプレートを追加する(ステップS409)。その後、音声登録部206は上記テンプレートが対応づけられた処理を正誤判定部204に通知し、これを受けた正誤判定部204から実行部207へ当該処理の実行指示が出力されて、実行部207により実際に実行される(ステップS406)。
たとえばカーナビゲーションシステムである本装置のディスプレイ104に、現在の自車位置を表示させる場合、ユーザは「現在地」と発話することで上記処理を実行させることができる(ステップS401〜S406)。この左側の流れは従来技術と同様であるが、ユーザが上記処理を意図して図3の対応表にない「ここはどこ」を発話した場合、図3中の各音声の尤度はいずれも閾値未満となる結果、処理はステップS404からステップS407〜S409へと分岐する。そしてこの右側の流れで、未知語である「ここはどこ」が、現在の自車位置を表示させるための音声として図3の対応表に追加される。図6は、未知語登録後の上記対応表の内容を模式的に示す説明図である。
以上説明した実施の形態によれば、当初は「現在地」と発話しなければ実行できなかった処理も、「ここはどこ」と発話していったん認識に失敗させ、図5の画面から目的の処理を選択しておくだけで、以後は「現在地」「ここはどこ」のいずれによっても現在の自車位置を画面表示できるようになる。従来必要であった、同じ発話を繰り返したりモードを切り替えたりといった煩雑・冗長な操作が必要なく、操作の中で自然に未知語の登録ができるので、初心者でもよく使う処理に覚えやすい言葉を割り当てるなどして、本装置をより使いやすい形にカスタマイズしてゆくことができる。
また、従来の話者適応処理は発話内容が既知であることを条件とするので、認識が失敗した場合入力音声は単に破棄されていた(発話内容を特定できないため)が、上述した実施の形態では従来破棄されていた情報を、未知語登録機能の利用を促進する目的に有効活用することができる。
なお、上述した実施の形態では認識に失敗すると、そのまま入力音声を所望の処理に登録できる状態になるが、ユーザが発話した音声の登録を望まないこともあるので、たとえばステップS408の後に「今回の音声を登録しますか?」などの問い合わせを発し、ユーザが望んだ場合にのみステップS409の登録を行うようにしてもよい。
また、上述した実施の形態では入力音声に対応する処理を図5の画面から選択させたが、たとえば認識失敗の直後に、ユーザが音声以外の方法(たとえばボタン操作など)で実行を指示した処理に入力音声を対応づけるようにしてもよい。上述した実施の形態では、図3の対応表に存在する処理について新たな音声を追加できるのみであるが、このようにすることで新たな処理と、それに対応する新たな音声とをあわせて追加することが可能となる。
また、上述した実施の形態では一つの処理に音声をいくつでも対応づけることができるが、たとえば処理ごとに5個までというように登録できる音声に制限を設けるようにしてもよい。
また、上述した実施の形態ではたとえば「現在地」が既にあるのに気付かずに、わずかに異なる「現在位置」を登録してしまうといった無駄が生じやすいので、たとえば図5の画面で選択された処理について、初期登録では対応する音声は「現在地」であることをユーザに教示するようにしてもよい。この教示は音声あるいは画面のいずれでも行うことができる。
また、上述した実施の形態では尤度と閾値との大小関係により機械的に認識結果の正誤を判定するので、実際には誤ったテンプレートを正解とし、誤った処理を実行してしまうおそれがある。そこで尤度の高低にかかわらず、認識結果の正誤を逐一ユーザに問い合わせるようにしてもよい。
また、請求項1・請求項5あるいは請求項9に記載の発明によれば、入力音声の認識に失敗した場合はそのまま(特段の操作等は必要なく)当該音声の登録モードへと移行するとともに、当該音声に対応づけられた処理が実行される。一方、請求項2・請求項6あるいは請求項10に記載の発明によれば、入力音声の認識が成功した場合は、そのまま当該音声に対応づけられた処理が実行される。また、請求項3・請求項7あるいは請求項11に記載の発明によれば、認識成功時には話者適応処理もあわせて実行される。また、請求項4・請求項8あるいは請求項12に記載の発明によれば、どの音声が登録されるかをユーザが事前に確認できる。
なお、本実施の形態で説明した音声認識方法は、あらかじめ用意されたプログラムをプロセッサやマイクロコンピュータ等の演算処理装置で実行することにより実現することができる。このプログラムは、ROM、HD、FD、CD−ROM、CD−R、CD−RW、MO、DVD等の演算処理装置で読み取り可能な記録媒体に記録され、演算処理装置によって記録媒体から読み出されて実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
100 プロセッサ
101 メモリ
102 マイク
103 スピーカ
104 ディスプレイ
200 入出力部
201 音響分析部
202 音声記憶部
203 音声認識部
204 正誤判定部
205 話者適応処理部
206 音声登録部
207 実行部
101 メモリ
102 マイク
103 スピーカ
104 ディスプレイ
200 入出力部
201 音響分析部
202 音声記憶部
203 音声認識部
204 正誤判定部
205 話者適応処理部
206 音声登録部
207 実行部
Claims (12)
- ユーザからの入力音声を認識する音声認識手段と、
前記音声認識手段により得られた認識結果の正誤を判定する正誤判定手段と、
前記正誤判定手段により前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択手段と、
前記入力音声を前記処理選択手段によりユーザが選択した処理の実行を指示するための音声として登録する音声登録手段と、
前記処理選択手段によりユーザが選択した処理の実行を指示する実行指示手段と、
を備えることを特徴とする音声認識装置。 - 前記実行指示手段は、前記正誤判定手段により前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項1に記載の音声認識装置。
- さらに、前記正誤判定手段により前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理手段を備えることを特徴とする前記請求項2に記載の音声認識装置。
- 前記音声登録手段は、前記入力音声を登録する前に登録内容を提示する提示手段を備えることを特徴とする前記請求項1〜請求項3のいずれか一つに記載の音声認識装置。
- ユーザからの入力音声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、
前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、
前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、
前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、
を含むことを特徴とする音声認識方法。 - 前記実行指示工程では、前記正誤判定工程で前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項5に記載の音声認識方法。
- さらに、前記正誤判定工程で前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理工程を含むことを特徴とする前記請求項6に記載の音声認識方法。
- 前記音声登録工程では、前記入力音声を登録する前に登録内容を提示することを特徴とする前記請求項5〜請求項7のいずれか一つに記載の音声認識方法。
- ユーザからの入力音声を認識する音声認識工程と、
前記音声認識工程で得られた認識結果の正誤を判定する正誤判定工程と、
前記正誤判定工程で前記認識結果が誤りと判定された場合に、前記入力音声に対応づける処理を前記ユーザに選択させる処理選択工程と、
前記入力音声を前記処理選択工程でユーザが選択した処理の実行を指示するための音声として登録する音声登録工程と、
前記処理選択工程でユーザが選択した処理の実行を指示する実行指示工程と、
をコンピュータに実行させることを特徴とする音声認識プログラム。 - 前記実行指示工程では、前記正誤判定工程で前記認識結果が正しいと判定された場合は前記認識結果に対応づけられた処理の実行を指示することを特徴とする前記請求項9に記載の音声認識プログラム。
- さらに、前記正誤判定工程で前記認識結果が正しいと判定された場合に、前記ユーザからの入力音声の認識率を向上させるための処理を行う話者適応処理工程を含むことを特徴とする前記請求項10に記載の音声認識プログラム。
- 前記音声登録工程では、前記入力音声を登録する前に登録内容を提示することを特徴とする前記請求項9〜請求項11のいずれか一つに記載の音声認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004152434A JP2005331882A (ja) | 2004-05-21 | 2004-05-21 | 音声認識装置、音声認識方法、および音声認識プログラム |
US11/131,218 US20050261903A1 (en) | 2004-05-21 | 2005-05-18 | Voice recognition device, voice recognition method, and computer product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004152434A JP2005331882A (ja) | 2004-05-21 | 2004-05-21 | 音声認識装置、音声認識方法、および音声認識プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005331882A true JP2005331882A (ja) | 2005-12-02 |
Family
ID=35376319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004152434A Pending JP2005331882A (ja) | 2004-05-21 | 2004-05-21 | 音声認識装置、音声認識方法、および音声認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050261903A1 (ja) |
JP (1) | JP2005331882A (ja) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008069139A1 (ja) * | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
JP2009532744A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムにモデルを適合させるための方法およびシステム |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
JP2018180260A (ja) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | 音声認識装置 |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009020291A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | 音声処理装置および通信端末装置 |
KR20110010939A (ko) * | 2009-07-27 | 2011-02-08 | 삼성전자주식회사 | 휴대용 단말기에서 음성 인식 성능을 향상시키기 위한 장치 및 방법 |
KR101295711B1 (ko) * | 2011-02-15 | 2013-08-16 | 주식회사 팬택 | 음성 인식으로 애플리케이션의 실행 가능한 이동통신 단말 장치 및 방법 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN103944983B (zh) * | 2014-04-14 | 2017-09-29 | 广东美的制冷设备有限公司 | 语音控制指令纠错方法和系统 |
CN105321516B (zh) * | 2014-06-30 | 2019-06-04 | 美的集团股份有限公司 | 语音控制方法和系统 |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10547729B2 (en) | 2017-03-27 | 2020-01-28 | Samsung Electronics Co., Ltd. | Electronic device and method of executing function of electronic device |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11340925B2 (en) | 2017-05-18 | 2022-05-24 | Peloton Interactive Inc. | Action recipes for a crowdsourced digital assistant system |
EP3635578A4 (en) | 2017-05-18 | 2021-08-25 | Aiqudo, Inc. | SYSTEMS AND PROCEDURES FOR CRWODSOURCING ACTIONS AND COMMANDS |
US11043206B2 (en) | 2017-05-18 | 2021-06-22 | Aiqudo, Inc. | Systems and methods for crowdsourced actions and commands |
US10838746B2 (en) * | 2017-05-18 | 2020-11-17 | Aiqudo, Inc. | Identifying parameter values and determining features for boosting rankings of relevant distributable digital assistant operations |
US11056105B2 (en) | 2017-05-18 | 2021-07-06 | Aiqudo, Inc | Talk back from actions in applications |
KR102356889B1 (ko) | 2017-08-16 | 2022-01-28 | 삼성전자 주식회사 | 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치 |
US11450314B2 (en) * | 2017-10-03 | 2022-09-20 | Google Llc | Voice user interface shortcuts for an assistant application |
CN108105944A (zh) * | 2017-12-21 | 2018-06-01 | 佛山市中格威电子有限公司 | 一种用于空调器控制及具有语音反馈的语音交互系统 |
US10768954B2 (en) | 2018-01-30 | 2020-09-08 | Aiqudo, Inc. | Personalized digital assistant device and related methods |
CN113160812A (zh) * | 2021-02-23 | 2021-07-23 | 青岛歌尔智能传感器有限公司 | 语音识别装置、语音识别方法及可读存储介质 |
EP4332958A4 (en) * | 2021-06-07 | 2024-09-25 | Panasonic Ip Corp America | VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROGRAM |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216177A (ja) * | 2002-01-18 | 2003-07-30 | Altia Co Ltd | 車両用音声認識装置 |
JP2003316377A (ja) * | 2002-04-26 | 2003-11-07 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2003323192A (ja) * | 2002-05-08 | 2003-11-14 | Matsushita Electric Ind Co Ltd | 単語辞書登録装置および単語辞書登録方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
US5799279A (en) * | 1995-11-13 | 1998-08-25 | Dragon Systems, Inc. | Continuous speech recognition of text and commands |
US7200555B1 (en) * | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
US20020178004A1 (en) * | 2001-05-23 | 2002-11-28 | Chienchung Chang | Method and apparatus for voice recognition |
US7047200B2 (en) * | 2002-05-24 | 2006-05-16 | Microsoft, Corporation | Voice recognition status display |
JP3724461B2 (ja) * | 2002-07-25 | 2005-12-07 | 株式会社デンソー | 音声制御装置 |
US7310602B2 (en) * | 2004-09-27 | 2007-12-18 | Kabushiki Kaisha Equos Research | Navigation apparatus |
-
2004
- 2004-05-21 JP JP2004152434A patent/JP2005331882A/ja active Pending
-
2005
- 2005-05-18 US US11/131,218 patent/US20050261903A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003216177A (ja) * | 2002-01-18 | 2003-07-30 | Altia Co Ltd | 車両用音声認識装置 |
JP2003316377A (ja) * | 2002-04-26 | 2003-11-07 | Pioneer Electronic Corp | 音声認識装置及び音声認識方法 |
JP2003323192A (ja) * | 2002-05-08 | 2003-11-14 | Matsushita Electric Ind Co Ltd | 単語辞書登録装置および単語辞書登録方法 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8756059B2 (en) | 2005-02-04 | 2014-06-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US9202458B2 (en) | 2005-02-04 | 2015-12-01 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US8612235B2 (en) | 2005-02-04 | 2013-12-17 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US8374870B2 (en) | 2005-02-04 | 2013-02-12 | Vocollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
JP2009532744A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムにモデルを適合させるための方法およびシステム |
GB2457855B (en) * | 2006-11-30 | 2011-01-12 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
US8401847B2 (en) | 2006-11-30 | 2013-03-19 | National Institute Of Advanced Industrial Science And Technology | Speech recognition system and program therefor |
WO2008069139A1 (ja) * | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
JP2008158510A (ja) * | 2006-11-30 | 2008-07-10 | National Institute Of Advanced Industrial & Technology | 音声認識システム及び音声認識システム用プログラム |
GB2457855A (en) * | 2006-11-30 | 2009-09-02 | Nat Inst Of Advanced Ind Scien | Speech recognition system and speech recognition system program |
JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11810545B2 (en) | 2011-05-20 | 2023-11-07 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9697818B2 (en) | 2011-05-20 | 2017-07-04 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11817078B2 (en) | 2011-05-20 | 2023-11-14 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10685643B2 (en) | 2011-05-20 | 2020-06-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
JP2018180260A (ja) * | 2017-04-12 | 2018-11-15 | トヨタ自動車株式会社 | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US20050261903A1 (en) | 2005-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
JP6570651B2 (ja) | 音声対話装置および音声対話方法 | |
US5797116A (en) | Method and apparatus for recognizing previously unrecognized speech by requesting a predicted-category-related domain-dictionary-linking word | |
JP4131978B2 (ja) | 音声認識機器制御装置 | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
JP3627006B2 (ja) | 音声を転写するための方法及び装置 | |
JP4260788B2 (ja) | 音声認識機器制御装置 | |
JPWO2017145373A1 (ja) | 音声認識装置 | |
JP2003022087A (ja) | 音声認識方法 | |
US20020123894A1 (en) | Processing speech recognition errors in an embedded speech recognition system | |
JP2013134302A (ja) | 音声認識装置 | |
KR20230150377A (ko) | 대화 동안 텍스트 음성 변환에서의 즉각적인 학습 | |
JP2009210703A (ja) | 音声認識装置 | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
JP5034323B2 (ja) | 音声対話装置 | |
JP3837061B2 (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
JP2010197858A (ja) | 音声対話システム | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP3718088B2 (ja) | 音声認識修正方式 | |
JP2004251998A (ja) | 対話理解装置 | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4212947B2 (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP3849283B2 (ja) | 音声認識装置 | |
JP2006023444A (ja) | 音声対話装置 | |
JP2003330488A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070412 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100803 |