JP6435312B2 - 並列認識タスクを用いた音声認識 - Google Patents

並列認識タスクを用いた音声認識 Download PDF

Info

Publication number
JP6435312B2
JP6435312B2 JP2016242135A JP2016242135A JP6435312B2 JP 6435312 B2 JP6435312 B2 JP 6435312B2 JP 2016242135 A JP2016242135 A JP 2016242135A JP 2016242135 A JP2016242135 A JP 2016242135A JP 6435312 B2 JP6435312 B2 JP 6435312B2
Authority
JP
Japan
Prior art keywords
speech
recognition
srs
automatic speech
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016242135A
Other languages
English (en)
Other versions
JP2017076139A (ja
Inventor
ブライアン・ストロープ
フランソワーズ・ボーフェイ
オリヴィエ・ショアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2017076139A publication Critical patent/JP2017076139A/ja
Application granted granted Critical
Publication of JP6435312B2 publication Critical patent/JP6435312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

本明細書は、音声認識に関する。
多くのアプリケーションが、ボイスコマンドまたはボイス照会の形の入力を受け取ることから恩恵を得る。これは特に、ユーザの指で操作される小型のキーパッドや他の装置を介して入力を入力することが、装置の縮小されたサイズのために難しいことのある、携帯電話などのモバイル装置上で動作中のアプリケーションに関して当てはまる。同様に、モバイル装置が別の装置上で動作中のアプリケーション(例えば、Eメールサーバ、マップ/方角サーバ、または電話帳サーバ)にアクセスするのに使用される場合、小型のキーパッドなどを介してコマンドを入力することなどの代わりに、アプリケーションにボイスコマンドを送ることは、ユーザにとってずっと容易であることがある。
アプリケーションが音声入力に従って動作するために、音声認識器が、音声入力をアプリケーションで使用される記号表現に変換することができる。現在のいくつかの音声認識器は、音声入力内の予想される音声を識別しようと試みる単一認識システムを使用することがある。単一音声認識システムの使用により、音声識別の精度が、単一音声認識システムに関連する精度に限定されることがある。別の現在の音声認識器は、連続音声認識を使用することがあり、連続音声認識では、音声入力に対して2つ以上のパスが実施され、どの音声が音声入力によって表される可能性が最も高いかが決定される。複数のパスの使用により、最終的音声認識結果を生成するのに必要な時間が増大することがある。
さらに別の現在の音声認識器では、複数の音声認識システムがそれぞれ、音声入力を完全に処理し、次いで結果を出力することができる。この複数の音声認識システムの使用でも、処理時間の長さが、最も遅い音声認識システム(および/または音声認識アルゴリズムを実行する最も遅いコンピュータ)によって決定されるので、最終的結果を生成するのに必要な時間が増大することがある。
一般には、本文書は、複数の音声認識システム(SRS)を並列に使用して音声を認識するが、生成した認識結果が所望の閾値を満たす場合、完了前に一部を停止することを説明する。例えば、各SRSは、音声認識タスクを実施する際に異なる待ち時間および精度を有することがある。待ち時間の短いSRSが、音声認識結果と、結果の高い信頼度を表す信頼値とを出力する場合、残りのSRSによって実行される音声認識タスクを停止することができる。信頼値が信頼閾値に比べて低過ぎる場合、別のSRSに結果を生成することを許可することができる。こうした結果が信頼閾値を満たす場合、音声認識タスクをまだ完了していないSRSを停止することができ、以下同様である。
第1の一般的態様では、コンピュータで実施される方法が説明される。この方法は、音声信号を受け取り、複数の音声認識システム(SRS)による音声認識タスクを開始することを含む。各SRSは、音声信号に含まれると予想される音声を指定する認識結果と、音声結果の正確さの信頼度を示す信頼値とを生成するように構成される。この方法はまた、1つまたは複数の認識結果、および1つまたは複数の認識結果に関する1つまたは複数の信頼値を生成すること、1つまたは複数の信頼値が信頼閾値を満たすかどうかを判定すること、認識結果を生成していないSRSに関する音声認識タスクの残りの部分を停止すること、および生成した1つまたは複数の音声結果のうちの少なくとも1つに基づいて最終的な認識結果を出力することを含む音声認識タスクの一部を完了することも含む。
第2の一般的態様では、音声認識タスクを開始して、受け取った音声信号内に符号化された予想される音声を識別する複数の音声認識システムを含むシステムが説明される。各音声認識システム(SRS)は、認識結果と、認識結果の正確さの信頼度を示す信頼値とを生成するように構成される。このシステムはまた、認識結果がSRSによって生成されたときに認識結果を受け取り、生成された認識結果に関連する信頼値を受け取る認識管理モジュールをも含む。受け取った信頼値のうちの1つまたは複数が信頼閾値を満たす場合、認識管理モジュールは、認識結果を生成していないSRSによる未完了の音声認識タスクを停止する。このシステムは、生成された認識結果の信頼値に基づいて選択された最終的な認識結果を送るインターフェースを含む。
第3の一般的態様では、受け取った音声信号に関する音声認識タスクを開始する複数の音声認識システムを含むシステムが説明され、各音声認識システム(SRS)は、音声信号内の予想される音声を識別する認識結果と、認識結果の正確さの信頼度を示す信頼値とを生成するように構成される。このシステムは、1つまたは複数の認識結果がSRSによって生成されたときに、1つまたは複数の認識結果および1つまたは複数の対応する信頼値を各SRSから受け取り、受け取った信頼値のうちの1つまたは複数が信頼閾値を満たす場合、認識結果を生成していないSRSによる未完了の音声認識タスクを停止し、生成された認識結果の信頼値に基づいて最終的な認識結果を選択する手段を含む。このシステムはまた、音声信号内の予想される音声を表す最終的な認識結果を送るインターフェースをも含む。
ここで説明されるシステムおよび技法は、以下の利点のうちの1つまたは複数を実現することができる。まず、複数の音声認識システムを使用して音声を並列に復号化するシステムは、満足の行く結果を受け取った場合に、終了していない認識タスクを停止することが可能となるので、待ち時間および精度の結合最適化(joint optimization)の改善を実現することができる。さらに、複数の認識システムを使用するシステムは、拒否率を改善する(すなわち、拒否率を低減する)ことができる。このシステムはまた、複数の認識システムによって出力された認識結果を比較することによって精度を向上させることができる。認識性能の向上を実現するために使用される計算資源量のスケーリング(例えば向上)のためのフレームワークも提供することができる。
1つまたは複数の実施形態の詳細が、添付の図面および以下の説明で述べられる。この説明および図面ならびに特許請求の範囲から、他の特徴および利点が明らかとなるであろう。
音声を認識する例示的システムの図である。 音声伝送に埋め込まれた音声を復号化する例示的システムのより詳細な図である。 並列復号化を使用して音声を認識する例示的方法のフローチャートである。 例示的音声認識タスクの実行を示す図である。 例示的音声認識タスクの実行を示す図である。 例示的音声認識タスクの実行を示す図である。 SRSによって生成される例示的認識結果および信頼値、ならびに最終的な認識結果を選択する方法の図である。 SRSによって生成される例示的認識結果および信頼値、ならびに最終的な認識結果を選択する方法の図である。 SRSによって生成される例示的認識結果および信頼値、ならびに最終的な認識結果を選択する方法の図である。 最終的な認識結果の選択で使用される値を重み付けするのに使用される信頼値の分布の例示的グラフである。 認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。 認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。 認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。 認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。 認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。 音声復号化システムの実行時動作中にSRS間の共通部分がどのように適応または変化することができるかを示すベン図である。 音声復号化システムの実行時動作中にSRS間の共通部分がどのように適応または変化することができるかを示すベン図である。 SRS誤り率と認識結果に関連する重みとの間の例示的相関を示すグラフである。 本文書に記載のシステムおよび方法を実装するのに使用することのできるコンピューティング装置のブロック図である。
様々な図面内の同様の参照記号は同様の要素を示す。
本文書は、複数の音声認識システム(SRS)を使用して発話を復号化するシステムおよび技法を説明する。ある実装では、各SRSは、精度、待ち時間、辞書などの異なる特性を有し、その結果、複数のSRSの一部が他のSRSの前に認識結果を出力する。出力認識結果が一定の要件を満たす(例えば、生成された結果のうちの1つまたは複数が、閾値信頼度を満たし、またはそれを超える指定の信頼値に関連付けられる)場合、音声復号化システムが、残りのSRSが音声認識タスクを完了する前に残りのSRSを停止することができる。
図1は、音声を認識する例示的システム100の図である。一般には、システム100は、例えば携帯電話から受け取った音声信号を処理する複数のSRSを含む。この例では、ユーザが音声対応電話帳サービスを呼び出し、音声対応電話帳サービスは、ユーザの音声を含む音声信号を複数のSRSを有する音声認識器に転送する。
複数のSRSは、音声信号を並列に処理することができるが、一部のSRSは、他のSRSの前に認識結果を生成することができる。認識結果を生成するSRSが、こうした結果で十分に高い信頼度を表す場合、残りの未完了の音声認識タスクを停止することができ、SRSのすべてがその音声認識タスクを完了するのを待機するのではなく、現在生成される認識結果に基づいて最終的な認識結果を決定することができる。
例示的システム100は、音声入力を音声信号104の形で音声対応電話帳情報サーバ106に送る携帯電話102を含み、音声対応電話帳情報サーバ106は、携帯電話ユーザが電話帳情報を口頭で要求することを可能にし、要求された情報で応答する。
図1の例では、情報サーバ106は、音声信号104に埋め込まれた音声を復号化するために音声認識器108に音声信号104を送る。あるアプリケーションでは、音声認識器108は、並列に動作して音声信号104内の音声を復号化する複数のSRSA-Eを含む。
音声認識システム(SRS)管理モジュール110は、SRSのいずれかが認識結果を生成したかどうかを監視し、そうした結果に関連する信頼値を収集する。監視は、SRSの並列実行を示すダイアグラム112で示されている。ダイアグラム112は、SRSAが最初に信頼値0.3で認識結果を生成することを示す。次に、SRSEが、信頼値0.6で認識結果を生成する。その少し後に、SRSBが、信頼値0.8で認識結果を生成する。SRS管理モジュール110は、認識結果がSRSBで生成された後、SRSC,Dで実施される残りの音声認識タスクを停止することができる。この実装では、SRSBで生成された認識結果が、所定の信頼閾値を満たす信頼値を有するからである。
ある実装では、SRS管理モジュール110内の最終結果選択モジュール113が、最終的な認識結果114を選択して、音声対応電話帳情報サーバ106に出力することができる。例えば、SRS管理モジュール110は、音声認識タスクを完了したSRSA,B,Eによって出力される、生成された1組の認識結果および関連する信頼値116に基づいて、最終的な認識結果を選択することができる。ある実装では、最終的な認識結果114は、音声信号104から復号化された推定音声の記号表現である。例えば、電話帳情報サーバ106が、都市名と州名を言うようにユーザに促した可能性がある。発話された都市名と州名は、音声信号104として符号化することができ、音声信号104が携帯電話102のユーザから受信され、音声認識器108で復号化される。ある実装では、最終的結果は、音声信号104によって表される可能性が最も高いとデコーダが判定した音声である。
SRSによって出力される信頼値116は、いくつかの方法に従って生成することができる。ある実装では、第1SRSは、発話の識別に関して、いくつかの仮説、または推測を生成することができる。生成された最上の仮説を、SRSで生成された競合する仮説と比較することができ、信頼値は、生成された最上の仮説と、競合する仮説との間の認識スコアの差に基づいて変化することができる。
さらに別の例では、第1認識結果に関する信頼値は、認識結果の生成、またはフロントエンド信号解析の計算で使用される信号または特性に基づくことができる。例えば、信号は、探索で使用されるいくつかの競合する仮説、または調査される探索グラフの密度を含むことができ、フロントエンドの例は、ノイズ特性に対する推定信号、または推定チャネルタイプ(例えば、ハンズフリーとセルラと陸線)の既存のモデルに対する合致に基づくこうしたチャネルタイプを含むことができる。こうした信号の組合せは、提供されたデータに基づいて条件付きで最適化することができる。
信頼度は、音響モデルおよび言語モデルからのスコアの非線形結合として推定することもできる。例えば、最上の仮説が与えられると、システムは、別々の言語モデルスコア(例えば、音声が処理される前の、認識結果に関する事前推定)、および音響モデルスコア(例えば、この発話が、最上の結果に関連する音響単位とどれほど良く合致したか)を抽出することができる。次いで、システムは、提供されたデータにわたって条件付きで最適化されたこうした2つのスコアの非線形結合として合計信頼度結果を推定することができる。
スコアに加えて、信頼度を最適するのに使用することのできる別の信号が、言語モデルを介して伝えられる経路のタイプに基づく。例えば、nグラム言語モデルでは、システムが特定の3ワードシーケンスに遭遇しなかったとき、システムは「バックオフ」することができ、すなわちシステムが遭遇した2ワードシーケンスから3ワードシーケンスに関するプライヤ(prior)を推定することができる。探索が所与の仮説に関するバックオフ推定を経なければならない回数をカウントすることにより、所与の発話に関する信頼度を条件付きで推定するときに使用することのできる別の信号が与えられる。
さらに別の実装では、信頼値は、認識結果が正しいという事後確率でよい。ある実装では、事後確率は、格子密度計算に基づいて計算することができる。別の例では、事後確率は、モノフォンループ、主音響モデルよりも少ないパラメータでトレーニングされたオールスピーチ(all-speech)gmmなどの音声の具体性の低い音響モデルを使用する、すべての音声のより汎用的なモデルと、最上の仮説を比較することによって求めることができる。こうした信頼度に関する事後推定の方法のどちらも当技術分野で周知であり、こうした推定の組合せも同様である。
ある実装では、信頼値が、複数の技法を使用して計算される。例えば、信頼値は、事後確率、ならびに音声認識タスク中に生成された他の認識結果と比べた結果の類似性に基づく。
選択モジュール113は、最終的な認識結果114をインターフェース118に送ることができ、インターフェース118は、最終的な認識結果114を音声対応電話帳情報サーバ106に送ることができる。ある実装では、インターフェース118は、情報サーバ106で実行されるソフトウェアとインターフェースする1組のAPIを使用する。例えば、情報サーバ106は、都市、州、および商号のテキスト表現を入力するための共通の方法を有するソフトウェアを実行することができる。別の実装では、インターフェース118は、ネットワークを介して情報サーバ106に情報を送信するネットワーキングプロトコル(例えばTCP/IP)を含むことができる。
図1は、別々のコンピューティング装置上の電話帳情報サーバ106および音声認識器を示すが、これは必要であるわけではない。ある実装では、どちらのシステムも単一のコンピューティング装置上に実装することができる。同様に、各システムは、いくつかのコンピューティング装置を使用して実装することができる。例えば、各SRSは、図2に示されるように1つまたは複数のコンピュータを使用して実装することができる。
図2は、音声伝送に埋め込まれた音声を復号化する例示的システム200の図である。例示のために、システム200が、音声伝送セグメント202および音声認識器セグメント204という2つのセグメントに分割される。音声伝送セグメント202は、ユーザからアプリケーションサーバに音声信号を送信する例示的アーキテクチャを示す。音声認識器セグメント204は、音声伝送で表される音声を解釈または復号化する例示的アーキテクチャを示す。この実装では、復号化がアプリケーションサーバの代わりに実施され、復号化音声が、ユーザの要求を処理する際に使用するためにアプリケーションサーバに送り戻される。
ある実装では、システム200、音声伝送セグメント202は、携帯電話206などの電話装置を含み、電話装置は、ネットワーク(例えば、POTS、セルラ、インターネットなど)を介して音声信号208を電話サーバ210に送信する。電話サーバは、音声信号を、ソフトウェアアプリケーションサーバ212などの別のコンピューティング装置に送信することができ、または後で説明する音声認識システムに直接送信することができる。
ソフトウェアアプリケーションサーバ212は、ユーザが口頭で対話しているソフトウェアアプリケーションを含むことができる。例えば、ソフトウェアアプリケーションサーバはカレンダアプリケーションでよい。ユーザは、カレンダアプリケーションを呼び出し、カレンダアプリケーションが2012年5月16日の午後1:30から午後2:00までのイベントを作成することを要求することができる。ソフトウェアアプリケーションサーバ212は、受け取った、イベント作成を要求する音声入力を復号化のために音声認識器セグメント204に転送することができる。
ある実装では、音声認識器セグメント204は、音声認識システム、SRSA-D、および音声認識システム(SRS)管理モジュールを含み、SRS管理モジュールは、音声信号208によって表される可能性が最も高いのはどの発話かを決定する際に使用するためにSRSを調整することができる。
各SRSは、1つまたは複数の方式の点で異なる可能性がある。ある実装では、SRSは、その基礎となる音響モデルによって異なることがある。例えば、異なる音響モデルは、特定の条件、例えばユーザの性別、アクセント、年齢の範囲、または特定の背景雑音条件および前景雑音条件(foreground noise condition)、または特定の伝送チャネルを目標とすることができる。音響モデルは、そのアーキテクチャおよびサイズによって異なることもあり、例えばパラメータの少ない小型のモデルは、より高速な認識を生成することができ、パラメータの多い大型のモデルは、より正確な結果を生成することができる。他の例では、音響モデルは、そのトレーニング手順によって異なることがある(例えば、異なる確率化トレーニングセットを使用してモデルをトレーニングすることができ、または異なるトレーニングアルゴリズムを使用することができる)。
ある実装では、SRSはその言語モデルによって異なることがある。例えば、モデルは、異なるタイプのデータ、例えば異なる領域特有の言語モデル、異なる細粒度、または異なる地理的位置を目標とすることができる。別の例では、モデルは、そのアーキテクチャ、サイズ、トレーニング手順などによって異なることがある。
さらに別の実装では、SRSは、エンドポインタ、フロントエンド、辞書、信頼度推定アルゴリズム、探索構成などの別の構成要素によって異なる可能性がある。
例示のために、SRSDに関する言語モデル252、音響モデル254、および音声認識アルゴリズム256が図2に示されている。
ある実装では、SRS管理モジュール250が音声信号208を受信したとき、SRS管理モジュール250はプロセスを開始し、そのプロセスによって、着信発話がSRSのうちの2つ以上を使用して並列に認識される。例えば、4つの音声認識タスクが、音声信号208で表される同じ発話を認識しようと試みて、4つのSRS(SRSA-D)によって並列に実行される。
ある実装では、各SRSは特定の待ち時間を有することがある。待ち時間は、SRSアーキテクチャ(例えば、音響モデル、言語モデル、または他の構成要素)に依存することがあるが、音声認識タスクの特定の具体化に基づいて変化することもある。例えば、発話が一定のグループのワード(例えば、yes、no、nope、yeah、肯定的、否定的、no way、yipperなど)内に含まれることを示す情報をSRSが有する場合、特定のモデルに関する待ち時間は、発話が発せられた制限された文脈を示す情報をSRSが有さないとき(例えば、発話が一般疑問文の文脈ではなかった)よりもずっと短いことがある。
ある実装では、各SRSは、その音声認識タスクの完了時に、認識結果(例えば、着信発話が何を言ったかをSRSが決定したもの)と、SRSがその結果の正確さにどれほど自信があるかの尺度とを出力する。
ある実装では、SRS管理モジュール250は、SRSによって生成される認識結果262を追跡する認識結果モニタ258を有する。結果モニタ258はまた、認識結果262に関連する信頼値264、またはスコアも監視することができる。
ある実装では、結果モニタ258は、各認識結果に関する組合せ信頼度スコアを計算することができる。例えば、SRSAおよびSRSBは、着信発話に関する認識結果「5月16日」を生成することがある。SRSAは、その結果を信頼値0.8と関連付けることがあり、SRSBは、その結果を信頼値0.7と関連付けることがある。結果モニタ258は、結果「5月16日」に関する現在の移動平均(running average)が0.75(すなわち、(0.8+0.7)/2)であることを計算することができる。認識結果(および対応する信頼値)がSRSによって生成されるごとに、組合せ信頼値を更新することができる。
SRS管理モジュール250はまた、各SRSについての待ち時間(例えば、音声認識タスクの完了までの実際の時間または推定時間)を追跡する待ち時間モニタ260をも含むことができる。例えば、待ち時間モニタ260は、SRSが認識結果を生成するのに特定の音声認識タスクがどれほどの時間を要するかを追跡することができる。
待ち時間モニタ260はまた、(例えば、SRSが認識結果を出力したかどうかを監視することによって)SRSが音声認識タスクを完了したか否かを監視することもできる。さらに、待ち時間モニタ260は、SRSが音声認識タスクを完了するための予測待ち時間を推定することができる。例えば、待ち時間モニタ260は、SRSが類似の音声認識タスクを完了するのにどれほどの時間がかかったか(例えば、促される特定の質問に対する回答などの類似の文脈で話された発話をSRSが復号化するのに以前にどれほどの時間がかかったか)を示す、SRSに関して収集された経験的情報にアクセスすることができる。
待ち時間モニタ260はまた、SRSが音声認識タスクを完了するための推定時間を求めるのに、基礎となるモデルの特性についての情報にもアクセスすることができる(例えば、待ち時間モニタ260は、認識結果を識別するために探索しなければならないワードの辞書が大きいために、SRSが音声認識を完了するのにかかる時間が長くなる可能性があるかどうかを判定することができる)。
SRS管理モジュールは、待ち時間モニタ260および/または認識結果モニタ258と通信して、受信した音声信号208の復号化をまだ完了していないSRSについて停止コマンド266を送るかどうかを判定するSRSアボータ(aborter)270を含むことができる。例えば、SRSアボータ270は、追跡される信頼値および/または待ち時間が動作点または動作曲線を満たすかどうかを判定することができる。そうである場合、残りのすべての音声認識を停止することができる。
単純な例では、SRS管理モジュール250は、任意の未完了音声認識タスクを停止する前に、認識結果に関する信頼閾値0.75に達するべきであると決定することができる。ある実装では、信頼閾値は、異なる音声認識タスクについて変化することができる。例えば、特定の音声認識タスクに関連する文脈情報が、認識結果が比較的少数の発話に限定される(例えば、認識タスクが、ユーザに提示された一般疑問文に対する回答の文脈である)ことを示す場合、SRSアボータ270は、信頼値が比較的高い(例えば、0.8、0.9、0.95)はずであると判定することができる。
認識結果が多数の予想される発話のうちのいずれか1つを含む可能性があることを文脈が示す場合(例えば、ユーザが「今日何をしたいですか」などの自由回答式の質問を尋ねられる)、SRSアボータ270は、認識結果に関する信頼閾値が比較的低い可能性があり(例えば、0.49、0.55、0.61)、それでもなおSRS管理モジュール250にとって受け入れられると判定することができる。
ある実装では、しきい信頼点(例えば0.75)が認識結果のうちの1つによって満たされる場合、アボータ270は、終了していない任意のSRSに停止コマンド266を送ることができる。例えば、SRSA,Bの組合せ信頼値が0.75以上である場合、アボータ270は、認識結果をまだ生成していないSRSに停止コマンド266を送ることができる。
別の例では、認識結果のうちの1つが0.75以上の信頼値を有する場合、アボータ270は停止コマンド266を送ることができる。この場合、信頼値は、組合せ信頼値ではないことがあり、その代わりに、単一のSRSによって生成された認識結果に関連する単一信頼値でよい。
別の実装では、SRSアボータ270は、SRSに関する実際の待ち時間または推定待ち時間に基づいて停止コマンドを送ることができる。例えば、SRSAおよびSRSBが認識結果を生成し、認識結果が非常に低い信頼値に関連付けられる場合、SRSアボータ270は、残りの終了していない音声認識タスクを停止することができる。この場合、他のSRSが高信頼値を有する認識結果を生成していないので、認識タスクを完了していないSRSがそのような認識結果を生成しないという仮定の下で、残りの音声認識タスクを取り消すことができる。
残りのSRSが終了するのを待機する代わりに、ある実装では、SRSアボータ270は、停止コマンド266を送り、ユーザが発話274を繰り返すように要求を受けるプロセスを開始することができる。次いで、SRSは、新しい発話を復号化することを試みることができる。
別の実装では、認識結果が信頼値または他のパラメータに基づいて満足の行くものではない場合、SRS管理モジュール250は、人間のオペレータに切り換えるように要求が行われるプロセスを開始することができる。例えば、音声信号をコールセンタ278に送ることを示す矢印276で示されるように、人間のオペレータは、ユーザに応答して音声信号を傍受することができる。人間のオペレータは、ユーザによって伝達される要求または情報に対処することができる。
ある実装では、SRSアボータ270はまず、待ち時間モニタ260に照会して、終了していないSRSに停止コマンド266を送るかどうかを決定することができる。例えば、SRSアボータ270が待ち時間モニタ260に照会して、終了していないSRSのうちの1つが比較的短い時間量で完了する可能性が高いと判定した場合、SRSアボータ270は延期して、ほぼ完了しているSRSから結果を得ることができる。結果が生成された後、SRSアボータ270は停止コマンド266を送り、残りの終了していないSRSが音声認識を完了するのを停止することができる。
ある実装では、追加の認識結果および関連情報が、ほぼ終了しているSRSが完了するまで停止コマンドを送ることを遅延するのに足りるほど価値があることがある。例えば、ほぼ終了しているSRSに関連する特性が、その認識結果が以前に完了したSRSの結果よりもしばしば正確であることを示す場合、アボータ270は、残りの終了していない音声認識タスクを停止する前に、ほぼ終了しているSRSが認識結果を生成するまで待機することができる。
ある実装では、1つまたは複数の変数を有する関数を使用して信頼閾値が求められる。例えば、信頼度関数は、信頼値および待ち時間を含む変数を有することができる。生成された信頼値および観測された待ち時間が信頼度関数を満たす場合、アボータ270は、終了していない任意の音声認識タスクを取り消すことができる。例えば、短い待ち時間内で、信頼度関数は、信頼度関数が満たされるために信頼値が非常に高くなるべきであることを指示することがある。このことは、アボータ270が停止コマンドを迅速に発行する場合、他の潜在的認識結果が生成されないので、生成される結果が正しい確率が非常に高いはずであるという仮定に部分的に基づくことができる。処理するのに長くかかる音声認識タスクはより難しい可能性があり、したがって結果の信頼度が低くなる可能性が高いという仮定の下で、待ち時間が増大するにつれて、必要な信頼値は低下することがある。
SRS管理モジュール250はまた、最終結果選択モジュール280をも含むことができ、ある実装では、最終結果選択モジュール280は、生成された認識結果から最終的な認識結果を選択する。例えば、選択モジュール280は、最高の組合せ信頼値を有する認識結果、または最高の単一信頼値を有する認識結果を選択することができる。
ある実装では、最終的な認識結果の選択は、どのSRSが認識結果を生成したかに基づいて影響を受ける可能性がある。例えば、比較的異なる構成要素(例えば、言語モデル、音響モデル、音声認識アルゴリズムなど)を有するSRSおよび/または異なる認識結果を通常は生成するSRSによって認識結果が生成される場合、選択モジュール280は、認識結果の選択を重み付けし、または支持することができる。
ある実装では、SRS相関モニタ282が、SRSに関する出力認識結果間の相関を追跡することができる。2つのSRSの相関が高くないことを出力認識結果が示すが、特定の認識タスクではその2つのSRSが同一の認識結果を生成する場合、最終的な認識結果の選択で、その結果をより強く重み付けし、または支持することができる。あるいは、認識結果を生成するSRSの相関が高い場合、最終的な認識結果の選択で結果が必ずしも支持されないように、認識結果を割り引き、または重み付けしないことができる。
相関モニタ282は、SRSで生成された認識結果に基づいて、さらに2つのSRS間の相関を指定する相関値を動的に更新することができる。例えば、低い相関値に関連する2つのSRSは、類似の認識結果の生成を開始することができる。相関モニタ282は、相関値を更新して(例えば増加させて)、SRS間の認識結果の重複の増大を反映させることができる。
最終結果選択モジュール280が最終的結果を識別した後、SRS管理モデルは、音声信号の復号化を要求したソフトウェアアプリケーションサーバに結果を送り戻すことができる。ソフトウェアアプリケーションサーバは、復号化音声信号を使用して、ユーザの要求を処理することができる。
図3は、並列復号化を使用して音声を認識する例示的方法300のフローチャートである。方法300は、例えば、システム100および200などのシステムで実施することができ、提示がわかりやすいように、以下の説明では、この方法を説明する一例に関する基礎としてシステム100および200を用いる。しかし、別のシステムまたはシステムの組合せを使用して方法300を実施することもできる。
ステップ302では、音声信号が受け取られる。例えば、音声認識器108が音声信号104を受け取ることができる。ある実装では、音声認識器108に送る前に、処理のために音声信号104が既にサンプリングされ、デジタルフレームにセグメント化されている。別の実装では、音声認識器108がこうした機能を実施することもできる。
ある実装では、音声信号を前処理して、信号のどの部分が音声を含み、どの部分が雑音であると判定されるかを識別することができる。受け取られる音声信号104は、音声を有すると判定される部分のみを含むことができ、次いでその部分を音声認識器108によって以下のステップで復号化することができる。
ステップ304A〜Nでは、音声認識タスク(SRT)が開始される。ある実装では、SRTがほぼ同時に開始され、音声信号104で表される音声の復号化が開始される。図2のSRSA-DなどのSRSは、音声信号を処理する際に異なる待ち時間を有することがあり、その結果、SRTは、完了するのに必要な時間量が異なることがある。
ステップ306では、SRTの進行が監視される。例えば、待ち時間モニタ260が、各SRSに関連する待ち時間(実際の待ち時間と推定待ち時間の両方)を追跡することができる。
ステップ308では、SRT1-Nのうちのいずれかが認識結果を生成したかどうかが判定される。例えば、SRSは、認識結果(または結果が存在するという指示)が生成された後、それを認識結果モニタ258に出力することができる。SRSのいずれも認識結果を生成していない場合、方法300はステップ306に戻り、SRTの進行を引き続き監視することができる。SRSが1つまたは複数の認識結果を生成した場合、方法はステップ310に進むことができる。
ステップ310では、生成された認識結果に関連する何らかの信頼値が信頼閾値を満たすかどうかの判定が行われる。例えば、SRSアボータ270は、前述のように、認識結果に関する信頼値(単一信頼値または組合せ信頼値)を信頼点または信頼度関数と比較することができる。現信頼値が信頼閾値を満たさない場合、方法300はステップ306に戻ることができ、SRTの進行が監視される。信頼閾値が満たされる場合、方法300はステップ312に進むことができる。
ステップ312では、終了していないSRTが停止される。例えば、並列に実行中の10個のSRTがあり、4つが完了した場合、残りの6つを取り消し、または停止することができる。ある実装では、SRSアボータ270は、適切なSRSが音声認識タスクを中止するように、そのSRSに停止コマンド266を送ることができる。
ある実装では、音声認識タスクのうちの1つまたは複数が停止されず、単に「休止」される(例えば、処理タスクの状態を保管し、後で再始動することができる)。例えば、認識結果が不正確であることがわかった(例えば、ソフトウェアアプリケーションサーバが、音声が正しく復号化されたことを確認するようにユーザに促したときに、ユーザが否定表現で応答した)場合、「休止された」音声認識タスクを再始動することができる。
ある実装では、例えば、SRTを実行中のSRSの精度に基づいて、SRTを選択的に休止することができる。例えば、認識結果が、信頼閾値をかろうじて満たすだけの信頼値に関連付けられる場合、アボータ270は、より正確なSRSのSRTを選択的に休止すると共に、残りのSRTを停止することができる。認識結果が不正確であることがわかった場合、より正確なSRSの休止したSRTを再始動することができる。
ある実装では、以前に完了したSRT、および以前に停止されたSRTは、「休止解除された」SRTと同時に開始することができる。これにより、SRTが完全に再始動された場合よりも、より正確なSRTに、完了するための時間をより多く与えることができる。さらに別の実装では、ユーザの不正確な認識の確認に基づいて推論または決定された情報は、休止解除されたSRTならびに再始動されたタスクと一体化することができる。例えば、音声復号化の新しいラウンドでは、誤りのある発話を考慮から取り除くことができる。さらに、認識処理の第2ラウンドでは、誤りのある結果を求めるのに使用されるいくつかの音声、ワードなどを割り引くことができ、または考慮から除外することができる。
ステップ314では、最終的な認識結果が、生成された結果に基づいて選択される。例えば、最終結果選択モジュール280は、最高の平均信頼度スコアに関連付けられる認識結果を識別することができる。ある実装では、選択は、結果を生成するSRSの精度に基づいて重み付けすることもでき、通常は正確なSRSからの結果が、正確性が低いSRSに優先して支持される。さらに別の実装では、選択は、結果または結果に関連する出現頻度を生成するマシン間の相関に基づくこともできる。選択された結果は、音声信号の復号化を要求したアプリケーションに出力することができる。次に、方法は終了することができる。
図4A〜Cは、例示的音声認識タスクの実行を示す図を示す。図4Aは、4つのSRSによる4つのSRTの実行を示す。図示される実装では、SRTが並列に開始され、SRSAが認識結果を最初に生成する。SRSAは、その認識結果について信頼値0.7を求める。ある実装では、SRS管理モジュール110が、信頼値を信頼閾値と比較することができる。信頼値が閾値を満たさない場合、残りのタスクが実行を許可される。例えば、信頼閾値が固定定数0.9であった場合、初期認識結果0.7は閾値を満たさないので、SRS管理モジュールは、残りのSRSが続行することを許可する。
次に、SRSBが認識結果および関連する値0.85を生成する。この信頼値も0.9の信頼閾値を満たさず、したがって残りのタスクが続行を許可される。
さらに、SRS管理システムは、各SRSに関連する待ち時間を追跡することもでき、許可された待ち時間閾値とこうした待ち時間を比較することができる。図4Aに示されるように、ある実装では、SRS(例えば、SRSCおよびSRSD)が待ち時間閾値の前に認識結果を生成しない場合、SRS管理モジュール110は、SRSに停止コマンドを送ることができる。
ある実装では、信頼閾値を満たす認識結果が生成される前にSRTが停止される場合、SRS管理モジュール110は、信頼閾値を満たさなかった場合であっても、最高の信頼値を有する結果を選択することができる。ある実装では、次に高い信頼値が、選択されるためには、求めた信頼閾値の範囲(例えば10%)以内になければならないことがある。さらに別の実装では、認識結果が選択されない場合、SRS管理モジュール110は、音声入力を繰り返す要求を送ることができる。
図4Bは、SRSが信頼閾値を満たす信頼値を有する認識結果を生成した後に、終了していないSRTを停止することを示す図である。この例では、信頼閾値は0.9である。SRSAが最初に認識結果を生成するが、SRSAは、信頼閾値よりも低い信頼値0.7を結果に割り当てる。したがって、SRS管理モジュール110は、SRSB-Dが実行を実行することを許可する。
SRSBが次に認識結果を生成し、それに信頼値0.9を割り当てる。SRS管理モジュール110は、この信頼値を信頼閾値と比較し、閾値が満たされると判定する。次いで、SRS管理モジュールは、SRSCおよびSRSDに停止コマンドを送出することができ、SRSCおよびSRSDは、認識結果を生成することなくそれぞれのSRTを停止する。
図4Cは、生成された認識結果の信頼値が低いことに基づいて、終了していないSRTを停止することを示す図である。この例では、信頼閾値を固定小数点0.9に設定することができる。SRSAおよびSRSBが認識結果を生成するが、どちらの結果も、それぞれ比較的低い信頼値0.3および0.25に関連付けられる。信頼値が共に比較的低いことを考えると、SRS管理モジュール110は、前のSRSが信頼閾値よりも著しく低い信頼値を有する認識結果を生成したので、SRSCおよびSRSDが信頼閾値を満たす信頼値を有する認識結果を生成する可能性が低いという仮定の下で、こうしたSRSに停止しコマンドを送ることができる。
図4Cに示されるある実装では、SRS管理モジュール110は、以前に生成された認識結果の信頼値が低いことに基づいて、停止コマンドを送る前に、求めた時間量の間、待機することができる。ある実装では、SRS管理モジュール110は、最後の認識結果が生成されたときに基づいて時間枠を開始する。求めた時間枠は、別のSRSがそのSRTを完了することを可能にすることができるが、許可された時間枠中に結果が生成されない場合、終了していない任意のSRTを停止するコマンドを送ることができる。
ある実装では、待機する時間枠の決定は、認識結果を生成していないSRSのうちの1つまたは複数の推定待ち時間に基づくことができる。例えば、SRS管理モジュール110は、SRSCが残りのSRSのうちの最短の推定待ち時間を有すると判定することができる。例えば、SRSCは、典型的待ち時間0.5秒を有することがある。SRSBが0.4秒後に認識結果を生成する場合、音声認識管理モジュール100は、0.1秒遅延して、停止コマンドを送る前にSRSCが認識結果を生成するかどうかを判定することができる。
別の実装では、停止コマンドを直ちに送ることができる。例えば、SRS管理モジュール110は、低信頼値にやはり関連付けられる、求めた数のSRSが認識結果を生成した後に、停止コマンドを送ることができる。図4Cに示されるケースでは、SRSの半分が低信頼値に関連付けられる認識結果を返すとすぐに、停止コマンドが送られる。
ある実装では、信頼値が低い場合、システムが複合信頼値(例えば合計/累積信頼値)がある閾値よりも上であることを確認するまで、システムはより多くの認識結果を引き続き受け取る。ある認識タスクでは、確認は決して行われず、システムは発話を拒否することによって認識プロセスを終了させることができる。したがって、ある実装では、3つのタイプの信頼度があり、第1は、各認識プロセスからの元の信頼度、第2は、各認識プロセスからの元の信頼度から求められる累積合計信頼度、第3は、システムがより多くの認識イベントを待機するにつれて合計信頼度が変化する(例えば増加する)という予想である。
ある場合には、システムは、相関解除された認識器にわたって十分な数の一貫して低い信頼度の結果を受け取り、すべての認識タスクを停止して発話を拒否するように促す。拒否が生じる場合、システムは、ユーザに発話を繰り返すように促すことができる。拒否のケースは、例えば、個々の元の信頼値が一貫して低く、累積合計信頼度が低く、より多くの認識と共に合計信頼度が変化する可能性があるという予想も低いときに生じることがある。
ある実装では、特定の1組の信頼値が与えられたときの推定予想信頼度変化に関するトレーニングが、部分的認識信頼度のトレーニング例が与えられたときの最終認識信頼度の分布をカウントすることによって前もって実施される(例えば、最初の20個の認識器から0.1未満の20個の信頼値を確認した後、システムは、20個を越える認識器を用いる組合せ信頼値によって合計信頼値が0.5より上に増加する例には決して直面しない。したがって、システムは、この状況が生じるときに発話を拒否するようにトレーニングされる)。
ある実装では、最終的な認識結果に関連する組合せ信頼度は、個々のSRSからの個々の信頼値の関数でよい。互いとも合致する、多くの認識器からの高い信頼値を伴う結果には、高い組合せ信頼値が与えられる。各認識器の個々の寄与の重み付けは、トレーニングプロセス中のテストデータの認識の実験的最適化に基づくことができる。
図5A〜Cは、SRSによって生成される例示的認識結果および信頼値、ならびに最終的な認識結果を選択する様々な方法の図である。具体的には、図5A〜Cは、SRSAからのSRSA出力502、SRSBからのSRSB出力504、およびSRSCからのSRSC出力506を示す。この例では、各SRSが「carry」というワードを表す音声信号を復号化しようと試みることに応答して、出力が生成される。各SRSは異なることがあるので、各SRSによって生成される認識結果は、図5A〜Cで示されるように異なることがある。
ある実装では、SRS出力は、上位N個の認識結果を含み(ただしNは、任意の正の整数または0を表すことができる)、N個の認識結果は、どの認識結果が最高の信頼値に関連するかに基づいて選択される。例えば、SRSA出力502は、SRSAに関する上位4つの認識結果および関連する信頼値Result=carry、Confidence=0.75;Result=Cory、Confidence=0.72;Result=query、Confidence=0.6;およびResult=hoary、Confidence=0.25を含む。
SRSB出力504は、Result=quarry、Confidence=0.64;Result=Cory、Confidence=0.59;Result=hoary、Confidence=0.4;およびResult=Terry、Confidence=0.39を含む。
SRSC出力506は、Result=tarry、Confidence=0.58;Result=Terry、Confidence=0.57;Result=Cory、Confidence=0.55;およびResult=carry、Confidence=0.2を含む。
図5Aは、最高の信頼値に関連する認識結果を選択する例示的選択アルゴリズムを示す。例えば、最終結果選択モジュール113は、認識結果のすべてを比較して、最高の信頼値に関連する認識結果を選択することができる。この例では、結果「carry」がすべての信頼値のうちの最高の信頼値0.75に関連付けられるので、それが最終的な認識結果として選択される。次いで、選択モジュールは、音声復号化を要求したアプリケーションでさらに処理するために、認識結果「carry」を出力することができる。
図5Bは、どの結果が最高の組合せ信頼値を有するかに基づいて認識結果を選択する例示的選択アルゴリズムを示す。例えば、複数のSRSが、同一の認識結果を生成することがあるが、結果に対して異なる信頼値を割り当てることがある。ある実装では、同一の結果に関する複数の信頼度スコアを平均化して(あるいは組み合わせて)、組合せ信頼度スコアを生成することができる。例えば、認識結果「carry」がSRSAとSRSCの両方で生成されるが、SRSAは結果に0.75信頼値を割り当て、SRSCは結果に0.2信頼値を割り当てる。これらの信頼値の平均は0.475である。
同様に、認識結果「Cory」に関する平均組合せ信頼度スコアは0.61であり、「quarry」に関する組合せ信頼度スコアは0.62である。この例では、選択モジュール113は、「quarry」の組合せ信頼値が他の結果の組合せ信頼値よりも高いので、「quarry」を最終的な認識結果として選択することができる。選択が認識結果の同じプールから行われたにも関わらず、この選択アルゴリズムは、図5Aに記載のアルゴリズムとは異なる最終的結果を生成することに留意されたい。
図5Cは、認識結果の選択で重み因子を考慮に入れる例示的選択アルゴリズムを示す。ある実装では、重みは、認識結果の出現頻度に基づくことができる。例えば、表550は、新しい重み付け信頼度スコアを生成するために、先に議論した組合せ信頼度スコアに乗じることのできる3つの重みを列挙する。
この例では、認識結果が単一のSRSで生成される場合(例えば、結果が頻度「1」で生じる場合)、組合せ信頼度スコアに重み「1」を乗じることができる。したがって、認識結果が1度だけ生じる場合、認識結果は、重み付けから恩恵を受けることはない。認識結果が2度生じる場合、1度だけ生じる別の認識結果より幾分優先してこの認識結果を支持する因子1.02を用いて、認識結果を重み付けすることができる。認識結果が3度生じる場合、認識結果を因子1.04で重み付けすることができる。
図5Cの例では、認識結果「Cory」に関する組合せ信頼値が因子1.04に対して重み付けされ、その結果、重み付け値0.6344が得られる。認識結果「quarry」に関する組合せ信頼値が因子1.02に対して重み付けされ、その結果、重み付け値0.6324が得られる。この場合、結果「Cory」の非重み付け組合せ信頼度スコアが結果「quarry」の非重み付け組合せ信頼度スコアより低くても、結果「Cory」の重み付け組合せ信頼度スコアが結果「quarry」よりも高いので、選択モジュール113は、結果「quarry」に優先して結果「Cory」を選択することができる。
最終的な認識結果を選択するのに使用される値は、限定はしないが、SRSで生成された信頼度スコアの分布、認識結果を生成したSRSの特性(例えば、全体的精度、特定の文脈での精度、定義済みの時間枠にわたる精度など)、ならびに同一の認識結果を生成するSRS間の類似性を含むいくつかの基準に基づいて重み付けすることができる。
別の実装では、認識信頼値と、認識器および最終的複合認識器に関する認識誤りとの相関を使用して、最終的な認識結果を重み付けすることができる。例えば、トレーニング中、システムは、特定の認識器が信頼値0.3で応答する回数をカウントすることができ、こうした「0.3信頼度認識結果」がその認識器に関する誤りである頻度はどれほどであるか、および最終的組合せ認識も認識誤りである頻度はどれほどであるかもカウントすることができる。システムは、類似の認識結果を組み合わせるとき、同一の正規化カウンティングを使用することができる。組合せ信頼度は、認識器が同一の結果を得た回数(所与の信頼値を有する)、および共通の結果が正しかった回数から推定することができる。
図6は、最終的な認識結果の選択で使用される値を重み付けするのに使用される信頼値の分布の例示的グラフ600である。グラフのy軸は、正規化目盛(0.0から1.0)に沿って、特定の信頼値がどこに位置するかを示す。グラフのx軸は、どの特定のSRSがどの認識結果を生成するかを表す。この例では、SRSAが5つの認識結果を生成し、そのうちの4つが、中程度から低い範囲の予想される信頼値に向かって互いに比較的接近して集中する。単一の認識結果quarryが、他の認識結果からはかなり離れて位置し、比較的高い信頼値を有する。このことは、互いにより代替可能である他の結果よりも結果「quarry」が著しく良好であることにSRSAがより高い信頼を持つことを示すことがある。
ある実装では、外れ値、すなわち離れている高い信頼値を重み付けし、関連する認識結果の選択を支持することができる。例えば、選択モジュール113は、結果「quarry」に関する信頼値0.9を定数1.05で重み付けすることができる。その場合、「quarry」に関する得られる信頼値は、0.945に増加する。
あるいは、より均一な間隔に配置された信頼値が、追加の重み付けを受けないことがある(またはより低い重み付けを受けることがある)。例えば、SRSBで生成された認識結果に関する信頼値が、著しい外れ値のない、より均一な間隔に配置される。この場合、最上位の認識結果「quarry」が正しい可能性が低い(例えば、「quarry」は、より低い信頼値を有する結果のクラスタの中の最上の結果から離れて突出しない)ので、選択モジュール113は、「quarry」に関する信頼値に重みを加えないことがある。
図7A〜Eは、認識結果を重み付けするのに使用することのできる、SRSによって出力される例示的認識結果集合と、集合間の相関とを示すベン図である。図7Aは、SRSAで生成される認識結果A、SRSBで生成される認識結果B、およびSRSCで生成される認識結果Cという3つの認識結果集合を含むベン図700である。
ベン図700で示されるように、結果A、結果B、および結果Cは部分的に重なる。この例では、結果Aおよび結果Bは、結果Aと結果Cの重なり、または結果Bと結果Cの重なりと比べて、重なる結果をより多く有する。このことは、SRSAとSRSBがしばしば同一の認識結果を生成するのに対して、SRSCの結果は、それほど頻繁にはSRSAまたはSRSBの結果と対応しないことを示すことがある。
ある実装では、結果の共通部分は、特定の音声認識タスクに応答してどのSRSが同一の認識結果を生成するかに基づく。例えば、2つのSRSが特定のタスクに関する最上位の認識結果を生成する場合、この結果を共通部分集合に追加することができる。
別の例では、第1SRSが認識結果「Cory」をその最上の結果として生成し、第2SRSが認識結果「Cory」を(生成した5個の結果のうちの)その第4順位の結果として生成する場合、結果「Cory」が共通部分集合に追加される。ある実装では、どちらも最上位に関連付けられない結果を共通部分結果に追加することができるが、それらが順位付けの点で異なることを示す割引き因子に関連付けることもできる。例えば、2つの順位付けの間の差を使用して、共通部分に関連する重み因子を割り引くことができる(例えば、順位付けのそれぞれの差を割引き因子に関連付けることができる)。例えば、順位付けが1および4である場合、差の絶対値は3であり、これを割引き因子0.3と関連付けることができ、割引き因子が、共通部分に関連する重みに乗じられる。例えば、重みが1.03であり、割引き因子が0.3である場合、全重みを、重み1.03の「ブースト」因子に対して、すなわち0.03に対して乗じることができる。この結果、より小さい新しいブースト因子0.01が得られ、したがって新しい全重み値は1.01である。
ある実装では、SRS間の認識結果の重なりを使用して認識結果を重み付けすることができ、その結果、認識結果が最終的な認識結果の選択で支持され、または不支持となる。例えば、認識結果がしばしば一致する2つのSRSによって生成される場合、あまり一致しない2つのSRSによって生成される認識結果に比べて、認識結果の重み付けを低くする(または不支持とする)ことができる。図7B〜Eは、このことをより詳細に示す。
図7Bは、図7Aのベン図700からの結果Aおよび結果Bのみを含むベン図710である。前述のように、SRSAおよびSRSBは、その認識結果の類似性に基づいて、ある程度同様に分類することができる。ある実装では、2つ(または3つ以上)のSRS間の重なりの中にある認識結果に重み因子を割り当てることができる。例えば、この集合の中にある認識結果に重み因子0.01を関連付けることができる。
ある実装では、この重み因子は、重なりが大きいときに小さくなり、重み因子は、重なりが小さいときに大きくなる。このことは、あまり一致しないSRSによって生成される結果は正しい可能性がより高いので、こうした重なる結果を支持すべきであるという仮定を反映することができる。例えば、異なる結果を生成するSRSは、基礎となる異なるアーキテクチャを有することがあり、異なるタイプの認識誤りの影響を受けやすいことがある。
図7Cは、図7Aのベン図700からの結果Aおよび結果Cのみを含むベン図720を示す。この例では、結果間の重なりは、図7Bに示される重なりよりも小さい。したがって、この実装では、重み因子0.6は、重なりの中にある結果について、図7Bに示される共通部分内の結果と比べて大きい。
同様に、図7Dは、結果Bおよび結果Cを含むベン図730を示す。これらの結果の共通部分は、図7Bおよび7Cの共通部分の間のサイズである。したがって、この実装では、重み因子も、図7Bおよび7Cの共通部分に関連する重み因子の間のサイズ(例えば0.03)である。
図7Eは、図7Aにも示されるベン図700を示すが、すべてのSRSA-Cの結果の間の共通部分が強調表示されている。共通部分は、各SRSによって生成された認識結果の集合を反映する。3つのSRS間の一致が(この例では)比較的まれであるとすると、この集合内にある認識結果は、他の重みよりも高い重み、すなわち0.1に関連付けることができる。
図8Aおよび8Bは、SRS間の共通部分がシステムの実行時動作中にどのように適応または変化することができるかを示すベン図800および810を示す。ある実装では、認識結果の共通部分が変化するとき、共通部分に関連する重みも変化することがある。
図8Aは、SRSAおよびSRSBによって生成された認識結果の例示的第1共通部分を示す。第1共通部分は、重み0.01に関連付けられる。ある実装では、音声認識器108が、追加の音声復号化を実施して、追加の認識結果を生成する。SRS相関モニタ282が、結果を監視して、様々なSRS間の結果の共通部分を識別することができる。
相関モニタ282は、より多くの結果が生成されるときに、共通部分計算を動的に更新することができる。このことが図8Bに示されており、図8Bは、共通部分が変化したことを除いて、図8Aと同じSRSAおよびSRSBを示す。この例では、特定の音声認識タスクについてSRSが一致した回数が、SRSが実施したタスク数と比べて増加したので、共通部分が増大している。
共通部分集合の増大に応答して、重みも低下させることができる。例えば、ベン図810の共通部分結果集合に、より小さい重み0.001を関連付けることができる。ある実装では、重み値の変化は、共通部分結果集合のサイズの変化に線形に関連付けることができる。例えば、システムは、認識器が別の認識器と類似するときに、認識器からの結果の重み付けまたは支持を低くすることができる。図8Aおよび8Bでは、2つの認識器に関する認識結果の類似性が、2つの認識器間の共通部分として表され、共通部分が大きいと、両方の認識器が同一の結果を生成するときにシステムが認識結果に結び付けることのできる重みが小さくなる。一方、2つの認識器が非常に異なる(例えば、音声認識アルゴリズムなどが異なるために、異なる認識結果を一般に生成した)とき、結果の共通部分が小さくなることがある。次いでこうした2つの異なる認識器が発話に関して一致したとき、一致は、結果が正しい可能性がより高いことを示すので、システムは、その結果がシステムでより重視されるようにその結果を重み付けすることができる。
図9は、SRS誤り率と認識結果に関連する重みとの間の例示的相関を示すグラフ900である。ある実装では、最終的な認識結果の選択で、誤り率が低いSRSによって生成される認識結果をより大きく重み付けすることができる。例えば、SRSが高い誤り率を有する場合、非常に正確なSRSによって生成された認識結果と比べて、その認識結果を割り引く(または大きく重み付けしない)ことができる。
グラフ900は、特定のSRSに重みを割り当てるための例示的関数、またはアルゴリズムを示す。グラフ900のy軸は、SRSに関連する誤り率を示し、x軸は、SRSに関連する重みを示す。この例では、求めた閾値より高い誤り率を有するSRS(例えば、SRSA、SRSE、SRSC)を重み付けするのに、割引き重み(例えば、0.9、0.95、0.8)が使用される。閾値より低い誤り率を有するSRS(例えばSRSB)を重み付けするのに、ブースト重み(例えば、1.01、1.04、1.1)が使用される。この例では、誤り閾値上にあるSRS(例えばSRSD)を重み付けするのに、中立(neutral)重み(例えば1)が使用される。
ある実装では、各SRSに関連する誤り率は、認識結果が不正確であるという確認に基づいて更新することができる(例えば、結果が最終的な認識結果として選択され、ユーザによって拒否され、第1結果が最終的な認識結果として選択され、ユーザの受諾に基づいて正しいと判定され、したがって選択されない結果が、誤りのある結果として記録されるなど)。選択モジュール113は、各SRSに関連する更新後誤り率に基づいて、重みを動的に変更することができる。
図10は、クライアント、またはサーバ、または複数のサーバとして、本文書に記載のシステムおよび方法を実装するのに使用することのできるコンピューティング装置1000、1050のブロック図である。コンピューティング装置1000は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すものとする。コンピューティング装置1050は、携帯情報端末、携帯電話、スマートフォン、他の類似のコンピューティングなどの様々な形態のモバイル装置を表すものとする。さらに、コンピューティング装置1000または1050は、ユニバーサルシリアルバス(USB)フラッシュドライブを含むことができる。USBフラッシュドライブは、オペレーティングシステムおよび他のアプリケーションを格納することができる。USBフラッシュドライブは、ワイヤレス送信機や、別のコンピューティング装置のUSBポートに挿入することのできるUSBコネクタなどの入力/出力構成要素を含むことができる。ここで示す構成要素、その接続および関係、ならびにその機能は、例示的なものに過ぎないものとし、本文書で説明され、かつ/または特許請求される本発明の実装を限定しないものとする。
コンピューティング装置1000は、プロセッサ1010、メモリ1020、記憶装置1030、メモリ1020および高速拡張ポートに接続される高速インターフェース、ならびに低速バスおよび記憶装置1030に接続される低速インターフェースを含む。各構成要素1010、1020、および1030は、様々なバス1050を使用して相互接続され、共通マザーボード上に取り付けることができ、または他の方式で適宜取り付けることができる。プロセッサ1010は、高速インターフェースに結合されたディスプレイなどの外部入力/出力装置1040上のGUI用のグラフィカル情報を表示するためにメモリ1020内または記憶装置1030上に格納された命令を含む、コンピューティング装置1000内で実行するための命令を処理することができる。別の実装では、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数のタイプのメモリと共に適宜使用することができる。さらに、複数のコンピューティング装置1000を接続することができ、各装置が必要な動作の各部分を実現する(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
メモリ1020は、コンピューティング装置1000内の情報を格納する。一実装では、メモリ1020は揮発性メモリユニットである。別の実装では、メモリ1020は不揮発性メモリユニットである。メモリ1020はまた、磁気ディスクや光ディスクなどの別の形態のコンピュータ可読媒体でもよい。
記憶装置1030は、コンピューティング装置1000用の大容量ストレージを提供することができる。一実装では、記憶装置1030は、フロッピィ(登録商標)ディスク装置、ハードディスク装置、光ディスク装置、テープ装置、フラッシュメモリまたは他の類似の固体メモリ装置、ストレージエリアネットワーク内の装置または他の構成を含む装置のアレイなどのコンピュータ可読媒体でよく、またはコンピュータ可読媒体を含むことができる。コンピュータプログラム製品は、情報キャリアとして有形に実施することができる。コンピュータプログラム製品はまた、実行されたときに上述のような1つまたは複数の方法を実施する命令を含むことができる。情報キャリアは、メモリ1020、記憶装置1030、プロセッサ1010上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
高速コントローラは、コンピューティング装置1000に関する帯域幅を多用する動作を管理し、低速コントローラは、帯域幅を多用しない動作を管理する。そのような機能の割振りは例示的なものに過ぎない。一実装では、高速コントローラがメモリ1020、ディスプレイ(例えば、グラフィックスプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受け入れることのできる高速拡張ポートに結合される。この実装では、低速コントローラが、記憶装置1030および低速拡張ポートに結合される。様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を含むことができる低速拡張ポートは、キーボード、ポインティングデバイス、スキャナなどの1つまたは複数の入力/出力装置1040、あるいは交換機やルータなどのネットワーキング装置に、例えばネットワークアダプタを介して結合することができる。
コンピューティング装置1000は、図に示されるように、いくつかの異なる形式で実装することができる。例えば、コンピューティング装置1000は、標準サーバとして実装することができ、またはそのようなサーバのグループとして複数回実装することができる。コンピューティング装置1000は、ラックサーバシステムの一部として実装することができる。さらに、コンピューティング装置1000は、ラップトップコンピュータなどのパーソナルコンピュータとして実装することができる。あるいは、コンピューティング装置1000の構成要素を、モバイル装置(図示せず)内の他の構成要素と組み合わせることができる。そのような装置のそれぞれは、1つまたは複数のコンピューティング装置1000を含むことができ、システム全体は、互いに通信する複数のコンピューティング装置1000から構成することができる。
別の実施形態において、装置1000は、他の構成要素の中でもとりわけ、プロセッサ1010と、メモリ1020と、ディスプレイ、通信インターフェース、トランシーバなどの入力/出力装置1040とを含む。装置1000はまた、追加のストレージを提供するためにマイクロドライブや他の装置などの記憶装置1030を備えることもできる。各構成要素1000、1010、1020、1030、および1040は、様々なバス1050を使用して相互接続され、構成要素のうちのいくつかは、共通マザーボード上に取り付けることができ、または他の方式で適宜取り付けることができる。
プロセッサ1010は、メモリ1020内に格納された命令を含む、コンピューティング装置1000内の命令を実行することができる。プロセッサ1010は、別々の複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装することができる。さらに、プロセッサ1010は、いくつかのアーキテクチャのうちのいずれかを使用して実装することができる。例えば、プロセッサ1010は、CISC(Complex Instruction Set Computers)プロセッサ、RISC(Reduced Instruction Set Computer)プロセッサ、またはMISC(Minimal Instruction Set Computer)プロセッサでよい。プロセッサ1010は例えば、ユーザインターフェースの制御など、装置1000の別の構成要素と協調するために、装置1000で実行されるアプリケーション、および装置1000によるワイヤレス通信を実現することができる。
プロセッサ1010は、制御インターフェース、およびディスプレイに結合されたディスプレイインターフェースを介してユーザと通信することができる。ディスプレイは、例えばTFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイまたはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術でよい。ディスプレイインターフェースは、ディスプレイを駆動して、グラフィカル情報または他の情報をユーザに提示するための適切な回路を備えることができる。制御インターフェースは、ユーザからコマンドを受け取り、それをプロセッサ1010にサブミットするために変換することができる。さらに、外部インターフェースは、装置1000の他の装置との間の近領域通信を可能にするように、プロセッサ1010との通信を実現することができる。外部インターフェースは例えば、ある実装では有線通信を実現することができ、または別の実装ではワイヤレス通信を実現することができ、複数のインターフェースを使用することもできる。
メモリ1020は、コンピューティング装置1000内の情報を格納する。メモリ1020は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットのうちの1つまたは複数として実装することができる。拡張メモリを設け、拡張インターフェースを介して装置1000に接続することもでき、拡張メモリは、例えばSIMM(Single In Line Memory Module)カードインターフェースを含むことができる。そのような拡張メモリは、装置1000用の追加の記憶空間を提供することができ、または装置1000用のアプリケーションまたは他の情報を格納することもできる。具体的には、拡張メモリは、上述のプロセスを実施または補足する命令を含むことができ、セキュア情報も含むことができる。したがって、例えば、拡張メモリは、装置1000用のセキュリティモジュールとして提供することができ、装置1000の安全な使用を許可する命令と共にプログラムすることができる。さらに、ハッキング不可能な方式でSIMMカード上に識別情報を配置することなど、SIMMカードを介してセキュアアプリケーションを追加の情報と共に提供することができる。
メモリ1020は、例えば、上記で議論したように、フラッシュメモリおよび/またはNVRAMメモリを含むことができる。一実装では、コンピュータプログラム製品は、情報キャリアとして有形に実施することができる。コンピュータプログラム製品は、実行されたときに上述のような1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ1020、拡張メモリ、プロセッサ1010上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
装置1000は、通信インターフェースを介してワイヤレスに通信することができ、通信インターフェースは、必要ならデジタル信号処理回路を含むことができる。通信インターフェースは、数ある中でも、GSM(登録商標)音声呼出し、SMS、EMS、またはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどの様々なモードまたはプロトコル下の通信を実現することができる。そのような通信は、例えば無線周波数トランシーバを介して行うことができる。さらに、Bluetooth(登録商標)、WiFi、またはそのような他のトランシーバ(図示せず)を使用するような近距離通信を行うことができる。さらに、GPS(全地球測位システム)受信機モジュールが、追加のナビゲーション関連ワイヤレスデータおよび位置関連ワイヤレスデータを装置1000に提供することができ、そのデータは、装置1000上で実行中のアプリケーションによって適宜使用することができる。
装置1000はまた、オーディオコーデックを使用して可聴に通信することもでき、オーディオコーデック1060は、ユーザから発話情報を受け取って、それを使用可能なデジタル情報に変換することができる。オーディオコーデックは同様に、スピーカ、例えば装置1000のハンドセット内のスピーカなどを介して、ユーザに対する可聴音を生成することができる。そのような音は、音声電話呼出しからの音を含むことができ、記録音(例えば、ボイスメッセージ、音楽ファイルなど)を含むことができ、装置1000上で動作するアプリケーションによって生成された音も含むことができる。
コンピューティング装置1000は、図に示されるように、いくつかの異なる形態で実装することができる。例えば、コンピューティング装置1000は、携帯電話として実装することができる。コンピューティング装置1000はまた、スマートフォン、携帯情報端末、または他の類似のモバイル装置の一部として実装することもできる。
ここで説明したシステムおよび技法の様々な実装は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せとして実現することができる。こうした様々な実装は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受け取り、それらにデータおよび命令を送るように結合された、専用または汎用でよい少なくとも1つのプログラム可能プロセッサを含むプログラム可能システム上で実行可能および/または解釈可能である1つまたは複数のコンピュータプログラムとしての実装を含むことができる。
こうしたコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラム可能プロセッサ用の機械語命令を含み、高水準手続型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械語として実装することができる。本明細書では、「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械語命令を機械可読信号として受け取る機械可読媒体を含む、プログラム可能プロセッサに機械語命令および/またはデータを提供するのに使用される任意のコンピュータプログラム製品、機器、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理装置(PLD))を指す。「機械可読信号」という用語は、機械語命令および/またはデータをプログラム可能プロセッサに提供するのに使用される任意の信号を指す。
ユーザとの対話を実現するために、ここで説明するシステムおよび技法は、ユーザに情報を表示するディスプレイ装置(例えば、CRT(陰極線管)モニタまたはLCD(液晶ディスプレイ)モニタ)と、ユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス(例えばマウスまたはトラックボール)とを有するコンピュータ上で実装することができる。他の種類の装置を使用して、ユーザとの対話を実現することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)でよく、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む任意の形態で受け取ることができる。
ここで説明するシステムおよび技法は、(例えばデータサーバとしての)バックエンド構成要素を含み、またはミドルウェア構成要素(例えばアプリケーションサーバ)を含み、またはフロントエンド構成要素(例えば、ユーザがここで説明するシステムおよび技法の一実装と対話することのできるグラフィカルユーザインターフェースまたはウェブブラウザを有するクライアントコンピュータ)を含み、あるいはそのようなバックエンド構成要素、ミドルウェア構成要素、またはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムとして実装することができる。システムの構成要素は、任意の形態または媒体のデジタルデータ通信(例えば通信ネットワーク)によって相互接続することができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、(アドホックメンバまたは静的メンバを有する)ピアツーピアネットワーク、グリッドコンピューティングインフラストラクチャ、およびインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバは、一般には互いに離れており、通常は通信ネットワークを介して対話する。クライアントとサーバの関係は、それぞれのコンピュータ上で実行中であり、互いにクライアント-サーバ関係を有するコンピュータプログラムによって生じる。
本発明のいくつかの実施形態を説明した。それでも、本発明の精神および範囲から逸脱することなく様々な修正を行えることを理解されよう。例えば、複数のSRSの組合せスコア、結合スコア、信頼度スコアが、仮説の整合性、発話の識別に関する推測などの特徴を含むことができる。例えば、信頼度0.8の第1結果を出力する3つのSRSは、信頼度0.9の第2結果を出力する1つのSRSよりも信頼度が高いことがある。
ある実装では、待ち時間または他の因子に基づいて、所定の1組のSRSを使用のために選択することができる。例えば、一般疑問文に対する回答を求めてユーザを促すことに応答して音声が受信される場合、すべての利用可能なSRSが回答を処理することを許可するのではなく、最速の2つのSRSを選択して回答を処理することができる。
さらに、ある実装では、SRSによって生成された個々の認識結果が一致しないとき、最終的な認識結果での全体的信頼度が低下することがある。認識結果が全く重複しないときに「最良」の現結果を選択するための1つの例示的アルゴリズムは、個々の最高の信頼度を有する認識結果を選択することである。この例では、組合せ信頼度は、システムが重複のない類似の条件および類似の与えられた信頼値を有したときにトレーニング中にカウントされた正しい認識結果の予想数となる。与えられた量の認識結果の部分的重複について、類似のカウントおよび統計を推定することができる。したがって、重複の程度がトレーニング中の全認識誤りの低下に相関するので/相関する場合、システム全体は、部分的に重複する認識結果の組合せにより高い信頼値を割り当てることができる。
例えば、上記で示した様々な形態のフローは、ステップを再順序付けし、追加し、または除去して使用することができる。さらに、音声復号化で複数の音声認識システムを使用するいくつかの応用例および方法を説明したが、他の多数の応用例も企図されることを理解されたい。したがって、他の実施形態は、以下の特許請求の範囲内にある。
100、200 例示的システム
102、206 携帯電話
104、208 音声信号
106 音声対応電話帳情報サーバ
108 音声認識器
110、250 SRS管理モジュール
113、280 最終結果選択モジュール
114 最終的な認識結果
116、264 信頼値
202 音声伝送セグメント
204 音声認識器セグメント
210 電話サーバ
212 ソフトウェアアプリケーションサーバ
252 言語モデル
254 音響モデル
256 音声認識アルゴリズム
258 認識結果モニタ
260 待ち時間モニタ
262 認識結果
266 停止コマンド
270 SRSアボータ
282 SRS相関モニタ

Claims (26)

  1. コンピュータで実施される方法であって、
    音声データを1組の自動音声認識器のうち各自動音声認識器に提供するステップと、
    前記自動音声認識器の全てが前記音声データの処理を完了する前に、前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしていることを判定するステップと、
    前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしているとの判定に応答して、
    前記1組の自動音声認識器のうち、前記音声データの処理を完了していない他の自動音声認識器を停止するステップと、
    最上位音声認識予測としての出力のために、前記1組の自動音声認識器のうち、前記音声データの処理を完了している前記1つの自動音声認識器の出力を提供するステップとを含む、方法。
  2. 前記1組の自動音声認識器のうち各自動音声認識器が、複数の言語モデルのうち異なる1つを使用する、請求項1に記載の方法。
  3. 前記1組の自動音声認識器から前記1つの自動音声認識器を識別する情報が、前記1つの自動音声認識器の前記出力を有する、請求項1に記載の方法。
  4. 前記複数の言語モデルが、複数の言語のうち異なる1つにそれぞれ関連付けられる、請求項2に記載の方法。
  5. 前記言語モデルが、複数のトレーニング手順のうち異なる1つに基づいてそれぞれ生成される、請求項2に記載の方法。
  6. 前記最上位音声認識予測が、前記音声データの前記処理によって生成された複数の認識結果からの特定の認識結果を有する、請求項1に記載の方法。
  7. 1つまたは複数のコンピューティング装置と、
    音声信号を受信するようにプログラムされた前記1つまたは複数のコンピューティング装置のインターフェースと、
    1組の自動音声認識器と、
    認識管理モジュールであって、
    音声データを1組の自動音声認識器のうち各自動音声認識器に提供するステップと、
    前記自動音声認識器の全てが前記音声データの処理を完了する前に、前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしていると判定するステップと、
    前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしているとの判定に応答して、
    前記1組の自動音声認識器のうち、前記音声データの処理を完了していない他の自動音声認識器を停止するステップと、
    最上位音声認識予測としての出力のために、前記1組の自動音声認識器のうち、前記音声データの処理を完了している前記1つの自動音声認識器の出力を提供するステップと
    を含む動作を行うように構成された認識管理モジュールと
    を備えた、システム。
  8. 前記1組の自動音声認識器のうち各自動音声認識器が、複数の言語モデルのうち異なる1つを使用する、請求項7に記載のシステム。
  9. 前記1組の自動音声認識器から前記1つの自動音声認識器を識別する情報が、前記1つの自動音声認識器の前記出力とともに提供される、請求項7に記載のシステム。
  10. 前記複数の言語モデルが、複数の言語のうち異なる1つにそれぞれ関連付けられる、請求項8に記載のシステム。
  11. 前記言語モデルが、複数のトレーニング手順のうち異なる1つに基づいてそれぞれ生成されたものである、請求項8に記載のシステム。
  12. 前記最上位音声認識予測が、前記音声データの前記処理によって生成された複数の認識結果からの特定の認識結果を有する、請求項7に記載のシステム。
  13. 1つまたは複数のプロセッサによって実行可能な命令を記憶するコンピュータ可読媒体であって、前記命令が実行されると、
    音声データを1組の自動音声認識器のうち各自動音声認識器に提供するステップと、
    前記自動音声認識器の全てが前記音声データの処理を完了する前に、前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしていると判定するステップと、
    前記1組の自動音声認識器のうちの1つの自動音声認識器が前記音声データの処理を完了し、かつ前記音声データを処理する前記1つの自動音声認識器に関連する信頼値が特定の信頼閾値を満たしているとの判定に応答して、
    前記1組の自動音声認識器のうち、前記音声データの処理を完了していない他の自動音声認識器を停止するステップと、
    最上位音声認識予測としての出力のために、前記1組の自動音声認識器のうち、前記音声データの処理を完了している前記1つの自動音声認識器の出力を提供するステップと
    を含む動作を前記1つまたは複数のプロセッサに実行させる、コンピュータ可読媒体。
  14. 前記1組の自動音声認識器のうち各自動音声認識器が、複数の言語モデルのうち異なる1つを使用する、請求項13に記載のコンピュータ可読媒体。
  15. 前記1組の自動音声認識器から前記1つの自動音声認識器を識別する情報が、前記1つの自動音声認識器の前記出力とともに提供される、請求項13に記載のコンピュータ可読媒体。
  16. 前記複数の言語モデルが、複数の言語のうち異なる1つにそれぞれ関連付けられる、請求項14に記載のコンピュータ可読媒体。
  17. 前記言語モデルが、複数のトレーニング手順のうち異なる1つに基づいてそれぞれ生成されたものである、請求項14に記載のコンピュータ可読媒体。
  18. コンピュータで実施される方法であって、
    コンピュータシステムにおいて、音声信号を受け取るステップと、
    前記コンピュータシステムにより、前記音声信号に対する複数の音声認識タスクを開始するステップとを備え、前記音声認識タスクは、複数の言語モデルのうち異なる1つをそれぞれ使用し、
    前記方法は、
    前記複数の音声認識タスクの完了した一部分を検出するステップを備え、前記複数の音声認識タスクの残りの部分は、依然として完了しておらず、
    前記方法は、
    前記複数の音声認識タスクの前記一部分に関する認識結果および信頼値を取得するステップを備え、前記認識結果は、前記音声信号の1つまたは複数の候補表現を特定するとともに、前記信頼値は、前記認識結果が正しいことの1つまたは複数の可能性を特定し、
    前記方法は、
    前記コンピュータシステムにより、1つまたは複数の信頼値のうち少なくとも1つが信頼閾値に対してより大きいまたは等しいかどうかを判定するステップと、
    前記1つまたは複数の信頼値のうち少なくとも1つが前記信頼閾値に対してより大きいまたは等しいとの判定に応答して、完了した前記複数の音声認識タスクに対する前記残りの部分が完了する前に、前記認識結果と前記1つまたは複数の信頼値とに基づいて、前記音声信号に対する最終的な認識結果を提供するステップとを備える、コンピュータで実施される方法。
  19. 前記言語モデルが、複数のレベルの細粒度のうち異なる1つをそれぞれ有する、請求項18に記載のコンピュータで実施される方法。
  20. 前記言語モデルが、複数の地理的位置のうち異なる1つにそれぞれ関連付けられる、請求項18に記載のコンピュータで実施される方法。
  21. 前記言語モデルが、複数のアーキテクチャのうち異なる1つをそれぞれ有する、請求項18に記載のコンピュータで実施される方法。
  22. 前記言語モデルが、複数のトレーニング手順のうち異なる1つに基づいてそれぞれ生成された、請求項18に記載のコンピュータで実施される方法。
  23. 前記最終的な認識結果が、前記音声認識タスクの一部分から特定の音声認識タスクによって生成された前記認識結果から特定の認識結果を含み、前記特定の音声認識タスクが前記複数の言語モデルから特定の言語モデルを使用するとともに、
    前記特定の音声認識タスクまたは前記特定の言語モデルを識別する情報が、前記最終的な認識結果とともに提供される、請求項18に記載のコンピュータで実施される方法。
  24. 前記複数の音声認識タスクが、複数の音声認識システムによって開始されるとともに、前記複数の音声認識システム上で実行される、請求項18に記載のコンピュータで実施される方法。
  25. 前記1つまたは複数の信頼値のうち前記少なくとも1つが前記信頼閾値に対してより大きいまたは等しいという判定に応答して、前記複数の音声認識タスクの前記残りの部分が完了する前に、完了した前記複数の音声認識タスクに対する前記残りの部分を取り消すステップをさらに含む、請求項18に記載のコンピュータで実施される方法。
  26. 前記1つまたは複数の信頼値のうち前記少なくとも1つが、前記信頼閾値に対してより大きいまたは等しいという判定に応答して、完了した前記複数の音声認識タスクに対する前記残りの部分が完了する前に、前記複数の音声認識タスクの前記残りの部分を休止するステップをさらに含む、請求項18に記載のコンピュータで実施される方法。
JP2016242135A 2008-07-02 2016-12-14 並列認識タスクを用いた音声認識 Active JP6435312B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/166,822 2008-07-02
US12/166,822 US8364481B2 (en) 2008-07-02 2008-07-02 Speech recognition with parallel recognition tasks

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013268860A Division JP6138675B2 (ja) 2008-07-02 2013-12-26 並列認識タスクを用いた音声認識

Publications (2)

Publication Number Publication Date
JP2017076139A JP2017076139A (ja) 2017-04-20
JP6435312B2 true JP6435312B2 (ja) 2018-12-05

Family

ID=41465066

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2011516887A Active JP5336590B2 (ja) 2008-07-02 2009-07-02 並列認識タスクを用いた音声認識
JP2013160259A Active JP5451933B2 (ja) 2008-07-02 2013-08-01 並列認識タスクを用いた音声認識
JP2013268860A Active JP6138675B2 (ja) 2008-07-02 2013-12-26 並列認識タスクを用いた音声認識
JP2016242135A Active JP6435312B2 (ja) 2008-07-02 2016-12-14 並列認識タスクを用いた音声認識

Family Applications Before (3)

Application Number Title Priority Date Filing Date
JP2011516887A Active JP5336590B2 (ja) 2008-07-02 2009-07-02 並列認識タスクを用いた音声認識
JP2013160259A Active JP5451933B2 (ja) 2008-07-02 2013-08-01 並列認識タスクを用いた音声認識
JP2013268860A Active JP6138675B2 (ja) 2008-07-02 2013-12-26 並列認識タスクを用いた音声認識

Country Status (6)

Country Link
US (6) US8364481B2 (ja)
EP (1) EP2301012B1 (ja)
JP (4) JP5336590B2 (ja)
KR (3) KR101741734B1 (ja)
CN (2) CN103761968B (ja)
WO (1) WO2010003109A2 (ja)

Families Citing this family (381)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
ATE547898T1 (de) * 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US9026444B2 (en) 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8924982B2 (en) * 2010-01-12 2014-12-30 Amazon Technologies, Inc. Managing private use of program execution capacity
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9342801B2 (en) 2010-03-29 2016-05-17 Amazon Technologies, Inc. Managing committed processing rates for shared resources
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
WO2011149465A1 (en) * 2010-05-27 2011-12-01 Nuance Communications, Inc. Efficient exploitation of model complementariness by low confidence re-scoring in automatic speech recognition
US8645136B2 (en) * 2010-07-20 2014-02-04 Intellisist, Inc. System and method for efficiently reducing transcription error using hybrid voice transcription
KR20130108563A (ko) * 2010-09-08 2013-10-04 뉘앙스 커뮤니케이션즈, 인코포레이티드 인터넷 검색 관련 방법 및 장치
US8812321B2 (en) * 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US9123339B1 (en) 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
JP5861649B2 (ja) * 2011-02-03 2016-02-16 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9536517B2 (en) 2011-11-18 2017-01-03 At&T Intellectual Property I, L.P. System and method for crowd-sourced data labeling
US9286894B1 (en) * 2012-01-31 2016-03-15 Google Inc. Parallel recognition
JPWO2013125203A1 (ja) * 2012-02-21 2015-07-30 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9317605B1 (en) 2012-03-21 2016-04-19 Google Inc. Presenting forked auto-completions
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013192535A1 (en) * 2012-06-22 2013-12-27 Johnson Controls Technology Company Multi-pass vehicle voice recognition systems and methods
KR101961139B1 (ko) 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
CN102945671A (zh) * 2012-10-31 2013-02-27 四川长虹电器股份有限公司 语音识别方法
WO2014068788A1 (ja) * 2012-11-05 2014-05-08 三菱電機株式会社 音声認識装置
US9601111B2 (en) * 2012-11-13 2017-03-21 GM Global Technology Operations LLC Methods and systems for adapting speech systems
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
CN103903620B (zh) * 2012-12-27 2017-09-15 中国电信股份有限公司 控制UPnP设备的方法、系统与UPnP控制设备
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US9542947B2 (en) 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US9477753B2 (en) * 2013-03-12 2016-10-25 International Business Machines Corporation Classifier-based system combination for spoken term detection
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9530103B2 (en) * 2013-04-04 2016-12-27 Cypress Semiconductor Corporation Combining of results from multiple decoders
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
US9741339B2 (en) * 2013-06-28 2017-08-22 Google Inc. Data driven word pronunciation learning and scoring with crowd sourcing based on the word's phonemes pronunciation scores
US9646606B2 (en) 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
JP6025785B2 (ja) * 2013-07-08 2016-11-16 インタラクションズ リミテッド ライアビリティ カンパニー 自然言語理解のための自動音声認識プロキシシステム
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
EP3040985B1 (en) 2013-08-26 2023-08-23 Samsung Electronics Co., Ltd. Electronic device and method for voice recognition
US9514747B1 (en) * 2013-08-28 2016-12-06 Amazon Technologies, Inc. Reducing speech recognition latency
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN105793923A (zh) * 2013-09-20 2016-07-20 亚马逊技术股份有限公司 本地和远程语音处理
DE112013001772B4 (de) * 2013-11-29 2020-02-13 Mitsubishi Electric Corporation Spracherkennungssystem
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9629774B2 (en) 2014-01-14 2017-04-25 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9578307B2 (en) 2014-01-14 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US9589564B2 (en) 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
CN103853703B (zh) * 2014-02-19 2018-01-23 联想(北京)有限公司 一种信息处理方法及电子设备
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9552817B2 (en) * 2014-03-19 2017-01-24 Microsoft Technology Licensing, Llc Incremental utterance decoder combination for efficient and accurate decoding
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CA2887291A1 (en) * 2014-04-02 2015-10-02 Speakread A/S Systems and methods for supporting hearing impaired users
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) * 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
CN105023575B (zh) * 2014-04-30 2019-09-17 中兴通讯股份有限公司 语音识别方法、装置和系统
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) * 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10115394B2 (en) 2014-07-08 2018-10-30 Mitsubishi Electric Corporation Apparatus and method for decoding to recognize speech using a third speech recognizer based on first and second recognizer results
KR102292546B1 (ko) * 2014-07-21 2021-08-23 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
US10446141B2 (en) * 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9922236B2 (en) 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105577711B (zh) 2014-10-08 2019-05-03 华为技术有限公司 消息处理方法、装置及消息处理系统
US9576460B2 (en) 2015-01-21 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device for hazard detection and warning based on image and audio data
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US20180047387A1 (en) * 2015-03-05 2018-02-15 Igal NIR System and method for generating accurate speech transcription from natural speech audio signals
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9677901B2 (en) 2015-03-10 2017-06-13 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing navigation instructions at optimal times
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10089977B2 (en) * 2015-07-07 2018-10-02 International Business Machines Corporation Method for system combination in an audio analytics application
US20170011735A1 (en) * 2015-07-10 2017-01-12 Electronics And Telecommunications Research Institute Speech recognition system and method
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
KR20170032096A (ko) * 2015-09-14 2017-03-22 삼성전자주식회사 전자장치, 전자장치의 구동방법, 음성인식장치, 음성인식장치의 구동 방법 및 컴퓨터 판독가능 기록매체
KR20170034227A (ko) * 2015-09-18 2017-03-28 삼성전자주식회사 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US20180366123A1 (en) * 2015-12-01 2018-12-20 Nuance Communications, Inc. Representing Results From Various Speech Services as a Unified Conceptual Knowledge Base
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
KR102019757B1 (ko) * 2015-12-15 2019-09-10 한국전자통신연구원 언어 분석 오류 보정 장치 및 방법
JP6841232B2 (ja) * 2015-12-18 2021-03-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10142754B2 (en) 2016-02-22 2018-11-27 Sonos, Inc. Sensor on moving component of transducer
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
JP6620609B2 (ja) * 2016-03-09 2019-12-18 富士通株式会社 分散処理実行管理プログラム、分散処理実行管理方法および分散処理実行管理装置
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
DE102016005629B4 (de) * 2016-05-06 2020-06-25 Audi Ag Kraftfahrzeug-Bedienvorrichtung und Verfahren zum Ermitteln zumindest eines Erkennungsergebnisses zu einem Sprachsignal
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN106205611B (zh) * 2016-06-29 2020-03-27 北京儒博科技有限公司 一种基于多模态历史响应结果的人机交互方法及系统
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9693164B1 (en) 2016-08-05 2017-06-27 Sonos, Inc. Determining direction of networked microphone device relative to audio playback device
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10848448B2 (en) * 2016-09-21 2020-11-24 King Fahd University Of Petroleum And Minerals Spam filtering in multimodal mobile communication
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10062385B2 (en) * 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
JP6751658B2 (ja) * 2016-11-15 2020-09-09 クラリオン株式会社 音声認識装置、音声認識システム
US10170110B2 (en) * 2016-11-17 2019-01-01 Robert Bosch Gmbh System and method for ranking of hybrid speech recognition results with neural networks
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR102502220B1 (ko) 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10172760B2 (en) 2017-01-19 2019-01-08 Jennifer Hendrix Responsive route guidance and identification system
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN106952645B (zh) * 2017-03-24 2020-11-17 广东美的制冷设备有限公司 语音指令的识别方法、语音指令的识别装置和空调器
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US11048995B2 (en) * 2017-05-16 2021-06-29 Google Llc Delayed responses by computational assistant
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107316637A (zh) * 2017-05-31 2017-11-03 广东欧珀移动通信有限公司 语音识别方法及相关产品
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
KR102383429B1 (ko) * 2017-06-05 2022-04-07 현대자동차주식회사 음성 인식 처리 장치 및 방법, 그리고 차량 시스템
US10838902B2 (en) 2017-06-23 2020-11-17 Facebook, Inc. Apparatus, system, and method for performing hardware acceleration via expansion cards
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
KR102356889B1 (ko) 2017-08-16 2022-01-28 삼성전자 주식회사 음성 인식을 수행하는 방법 및 이를 사용하는 전자 장치
KR102374910B1 (ko) 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10515637B1 (en) 2017-09-19 2019-12-24 Amazon Technologies, Inc. Dynamic speech processing
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
KR101959903B1 (ko) * 2017-10-26 2019-03-19 주식회사 마이티웍스 스마트 오디오 장치
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN110189750B (zh) * 2018-02-23 2022-11-15 株式会社东芝 词语检测系统、词语检测方法以及记录介质
US10192554B1 (en) * 2018-02-26 2019-01-29 Sorenson Ip Holdings, Llc Transcription of communications using multiple speech recognition systems
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US11676062B2 (en) 2018-03-06 2023-06-13 Samsung Electronics Co., Ltd. Dynamically evolving hybrid personalized artificial intelligence system
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
KR102517228B1 (ko) * 2018-03-14 2023-04-04 삼성전자주식회사 사용자의 입력에 대한 외부 전자 장치의 응답 시간에 기반하여 지정된 기능을 제어하는 전자 장치 및 그의 방법
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
TWI682386B (zh) * 2018-05-09 2020-01-11 廣達電腦股份有限公司 整合式語音辨識系統及方法
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
KR102695306B1 (ko) * 2018-06-27 2024-08-16 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10867609B2 (en) * 2018-05-18 2020-12-15 Sorenson Ip Holdings, Llc Transcription generation technique selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
KR20190133100A (ko) 2018-05-22 2019-12-02 삼성전자주식회사 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
EP3598295A1 (en) * 2018-07-18 2020-01-22 Spotify AB Human-machine interfaces for utterance-based playlist selection
EP3598377A1 (en) * 2018-07-20 2020-01-22 KBC Groep NV Improved claim handling
US10210860B1 (en) 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
JP7167554B2 (ja) * 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
SG11201811192WA (en) 2018-10-16 2020-05-28 Beijing Didi Infinity Technology & Development Co Ltd A system to optimize scats adaptive signal system using trajectory data
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
CN109461446B (zh) * 2018-12-24 2019-10-01 出门问问信息科技有限公司 一种识别用户目标请求的方法、装置、系统及存储介质
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CN111415657A (zh) * 2019-01-07 2020-07-14 成都启英泰伦科技有限公司 一种去中心化设备、多设备系统及其语音控制方法
CN109785845B (zh) 2019-01-28 2021-08-03 百度在线网络技术(北京)有限公司 语音处理方法、装置及设备
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
CN109949816A (zh) * 2019-02-14 2019-06-28 安徽云之迹信息技术有限公司 机器人语音处理方法及装置、云端服务器
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
CN111951808B (zh) * 2019-04-30 2023-09-08 深圳市优必选科技有限公司 语音交互方法、装置、终端设备及介质
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
KR102153220B1 (ko) 2019-05-20 2020-09-07 주식회사 모두의연구소 동일성 판단에 기초한 음성 인식 결과 출력 방법 및 이를 이용한 장치
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
KR102266062B1 (ko) * 2019-07-01 2021-06-17 주식회사 한글과컴퓨터 분할 음성 인식을 기반으로 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법
KR102266063B1 (ko) * 2019-07-15 2021-06-17 주식회사 한글과컴퓨터 종결어미 기반의 구간별 음성 인식을 통해 발화자의 음성에 대응하는 텍스트의 생성이 가능한 음성 인식 장치 및 그 동작 방법
CN110600041B (zh) * 2019-07-29 2022-04-29 华为技术有限公司 一种声纹识别的方法及设备
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN113051069B (zh) * 2019-12-28 2023-12-08 华为技术有限公司 基于多任务的数据分析方法、装置及终端设备
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11848025B2 (en) * 2020-01-17 2023-12-19 ELSA, Corp. Methods for measuring speech intelligibility, and related systems and apparatus
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111488913A (zh) * 2020-03-17 2020-08-04 华为技术有限公司 基于多分析任务的数据分析方法及电子设备
JP6781492B2 (ja) * 2020-04-07 2020-11-04 株式会社インタラクティブソリューションズ 音声解析システム
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN111681647B (zh) * 2020-06-10 2023-09-05 北京百度网讯科技有限公司 用于识别词槽的方法、装置、设备以及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11798530B2 (en) * 2020-10-30 2023-10-24 Google Llc Simultaneous acoustic event detection across multiple assistant devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11984124B2 (en) 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
CN112185357A (zh) * 2020-12-02 2021-01-05 成都启英泰伦科技有限公司 一种同时识别人声和非人声的装置及方法
US11532312B2 (en) 2020-12-15 2022-12-20 Microsoft Technology Licensing, Llc User-perceived latency while maintaining accuracy
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN112802483B (zh) * 2021-04-14 2021-06-29 南京山猫齐动信息技术有限公司 优化意图识别置信度阈值的方法、装置及存储介质
CN114446279A (zh) * 2022-02-18 2022-05-06 青岛海尔科技有限公司 语音识别方法、装置、存储介质及电子设备
WO2024029845A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
WO2024029850A1 (ko) * 2022-08-05 2024-02-08 삼성전자주식회사 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치
CN115394300B (zh) * 2022-10-28 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、语音交互装置、车辆和可读存储介质

Family Cites Families (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5228087A (en) * 1989-04-12 1993-07-13 Smiths Industries Public Limited Company Speech recognition apparatus and methods
US5475770A (en) * 1990-09-24 1995-12-12 Cgk Computer Gesellschaft Konstanz Mbh Parallel recognition of document images with a time-elapsed processing abortion to improve overall throughput
JP2808906B2 (ja) * 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JPH05189336A (ja) * 1992-01-09 1993-07-30 Fuji Xerox Co Ltd 文書認識装置および認識処理方法
JP2500726B2 (ja) 1992-06-12 1996-05-29 日本電気株式会社 上まぶた領域、目頭・目尻・上まぶた領域及び目の構造の検出方法及び装置
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
DE4306508A1 (de) * 1993-03-03 1994-09-08 Philips Patentverwaltung Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5781887A (en) * 1996-10-09 1998-07-14 Lucent Technologies Inc. Speech recognition method with error reset commands
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US5956675A (en) * 1997-07-31 1999-09-21 Lucent Technologies Inc. Method and apparatus for word counting in continuous speech recognition useful for reliable barge-in and early end of speech detection
ATE254328T1 (de) * 1998-03-09 2003-11-15 Lernout & Hauspie Speechprod Vorrichtung und verfahren zum gleichzeitigen multimodalen diktieren
US6804414B1 (en) * 1998-05-01 2004-10-12 Fujitsu Limited Image status detecting apparatus and document image correcting apparatus
US6098043A (en) * 1998-06-30 2000-08-01 Nortel Networks Corporation Method and apparatus for providing an improved user interface in speech recognition systems
US7003463B1 (en) * 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
JP2000132529A (ja) * 1998-10-23 2000-05-12 Sony Corp 並列処理装置、並列処理方法および記録媒体
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
JP4284774B2 (ja) * 1999-09-07 2009-06-24 ソニー株式会社 送信装置、受信装置、通信システム、送信方法及び通信方法
US7016835B2 (en) * 1999-10-29 2006-03-21 International Business Machines Corporation Speech and signal digitization by using recognition metrics to select from multiple techniques
KR20010089811A (ko) * 1999-11-11 2001-10-08 요트.게.아. 롤페즈 음성 인식 시스템
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
GB9928011D0 (en) * 1999-11-27 2000-01-26 Ibm Voice processing system
US6963841B2 (en) * 2000-04-21 2005-11-08 Lessac Technology, Inc. Speech training method with alternative proper pronunciation database
US6574595B1 (en) * 2000-07-11 2003-06-03 Lucent Technologies Inc. Method and apparatus for recognition-based barge-in detection in the context of subword-based automatic speech recognition
JP2002150039A (ja) 2000-08-31 2002-05-24 Hitachi Ltd サービス仲介装置
JP2002116796A (ja) 2000-10-11 2002-04-19 Canon Inc 音声処理装置、音声処理方法及び記憶媒体
US6823306B2 (en) * 2000-11-30 2004-11-23 Telesector Resources Group, Inc. Methods and apparatus for generating, updating and distributing speech recognition models
US7257537B2 (en) * 2001-01-12 2007-08-14 International Business Machines Corporation Method and apparatus for performing dialog management in a computer conversational interface
US20020193997A1 (en) * 2001-03-09 2002-12-19 Fitzpatrick John E. System, method and computer program product for dynamic billing using tags in a speech recognition framework
ATE288615T1 (de) * 2001-03-14 2005-02-15 Ibm Verfahren und prozessorsystem zur audiosignalverarbeitung
ATE300084T1 (de) * 2001-03-16 2005-08-15 Koninkl Philips Electronics Nv Transkriptionsdienst mit abbruch der automatischen transkription
US7072837B2 (en) * 2001-03-16 2006-07-04 International Business Machines Corporation Method for processing initially recognized speech in a speech recognition session
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers
US7012650B2 (en) * 2001-06-14 2006-03-14 Sony Corporation Start/stop audio encoder apparatus and method for synchronizing digital audio and video signals
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US6950975B2 (en) * 2001-08-03 2005-09-27 Combasis Technology, Inc. Acceleration of convergence rate with verified bits in turbo decoding
TW517221B (en) * 2001-08-24 2003-01-11 Ind Tech Res Inst Voice recognition system
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US20030144837A1 (en) * 2002-01-29 2003-07-31 Basson Sara H. Collaboration of multiple automatic speech recognition (ASR) systems
GB2391679B (en) * 2002-02-04 2004-03-24 Zentian Ltd Speech recognition circuit using parallel processors
US8239197B2 (en) * 2002-03-28 2012-08-07 Intellisist, Inc. Efficient conversion of voice messages into text
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
US6618702B1 (en) * 2002-06-14 2003-09-09 Mary Antoinette Kohler Method of and device for phone-based speaker recognition
KR100504982B1 (ko) 2002-07-25 2005-08-01 (주) 메카트론 환경 적응형 다중 음성인식 장치 및 음성인식 방법
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP3632099B2 (ja) * 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 ロボット視聴覚システム
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US20040138885A1 (en) * 2003-01-09 2004-07-15 Xiaofan Lin Commercial automatic speech recognition engine combinations
US8335683B2 (en) * 2003-01-23 2012-12-18 Microsoft Corporation System for using statistical classifiers for spoken language understanding
US7149689B2 (en) * 2003-01-30 2006-12-12 Hewlett-Packard Development Company, Lp. Two-engine speech recognition
US20040158468A1 (en) * 2003-02-12 2004-08-12 Aurilab, Llc Speech recognition with soft pruning
JP2004258289A (ja) * 2003-02-26 2004-09-16 Sony Corp ロボット制御装置および方法、記録媒体、並びにプログラム
US20040210437A1 (en) * 2003-04-15 2004-10-21 Aurilab, Llc Semi-discrete utterance recognizer for carefully articulated speech
JP2005031758A (ja) 2003-07-07 2005-02-03 Canon Inc 音声処理装置及び方法
US20050050119A1 (en) * 2003-08-26 2005-03-03 Vandanapu Naveen Kumar Method for reducing data dependency in codebook searches for multi-ALU DSP architectures
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US20050065789A1 (en) * 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
JP4583772B2 (ja) * 2004-02-05 2010-11-17 日本電気株式会社 音声認識システム、音声認識方法および音声認識用プログラム
KR100612839B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 도메인 기반 대화 음성인식방법 및 장치
JP4581441B2 (ja) 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
US20050235284A1 (en) * 2004-04-14 2005-10-20 International Business Machines Corporation Systems and methods for tracking processing unit usage
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7454344B2 (en) * 2004-08-13 2008-11-18 Microsoft Corporation Language model architecture
JP4579638B2 (ja) * 2004-10-05 2010-11-10 キヤノン株式会社 データ検索装置及びデータ検索方法
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
KR100728620B1 (ko) * 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
DE602005007939D1 (de) * 2005-02-17 2008-08-14 Loquendo Societa Per Azioni Verfahren und system zum automatischen bereitstellen linguistischer formulierungen, die ausserhalb ekennungssystems liegen
EP1693830B1 (en) * 2005-02-21 2017-12-20 Harman Becker Automotive Systems GmbH Voice-controlled data system
JP4412199B2 (ja) * 2005-02-21 2010-02-10 ブラザー工業株式会社 コンテンツ提供システム,検索制御装置およびプログラム
US7536380B2 (en) * 2005-03-24 2009-05-19 International Business Machines Corporation Dynamic look ahead predicate generation
KR100693284B1 (ko) * 2005-04-14 2007-03-13 학교법인 포항공과대학교 음성 인식 장치
US8494849B2 (en) * 2005-06-20 2013-07-23 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
US20070001101A1 (en) 2005-07-01 2007-01-04 Ess Technology, Inc. Programmable rise/fall time control circuit
US7528622B2 (en) * 2005-07-06 2009-05-05 Optimal Test Ltd. Methods for slow test time detection of an integrated circuit during parallel testing
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
CA2618623C (en) * 2005-08-09 2015-01-06 Mobilevoicecontrol, Inc. Control center for a voice controlled wireless communication device system
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8185400B1 (en) * 2005-10-07 2012-05-22 At&T Intellectual Property Ii, L.P. System and method for isolating and processing common dialog cues
US20140156901A1 (en) * 2005-10-26 2014-06-05 Cortica Ltd. Computing device, a system and a method for parallel processing of data streams
EP1796080B1 (en) * 2005-12-12 2009-11-18 Gregory John Gadbois Multi-voice speech recognition
JP2007206501A (ja) * 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US20070198979A1 (en) * 2006-02-22 2007-08-23 David Dice Methods and apparatus to implement parallel transactions
EP1837771A3 (en) * 2006-03-17 2009-07-15 Iontas Limited Monitoring of computer events
US8781837B2 (en) * 2006-03-23 2014-07-15 Nec Corporation Speech recognition system and method for plural applications
US8121838B2 (en) * 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
US7778837B2 (en) * 2006-05-01 2010-08-17 Microsoft Corporation Demographic based classification for local word wheeling/web search
US8688451B2 (en) * 2006-05-11 2014-04-01 General Motors Llc Distinguishing out-of-vocabulary speech from in-vocabulary speech
EP2019985B1 (en) * 2006-05-12 2018-04-04 Nuance Communications Austria GmbH Method for changing over from a first adaptive data processing version to a second adaptive data processing version
US7469406B2 (en) * 2006-07-31 2008-12-23 Sap Ag Process suspension through process model design
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
US8386248B2 (en) * 2006-09-22 2013-02-26 Nuance Communications, Inc. Tuning reusable software components in a speech application
US7895185B2 (en) * 2006-09-28 2011-02-22 International Business Machines Corporation Row-identifier list processing management
US8972268B2 (en) * 2008-04-15 2015-03-03 Facebook, Inc. Enhanced speech-to-speech translation system and methods for adding a new word
US7912707B2 (en) * 2006-12-19 2011-03-22 Microsoft Corporation Adapting a language model to accommodate inputs not found in a directory assistance listing
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
EP1976255B1 (en) * 2007-03-29 2015-03-18 Intellisist, Inc. Call center with distributed speech recognition
US8326636B2 (en) * 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
JP2008265461A (ja) 2007-04-18 2008-11-06 Honda Motor Co Ltd 車体スリップ角推定装置
US8345831B2 (en) * 2007-07-27 2013-01-01 At&T Intellectual Property I, L.P. Automatic contextual media recording and processing utilizing speech analytics
JP4940057B2 (ja) * 2007-08-17 2012-05-30 株式会社東芝 音声認識装置及びその方法
US7991615B2 (en) * 2007-12-07 2011-08-02 Microsoft Corporation Grapheme-to-phoneme conversion using acoustic data
JP5277704B2 (ja) * 2008-04-24 2013-08-28 トヨタ自動車株式会社 音声認識装置及びこれを用いる車両システム
US8566076B2 (en) * 2008-05-28 2013-10-22 International Business Machines Corporation System and method for applying bridging models for robust and efficient speech to speech translation
JP4612710B2 (ja) * 2008-06-02 2011-01-12 株式会社日立製作所 トランザクション並行制御方法、データベース管理システム、およびプログラム
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8132174B2 (en) * 2008-12-19 2012-03-06 Sap Aktiengeselleschaft Concurrency management in cluster computing of business applications
JP5451498B2 (ja) * 2009-07-17 2014-03-26 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US8346549B2 (en) * 2009-12-04 2013-01-01 At&T Intellectual Property I, L.P. System and method for supplemental speech recognition by identified idle resources
JP5891054B2 (ja) 2012-02-02 2016-03-22 Gknドライブラインジャパン株式会社 デファレンシャル装置

Also Published As

Publication number Publication date
US9373329B2 (en) 2016-06-21
JP5336590B2 (ja) 2013-11-06
KR101741734B1 (ko) 2017-06-15
JP5451933B2 (ja) 2014-03-26
KR20110043644A (ko) 2011-04-27
JP2011527030A (ja) 2011-10-20
US10049672B2 (en) 2018-08-14
KR20160079929A (ko) 2016-07-06
CN103761968A (zh) 2014-04-30
US20160275951A1 (en) 2016-09-22
CN103761968B (zh) 2017-07-28
US8571860B2 (en) 2013-10-29
JP2017076139A (ja) 2017-04-20
US20130138440A1 (en) 2013-05-30
JP6138675B2 (ja) 2017-05-31
JP2013238885A (ja) 2013-11-28
KR20150103326A (ko) 2015-09-09
JP2014056278A (ja) 2014-03-27
CN102138175A (zh) 2011-07-27
US20140058728A1 (en) 2014-02-27
WO2010003109A3 (en) 2010-03-18
CN102138175B (zh) 2013-12-25
EP2301012A2 (en) 2011-03-30
WO2010003109A2 (en) 2010-01-07
US11527248B2 (en) 2022-12-13
KR101605148B1 (ko) 2016-03-21
US8364481B2 (en) 2013-01-29
US10699714B2 (en) 2020-06-30
EP2301012B1 (en) 2014-05-14
US20100004930A1 (en) 2010-01-07
US20200357413A1 (en) 2020-11-12
KR101635990B1 (ko) 2016-07-06
US20180330735A1 (en) 2018-11-15
EP2301012A4 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
JP6435312B2 (ja) 並列認識タスクを用いた音声認識
CN110520925B (zh) 询问结束检测
US11061644B2 (en) Maintaining context for voice processes
US9972318B1 (en) Interpreting voice commands
CN109844740B (zh) 跟进话音查询预测
CN108052498B (zh) 纠正转录的文字中的字词的方法和系统
US9070367B1 (en) Local speech recognition of frequent utterances
US9922640B2 (en) System and method for multimodal utterance detection
US10506088B1 (en) Phone number verification
US20080154600A1 (en) System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US10152298B1 (en) Confidence estimation based on frequency
US20170249935A1 (en) System and method for estimating the reliability of alternate speech recognition hypotheses in real time
US11544504B1 (en) Dialog management system
JP2006189730A (ja) 音声対話方法および音声対話装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20180226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181002

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181112

R150 Certificate of patent or registration of utility model

Ref document number: 6435312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250