JP2014510942A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2014510942A5 JP2014510942A5 JP2013554691A JP2013554691A JP2014510942A5 JP 2014510942 A5 JP2014510942 A5 JP 2014510942A5 JP 2013554691 A JP2013554691 A JP 2013554691A JP 2013554691 A JP2013554691 A JP 2013554691A JP 2014510942 A5 JP2014510942 A5 JP 2014510942A5
- Authority
- JP
- Japan
- Prior art keywords
- computing device
- segment
- receiving
- speech
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004590 computer program Methods 0.000 claims 7
- 240000000800 Allium ursinum Species 0.000 claims 3
- 230000005540 biological transmission Effects 0.000 claims 3
- 230000011218 segmentation Effects 0.000 claims 2
Claims (17)
- 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
上記動作は、
受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含み、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
上記音声発話の特徴を識別することは、
上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
上記動作は、
上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
上記動作は、
上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含むコンピュータプログラム製品。 - 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることを含み、
上記初期分析するステップは、上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項1記載のコンピュータプログラム製品。 - 上記割り当てるステップは、
a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定することと、
b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
のうちの1つもしくはそれ以上を含み、
上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され、
上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項2記載のコンピュータプログラム製品。 - 上記割り当てるステップは、
上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項1から3のうちのいずれか1つに記載のコンピュータプログラム製品。 - 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項1から4のうちのいずれか1つに記載のコンピュータプログラム製品。 - 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムと、コンピューティングシステムによって実行されるときに、上記コンピューティングシステムの上記少なくとも1つのプログラマブルプロセッサに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体とを備えた受信コンピューティングデバイスであって、
上記動作は、
受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含み、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
上記音声発話の特徴を識別することは、
上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
上記動作は、
上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップとを含み、
上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
上記動作は、
上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む受信コンピューティングデバイス。 - 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることと、
上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項6記載の受信コンピューティングデバイス。 - 上記割り当てるステップは、
a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定することと、
b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
のうちの1つもしくはそれ以上を含み、
上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され、
上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項7記載の受信コンピューティングデバイス。 - 上記割り当てるステップは、
上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項6から8のうちのいずれか1つに記載の受信コンピューティングデバイス。 - 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項6から9のうちのいずれか1つに記載の受信コンピューティングデバイス。 - 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムを備えた受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
上記コンピューティングシステムによって、別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
上記コンピューティングシステムによって、上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含む方法であって、
上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
上記音声発話の特徴を識別することは、
上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
上記方法は、
上記コンピューティングシステムによって、上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
上記コンピューティングによって、第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
上記方法は、
上記コンピューティングシステムによって、上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
上記コンピューティングシステムによって、完了された音声認識結果を戻すステップとを含み、
上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む方法。 - 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることを含み、
上記初期分析するステップは、
上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを選択的に含む請求項9記載の方法。 - 上記割り当てるステップは、
a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定することと、
b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに、上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
のうちの1つもしくはそれ以上を含み、
上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され、
上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項10記載の方法。 - 上記割り当てるステップは、
上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項9から11のうちのいずれか1つに記載の方法。 - 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項11から14のうちのいずれか1つに記載の方法。 - 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
上記動作は、
受信コンピューティングデバイスにおいて、別のコンピューティングデバイスから第1の音声発話セグメントを受信するステップを含み、
第1のセグメントは、上記コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第1の音声認識器にセグメント化されて割り当てられた音声発話の2つもしくはそれ以上の音声発話セグメントの1つであり、
上記セグメント化することは、上記別のコンピューティングデバイスよりも効率的に上記コンピュータデバイスにより処理される上記音声発話の特徴を識別することにより上記音声発話を初期分析することによりセグメント化され、
上記音声発話の特徴を識別することは、
上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
上記動作は、
上記セグメント化を処理するステップと、
上記第1のセグメント処理結果を上記別のコンピューティングデバイスに戻されて送信するステップとを含み、
上記送信するステップと上記受信するステップは、上記ネットワークを介して行われるコンピュータプログラム製品。 - 受信コンピューティングデバイスにおいて、別のコンピューティングデバイスから第1の音声発話セグメントを受信するステップを含む方法であって、
第1のセグメントは、上記コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第1の音声認識器にセグメント化されて割り当てられた音声発話の2つもしくはそれ以上の音声発話セグメントの1つであり、
上記セグメント化することは、上記別のコンピューティングデバイスよりも効率的に上記コンピュータデバイスにより処理される上記音声発話の特徴を識別することにより上記音声発話を初期分析することによりセグメント化され、
上記音声発話の特徴を識別することは、
上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
上記方法は、
上記セグメント化を処理するステップと、
上記第1のセグメント処理結果を上記別のコンピューティングデバイスに戻されて送信するステップを含み、
上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われる方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161445433P | 2011-02-22 | 2011-02-22 | |
US61/445,433 | 2011-02-22 | ||
PCT/US2012/026185 WO2012116110A1 (en) | 2011-02-22 | 2012-02-22 | Hybridized client-server speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014510942A JP2014510942A (ja) | 2014-05-01 |
JP2014510942A5 true JP2014510942A5 (ja) | 2015-04-16 |
JP6317111B2 JP6317111B2 (ja) | 2018-04-25 |
Family
ID=45952632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013554691A Active JP6317111B2 (ja) | 2011-02-22 | 2012-02-22 | ハイブリッド型クライアントサーバ音声認識 |
Country Status (4)
Country | Link |
---|---|
US (2) | US9674328B2 (ja) |
EP (1) | EP2678861B1 (ja) |
JP (1) | JP6317111B2 (ja) |
WO (1) | WO2012116110A1 (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8494852B2 (en) | 2010-01-05 | 2013-07-23 | Google Inc. | Word-level correction of speech input |
US9842299B2 (en) | 2011-01-25 | 2017-12-12 | Telepathy Labs, Inc. | Distributed, predictive, dichotomous decision engine for an electronic personal assistant |
EP2678861B1 (en) * | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
US9111542B1 (en) * | 2012-03-26 | 2015-08-18 | Amazon Technologies, Inc. | Audio signal transmission techniques |
AR091222A1 (es) * | 2012-05-30 | 2015-01-21 | Meiji Seika Pharma Co Ltd | INHIBIDOR DE b-LACTAMASA Y PROCESO PARA PREPARARLO |
US10354650B2 (en) | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US9583100B2 (en) * | 2012-09-05 | 2017-02-28 | GM Global Technology Operations LLC | Centralized speech logger analysis |
US8484025B1 (en) * | 2012-10-04 | 2013-07-09 | Google Inc. | Mapping an audio utterance to an action using a classifier |
KR101284594B1 (ko) * | 2012-10-26 | 2013-07-10 | 삼성전자주식회사 | 영상처리장치 및 그 제어방법, 영상처리 시스템 |
US9570076B2 (en) * | 2012-10-30 | 2017-02-14 | Google Technology Holdings LLC | Method and system for voice recognition employing multiple voice-recognition techniques |
US9591347B2 (en) | 2012-10-31 | 2017-03-07 | Google Inc. | Displaying simulated media content item enhancements on mobile devices |
WO2014142702A1 (en) * | 2013-03-15 | 2014-09-18 | Obschestvo S Ogranichennoy Otvetstvennostiyu "Speaktoit" | Selective speech recognition for chat and digital personal assistant systems |
US9190057B2 (en) | 2012-12-12 | 2015-11-17 | Amazon Technologies, Inc. | Speech model retrieval in distributed speech recognition systems |
CN103971680B (zh) * | 2013-01-24 | 2018-06-05 | 华为终端(东莞)有限公司 | 一种语音识别的方法、装置 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
US9542947B2 (en) | 2013-03-12 | 2017-01-10 | Google Technology Holdings LLC | Method and apparatus including parallell processes for voice recognition |
US20140337751A1 (en) * | 2013-05-13 | 2014-11-13 | Microsoft Corporation | Automatic creation of calendar items |
US9058805B2 (en) | 2013-05-13 | 2015-06-16 | Google Inc. | Multiple recognizer speech recognition |
US9892733B2 (en) * | 2013-05-20 | 2018-02-13 | Speech Morphing Systems, Inc. | Method and apparatus for an exemplary automatic speech recognition system |
US9747900B2 (en) | 2013-05-24 | 2017-08-29 | Google Technology Holdings LLC | Method and apparatus for using image data to aid voice recognition |
WO2014194299A1 (en) * | 2013-05-30 | 2014-12-04 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US9818401B2 (en) | 2013-05-30 | 2017-11-14 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US10170114B2 (en) | 2013-05-30 | 2019-01-01 | Promptu Systems Corporation | Systems and methods for adaptive proper name entity recognition and understanding |
US20140379346A1 (en) * | 2013-06-21 | 2014-12-25 | Google Inc. | Video analysis based language model adaptation |
US9026431B1 (en) * | 2013-07-30 | 2015-05-05 | Google Inc. | Semantic parsing with multiple parsers |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
US20140342772A1 (en) * | 2013-09-12 | 2014-11-20 | Bandwidth.Com, Inc. | Predictive Caching of IP Data |
US8825881B2 (en) * | 2013-09-12 | 2014-09-02 | Bandwidth.Com, Inc. | Predictive caching of IP data |
EP2851896A1 (en) | 2013-09-19 | 2015-03-25 | Maluuba Inc. | Speech recognition using phoneme matching |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
US8868409B1 (en) | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US9601108B2 (en) | 2014-01-17 | 2017-03-21 | Microsoft Technology Licensing, Llc | Incorporating an exogenous large-vocabulary model into rule-based speech recognition |
US10749989B2 (en) | 2014-04-01 | 2020-08-18 | Microsoft Technology Licensing Llc | Hybrid client/server architecture for parallel processing |
CN106663421B (zh) * | 2014-07-08 | 2018-07-06 | 三菱电机株式会社 | 声音识别系统以及声音识别方法 |
US20160111090A1 (en) * | 2014-10-16 | 2016-04-21 | General Motors Llc | Hybridized automatic speech recognition |
US9530408B2 (en) * | 2014-10-31 | 2016-12-27 | At&T Intellectual Property I, L.P. | Acoustic environment recognizer for optimal speech processing |
JP6618992B2 (ja) * | 2015-04-10 | 2019-12-11 | 株式会社東芝 | 発言提示装置、発言提示方法およびプログラム |
EP3089159B1 (en) | 2015-04-28 | 2019-08-28 | Google LLC | Correcting voice recognition using selective re-speak |
US9966073B2 (en) * | 2015-05-27 | 2018-05-08 | Google Llc | Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device |
US10083697B2 (en) | 2015-05-27 | 2018-09-25 | Google Llc | Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device |
US9886423B2 (en) * | 2015-06-19 | 2018-02-06 | International Business Machines Corporation | Reconciliation of transcripts |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
US10282666B1 (en) | 2015-11-10 | 2019-05-07 | Google Llc | Coherency detection and information management system |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
KR20180012464A (ko) * | 2016-07-27 | 2018-02-06 | 삼성전자주식회사 | 전자 장치 및 그의 음성 인식 방법 |
KR102384641B1 (ko) * | 2017-02-20 | 2022-04-08 | 엘지전자 주식회사 | 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법 |
DE102017206281A1 (de) * | 2017-04-12 | 2018-10-18 | Bayerische Motoren Werke Aktiengesellschaft | Verarbeitung einer Spracheingabe |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
DE102017213946B4 (de) * | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
KR102170201B1 (ko) * | 2017-10-03 | 2020-10-27 | 구글 엘엘씨 | 센서 기반 검증을 통한 차량 기능 제어 |
DE102017128651A1 (de) * | 2017-12-02 | 2019-06-06 | Tobias Rückert | Dialogsystem und Verfahren zur Umsetzung von Anweisungen eines Nutzers |
CN107818797B (zh) * | 2017-12-07 | 2021-07-06 | 苏州科达科技股份有限公司 | 语音质量评价方法、装置及其系统 |
CN108109625B (zh) * | 2017-12-21 | 2021-07-20 | 北京华夏电通科技股份有限公司 | 手机语音识别内外网传输系统及方法 |
US11087766B2 (en) * | 2018-01-05 | 2021-08-10 | Uniphore Software Systems | System and method for dynamic speech recognition selection based on speech rate or business domain |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
US10144346B1 (en) * | 2018-03-31 | 2018-12-04 | Jewel L. Dohan | Voice-recognition/voice-activated vehicle signal system |
KR20190136832A (ko) | 2018-05-31 | 2019-12-10 | 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. | 음성 명령을 프린팅 서비스를 지원하는 텍스트 코드 블록들로 변환 |
US10860648B1 (en) * | 2018-09-12 | 2020-12-08 | Amazon Technologies, Inc. | Audio locale mismatch detection |
US11967318B2 (en) * | 2019-01-08 | 2024-04-23 | Samsung Electronics Co., Ltd. | Method and system for performing speech recognition in an electronic device |
CN109979487B (zh) * | 2019-03-07 | 2021-07-30 | 百度在线网络技术(北京)有限公司 | 语音信号检测方法和装置 |
KR102309540B1 (ko) * | 2019-05-02 | 2021-10-07 | 삼성전자주식회사 | 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법 |
WO2020222539A1 (en) | 2019-05-02 | 2020-11-05 | Samsung Electronics Co., Ltd. | Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same |
WO2020230933A1 (ko) * | 2019-05-16 | 2020-11-19 | 엘지전자 주식회사 | 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 |
WO2021029627A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | Server that supports speech recognition of device, and operation method of the server |
US11532310B2 (en) | 2019-08-13 | 2022-12-20 | Samsung Electronics Co., Ltd. | System and method for recognizing user's speech |
WO2021029643A1 (en) | 2019-08-13 | 2021-02-18 | Samsung Electronics Co., Ltd. | System and method for modifying speech recognition result |
KR102281602B1 (ko) * | 2019-08-21 | 2021-07-29 | 엘지전자 주식회사 | 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법 |
US20220293109A1 (en) * | 2021-03-11 | 2022-09-15 | Google Llc | Device arbitration for local execution of automatic speech recognition |
US20230215459A1 (en) * | 2021-12-30 | 2023-07-06 | Comcast Cable Communication, Llc | Methods and systems for voice control |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ZA948426B (en) * | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US7174299B2 (en) | 1995-08-18 | 2007-02-06 | Canon Kabushiki Kaisha | Speech recognition system, speech recognition apparatus, and speech recognition method |
US7191135B2 (en) * | 1998-04-08 | 2007-03-13 | Symbol Technologies, Inc. | Speech recognition system and method for employing the same |
DE69822296T2 (de) * | 1997-10-20 | 2005-02-24 | Koninklijke Philips Electronics N.V. | Mustererkennungsregistrierung in einem verteilten system |
JP3055514B2 (ja) | 1997-12-05 | 2000-06-26 | 日本電気株式会社 | 電話回線用音声認識装置 |
US6061646A (en) * | 1997-12-18 | 2000-05-09 | International Business Machines Corp. | Kiosk for multiple spoken languages |
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
WO2000058946A1 (en) * | 1999-03-26 | 2000-10-05 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
US6408272B1 (en) * | 1999-04-12 | 2002-06-18 | General Magic, Inc. | Distributed voice user interface |
JP2001109486A (ja) * | 1999-10-07 | 2001-04-20 | Sony Corp | 通信装置および方法、並びにプログラム格納媒体 |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
US20020077814A1 (en) * | 2000-12-18 | 2002-06-20 | Harinath Garudadri | Voice recognition system method and apparatus |
US6738743B2 (en) * | 2001-03-28 | 2004-05-18 | Intel Corporation | Unified client-server distributed architectures for spoken dialogue systems |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US6785654B2 (en) * | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
GB2383459B (en) * | 2001-12-20 | 2005-05-18 | Hewlett Packard Co | Speech recognition system and method |
US7013275B2 (en) | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7340395B2 (en) * | 2004-04-23 | 2008-03-04 | Sap Aktiengesellschaft | Multiple speech recognition engines |
US8589156B2 (en) | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20060235684A1 (en) * | 2005-04-14 | 2006-10-19 | Sbc Knowledge Ventures, Lp | Wireless device to access network-based voice-activated services using distributed speech recognition |
US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
US7590536B2 (en) * | 2005-10-07 | 2009-09-15 | Nuance Communications, Inc. | Voice language model adjustment based on user affinity |
US20070094270A1 (en) * | 2005-10-21 | 2007-04-26 | Callminer, Inc. | Method and apparatus for the processing of heterogeneous units of work |
US8265933B2 (en) * | 2005-12-22 | 2012-09-11 | Nuance Communications, Inc. | Speech recognition system for providing voice recognition services using a conversational language model |
CN101034390A (zh) * | 2006-03-10 | 2007-09-12 | 日电(中国)有限公司 | 用于语言模型切换和自适应的装置和方法 |
US7720681B2 (en) * | 2006-03-23 | 2010-05-18 | Microsoft Corporation | Digital voice profiles |
WO2007125151A1 (en) * | 2006-04-27 | 2007-11-08 | Risto Kurki-Suonio | A method, a system and a device for converting speech |
US20070276651A1 (en) * | 2006-05-23 | 2007-11-29 | Motorola, Inc. | Grammar adaptation through cooperative client and server based speech recognition |
US8069032B2 (en) * | 2006-07-27 | 2011-11-29 | Microsoft Corporation | Lightweight windowing method for screening harvested data for novelty |
US20080120094A1 (en) | 2006-11-17 | 2008-05-22 | Nokia Corporation | Seamless automatic speech recognition transfer |
US8731925B2 (en) * | 2006-12-22 | 2014-05-20 | Nuance Communications, Inc. | Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack |
US20080288252A1 (en) | 2007-03-07 | 2008-11-20 | Cerra Joseph P | Speech recognition of speech recorded by a mobile communication facility |
US8762143B2 (en) | 2007-05-29 | 2014-06-24 | At&T Intellectual Property Ii, L.P. | Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition |
US8099289B2 (en) * | 2008-02-13 | 2012-01-17 | Sensory, Inc. | Voice interface and search for electronic devices including bluetooth headsets and remote systems |
US7933777B2 (en) * | 2008-08-29 | 2011-04-26 | Multimodal Technologies, Inc. | Hybrid speech recognition |
US8892443B2 (en) * | 2009-12-15 | 2014-11-18 | At&T Intellectual Property I, L.P. | System and method for combining geographic metadata in automatic speech recognition language and acoustic models |
EP3091535B1 (en) * | 2009-12-23 | 2023-10-11 | Google LLC | Multi-modal input on an electronic device |
US8468012B2 (en) * | 2010-05-26 | 2013-06-18 | Google Inc. | Acoustic model adaptation using geographic information |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
EP2678861B1 (en) * | 2011-02-22 | 2018-07-11 | Speak With Me, Inc. | Hybridized client-server speech recognition |
-
2012
- 2012-02-22 EP EP12713809.7A patent/EP2678861B1/en active Active
- 2012-02-22 US US13/402,678 patent/US9674328B2/en active Active
- 2012-02-22 WO PCT/US2012/026185 patent/WO2012116110A1/en active Application Filing
- 2012-02-22 JP JP2013554691A patent/JP6317111B2/ja active Active
-
2017
- 2017-04-28 US US15/581,269 patent/US10217463B2/en active Active - Reinstated
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014510942A5 (ja) | ||
US11289072B2 (en) | Object recognition method, computer device, and computer-readable storage medium | |
US8775191B1 (en) | Efficient utterance-specific endpointer triggering for always-on hotwording | |
US10276163B1 (en) | Speech recognition parameter adjustment | |
CN108630193B (zh) | 语音识别方法及装置 | |
US9064495B1 (en) | Measurement of user perceived latency in a cloud based speech application | |
KR102205371B1 (ko) | 개별화된 핫워드 검출 모델들 | |
CN107068147B (zh) | 语音端点确定 | |
US9224392B2 (en) | Audio signal processing apparatus and audio signal processing method | |
US20130085753A1 (en) | Hybrid Client/Server Speech Recognition In A Mobile Device | |
WO2017084334A1 (zh) | 一种语种识别方法、装置、设备及计算机存储介质 | |
WO2015103836A1 (zh) | 一种语音控制方法及装置 | |
US9799325B1 (en) | Methods and systems for identifying keywords in speech signal | |
JP2016520879A (ja) | 地方なまりを区別する音声データ認識方法、装置及びサーバ | |
WO2015034633A1 (en) | Method for non-intrusive acoustic parameter estimation | |
US10395643B2 (en) | Language-independent, non-semantic speech analytics | |
JP2015018238A5 (ja) | ||
US9099091B2 (en) | Method and apparatus of adaptive textual prediction of voice data | |
CN110675861B (zh) | 语音断句方法、装置、设备及存储介质 | |
JP6306528B2 (ja) | 音響モデル学習支援装置、音響モデル学習支援方法 | |
CN109473104A (zh) | 语音识别网络延时优化方法及装置 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
US20180137874A1 (en) | Dynamic pitch adjustment of inbound audio to improve speech recognition | |
RU2014122484A (ru) | Система и способ обработки речевого запроса пользователя |