JP2014510942A5 - - Google Patents

Download PDF

Info

Publication number
JP2014510942A5
JP2014510942A5 JP2013554691A JP2013554691A JP2014510942A5 JP 2014510942 A5 JP2014510942 A5 JP 2014510942A5 JP 2013554691 A JP2013554691 A JP 2013554691A JP 2013554691 A JP2013554691 A JP 2013554691A JP 2014510942 A5 JP2014510942 A5 JP 2014510942A5
Authority
JP
Japan
Prior art keywords
computing device
segment
receiving
speech
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013554691A
Other languages
English (en)
Other versions
JP2014510942A (ja
JP6317111B2 (ja
Filing date
Publication date
Application filed filed Critical
Priority claimed from PCT/US2012/026185 external-priority patent/WO2012116110A1/en
Publication of JP2014510942A publication Critical patent/JP2014510942A/ja
Publication of JP2014510942A5 publication Critical patent/JP2014510942A5/ja
Application granted granted Critical
Publication of JP6317111B2 publication Critical patent/JP6317111B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (17)

  1. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
    上記動作は、
    受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
    別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含み、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記音声発話の特徴を識別することは、
    上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
    上記動作は、
    上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
    上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
    上記動作は、
    上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含むコンピュータプログラム製品。
  2. 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることを含み、
    上記初期分析するステップは、上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項1記載のコンピュータプログラム製品。
  3. 上記割り当てるステップは、
    a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定すること
    b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
    c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
    のうちの1つもしくはそれ以上を含み、
    上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され
    上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項2記載のコンピュータプログラム製品。
  4. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
    上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項1から3のうちのいずれか1つに記載のコンピュータプログラム製品。
  5. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項1から4のうちのいずれか1つに記載のコンピュータプログラム製品。
  6. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムと、コンピューティングシステムによって実行されるときに、上記コンピューティングシステムの上記少なくとも1つのプログラマブルプロセッサに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体とを備えた受信コンピューティングデバイスであって、
    上記動作は、
    受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
    別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップを含み、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記音声発話の特徴を識別することは、
    上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
    上記動作は、
    上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップとを含み、
    上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
    上記動作は、
    上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む受信コンピューティングデバイス。
  7. 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることと、
    上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを含む請求項6記載の受信コンピューティングデバイス。
  8. 上記割り当てるステップは、
    a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定すること
    b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
    c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
    のうちの1つもしくはそれ以上を含み、
    上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され
    上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項7記載の受信コンピューティングデバイス。
  9. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
    上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項6から8のうちのいずれか1つに記載の受信コンピューティングデバイス。
  10. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項からのうちのいずれか1つに記載の受信コンピューティングデバイス。
  11. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムを備えた受信コンピューティングデバイスにおいて、音声発話を受信して音声認識によって処理されるステップと、
    上記コンピューティングシステムによって、別のコンピューティングデバイスによって上記受信コンピューティングデバイスよりも効率的に処理される上記受信された音声発話の特徴を識別することにより上記音声発話を初期分析することにより、上記音声発話を2つもしくはそれ以上の音声発話セグメントにセグメント化するステップと、
    上記コンピューティングシステムによって、上記2つもしくはそれ以上の音声発話セグメントのそれぞれを複数の利用可能な音声認識器の1つに割り当てるステップとを含む方法であって、
    上記割り当てるステップは、上記受信コンピューティングデバイスとは別のコンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の1つの第1の音声認識器によって処理するために上記2つもしくはそれ以上の音声発話セグメントの第1のセグメントと、上記受信コンピューティングデバイス上に実装された上記複数の利用可能な音声認識器の第2の音声認識器によって処理するための上記2つもしくはそれ以上の音声発話セグメントの第2のセグメントとを指定することを含み、
    上記音声発話の特徴を識別することは、
    上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
    上記方法は、
    上記コンピューティングシステムによって、上記第1のセグメントを上記受信コンピューティングデバイスから、処理を行う上記別のコンピューティングデバイスに送信するステップと、
    上記コンピューティングによって、第1のセグメント処理結果を上記別のコンピューティングデバイスから戻されて受信するステップを含み、
    上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われ、
    上記方法は、
    上記コンピューティングシステムによって、上記受信コンピューティングデバイスにおいて上記第2のセグメントを処理して第2のセグメント処理結果を生成するステップと、
    上記コンピューティングシステムによって、完了された音声認識結果を戻すステップとを含み、
    上記完了された音声認識結果は、上記第1のセグメント処理結果及び上記第2の処理結果を含む方法。
  12. 上記初期分析するステップはさらに、上記受信コンピューティングデバイスにおいて、1つもしくはそれ以上のプロセッサ上に実装された音響モデルを用いることを含み、
    上記初期分析するステップは、
    上記2つもしくはそれ以上の音声発話セグメントの少なくとも1つに対して、信頼スコア及びオーディオ品質測定基準を決定することを選択的に含む請求項9記載の方法。
  13. 上記割り当てるステップは、
    a)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第1の各しきい値未満であるときに上記別のコンピューティングデバイス上に実装された上記第1の音声認識器により処理するために、上記第1のセグメントを指定すること
    b)上記信頼スコア及びオーディオ品質測定基準の少なくとも1つが第2の各しきい値よりも大きいときに、上記別のコンピューティングデバイス上に実装された上記第2の音声認識器により処理するために、上記第2のセグメントを指定することと、
    c)実用的に粗悪な品質を有するとして第3のセグメントを識別することと、
    のうちの1つもしくはそれ以上を含み、
    上記第1の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定され
    上記第2の各しきい値は、設計時間において定義されもしくは実行時間において動的に評価される1つもしくはそれ以上の測定基準に基づいて決定される請求項10記載の方法。
  14. 上記割り当てるステップは、
    上記第1のセグメントが上記初期分析するステップによって決定されて上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスよりも速くアクセスできるデータに関連する1つもしくはそれ以上の単語を含むときに、上記別のコンピューティングデバイス上に実装される上記第1の音声認識器によって処理するために、上記第1のセグメントを指定することを含み、
    上記第1のセグメント処理結果は、適応された言語を用いて上記別のコンピューティングデバイスにより実行される上記第1のセグメントの分析を選択的に含み、
    上記適応された言語モデルは、上記別のコンピューティングデバイスにおいて上記受信コンピューティングデバイスにおけるよりも速くアクセスできるデータに基づいて適応化される請求項9から11のうちのいずれか1つに記載の方法。
  15. 上記受信コンピューティングデバイスは、シンクライアントコンピューティングデバイスもしくは端末を備え、
    上記別のコンピューティングデバイスは、上記シンクライアントコンピューティングデバイスもしくは端末から上記データネットワークを介してアクセス可能な少なくとも1つのサーバを備える請求項11から14のうちのいずれか1つに記載の方法。
  16. 少なくとも1つのプログラマブルプロセッサを含むコンピューティングシステムによって実行されるときに、上記コンピューティングシステムに動作を実行させるコマンドを格納するコンピュータ可読記憶媒体を備えたコンピュータプログラム製品であって、
    上記動作は、
    受信コンピューティングデバイスにおいて、別のコンピューティングデバイスから第1の音声発話セグメントを受信するステップを含み、
    第1のセグメントは、上記コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第1の音声認識器にセグメント化されて割り当てられた音声発話の2つもしくはそれ以上の音声発話セグメントの1つであり、
    上記セグメント化することは、上記別のコンピューティングデバイスよりも効率的に上記コンピュータデバイスにより処理される上記音声発話の特徴を識別することにより上記音声発話を初期分析することによりセグメント化され、
    上記音声発話の特徴を識別することは、
    上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
    上記動作は、
    上記セグメント化を処理するステップと、
    上記第1のセグメント処理結果を上記別のコンピューティングデバイスに戻されて送信するステップとを含み、
    上記送信するステップと上記受信するステップは、上記ネットワークを介して行われるコンピュータプログラム製品。
  17. 受信コンピューティングデバイスにおいて、別のコンピューティングデバイスから第1の音声発話セグメントを受信するステップを含む方法であって、
    第1のセグメントは、上記コンピューティングデバイス上に実装された複数の利用可能な音声認識器の第1の音声認識器にセグメント化されて割り当てられた音声発話の2つもしくはそれ以上の音声発話セグメントの1つであり、
    上記セグメント化することは、上記別のコンピューティングデバイスよりも効率的に上記コンピュータデバイスにより処理される上記音声発話の特徴を識別することにより上記音声発話を初期分析することによりセグメント化され、
    上記音声発話の特徴を識別することは、
    上記別のコンピューティングデバイスと上記受信コンピューティングデバイスとを関連付ける処理速度と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間の帯域幅制限と、上記受信コンピューティングデバイスと上記別のコンピューティングデバイスとの間のネットワーク接続の品質を決定することを含み、
    上記方法は、
    上記セグメント化を処理するステップと、
    上記第1のセグメント処理結果を上記別のコンピューティングデバイスに戻されて送信するステップを含み、
    上記送信するステップと上記受信するステップとは、上記ネットワークを介して行われる方法。
JP2013554691A 2011-02-22 2012-02-22 ハイブリッド型クライアントサーバ音声認識 Active JP6317111B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161445433P 2011-02-22 2011-02-22
US61/445,433 2011-02-22
PCT/US2012/026185 WO2012116110A1 (en) 2011-02-22 2012-02-22 Hybridized client-server speech recognition

Publications (3)

Publication Number Publication Date
JP2014510942A JP2014510942A (ja) 2014-05-01
JP2014510942A5 true JP2014510942A5 (ja) 2015-04-16
JP6317111B2 JP6317111B2 (ja) 2018-04-25

Family

ID=45952632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013554691A Active JP6317111B2 (ja) 2011-02-22 2012-02-22 ハイブリッド型クライアントサーバ音声認識

Country Status (4)

Country Link
US (2) US9674328B2 (ja)
EP (1) EP2678861B1 (ja)
JP (1) JP6317111B2 (ja)
WO (1) WO2012116110A1 (ja)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US9842299B2 (en) 2011-01-25 2017-12-12 Telepathy Labs, Inc. Distributed, predictive, dichotomous decision engine for an electronic personal assistant
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
AR091222A1 (es) * 2012-05-30 2015-01-21 Meiji Seika Pharma Co Ltd INHIBIDOR DE b-LACTAMASA Y PROCESO PARA PREPARARLO
US10354650B2 (en) 2012-06-26 2019-07-16 Google Llc Recognizing speech with mixed speech recognition models to generate transcriptions
US9583100B2 (en) * 2012-09-05 2017-02-28 GM Global Technology Operations LLC Centralized speech logger analysis
US8484025B1 (en) * 2012-10-04 2013-07-09 Google Inc. Mapping an audio utterance to an action using a classifier
KR101284594B1 (ko) * 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
US9570076B2 (en) * 2012-10-30 2017-02-14 Google Technology Holdings LLC Method and system for voice recognition employing multiple voice-recognition techniques
US9591347B2 (en) 2012-10-31 2017-03-07 Google Inc. Displaying simulated media content item enhancements on mobile devices
WO2014142702A1 (en) * 2013-03-15 2014-09-18 Obschestvo S Ogranichennoy Otvetstvennostiyu "Speaktoit" Selective speech recognition for chat and digital personal assistant systems
US9190057B2 (en) 2012-12-12 2015-11-17 Amazon Technologies, Inc. Speech model retrieval in distributed speech recognition systems
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) * 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9542947B2 (en) 2013-03-12 2017-01-10 Google Technology Holdings LLC Method and apparatus including parallell processes for voice recognition
US20140337751A1 (en) * 2013-05-13 2014-11-13 Microsoft Corporation Automatic creation of calendar items
US9058805B2 (en) 2013-05-13 2015-06-16 Google Inc. Multiple recognizer speech recognition
US9892733B2 (en) * 2013-05-20 2018-02-13 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9747900B2 (en) 2013-05-24 2017-08-29 Google Technology Holdings LLC Method and apparatus for using image data to aid voice recognition
WO2014194299A1 (en) * 2013-05-30 2014-12-04 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9818401B2 (en) 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US20140379346A1 (en) * 2013-06-21 2014-12-25 Google Inc. Video analysis based language model adaptation
US9026431B1 (en) * 2013-07-30 2015-05-05 Google Inc. Semantic parsing with multiple parsers
US10102851B1 (en) * 2013-08-28 2018-10-16 Amazon Technologies, Inc. Incremental utterance processing and semantic stability determination
US20140342772A1 (en) * 2013-09-12 2014-11-20 Bandwidth.Com, Inc. Predictive Caching of IP Data
US8825881B2 (en) * 2013-09-12 2014-09-02 Bandwidth.Com, Inc. Predictive caching of IP data
EP2851896A1 (en) 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
US8868409B1 (en) 2014-01-16 2014-10-21 Google Inc. Evaluating transcriptions with a semantic parser
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
CN106663421B (zh) * 2014-07-08 2018-07-06 三菱电机株式会社 声音识别系统以及声音识别方法
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
US9530408B2 (en) * 2014-10-31 2016-12-27 At&T Intellectual Property I, L.P. Acoustic environment recognizer for optimal speech processing
JP6618992B2 (ja) * 2015-04-10 2019-12-11 株式会社東芝 発言提示装置、発言提示方法およびプログラム
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US9966073B2 (en) * 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US9886423B2 (en) * 2015-06-19 2018-02-06 International Business Machines Corporation Reconciliation of transcripts
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US10282666B1 (en) 2015-11-10 2019-05-07 Google Llc Coherency detection and information management system
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
KR20180012464A (ko) * 2016-07-27 2018-02-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
KR102384641B1 (ko) * 2017-02-20 2022-04-08 엘지전자 주식회사 다국어 처리를 수행하는 인공 지능 시스템의 제어 방법
DE102017206281A1 (de) * 2017-04-12 2018-10-18 Bayerische Motoren Werke Aktiengesellschaft Verarbeitung einer Spracheingabe
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DE102017213946B4 (de) * 2017-08-10 2022-11-10 Audi Ag Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät
KR102170201B1 (ko) * 2017-10-03 2020-10-27 구글 엘엘씨 센서 기반 검증을 통한 차량 기능 제어
DE102017128651A1 (de) * 2017-12-02 2019-06-06 Tobias Rückert Dialogsystem und Verfahren zur Umsetzung von Anweisungen eines Nutzers
CN107818797B (zh) * 2017-12-07 2021-07-06 苏州科达科技股份有限公司 语音质量评价方法、装置及其系统
CN108109625B (zh) * 2017-12-21 2021-07-20 北京华夏电通科技股份有限公司 手机语音识别内外网传输系统及方法
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
KR101972545B1 (ko) * 2018-02-12 2019-04-26 주식회사 럭스로보 음성 명령을 통한 위치 기반 음성 인식 시스템
US10144346B1 (en) * 2018-03-31 2018-12-04 Jewel L. Dohan Voice-recognition/voice-activated vehicle signal system
KR20190136832A (ko) 2018-05-31 2019-12-10 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피. 음성 명령을 프린팅 서비스를 지원하는 텍스트 코드 블록들로 변환
US10860648B1 (en) * 2018-09-12 2020-12-08 Amazon Technologies, Inc. Audio locale mismatch detection
US11967318B2 (en) * 2019-01-08 2024-04-23 Samsung Electronics Co., Ltd. Method and system for performing speech recognition in an electronic device
CN109979487B (zh) * 2019-03-07 2021-07-30 百度在线网络技术(北京)有限公司 语音信号检测方法和装置
KR102309540B1 (ko) * 2019-05-02 2021-10-07 삼성전자주식회사 사용자의 입력 입력에 기초하여 타겟 디바이스를 결정하고, 타겟 디바이스를 제어하는 서버 및 그 동작 방법
WO2020222539A1 (en) 2019-05-02 2020-11-05 Samsung Electronics Co., Ltd. Hub device, multi-device system including the hub device and plurality of devices, and method of operating the same
WO2020230933A1 (ko) * 2019-05-16 2020-11-19 엘지전자 주식회사 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법
WO2021029627A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
US11532310B2 (en) 2019-08-13 2022-12-20 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029643A1 (en) 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
KR102281602B1 (ko) * 2019-08-21 2021-07-29 엘지전자 주식회사 사용자의 발화 음성을 인식하는 인공 지능 장치 및 그 방법
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition
US20230215459A1 (en) * 2021-12-30 2023-07-06 Comcast Cable Communication, Llc Methods and systems for voice control

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US7174299B2 (en) 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
US7191135B2 (en) * 1998-04-08 2007-03-13 Symbol Technologies, Inc. Speech recognition system and method for employing the same
DE69822296T2 (de) * 1997-10-20 2005-02-24 Koninklijke Philips Electronics N.V. Mustererkennungsregistrierung in einem verteilten system
JP3055514B2 (ja) 1997-12-05 2000-06-26 日本電気株式会社 電話回線用音声認識装置
US6061646A (en) * 1997-12-18 2000-05-09 International Business Machines Corp. Kiosk for multiple spoken languages
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
DE19910236A1 (de) * 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US6526380B1 (en) * 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP2001109486A (ja) * 1999-10-07 2001-04-20 Sony Corp 通信装置および方法、並びにプログラム格納媒体
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US20020077814A1 (en) * 2000-12-18 2002-06-20 Harinath Garudadri Voice recognition system method and apparatus
US6738743B2 (en) * 2001-03-28 2004-05-18 Intel Corporation Unified client-server distributed architectures for spoken dialogue systems
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7013275B2 (en) 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7340395B2 (en) * 2004-04-23 2008-03-04 Sap Aktiengesellschaft Multiple speech recognition engines
US8589156B2 (en) 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US20070094270A1 (en) * 2005-10-21 2007-04-26 Callminer, Inc. Method and apparatus for the processing of heterogeneous units of work
US8265933B2 (en) * 2005-12-22 2012-09-11 Nuance Communications, Inc. Speech recognition system for providing voice recognition services using a conversational language model
CN101034390A (zh) * 2006-03-10 2007-09-12 日电(中国)有限公司 用于语言模型切换和自适应的装置和方法
US7720681B2 (en) * 2006-03-23 2010-05-18 Microsoft Corporation Digital voice profiles
WO2007125151A1 (en) * 2006-04-27 2007-11-08 Risto Kurki-Suonio A method, a system and a device for converting speech
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US8069032B2 (en) * 2006-07-27 2011-11-29 Microsoft Corporation Lightweight windowing method for screening harvested data for novelty
US20080120094A1 (en) 2006-11-17 2008-05-22 Nokia Corporation Seamless automatic speech recognition transfer
US8731925B2 (en) * 2006-12-22 2014-05-20 Nuance Communications, Inc. Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
US20080288252A1 (en) 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US8762143B2 (en) 2007-05-29 2014-06-24 At&T Intellectual Property Ii, L.P. Method and apparatus for identifying acoustic background environments based on time and speed to enhance automatic speech recognition
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8892443B2 (en) * 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
EP3091535B1 (en) * 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US8473289B2 (en) * 2010-08-06 2013-06-25 Google Inc. Disambiguating input based on context
EP2678861B1 (en) * 2011-02-22 2018-07-11 Speak With Me, Inc. Hybridized client-server speech recognition

Similar Documents

Publication Publication Date Title
JP2014510942A5 (ja)
US11289072B2 (en) Object recognition method, computer device, and computer-readable storage medium
US8775191B1 (en) Efficient utterance-specific endpointer triggering for always-on hotwording
US10276163B1 (en) Speech recognition parameter adjustment
CN108630193B (zh) 语音识别方法及装置
US9064495B1 (en) Measurement of user perceived latency in a cloud based speech application
KR102205371B1 (ko) 개별화된 핫워드 검출 모델들
CN107068147B (zh) 语音端点确定
US9224392B2 (en) Audio signal processing apparatus and audio signal processing method
US20130085753A1 (en) Hybrid Client/Server Speech Recognition In A Mobile Device
WO2017084334A1 (zh) 一种语种识别方法、装置、设备及计算机存储介质
WO2015103836A1 (zh) 一种语音控制方法及装置
US9799325B1 (en) Methods and systems for identifying keywords in speech signal
JP2016520879A (ja) 地方なまりを区別する音声データ認識方法、装置及びサーバ
WO2015034633A1 (en) Method for non-intrusive acoustic parameter estimation
US10395643B2 (en) Language-independent, non-semantic speech analytics
JP2015018238A5 (ja)
US9099091B2 (en) Method and apparatus of adaptive textual prediction of voice data
CN110675861B (zh) 语音断句方法、装置、设备及存储介质
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
CN109473104A (zh) 语音识别网络延时优化方法及装置
CN111816216A (zh) 语音活性检测方法和装置
US8868419B2 (en) Generalizing text content summary from speech content
US20180137874A1 (en) Dynamic pitch adjustment of inbound audio to improve speech recognition
RU2014122484A (ru) Система и способ обработки речевого запроса пользователя