JP2022519648A - クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS - Google Patents
クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS Download PDFInfo
- Publication number
- JP2022519648A JP2022519648A JP2021545818A JP2021545818A JP2022519648A JP 2022519648 A JP2022519648 A JP 2022519648A JP 2021545818 A JP2021545818 A JP 2021545818A JP 2021545818 A JP2021545818 A JP 2021545818A JP 2022519648 A JP2022519648 A JP 2022519648A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- automatic speech
- recognition asr
- voice
- user device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 97
- 238000007781 pre-processing Methods 0.000 claims abstract description 58
- 238000012545 processing Methods 0.000 claims description 304
- 230000015654 memory Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 26
- 230000009471 action Effects 0.000 claims description 20
- 238000013518 transcription Methods 0.000 claims description 19
- 230000035897 transcription Effects 0.000 claims description 19
- 230000000694 effects Effects 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 14
- 230000003993 interaction Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000007958 sleep Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006266 hibernation Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/80—Responding to QoS
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/61—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
図1を参照すると、いくつかの実装では、システム100は、ネットワーク130を介してリモートシステム140に通信し得るユーザ10、10a~10nにそれぞれ関連付けられたユーザ装置200、200a~200nを備えている。いくつかのユーザ10は、複数のユーザ装置200に関連付けられてもよく、および/または、いくつかのユーザ装置200は、複数のユーザ10(例えば、家庭の家族)に関連付けられてもよい。リモートシステム140は、スケーラブル/エラスティックなリソース142を有する分散システム(例えば、クラウド計算環境)であってもよい。リソース142は、計算リソース144(例えば、データ処理ハードウェア)および/または記憶リソース146(例えば、メモリハードウェア)を備えている。いくつかの実装では、リモートシステム140は、音声問合せ(voice query)サービス品質(QoS)マネージャ300と、問合せ処理スタック700、700aとを備えている。問合せ処理スタック700aは、問合せ処理バックエンド、サーバベースまたはバックエンド側の問合せ処理スタック700aと呼ばれてもよい。サービス品質QoSマネージャ300は、音声入力104に関連付けられたオーディオデータ103およびコンテンツメタデータ110を備えている自動音声認識(ASR)要求102を、ユーザ装置200から受け取るように構成される。そして、サービス品質QoSマネージャ300は、少なくともコンテンツメタデータ110に基づき、自動音声認識ASR要求102に優先度スコア311を割り当ててもよい。受け取った各自動音声認識ASR要求102に割り当てられた優先度スコア311を用いて、また、問合せ処理スタック700の処理可用性に基づき、サービス品質QoSマネージャ300は、各自動音声認識ASR要求102に対応するランキング312を割り当て、最高から最低へのランキング312の順に、問合せ処理スタック700に自動音声認識ASR要求102を提供する。すなわち、より高い優先度スコア311に関連付けられたランキング312を有する自動音声認識ASR要求は、より低い優先度スコア311に関連付けられたランキング312を有する自動音声認識ASR要求102よりも先に、問合せ処理スタック700によって処理される。
Claims (30)
- 問合せ処理バックエンドのデータ処理ハードウェアにおいて、ユーザ装置から自動音声認識ASR要求を受け取る工程であって、前記自動音声認識ASR要求は、音声問合せを備えて前記ユーザ装置によってキャプチャされた音声入力と、前記音声入力に関連付けられて前記ユーザ装置によって生成されたコンテンツメタデータとを備えている、前記受け取る工程と、
前記データ処理ハードウェアによって、前記音声入力に関連付けられたコンテンツメタデータに基づき、前記自動音声認識ASR要求の優先度スコアを判定する工程と、
前記データ処理ハードウェアによって、それぞれが対応する前記優先度スコアを有する保留中自動音声認識ASR要求の前処理バックログに、前記自動音声認識ASR要求をキャッシュする工程であって、前記前処理バックログにおける前記保留中自動音声認識ASR要求は前記優先度スコアの順にランク付けされる、前記自動音声認識ASR要求をキャッシュする工程と、
前記データ処理ハードウェアによって、前記前処理バックログから、バックエンド側自動音声認識ASRモジュールの処理可能性に基づき、前記保留中自動音声認識ASR要求のうちの1つまたは複数を前記バックエンド側自動音声認識ASRモジュールに提供する工程であって、より高い前記優先度スコアに関連付けられた前記保留中自動音声認識ASR要求は、より低い前記優先度スコアに関連付けられた前記保留中自動音声認識ASR要求よりも先に、前記バックエンド側自動音声認識ASRモジュールによって処理される、前記保留中自動音声認識ASR要求のうちの1つまたは複数を前記バックエンド側自動音声認識ASRモジュールに提供する工程と、
を備えている、方法。 - 前記バックエンド側自動音声認識ASRモジュールは、前記保留中自動音声認識ASR要求の前記前処理バックログから各前記保留中自動音声認識ASR要求を受け取る工程に応答して、前記保留中自動音声認識ASR要求を処理して、前記保留中自動音声認識ASR要求に関連付けられた対応する前記音声入力に対する自動音声認識ASR結果を生成するように構成される、
請求項1に記載の方法。 - 前記方法はさらに、前記保留中自動音声認識ASR要求の前記前処理バックログに1つまたは複数の新規自動音声認識ASR要求をキャッシュする工程に応答して、前記データ処理ハードウェアによって、前記前処理バックログの前記保留中自動音声認識ASR要求を前記優先度スコアの順に再ランク付けする工程を備えている、
請求項1または2に記載の方法。 - 前記方法はさらに、タイムアウト閾値を満たす期間、前記データ処理ハードウェアによって、前記前処理バックログに存在する前記保留中自動音声認識ASR要求が前記バックエンド側自動音声認識ASRモジュールによって処理されることを拒否する工程を備えている、
請求項1~3のいずれか一項に記載の方法。 - 前記方法はさらに、優先度スコア閾値よりも小さいそれぞれの前記優先度スコアを有する新規自動音声認識ASR要求を受け取る工程に応答して、前記データ処理ハードウェアによって、前記新規自動音声認識ASR要求が前記バックエンド側自動音声認識ASRモジュールによって処理されることを拒否する工程を備えている、
請求項1~4のいずれか一項に記載の方法。 - 前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ASR要求が前記バックエンド側自動音声認識ASRモジュールによって正常に処理される可能性を表している、
請求項1~5のいずれか一項に記載の方法。 - 前記音声入力に関連付けられたコンテンツメタデータは、対応する前記自動音声認識ASR要求の処理が、前記ユーザ装置に関連付けられたユーザに影響を与える可能性を表す、
請求項1~6のいずれか一項に記載の方法。 - 前記音声入力に関連付けられて前記ユーザ装置によって生成された前記コンテンツメタデータは、
前記ユーザ装置に関連付けられたユーザが、前記ユーザ装置にログインしているかどうかを示すログイン指標と、
前記ユーザ装置に関連付けられた話者プロファイルに前記音声入力が一致する可能性を示す、前記音声入力に対する話者識別スコアと、
前記音声入力が、非人間ソースから出力された放送音声または合成音声に対応する可能性を示す、前記音声入力に対する放送音声スコアと、
前記音声入力に含まれて前記音声問合せに先行する1つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード信頼度スコアと、
前記ユーザ装置と前記問合せ処理バックエンドとの間でマルチターン相互作用が進行しているかどうかを示す活動指標と、
前記音声入力の音声信号スコアと、
前記ユーザ装置に対するユーザの相対的距離および相対的位置を示す空間-定位スコアと、
前記ユーザ装置に常駐するオンデバイスの自動音声認識ASRモジュールによって生成された前記音声入力のトランスクリプションと、
前記ユーザ装置の現在の行動を示すユーザ装置行動信号と、または
前記ユーザ装置に関連する現在の環境条件を示す環境条件信号と、
のうちの少なくとも1つを備えている、
請求項1~7のいずれか一項に記載の方法。 - 前記ユーザ装置は、音声発話中で前記音声問合せに先行する存在するホットワードを検出することに応答して、
前記音声問合せを備えている前記音声入力をキャプチャする工程と、
前記音声入力に関連付けられた前記コンテンツメタデータを生成する工程と、
対応する前記自動音声認識ASR要求を前記データ処理ハードウェアに送信する工程と、
を行うように構成されている、
請求項1~8のいずれか一項に記載の方法。 - 前記音声入力はさらに、前記ホットワードを備えている、
請求項9に記載の方法。 - 前記方法はさらに、前記データ処理ハードウェアから、前記ユーザ装置にオンデバイス処理命令を送信する工程を備えており、
前記オンデバイス処理命令は、前記問合せ処理バックエンドが過負荷であると前記ユーザ装置が判定した場合に、オンデバイスで前記ユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための1つまたは複数の基準を提供する、
請求項1~10のいずれか一項に記載の方法。 - 前記ユーザ装置は、
前記ユーザ装置によって前記データ処理ハードウェアに通信された、以前の自動音声認識ASR要求に関連付けられた履歴データを取得する工程と、
前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける過去および/または予測された過負荷状態スケジュールを受け取る工程と、または
オンザフライで前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知を受け取る工程と、
のうちの少なくとも1つによって、前記問合せ処理バックエンドが過負荷であると判定するように構成されている、
請求項11に記載の方法。 - 任意の前記新規音声入力の少なくとも一部をローカルに処理するための前記1つまたは複数の基準は、
オンザデバイスに常駐するローカル自動音声認識ASRモジュールを使用して、新規音声入力を転写する工程と、
前記新規音声入力に対応する音声問合せを判定するべく、前記新規音声入力のトランスクリプションを解釈する工程と、
前記新規音声入力に対応する前記音声問合せに関連付けられたアクションを、前記ユーザ装置が実行できるかどうかを判定する工程と、または
前記ユーザ装置が前記音声問合せに関連付けられた前記アクションを実行できない場合に、前記音声入力の前記トランスクリプションを前記問合せ処理バックエンドに送信する工程と、
のうちの少なくとも1つを前記ユーザ装置に指示する工程を備えている、
請求項11または12に記載の方法。 - 前記1つまたは複数の基準を提供する前記オンデバイス処理命令は、前記ユーザ装置が前記自動音声認識ASR要求を前記問合せ処理バックエンドに送信するために、前記コンテンツメタデータの対応する部分が満たさなければならない1つまたは複数の閾値を備えている、
請求項11~13のいずれか一項に記載の方法。 - 前記オンデバイス処理命令はさらに、前記閾値のうちの少なくとも1つが満たされない場合に、前記自動音声認識ASR要求をドロップするように前記ユーザ装置に指示する、
請求項14に記載の方法。 - 問合せ処理バックエンドのデータ処理ハードウェアと、および
前記データ処理ハードウェアに通信し、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに以下の動作を行わせる命令を記憶するメモリハードウェアと
を備えているシステムであって、前記動作は、
ユーザ装置から自動音声認識ASR要求を受け取る工程であって、前記自動音声認識ASR要求は、音声問合せを備えて前記ユーザ装置によってキャプチャされた音声入力と、前記音声入力に関連付けられて前記ユーザ装置によって生成されたコンテンツメタデータとを備えている、前記受け取る工程と、
前記音声入力に関連付けられた前記コンテンツメタデータに基づき、前記自動音声認識ASR要求の優先度スコアを判定する工程と、
それぞれが対応する前記優先度スコアを有する保留中自動音声認識ASR要求の前処理バックログに、前記自動音声認識ASR要求をキャッシュする工程であって、前記前処理バックログの前記保留中自動音声認識ASR要求は前記優先度スコアの順にランク付けされる、前記キャッシュする工程と、
前記前処理バックログから、バックエンド側自動音声認識ASRモジュールの処理可能性に基づき、前記保留中自動音声認識ASR要求のうちの1つまたは複数を前記バックエンド側自動音声認識ASRモジュールに提供する工程であって、より高い前記優先度スコアに関連付けられた前記保留中自動音声認識ASR要求は、より低い前記優先度スコアに関連付けられた前記保留中自動音声認識ASR要求よりも先に前記バックエンド側自動音声認識ASRモジュールによって処理される、前記提供する工程と、
を備えている、システム。 - 前記バックエンド側自動音声認識ASRモジュールは、保留中自動音声認識ASR要求の前記前処理バックログから各保留中自動音声認識ASR要求を受け取る工程に応答して、前記保留中自動音声認識ASR要求を処理して、前記保留中自動音声認識ASR要求に関連付けられた対応する前記音声入力に対する自動音声認識ASR結果を生成するように構成されている、
請求項16に記載のシステム。 - 前記動作はさらに、前記保留中自動音声認識ASR要求の前記前処理バックログに1つまたは複数の新規自動音声認識ASR要求をキャッシュする工程に応答して、前記前処理バックログの前記保留中自動音声認識ASR要求を前記優先度スコアの順に再ランク付けする工程を備えている、
請求項16または17に記載のシステム。 - 前記動作はさらに、タイムアウト閾値を満たす期間、前記前処理バックログに存在する任意の前記保留中自動音声認識ASR要求が、前記バックエンド側自動音声認識ASRモジュールによって処理されることを拒否する工程を備えている、
請求項16~18のいずれか一項に記載のシステム。 - 前記動作はさらに、優先度スコア閾値よりも小さいそれぞれの前記優先度スコアを有する新規自動音声認識ASR要求を受け取る工程に応答して、前記新規自動音声認識ASR要求が前記バックエンド側自動音声認識ASRモジュールによって処理されることを拒否する工程を備えている、
請求項16~19のいずれか一項に記載のシステム。 - 前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ASR要求が前記バックエンド側自動音声認識ASRモジュールによって正常に処理される可能性を表している、
請求項16~20のいずれか一項に記載のシステム。 - 前記音声入力に関連付けられた前記コンテンツメタデータは、対応する前記自動音声認識ASR要求の処理が、前記ユーザ装置に関連付けられたユーザに影響を与える可能性を表す、
請求項16~21のいずれか一項に記載のシステム。 - 前記音声入力に関連付けられて前記ユーザ装置によって生成された前記コンテンツメタデータは、
前記ユーザ装置に関連付けられたユーザが、前記ユーザ装置にログインしているかどうかを示すログイン指標と、
前記ユーザ装置に関連付けられた話者プロファイルに前記音声入力が一致する可能性を示す、前記音声入力に対する話者識別スコアと、
前記音声入力が、非人間ソースから出力された放送音声または合成音声に対応する可能性を示す、前記音声入力に対する放送音声スコアと、
前記音声入力に含まれて前記音声問合せに先行する1つまたは複数の用語が、事前に定義されたホットワードに対応する可能性を示すホットワード信頼度スコアと、
前記ユーザ装置と前記問合せ処理バックエンドとの間でマルチターン相互作用が進行しているかどうかを示す活動指標と、
前記音声入力の音声信号スコアと、
前記ユーザ装置に対するユーザの相対的距離および相対的位置を示す空間-定位スコアと、
前記ユーザ装置に常駐するオンデバイスの自動音声認識ASRモジュールによって生成された前記音声入力のトランスクリプションと、
前記ユーザ装置の現在の行動を示すユーザ装置行動信号と、または
前記ユーザ装置に関連する現在の環境条件を示す環境条件信号と、
のうちの少なくとも1つを備えている、
請求項16~22のいずれか一項に記載のシステム。 - 前記ユーザ装置は、音声発話中で前記音声問合せに先行するホットワードを検出することに応答して、
前記音声問合せを備えている前記音声入力をキャプチャする工程と、
前記音声入力に関連付けられた前記コンテンツメタデータを生成する工程と、
対応する前記自動音声認識ASR要求を前記データ処理ハードウェアに送信する工程と、
を行うように構成される、
請求項16~23のいずれか一項に記載のシステム。 - 前記音声入力はさらに、前記ホットワードを備えている、
請求項24に記載のシステム。 - 前記動作はさらに、オンデバイス処理命令を前記ユーザ装置に送信する工程を備えており、
前記オンデバイス処理命令は、前記問合せ処理バックエンドが過負荷であると前記ユーザ装置が判定した場合に、オンデバイスで前記ユーザ装置によってキャプチャされた任意の新規音声入力の少なくとも一部をローカルに処理するための1つまたは複数の基準を提供する、
請求項16~25のいずれか一項に記載のシステム。 - 前記ユーザ装置は、
前記ユーザ装置によって前記データ処理ハードウェアに通信された、以前の前記自動音声認識ASR要求に関連付けられた履歴データを取得する工程と、
前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける過去および/または予測された過負荷状態スケジュールを受け取る工程と、または
オンザフライそ前記データ処理ハードウェアから、前記問合せ処理バックエンドにおける現在の過負荷状態を示す過負荷状態ステータス通知を受け取る工程と、
のうちの少なくとも1つによって、前記問合せ処理バックエンドが過負荷であると判定するように構成される、
請求項26に記載のシステム。 - 任意の前記新規音声入力の少なくとも一部をローカルに処理するための前記1つまたは複数の基準は、
オンザデバイスに常駐するローカル自動音声認識ASRモジュールを使用して、新規音声入力を転写する工程と、
前記新規音声入力に対応する音声問合せを判定するべく、前記新規音声入力のトランスクリプションを解釈する工程と、
前記新規音声入力に対応する前記音声問合せに関連付けられたアクションを、前記ユーザ装置が実行できるかどうかを判定する工程と、または
前記ユーザ装置が前記音声問合せに関連付けられた前記アクションを実行できない場合に、前記音声入力の前記トランスクリプションを前記問合せ処理バックエンドに送信する工程と、
のうちの少なくとも1つを前記ユーザ装置に指示する工程を備えている、
請求項26または27に記載のシステム。 - 前記1つまたは複数の基準を提供する前記オンデバイス処理命令は、前記ユーザ装置が前記自動音声認識ASR要求を前記問合せ処理バックエンドに送信するために、前記コンテンツメタデータの対応する部分が満たさなければならない1つまたは複数の閾値を備えている、
請求項26~28のいずれか一項に記載のシステム。 - 前記オンデバイス処理命令はさらに、前記閾値のうちの少なくとも1つが満たされない場合に、前記自動音声認識ASR要求をドロップするように前記ユーザ装置に指示する、
請求項29に記載のシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023033369A JP7470839B2 (ja) | 2019-02-06 | 2023-03-06 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
JP2024062090A JP2024075794A (ja) | 2019-02-06 | 2024-04-08 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2019/016882 WO2020162930A1 (en) | 2019-02-06 | 2019-02-06 | Voice query qos based on client-computed content metadata |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023033369A Division JP7470839B2 (ja) | 2019-02-06 | 2023-03-06 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022519648A true JP2022519648A (ja) | 2022-03-24 |
JP7241190B2 JP7241190B2 (ja) | 2023-03-16 |
Family
ID=65529789
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021545818A Active JP7241190B2 (ja) | 2019-02-06 | 2019-02-06 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
JP2023033369A Active JP7470839B2 (ja) | 2019-02-06 | 2023-03-06 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
JP2024062090A Pending JP2024075794A (ja) | 2019-02-06 | 2024-04-08 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023033369A Active JP7470839B2 (ja) | 2019-02-06 | 2023-03-06 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
JP2024062090A Pending JP2024075794A (ja) | 2019-02-06 | 2024-04-08 | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS |
Country Status (6)
Country | Link |
---|---|
US (3) | US20220093104A1 (ja) |
EP (3) | EP4407958A3 (ja) |
JP (3) | JP7241190B2 (ja) |
KR (3) | KR102393876B1 (ja) |
CN (2) | CN113412516B (ja) |
WO (1) | WO2020162930A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200394994A1 (en) * | 2019-06-12 | 2020-12-17 | Nvidia Corporation | Invertible neural network to synthesize audio signals |
US20210050003A1 (en) * | 2019-08-15 | 2021-02-18 | Sameer Syed Zaheer | Custom Wake Phrase Training |
KR102629796B1 (ko) * | 2019-10-15 | 2024-01-26 | 삼성전자 주식회사 | 음성 인식의 향상을 지원하는 전자 장치 |
US11557300B2 (en) * | 2020-10-16 | 2023-01-17 | Google Llc | Detecting and handling failures in other assistants |
US20230055511A1 (en) * | 2021-08-20 | 2023-02-23 | International Business Machines Corporation | Optimizing clustered filesystem lock ordering in multi-gateway supported hybrid cloud environment |
KR20230043397A (ko) * | 2021-09-24 | 2023-03-31 | 삼성전자주식회사 | 사용자 발화를 처리하는 서버, 전자 장치 및 그의 동작 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018537700A (ja) * | 2015-09-21 | 2018-12-20 | アマゾン テクノロジーズ インコーポレイテッド | 応答を提供するための装置選択 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2323693B (en) * | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US8239197B2 (en) * | 2002-03-28 | 2012-08-07 | Intellisist, Inc. | Efficient conversion of voice messages into text |
US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
WO2008073850A2 (en) * | 2006-12-08 | 2008-06-19 | Sri International | Method and apparatus for reading education |
JP5042799B2 (ja) * | 2007-04-16 | 2012-10-03 | ソニー株式会社 | 音声チャットシステム、情報処理装置およびプログラム |
US20100010823A1 (en) * | 2008-07-14 | 2010-01-14 | Ebay Inc. | Systems and methods for network based customer service |
WO2011148594A1 (ja) | 2010-05-26 | 2011-12-01 | 日本電気株式会社 | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム |
US9620122B2 (en) * | 2011-12-08 | 2017-04-11 | Lenovo (Singapore) Pte. Ltd | Hybrid speech recognition |
US10354650B2 (en) * | 2012-06-26 | 2019-07-16 | Google Llc | Recognizing speech with mixed speech recognition models to generate transcriptions |
US9401140B1 (en) * | 2012-08-22 | 2016-07-26 | Amazon Technologies, Inc. | Unsupervised acoustic model training |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
WO2014125736A1 (ja) * | 2013-02-14 | 2014-08-21 | ソニー株式会社 | 音声認識装置、および音声認識方法、並びにプログラム |
US11393461B2 (en) * | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
WO2016033269A1 (en) * | 2014-08-28 | 2016-03-03 | Analog Devices, Inc. | Audio processing using an intelligent microphone |
EP3201913A4 (en) * | 2014-10-01 | 2018-06-06 | Xbrain Inc. | Voice and connection platform |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
US9875740B1 (en) * | 2016-06-20 | 2018-01-23 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
US9728188B1 (en) * | 2016-06-28 | 2017-08-08 | Amazon Technologies, Inc. | Methods and devices for ignoring similar audio being received by a system |
US9972320B2 (en) * | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
KR20180092380A (ko) * | 2017-02-09 | 2018-08-20 | 주식회사 엘지유플러스 | 음원 제공 방법 및 그 장치 |
CN117577099A (zh) * | 2017-04-20 | 2024-02-20 | 谷歌有限责任公司 | 设备上的多用户认证的方法、系统和介质 |
US10170112B2 (en) * | 2017-05-11 | 2019-01-01 | Google Llc | Detecting and suppressing voice queries |
US10699706B1 (en) * | 2017-09-26 | 2020-06-30 | Amazon Technologies, Inc. | Systems and methods for device communications |
US10685648B2 (en) * | 2017-11-08 | 2020-06-16 | International Business Machines Corporation | Sensor fusion model to enhance machine conversational awareness |
US11106729B2 (en) * | 2018-01-08 | 2021-08-31 | Comcast Cable Communications, Llc | Media search filtering mechanism for search engine |
KR20190084789A (ko) * | 2018-01-09 | 2019-07-17 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US10742799B2 (en) * | 2018-02-27 | 2020-08-11 | Leo Technologies, Llc | Automated speech-to-text processing and analysis of call data apparatuses, methods and systems |
WO2020023604A1 (en) * | 2018-07-27 | 2020-01-30 | Walmart Apollo, Llc | Systems and methods for providing interactions based on a distributed conversation database |
US11017778B1 (en) * | 2018-12-04 | 2021-05-25 | Sorenson Ip Holdings, Llc | Switching between speech recognition systems |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US10861446B2 (en) * | 2018-12-10 | 2020-12-08 | Amazon Technologies, Inc. | Generating input alternatives |
US11830485B2 (en) * | 2018-12-11 | 2023-11-28 | Amazon Technologies, Inc. | Multiple speech processing system with synthesized speech styles |
KR20200074680A (ko) * | 2018-12-17 | 2020-06-25 | 삼성전자주식회사 | 단말 장치 및 이의 제어 방법 |
CN109300472A (zh) * | 2018-12-21 | 2019-02-01 | 深圳创维-Rgb电子有限公司 | 一种语音识别方法、装置、设备及介质 |
-
2019
- 2019-02-06 US US17/310,175 patent/US20220093104A1/en active Pending
- 2019-02-06 EP EP24182768.2A patent/EP4407958A3/en active Pending
- 2019-02-06 CN CN201980091504.XA patent/CN113412516B/zh active Active
- 2019-02-06 JP JP2021545818A patent/JP7241190B2/ja active Active
- 2019-02-06 KR KR1020217028043A patent/KR102393876B1/ko active IP Right Grant
- 2019-02-06 CN CN202410392475.3A patent/CN118447852A/zh active Pending
- 2019-02-06 EP EP22215558.2A patent/EP4187534B1/en active Active
- 2019-02-06 KR KR1020237033169A patent/KR102638177B1/ko active IP Right Grant
- 2019-02-06 KR KR1020227014492A patent/KR102585673B1/ko active IP Right Grant
- 2019-02-06 WO PCT/US2019/016882 patent/WO2020162930A1/en unknown
- 2019-02-06 EP EP19707535.1A patent/EP3906549B1/en active Active
-
2022
- 2022-05-02 US US17/661,625 patent/US20220262367A1/en active Pending
-
2023
- 2023-03-06 JP JP2023033369A patent/JP7470839B2/ja active Active
- 2023-10-04 US US18/480,798 patent/US20240029740A1/en active Pending
-
2024
- 2024-04-08 JP JP2024062090A patent/JP2024075794A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018537700A (ja) * | 2015-09-21 | 2018-12-20 | アマゾン テクノロジーズ インコーポレイテッド | 応答を提供するための装置選択 |
Also Published As
Publication number | Publication date |
---|---|
CN113412516B (zh) | 2024-04-05 |
US20240029740A1 (en) | 2024-01-25 |
KR102585673B1 (ko) | 2023-10-05 |
KR102638177B1 (ko) | 2024-02-16 |
EP4407958A2 (en) | 2024-07-31 |
WO2020162930A1 (en) | 2020-08-13 |
US20220093104A1 (en) | 2022-03-24 |
EP3906549A1 (en) | 2021-11-10 |
JP7241190B2 (ja) | 2023-03-16 |
EP4407958A3 (en) | 2024-10-09 |
KR20210112403A (ko) | 2021-09-14 |
KR20230141950A (ko) | 2023-10-10 |
US20220262367A1 (en) | 2022-08-18 |
JP2023075215A (ja) | 2023-05-30 |
JP2024075794A (ja) | 2024-06-04 |
KR102393876B1 (ko) | 2022-05-02 |
EP4187534A1 (en) | 2023-05-31 |
EP4187534B1 (en) | 2024-07-24 |
CN113412516A (zh) | 2021-09-17 |
CN118447852A (zh) | 2024-08-06 |
EP3906549B1 (en) | 2022-12-28 |
JP7470839B2 (ja) | 2024-04-18 |
KR20220058976A (ko) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102314096B1 (ko) | 다수의 컴퓨팅 장치를 이용한 인터콤 스타일 통신 | |
JP7470839B2 (ja) | クライアントが計算したコンテンツメタデータに基づく音声問合せサービス品質QoS | |
US11749284B2 (en) | Dynamically adapting on-device models, of grouped assistant devices, for cooperative processing of assistant requests | |
US12057119B2 (en) | Contextual suppression of assistant command(s) | |
US20240127799A1 (en) | Processing continued conversations over multiple devices | |
US20230186909A1 (en) | Selecting between multiple automated assistants based on invocation properties | |
KR20230153450A (ko) | 자동 스피치 인식의 로컬 실행을 위한 디바이스 중재 | |
WO2024035424A1 (en) | Dynamically determining whether to perform candidate automated assistant action determined from spoken utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210817 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220823 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221007 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230306 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7241190 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |