JP6761100B2 - フォローアップ音声クエリ予測 - Google Patents
フォローアップ音声クエリ予測 Download PDFInfo
- Publication number
- JP6761100B2 JP6761100B2 JP2019500487A JP2019500487A JP6761100B2 JP 6761100 B2 JP6761100 B2 JP 6761100B2 JP 2019500487 A JP2019500487 A JP 2019500487A JP 2019500487 A JP2019500487 A JP 2019500487A JP 6761100 B2 JP6761100 B2 JP 6761100B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- utterance
- follow
- language model
- subsequent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 71
- 230000009466 transformation Effects 0.000 claims description 46
- 238000006243 chemical reaction Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 35
- 238000013519 translation Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 description 36
- 230000008569 process Effects 0.000 description 20
- 238000004891 communication Methods 0.000 description 15
- 230000014616 translation Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 5
- 238000000844 transformation Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
104a 音声クエリ
104b 音声データ
104c コンテキストデータ
104d 変換
106a 音声クエリ
106b 音声データ
110 ASRM
120 テーブル
130 言語モデル
130a 最初の言語モデル
130b 調整された言語モデル
300 コンピューティングデバイス
302 プロセッサ
304 メモリ
306 記憶デバイス
308 高速インターフェース
310 高速拡張ポート
312 低速インターフェース
314 低速バス
316 ディスプレイ
320 サーバ
322 ラップトップコンピュータ
324 ラックサーバシステム
350 コンピューティングデバイス
352 プロセッサ
354 ディスプレイ
356 ディスプレイインターフェース
358 制御インターフェース
360 オーディオコーデック
362 外部インターフェース
364 メモリ
366 通信インターフェース
368 トランシーバ
370 GPS受信機モジュール
372 拡張インターフェース
374 拡張メモリ
382 スマートフォン
480 セルラー電話
Claims (19)
- ユーザの最初の発話の変換に事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
前記フォローアップクエリのうちの1つまたは複数に関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の変換を生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のために前記後続の発話の前記変換を提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられた特定のコンテキストが、前記ユーザの前記後続の発話に関連付けられた特定のコンテキストと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話の変換に事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
前記フォローアップクエリのうちの1つまたは複数に関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の変換を生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のために前記後続の発話の前記変換を提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションが、前記ユーザの前記後続の発話に関連付けられたユーザロケーションと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話に対応する最初の音声データを受信するステップと、
前記最初の発話の変換を生成するために、最初の言語モデルを使用して前記音声データを処理するステップと
をさらに含む、請求項1または2に記載の方法。 - 新しいまたは修正された言語モデルを取得するステップが、
1つまたは複数のフォローアップクエリマッピングを含むデータベースにアクセスするステップであって、各フォローアップクエリマッピングが、(i)前記ユーザの過去の発話の変換と、(ii)前記ユーザに関連付けられた過去の検索結果と、(iii)前記ユーザに関連付けられた前記過去の検索結果に関連付けられたデータとについてのフォローアップクエリ候補のリストを指定する、ステップと、
前記ユーザの前記最初の発話の前記変換の1つまたは複数の用語が、前記1つまたは複数のフォローアップクエリマッピング内に含まれると判定するステップと、
前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記ユーザの前記最初の発話の前記変換の前記1つまたは複数の用語に対応する前記フォローアップクエリ候補のリストに関連付けられた前記それぞれの確率を増加させるように、前記最初の言語モデルを調整するステップと
を含む、請求項1または2に記載の方法。 - 前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記フォローアップクエリ候補のリストが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションに少なくとも基づく、請求項4に記載の方法。
- 前記ユーザの前記最初の発話の前記変換の1つまたは複数の用語が、前記1つまたは複数のフォローアップクエリマッピング内に含まれると判定するステップが、前記ユーザの前記最初の発話に関連付けられた特定のコンテキストが、前記ユーザの過去の発話の特定の変換に関連付けられたコンテキストと一致すると判定するステップを含む、請求項4に記載の方法。
- 前記1つまたは複数のフォローアップクエリマッピングの各々が、(i)前記ユーザの過去の発話の変換、(ii)前記ユーザに関連付けられた過去の検索結果、および(iii)前記ユーザに関連付けられた前記過去の検索結果に関連付けられたデータについての1つまたは複数のフォローアップ用語をさらに指定する、請求項4に記載の方法。
- ユーザの最初の発話の変換に関連付けられた1つまたは複数の検索結果に事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
1つまたは複数の前記フォローアップクエリに関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果を生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のための前記後続の発話の前記変換に関連付けられた前記1つまたは複数の検索結果を提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられた特定のコンテキストが、前記ユーザの前記後続の発話に関連付けられた特定のコンテキストと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話の変換に関連付けられた1つまたは複数の検索結果に事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
1つまたは複数の前記フォローアップクエリに関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果を生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のための前記後続の発話の前記変換に関連付けられた前記1つまたは複数の検索結果を提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションが、前記ユーザの前記後続の発話に関連付けられたユーザロケーションと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話に対応する最初の音声データを受信するステップと、
前記ユーザの最初の発話の変換に関連付けられた1つまたは複数の検索結果を生成するために、最初の言語モデルを使用して前記音声データを処理するステップと
をさらに含む、請求項8または9に記載の方法。 - 新しいまたは修正された言語モデルを取得するステップが、
1つまたは複数のフォローアップクエリマッピングを含むデータベースにアクセスするステップであって、各フォローアップクエリマッピングが、(i)前記ユーザの過去の発話の変換と、(ii)前記ユーザに関連付けられた過去の検索結果と、(iii)前記ユーザに関連付けられた前記過去の検索結果に関連付けられたデータとについてのフォローアップクエリ候補のリストを指定する、ステップと、
前記ユーザの前記最初の発話の前記変換の1つまたは複数の用語が、前記1つまたは複数のフォローアップクエリマッピング内に含まれると判定するステップと、
前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記ユーザの前記最初の発話の前記変換の前記1つまたは複数の用語に対応する前記フォローアップクエリ候補のリストに関連付けられた前記それぞれの確率を増加させるように、前記最初の言語モデルを調整するステップと
を含む、請求項8または9に記載の方法。 - 前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記フォローアップクエリ候補のリストが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションに少なくとも基づく、請求項11に記載の方法。
- 前記ユーザの前記最初の発話の前記変換の1つまたは複数の用語が、前記1つまたは複数のフォローアップクエリマッピング内に含まれると判定するステップが、前記ユーザの前記最初の発話に関連付けられた特定のコンテキストが、前記ユーザの過去の発話の特定の変換に関連付けられたコンテキストと一致すると判定するステップを含む、請求項11に記載の方法。
- 前記1つまたは複数のフォローアップクエリマッピングの各々が、(i)前記ユーザの過去
の発話の変換、(ii)前記ユーザに関連付けられた過去の検索結果、および(iii)前記ユーザに関連付けられた前記過去の検索結果に関連付けられたデータについての1つまたは複数のフォローアップ用語をさらに指定する、請求項11に記載の方法。 - ユーザの最初の発話の変換に関連付けられた検索結果のうちの1つまたは複数に関連付けられたデータに事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
前記フォローアップクエリのうちの1つまたは複数に関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果に関連付けられたデータを生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のための前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果に関連付けられた前記データを提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられた特定のコンテキストが、前記ユーザの前記後続の発話に関連付けられた特定のコンテキストと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話の変換に関連付けられた検索結果のうちの1つまたは複数に関連付けられたデータに事前に関連付けられた1つまたは複数のフォローアップクエリを識別するステップと、
前記フォローアップクエリのうちの1つまたは複数に関連付けられたそれぞれの確率が最初の言語モデルに対して増加している、新しいまたは修正された言語モデルを取得するステップと、
前記ユーザの後続の発話に対応する後続の音声データを受信するステップと、
前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果に関連付けられたデータを生成するために、前記新しいまたは修正された言語モデルを使用して前記後続の音声データを処理するステップと、
前記ユーザへの出力のための前記後続の発話の前記変換に関連付けられた1つまたは複数の検索結果に関連付けられた前記データを提供するステップと
を含む、コンピュータ実装方法であって、
前記新しいまたは修正された言語モデルを使用して前記音声データを処理するステップが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションが、前記ユーザの前記後続の発話に関連付けられたユーザロケーションと一致すると判定するステップを含む、
方法。 - ユーザの最初の発話に対応する最初の音声データを受信するステップと、
前記ユーザの最初の発話の変換に関連付けられた1つまたは複数の検索結果を生成するために、最初の言語モデルを使用して前記音声データを処理するステップと
をさらに含む、請求項8または9に記載の方法。 - 新しいまたは修正された言語モデルを取得するステップが、
1つまたは複数のフォローアップクエリマッピングを含むデータベースにアクセスするステップであって、各フォローアップクエリマッピングが、(i)前記ユーザの過去の発話の変換と、(ii)前記ユーザに関連付けられた過去の検索結果と、(iii)前記ユーザに関連付けられた前記過去の検索結果に関連付けられたデータとについてのフォローアップクエリ候補のリストを指定する、ステップと、
前記ユーザの前記最初の発話の前記変換の1つまたは複数の用語が、前記1つまたは複数のフォローアップクエリマッピング内に含まれると判定するステップと、
前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記ユーザの前記最初の発話の前記変換の前記1つまたは複数の用語に対応する前記フォローアップクエリ候補のリストに関連付けられた前記それぞれの確率を増加させるように、前記最初の言語モデルを調整するステップと
を含む、請求項8または9に記載の方法。 - 前記1つまたは複数のフォローアップクエリマッピング内に含まれる前記フォローアップクエリ候補のリストが、前記ユーザの前記最初の発話に関連付けられたユーザロケーションに少なくとも基づく、請求項11に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/205,505 | 2016-07-08 | ||
US15/205,505 US10026398B2 (en) | 2016-07-08 | 2016-07-08 | Follow-up voice query prediction |
PCT/US2017/038917 WO2018009351A1 (en) | 2016-07-08 | 2017-06-23 | Follow-up voice query prediction |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019527379A JP2019527379A (ja) | 2019-09-26 |
JP6761100B2 true JP6761100B2 (ja) | 2020-09-23 |
Family
ID=60911024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019500487A Active JP6761100B2 (ja) | 2016-07-08 | 2017-06-23 | フォローアップ音声クエリ予測 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10026398B2 (ja) |
EP (1) | EP3469489B1 (ja) |
JP (1) | JP6761100B2 (ja) |
KR (1) | KR102201937B1 (ja) |
CN (1) | CN109844740B (ja) |
WO (1) | WO2018009351A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10403273B2 (en) * | 2016-09-09 | 2019-09-03 | Oath Inc. | Method and system for facilitating a guided dialog between a user and a conversational agent |
KR20180084392A (ko) * | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US10535342B2 (en) * | 2017-04-10 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatic learning of language models |
US10747817B2 (en) * | 2017-09-29 | 2020-08-18 | Rovi Guides, Inc. | Recommending language models for search queries based on user profile |
US10769210B2 (en) | 2017-09-29 | 2020-09-08 | Rovi Guides, Inc. | Recommending results in multiple languages for search queries based on user profile |
JP7034027B2 (ja) * | 2018-07-26 | 2022-03-11 | ヤフー株式会社 | 認識装置、認識方法及び認識プログラム |
US11404058B2 (en) | 2018-10-31 | 2022-08-02 | Walmart Apollo, Llc | System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions |
US11195524B2 (en) * | 2018-10-31 | 2021-12-07 | Walmart Apollo, Llc | System and method for contextual search query revision |
US11183176B2 (en) | 2018-10-31 | 2021-11-23 | Walmart Apollo, Llc | Systems and methods for server-less voice applications |
US11238850B2 (en) | 2018-10-31 | 2022-02-01 | Walmart Apollo, Llc | Systems and methods for e-commerce API orchestration using natural language interfaces |
US11295732B2 (en) * | 2019-08-01 | 2022-04-05 | Soundhound, Inc. | Dynamic interpolation for hybrid language models |
US11610588B1 (en) * | 2019-10-28 | 2023-03-21 | Meta Platforms, Inc. | Generating contextually relevant text transcripts of voice recordings within a message thread |
US11373657B2 (en) * | 2020-05-01 | 2022-06-28 | Raytheon Applied Signal Technology, Inc. | System and method for speaker identification in audio data |
US11620982B2 (en) * | 2020-06-01 | 2023-04-04 | Rovi Guides, Inc. | Systems and methods for improving content discovery in response to a voice query using a recognition rate which depends on detected trigger terms |
US11315545B2 (en) * | 2020-07-09 | 2022-04-26 | Raytheon Applied Signal Technology, Inc. | System and method for language identification in audio data |
US12020697B2 (en) | 2020-07-15 | 2024-06-25 | Raytheon Applied Signal Technology, Inc. | Systems and methods for fast filtering of audio keyword search |
US11935519B2 (en) * | 2020-10-15 | 2024-03-19 | Google Llc | Preserving speech hypotheses across computing devices and/or dialog sessions |
WO2023113784A1 (en) * | 2021-12-14 | 2023-06-22 | Google Llc | Lattice speech corrections |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050131695A1 (en) * | 1999-02-04 | 2005-06-16 | Mark Lucente | System and method for bilateral communication between a user and a system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
US7542907B2 (en) * | 2003-12-19 | 2009-06-02 | International Business Machines Corporation | Biasing a speech recognizer based on prompt context |
KR20060070605A (ko) | 2004-12-21 | 2006-06-26 | 한국전자통신연구원 | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US20080153465A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US20080154870A1 (en) | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Collection and use of side information in voice-mediated mobile search |
US20080221884A1 (en) | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile environment speech processing facility |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US9978365B2 (en) * | 2008-10-31 | 2018-05-22 | Nokia Technologies Oy | Method and system for providing a voice interface |
US9892730B2 (en) * | 2009-07-01 | 2018-02-13 | Comcast Interactive Media, Llc | Generating topic-specific language models |
US20110077492A1 (en) | 2009-09-29 | 2011-03-31 | Allegiance DMS, LLC | Systems for Bidirectional Communication With A Patient Via A Medical Measurement Device |
US8990085B2 (en) * | 2009-09-30 | 2015-03-24 | At&T Intellectual Property I, L.P. | System and method for handling repeat queries due to wrong ASR output by modifying an acoustic, a language and a semantic model |
US9043205B2 (en) * | 2012-06-21 | 2015-05-26 | Google Inc. | Dynamic language model |
CN103871403B (zh) | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
US9466294B1 (en) * | 2013-05-21 | 2016-10-11 | Amazon Technologies, Inc. | Dialog management system |
US9484025B2 (en) * | 2013-10-15 | 2016-11-01 | Toyota Jidosha Kabushiki Kaisha | Configuring dynamic custom vocabulary for personalized speech recognition |
US9196244B2 (en) | 2014-01-08 | 2015-11-24 | Nuance Communications, Inc. | Methodology for enhanced voice search experience |
US20150370787A1 (en) * | 2014-06-18 | 2015-12-24 | Microsoft Corporation | Session Context Modeling For Conversational Understanding Systems |
US9502032B2 (en) | 2014-10-08 | 2016-11-22 | Google Inc. | Dynamically biasing language models |
US10614799B2 (en) * | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
-
2016
- 2016-07-08 US US15/205,505 patent/US10026398B2/en active Active
-
2017
- 2017-06-23 EP EP17824701.1A patent/EP3469489B1/en active Active
- 2017-06-23 KR KR1020197001544A patent/KR102201937B1/ko active IP Right Grant
- 2017-06-23 CN CN201780042496.0A patent/CN109844740B/zh active Active
- 2017-06-23 JP JP2019500487A patent/JP6761100B2/ja active Active
- 2017-06-23 WO PCT/US2017/038917 patent/WO2018009351A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
KR20190021338A (ko) | 2019-03-05 |
CN109844740A (zh) | 2019-06-04 |
WO2018009351A1 (en) | 2018-01-11 |
EP3469489B1 (en) | 2022-11-16 |
US20180012594A1 (en) | 2018-01-11 |
EP3469489A1 (en) | 2019-04-17 |
CN109844740B (zh) | 2023-06-20 |
US10026398B2 (en) | 2018-07-17 |
EP3469489A4 (en) | 2019-12-18 |
KR102201937B1 (ko) | 2021-01-13 |
JP2019527379A (ja) | 2019-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6761100B2 (ja) | フォローアップ音声クエリ予測 | |
EP3469585B1 (en) | Scalable dynamic class language modeling | |
KR102312218B1 (ko) | 문맥상의 핫워드들 | |
US11282513B2 (en) | Negative n-gram biasing | |
US9576578B1 (en) | Contextual improvement of voice query recognition | |
JP7163424B2 (ja) | 自動化された発話発音帰属化 | |
EP3032532A1 (en) | Disambiguating heteronyms in speech synthesis | |
CN110494841B (zh) | 语境语言翻译 | |
US10152298B1 (en) | Confidence estimation based on frequency | |
CN112334979B (zh) | 通过计算设备检测持续对话 | |
US11605387B1 (en) | Assistant determination in a skill | |
CN113168830B (zh) | 言语处理 | |
US20190164541A1 (en) | Real-time utterance verification system and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190221 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200127 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200217 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200811 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200903 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6761100 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |