JP2021524065A - 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング - Google Patents
局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング Download PDFInfo
- Publication number
- JP2021524065A JP2021524065A JP2020569950A JP2020569950A JP2021524065A JP 2021524065 A JP2021524065 A JP 2021524065A JP 2020569950 A JP2020569950 A JP 2020569950A JP 2020569950 A JP2020569950 A JP 2020569950A JP 2021524065 A JP2021524065 A JP 2021524065A
- Authority
- JP
- Japan
- Prior art keywords
- response
- text
- given
- audio data
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 499
- 238000009877 rendering Methods 0.000 title claims description 55
- 238000013507 mapping Methods 0.000 claims abstract description 186
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 74
- 238000012545 processing Methods 0.000 claims description 35
- 230000003068 static effect Effects 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims 1
- 239000003795 chemical substances by application Substances 0.000 description 32
- 230000009471 action Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000011230 binding agent Substances 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
101 通信ネットワーク
102 スピーチテキスト(STT)モジュール
103 マッピングモジュール
104 リモート構成要素モジュール
105 レンダリングモジュール
106 マイクロフォン
107 テキスト応答マップ
150 リモートシステム
151 リモートSTTモジュール
152 自然言語処理(NLP)モジュール
153 エージェントエンジン
190 エージェント
200 オーディオデータ
205 テキスト
215 応答
220 応答
220 サーバ応答
305 静的応答
310 動的応答
610 コンピューティングデバイス
612 バスサブシステム
614 プロセッサ
616 ネットワークインターフェースサブシステム
620 ユーザインターフェース出力デバイス
622 ユーザインターフェース入力デバイス
624 記憶サブシステム
625 メモリサブシステム
626 ファイル記憶サブシステム
630 ランダムアクセスメモリ(RAM)
632 読取り専用メモリ(ROM)
Claims (23)
- クライアントデバイスの1つまたは複数のプロセッサによって実行される方法であって、
ユーザの口頭発話をキャプチャするオーディオデータを前記クライアントデバイスの少なくとも1つのマイクロフォンを介してキャプチャするステップと、
前記口頭発話に対応する現在のテキストを生成するために前記オーディオデータを処理するステップであって、前記現在のテキストを生成するために前記オーディオデータを処理するステップが、前記クライアントデバイス上に局所的に記憶された音声テキストモデルを利用する、ステップと、
前記クライアントデバイス上に局所的に記憶されたテキスト応答マップにアクセスするステップであって、前記テキスト応答マップが複数のマッピングを含み、前記マッピングの各々は、対応するテキストが、前記クライアントデバイスによってキャプチャされた以前のオーディオデータから以前に生成されたことに基づいて、ならびに対応する応答が、前記以前のオーディオデータおよび前記対応するテキストのうちの少なくとも1つの、リモートシステムへの送信に応答して、前記リモートシステムから以前に受信されたことに基づいて、前記対応するテキストと前記対応する応答との間の対応する直接的関係を規定する、ステップと、
前記テキスト応答マップの前記対応するテキストのうちのいずれかが前記現在のテキストに整合するかどうかを決定するステップと、
前記テキスト応答マップの前記対応するテキストのうちの所与のテキストが前記現在のテキストに整合するという決定に応答して、
前記テキスト応答マップの前記対応する応答のうちの所与の応答を選択するステップであって、ここで、前記所与の応答を選択するステップは、前記テキスト応答マップが、前記所与のテキストとの直接的関係を有するように前記所与の応答を規定する、前記マッピングのうちの1つのマッピングを含むことに基づく、ステップと、
前記クライアントデバイスに関連する1つまたは複数のユーザインターフェース出力デバイスを介して前記所与の応答をレンダリングさせるステップと
を備える方法。 - 前記オーディオデータまたは前記現在のテキストを前記リモートシステムへ送信するステップと、
前記オーディオデータまたは前記現在のテキストの送信に応答して、前記口頭発話に応答するサーバ応答を前記リモートシステムから受信するステップと、
前記サーバ応答を前記所与の応答と比較するステップと、
前記比較に基づいて前記テキスト応答マップを更新するステップと
をさらに備える、請求項1に記載の方法。 - 前記サーバ応答を受信するステップが、前記所与の応答の少なくとも一部が前記1つまたは複数のユーザインターフェース出力デバイスを介してレンダリングされた後に行われる、請求項2に記載の方法。
- 前記サーバ応答を前記所与の応答と比較するステップが、前記サーバ応答が前記所与の応答とは異なることを示し、前記テキスト応答マップを更新するステップが、
前記サーバ応答が前記所与の応答とは異なることを前記比較が示すことに基づいて、
前記所与のテキストとの前記直接的関係を有するように前記サーバ応答を規定するために、前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングを更新するステップを備える、
請求項2または3に記載の方法。 - 前記サーバ応答を前記所与の応答と比較するステップが、前記サーバ応答が前記所与の応答とは異なることを示し、前記テキスト応答マップを更新するステップが、
前記サーバ応答が前記所与の応答とは異なることを前記比較が示すことに基づいて、
前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングを、前記テキスト応答マップから除去するステップを備える、
請求項2または3に記載の方法。 - 前記テキスト応答マップを更新するステップが、
前記サーバ応答が前記所与の応答とは異なることを前記比較が示すことに基づいて、
前記所与のテキストがいかなる応答にマッピングされることも防止するデータを前記テキスト応答マップの中に記憶するステップをさらに備える、
請求項5に記載の方法。 - 前記テキスト応答マップを更新するステップが、前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングに関連する信頼性スコアを調整するステップを含む、請求項2または3に記載の方法。
- 前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングに関連する前記信頼性スコアを調整するステップが、
前記所与の応答が前記サーバ応答に整合することを前記比較が示す場合、信頼性をより大きく示すように前記信頼性スコアを調整するステップを備える、
請求項7に記載の方法。 - 前記所与の応答を選択するステップが、前記マッピングに関連する前記信頼性スコアがしきい値を満たすことにさらに基づく、請求項7に記載の方法。
- 追加の口頭発話をキャプチャする追加のオーディオデータを前記クライアントデバイスの前記少なくとも1つのマイクロフォンを介してキャプチャするステップと、
前記追加の口頭発話に対応する追加のテキストを生成するために、前記クライアントデバイス上に局所的に記憶された前記音声テキストモデルを利用して前記追加のオーディオデータを処理するステップと、
前記テキスト応答マップの前記対応するテキストのうちのいずれかが前記追加のテキストに整合するかどうかを決定するステップと、
前記テキスト応答マップの前記対応するテキストのうちのいずれも前記追加のテキストに整合しないという決定に応答して、
前記追加のテキストおよび前記追加のオーディオデータのうちの少なくとも1つをサーバシステムへ送信するステップと、
前記追加のテキストおよび前記追加のオーディオデータのうちの前記少なくとも1つの送信に応答して、追加の応答を前記サーバシステムから受信するステップと、
前記クライアントデバイスに関連する前記ユーザインターフェース出力デバイスのうちの1つまたは複数を介して前記追加の応答をレンダリングさせるステップと
をさらに備える、請求項1から9のいずれか一項に記載の方法。 - サーバ応答が前記追加のテキストに対する静的応答であるという表示を、前記追加の応答とともに前記サーバシステムから受信するステップと、
前記サーバ応答が前記追加のテキストに対する静的応答であるという前記表示の受信に応答して、
前記追加のテキストと前記追加の応答との間の新たな直接的関係を規定する新たなマッピングを前記テキスト応答マップに追加するステップと
をさらに備える、請求項10に記載の方法。 - 前記方法が実行されるとき、前記クライアントデバイスにはインターネットへのいかなる接続もない、請求項1から11のいずれか一項に記載の方法。
- 前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングに関連する信頼性スコアを決定するステップをさらに備え、
前記所与の応答をレンダリングさせるステップが、
前記信頼性スコアがしきい値を満たすことに応答して、前記オーディオデータまたは前記現在のテキストを前記リモートシステムへ送信することなく前記所与の応答をレンダリングさせるステップを備える、
請求項1から12のいずれか一項に記載の方法。 - 前記所与の応答がレンダリングされる前に前記オーディオデータまたは前記現在のテキストを前記リモートシステムへ送信するステップと、
前記所与のテキストとの前記直接的関係を有するように前記所与の応答を規定する前記マッピングに関連する信頼性スコアを決定するステップと、
前記オーディオデータまたは前記現在のテキストの送信に応答して、前記口頭発話に応答するサーバ応答を前記リモートシステムから受信するのを待つべきしきい値時間量を、前記信頼性スコアに基づいて決定するステップとをさらに備え、
前記所与の応答をレンダリングさせるステップが、
前記サーバ応答が前記しきい値時間量の満了の前に受信されないとき、前記しきい値時間量の満了において前記所与の応答をレンダリングさせるステップを備える、
請求項1から13のいずれか一項に記載の方法。 - クライアントデバイスの1つまたは複数のプロセッサによって実施される方法であって、
ユーザの口頭発話をキャプチャするオーディオデータを前記クライアントデバイスの少なくとも1つのマイクロフォンを介してキャプチャするステップと、
前記口頭発話に対応する現在のテキストを生成するために前記オーディオデータを処理するステップであって、前記現在のテキストを生成するために前記オーディオデータを処理するステップが、前記クライアントデバイス上に局所的に記憶された音声テキストモデルを利用する、ステップと、
前記クライアントデバイス上に局所的に記憶されたテキスト応答マップにアクセスするステップであって、前記テキスト応答マップが複数のマッピングを含み、前記マッピングの各々は、対応するテキストが、前記クライアントデバイスによってキャプチャされた以前のオーディオデータから以前に生成されたことに基づいて、ならびに対応する応答が、前記以前のオーディオデータおよび前記対応するテキストのうちの少なくとも1つの、リモートシステムへの送信に応答して、前記リモートシステムから以前に受信されたことに基づいて、前記対応するテキストと前記対応する応答との間の対応する直接的関係を規定する、ステップと、
前記テキスト応答マップの前記対応するテキストが前記現在のテキストに整合しないことを前記クライアントデバイスによって決定するステップと、
前記オーディオデータまたは前記現在のテキストをリモートシステムへ送信するステップと、
前記オーディオデータまたは前記現在のテキストをサブミットすることに応答して、前記リモートシステムから応答を受信するステップと
所与のテキストマッピングを追加することによって前記テキスト応答マップを更新するステップであって、前記所与のテキストマッピングが、前記現在のテキストと前記応答との間の直接的関係を規定する、ステップと、
前記テキスト応答マップを更新するステップに続いて第2のオーディオデータをキャプチャするステップと、
前記クライアントデバイス上に局所的に記憶された前記音声テキストモデルを利用して第2のテキストを生成するために前記第2のオーディオデータを処理するステップと、
前記現在のテキストが前記第2のテキストに整合することを前記テキスト応答マップに基づいて決定するステップと、
前記現在のテキストが前記第2のテキストに整合するという決定に応答して、および前記テキスト応答マップが、前記現在のテキストと前記応答との間の前記直接的関係を規定する前記所与のテキストマッピングを含むことに基づいて、
前記クライアントデバイスに関連する1つまたは複数のユーザ出力デバイスを介して前記応答をレンダリングさせるステップと
を備える方法。 - 前記応答が静的であるかどうかの表示を前記応答とともに受信するステップをさらに備え、
前記所与のテキストマッピングを前記テキスト応答マップに追加するステップが、前記応答が静的であることを前記表示が示すことに応答して行われる、
請求項15に記載の方法。 - 前記テキスト応答マップを更新するステップが、
前記所与のテキストマッピングに関連する信頼性スコアを記憶するステップをさらに備え、
前記信頼性スコアが、前記応答が静的であることの尤度を示す、
請求項15または16に記載の方法。 - 前記第2のオーディオデータを前記リモートシステムにサブミットするステップと、
前記第2のオーディオデータをサブミットすることに応答して、前記リモートシステムから第2のサーバ応答を受信するステップと、
前記第2のサーバ応答に基づいて前記信頼性スコアを更新するステップと
をさらに備える、請求項17に記載の方法。 - 満了イベントが発生するまでに限って前記応答が静的であるという表示を、前記応答とともに受信するステップと、
前記所与のテキストマッピングとともに前記満了イベントの表示を含むように前記テキスト応答マップを更新するステップと、
前記満了イベントが発生すると前記テキスト応答マップから前記所与のテキストマッピングを除去するステップと
をさらに備える、請求項15から18のいずれか一項に記載の方法。 - 前記テキスト応答マップを更新するステップが、前記テキスト応答マップから1つまたは複数のマッピングを除去するステップを含む、請求項15から19のいずれか一項に記載の方法。
- 1つまたは複数のプロセッサとコンピュータ実行可能命令を記憶する少なくとも1つのメモリとを備えるコンピューティング装置であって、前記コンピュータ実行可能命令が、前記1つまたは複数のプロセッサによって実行されたとき、請求項1から20のいずれか一項に記載の方法を前記1つまたは複数のプロセッサに実行させる、コンピューティング装置。
- 前記コンピューティング装置がクライアントデバイスである、請求項21に記載のコンピューティング装置。
- 少なくとも1つのコンピューティング装置の1つまたは複数のプロセッサによって実行されたとき、請求項1から20のいずれか一項に記載の方法を実行させるコンピュータ実行可能命令を備えるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021118613A JP7256237B2 (ja) | 2018-06-27 | 2021-07-19 | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/039850 WO2020005241A1 (en) | 2018-06-27 | 2018-06-27 | Rendering responses to a spoken utterance of a user utilizing a local text-response map |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021118613A Division JP7256237B2 (ja) | 2018-06-27 | 2021-07-19 | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6918255B1 JP6918255B1 (ja) | 2021-08-11 |
JP2021524065A true JP2021524065A (ja) | 2021-09-09 |
Family
ID=62986212
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020569950A Active JP6918255B1 (ja) | 2018-06-27 | 2018-06-27 | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング |
JP2021118613A Active JP7256237B2 (ja) | 2018-06-27 | 2021-07-19 | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021118613A Active JP7256237B2 (ja) | 2018-06-27 | 2021-07-19 | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング |
Country Status (6)
Country | Link |
---|---|
US (2) | US10891958B2 (ja) |
EP (2) | EP3613037B1 (ja) |
JP (2) | JP6918255B1 (ja) |
KR (2) | KR102611386B1 (ja) |
CN (1) | CN112334976A (ja) |
WO (1) | WO2020005241A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11295720B2 (en) * | 2019-05-28 | 2022-04-05 | Mitel Networks, Inc. | Electronic collaboration and communication method and system to facilitate communication with hearing or speech impaired participants |
US11749265B2 (en) * | 2019-10-04 | 2023-09-05 | Disney Enterprises, Inc. | Techniques for incremental computer-based natural language understanding |
US11984124B2 (en) * | 2020-11-13 | 2024-05-14 | Apple Inc. | Speculative task flow execution |
US11861320B1 (en) | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Text reduction and analysis interface to a text generation modeling system |
US11860914B1 (en) | 2023-02-27 | 2024-01-02 | Casetext, Inc. | Natural language database generation and query system |
US11995411B1 (en) | 2023-02-28 | 2024-05-28 | Casetext, Inc. | Large language model artificial intelligence text evaluation system |
US11861321B1 (en) | 2023-06-29 | 2024-01-02 | Casetext, Inc. | Systems and methods for structure discovery and structure-based analysis in natural language processing models |
US11972223B1 (en) | 2023-06-30 | 2024-04-30 | Casetext, Inc. | Query evaluation in natural language processing systems |
KR102662401B1 (ko) * | 2023-09-26 | 2024-05-03 | 메디컬아이피 주식회사 | 영상분할방법 및 그 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012501480A (ja) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | ハイブリッド型音声認識 |
WO2017141502A1 (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240094B2 (en) * | 1997-07-03 | 2007-07-03 | Centra Software Inc. | Method and system for synchronizing and serving multimedia in a distributed network |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7242752B2 (en) * | 2001-07-03 | 2007-07-10 | Apptera, Inc. | Behavioral adaptation engine for discerning behavioral characteristics of callers interacting with an VXML-compliant voice application |
KR20060070605A (ko) * | 2004-12-21 | 2006-06-26 | 한국전자통신연구원 | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 |
US11287847B2 (en) * | 2006-02-15 | 2022-03-29 | Virtual Video Reality by Ritchey, LLC (VVRR, LLC) | Human-like emulation enterprise system and method |
US20080115141A1 (en) * | 2006-11-15 | 2008-05-15 | Bharat Welingkar | Dynamic resource management |
US8756694B2 (en) * | 2007-03-30 | 2014-06-17 | Microsoft Corporation | Prevention of exploitation of update rollback |
AU2009335623B2 (en) * | 2009-01-08 | 2012-05-10 | Servicenow, Inc. | Chatbots |
US10032455B2 (en) * | 2011-01-07 | 2018-07-24 | Nuance Communications, Inc. | Configurable speech recognition system using a pronunciation alignment between multiple recognizers |
US20120310642A1 (en) * | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
KR20130086971A (ko) * | 2012-01-26 | 2013-08-05 | 진삼순 | 음성인식 질의응답 시스템 및 그것의 운용방법 |
CN102629246B (zh) * | 2012-02-10 | 2017-06-27 | 百纳(武汉)信息技术有限公司 | 识别浏览器语音命令的服务器及浏览器语音命令识别方法 |
CN103295575B (zh) * | 2012-02-27 | 2019-01-25 | 北京三星通信技术研究有限公司 | 一种语音识别方法和客户端 |
JP5886103B2 (ja) * | 2012-03-27 | 2016-03-16 | ヤフー株式会社 | 応答生成装置、応答生成システム、応答生成方法および応答生成プログラム |
JP5421420B2 (ja) * | 2012-03-29 | 2014-02-19 | 株式会社Nttドコモ | 通信サーバおよび通信方法 |
US9679568B1 (en) * | 2012-06-01 | 2017-06-13 | Google Inc. | Training a dialog system using user feedback |
KR101330671B1 (ko) * | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
CN104769668B (zh) * | 2012-10-04 | 2018-10-30 | 纽昂斯通讯公司 | 改进的用于asr的混合控制器 |
US9734151B2 (en) * | 2012-10-31 | 2017-08-15 | Tivo Solutions Inc. | Method and system for voice based media search |
US9064001B2 (en) * | 2013-03-15 | 2015-06-23 | Nuance Communications, Inc. | Method and apparatus for a frequently-asked questions portal workflow |
CN103247291B (zh) * | 2013-05-07 | 2016-01-13 | 华为终端有限公司 | 一种语音识别设备的更新方法、装置及系统 |
US20170235825A1 (en) * | 2013-06-26 | 2017-08-17 | Google Inc. | Identification of location-based ambient acoustic characteristics |
JP2015015675A (ja) * | 2013-07-08 | 2015-01-22 | 日本電気通信システム株式会社 | リモートロックシステム、移動通信端末及びリモートロック方法 |
US9444916B2 (en) * | 2013-08-26 | 2016-09-13 | Seven Networks, Llc | Enhanced caching of domain name system (DNS) and reverse DNS queries for traffic management for signaling optimization in a mobile network |
WO2015041892A1 (en) * | 2013-09-20 | 2015-03-26 | Rawles Llc | Local and remote speech processing |
CN103593340B (zh) * | 2013-10-28 | 2017-08-29 | 余自立 | 自然表达信息处理方法、处理及回应方法、设备及系统 |
JP2015106203A (ja) * | 2013-11-28 | 2015-06-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US9626966B2 (en) * | 2013-12-18 | 2017-04-18 | Harman International Industries, Incorporated | Voice recognition query response systems and methods for generating query responses using information from a vehicle |
US8868409B1 (en) * | 2014-01-16 | 2014-10-21 | Google Inc. | Evaluating transcriptions with a semantic parser |
US20190312973A1 (en) * | 2014-02-28 | 2019-10-10 | Ultratec, Inc. | Semiautomated relay method and apparatus |
CN104978965B (zh) * | 2014-04-07 | 2019-04-26 | 三星电子株式会社 | 电子装置及利用电子装置和服务器的语音识别执行方法 |
US9536443B2 (en) * | 2014-04-28 | 2017-01-03 | International Business Machines Corporation | Evaluating expert opinions in a question and answer system |
US9324324B2 (en) * | 2014-05-22 | 2016-04-26 | Nedelco, Inc. | Adaptive telephone relay service systems |
KR102304052B1 (ko) * | 2014-09-05 | 2021-09-23 | 엘지전자 주식회사 | 디스플레이 장치 및 그의 동작 방법 |
US9508339B2 (en) | 2015-01-30 | 2016-11-29 | Microsoft Technology Licensing, Llc | Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing |
US20160262017A1 (en) * | 2015-03-04 | 2016-09-08 | Microsoft Technology Licensing, Llc | Personal assistant authentication |
US10621218B2 (en) * | 2015-03-30 | 2020-04-14 | Avaya Inc. | Systems and methods for compiling and dynamically updating a collection of frequently asked questions |
US9922138B2 (en) * | 2015-05-27 | 2018-03-20 | Google Llc | Dynamically updatable offline grammar model for resource-constrained offline device |
US10388277B1 (en) * | 2015-06-25 | 2019-08-20 | Amazon Technologies, Inc. | Allocation of local and remote resources for speech processing |
US10325590B2 (en) * | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
US10152534B2 (en) * | 2015-07-02 | 2018-12-11 | International Business Machines Corporation | Monitoring a corpus for changes to previously provided answers to questions |
CN105261366B (zh) * | 2015-08-31 | 2016-11-09 | 努比亚技术有限公司 | 语音识别方法、语音引擎及终端 |
JP6673580B2 (ja) * | 2015-10-07 | 2020-03-25 | Necソリューションイノベータ株式会社 | 生成装置、生成方法、生成プログラム、および認識システム |
US10169423B2 (en) * | 2016-01-06 | 2019-01-01 | International Business Machines Corporation | Ranking answers in ground truth of a question-answering system |
US9836527B2 (en) | 2016-02-24 | 2017-12-05 | Google Llc | Customized query-action mappings for an offline grammar model |
CN108010523B (zh) * | 2016-11-02 | 2023-05-09 | 松下电器(美国)知识产权公司 | 信息处理方法以及记录介质 |
US10796217B2 (en) * | 2016-11-30 | 2020-10-06 | Microsoft Technology Licensing, Llc | Systems and methods for performing automated interviews |
US10382624B2 (en) * | 2017-03-01 | 2019-08-13 | Speech-Soft Solutions Inc. | Bridge for non-voice communications user interface to voice-enabled interactive voice response system |
US10353480B2 (en) * | 2017-04-17 | 2019-07-16 | Essential Products, Inc. | Connecting assistant device to devices |
CN107393541B (zh) * | 2017-08-29 | 2021-05-07 | 百度在线网络技术(北京)有限公司 | 信息验证方法和装置 |
US10673895B2 (en) * | 2017-12-01 | 2020-06-02 | KnowBe4, Inc. | Systems and methods for AIDA based grouping |
US10348761B2 (en) * | 2017-12-01 | 2019-07-09 | KnowBe4, Inc. | Systems and methods for situational localization of AIDA |
CN108010531B (zh) * | 2017-12-14 | 2021-07-27 | 南京美桥信息科技有限公司 | 一种可视智能问询方法及系统 |
CN108170034B (zh) * | 2017-12-29 | 2021-06-08 | 上海器魂智能科技有限公司 | 智能设备控制方法、装置、计算机设备和储存介质 |
US11201849B2 (en) * | 2018-01-15 | 2021-12-14 | Lenovo (Singapore) Pte. Ltd. | Natural language connectivity |
US10679620B2 (en) * | 2018-03-06 | 2020-06-09 | GM Global Technology Operations LLC | Speech recognition arbitration logic |
US10777203B1 (en) * | 2018-03-23 | 2020-09-15 | Amazon Technologies, Inc. | Speech interface device with caching component |
JP2019185393A (ja) * | 2018-04-10 | 2019-10-24 | 株式会社沖データ | 端末装置および画像形成システム |
US11068518B2 (en) * | 2018-05-17 | 2021-07-20 | International Business Machines Corporation | Reducing negative effects of service waiting time in humanmachine interaction to improve the user experience |
US10235999B1 (en) * | 2018-06-05 | 2019-03-19 | Voicify, LLC | Voice application platform |
US11437029B2 (en) * | 2018-06-05 | 2022-09-06 | Voicify, LLC | Voice application platform |
-
2018
- 2018-06-27 JP JP2020569950A patent/JP6918255B1/ja active Active
- 2018-06-27 US US16/609,403 patent/US10891958B2/en active Active
- 2018-06-27 KR KR1020237010851A patent/KR102611386B1/ko active IP Right Grant
- 2018-06-27 CN CN201880094598.1A patent/CN112334976A/zh active Pending
- 2018-06-27 EP EP18743935.1A patent/EP3613037B1/en active Active
- 2018-06-27 EP EP20195601.8A patent/EP3800633B1/en active Active
- 2018-06-27 WO PCT/US2018/039850 patent/WO2020005241A1/en unknown
- 2018-06-27 KR KR1020207037198A patent/KR102517387B1/ko active IP Right Grant
-
2020
- 2020-12-10 US US17/118,463 patent/US20210097999A1/en active Pending
-
2021
- 2021-07-19 JP JP2021118613A patent/JP7256237B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012501480A (ja) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | ハイブリッド型音声認識 |
WO2017141502A1 (ja) * | 2016-02-18 | 2017-08-24 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20210013193A (ko) | 2021-02-03 |
EP3613037B1 (en) | 2020-10-21 |
JP2021176015A (ja) | 2021-11-04 |
KR102517387B1 (ko) | 2023-04-03 |
EP3800633B1 (en) | 2023-10-11 |
JP7256237B2 (ja) | 2023-04-11 |
CN112334976A (zh) | 2021-02-05 |
EP3800633A1 (en) | 2021-04-07 |
US20200342862A1 (en) | 2020-10-29 |
KR20230047514A (ko) | 2023-04-07 |
WO2020005241A1 (en) | 2020-01-02 |
US10891958B2 (en) | 2021-01-12 |
KR102611386B1 (ko) | 2023-12-08 |
US20210097999A1 (en) | 2021-04-01 |
EP3613037A1 (en) | 2020-02-26 |
JP6918255B1 (ja) | 2021-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6918255B1 (ja) | 局所的なテキスト応答マップを利用する、ユーザの口頭発話への応答のレンダリング | |
CN111033492B (zh) | 为自动化助手提供命令束建议 | |
CN110741363B (zh) | 使用机器学习处理自然语言以基于槽描述符确定槽值 | |
CN114207710A (zh) | 检测和/或登记热命令以由自动助理触发响应动作 | |
US11966764B2 (en) | Adapting client application of feature phone based on experiment parameters | |
US11948576B2 (en) | Proactive caching of assistant action content to enable resolution of spoken or typed utterances | |
US20230169102A1 (en) | Determining responsive content for a compound query based on a set of generated sub-queries | |
US20220284049A1 (en) | Natural language understanding clarifications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210205 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210205 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210621 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210720 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6918255 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |