JP2018106702A - 自然言語バーチャルアシスタントでの全二重発話処理 - Google Patents
自然言語バーチャルアシスタントでの全二重発話処理 Download PDFInfo
- Publication number
- JP2018106702A JP2018106702A JP2017230590A JP2017230590A JP2018106702A JP 2018106702 A JP2018106702 A JP 2018106702A JP 2017230590 A JP2017230590 A JP 2017230590A JP 2017230590 A JP2017230590 A JP 2017230590A JP 2018106702 A JP2018106702 A JP 2018106702A
- Authority
- JP
- Japan
- Prior art keywords
- query
- response
- utterance
- computer
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 47
- 230000004044 response Effects 0.000 claims description 91
- 230000000007 visual effect Effects 0.000 claims description 22
- 230000000977 initiatory effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 21
- 230000009471 action Effects 0.000 abstract description 6
- 230000026676 system process Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 239000003607 modifier Substances 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/635—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L15/222—Barge in, i.e. overridable guidance for interrupting prompts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
開示された実施形態は、概して、自然言語バーチャルアシスタントにおいて、ユーザの口語入力に対するより直観的な反応を当該ユーザに提供するための、コンピュータによって実現される方法に関する。
背景
従来のシステムにおいては、人とバーチャルアシスタントまたは他の自然言語処理システムとの間のマン・マシン対話は、厳密な順序交代ポリシーを有する。このようなバーチャルアシスタントは、先行のクエリについてのアシスタントの応答がユーザに完全に通信されるまで、新しいクエリをユーザから受付けない。このように融通性が欠如しているため、結果として、通信が不自然になってしまう。
図1は、一実施形態に従った、クエリ処理が行なわれるシステム環境を示す。クライアントデバイス110のユーザは、動作についての要求(たとえば、「本日の午後7時にカールとの夕食についてカレンダーのアポイントメントを作成する(create a calendar appointment for dinner with Karl at 7 PM today)」)および情報についての要求(たとえば、「ローマでは、明日、どんな天候でしょうか?(what is the weather tomorrow in Rome?)」)を含むユーザ自身の希望を表現するのにスピーチを用いる。
一実施形態においては、クエリシリアライザ243は、パーサ222と密に一体化されており、クエリ認識中にパーサの状態に基づいて順序付け依存性がクエリQ1とクエリQ2との間に存在しているかどうかを判断する。先行の例は、Q2が修飾子(「そして、格付けによって分類してください」)を情報探索クエリ(「私のホテルの近くで中華料理店を見つける」)に追加するたびに、クエリQ2に対する応答が先行のクエリQ1に対する応答に依存し得ることを示している。別の例として、「四つ星付き(with four stars)」という発話は、「ダウンタウンのサンホセにあるホテルを私に教えてください(Show me hotels in downtown San Jose)」という先行の発話の続きであり、かつ、この発話に対する修飾子として、ダウンタウンのサンホセにあり4つ星の格付けを有するホテルのサブセットを選択するという役割を果たす。
・ オーディオ(または音楽)セグメントの再生。
・ TTSオーディオセグメントの再生。
・ オーディオ(または音楽)セグメントの開始[または終了]。
・ TTSオーディオセグメントの開始[または終了]。
・ 画面の一部上における何らかのグラフィックの出現[または消失]。
・ 特定の視覚的要素の画面からのスクロールオフ。
出力マネージャ230に与えられる制約のセットは過剰判断され得るかまたは過少判断され得る。制約のセットを処理して過剰判断された制約のセットを検出するために、出力マネージャ230は、以下のステップシーケンスなどの単純な手順に依拠し得る。
2)イベント間の既存の先行性の制約を同期グループ間の対応する先行性の制約にマッピングする。
スケジュールを決定するための十分な制約が結果記録から得られない場合、出力マネージャ230は、スケジュールを完成させるためにそれ自体の制約をさらに追加するだろう。これを行なう場合、典型的にはデフォルト戦略に依拠する。それとは逆の反対の制約が無い場合、(TTSからのオーディオを含む)オーディオセグメントはキューにおける結果記録の順序で再生される。これはデフォルト戦略である。この順序は、必ずしもクエリの元々の順序と同じであるとは限らない。後者の場合、出力マネージャ230は、元々の順序付けを保存しようと試みて、短時間だけ待った後、キューをピークしてもよい。
図11は、一実施形態に従った、図1のクエリ処理サーバ100またはクライアントデバイス110の一部またはすべてとして用いられるコンピュータ1100の物理コンポーネントを例示するハイレベルブロック図である。チップセット1104に結合された少なくとも1つのプロセッサ1102が示される。チップセット1104には、メモリ1106、ストレージデバイス1108、キーボード1110、グラフィックスアダプタ1112、ポインティングデバイス1114およびネットワークアダプタ1116が結合される。ディスプレイ1118はグラフィックスアダプタ1112に結合される。一実施形態においては、チップセット1104の機能は、メモリコントローラハブ1120およびI/Oコントローラハブ1122によって提供される。別の実施形態においては、メモリ1106が、チップセット1104の代わりにプロセッサ1102に直接結合される。
多くの変更例および変形例が当業者にとって明らかになるだろう。変更例および変形例は、開示された特徴の如何なる関連する組合せをも含む。明細書における「一実施形態」または「或る実施形態」についての言及は、実施形態に関連して記載された特定の機能、構造または特徴が少なくとも1つの実施形態に含まれていることを意味している。明細書のさまざまな箇所における「一実施形態における」という句は必ずしもすべてが同じ実施形態を指しているわけではない。不定冠詞「a」および「an」は、文脈に応じて適宜、単数形および複数形を共に含むものと理解されるべきである。このため、「ブロック」は、たとえば、「少なくとも1つのブロック」を意味するものと理解されるべきである。
Claims (16)
- 口語入力に対する応答を生成する、コンピュータによって実現される方法であって、前記方法は、
オーディオ入力ストリームを取得するステップと、
前記オーディオ入力ストリームにおいて第1の発話の始まりを検出するステップと、
前記オーディオ入力ストリームにおいて前記第1発話の終わりを検出するステップと、
前記第1の発話の前記終わりを検出したことに応じて、第1のクエリを認識するために前記第1の発話の処理を開始するステップと、
前記第1の発話を処理している間、
前記オーディオ入力ストリームを受取り続けるステップと、
前記オーディオ入力ストリームにおいて第2の発話の始まりを検出するステップとを含む、コンピュータによって実現される方法。 - 前記第2の発話の前記始まりを検出したことに応じて前記第1の発話の処理を終了するステップをさらに含む、請求項1に記載の、コンピュータによって実現される方法。
- 第1の応答を決定するために前記第1のクエリを実行するステップと、
前記オーディオ入力ストリームにおいて前記第2の発話の終わりを検出するステップと、
前記第2の発話の前記終わりを検出したことに応じて、前記第1のクエリに対する前記第1の応答を出力するステップとをさらに含む、請求項1または2に記載の、コンピュータによって実現される方法。 - 第1の応答を決定するために前記第1のクエリを実行するステップと、
前記オーディオ入力ストリームにおいて前記第2の発話の終わりを検出するステップと、
前記第1の発話および前記第2の発話の連結から第2のクエリを認識するステップと、
前記第2のクエリを認識するステップに少なくとも部分的に応じて、前記第1の応答を廃棄するステップと、
第2の応答を決定するために前記第2のクエリを実行するステップと、
前記第2の応答を出力するステップとをさらに含む、請求項1または2に記載の、コンピュータによって実現される方法。 - 第1の応答を決定するために前記第1のクエリを実行するステップと、
前記オーディオ入力ストリームにおいて前記第2の発話の終わりを検出するステップと、
第2のクエリを認識するために前記第2の発話を処理するステップと、
第2の応答を決定するために前記第2のクエリを実行するステップと、
前記第2の応答を出力するステップとをさらに含む、請求項1または2に記載の、コンピュータによって実現される方法。 - 前記第2の応答を出力するステップは、前記第1の応答を出力するステップを完了した後に実行される、請求項5に記載の、コンピュータによって実現される方法。
- 前記第2の発話を処理するステップは前記第1のクエリを実行するステップと同時に実行される、請求項5または6に記載の、コンピュータによって実現される方法。
- 前記第1のクエリを実行するステップは前記第2のクエリを実行するステップと同時に実行される、請求項5から7のいずれか1項に記載の、コンピュータによって実現される方法。
- 前記第1の応答を出力するステップは前記第2のクエリを実行するステップと同時に実行される、請求項5から8のいずれか1項に記載の、コンピュータによって実現される方法。
- 前記第2の応答を出力するステップは前記第1のクエリを実行するステップと同時に実行される、請求項5に記載の、コンピュータによって実現される方法。
- 前記第1のクエリと前記第2のクエリとの間の依存性を識別するステップと、
前記第1のクエリを実行するステップが完了するまで前記第2のクエリの実行を遅らせるステップとをさらに含む、請求項5から9のいずれか1項に記載の、コンピュータによって実現される方法。 - 前記第1の応答は視覚的に出力され、前記方法はさらに、
前記第1の応答が視覚的に出力されてから表示期間が経過したかどうかを判断するステップと、
前記表示期間の経過後に前記応答の視覚的な出力をクリアするステップとを含む、請求項5から11のいずれか1項に記載の、コンピュータによって実現される方法。 - 請求項1から12のいずれか1項に記載の方法をコンピュータに実行させるためのプログラム。
- 請求項13に記載のプログラムを格納するように構成されたメモリと、
前記メモリに格納された前記プログラムを実行するように構成されたプロセッサとを含む、コンピュータ。 - 請求項13に記載のプログラムを格納するように構成されたメモリと、
前記メモリに格納された前記プログラムを実行するように構成されたプロセッサとを含む、スマート機器。 - 請求項13に記載のプログラムを格納するように構成されたメモリと、
前記メモリに格納された前記プログラムを実行するように構成されたプロセッサとを含む、車。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/389,122 US10311875B2 (en) | 2016-12-22 | 2016-12-22 | Full-duplex utterance processing in a natural language virtual assistant |
US15/389,122 | 2016-12-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018106702A true JP2018106702A (ja) | 2018-07-05 |
JP6728125B2 JP6728125B2 (ja) | 2020-07-22 |
Family
ID=60937550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017230590A Active JP6728125B2 (ja) | 2016-12-22 | 2017-11-30 | 自然言語バーチャルアシスタントでの全二重発話処理 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10311875B2 (ja) |
EP (1) | EP3340241A1 (ja) |
JP (1) | JP6728125B2 (ja) |
KR (1) | KR102192062B1 (ja) |
CN (1) | CN108228131B (ja) |
HK (1) | HK1256569A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091408A (ja) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | マルチラウンド入力によるサーチ方法、システム及び端末機器 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11386085B2 (en) | 2014-01-27 | 2022-07-12 | Microstrategy Incorporated | Deriving metrics from queries |
US10635669B1 (en) | 2014-01-27 | 2020-04-28 | Microstrategy Incorporated | Data engine integration and data refinement |
US10255320B1 (en) | 2014-01-27 | 2019-04-09 | Microstrategy Incorporated | Search integration |
US11921715B2 (en) | 2014-01-27 | 2024-03-05 | Microstrategy Incorporated | Search integration |
US10210095B2 (en) * | 2017-07-06 | 2019-02-19 | International Business Machines Corporation | Configurable hardware queue management and address translation |
EP3596599A1 (en) * | 2018-05-07 | 2020-01-22 | Google LLC | Activation of remote devices in a networked system |
US11347801B2 (en) * | 2018-05-07 | 2022-05-31 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
KR102669152B1 (ko) | 2018-05-07 | 2024-05-27 | 구글 엘엘씨 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
JP7135114B2 (ja) | 2018-05-07 | 2022-09-12 | グーグル エルエルシー | 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること |
US11979360B2 (en) * | 2018-10-25 | 2024-05-07 | Microsoft Technology Licensing, Llc | Multi-phrase responding in full duplex voice conversation |
CN114303132B (zh) * | 2019-08-22 | 2024-03-01 | 三星电子株式会社 | 在虚拟个人助手中使用唤醒词进行上下文关联和个性化的方法和系统 |
CN112447177B (zh) * | 2019-09-04 | 2022-08-23 | 思必驰科技股份有限公司 | 全双工语音对话方法及系统 |
CN112735398B (zh) * | 2019-10-28 | 2022-09-06 | 思必驰科技股份有限公司 | 人机对话模式切换方法及系统 |
KR20210066647A (ko) | 2019-11-28 | 2021-06-07 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11614970B2 (en) | 2019-12-06 | 2023-03-28 | Microstrategy Incorporated | High-throughput parallel data transmission |
US11567965B2 (en) | 2020-01-23 | 2023-01-31 | Microstrategy Incorporated | Enhanced preparation and integration of data sets |
CN112382285B (zh) * | 2020-11-03 | 2023-08-15 | 北京百度网讯科技有限公司 | 语音控制方法、装置、电子设备和存储介质 |
US11978454B2 (en) * | 2021-09-16 | 2024-05-07 | Soundhound Ai Ip, Llc | Multiple service levels for automatic speech recognition |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5652789A (en) | 1994-09-30 | 1997-07-29 | Wildfire Communications, Inc. | Network based knowledgeable assistant |
US8374875B2 (en) * | 2000-01-31 | 2013-02-12 | Intel Corporation | Providing programming information in response to spoken requests |
US6757362B1 (en) | 2000-03-06 | 2004-06-29 | Avaya Technology Corp. | Personal virtual assistant |
US7319992B2 (en) | 2000-09-25 | 2008-01-15 | The Mission Corporation | Method and apparatus for delivering a virtual reality environment |
US7117442B1 (en) | 2001-02-01 | 2006-10-03 | International Business Machines Corporation | Efficient presentation of database query results through audio user interfaces |
JP4021287B2 (ja) * | 2002-09-09 | 2007-12-12 | 日立ソフトウエアエンジニアリング株式会社 | データベース検索プログラム、データベース検索方法及びデータベース検索装置 |
WO2006069358A2 (en) | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
JP2007304793A (ja) * | 2006-05-10 | 2007-11-22 | Nippon Telegr & Teleph Corp <Ntt> | 文書検索装置 |
US20070274297A1 (en) | 2006-05-10 | 2007-11-29 | Cross Charles W Jr | Streaming audio from a full-duplex network through a half-duplex device |
CN101507276B (zh) * | 2006-08-18 | 2012-02-08 | 索尼株式会社 | 具有可换个性适配器的能自动重配置多媒体系统 |
US8112280B2 (en) | 2007-11-19 | 2012-02-07 | Sensory, Inc. | Systems and methods of performing speech recognition with barge-in for use in a bluetooth system |
US8279779B2 (en) | 2009-12-10 | 2012-10-02 | Verizon Patent And Licensing Inc. | Method and system for virtual agent session monitoring and barge-in |
US8805683B1 (en) * | 2012-02-24 | 2014-08-12 | Google Inc. | Real-time audio recognition protocol |
US9280599B1 (en) * | 2012-02-24 | 2016-03-08 | Google Inc. | Interface for real-time audio recognition |
US9384734B1 (en) * | 2012-02-24 | 2016-07-05 | Google Inc. | Real-time audio recognition using multiple recognizers |
US9208225B1 (en) * | 2012-02-24 | 2015-12-08 | Google Inc. | Incentive-based check-in |
JP2014109889A (ja) | 2012-11-30 | 2014-06-12 | Toshiba Corp | コンテンツ検索装置、コンテンツ検索方法及び制御プログラム |
US9286395B1 (en) * | 2013-07-25 | 2016-03-15 | Google Inc. | Modifying query in discourse context |
JP6327252B2 (ja) * | 2013-08-07 | 2018-05-23 | 日本電気株式会社 | 分析対象決定装置及び分析対象決定方法 |
RU2564629C1 (ru) * | 2014-03-31 | 2015-10-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ кластеризации результатов поиска в зависимости от семантики |
US20150310863A1 (en) * | 2014-04-24 | 2015-10-29 | Nuance Communications, Inc. | Method and apparatus for speaker diarization |
CN104066254B (zh) * | 2014-07-08 | 2017-01-04 | 昂宝电子(上海)有限公司 | 使用triac调光器进行智能调光控制的系统和方法 |
US9318107B1 (en) * | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US10614799B2 (en) * | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
US10198405B2 (en) * | 2015-07-08 | 2019-02-05 | Microsoft Technology Licensing, Llc | Rule-based layout of changing information |
US10269341B2 (en) * | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
-
2016
- 2016-12-22 US US15/389,122 patent/US10311875B2/en active Active
-
2017
- 2017-09-18 CN CN201710843341.9A patent/CN108228131B/zh active Active
- 2017-11-30 JP JP2017230590A patent/JP6728125B2/ja active Active
- 2017-12-19 EP EP17208676.1A patent/EP3340241A1/en active Pending
- 2017-12-21 KR KR1020170176870A patent/KR102192062B1/ko active IP Right Grant
-
2018
- 2018-12-06 HK HK18115644.8A patent/HK1256569A1/zh unknown
-
2019
- 2019-04-18 US US16/388,526 patent/US10699713B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019091408A (ja) * | 2017-11-16 | 2019-06-13 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | マルチラウンド入力によるサーチ方法、システム及び端末機器 |
US10664755B2 (en) | 2017-11-16 | 2020-05-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Searching method and system based on multi-round inputs, and terminal |
Also Published As
Publication number | Publication date |
---|---|
US20180182398A1 (en) | 2018-06-28 |
CN108228131A (zh) | 2018-06-29 |
JP6728125B2 (ja) | 2020-07-22 |
US10311875B2 (en) | 2019-06-04 |
CN108228131B (zh) | 2021-03-19 |
US10699713B2 (en) | 2020-06-30 |
KR102192062B1 (ko) | 2020-12-16 |
US20190244621A1 (en) | 2019-08-08 |
KR20180073493A (ko) | 2018-07-02 |
HK1256569A1 (zh) | 2019-09-27 |
EP3340241A1 (en) | 2018-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699713B2 (en) | Techniques for concurrent processing of user speech | |
JP7418526B2 (ja) | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード | |
EP3895161B1 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
KR102498811B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
RU2352979C2 (ru) | Синхронное понимание семантических объектов для высокоинтерактивного интерфейса | |
KR101888801B1 (ko) | 음성 작동형 문서 탐색 및 브라우징을 위한 디바이스, 방법 및 사용자 인터페이스 | |
KR101042119B1 (ko) | 음성 이해 시스템, 및 컴퓨터 판독가능 기록 매체 | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
JP2019050019A (ja) | 提案される音声ベースのアクションクエリの提供 | |
JP7384976B2 (ja) | 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること | |
US11043222B1 (en) | Audio encryption | |
JP2023017791A (ja) | アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択 | |
JP2024510698A (ja) | アシスタントコマンドの文脈的抑制 | |
US20240055003A1 (en) | Automated assistant interaction prediction using fusion of visual and audio input | |
US20230197071A1 (en) | Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing | |
US20230230578A1 (en) | Personalized speech query endpointing based on prior interaction(s) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6728125 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |