JP7203865B2 - ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 - Google Patents
ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 Download PDFInfo
- Publication number
- JP7203865B2 JP7203865B2 JP2020562767A JP2020562767A JP7203865B2 JP 7203865 B2 JP7203865 B2 JP 7203865B2 JP 2020562767 A JP2020562767 A JP 2020562767A JP 2020562767 A JP2020562767 A JP 2020562767A JP 7203865 B2 JP7203865 B2 JP 7203865B2
- Authority
- JP
- Japan
- Prior art keywords
- automated assistant
- dialog state
- data indicative
- client
- computing service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/448—Execution paradigms, e.g. implementations of programming paradigms
- G06F9/4498—Finite state machines
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Description
107 視覚センサ、カメラ
108 自動化されたアシスタントクライアント、クライアント部分
109 マイクロフォン
110 スピーチキャプチャモジュール
1121 視覚的手がかりモジュール
1122 クラウドベースの視覚的手がかりモジュール
113 呼び出しモジュール
114 ローカルおよび/またはワイドエリアネットワーク、視覚的手がかりモデルデータベース
116 クラウドベースのテキスト-スピーチモジュール
117 クラウドベースのSTTモジュール
119 クラウドベースの自動化されたアシスタント構成要素、サーバ部分
120 自動化されたアシスタント
122 自然言語プロセッサ
124 履行モジュール
126 自然言語生成器
135 自然言語理解モジュール、意図照合器
140 サードパーティコンピューティングサービス
150 検索モジュール
242 ライブラリ
244 没入型エンジン
246 JavaScriptコントローラ
248 組み込みブラウザ
301 ユーザ
306 クライアントデバイス、コンピューティングデバイス
306A クライアントデバイス
306B クライアントデバイス、ディスプレイ
506 クライアントデバイス、コンピューティングデバイス
5561 タイル
5562 タイル
5563 タイル
5564 タイル
5565 タイル
570 タッチスクリーン、ディスプレイ
706 クライアントデバイス、コンピューティングデバイス
7561 タイル
7562 カード
770 タッチスクリーンディスプレイ
1010 コンピューティングデバイス
1012 バスサブシステム
1014 プロセッサ
1016 ネットワークインターフェースサブシステム
1020 ユーザインターフェース出力デバイス
1022 ユーザインターフェース入力デバイス
1024 記憶サブシステム
1025 メモリサブシステム、メモリ
1030 メインランダムアクセスメモリ(RAM)
1032 読み取り専用メモリ(ROM)
Claims (23)
- システムであって、
ディスプレイを有する少なくとも1つのクライアントコンピューティングデバイスであって、前記クライアントコンピューティングデバイスが、自動化されたアシスタントのクライアント部分を実行する、少なくとも1つのクライアントコンピューティングデバイスと、
前記自動化されたアシスタントのサーバ部分を実行する1つまたは複数のサーバコンピューティングデバイスと
を備え、
ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために前記クライアント部分とインタラクションし、
前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わり、
前記自動化されたアシスタントの前記クライアント部分が、
前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記視覚的ダイアログステートマシンの第1の視覚的ダイアログ状態を示すデータを受信することと、
前記第1の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングすることであって、前記グラフィカルユーザインターフェースが、前記口頭ダイアログステートマシンを、前記第1の視覚的ダイアログ状態に対応する第1の口頭ダイアログ状態から第2の口頭ダイアログ状態に遷移させるように動作可能な少なくとも1つのグラフィカル要素を含む、レンダリングすることと、
前記ユーザによる前記少なくとも1つのグラフィカル要素の動作を検出することと、
前記自動化されたアシスタントの前記サーバ部分に、前記少なくとも1つのグラフィカル要素の動作を示すデータを提供することと
を行うように構成され、
前記自動化されたアシスタントの前記サーバ部分が、
前記少なくとも1つのグラフィカル要素の動作を示す前記データを、前記サードパーティコンピューティングサービスに提供することであって、前記少なくとも1つのグラフィカル要素の動作を示す前記データが、前記サードパーティコンピューティングサービスを、前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移させる、提供することを行うように構成される、
システム。 - 前記自動化されたアシスタントの前記サーバ部分が、
前記サードパーティコンピューティングサービスから、前記第2の口頭ダイアログ状態を示すデータを受信することと、
前記自動化されたアシスタントの前記クライアント部分に、前記第2の口頭ダイアログ状態を示す前記データを提供することと
を行うようにさらに構成される、請求項1に記載のシステム。 - 前記第2の口頭ダイアログ状態を示す前記データが、テキストまたはオーディオデータを含み、クライアントデバイスが、前記第2の口頭ダイアログ状態を示す前記データを受信したことに応答して、
前記テキストを音声に変換し、前記音声を可聴にレンダリングすること、または、
前記オーディオデータを可聴にレンダリングすること
を行うようにさらに構成される、請求項1に記載のシステム。 - 前記自動化されたアシスタントの前記サーバ部分から前記サードパーティコンピューティングサービスへの、前記少なくとも1つのグラフィカル要素の動作を示す前記データの提供が、前記サードパーティコンピューティングサービスを、前記第1の視覚的ダイアログ状態から第2の視覚的ダイアログ状態に遷移させる、請求項1から3のいずれか一項に記載のシステム。
- 前記第2の視覚的ダイアログ状態が、前記第2の口頭ダイアログ状態に対応する、請求項4に記載のシステム。
- 前記自動化されたアシスタントの前記クライアント部分が、
前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記第2の視覚的ダイアログ状態を示すデータを受信することと、
前記第2の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連付けられた更新されたグラフィカルユーザインターフェースをレンダリングすることと
を行うようにさらに構成される、請求項5に記載のシステム。 - 前記第2の視覚的ダイアログ状態を示す前記データが、クライアントデバイスに、前記更新されたグラフィカルユーザインターフェースをレンダリングさせてタッチレスインタラクションを自動的に実行させる、請求項6に記載のシステム。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項7に記載のシステム。 - 前記サードパーティコンピューティングサービスが前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移した後、
前記自動化されたアシスタントの前記クライアント部分が、
前記ユーザから、前記クライアントコンピューティングデバイスの1つまたは複数の入力構成要素において、音声の自由形式の入力を受信することと、
前記自動化されたアシスタントの前記サーバ部分に、前記音声の自由形式の入力を示すデータを提供することと、
前記自動化されたアシスタントの前記サーバ部分から、表示内容を示すデータを受信することであって、
前記自動化されたアシスタントの前記サーバ部分が、前記サードパーティコンピューティングサービスに、前記音声の自由形式の入力を示す前記データ、または前記音声の自由形式の入力を示す前記データに基づく追加データを提供したことに基づいて、前記サードパーティコンピューティングサービスから前記表示内容を示す前記データを取得し、
前記サードパーティコンピューティングサービスが、前記受信したデータまたは追加データに基づいて、かつ第2の口頭ダイアログ状態に前記遷移したことに基づいて、前記表示内容を示す前記データを生成する、
受信することと、
前記受信した表示内容に基づいて、前記グラフィカルユーザインターフェースにおけるタッチレスインタラクションをトリガすることと
を行うようにさらに構成される、請求項1から8のいずれか一項に記載のシステム。 - 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項1から7のいずれか一項を引用する請求項9に記載のシステム。 - システムであって
ディスプレイを有する少なくとも1つのクライアントコンピューティングデバイスであって、前記クライアントコンピューティングデバイスが、自動化されたアシスタントのクライアント部分を実行する、少なくとも1つのクライアントコンピューティングデバイスと、
前記自動化されたアシスタントのサーバ部分を実行する1つまたは複数のサーバコンピューティングデバイスと
を備え、
ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために前記クライアント部分とインタラクションし、
前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わり、
前記自動化されたアシスタントの前記クライアント部分が、
前記クライアントコンピューティングデバイスの前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングすることと、
前記ユーザから、前記クライアントコンピューティングデバイスの1つまたは複数の入力構成要素において、音声の自由形式の入力を受信することと、
前記自動化されたアシスタントの前記サーバ部分に、前記音声の自由形式の入力を示すデータを提供することと、
前記自動化されたアシスタントの前記サーバ部分から、表示内容を示すデータを受信することと、
前記表示内容に基づいて、前記ユーザと前記グラフィカルユーザインターフェースとの間のタッチレスインタラクションをトリガすることと
を行うように構成され、
前記自動化されたアシスタントの前記サーバ部分が、
前記音声の自由形式の入力を示す前記データに基づいて、前記ユーザの意図を決定することと、
前記意図を示すデータを、前記サードパーティコンピューティングサービスに提供することであって、前記意図を示す前記データが、前記サードパーティコンピューティングサービスに、解決情報を生成するために前記意図を解決させる、提供することと、
前記意図を示す前記データの提供に応答して、前記サードパーティコンピューティングサービスから前記表示内容を受信することであって、前記表示内容が、前記人間対コンピュータのダイアログセッションに関連して前記サードパーティコンピューティングサービスのために維持され、前記ユーザの前記意図と前記解決情報のうちの一方または両方に少なくとも部分的に基づいて更新される、受信することと
を行うように構成される、
システム。 - 前記グラフィカルユーザインターフェースが、前記自動化されたアシスタントの前記クライアント部分に組み込まれたウェブブラウザを備える、請求項11に記載のシステム。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項11または12に記載のシステム。 - 1つまたは複数のプロセッサによって実行される方法であって、
ディスプレイを有するクライアントデバイスにおいて、自動化されたアシスタントのクライアント部分を実行するステップと、
1つまたは複数のサーバコンピューティングデバイスにおいて、前記自動化されたアシスタントのサーバ部分を実行するステップであって、ユーザが、前記ユーザと、前記自動化されたアシスタントと、サードパーティコンピューティングサービスとの間の人間対コンピュータのダイアログセッションに参加するために、前記クライアント部分とインタラクションし、前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わる、ステップと、
前記クライアント部分において、前記サードパーティコンピューティングサービスから、前記自動化されたアシスタントの前記サーバ部分を経由して、前記視覚的ダイアログステートマシンの第1の視覚的ダイアログ状態を示すデータを受信するステップと、
前記クライアント部分によって、前記第1の視覚的ダイアログ状態に基づいて、前記ディスプレイ上に、前記人間対コンピュータのダイアログセッションに関連するグラフィカルユーザインターフェースをレンダリングするステップであって、前記グラフィカルユーザインターフェースが、前記口頭ダイアログステートマシンを、前記第1の視覚的ダイアログ状態に対応する第1の口頭ダイアログ状態から第2の口頭ダイアログ状態に遷移させるように動作可能な少なくとも1つのグラフィカル要素を含む、ステップと、
前記クライアント部分によって、前記ユーザによる前記少なくとも1つのグラフィカル要素の動作を検出するステップと、
前記クライアント部分によって、前記自動化されたアシスタントの前記サーバ部分に、前記少なくとも1つのグラフィカル要素の動作を示すデータを提供するステップと、
前記サーバ部分によって、前記少なくとも1つのグラフィカル要素の動作を示す前記データを、前記サードパーティコンピューティングサービスに提供するステップであって、前記少なくとも1つのグラフィカル要素の動作を示す前記データが、前記サードパーティコンピューティングサービスを、前記第1の口頭ダイアログ状態から前記第2の口頭ダイアログ状態に遷移させる、ステップと
を含む、方法。 - 前記サーバ部分によって、前記サードパーティコンピューティングサービスから、前記第2の口頭ダイアログ状態を示すデータを受信するステップと、
前記サーバ部分によって、前記自動化されたアシスタントの前記クライアント部分に、前記第2の口頭ダイアログ状態を示す前記データを提供するステップと
をさらに含む、請求項14に記載の方法。 - 前記自動化されたアシスタントの前記サーバ部分から前記サードパーティコンピューティングサービスへの、前記少なくとも1つのグラフィカル要素の動作を示す前記データの提供が、前記サードパーティコンピューティングサービスを、前記第1の視覚的ダイアログ状態から第2の視覚的ダイアログ状態に遷移させる、請求項14または15に記載の方法。
- 1つまたは複数のプロセッサを使用して実行される方法であって、
前記1つまたは複数のプロセッサによって少なくとも部分的に実行されたコンピューティングサービスによって、自動化されたアシスタントから、ユーザと前記自動化されたアシスタントとの間の人間対コンピュータのダイアログセッションの一部として前記自動化されたアシスタントと通信しているコンピューティングデバイスの前記ユーザの意図を示すデータを受信するステップであって、前記サードパーティコンピューティングサービスが、口頭ダイアログステートマシンと視覚的ダイアログステートマシンとに従って前記ユーザと関わる、ステップと、
解決情報を生成するために前記ユーザの前記意図を解決するステップと、
前記人間対コンピュータのダイアログセッションに関連して前記コンピューティングサービスのために維持された表示内容を更新するステップであって、前記更新するステップが、前記意図と前記解決情報のうちの一方または両方に少なくとも部分的に基づく、ステップと、
前記表示内容を示すデータを前記自動化されたアシスタントに提供するステップであって、前記表示内容を示す前記データが、前記自動化されたアシスタントによって前記コンピューティングデバイスに提供され、前記表示内容を示す前記データが、前記コンピューティングデバイス上で実行されているアシスタントアプリケーションに、前記ユーザと前記アシスタントアプリケーションのグラフィカルユーザインターフェースとの間のタッチレスインタラクションをトリガさせる、ステップと
を含む、方法。 - 前記グラフィカルユーザインターフェースが、前記アシスタントアプリケーション内に組み込まれたウェブブラウザを備える、請求項17に記載の方法。
- 前記タッチレスインタラクションが、
前記グラフィカルユーザインターフェースの選択可能要素の動作と、
前記グラフィカルユーザインターフェース内にレンダリングされた文書の特定の位置へのスクロールと、
前記グラフィカルユーザインターフェースの一部に対するズームインと
のうちの1つまたは複数を含む、請求項17または18に記載の方法。 - 前記ユーザの前記意図を示す前記データが、前記コンピューティングデバイスにおいて前記ユーザによって提供された音声の自由形式の入力の音声認識出力を含む、請求項17から19のいずれか一項に記載の方法。
- 前記コンピューティングサービスによって、前記音声認識出力に基づいて前記ユーザの前記意図を決定するステップをさらに含む、請求項20に記載の方法。
- 1つまたは複数のプロセッサによる命令の実行に応答して、前記1つまたは複数のプロセ ッサに請求項14から21のいずれか一項に記載の方法を実行させる命令を含む、少なくとも1つの非一時的コンピュータ可読記憶媒体。
- 1つまたは複数のプロセッサと、前記1つまたは複数のプロセッサに動作可能に結合されたメモリとを備えるシステムであって、前記メモリが、1つまたは複数のプロセッサによる命令の実行に応答して、前記1つまたは複数のプロセッサに請求項14から21のいずれか一項に記載の方法を実行させる前記命令を記憶する、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022180485A JP2023017956A (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/031444 WO2019216875A1 (en) | 2018-05-07 | 2018-05-07 | Multi-modal interaction between users, automated assistants, and other computing services |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022180485A Division JP2023017956A (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021523467A JP2021523467A (ja) | 2021-09-02 |
JP7203865B2 true JP7203865B2 (ja) | 2023-01-13 |
Family
ID=62555178
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020562767A Active JP7203865B2 (ja) | 2018-05-07 | 2018-05-07 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
JP2022180485A Pending JP2023017956A (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022180485A Pending JP2023017956A (ja) | 2018-05-07 | 2022-11-10 | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
Country Status (6)
Country | Link |
---|---|
US (2) | US10984786B2 (ja) |
EP (1) | EP3586332A1 (ja) |
JP (2) | JP7203865B2 (ja) |
KR (2) | KR102476621B1 (ja) |
CN (1) | CN112868060A (ja) |
WO (1) | WO2019216875A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
KR102476621B1 (ko) | 2018-05-07 | 2022-12-12 | 구글 엘엘씨 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
JP2022521040A (ja) * | 2019-02-25 | 2022-04-05 | フォルシアクラリオン・エレクトロニクス株式会社 | ハイブリッド音声対話システム及びハイブリッド音声対話方法 |
US11615786B2 (en) * | 2019-03-05 | 2023-03-28 | Medyug Technology Private Limited | System to convert phonemes into phonetics-based words |
US20220091707A1 (en) | 2020-09-21 | 2022-03-24 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US11381713B2 (en) | 2020-11-10 | 2022-07-05 | Warner Bros. Entertainment Inc. | Perfless and cadenceless scanning and digitization of motion picture film |
US20220157323A1 (en) * | 2020-11-16 | 2022-05-19 | Bank Of America Corporation | System and methods for intelligent training of virtual voice assistant |
US20220215056A1 (en) * | 2021-01-04 | 2022-07-07 | Oracle International Corporation | Drill back to original audio clip in virtual assistant initiated lists and reminders |
US11929068B2 (en) | 2021-02-18 | 2024-03-12 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
CN113297359B (zh) * | 2021-04-23 | 2023-11-28 | 阿里巴巴新加坡控股有限公司 | 交互信息的方法以及装置 |
US11947906B2 (en) | 2021-05-19 | 2024-04-02 | MBTE Holdings Sweden AB | Providing enhanced functionality in an interactive electronic technical manual |
US20230074406A1 (en) * | 2021-09-07 | 2023-03-09 | Google Llc | Using large language model(s) in generating automated assistant response(s |
US20230177255A1 (en) * | 2021-12-03 | 2023-06-08 | International Business Machines Corporation | Conversational agent counterfactual simulation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318132A (ja) | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US20100094635A1 (en) | 2006-12-21 | 2010-04-15 | Juan Jose Bermudez Perez | System for Voice-Based Interaction on Web Pages |
JP2013517566A (ja) | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
WO2018034028A1 (ja) | 2016-08-16 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7019749B2 (en) | 2001-12-28 | 2006-03-28 | Microsoft Corporation | Conversational interface agent |
WO2004053836A1 (en) * | 2002-12-10 | 2004-06-24 | Kirusa, Inc. | Techniques for disambiguating speech input using multimodal interfaces |
US8793602B2 (en) | 2004-01-15 | 2014-07-29 | The Mathworks, Inc. | System and method for scheduling the execution of model components using model events |
EP1615124A1 (en) * | 2004-07-07 | 2006-01-11 | Alcatel Alsthom Compagnie Generale D'electricite | A method for handling a multi-modal dialog |
US9436820B1 (en) | 2004-08-02 | 2016-09-06 | Cisco Technology, Inc. | Controlling access to resources in a network |
US9224394B2 (en) * | 2009-03-24 | 2015-12-29 | Sirius Xm Connected Vehicle Services Inc | Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same |
US7409344B2 (en) | 2005-03-08 | 2008-08-05 | Sap Aktiengesellschaft | XML based architecture for controlling user interfaces with contextual voice commands |
US7885388B2 (en) * | 2006-01-17 | 2011-02-08 | General Motors Llc | Method and apparatus for initiating communication via a multi-mode system in a vehicle |
DE102008051756A1 (de) * | 2007-11-12 | 2009-05-14 | Volkswagen Ag | Multimodale Benutzerschnittstelle eines Fahrerassistenzsystems zur Eingabe und Präsentation von Informationen |
US8370160B2 (en) * | 2007-12-31 | 2013-02-05 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8952987B2 (en) | 2011-05-19 | 2015-02-10 | Qualcomm Incorporated | User interface elements augmented with force detection |
US10107887B2 (en) * | 2012-04-13 | 2018-10-23 | Qualcomm Incorporated | Systems and methods for displaying a user interface |
US9223537B2 (en) * | 2012-04-18 | 2015-12-29 | Next It Corporation | Conversation user interface |
US10276157B2 (en) * | 2012-10-01 | 2019-04-30 | Nuance Communications, Inc. | Systems and methods for providing a voice agent user interface |
US20150314454A1 (en) * | 2013-03-15 | 2015-11-05 | JIBO, Inc. | Apparatus and methods for providing a persistent companion device |
US9378065B2 (en) | 2013-03-15 | 2016-06-28 | Advanced Elemental Technologies, Inc. | Purposeful computing |
US9292254B2 (en) | 2013-05-15 | 2016-03-22 | Maluuba Inc. | Interactive user interface for an intelligent assistant |
WO2014197737A1 (en) * | 2013-06-08 | 2014-12-11 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US9600227B2 (en) | 2013-11-21 | 2017-03-21 | Google Technology Holdings LLC | System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy |
EP3149728B1 (en) | 2014-05-30 | 2019-01-16 | Apple Inc. | Multi-command single utterance input method |
EP3195307B1 (en) * | 2014-09-14 | 2020-01-29 | Google LLC | Platform for creating customizable dialog system engines |
US10317992B2 (en) * | 2014-09-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Eye gaze for spoken language understanding in multi-modal conversational interactions |
CN107112016B (zh) * | 2015-01-05 | 2020-12-29 | 谷歌有限责任公司 | 多模态状态循环 |
US10050868B2 (en) | 2015-01-16 | 2018-08-14 | Sri International | Multimodal help agent for network administrator |
US10762143B2 (en) * | 2015-02-13 | 2020-09-01 | Microsoft Technology Licensing, Llc | Extension of third party application functionality for intent determination |
US20170277364A1 (en) | 2016-03-22 | 2017-09-28 | Amazon Technologies, Inc. | User interface with dynamic refinement of filtered results |
US10304444B2 (en) | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
WO2017210784A1 (en) * | 2016-06-06 | 2017-12-14 | Nureva Inc. | Time-correlated touch and speech command input |
US20180131642A1 (en) | 2016-11-04 | 2018-05-10 | Microsoft Technology Licensing, Llc | Conversation runtime |
US10311875B2 (en) | 2016-12-22 | 2019-06-04 | Soundhound, Inc. | Full-duplex utterance processing in a natural language virtual assistant |
US10832666B2 (en) | 2017-04-19 | 2020-11-10 | Verizon Patent And Licensing Inc. | Advanced user interface for voice search and results display |
US10796088B2 (en) | 2017-04-21 | 2020-10-06 | International Business Machines Corporation | Specifying a conversational computer agent and its outcome with a grammar |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US11423879B2 (en) | 2017-07-18 | 2022-08-23 | Disney Enterprises, Inc. | Verbal cues for high-speed control of a voice-enabled device |
US10515625B1 (en) * | 2017-08-31 | 2019-12-24 | Amazon Technologies, Inc. | Multi-modal natural language processing |
CN116679903A (zh) | 2017-10-03 | 2023-09-01 | 谷歌有限责任公司 | 车辆环境中的多个数字助理协调 |
US10453454B2 (en) | 2017-10-26 | 2019-10-22 | Hitachi, Ltd. | Dialog system with self-learning natural language understanding |
US10896457B2 (en) * | 2017-12-12 | 2021-01-19 | Amazon Technologies, Inc. | Synchronized audiovisual responses to user requests |
US20190278562A1 (en) | 2018-03-07 | 2019-09-12 | John Hien Tang | System and method for voice control of a computing device |
WO2019195799A1 (en) * | 2018-04-05 | 2019-10-10 | Synaptics Incorporated | Context-aware control for smart devices |
US10573298B2 (en) | 2018-04-16 | 2020-02-25 | Google Llc | Automated assistants that accommodate multiple age groups and/or vocabulary levels |
US10803860B2 (en) | 2018-04-19 | 2020-10-13 | Google Llc | Dependency graph conversation modeling for use in conducting human-to-computer dialog sessions with a computer-implemented automated assistant |
JP7471279B2 (ja) | 2018-05-04 | 2024-04-19 | グーグル エルエルシー | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
EP3805902B1 (en) | 2018-05-04 | 2023-08-23 | Google LLC | Selective detection of visual cues for automated assistants |
CN112236738A (zh) | 2018-05-04 | 2021-01-15 | 谷歌有限责任公司 | 基于检测到的手势和凝视调用自动化助理功能 |
US11347801B2 (en) | 2018-05-07 | 2022-05-31 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
KR102476621B1 (ko) | 2018-05-07 | 2022-12-12 | 구글 엘엘씨 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
US11200893B2 (en) | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US10628987B2 (en) | 2018-05-08 | 2020-04-21 | Google Llc | Condensed transitions of graphical elements presented in graphical user interfaces |
-
2018
- 2018-05-07 KR KR1020207033522A patent/KR102476621B1/ko active IP Right Grant
- 2018-05-07 CN CN201880094239.6A patent/CN112868060A/zh active Pending
- 2018-05-07 KR KR1020227042846A patent/KR20230003281A/ko active IP Right Grant
- 2018-05-07 JP JP2020562767A patent/JP7203865B2/ja active Active
- 2018-05-07 WO PCT/US2018/031444 patent/WO2019216875A1/en unknown
- 2018-05-07 EP EP18729841.9A patent/EP3586332A1/en active Pending
- 2018-05-07 US US15/774,950 patent/US10984786B2/en active Active
-
2021
- 2021-03-04 US US17/192,230 patent/US11735182B2/en active Active
-
2022
- 2022-11-10 JP JP2022180485A patent/JP2023017956A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002318132A (ja) | 2001-04-23 | 2002-10-31 | Hitachi Ltd | 音声対話型ナビゲーションシステムおよび移動端末装置および音声対話サーバ |
US20100094635A1 (en) | 2006-12-21 | 2010-04-15 | Juan Jose Bermudez Perez | System for Voice-Based Interaction on Web Pages |
JP2013517566A (ja) | 2010-01-18 | 2013-05-16 | アップル インコーポレイテッド | インテリジェント自動アシスタント |
JP2013137584A (ja) | 2011-12-27 | 2013-07-11 | Toshiba Corp | 電子機器、表示方法、およびプログラム |
WO2018034028A1 (ja) | 2016-08-16 | 2018-02-22 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US10984786B2 (en) | 2021-04-20 |
KR20210002599A (ko) | 2021-01-08 |
US11735182B2 (en) | 2023-08-22 |
US20210193146A1 (en) | 2021-06-24 |
JP2021523467A (ja) | 2021-09-02 |
EP3586332A1 (en) | 2020-01-01 |
JP2023017956A (ja) | 2023-02-07 |
KR102476621B1 (ko) | 2022-12-12 |
KR20230003281A (ko) | 2023-01-05 |
WO2019216875A1 (en) | 2019-11-14 |
US20200294497A1 (en) | 2020-09-17 |
CN112868060A (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7203865B2 (ja) | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 | |
US11347801B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
US11200893B2 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
JP7418526B2 (ja) | 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード | |
KR102498811B1 (ko) | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트 특정 핫워드 | |
US11775254B2 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
KR20210024222A (ko) | 캡처된 이미지들과 관련된 메타 데이터 저장 | |
JP7384976B2 (ja) | 割込みをかける第2のセッションの終了時に第1の自動アシスタントセッションを自動的に再開するかどうかを決定すること | |
JP7471371B2 (ja) | アシスタントデバイスのディスプレイにレンダリングするコンテンツの選択 | |
US20230343336A1 (en) | Multi-modal interaction between users, automated assistants, and other computing services | |
CN110688011B (zh) | 基于多模态客户端设备的模态的动态列表构成 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221110 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221110 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221121 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7203865 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |