JP2021520590A - ホットワードを用いない自動アシスタント機能の適応 - Google Patents
ホットワードを用いない自動アシスタント機能の適応 Download PDFInfo
- Publication number
- JP2021520590A JP2021520590A JP2021510285A JP2021510285A JP2021520590A JP 2021520590 A JP2021520590 A JP 2021520590A JP 2021510285 A JP2021510285 A JP 2021510285A JP 2021510285 A JP2021510285 A JP 2021510285A JP 2021520590 A JP2021520590 A JP 2021520590A
- Authority
- JP
- Japan
- Prior art keywords
- user
- client device
- audio data
- processing
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006978 adaptation Effects 0.000 title abstract description 69
- 238000012545 processing Methods 0.000 claims abstract description 215
- 230000005540 biological transmission Effects 0.000 claims abstract description 27
- 230000000007 visual effect Effects 0.000 claims description 178
- 238000000034 method Methods 0.000 claims description 164
- 230000004044 response Effects 0.000 claims description 153
- 230000000694 effects Effects 0.000 claims description 101
- 238000010801 machine learning Methods 0.000 claims description 66
- 238000009877 rendering Methods 0.000 claims description 64
- 238000001514 detection method Methods 0.000 claims description 51
- 230000008569 process Effects 0.000 claims description 51
- 230000009471 action Effects 0.000 claims description 44
- 230000000977 initiatory effect Effects 0.000 claims description 40
- 230000006399 behavior Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 47
- 238000012549 training Methods 0.000 description 29
- 230000001815 facial effect Effects 0.000 description 16
- 230000003044 adaptive effect Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000011144 upstream manufacturing Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 235000013550 pizza Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 230000001976 improved effect Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000000746 body region Anatomy 0.000 description 3
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Acoustics & Sound (AREA)
- Ophthalmology & Optometry (AREA)
- Signal Processing (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
較してアシスタントデバイスにより近いと決定され、信頼度メトリックが0.9である場合、処理を開始することができ、その距離および1つまたは複数の以前に決定された距離が、ユーザが少なくともある閾値の率でアシスタントデバイスのより近くに移動していることを示し、信頼度メトリックが0.7である場合、処理を開始することができ、その距離および以前に決定された距離が、ユーザがアシスタントデバイスから離れるように移動していることを示し、信頼度メトリックが0.7である場合、処理の開始を抑制することができる。1つまたは複数の属性が存在するかどうか、および/または関連する信頼度メトリックに基づいてさらなる処理を開始するかどうかを検討する際、適応エンジン115は、1つまたは複数の規則および/または訓練された機械学習モデルを利用することができる。たとえば、機械学習モデルは、様々な属性および/または信頼度尺度、ならびに、さらなる処理が行われるべきであるかどうかを示す対応する標識(教師ありまたは半教師あり)を伴う訓練例入力を各々含む、訓練例に基づいて訓練され得る。
103 ディスプレイ
105 存在センサ
107 視覚構成要素
109 マイクロフォン
110 自動アシスタントクライアント
112 発話捕捉モジュール
114 視覚捕捉モジュール
115 適応エンジン
120 自動アシスタント
130 クラウドベースの自動アシスタント構成要素
131 TTSモジュール
132 STTモジュール
133 自然言語プロセッサ
134 意図照合器
136 自然言語生成器
138 履行モジュール
140 意味フィルタモジュール
141 意味機械学習モデル
142 TI-SIDモジュール
143 TI-SID機械学習モデル
150 検索モジュール
301 ユーザ
360 画像
362 境界ボックス
363 境界ボックス
710 コンピューティングデバイス
712 バスサブシステム
714 プロセッサ
716 ネットワークインターフェースサブシステム
720 ユーザインターフェース出力デバイス
722 ユーザインターフェース入力デバイス
724 ストレージサブシステム
725 メモリサブシステム
726 ファイルストレージサブシステム
730 RAM
732 ROM
1151 視線モジュール
1152 距離モジュール
1153 口/声モジュール
1154 顔認識モジュール
1155 声活動モジュール
1156 他のモジュール
1157 検出および分類モジュール
1161 視線機械学習モデル
1162 距離機械学習モデル
1163 口/声機械学習モデル
1164 顔認識機械学習モデル
1165 声活動機械学習モデル
1166 他の機械学習モデル
1167 検出および分類モデル
Claims (40)
クライアントデバイスにおいて、前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイスにおいて、
前記クライアントデバイスに向けられたユーザの視線
の発生を検出するために、前記クライアントデバイスにローカルに記憶されている少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームを処理するステップと、
前記クライアントデバイスにおいて、前記クライアントデバイスに対する前記ユーザの距離を決定するステップであって、前記決定は、
前記画像フレームのうちの1つまたは複数と、
前記クライアントデバイスの追加のセンサからの追加のセンサデータと
の一方または両方に基づく、ステップと、
前記クライアントデバイスにおいて、前記ユーザの前記視線の前記発生を検出したことに基づいて、かつ前記クライアントデバイスに対する前記ユーザの前記距離に基づいて、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって検出されるオーディオデータの何らかの処理
を実行すると決定するステップと、
前記クライアントデバイスにおいて、前記オーディオデータの前記何らかの処理を実行するとの決定に応答して、前記オーディオデータの前記何らかの処理を開始するステップと
を備える、方法。
前記クライアントデバイスにおける前記オーディオデータのローカルの自動発話認識を開始するステップと、
前記自動アシスタントと関連付けられるリモートサーバへの前記オーディオデータの送信を開始するステップと、
前記リモートサーバへの、前記ローカルの自動発話認識からの認識されたテキストの送信を開始するステップと
のうちの1つまたは複数を備える、請求項1に記載の方法。
前記クライアントデバイスの出力構成要素を介して少なくとも1つの人間知覚可能な合図をレンダリングするステップをさらに備える、請求項1から3のいずれか一項に記載の方法。
前記画像フレームのシーケンスの前記画像フレームの各々に対して、前記ユーザの前記視線が前記クライアントデバイスに向けられているかどうかを決定するために、前記少なくとも1つの訓練された機械学習モデルを使用して前記シーケンスを処理するステップと、
前記ユーザの前記視線が前記1つまたは複数のカメラに向けられていると決定される前記シーケンスの前記画像フレームの量に基づいて、前記クライアントデバイスに向けられた前記ユーザの前記視線の発生を検出するステップと
を備える、請求項1から5のいずれか一項に記載の方法。
前記クライアントデバイスにおいて、
前記オーディオデータの少なくとも一部のローカル処理に基づく声の活動と、
前記画像フレームのうちの1つまたは複数のローカル処理および前記オーディオデータの少なくとも一部に基づく前記ユーザの口の動きと前記声の活動の同時発生と
の一方または両方を検出するステップ
をさらに備え、
前記オーディオデータの前記何らかの処理を開始するステップがさらに、前記声の活動と、前記ユーザの前記口の動きと前記声の活動の前記同時発生との、一方または両方を検出したことに応答する、請求項1から6のいずれか一項に記載の方法。
前記声の活動と、前記ユーザの前記口の動きと前記声の活動の前記同時発生との、一方または両方を検出するステップが、前記第1の時間より後の第2の時間において行われ、
前記オーディオデータの前記何らかの処理を開始する前に、かつ前記第2の時間より前に、
前記クライアントデバイスの出力構成要素を介して、前記クライアントデバイスの前記1つまたは複数のカメラに向けられた前記ユーザの前記視線の前記発生を検出したことに応答して、第1の人間知覚可能な合図をレンダリングするステップと、
前記オーディオデータの前記何らかの処理を開始する前に、かつ前記第1の人間知覚可能な合図のレンダリングの後に、
前記出力構成要素または前記クライアントデバイスの追加の出力構成要素を介して、前記声の活動と、前記ユーザの口の動きと前記声の活動の前記同時発生との、一方または両方を検出したことに応答して、第2の人間知覚可能な合図をレンダリングするステップと
をさらに備える、請求項7に記載の方法。
前記第2の人間知覚可能な合図が、前記クライアントデバイスの前記ディスプレイを介してレンダリングされる第2の視覚的な合図である、請求項8に記載の方法。
前記出力構成要素または前記クライアントデバイスの前記追加の出力構成要素を介して、第3の人間知覚可能な合図をレンダリングするステップをさらに備える、請求項8または9に記載の方法。
前記ユーザの前記距離が閾値の距離を満たすことに基づいて、前記何らかの処理を実行すると決定するステップを備える、請求項1から12のいずれか一項に記載の方法。
前記ユーザの前記距離の大きさに基づいて、かつ前記ユーザの前記視線に対する視線信頼度メトリックに基づいて、前記オーディオデータの前記何らかの処理を実行すると決定するステップを備え、
前記視線信頼度メトリックが、前記少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームの前記処理に基づいて生成される、請求項1から13のいずれか一項に記載の方法。
前記オーディオデータの前記何らかの処理を実行すると決定するステップがさらに、前記ユーザが認識されるユーザであると決定することに基づく、請求項1から14のいずれか一項に記載の方法。
前記認識された発話に少なくとも一部基づいて、前記認識された発話が前記自動アシスタントに向けられた要求である確率を示すアシスタント要求尺度を決定するステップと、
前記アシスタント要求尺度に少なくとも一部基づいて、前記クライアントデバイスを介して、前記認識された発話への応答をレンダリングするかどうか決定するステップと
をさらに備える、請求項1から15のいずれか一項に記載の方法。
前記ユーザの前記距離、
前記画像フレームのうちの1つまたは複数に基づく顔認識に基づいて、かつ/または、前記オーディオデータの少なくとも一部に基づく話者識別に基づいて決定されるように、前記ユーザが認識されるユーザであるかどうか、
前記ユーザの前記視線に対する視線信頼度メトリックであって、前記少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームの前記処理に基づいて生成される、視線信頼度メトリック
のうちの1つまたは複数に基づく、請求項16に記載の方法。
前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイスにおいて、
前記クライアントデバイスに向けられたユーザの視線
の発生を検出するために、前記クライアントデバイスにローカルに記憶されている少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームを処理するステップと、
前記クライアントデバイスのディスプレイにおいて、前記クライアントデバイスに向けられた前記ユーザの前記視線の前記発生を検出したことに応答して第1の人間知覚可能な合図をレンダリングするステップと、
前記第1の人間知覚可能な合図をレンダリングする間に、
前記クライアントデバイスにおいて、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって捉えられるオーディオデータの少なくとも一部のローカル処理に基づく、声の活動と、
前記画像フレームおよび前記オーディオデータの少なくとも一部のうちの1つまたは複数のローカル処理に基づく、前記ユーザの口の動きと前記声の活動の同時発生と、
前記画像フレームのうちの1つまたは複数のローカル処理に基づく、前記ユーザのジェスチャと
のうちの1つまたは複数を検出するステップと、
前記視線の発生を検出し続けること、ならびに、前記声の活動、前記ユーザの前記口の動きと前記声の活動の前記同時発生、および前記ユーザの前記ジェスチャのうちの1つまたは複数を検出することに応答して、
前記クライアントデバイスの前記ディスプレイにおいて、前記第1の人間知覚可能な合図のレンダリングを第2の人間知覚可能な合図のレンダリングと交代させるステップと、
前記第2の人間知覚可能な合図をレンダリングした後で、
前記クライアントデバイスにおいて、前記オーディオデータおよび/または前記画像フレームのうちの1つまたは複数の何らかの追加の処理を開始するステップと
を備える、方法。
前記クライアントデバイスの前記ディスプレイにおいて、前記第2の人間知覚可能な合図のレンダリングを第3の人間知覚可能な合図のレンダリングと交代させるステップ
をさらに備える、請求項18に記載の方法。
前記自動アシスタントと関連付けられるリモートサーバへの前記オーディオデータおよび/または前記画像フレームの送信を開始するステップを備える、請求項18または19に記載の方法。
クライアントデバイスにおいて、前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイスにおいて、
前記クライアントデバイスに向けられたユーザの視線
の発生を検出するために、前記クライアントデバイスにローカルに記憶されている少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームを処理するステップと、
前記ユーザの前記視線の前記発生を検出したことに基づいて、前記ストリームの前記画像フレームのうちの1つまたは複数によって捉えられる前記ユーザのジェスチャへの応答を生成すると決定するステップと、
前記ユーザの前記ジェスチャへの前記応答を生成するステップであって、前記応答を生成するステップが、
前記ストリームの前記画像フレームのうちの前記1つまたは複数の処理に基づいて、前記ユーザの前記ジェスチャを決定するステップと、
前記ユーザの前記ジェスチャに基づいて、かつ前記ジェスチャのときに前記クライアントデバイスによってレンダリングされているコンテンツに基づいて、前記応答を生成するステップと
を備える、ステップと、
前記クライアントデバイスにおいて前記応答を実施するステップと
を備える、方法。
前記ジェスチャが複数の応答行動に割り当てられていると決定するステップと、
前記複数の応答行動から、前記ジェスチャのときに前記クライアントデバイスによってレンダリングされている前記コンテンツに基づいて単一の応答行動を選択するステップと、
前記選択された単一の応答行動の実行を引き起こすために前記応答を生成するステップと
を備える、請求項24に記載の方法。
前記画像フレームのうちの1つまたは複数と、
前記クライアントデバイスの追加のセンサからの追加のセンサデータと
の一方または両方に基づき、
前記ユーザの前記ジェスチャへの前記応答を生成すると決定するステップがさらに、前記ユーザの前記距離の大きさに基づく、請求項24または25に記載の方法。
前記ユーザの前記ジェスチャへの前記応答を生成すると決定するステップがさらに、前記ユーザが認識されるユーザであると決定することに基づく、請求項24から27のいずれか一項に記載の方法。
前記ユーザが前記認識されるユーザであると決定することに基づき、
前記クライアントデバイスによってレンダリングされている前記コンテンツの提供を同じ認識されるユーザが開始したと決定することに基づく、請求項28に記載の方法。
クライアントデバイスにおいて、
前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームと、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって検出されるオーディオデータと
を受信するステップと、
前記クライアントデバイスにおいて、
前記画像フレームのうちの1つまたは複数によって捉えられるユーザの口の動きと、
前記ユーザの声の活動と
の同時発生を決定するために、前記画像フレームおよび前記オーディオデータを処理するステップと、
前記クライアントデバイスにおいて、かつ前記ユーザの前記口の動きと前記ユーザの前記声の活動の前記同時発生を決定したことに基づいて、
前記オーディオデータの何らかの処理、および
前記クライアントデバイスの出力構成要素を介した少なくとも1つの人間知覚可能な合図のレンダリング
の一方または両方を実行すると決定するステップと、
前記クライアントデバイスにおいて、前記オーディオデータの前記何らかの処理および/または前記少なくとも1つの人間知覚可能な合図の前記レンダリングを実行すると決定したことに応答して、前記オーディオデータの前記何らかの処理および/または前記少なくとも1つの人間知覚可能な合図の前記レンダリングを開始するステップと
を備える、方法。
前記クライアントデバイスにおける前記オーディオデータのローカルの自動発話認識を開始するステップ、
前記自動アシスタントと関連付けられるリモートサーバへの前記オーディオデータの送信を開始するステップ、および
前記リモートサーバへの、前記ローカルの自動発話認識からの認識されたテキストの送信を開始するステップ
のうちの1つまたは複数を備える、請求項30に記載の方法。
口の動きと同時に発生し、前記口の動きの結果である声の活動と、
前記口の動きに由来しないが前記口の動きと同時に発生する声の活動と
を区別するように訓練された、ローカルに記憶されている機械学習モデルを使用して、前記画像フレームと前記オーディオデータの両方を処理するステップを備える、請求項30または31に記載の方法。
前記画像フレームのうちの1つまたは複数、および
前記クライアントデバイスの追加のセンサからの追加のセンサデータ
の一方または両方に基づき、
前記オーディオデータの前記何らかの処理および/または前記少なくとも1つの人間知覚可能な合図の前記レンダリングを実行すると決定するステップがさらに、前記クライアントデバイスに対する前記ユーザの前記距離に基づく、請求項30から32のいずれか一項に記載の方法。
前記クライアントデバイスに対する前記ユーザの前記距離が閾値を満たすと決定するステップを備える、請求項33に記載の方法。
前記クライアントデバイスに対する前記ユーザの1つまたは複数の以前に決定された距離よりも、前記クライアントデバイスに対する前記ユーザの前記距離が前記クライアントデバイスに近くなっていると決定するステップを備える、請求項33または34に記載の方法。
前記オーディオデータの前記何らかの処理および/または前記少なくとも1つの人間知覚可能な合図の前記レンダリングを実行すると決定するステップがさらに、前記ユーザの前記視線が前記クライアントデバイスに向けられていると決定することに基づく、請求項30から35のいずれか一項に記載の方法。
前記オーディオデータの前記何らかの処理および/または前記少なくとも1つの人間知覚可能な合図の前記レンダリングを実行すると決定するステップがさらに、前記ユーザの前記体の姿勢が前記クライアントデバイスを向いていると決定することに基づく、請求項30から36のいずれか一項に記載の方法。
少なくとも1つのマイクロフォンと、
少なくとも1つのディスプレイと、
1つまたは複数のプロセッサであって、請求項1から37のいずれか一項に記載の方法を前記1つまたは複数のプロセッサに行わせるためのローカルに記憶されている命令を実行する1つまたは複数のプロセッサと
を備える、クライアントデバイス。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023064368A JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/031170 WO2019212569A1 (en) | 2018-05-04 | 2018-05-04 | Adapting automated assistant based on detected mouth movement and/or gaze |
USPCT/US2018/031164 | 2018-05-04 | ||
USPCT/US2018/031170 | 2018-05-04 | ||
PCT/US2018/031164 WO2019212567A1 (en) | 2018-05-04 | 2018-05-04 | Invoking automated assistant function(s) based on detected gesture and gaze |
PCT/US2019/030487 WO2020050882A2 (en) | 2018-05-04 | 2019-05-02 | Hot-word free adaptation of automated assistant function(s) |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064368A Division JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021520590A true JP2021520590A (ja) | 2021-08-19 |
JP7263505B2 JP7263505B2 (ja) | 2023-04-24 |
Family
ID=69723342
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021510285A Active JP7263505B2 (ja) | 2018-05-04 | 2019-05-02 | ホットワードを用いない自動アシスタント機能の適応 |
JP2023064368A Pending JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064368A Pending JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11688417B2 (ja) |
EP (2) | EP3743794B1 (ja) |
JP (2) | JP7263505B2 (ja) |
KR (2) | KR102512446B1 (ja) |
CN (1) | CN112639718A (ja) |
WO (1) | WO2020050882A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11688417B2 (en) | 2018-05-04 | 2023-06-27 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
WO2019212569A1 (en) * | 2018-05-04 | 2019-11-07 | Google Llc | Adapting automated assistant based on detected mouth movement and/or gaze |
US10890969B2 (en) | 2018-05-04 | 2021-01-12 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
US10970935B2 (en) * | 2018-12-21 | 2021-04-06 | Curious Company, LLC | Body pose message system |
US11482217B2 (en) * | 2019-05-06 | 2022-10-25 | Google Llc | Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device NLU and/or on-device fulfillment |
CN114616620A (zh) | 2019-10-18 | 2022-06-10 | 谷歌有限责任公司 | 端到端多讲话者视听自动语音识别 |
US11437043B1 (en) * | 2019-12-12 | 2022-09-06 | Amazon Technologies, Inc. | Presence data determination and utilization |
SE545310C2 (en) * | 2019-12-20 | 2023-06-27 | Tobii Ab | Improved turn-taking |
JP2021182052A (ja) * | 2020-05-18 | 2021-11-25 | トヨタ自動車株式会社 | エージェント連携装置 |
US11558546B2 (en) * | 2020-11-24 | 2023-01-17 | Google Llc | Conditional camera control via automated assistant commands |
US20230197071A1 (en) * | 2021-12-17 | 2023-06-22 | Google Llc | Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing |
US20230230583A1 (en) * | 2022-01-19 | 2023-07-20 | Google Llc | Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant |
CN115019798A (zh) * | 2022-06-21 | 2022-09-06 | 珠海格力电器股份有限公司 | 语音识别设备的控制方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
JP2010102235A (ja) * | 2008-10-27 | 2010-05-06 | V-Sync Co Ltd | 電子広告システム |
JP2014048936A (ja) * | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP2015514254A (ja) * | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
Family Cites Families (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7028269B1 (en) * | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US8745541B2 (en) | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US20060192775A1 (en) | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
JP5323770B2 (ja) | 2010-06-30 | 2013-10-23 | 日本放送協会 | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
JP5797009B2 (ja) | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
US8885882B1 (en) | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
US20190102706A1 (en) | 2011-10-20 | 2019-04-04 | Affectomatics Ltd. | Affective response based recommendations |
US9152376B2 (en) | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9214157B2 (en) | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US9208492B2 (en) | 2013-05-13 | 2015-12-08 | Hoyos Labs Corp. | Systems and methods for biometric authentication of transactions |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US8542879B1 (en) | 2012-06-26 | 2013-09-24 | Google Inc. | Facial recognition |
US9263044B1 (en) | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
KR20150086332A (ko) | 2012-11-16 | 2015-07-27 | 이써 씽스, 인크. | 디바이스 구성, 상호 작용 및 제어를 위한 통합된 프레임워크, 및 연관된 방법, 디바이스 및 시스템 |
US9081571B2 (en) | 2012-11-29 | 2015-07-14 | Amazon Technologies, Inc. | Gesture detection management for an electronic device |
BR112015018905B1 (pt) * | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US20140247208A1 (en) | 2013-03-01 | 2014-09-04 | Tobii Technology Ab | Invoking and waking a computing device from stand-by mode based on gaze detection |
US9922642B2 (en) * | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US9304594B2 (en) | 2013-04-12 | 2016-04-05 | Microsoft Technology Licensing, Llc | Near-plane segmentation using pulsed light source |
WO2014190269A1 (en) | 2013-05-24 | 2014-11-27 | Children's Hospital Medical Center | System and method for assessing suicide risk of a patient based upon non-verbal characteristics of voice data |
US9286029B2 (en) * | 2013-06-06 | 2016-03-15 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
EP3008964B1 (en) * | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
USRE49014E1 (en) | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
US9832452B1 (en) | 2013-08-12 | 2017-11-28 | Amazon Technologies, Inc. | Robust user detection and tracking |
US10165176B2 (en) | 2013-10-31 | 2018-12-25 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems |
JP6851133B2 (ja) | 2014-01-03 | 2021-03-31 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザに方向付けられた個人情報アシスタント |
US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9342147B2 (en) | 2014-04-10 | 2016-05-17 | Microsoft Technology Licensing, Llc | Non-visual feedback of visual change |
WO2016018488A2 (en) | 2014-05-09 | 2016-02-04 | Eyefluence, Inc. | Systems and methods for discerning eye signals and continuous biometric identification |
US10852838B2 (en) | 2014-06-14 | 2020-12-01 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9569174B2 (en) | 2014-07-08 | 2017-02-14 | Honeywell International Inc. | Methods and systems for managing speech recognition in a multi-speech system environment |
US20160042648A1 (en) | 2014-08-07 | 2016-02-11 | Ravikanth V. Kothuri | Emotion feedback based training and personalization system for aiding user performance in interactive presentations |
US10228904B2 (en) | 2014-11-12 | 2019-03-12 | Lenovo (Singapore) Pte. Ltd. | Gaze triggered voice recognition incorporating device velocity |
US9690998B2 (en) | 2014-11-13 | 2017-06-27 | Intel Corporation | Facial spoofing detection in image based biometrics |
JP2016131288A (ja) | 2015-01-13 | 2016-07-21 | 東芝テック株式会社 | 情報処理装置及びプログラム |
US9791917B2 (en) | 2015-03-24 | 2017-10-17 | Intel Corporation | Augmentation modification based on user interaction with augmented reality scene |
JP6558064B2 (ja) | 2015-05-08 | 2019-08-14 | 富士ゼロックス株式会社 | 認証装置および画像形成装置 |
JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
CN107735776B (zh) | 2015-06-30 | 2021-07-13 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
US20170026764A1 (en) | 2015-07-23 | 2017-01-26 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Automatic car audio volume control to aid passenger conversation |
US10884503B2 (en) | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US9990921B2 (en) * | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
US9451210B1 (en) | 2015-12-10 | 2016-09-20 | Google Inc. | Directing communications using gaze interaction |
JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
US20170289766A1 (en) | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
KR101904889B1 (ko) | 2016-04-21 | 2018-10-05 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
US20170315825A1 (en) | 2016-05-02 | 2017-11-02 | John C. Gordon | Presenting Contextual Content Based On Detected User Confusion |
US10046229B2 (en) | 2016-05-02 | 2018-08-14 | Bao Tran | Smart device |
JP6767482B2 (ja) | 2016-05-23 | 2020-10-14 | アルプスアルパイン株式会社 | 視線検出方法 |
EP3267289B1 (en) | 2016-07-05 | 2019-02-27 | Ricoh Company, Ltd. | Information processing apparatus, position information generation method, and information processing system |
US10192551B2 (en) | 2016-08-30 | 2019-01-29 | Google Llc | Using textual input and user state information to generate reply content to present in response to the textual input |
WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
JP6828508B2 (ja) | 2017-02-27 | 2021-02-10 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
AU2018256365A1 (en) | 2017-04-19 | 2019-10-31 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
US10366691B2 (en) | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
EP3698359A1 (en) * | 2017-10-18 | 2020-08-26 | Soapbox Labs Ltd. | Methods and systems for speech detection |
US11016729B2 (en) | 2017-11-08 | 2021-05-25 | International Business Machines Corporation | Sensor fusion service to enhance human computer interactions |
US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
US11423896B2 (en) | 2017-12-22 | 2022-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Gaze-initiated voice control |
US10650338B2 (en) | 2017-12-27 | 2020-05-12 | Pearson Education, Inc. | Automated registration and greeting process—custom queueing (security) |
US20190246036A1 (en) | 2018-02-02 | 2019-08-08 | Futurewei Technologies, Inc. | Gesture- and gaze-based visual data acquisition system |
US10540015B2 (en) | 2018-03-26 | 2020-01-21 | Chian Chiu Li | Presenting location related information and implementing a task based on gaze and voice detection |
US10789755B2 (en) | 2018-04-03 | 2020-09-29 | Sri International | Artificial intelligence in interactive storytelling |
US10726521B2 (en) | 2018-04-17 | 2020-07-28 | Google Llc | Dynamic adaptation of device interfaces in a voice-based system |
US10853911B2 (en) | 2018-04-17 | 2020-12-01 | Google Llc | Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment |
US20190327330A1 (en) | 2018-04-20 | 2019-10-24 | Facebook, Inc. | Building Customized User Profiles Based on Conversational Data |
US10890969B2 (en) | 2018-05-04 | 2021-01-12 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
KR102574277B1 (ko) | 2018-05-04 | 2023-09-04 | 구글 엘엘씨 | 사용자와 자동화된 어시스턴트 인터페이스 간의 거리에 따른 자동화된 어시스턴트 콘텐츠의 생성 및/또는 적용 |
US11688417B2 (en) | 2018-05-04 | 2023-06-27 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
WO2019212569A1 (en) | 2018-05-04 | 2019-11-07 | Google Llc | Adapting automated assistant based on detected mouth movement and/or gaze |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
CA3142707A1 (en) * | 2018-06-04 | 2019-12-12 | Disruptel, Inc. | Systems and methods for operating an output device |
US10681453B1 (en) | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
-
2019
- 2019-05-02 US US16/622,771 patent/US11688417B2/en active Active
- 2019-05-02 WO PCT/US2019/030487 patent/WO2020050882A2/en unknown
- 2019-05-02 EP EP19857607.6A patent/EP3743794B1/en active Active
- 2019-05-02 KR KR1020207034909A patent/KR102512446B1/ko active IP Right Grant
- 2019-05-02 KR KR1020237009211A patent/KR20230042760A/ko not_active Application Discontinuation
- 2019-05-02 CN CN201980022744.4A patent/CN112639718A/zh active Pending
- 2019-05-02 EP EP22196913.2A patent/EP4130941A1/en active Pending
- 2019-05-02 JP JP2021510285A patent/JP7263505B2/ja active Active
-
2023
- 2023-04-11 JP JP2023064368A patent/JP2023089115A/ja active Pending
- 2023-04-17 US US18/135,611 patent/US20230253009A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
JP2010102235A (ja) * | 2008-10-27 | 2010-05-06 | V-Sync Co Ltd | 電子広告システム |
JP2015514254A (ja) * | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
JP2014048936A (ja) * | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP2016004270A (ja) * | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
Also Published As
Publication number | Publication date |
---|---|
EP4130941A1 (en) | 2023-02-08 |
EP3743794A2 (en) | 2020-12-02 |
CN112639718A (zh) | 2021-04-09 |
WO2020050882A2 (en) | 2020-03-12 |
JP2023089115A (ja) | 2023-06-27 |
KR102512446B1 (ko) | 2023-03-22 |
US20230253009A1 (en) | 2023-08-10 |
KR20210003277A (ko) | 2021-01-11 |
WO2020050882A3 (en) | 2020-08-20 |
KR20230042760A (ko) | 2023-03-29 |
JP7263505B2 (ja) | 2023-04-24 |
US11688417B2 (en) | 2023-06-27 |
US20200349966A1 (en) | 2020-11-05 |
EP3743794B1 (en) | 2022-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7263505B2 (ja) | ホットワードを用いない自動アシスタント機能の適応 | |
US11493992B2 (en) | Invoking automated assistant function(s) based on detected gesture and gaze | |
JP7487276B2 (ja) | 検出された口運動および/または注視に基づく自動化アシスタントの適応 | |
EP3635513B1 (en) | Selective detection of visual cues for automated assistants | |
US20230230583A1 (en) | Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant | |
US20230230587A1 (en) | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant | |
KR20240067114A (ko) | 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7263505 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |