JP7263505B2 - ホットワードを用いない自動アシスタント機能の適応 - Google Patents
ホットワードを用いない自動アシスタント機能の適応 Download PDFInfo
- Publication number
- JP7263505B2 JP7263505B2 JP2021510285A JP2021510285A JP7263505B2 JP 7263505 B2 JP7263505 B2 JP 7263505B2 JP 2021510285 A JP2021510285 A JP 2021510285A JP 2021510285 A JP2021510285 A JP 2021510285A JP 7263505 B2 JP7263505 B2 JP 7263505B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- client device
- processing
- audio data
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006978 adaptation Effects 0.000 title description 78
- 230000006870 function Effects 0.000 title description 15
- 238000012545 processing Methods 0.000 claims description 202
- 230000000007 visual effect Effects 0.000 claims description 176
- 230000004044 response Effects 0.000 claims description 125
- 238000000034 method Methods 0.000 claims description 119
- 238000010801 machine learning Methods 0.000 claims description 66
- 230000033001 locomotion Effects 0.000 claims description 60
- 230000001755 vocal effect Effects 0.000 claims description 56
- 238000009877 rendering Methods 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 36
- 230000000977 initiatory effect Effects 0.000 claims description 31
- 230000005540 biological transmission Effects 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 23
- 230000001815 facial effect Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 54
- 238000001514 detection method Methods 0.000 description 40
- 230000009471 action Effects 0.000 description 37
- 230000000694 effects Effects 0.000 description 32
- 238000012549 training Methods 0.000 description 27
- 230000006399 behavior Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 12
- 238000011144 upstream manufacturing Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 9
- 238000013145 classification model Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 235000013550 pizza Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 210000000887 face Anatomy 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 210000000746 body region Anatomy 0.000 description 4
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000026676 system process Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/235—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/98—Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
- G06V10/993—Evaluation of the quality of the acquired pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Acoustics & Sound (AREA)
- Ophthalmology & Optometry (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
Description
較してアシスタントデバイスにより近いと決定され、信頼度メトリックが0.9である場合、処理を開始することができ、その距離および1つまたは複数の以前に決定された距離が、ユーザが少なくともある閾値の率でアシスタントデバイスのより近くに移動していることを示し、信頼度メトリックが0.7である場合、処理を開始することができ、その距離および以前に決定された距離が、ユーザがアシスタントデバイスから離れるように移動していることを示し、信頼度メトリックが0.7である場合、処理の開始を抑制することができる。1つまたは複数の属性が存在するかどうか、および/または関連する信頼度メトリックに基づいてさらなる処理を開始するかどうかを検討する際、適応エンジン115は、1つまたは複数の規則および/または訓練された機械学習モデルを利用することができる。たとえば、機械学習モデルは、様々な属性および/または信頼度尺度、ならびに、さらなる処理が行われるべきであるかどうかを示す対応する標識(教師ありまたは半教師あり)を伴う訓練例入力を各々含む、訓練例に基づいて訓練され得る。
103 ディスプレイ
105 存在センサ
107 視覚構成要素
109 マイクロフォン
110 自動アシスタントクライアント
112 発話捕捉モジュール
114 視覚捕捉モジュール
115 適応エンジン
120 自動アシスタント
130 クラウドベースの自動アシスタント構成要素
131 TTSモジュール
132 STTモジュール
133 自然言語プロセッサ
134 意図照合器
136 自然言語生成器
138 履行モジュール
140 意味フィルタモジュール
141 意味機械学習モデル
142 TI-SIDモジュール
143 TI-SID機械学習モデル
150 検索モジュール
301 ユーザ
360 画像
362 境界ボックス
363 境界ボックス
710 コンピューティングデバイス
712 バスサブシステム
714 プロセッサ
716 ネットワークインターフェースサブシステム
720 ユーザインターフェース出力デバイス
722 ユーザインターフェース入力デバイス
724 ストレージサブシステム
725 メモリサブシステム
726 ファイルストレージサブシステム
730 RAM
732 ROM
1151 視線モジュール
1152 距離モジュール
1153 口/声モジュール
1154 顔認識モジュール
1155 声活動モジュール
1156 他のモジュール
1157 検出および分類モジュール
1161 視線機械学習モデル
1162 距離機械学習モデル
1163 口/声機械学習モデル
1164 顔認識機械学習モデル
1165 声活動機械学習モデル
1166 他の機械学習モデル
1167 検出および分類モデル
Claims (18)
クライアントデバイスにおいて、前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイスにおいて、
前記クライアントデバイスに向けられたユーザの視線
の発生を検出するために、前記クライアントデバイスにローカルに記憶されている少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームを処理するステップと、
前記クライアントデバイスの出力構成要素を介して、前記クライアントデバイスに向けられた前記ユーザの前記視線の前記発生を検出したことに応答して第1の人間知覚可能な合図をレンダリングするステップと、
前記第1の人間知覚可能な合図をレンダリングする間に、
前記クライアントデバイスにおいて、前記クライアントデバイスに対する前記ユーザの距離を決定するステップであって、前記決定は、
前記画像フレームのうちの1つまたは複数と、
前記クライアントデバイスの追加のセンサからの追加のセンサデータと
の一方または両方に基づく、ステップと、
前記クライアントデバイスにおいて、前記ユーザの前記視線の前記発生を検出したことに基づいて、かつ前記クライアントデバイスに対する前記ユーザの前記距離に基づいて、
前記クライアントデバイスの1つまたは複数のマイクロフォンによって検出されるオーディオデータの何らかの処理
を実行すると決定するステップと、
前記クライアントデバイスにおいて、前記オーディオデータの前記何らかの処理を実行するとの決定に応答して、前記オーディオデータの前記何らかの処理を開始するステップと
を備える、方法。
前記クライアントデバイスにおける前記オーディオデータのローカルの自動発話認識を開始するステップと、
前記自動アシスタントと関連付けられるリモートサーバへの前記オーディオデータの送信を開始するステップと、
前記リモートサーバへの、前記ローカルの自動発話認識からの認識されたテキストの送信を開始するステップと
のうちの1つまたは複数を備える、請求項1に記載の方法。
前記画像フレームのシーケンスの前記画像フレームの各々に対して、前記ユーザの前記視線が前記クライアントデバイスに向けられているかどうかを決定するために、前記少なくとも1つの訓練された機械学習モデルを使用して前記シーケンスを処理するステップと、
前記ユーザの前記視線が前記1つまたは複数のカメラに向けられていると決定される前記シーケンスの前記画像フレームの量に基づいて、前記クライアントデバイスに向けられた前記ユーザの前記視線の発生を検出するステップと
を備える、請求項1から3のいずれか一項に記載の方法。
前記クライアントデバイスにおいて、
前記オーディオデータの少なくとも一部のローカル処理に基づく声の活動と、
前記画像フレームのうちの1つまたは複数のローカル処理および前記オーディオデータの少なくとも一部に基づく前記ユーザの口の動きと前記声の活動の同時発生と
の一方または両方を検出するステップ
をさらに備え、
前記オーディオデータの前記何らかの処理を開始するステップがさらに、前記声の活動と、前記ユーザの前記口の動きと前記声の活動の前記同時発生との、一方または両方を検出したことに応答する、請求項1から4のいずれか一項に記載の方法。
前記声の活動と、前記ユーザの前記口の動きと前記声の活動の前記同時発生との、一方または両方を検出するステップが、前記第1の時間より後の第2の時間において行われ、
前記オーディオデータの前記何らかの処理を開始する前に、かつ前記第1の人間知覚可能な合図のレンダリングの後に、
前記出力構成要素または前記クライアントデバイスの追加の出力構成要素を介して、前記声の活動と、前記ユーザの口の動きと前記声の活動の前記同時発生との、一方または両方を検出したことに応答して、第2の人間知覚可能な合図をレンダリングするステップと
をさらに備える、請求項5に記載の方法。
前記第2の人間知覚可能な合図が、前記クライアントデバイスの前記ディスプレイを介してレンダリングされる第2の視覚的な合図である、請求項6に記載の方法。
前記出力構成要素または前記クライアントデバイスの前記追加の出力構成要素を介して、第3の人間知覚可能な合図をレンダリングするステップをさらに備える、請求項6または7に記載の方法。
前記ユーザの前記距離が閾値の距離を満たすことに基づいて、前記何らかの処理を実行すると決定するステップを備える、請求項1から10のいずれか一項に記載の方法。
前記ユーザの前記距離の大きさに基づいて、かつ前記ユーザの前記視線に対する視線信頼度メトリックに基づいて、前記オーディオデータの前記何らかの処理を実行すると決定するステップを備え、
前記視線信頼度メトリックが、前記少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームの前記処理に基づいて生成される、請求項1から11のいずれか一項に記載の方法。
前記オーディオデータの前記何らかの処理を実行すると決定するステップがさらに、前記ユーザが認識されるユーザであると決定することに基づく、請求項1から12のいずれか一項に記載の方法。
前記認識された発話に少なくとも一部基づいて、前記認識された発話が前記自動アシスタントに向けられた要求である確率を示すアシスタント要求尺度を決定するステップと、
前記アシスタント要求尺度に少なくとも一部基づいて、前記クライアントデバイスを介して、前記認識された発話への応答をレンダリングするかどうか決定するステップと
をさらに備える、請求項1から13のいずれか一項に記載の方法。
前記ユーザの前記距離、
前記画像フレームのうちの1つまたは複数に基づく顔認識に基づいて、かつ/または、前記オーディオデータの少なくとも一部に基づく話者識別に基づいて決定されるように、前記ユーザが認識されるユーザであるかどうか、
前記ユーザの前記視線に対する視線信頼度メトリックであって、前記少なくとも1つの訓練された機械学習モデルを使用して前記ストリームの前記画像フレームの前記処理に基づいて生成される、視線信頼度メトリック
のうちの1つまたは複数に基づく、請求項14に記載の方法。
少なくとも1つのマイクロフォンと、
少なくとも1つのディスプレイと、
1つまたは複数のプロセッサであって、請求項1から15のいずれか一項に記載の方法を前記1つまたは複数のプロセッサに行わせるためのローカルに記憶されている命令を実行する1つまたは複数のプロセッサと
を備える、クライアントデバイス。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023064368A JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
USPCT/US2018/031164 | 2018-05-04 | ||
USPCT/US2018/031170 | 2018-05-04 | ||
PCT/US2018/031164 WO2019212567A1 (en) | 2018-05-04 | 2018-05-04 | Invoking automated assistant function(s) based on detected gesture and gaze |
PCT/US2018/031170 WO2019212569A1 (en) | 2018-05-04 | 2018-05-04 | Adapting automated assistant based on detected mouth movement and/or gaze |
PCT/US2019/030487 WO2020050882A2 (en) | 2018-05-04 | 2019-05-02 | Hot-word free adaptation of automated assistant function(s) |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064368A Division JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021520590A JP2021520590A (ja) | 2021-08-19 |
JP7263505B2 true JP7263505B2 (ja) | 2023-04-24 |
Family
ID=69723342
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021510285A Active JP7263505B2 (ja) | 2018-05-04 | 2019-05-02 | ホットワードを用いない自動アシスタント機能の適応 |
JP2023064368A Pending JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023064368A Pending JP2023089115A (ja) | 2018-05-04 | 2023-04-11 | ホットワードを用いない自動アシスタント機能の適応 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11688417B2 (ja) |
EP (2) | EP3743794B1 (ja) |
JP (2) | JP7263505B2 (ja) |
KR (2) | KR20230042760A (ja) |
CN (1) | CN112639718A (ja) |
WO (1) | WO2020050882A2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10890969B2 (en) | 2018-05-04 | 2021-01-12 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
EP3743794B1 (en) | 2018-05-04 | 2022-11-09 | Google LLC | Hot-word free adaptation of automated assistant function(s) |
KR20230173211A (ko) * | 2018-05-04 | 2023-12-26 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
US10970935B2 (en) * | 2018-12-21 | 2021-04-06 | Curious Company, LLC | Body pose message system |
EP3759709A1 (en) * | 2019-05-06 | 2021-01-06 | Google LLC | Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device nlu and/or on-device fulfillment |
CN114616620A (zh) | 2019-10-18 | 2022-06-10 | 谷歌有限责任公司 | 端到端多讲话者视听自动语音识别 |
US11437043B1 (en) * | 2019-12-12 | 2022-09-06 | Amazon Technologies, Inc. | Presence data determination and utilization |
SE545310C2 (en) * | 2019-12-20 | 2023-06-27 | Tobii Ab | Improved turn-taking |
JP2021182052A (ja) * | 2020-05-18 | 2021-11-25 | トヨタ自動車株式会社 | エージェント連携装置 |
US11558546B2 (en) | 2020-11-24 | 2023-01-17 | Google Llc | Conditional camera control via automated assistant commands |
US20230197071A1 (en) * | 2021-12-17 | 2023-06-22 | Google Llc | Accelerometer-based endpointing measure(s) and /or gaze-based endpointing measure(s) for speech processing |
US20230230583A1 (en) * | 2022-01-19 | 2023-07-20 | Google Llc | Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant |
CN115019798A (zh) * | 2022-06-21 | 2022-09-06 | 珠海格力电器股份有限公司 | 语音识别设备的控制方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102235A (ja) | 2008-10-27 | 2010-05-06 | V-Sync Co Ltd | 電子広告システム |
JP2014048936A (ja) | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP2015514254A (ja) | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
JP2016004270A (ja) | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
Family Cites Families (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1124694A (ja) * | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
US7028269B1 (en) * | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US8745541B2 (en) | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US20060192775A1 (en) * | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
CN1921610B (zh) * | 2006-09-11 | 2011-06-22 | 龚湘明 | 基于客户端的视频流互动处理方法及处理系统 |
CN101568029B (zh) * | 2008-11-28 | 2011-01-19 | 深圳市高斯贝尔家居智能电子有限公司 | 基于优化h.264编码标准的手机视频监视装置及方法 |
US9183580B2 (en) * | 2010-11-04 | 2015-11-10 | Digimarc Corporation | Methods and systems for resource management on portable devices |
JP5323770B2 (ja) | 2010-06-30 | 2013-10-23 | 日本放送協会 | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
JP5797009B2 (ja) | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
US8885882B1 (en) | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
US20190102706A1 (en) | 2011-10-20 | 2019-04-04 | Affectomatics Ltd. | Affective response based recommendations |
US9152376B2 (en) | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9214157B2 (en) | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US9423870B2 (en) | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US8542879B1 (en) | 2012-06-26 | 2013-09-24 | Google Inc. | Facial recognition |
US9263044B1 (en) | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
JP2016502137A (ja) | 2012-11-16 | 2016-01-21 | エーテル シングス、 インコーポレイテッド | デバイス設定、対話および制御のための統一フレームワーク、および関連する方法、デバイスおよびシステム |
US9081571B2 (en) | 2012-11-29 | 2015-07-14 | Amazon Technologies, Inc. | Gesture detection management for an electronic device |
KR102516577B1 (ko) * | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US20140247208A1 (en) | 2013-03-01 | 2014-09-04 | Tobii Technology Ab | Invoking and waking a computing device from stand-by mode based on gaze detection |
WO2014144949A2 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9304594B2 (en) | 2013-04-12 | 2016-04-05 | Microsoft Technology Licensing, Llc | Near-plane segmentation using pulsed light source |
US9294475B2 (en) | 2013-05-13 | 2016-03-22 | Hoyos Labs Ip, Ltd. | System and method for generating a biometric identifier |
WO2014190269A1 (en) | 2013-05-24 | 2014-11-27 | Children's Hospital Medical Center | System and method for assessing suicide risk of a patient based upon non-verbal characteristics of voice data |
US9286029B2 (en) * | 2013-06-06 | 2016-03-15 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
EP3008964B1 (en) * | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
EP3012833B1 (en) | 2013-06-19 | 2022-08-10 | Panasonic Intellectual Property Corporation of America | Voice interaction method, and device |
US9832452B1 (en) | 2013-08-12 | 2017-11-28 | Amazon Technologies, Inc. | Robust user detection and tracking |
WO2015066475A1 (en) | 2013-10-31 | 2015-05-07 | The University of North Carlina at Chapel Hill | Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems |
JP6851133B2 (ja) | 2014-01-03 | 2021-03-31 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザに方向付けられた個人情報アシスタント |
US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9342147B2 (en) | 2014-04-10 | 2016-05-17 | Microsoft Technology Licensing, Llc | Non-visual feedback of visual change |
CN106537290B (zh) | 2014-05-09 | 2019-08-27 | 谷歌有限责任公司 | 与真实和虚拟对象交互的基于生物力学的眼球信号的系统和方法 |
US10852838B2 (en) | 2014-06-14 | 2020-12-01 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9569174B2 (en) * | 2014-07-08 | 2017-02-14 | Honeywell International Inc. | Methods and systems for managing speech recognition in a multi-speech system environment |
US20160042648A1 (en) | 2014-08-07 | 2016-02-11 | Ravikanth V. Kothuri | Emotion feedback based training and personalization system for aiding user performance in interactive presentations |
US10228904B2 (en) | 2014-11-12 | 2019-03-12 | Lenovo (Singapore) Pte. Ltd. | Gaze triggered voice recognition incorporating device velocity |
US9690998B2 (en) | 2014-11-13 | 2017-06-27 | Intel Corporation | Facial spoofing detection in image based biometrics |
JP2016131288A (ja) | 2015-01-13 | 2016-07-21 | 東芝テック株式会社 | 情報処理装置及びプログラム |
US9791917B2 (en) | 2015-03-24 | 2017-10-17 | Intel Corporation | Augmentation modification based on user interaction with augmented reality scene |
JP6558064B2 (ja) | 2015-05-08 | 2019-08-14 | 富士ゼロックス株式会社 | 認証装置および画像形成装置 |
JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
WO2017002473A1 (ja) | 2015-06-30 | 2017-01-05 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
US20170026764A1 (en) | 2015-07-23 | 2017-01-26 | Panasonic Automotive Systems Company Of America, Division Of Panasonic Corporation Of North America | Automatic car audio volume control to aid passenger conversation |
US10884503B2 (en) | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US9990921B2 (en) * | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
US9451210B1 (en) | 2015-12-10 | 2016-09-20 | Google Inc. | Directing communications using gaze interaction |
JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
US20170289766A1 (en) | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
KR101904889B1 (ko) | 2016-04-21 | 2018-10-05 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
US20170315825A1 (en) | 2016-05-02 | 2017-11-02 | John C. Gordon | Presenting Contextual Content Based On Detected User Confusion |
US10046229B2 (en) | 2016-05-02 | 2018-08-14 | Bao Tran | Smart device |
JP6767482B2 (ja) | 2016-05-23 | 2020-10-14 | アルプスアルパイン株式会社 | 視線検出方法 |
US10395428B2 (en) * | 2016-06-13 | 2019-08-27 | Sony Interactive Entertainment Inc. | HMD transitions for focusing on specific content in virtual-reality environments |
EP3267289B1 (en) | 2016-07-05 | 2019-02-27 | Ricoh Company, Ltd. | Information processing apparatus, position information generation method, and information processing system |
US10192551B2 (en) | 2016-08-30 | 2019-01-29 | Google Llc | Using textual input and user state information to generate reply content to present in response to the textual input |
WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
JP6828508B2 (ja) | 2017-02-27 | 2021-02-10 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CA3059234A1 (en) | 2017-04-19 | 2018-10-25 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
US10366691B2 (en) | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
WO2019077012A1 (en) * | 2017-10-18 | 2019-04-25 | Soapbox Labs Ltd. | METHODS AND SYSTEMS FOR SPEECH DETECTION |
US11016729B2 (en) | 2017-11-08 | 2021-05-25 | International Business Machines Corporation | Sensor fusion service to enhance human computer interactions |
US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
WO2019123425A1 (en) | 2017-12-22 | 2019-06-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Gaze-initiated voice control |
US10977595B2 (en) | 2017-12-27 | 2021-04-13 | Pearson Education, Inc. | Security and content protection by continuous identity verification |
US20190246036A1 (en) | 2018-02-02 | 2019-08-08 | Futurewei Technologies, Inc. | Gesture- and gaze-based visual data acquisition system |
US10540015B2 (en) | 2018-03-26 | 2020-01-21 | Chian Chiu Li | Presenting location related information and implementing a task based on gaze and voice detection |
US10789755B2 (en) | 2018-04-03 | 2020-09-29 | Sri International | Artificial intelligence in interactive storytelling |
US10726521B2 (en) | 2018-04-17 | 2020-07-28 | Google Llc | Dynamic adaptation of device interfaces in a voice-based system |
US10853911B2 (en) | 2018-04-17 | 2020-12-01 | Google Llc | Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment |
US11010179B2 (en) | 2018-04-20 | 2021-05-18 | Facebook, Inc. | Aggregating semantic information for improved understanding of users |
US10878279B2 (en) | 2018-05-04 | 2020-12-29 | Google Llc | Generating and/or adapting automated assistant content according to a distance between user(s) and an automated assistant interface |
EP3743794B1 (en) | 2018-05-04 | 2022-11-09 | Google LLC | Hot-word free adaptation of automated assistant function(s) |
KR20230173211A (ko) | 2018-05-04 | 2023-12-26 | 구글 엘엘씨 | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
US10890969B2 (en) | 2018-05-04 | 2021-01-12 | Google Llc | Invoking automated assistant function(s) based on detected gesture and gaze |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US20190371327A1 (en) * | 2018-06-04 | 2019-12-05 | Disruptel, Inc. | Systems and methods for operating an output device |
US10681453B1 (en) | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
-
2019
- 2019-05-02 EP EP19857607.6A patent/EP3743794B1/en active Active
- 2019-05-02 KR KR1020237009211A patent/KR20230042760A/ko not_active Application Discontinuation
- 2019-05-02 JP JP2021510285A patent/JP7263505B2/ja active Active
- 2019-05-02 KR KR1020207034909A patent/KR102512446B1/ko active IP Right Grant
- 2019-05-02 US US16/622,771 patent/US11688417B2/en active Active
- 2019-05-02 CN CN201980022744.4A patent/CN112639718A/zh active Pending
- 2019-05-02 WO PCT/US2019/030487 patent/WO2020050882A2/en unknown
- 2019-05-02 EP EP22196913.2A patent/EP4130941A1/en active Pending
-
2023
- 2023-04-11 JP JP2023064368A patent/JP2023089115A/ja active Pending
- 2023-04-17 US US18/135,611 patent/US20230253009A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010102235A (ja) | 2008-10-27 | 2010-05-06 | V-Sync Co Ltd | 電子広告システム |
JP2015514254A (ja) | 2012-04-27 | 2015-05-18 | ヒューレット−パッカード デベロップメント カンパニー エル.ピー.Hewlett‐Packard Development Company, L.P. | ユーザからのオーディオ入力 |
JP2014048936A (ja) | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP2016004270A (ja) | 2014-05-30 | 2016-01-12 | アップル インコーポレイテッド | 手動始点/終点指定及びトリガフレーズの必要性の低減 |
Also Published As
Publication number | Publication date |
---|---|
KR20210003277A (ko) | 2021-01-11 |
US11688417B2 (en) | 2023-06-27 |
WO2020050882A2 (en) | 2020-03-12 |
US20230253009A1 (en) | 2023-08-10 |
JP2021520590A (ja) | 2021-08-19 |
EP4130941A1 (en) | 2023-02-08 |
JP2023089115A (ja) | 2023-06-27 |
CN112639718A (zh) | 2021-04-09 |
KR102512446B1 (ko) | 2023-03-22 |
US20200349966A1 (en) | 2020-11-05 |
KR20230042760A (ko) | 2023-03-29 |
EP3743794A2 (en) | 2020-12-02 |
EP3743794B1 (en) | 2022-11-09 |
WO2020050882A3 (en) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7263505B2 (ja) | ホットワードを用いない自動アシスタント機能の適応 | |
US20230053873A1 (en) | Invoking automated assistant function(s) based on detected gesture and gaze | |
CN112236739B (zh) | 基于检测到的嘴运动和/或凝视的适配自动助理 | |
EP3635513B1 (en) | Selective detection of visual cues for automated assistants | |
US12020704B2 (en) | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant | |
US20230230587A1 (en) | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant | |
US20230230583A1 (en) | Mitigating false positives and/or false negatives in hot word free adaptation of automated assistant | |
KR102677096B1 (ko) | 감지된 입 움직임 및/또는 시선을 기반으로 자동화된 어시스턴트 적응 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201104 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220330 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220829 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7263505 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |