JP7471279B2 - 検出された口運動および/または注視に基づく自動化アシスタントの適応 - Google Patents
検出された口運動および/または注視に基づく自動化アシスタントの適応 Download PDFInfo
- Publication number
- JP7471279B2 JP7471279B2 JP2021512357A JP2021512357A JP7471279B2 JP 7471279 B2 JP7471279 B2 JP 7471279B2 JP 2021512357 A JP2021512357 A JP 2021512357A JP 2021512357 A JP2021512357 A JP 2021512357A JP 7471279 B2 JP7471279 B2 JP 7471279B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- client device
- mouth
- audio data
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000033001 locomotion Effects 0.000 title claims description 175
- 230000000007 visual effect Effects 0.000 claims description 141
- 238000012545 processing Methods 0.000 claims description 91
- 230000004044 response Effects 0.000 claims description 79
- 238000000034 method Methods 0.000 claims description 71
- 238000010801 machine learning Methods 0.000 claims description 60
- 238000001514 detection method Methods 0.000 claims description 54
- 238000009877 rendering Methods 0.000 claims description 53
- 230000000694 effects Effects 0.000 claims description 47
- 238000012544 monitoring process Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 16
- 230000000977 initiatory effect Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006978 adaptation Effects 0.000 description 40
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000012549 training Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 230000001755 vocal effect Effects 0.000 description 17
- 230000009471 action Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 235000013550 pizza Nutrition 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 6
- 230000001976 improved effect Effects 0.000 description 5
- 230000004043 responsiveness Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000011144 upstream manufacturing Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000003813 thumb Anatomy 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000000746 body region Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 235000013580 sausages Nutrition 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Position Input By Displaying (AREA)
Description
106 クライアントコンピューティングデバイス、クライアントデバイス
106A クライアントデバイス
107 視覚構成要素、視覚センサ
107A カメラ
109 マイクロフォン
110 自動化アシスタントクライアント
112 スピーチキャプチャモジュール
114 ローカルおよび/またはワイドエリアネットワーク、視覚的キャプチャモジュール
115 適応エンジン
116 注視および口モジュール
116A 口モジュール、モジュール
116B 注視モジュール、モジュール
116C 検出および分類モジュール
117 トレーニング済み機械学習モデル、機械学習モデル
117A 口機械学習モデル
117B 注視機械学習モデル
117C オブジェクト検出および分類機械学習モデル、検出および分類機械学習モデル
118 他条件モジュール
119 機械学習モデル
120 自動化アシスタント
130 クラウドベース自動化アシスタント構成要素
131 クラウドベースTTSモジュール、TTSモジュール
132 クラウドベースSTTモジュール、STTモジュール
133 自然言語プロセッサ
134 意図照合器
135 自然言語理解モジュール、意図理解モジュール
136 自然言語ジェネレータ
138 遂行モジュール
150 検索モジュール
510 コンピューティングデバイス
512 バスサブシステム
514 プロセッサ
516 ネットワークインターフェースサブシステム
520 ユーザインターフェース出力デバイス
522 ユーザインターフェース入力デバイス
524 記憶サブシステム
525 メモリサブシステム、メモリ
526 ファイル記憶サブシステム
530 メインランダムアクセスメモリ(RAM)
532 読出し専用メモリ(ROM)
Claims (19)
前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイス上でローカルに記憶された少なくとも1つのトレーニング済み機械学習モデルを使って、
前記クライアントデバイスの前記1つまたは複数のカメラの方へ向けられた、ユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記画像フレームを処理するステップと、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出するステップと、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることであって、前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることが、前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、ことと、
前記クライアントデバイスによるオーディオデータ処理を適応させることの両方を実施するステップとを含む方法。
前記ユーザの口運動に時間的に対応する前記オーディオデータの前記ボイスアクティビティ検出に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
前記クライアントデバイスによってレンダリングされた前記可聴ユーザインターフェース出力の前記ボリュームを低下させることは、ボイスアクティビティの前記出現を判断したことにさらに応答し、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づく、請求項1に記載の方法。
前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力の前記レンダリングを停止することを含む、請求項2に記載の方法。
前記ユーザの口運動に時間的に対応する前記オーディオデータの前記ボイスアクティビティ検出に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
前記クライアントデバイスによってレンダリングされた前記可聴ユーザインターフェース出力の前記レンダリングを停止することは、ボイスアクティビティの前記出現を判断したことにさらに応答したものであり、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づくものである、請求項4に記載の方法。
前記クライアントデバイスによるオーディオデータ処理を適応させることは、前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して実施され、
前記クライアントデバイスによる前記オーディオデータ処理を適応させることは、前記クライアントデバイスにおけるローカル自動スピーチ認識を開始すること、または前記クライアントデバイスの1つもしくは複数のマイクロフォンによりキャプチャされたオーディオデータの、前記自動化アシスタントに関連付けられたリモートサーバへの送信を開始することを含み、
前記ローカル自動スピーチ認識を開始すること、または前記リモートサーバへのオーディオデータの前記送信を開始することは、合図の前記レンダリングに続いて、前記ユーザの前記注視が、前記クライアントデバイスの前記1つまたは複数のカメラの方へ向けられ続けることを検出したことにさらに応答する、請求項1から5のいずれか一項に記載の方法。
前記ユーザの口運動に時間的に対応する前記特定のオーディオデータの前記ボイスアクティビティ分析に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
オーディオデータの前記送信を開始することは、ボイスアクティビティの前記出現を判断したことにさらに応答し、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づく、請求項8に記載の方法。
前記画像フレームのうちの1つまたは複数に基づいて、前記クライアントデバイスに相対した前記ユーザの位置を判断することと、
前記クライアントデバイスの1つまたは複数のマイクロフォンによりキャプチャされたオーディオデータの処理の際に前記ユーザの前記位置を使うこととを含む、請求項7に記載の方法。
前記ユーザの前記注視の出現を監視するのに、第1のトレーニング済み機械学習モデルを使うことと、
前記ユーザの前記口の前記運動を監視するのに、第2のトレーニング済み機械学習モデルを使うこととを含む、請求項1から12のいずれか一項に記載の方法。
前記環境に前記人間が存在することを検出したことに応答して、前記1つまたは複数のカメラに、画像フレームの前記ストリームを提供させるステップとをさらに含む、請求項1から13のいずれか一項に記載の方法。
少なくとも1つのマイクロフォンと、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサと動作可能に結合されたメモリとを備えるクライアントデバイスであって、前記メモリは命令を記憶し、前記命令は、前記プロセッサのうちの1つまたは複数による前記命令の実行に応答して、前記プロセッサのうちの1つまたは複数に、
前記クライアントデバイスの前記視覚構成要素からの出力に基づく視覚データのストリームを受信する動作と、
前記クライアントデバイス上でローカルに記憶された少なくとも1つのトレーニング済み機械学習モデルを使って、
前記クライアントデバイスの前記視覚構成要素の方へ向けられたユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記視覚データを処理する動作と、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出する動作と、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させる動作であって、前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることが、前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、動作とを実施させる、クライアントデバイス。
1つまたは複数のマイクロフォンと、
前記視覚構成要素からの出力に基づく視覚データのストリームを受信する1つまたは複数のプロセッサとを備えるシステムであって、前記プロセッサのうちの1つまたは複数は、
少なくとも1つのトレーニング済み機械学習モデルを使って、
前記視覚構成要素の方へ向けられたユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記視覚データを処理することと、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出することと、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記システムのユーザインターフェース出力のレンダリングを適応させることであって、前記システムのユーザインターフェース出力のレンダリングを適応させることが、前記システムによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、ことと、
前記1つまたは複数のマイクロフォンによりキャプチャされたオーディオデータの処理を適応させることの両方を実施することとを行うように構成される、システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022188506A JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/031170 WO2019212569A1 (en) | 2018-05-04 | 2018-05-04 | Adapting automated assistant based on detected mouth movement and/or gaze |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022188506A Division JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021521497A JP2021521497A (ja) | 2021-08-26 |
JP7471279B2 true JP7471279B2 (ja) | 2024-04-19 |
Family
ID=62386962
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021512357A Active JP7471279B2 (ja) | 2018-05-04 | 2018-05-04 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
JP2022188506A Active JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022188506A Active JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11614794B2 (ja) |
EP (3) | EP3596584B1 (ja) |
JP (2) | JP7471279B2 (ja) |
KR (3) | KR20210002722A (ja) |
CN (1) | CN112236739B (ja) |
WO (1) | WO2019212569A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7263505B2 (ja) | 2018-05-04 | 2023-04-24 | グーグル エルエルシー | ホットワードを用いない自動アシスタント機能の適応 |
CN112236738A (zh) | 2018-05-04 | 2021-01-15 | 谷歌有限责任公司 | 基于检测到的手势和凝视调用自动化助理功能 |
EP3596584B1 (en) * | 2018-05-04 | 2021-03-24 | Google LLC | Adapting automated assistant based on detected mouth movement and/or gaze |
KR102476621B1 (ko) | 2018-05-07 | 2022-12-12 | 구글 엘엘씨 | 사용자, 자동화된 어시스턴트 및 컴퓨팅 서비스 간의 다중 모드 상호 작용 |
US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
US11430485B2 (en) * | 2019-11-19 | 2022-08-30 | Netflix, Inc. | Systems and methods for mixing synthetic voice with original audio tracks |
SE545310C2 (en) * | 2019-12-20 | 2023-06-27 | Tobii Ab | Improved turn-taking |
CN111243587A (zh) * | 2020-01-08 | 2020-06-05 | 北京松果电子有限公司 | 语音交互方法、装置、设备及存储介质 |
US11854115B2 (en) * | 2021-11-04 | 2023-12-26 | Adobe Inc. | Vectorized caricature avatar generator |
WO2023177077A1 (ko) * | 2022-03-15 | 2023-09-21 | 삼성전자 주식회사 | 전자 장치 및 그의 동작 방법 |
WO2023229989A1 (en) * | 2022-05-27 | 2023-11-30 | Apple Inc. | Detecting visual attention during user speech |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322098A (ja) | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
JP2005301742A (ja) | 2004-04-13 | 2005-10-27 | Denso Corp | 運転者の外観認識システム |
JP2010224715A (ja) | 2009-03-23 | 2010-10-07 | Olympus Corp | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 |
US20150161992A1 (en) | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
JP2016502137A (ja) | 2012-11-16 | 2016-01-21 | エーテル シングス、 インコーポレイテッド | デバイス設定、対話および制御のための統一フレームワーク、および関連する方法、デバイスおよびシステム |
WO2017002473A1 (ja) | 2015-06-30 | 2017-01-05 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
US20170330566A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed Volume Control for Speech Recognition |
WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
Family Cites Families (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1124694A (ja) | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
US7028269B1 (en) | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US20030083872A1 (en) * | 2001-10-25 | 2003-05-01 | Dan Kikinis | Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems |
US8745541B2 (en) | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
US20050033571A1 (en) | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US20060192775A1 (en) * | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
US9250703B2 (en) * | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
JP5396062B2 (ja) | 2008-10-27 | 2014-01-22 | 株式会社ブイシンク | 電子広告システム |
JP5323770B2 (ja) * | 2010-06-30 | 2013-10-23 | 日本放送協会 | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
US8885882B1 (en) * | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
US20190102706A1 (en) | 2011-10-20 | 2019-04-04 | Affectomatics Ltd. | Affective response based recommendations |
JP5035467B2 (ja) | 2011-10-24 | 2012-09-26 | 日本電気株式会社 | 立体性認証方法、立体性認証装置および立体性認証プログラム |
US9152376B2 (en) | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9214157B2 (en) | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
US20150138333A1 (en) * | 2012-02-28 | 2015-05-21 | Google Inc. | Agent Interfaces for Interactive Electronics that Support Social Cues |
BR112014018604B1 (pt) | 2012-04-27 | 2022-02-01 | Hewlett-Packard Development Company, L.P. | Dispositivo de computação, método para receber entrada de áudio e meio legível por computador não volátil |
US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
US8542879B1 (en) | 2012-06-26 | 2013-09-24 | Google Inc. | Facial recognition |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
JP2014048936A (ja) | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
JP6056323B2 (ja) * | 2012-09-24 | 2017-01-11 | 富士通株式会社 | 視線検出装置、視線検出用コンピュータプログラム |
US9081571B2 (en) | 2012-11-29 | 2015-07-14 | Amazon Technologies, Inc. | Gesture detection management for an electronic device |
US20140247208A1 (en) | 2013-03-01 | 2014-09-04 | Tobii Technology Ab | Invoking and waking a computing device from stand-by mode based on gaze detection |
US9304594B2 (en) | 2013-04-12 | 2016-04-05 | Microsoft Technology Licensing, Llc | Near-plane segmentation using pulsed light source |
US9294475B2 (en) | 2013-05-13 | 2016-03-22 | Hoyos Labs Ip, Ltd. | System and method for generating a biometric identifier |
US9691411B2 (en) * | 2013-05-24 | 2017-06-27 | Children's Hospital Medical Center | System and method for assessing suicide risk of a patient based upon non-verbal characteristics of voice data |
US9286029B2 (en) | 2013-06-06 | 2016-03-15 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
EP3012833B1 (en) | 2013-06-19 | 2022-08-10 | Panasonic Intellectual Property Corporation of America | Voice interaction method, and device |
US9832452B1 (en) | 2013-08-12 | 2017-11-28 | Amazon Technologies, Inc. | Robust user detection and tracking |
WO2015066475A1 (en) | 2013-10-31 | 2015-05-07 | The University of North Carlina at Chapel Hill | Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems |
US9110635B2 (en) * | 2013-12-03 | 2015-08-18 | Lenova (Singapore) Pte. Ltd. | Initiating personal assistant application based on eye tracking and gestures |
JP6851133B2 (ja) | 2014-01-03 | 2021-03-31 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザに方向付けられた個人情報アシスタント |
US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9342147B2 (en) | 2014-04-10 | 2016-05-17 | Microsoft Technology Licensing, Llc | Non-visual feedback of visual change |
CN107087431B (zh) * | 2014-05-09 | 2021-02-05 | 谷歌有限责任公司 | 用于辨别眼睛信号和连续生物识别的系统和方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10852838B2 (en) | 2014-06-14 | 2020-12-01 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
US9569174B2 (en) | 2014-07-08 | 2017-02-14 | Honeywell International Inc. | Methods and systems for managing speech recognition in a multi-speech system environment |
US20160042648A1 (en) * | 2014-08-07 | 2016-02-11 | Ravikanth V. Kothuri | Emotion feedback based training and personalization system for aiding user performance in interactive presentations |
US10228904B2 (en) | 2014-11-12 | 2019-03-12 | Lenovo (Singapore) Pte. Ltd. | Gaze triggered voice recognition incorporating device velocity |
US9690998B2 (en) | 2014-11-13 | 2017-06-27 | Intel Corporation | Facial spoofing detection in image based biometrics |
JP2016131288A (ja) | 2015-01-13 | 2016-07-21 | 東芝テック株式会社 | 情報処理装置及びプログラム |
US20160227107A1 (en) * | 2015-02-02 | 2016-08-04 | Lenovo (Singapore) Pte. Ltd. | Method and device for notification preview dismissal |
JP2016161835A (ja) | 2015-03-03 | 2016-09-05 | シャープ株式会社 | 表示装置、制御プログラム、および制御方法 |
US9791917B2 (en) | 2015-03-24 | 2017-10-17 | Intel Corporation | Augmentation modification based on user interaction with augmented reality scene |
US20180107275A1 (en) * | 2015-04-13 | 2018-04-19 | Empire Technology Development Llc | Detecting facial expressions |
JP6558064B2 (ja) | 2015-05-08 | 2019-08-14 | 富士ゼロックス株式会社 | 認証装置および画像形成装置 |
JP6739907B2 (ja) * | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
US10149958B1 (en) * | 2015-07-17 | 2018-12-11 | Bao Tran | Systems and methods for computer assisted operation |
US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
US9990921B2 (en) | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
US9451210B1 (en) * | 2015-12-10 | 2016-09-20 | Google Inc. | Directing communications using gaze interaction |
JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
US20170289766A1 (en) | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
KR101904889B1 (ko) * | 2016-04-21 | 2018-10-05 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
US20170315825A1 (en) | 2016-05-02 | 2017-11-02 | John C. Gordon | Presenting Contextual Content Based On Detected User Confusion |
US10046229B2 (en) | 2016-05-02 | 2018-08-14 | Bao Tran | Smart device |
WO2017203769A1 (ja) | 2016-05-23 | 2017-11-30 | アルプス電気株式会社 | 視線検出方法 |
EP3267289B1 (en) | 2016-07-05 | 2019-02-27 | Ricoh Company, Ltd. | Information processing apparatus, position information generation method, and information processing system |
US10192551B2 (en) | 2016-08-30 | 2019-01-29 | Google Llc | Using textual input and user state information to generate reply content to present in response to the textual input |
US10127728B2 (en) * | 2016-09-30 | 2018-11-13 | Sony Interactive Entertainment Inc. | Facial feature views of user viewing into virtual reality scenes and integration of facial features into virtual reality views into scenes |
US20180121432A1 (en) * | 2016-11-02 | 2018-05-03 | Microsoft Technology Licensing, Llc | Digital assistant integration with music services |
US10467509B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Computationally-efficient human-identifying smart assistant computer |
JP6828508B2 (ja) * | 2017-02-27 | 2021-02-10 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US10768693B2 (en) * | 2017-04-19 | 2020-09-08 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
US10366691B2 (en) * | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
WO2019077012A1 (en) | 2017-10-18 | 2019-04-25 | Soapbox Labs Ltd. | METHODS AND SYSTEMS FOR SPEECH DETECTION |
US11016729B2 (en) | 2017-11-08 | 2021-05-25 | International Business Machines Corporation | Sensor fusion service to enhance human computer interactions |
US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
BR112020010376A2 (pt) * | 2017-12-22 | 2020-11-24 | Telefonaktiebolaget Lm Ericsson (Publ) | método para iniciar o controle de voz através da detecção de olhar, dispositivo para iniciar o controle de voz através da detecção de olhar, e, mídia legível por computador |
US10650338B2 (en) | 2017-12-27 | 2020-05-12 | Pearson Education, Inc. | Automated registration and greeting process—custom queueing (security) |
US20190246036A1 (en) | 2018-02-02 | 2019-08-08 | Futurewei Technologies, Inc. | Gesture- and gaze-based visual data acquisition system |
US10540015B2 (en) | 2018-03-26 | 2020-01-21 | Chian Chiu Li | Presenting location related information and implementing a task based on gaze and voice detection |
US10789755B2 (en) | 2018-04-03 | 2020-09-29 | Sri International | Artificial intelligence in interactive storytelling |
US10853911B2 (en) * | 2018-04-17 | 2020-12-01 | Google Llc | Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment |
US10726521B2 (en) * | 2018-04-17 | 2020-07-28 | Google Llc | Dynamic adaptation of device interfaces in a voice-based system |
US10963273B2 (en) | 2018-04-20 | 2021-03-30 | Facebook, Inc. | Generating personalized content summaries for users |
CN112236738A (zh) * | 2018-05-04 | 2021-01-15 | 谷歌有限责任公司 | 基于检测到的手势和凝视调用自动化助理功能 |
JP7263505B2 (ja) * | 2018-05-04 | 2023-04-24 | グーグル エルエルシー | ホットワードを用いない自動アシスタント機能の適応 |
JP7081045B2 (ja) * | 2018-05-04 | 2022-06-06 | グーグル エルエルシー | ユーザと自動化されたアシスタントインターフェースとの間の距離に応じて自動化されたアシスタントのコンテンツを生成するおよび/または適応させること |
EP3596584B1 (en) * | 2018-05-04 | 2021-03-24 | Google LLC | Adapting automated assistant based on detected mouth movement and/or gaze |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US20190371327A1 (en) | 2018-06-04 | 2019-12-05 | Disruptel, Inc. | Systems and methods for operating an output device |
US10681453B1 (en) * | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
-
2018
- 2018-05-04 EP EP18727930.2A patent/EP3596584B1/en active Active
- 2018-05-04 CN CN201880094290.7A patent/CN112236739B/zh active Active
- 2018-05-04 US US16/606,030 patent/US11614794B2/en active Active
- 2018-05-04 EP EP21156633.6A patent/EP3859494B1/en active Active
- 2018-05-04 KR KR1020207034907A patent/KR20210002722A/ko not_active IP Right Cessation
- 2018-05-04 KR KR1020237042404A patent/KR20230173211A/ko active Application Filing
- 2018-05-04 JP JP2021512357A patent/JP7471279B2/ja active Active
- 2018-05-04 EP EP23211832.3A patent/EP4343499A3/en active Pending
- 2018-05-04 KR KR1020237026718A patent/KR20230121930A/ko active IP Right Grant
- 2018-05-04 WO PCT/US2018/031170 patent/WO2019212569A1/en unknown
-
2022
- 2022-11-25 JP JP2022188506A patent/JP7487276B2/ja active Active
-
2023
- 2023-03-27 US US18/126,717 patent/US20230229229A1/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322098A (ja) | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
JP2005301742A (ja) | 2004-04-13 | 2005-10-27 | Denso Corp | 運転者の外観認識システム |
JP2010224715A (ja) | 2009-03-23 | 2010-10-07 | Olympus Corp | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 |
US20150161992A1 (en) | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
JP2016502137A (ja) | 2012-11-16 | 2016-01-21 | エーテル シングス、 インコーポレイテッド | デバイス設定、対話および制御のための統一フレームワーク、および関連する方法、デバイスおよびシステム |
WO2017002473A1 (ja) | 2015-06-30 | 2017-01-05 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
US20170330566A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed Volume Control for Speech Recognition |
WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023014167A (ja) | 2023-01-26 |
EP4343499A3 (en) | 2024-06-05 |
US20230229229A1 (en) | 2023-07-20 |
JP7487276B2 (ja) | 2024-05-20 |
US11614794B2 (en) | 2023-03-28 |
JP2021521497A (ja) | 2021-08-26 |
KR20230173211A (ko) | 2023-12-26 |
EP3596584A1 (en) | 2020-01-22 |
EP3859494A1 (en) | 2021-08-04 |
KR20230121930A (ko) | 2023-08-21 |
KR20210002722A (ko) | 2021-01-08 |
US20200342223A1 (en) | 2020-10-29 |
EP4343499A2 (en) | 2024-03-27 |
EP3596584B1 (en) | 2021-03-24 |
EP3859494B1 (en) | 2023-12-27 |
CN112236739B (zh) | 2024-05-17 |
WO2019212569A1 (en) | 2019-11-07 |
CN112236739A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7487276B2 (ja) | 検出された口運動および/または注視に基づく自動化アシスタントの適応 | |
US11493992B2 (en) | Invoking automated assistant function(s) based on detected gesture and gaze | |
KR102512446B1 (ko) | 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응 | |
EP3805902B1 (en) | Selective detection of visual cues for automated assistants | |
KR20240067114A (ko) | 검출된 제스처 및 시선에 기초하여 자동화된 어시스턴트 기능 호출 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221125 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221125 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221205 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221212 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230113 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20230123 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7471279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |