JP2022539794A - マルチモーダルユーザインターフェース - Google Patents
マルチモーダルユーザインターフェース Download PDFInfo
- Publication number
- JP2022539794A JP2022539794A JP2022500128A JP2022500128A JP2022539794A JP 2022539794 A JP2022539794 A JP 2022539794A JP 2022500128 A JP2022500128 A JP 2022500128A JP 2022500128 A JP2022500128 A JP 2022500128A JP 2022539794 A JP2022539794 A JP 2022539794A
- Authority
- JP
- Japan
- Prior art keywords
- input
- user
- mode
- data
- feedback message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 97
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000013507 mapping Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 63
- 230000004044 response Effects 0.000 claims description 36
- 230000015654 memory Effects 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 33
- 230000009471 action Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 14
- 238000012549 training Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004851 dishwashing Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000003826 tablet Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/038—Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
- G06F3/04883—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0382—Plural input, i.e. interface arrangements in which a plurality of input device of the same type are in communication with a PC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Input From Keyboards Or The Like (AREA)
Abstract
Description
第1のデータを処理することに基づいて出力デバイスにフィードバックメッセージを送るように構成される。フィードバックメッセージは、第1の入力モードとは異なる第2の入力モードに基づいて、第1の入力に関連するコマンドを識別する第2の入力を提供するようにユーザに命令する。1つまたは複数のプロセッサは、第2の入力デバイスから第2のデータを受信することと、第2のデータが、第2の入力を示す、第2の入力によって識別されるコマンドに第1の入力を関連付けるようにマッピングを更新することとを行うように構成される。
Claims (30)
- マルチモーダルユーザ入力のためのデバイスであって、
第1の入力デバイスから受信された第1のデータを処理することと、前記第1のデータは、第1の入力モードに基づくユーザからの第1の入力を示し、前記第1の入力は、コマンドに対応し、
前記第1のデータを処理することに基づいて出力デバイスにフィードバックメッセージを送ることと、ここにおいて、前記フィードバックメッセージは、前記第1の入力モードとは異なる第2の入力モードに基づいて、前記第1の入力に関連するコマンドを識別する第2の入力を提供するように前記ユーザに命令する、
第2の入力デバイスから第2のデータを受信することと、前記第2のデータは、前記第2の入力を示し、
前記第2の入力によって識別される前記コマンドに前記第1の入力を関連付けるようにマッピングを更新することと、
を行うように構成された1つまたは複数のプロセッサを備える、デバイス。 - 前記第1の入力モードは、スピーチモード、ジェスチャーモード、またはビデオモードのうちの1つであり、前記第2の入力モードは、前記スピーチモード、前記ジェスチャーモード、または前記ビデオモードのうちの異なる1つである、請求項1に記載のデバイス。
- 前記フィードバックメッセージは、前記第1の入力をディスアンビギュエートするために前記第2の入力を提供するように前記ユーザに命令する、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、前記第1の入力の認識処理に関連する確信度レベルが確信度しきい値を満たすことに失敗したことに応答して、前記フィードバックメッセージを送るようにさらに構成された、請求項3に記載のデバイス。
- 前記更新されたマッピングは、前記第1の入力と前記第2の入力との組合せを前記コマンドに関連付ける、請求項1に記載のデバイス。
- 前記1つまたは複数のプロセッサは、マルチモーダル認識エンジンを含み、前記マルチモーダル認識エンジンは、
組み合わされた埋め込みベクトルを生成するために、前記第1の入力モードに関連する第1の埋め込みネットワークと、前記第2の入力モードに関連する第2の埋め込みネットワークとの出力を組み合わせるように構成された融合埋め込みネットワークと、
前記組み合わされた埋め込みベクトルを特定のコマンドにマッピングするように構成された分類器と、
を含む、請求項1に記載のデバイス。 - 前記ユーザに対応する第1の埋め込みネットワークデータおよび第1の重みデータと、
第2のユーザに対応する第2の埋め込みネットワークデータおよび第2の重みデータと、前記第1の埋め込みネットワークデータは、前記ユーザと前記第2のユーザとの間の入力コマンドの差に基づいて前記第2の埋め込みネットワークデータとは異なり、前記第1の重みデータは、前記ユーザと前記第2のユーザとの間の入力モード信頼性の差に基づいて前記第2の重みデータとは異なり、
を記憶するように構成されたメモリをさらに備える、請求項6に記載のデバイス。 - 前記第1の入力モードは、ビデオモードに対応し、前記1つまたは複数のプロセッサは、照明しきい値を下回る値を有する周辺光メトリックに応答して前記フィードバックメッセージを送るように構成された、請求項1に記載のデバイス。
- 前記第1の入力モードは、スピーチモードに対応し、前記1つまたは複数のプロセッサは、雑音しきい値を超える値を有する雑音メトリックに応答して前記フィードバックメッセージを送るように構成された、請求項1に記載のデバイス。
- グラフィカルユーザインターフェースを表すように構成されたディスプレイをさらに備える、請求項1に記載のデバイス。
- 1つまたは複数のキーワードまたは音声コマンドを含むオーディオ入力をキャプチャするように構成された1つまたは複数のマイクロフォンをさらに備える、請求項1に記載のデバイス。
- 1つまたは複数のジェスチャーまたは視覚的コマンドを含むビデオ入力をキャプチャするように構成された1つまたは複数のカメラをさらに備える、請求項1に記載のデバイス。
- ジェスチャー入力を示すデータを受信するように構成された1つまたは複数のアンテナをさらに備える、請求項1に記載のデバイス。
- 前記フィードバックメッセージをレンダリングするかまたは前記ユーザにダイレクトするように構成された1つまたは複数のラウドスピーカーをさらに備える、請求項1に記載のデバイス。
- 前記ユーザは、ロボットまたは他の電子デバイスを含む、請求項1に記載のデバイス。
- 前記第1の入力デバイスと前記出力デバイスとは、仮想現実ヘッドセットまたは拡張現実ヘッドセットに組み込まれる、請求項1に記載のデバイス。
- 前記第1の入力デバイスと前記出力デバイスとは、車両に組み込まれる、請求項1に記載のデバイス。
- マルチモーダルユーザ入力のための方法であって、
デバイスの1つまたは複数のプロセッサにおいて、第1の入力デバイスから受信された第1のデータを処理することと、前記第1のデータは、第1の入力モードに基づくユーザからの第1の入力を示し、前記第1の入力は、コマンドに対応し、
前記1つまたは複数のプロセッサから、前記第1のデータを処理することに基づいて出力デバイスにフィードバックメッセージを送ることと、ここにおいて、前記フィードバックメッセージは、前記第1の入力モードとは異なる第2の入力モードに基づいて、前記第1の入力に関連するコマンドを識別する第2の入力を提供するように前記ユーザに命令する、
前記1つまたは複数のプロセッサにおいて、第2の入力デバイスから第2のデータを受信することと、前記第2のデータは、前記第2の入力を示し、
前記1つまたは複数のプロセッサにおいて、前記第2の入力によって識別される前記コマンドに前記第1の入力を関連付けるようにマッピングを更新することと、
を備える、方法。 - 前記第1の入力モードは、スピーチモード、ジェスチャーモード、またはビデオモードのうちの1つであり、前記第2の入力モードは、前記スピーチモード、前記ジェスチャーモード、または前記ビデオモードのうちの異なる1つである、請求項18に記載の方法。
- 前記フィードバックメッセージは、前記第1の入力をディスアンビギュエートするために前記第2の入力を提供するように前記ユーザに命令する、請求項18に記載の方法。
- 前記フィードバックメッセージは、前記第1の入力の認識処理に関連する確信度レベルが確信度しきい値を満たすことに失敗したことに応答して送られる、請求項20に記載の方法。
- 前記更新されたマッピングは、前記第1の入力と前記第2の入力との組合せを前記コマンドに関連付ける、請求項18に記載の方法。
- 前記マッピングを更新することは、
前記ユーザに関連する埋め込みネットワークデータを更新すること、または
前記ユーザに関連する重みデータを更新すること、
のうちの少なくとも1つを含む、請求項18に記載の方法。 - 前記第1の入力モードは、ビデオモードに対応し、前記フィードバックメッセージは、照明しきい値を下回る値を有する周辺光メトリックに応答して送られる、請求項18に記載の方法。
- 前記第1の入力モードは、スピーチモードに対応し、前記フィードバックメッセージは、雑音しきい値を超える値を有する雑音メトリックに応答して送られる、請求項18に記載の方法。
- マルチモーダルユーザ入力のための装置であって、
第1の入力デバイスから受信された第1のデータを処理するための手段と、前記第1のデータは、第1の入力モードに基づくユーザからの第1の入力を示し、前記第1の入力は、コマンドに対応し、
前記第1のデータを処理することに基づいて出力デバイスにフィードバックメッセージを送るための手段と、ここにおいて、前記フィードバックメッセージは、前記第1の入力モードとは異なる第2の入力モードに基づいて、前記第1の入力に関連するコマンドを識別する第2の入力を提供するように前記ユーザに命令する、
第2の入力デバイスから第2のデータを受信するための手段と、前記第2のデータは、前記第2の入力を示し、
前記第2の入力によって識別される前記コマンドに前記第1の入力を関連付けるようにマッピングを更新するための手段と、
を備える、装置。 - 前記更新されたマッピングは、前記第1の入力と前記第2の入力との組合せを前記コマンドに関連付ける、請求項26に記載の装置。
- デバイスの1つまたは複数のプロセッサによって実行されたとき、前記1つまたは複数のプロセッサに、
第1の入力デバイスから受信された第1のデータを処理することと、前記第1のデータは、第1の入力モードに基づくユーザからの第1の入力を示し、前記第1の入力が、コマンドに対応し、
前記第1のデータを処理することに基づいて出力デバイスにフィードバックメッセージを送ることと、ここにおいて、前記フィードバックメッセージは、前記第1の入力モードとは異なる第2の入力モードに基づいて、前記第1の入力に関連するコマンドを識別する第2の入力を提供するように前記ユーザに命令する、
第2の入力デバイスから第2のデータを受信することと、前記第2のデータは、前記第2の入力を示し、
前記第2の入力によって識別される前記コマンドに前記第1の入力を関連付けるようにマッピングを更新することと、
を行わせる命令を備える非一時的コンピュータ可読媒体。 - 前記第1の入力モードは、ビデオモードに対応し、前記フィードバックメッセージは、照明しきい値を下回る値を有する周辺光メトリックに応答して送られる、請求項28に記載の非一時的コンピュータ可読媒体。
- 前記第1の入力モードは、スピーチモードに対応し、前記フィードバックメッセージは、雑音しきい値を超える値を有する雑音メトリックに応答して送られる、請求項28に記載の非一時的コンピュータ可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962873775P | 2019-07-12 | 2019-07-12 | |
US62/873,775 | 2019-07-12 | ||
US16/685,946 | 2019-11-15 | ||
US16/685,946 US11348581B2 (en) | 2019-07-12 | 2019-11-15 | Multi-modal user interface |
PCT/US2020/041499 WO2021011331A1 (en) | 2019-07-12 | 2020-07-10 | Multi-modal user interface |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022539794A true JP2022539794A (ja) | 2022-09-13 |
JPWO2021011331A5 JPWO2021011331A5 (ja) | 2023-06-20 |
JP7522177B2 JP7522177B2 (ja) | 2024-07-24 |
Family
ID=74101815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022500128A Active JP7522177B2 (ja) | 2019-07-12 | 2020-07-10 | マルチモーダルユーザインターフェース |
Country Status (8)
Country | Link |
---|---|
US (1) | US11348581B2 (ja) |
EP (1) | EP3997553A1 (ja) |
JP (1) | JP7522177B2 (ja) |
KR (1) | KR20220031610A (ja) |
CN (1) | CN114127665B (ja) |
BR (1) | BR112021026765A2 (ja) |
TW (1) | TWI840587B (ja) |
WO (1) | WO2021011331A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021103191A (ja) * | 2018-03-30 | 2021-07-15 | ソニーグループ株式会社 | 情報処理装置および情報処理方法 |
US11615801B1 (en) * | 2019-09-20 | 2023-03-28 | Apple Inc. | System and method of enhancing intelligibility of audio playback |
US11521643B2 (en) * | 2020-05-08 | 2022-12-06 | Bose Corporation | Wearable audio device with user own-voice recording |
US11996095B2 (en) * | 2020-08-12 | 2024-05-28 | Kyndryl, Inc. | Augmented reality enabled command management |
US11878244B2 (en) * | 2020-09-10 | 2024-01-23 | Holland Bloorview Kids Rehabilitation Hospital | Customizable user input recognition systems |
US11830486B2 (en) * | 2020-10-13 | 2023-11-28 | Google Llc | Detecting near matches to a hotword or phrase |
US11461681B2 (en) * | 2020-10-14 | 2022-10-04 | Openstream Inc. | System and method for multi-modality soft-agent for query population and information mining |
US11809480B1 (en) * | 2020-12-31 | 2023-11-07 | Meta Platforms, Inc. | Generating dynamic knowledge graph of media contents for assistant systems |
US11651541B2 (en) * | 2021-03-01 | 2023-05-16 | Roblox Corporation | Integrated input/output (I/O) for a three-dimensional (3D) environment |
CN113282172A (zh) * | 2021-05-18 | 2021-08-20 | 前海七剑科技(深圳)有限公司 | 一种手势识别的控制方法和装置 |
US11783073B2 (en) * | 2021-06-21 | 2023-10-10 | Microsoft Technology Licensing, Llc | Configuration of default sensitivity labels for network file storage locations |
CN118251878A (zh) * | 2021-09-08 | 2024-06-25 | 华为技术加拿大有限公司 | 使用多模态合成进行通信的方法和设备 |
US11966663B1 (en) * | 2021-09-29 | 2024-04-23 | Amazon Technologies, Inc. | Speech processing and multi-modal widgets |
US20230109592A1 (en) * | 2021-10-05 | 2023-04-06 | Rfmicron, Inc. | Data Logging with Indication of Violation |
US11971710B2 (en) * | 2021-11-12 | 2024-04-30 | Pani Energy Inc | Digital model based plant operation and optimization |
US20230154172A1 (en) * | 2021-11-12 | 2023-05-18 | Sony Group Corporation | Emotion recognition in multimedia videos using multi-modal fusion-based deep neural network |
WO2024029827A1 (ko) * | 2022-08-01 | 2024-02-08 | 삼성전자 주식회사 | 제어 추천을 위한 전자 장치 및 컴퓨터 판독가능 저장 매체 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386255B2 (en) * | 2009-03-17 | 2013-02-26 | Avaya Inc. | Providing descriptions of visually presented information to video teleconference participants who are not video-enabled |
US9123341B2 (en) | 2009-03-18 | 2015-09-01 | Robert Bosch Gmbh | System and method for multi-modal input synchronization and disambiguation |
KR101092820B1 (ko) | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US8473289B2 (en) * | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US20130031076A1 (en) * | 2011-07-28 | 2013-01-31 | Kikin, Inc. | Systems and methods for contextual searching of semantic entities |
US20130085753A1 (en) * | 2011-09-30 | 2013-04-04 | Google Inc. | Hybrid Client/Server Speech Recognition In A Mobile Device |
US9152376B2 (en) * | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9465833B2 (en) * | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
CN103729386B (zh) * | 2012-10-16 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 信息查询系统与方法 |
WO2014070872A2 (en) | 2012-10-30 | 2014-05-08 | Robert Bosch Gmbh | System and method for multimodal interaction with reduced distraction in operating vehicles |
US9190058B2 (en) * | 2013-01-25 | 2015-11-17 | Microsoft Technology Licensing, Llc | Using visual cues to disambiguate speech inputs |
SG11201509208RA (en) | 2013-05-08 | 2015-12-30 | Jpmorgan Chase Bank Na | Systems and methods for high fidelity multi-modal out-of-band biometric authentication |
US10402060B2 (en) | 2013-06-28 | 2019-09-03 | Orange | System and method for gesture disambiguation |
US10741182B2 (en) * | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
US8825585B1 (en) | 2014-03-11 | 2014-09-02 | Fmr Llc | Interpretation of natural communication |
US20160034249A1 (en) * | 2014-07-31 | 2016-02-04 | Microsoft Technology Licensing Llc | Speechless interaction with a speech recognition device |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
CN105843605B (zh) * | 2016-03-17 | 2019-03-08 | 中国银行股份有限公司 | 一种数据映射方法及装置 |
JP2018036902A (ja) | 2016-08-31 | 2018-03-08 | 島根県 | 機器操作システム、機器操作方法および機器操作プログラム |
DK201770411A1 (en) * | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180357040A1 (en) * | 2017-06-09 | 2018-12-13 | Mitsubishi Electric Automotive America, Inc. | In-vehicle infotainment with multi-modal interface |
CN110998718A (zh) | 2017-08-01 | 2020-04-10 | 索尼公司 | 信息处理设备和信息处理方法 |
-
2019
- 2019-11-15 US US16/685,946 patent/US11348581B2/en active Active
-
2020
- 2020-07-10 EP EP20747296.0A patent/EP3997553A1/en active Pending
- 2020-07-10 BR BR112021026765A patent/BR112021026765A2/pt unknown
- 2020-07-10 TW TW109123487A patent/TWI840587B/zh active
- 2020-07-10 CN CN202080049275.8A patent/CN114127665B/zh active Active
- 2020-07-10 JP JP2022500128A patent/JP7522177B2/ja active Active
- 2020-07-10 WO PCT/US2020/041499 patent/WO2021011331A1/en unknown
- 2020-07-10 KR KR1020227000411A patent/KR20220031610A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
TWI840587B (zh) | 2024-05-01 |
TW202109245A (zh) | 2021-03-01 |
WO2021011331A1 (en) | 2021-01-21 |
BR112021026765A2 (pt) | 2022-02-15 |
KR20220031610A (ko) | 2022-03-11 |
CN114127665B (zh) | 2024-10-08 |
EP3997553A1 (en) | 2022-05-18 |
US11348581B2 (en) | 2022-05-31 |
CN114127665A (zh) | 2022-03-01 |
JP7522177B2 (ja) | 2024-07-24 |
US20210012770A1 (en) | 2021-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11348581B2 (en) | Multi-modal user interface | |
CN111868824A (zh) | 智能设备的情境感知控制 | |
US10353495B2 (en) | Personalized operation of a mobile device using sensor signatures | |
US9620116B2 (en) | Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions | |
JP7419270B2 (ja) | ウェアラブルシステム発話処理 | |
JP2022522748A (ja) | 発話処理エンジンのための入力の決定 | |
US11656837B2 (en) | Electronic device for controlling sound and operation method therefor | |
US11895474B2 (en) | Activity detection on devices with multi-modal sensing | |
CN111788043B (zh) | 信息处理装置、信息处理方法和程序 | |
CN111421557A (zh) | 电子装置及其控制方法 | |
US11900730B2 (en) | Biometric identification | |
JP6627775B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2021149441A1 (ja) | 情報処理装置および情報処理方法 | |
JP2018075657A (ja) | 生成プログラム、生成装置、制御プログラム、制御方法、ロボット装置及び通話システム | |
JP7435641B2 (ja) | 制御装置、ロボット、制御方法およびプログラム | |
US11997445B2 (en) | Systems and methods for live conversation using hearing devices | |
KR102168812B1 (ko) | 사운드를 제어하는 전자 장치 및 그 동작 방법 | |
KR20230084154A (ko) | 동적 분류기를 사용한 사용자 음성 활동 검출 | |
US20240212681A1 (en) | Voice recognition device having barge-in function and method thereof | |
KR20210109722A (ko) | 사용자의 발화 상태에 기초하여 제어 정보를 생성하는 디바이스 및 그 제어 방법 | |
CN104345649B (zh) | 应用于声控装置的控制器与相关方法 | |
WO2024019759A1 (en) | Controlling head-mounted devices by voiced nasal consonants | |
WO2024059427A1 (en) | Source speech modification based on an input speech characteristic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230612 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230612 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240527 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240711 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7522177 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |