JP6913745B2 - ジェスチャによりアクティブ化されるリモートコントロール - Google Patents
ジェスチャによりアクティブ化されるリモートコントロール Download PDFInfo
- Publication number
- JP6913745B2 JP6913745B2 JP2019507755A JP2019507755A JP6913745B2 JP 6913745 B2 JP6913745 B2 JP 6913745B2 JP 2019507755 A JP2019507755 A JP 2019507755A JP 2019507755 A JP2019507755 A JP 2019507755A JP 6913745 B2 JP6913745 B2 JP 6913745B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic device
- remote control
- frequencies
- sound
- sound data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015654 memory Effects 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 55
- 238000004590 computer program Methods 0.000 claims description 26
- 230000004044 response Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 25
- 230000008859 change Effects 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 230000003213 activating effect Effects 0.000 claims description 5
- 230000001755 vocal effect Effects 0.000 claims 9
- 238000011038 discontinuous diafiltration by volume reduction Methods 0.000 claims 5
- 230000000644 propagated effect Effects 0.000 claims 2
- 230000005534 acoustic noise Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 10
- 230000004913 activation Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000033001 locomotion Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010438 heat treatment Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/4104—Peripherals receiving signals from specially adapted client devices
- H04N21/4126—The peripheral being portable, e.g. PDAs or mobile phones
- H04N21/41265—The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/4222—Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0384—Wireless input, i.e. hardware and software details of wireless interface arrangements for pointing devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42204—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
- H04N21/42206—User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
- H04N21/42222—Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Selective Calling Equipment (AREA)
Description
この出願は、2016年8月16日付出願の「GESTURE−ACTIVATED REMOTE CONTROL」と題される米国特許出願第15/238,364号に基づく優先権を主張し、その継続出願であり、その開示全体は、参照により本明細書に組み込まれる。
この明細書は、リモートコントロールに関する。
典型的に、人々は、テレビのさまざまな態様(たとえば、チャンネル、音量、表示されるデバイス等)をコントロールするために、傍らにあるリモートコントロールを用い、テレビを視る。いくつかのリモートコントロールは、ラップトップコンピュータまたはタブレットコンピュータといった電子デバイス内に埋め込まれる。そのようなリモートコントロールは、これらの電子デバイス上で動作するソフトウェアとして実現されてもよく、これは、ユーザが標準的な入力(たとえば、キーボードおよびマウス/トラックパッド)を介してテレビをコントロールすることを可能とする。
1つの一般的な態様では、方法は、第1の電子デバイスのカメラからビデオストリームを受信することを含み得、カメラは、第1の電子デバイスのユーザの方向に向けられ、第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、第2の電子デバイスは、知覚出力を作成するように構成される。方法はまた、ビデオストリームのフレームのセットにわたって、ユーザによって行われたジェスチャを検出することを含み得る。方法はさらに、ジェスチャの検出に応答して、リモートコントロールを非アクティブ状態からアクティブ状態に遷移させるために、第1の電子デバイス内のリモートコントロールをアクティブ化することを含み得、リモートコントロールがアクティブ状態にあるときに、リモートコントロールは、第2の電子デバイスによって作成された知覚出力に対して変化をトリガするように構成される。
多くの状況では、ユーザは、複数の作業を同時進行しており、テレビを視ている間にいくつかのその他の作業を行っている。その場合、リモートコントロールソフトウェアにアクセスするために、ユーザは、その他の作業を中断しなければならないだろう。
Claims (21)
- 処理回路に方法を実行させるためのコンピュータプログラムであって、前記方法は、
前記処理回路を含む第1の電子デバイスのカメラからビデオストリームを受信することを備え、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられ、前記第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成され、前記方法はさらに、
前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出することと、
前記ジェスチャを検出したことに応答して、
前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティベートすることとを備え、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成されており、前記方法はさらに、
音波から変換された音データを受信することと、
前記第1の電子デバイスと前記第2の電子デバイスとの間の距離を決定することと、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記決定された距離に基づき、前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することと、
前記リモートコントロールが前記アクティブ状態にあるときに前記ジェスチャが前記ユーザによって行われないことに応答して、前記リモートコントロールを前記非アクティブ状態へと遷移させるように、前記リモートコントロールを非アクティブ化することとを備える、コンピュータプログラム。 - 前記第1の電子デバイスはマイクロフォンをさらに含み、当該マイクロフォンは、その上に入射する音波を、前記第1の電子デバイスのメモリ内に記憶される音データへと変換するように構成されており、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
前記音データを、リモートコントロールデータに変換することとを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記第2の電子デバイスは、前記第2の電子デバイスによって作成された前記知覚出力に対して前記変化をトリガし、前記方法はさらに、
前記リモートコントロールデータを前記第2の電子デバイスに送信することを備える、請求項1に記載のコンピュータプログラム。 - 前記第2の電子デバイスによって作成された前記知覚出力は、発声音を含み、
前記音データを、前記第2の電子デバイスの前記知覚出力を前記変化させるための前記予め定められたコマンドとして識別することは、フィルタ演算を行うことを含み、前記フィルタ演算は、前記発声音を前記マイクロフォン上に前記入射する音波からフィルタリングするように構成されている、請求項2に記載のコンピュータプログラム。 - 前記フィルタ演算を行うことは、前記リモートコントロールが前記アクティブ状態に遷移することに応答して、前記第2の電子デバイスに音量低下コマンドを送信することを含み、前記音量低下コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より小さい振幅において前記発声音を作成させ、
前記方法は、前記リモートコントロールが前記非アクティブ状態に遷移することに応答して、音量増大コマンドを前記第2の電子デバイスに送信することをさらに備え、前記音量増大コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より大きい振幅において前記発声音を作成させる、請求項3に記載のコンピュータプログラム。 - 前記方法はさらに、前記第2の電子デバイスによって作成された前記発声音の周波数のセットを取得することを備え、
前記フィルタ演算を行うことは、
前記マイクロフォンへ入力された前記音データの周波数のセットを取得することと、
前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数を、前記音データの周波数の前記セットから抑圧し、フィルタされた周波数のセットを形成することと、
フィルタされた周波数の前記セットから、リモートコントロールデータが作成されるフィルタされた音データを形成することとを含む、請求項3または4に記載のコンピュータプログラム。 - 前記マイクロフォンへ入力された前記音データの周波数の前記セットを取得することは、
指定した時間の間入力された前記音データを記録し、音のタイムウィンドウを生成することと、
前記音のタイムウィンドウから周波数のセットを取得し、周波数のタイムウィンドウを形成することと、
前記リモートコントロールが前記アクティブ状態にあるときに、前記指定した時間の間、音データを前記記録することを繰り返し、周波数のセットを取得し、前記記録された音データのスペクトログラムを形成することとを含む、請求項5に記載のコンピュータプログラム。 - 前記マイクロフォンへ入力された前記音データの周波数の前記セットを取得することは、前記マイクロフォンへ入力された前記音データについてフーリエ変換演算を行うことを含む、請求項5に記載のコンピュータプログラム。
- 前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数を抑圧することは、
前記第2の電子デバイスから前記発声音が伝播されたネットワーク信号の到来角(AOA)を決定することと、
前記AOAに基づき、前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数の振幅および位相を作成することと、
入力された前記音データの周波数の前記セットのうち、前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数の前記振幅および位相に十分に近い振幅および位相を有する周波数のものを識別することとを含む、請求項5に記載のコンピュータプログラム。 - 前記フィルタ演算は、前記第1の電子デバイスおよび前記第2の電子デバイスが配置される部屋によって作成される、前記マイクロフォン上に前記入射する音波からの音響ノイズをフィルタリングするように、さらに構成されている、請求項3に記載のコンピュータプログラム。
- 前記フィルタ演算を行うことは、ノイズ周波数閾値よりも低い周波数を、前記マイクロフォンへ入力された前記音データからフィルタリングすることを含む、請求項9に記載のコンピュータプログラム。
- 方法であって、
第1の電子デバイスの処理回路によって、前記第1の電子デバイスのカメラからビデオストリームを受信することを備え、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられ、前記第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成され、前記方法はさらに、
前記処理回路によって、前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出することと、
前記ジェスチャを検出したことに応答して、
前記処理回路によって、前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティベートすることとを備え、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成されており、前記方法はさらに、
前記処理回路によって、音波から変換された音データを受信することと、
前記処理回路によって、前記第1の電子デバイスと前記第2の電子デバイスとの間の距離を決定することと、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記処理回路によって、前記決定された距離に基づき、前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することと、
前記リモートコントロールが前記アクティブ状態にあるときに前記ジェスチャが前記ユーザによって行われないことに応答して、前記処理回路によって、前記リモートコントロールを前記非アクティブ状態へと遷移させるように、前記リモートコントロールを非アクティブ化することとを備える、方法。 - 前記第1の電子デバイスは、マイクロフォンをさらに含み、前記マイクロフォンは、当該マイクロフォン上に入射する音波を、前記第1の電子デバイスのメモリ内に記憶される音データへと変換するように構成されており、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
前記音データをリモートコントロールデータに変換することを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記第2の電子デバイスは、前記第2の電子デバイスによって作成された前記知覚出力に対する前記変化をトリガさせ、前記方法はさらに、
前記リモートコントロールデータを前記第2の電子デバイスに送信することを備える、請求項11に記載の方法。 - 前記第2の電子デバイスによって作成された前記知覚出力は、発声音を含み、
前記音データを前記第2の電子デバイスの前記知覚出力を前記変化させるための前記予め定められたコマンドとして識別することは、フィルタ演算を行うことを含み、前記フィルタ演算は、前記発声音を前記マイクロフォン上に前記入射する音波からフィルタリングするように構成されている、請求項12に記載の方法。 - 前記フィルタ演算を行うことは、
前記リモートコントロールが前記アクティブ状態に遷移したことに応答して、音量低下コマンドを前記第2の電子デバイスに送信することを含み、前記音量低下コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より小さい振幅において前記発声音を作成させ、
前記方法は、前記リモートコントロールが前記非アクティブ状態に遷移することに応答して、音量増大コマンドを前記第2の電子デバイスに送信することをさらに備え、前記音量増大コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスにより大きい振幅において前記発声音を作成させる、請求項13に記載の方法。 - 前記第2の電子デバイスによって作成された前記発声音の周波数のセットを取得することをさらに備え、
前記フィルタ演算を行うことは、
前記マイクロフォンへ入力される前記音データの周波数のセットを取得することと、
前記音データの周波数の前記セットから、前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数を抑圧し、フィルタされた周波数のセットを形成することと、
フィルタされた周波数の前記セットから、リモートコントロールデータが作成されるフィルタされた音データを形成することとを含む、請求項13に記載の方法。 - システムであって、
第1の電子デバイスおよび第2の電子デバイスを備え、前記第1の電子デバイスは、前記第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成されており、前記第1の電子デバイスは、ネットワークインターフェース、カメラ、メモリ、および前記メモリに結合される処理回路を含み、前記処理回路は、
前記カメラからビデオストリームを受信するように構成されており、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられており、前記処理回路はさらに、
前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出するように構成されており、
前記ジェスチャを検出したことに応答して、
前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティベートするように構成されており、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成されており、前記処理回路はさらに、
音波から変換された音データを受信し、
前記第1の電子デバイスと前記第2の電子デバイスとの間の距離を決定し、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記決定された距離に基づき、前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別し、
前記リモートコントロールが前記アクティブ状態にあるときに前記ジェスチャが前記ユーザによって行われないことに応答して、前記リモートコントロールを前記非アクティブ状態へと遷移させるように、前記リモートコントロールを非アクティブ化することとを備える、システム。 - 前記音波から変換された前記音データを受信することは、
指定した時間の間前記音データを記録し、音のタイムウィンドウを生成することと、
前記音のタイムウィンドウから周波数のセットを取得し、周波数のタイムウィンドウを形成することと、
前記リモートコントロールが前記アクティブ状態にあるときに、前記指定した時間の間、音データを前記記録することを繰り返し、周波数のセットを取得し、前記記録された音データのスペクトログラムを形成することとを含む、請求項1に記載のコンピュータプログラム。 - 前記音データは、周波数のセットを含み、
前記第2の電子デバイスによって作成される知覚出力は、発声音を含み、
前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することは、
前記距離に基づき、前記第2の電子デバイスによって作成された前記発声音の前記周波数の前記セットのうちのいくつかの前記周波数の振幅および位相を作成することと、
前記音データの周波数の前記セットのうち、前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数の前記振幅および位相に十分に近い振幅および位相を有する周波数のものを識別することとを含む、請求項1に記載のコンピュータプログラム。 - 処理回路に方法を実行させるためのコンピュータプログラムであって、前記方法は、
前記処理回路を含む第1の電子デバイスのカメラからビデオストリームを受信することを備え、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられており、前記第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成されており、前記知覚出力は発声音を含み、前記方法はさらに、
前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出することと、
前記ジェスチャを検出したことに応答して、
前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティベートすることとを備え、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成されており、前記方法はさらに、
音波から変換された音データを受信することと、
前記第2の電子デバイスから前記発声音が伝播されたネットワーク信号の到来角(AOA)を決定することと、
前記リモートコントロールが前記アクティブ状態にあることに応答して、前記決定されたAOAに基づき、前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することと、
前記リモートコントロールが前記アクティブ状態にあるときに前記ジェスチャが前記ユーザによって行われないことに応答して、前記リモートコントロールを前記非アクティブ状態へと遷移させるように、前記リモートコントロールを非アクティブ化することとを備える、コンピュータプログラム。 - 前記音データは、周波数のセットを含み、
前記決定されたAOAに基づき、前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することはさらに、
前記AOAに基づき、前記第2の電子デバイスによって作成された前記発声音の前記周波数の前記セットのうちのいくつかの前記周波数の振幅および位相を作成することと、
前記音データの周波数の前記セットのうち、前記第2の電子デバイスによって作成された前記発声音の周波数の前記セットのうちのいくつかの前記周波数の前記振幅および位相に十分に近い振幅および位相を有する周波数を識別することとを含む、請求項19に記載のコンピュータプログラム。 - 請求項1〜10および17〜20のいずれかに記載のコンピュータプログラムを格納したメモリと、
前記コンピュータプログラムを実行するための処理回路とを備える、装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/238,364 | 2016-08-16 | ||
US15/238,364 US10506192B2 (en) | 2016-08-16 | 2016-08-16 | Gesture-activated remote control |
PCT/US2017/046494 WO2018034980A1 (en) | 2016-08-16 | 2017-08-11 | Gesture-activated remote control |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019528526A JP2019528526A (ja) | 2019-10-10 |
JP2019528526A5 JP2019528526A5 (ja) | 2020-03-19 |
JP6913745B2 true JP6913745B2 (ja) | 2021-08-04 |
Family
ID=59702856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019507755A Active JP6913745B2 (ja) | 2016-08-16 | 2017-08-11 | ジェスチャによりアクティブ化されるリモートコントロール |
Country Status (7)
Country | Link |
---|---|
US (1) | US10506192B2 (ja) |
EP (1) | EP3482278B1 (ja) |
JP (1) | JP6913745B2 (ja) |
KR (1) | KR102258710B1 (ja) |
CN (1) | CN109564474B (ja) |
DE (1) | DE202017104587U1 (ja) |
WO (1) | WO2018034980A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102018204223A1 (de) * | 2018-03-20 | 2019-09-26 | Audi Ag | Mobile, portable Bedienvorrichtung zum Bedienen eines mit der Bedienvorrichtung drahtlos gekoppelten Geräts, und Verfahren zum Betreiben eines Geräts mithilfe einer mobilen, portablen Bedienvorrichtung |
CN112489413B (zh) * | 2020-11-27 | 2022-01-11 | 京东方科技集团股份有限公司 | 遥控器的控制方法及系统、存储介质、电子设备 |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6501515B1 (en) * | 1998-10-13 | 2002-12-31 | Sony Corporation | Remote control system |
US6889191B2 (en) * | 2001-12-03 | 2005-05-03 | Scientific-Atlanta, Inc. | Systems and methods for TV navigation with compressed voice-activated commands |
US20050154588A1 (en) * | 2001-12-12 | 2005-07-14 | Janas John J.Iii | Speech recognition and control in a process support system |
CA2539442C (en) | 2003-09-17 | 2013-08-20 | Nielsen Media Research, Inc. | Methods and apparatus to operate an audience metering device with voice commands |
JP2005250233A (ja) * | 2004-03-05 | 2005-09-15 | Sanyo Electric Co Ltd | ロボット装置 |
JP2007121576A (ja) * | 2005-10-26 | 2007-05-17 | Matsushita Electric Works Ltd | 音声操作装置 |
JP2007189536A (ja) * | 2006-01-13 | 2007-07-26 | Matsushita Electric Ind Co Ltd | 音響エコーキャンセラ装置、音響エコーキャンセル方法及び通話装置 |
JP5034607B2 (ja) * | 2006-11-02 | 2012-09-26 | 株式会社日立製作所 | 音響エコーキャンセラシステム |
US8126161B2 (en) * | 2006-11-02 | 2012-02-28 | Hitachi, Ltd. | Acoustic echo canceller system |
JP4877114B2 (ja) * | 2007-07-13 | 2012-02-15 | ヤマハ株式会社 | 音声処理装置およびプログラム |
JP4431836B2 (ja) * | 2007-07-26 | 2010-03-17 | 株式会社カシオ日立モバイルコミュニケーションズ | 音声取得装置、雑音除去システム、及び、プログラム |
US11012732B2 (en) | 2009-06-25 | 2021-05-18 | DISH Technologies L.L.C. | Voice enabled media presentation systems and methods |
US8428368B2 (en) * | 2009-07-31 | 2013-04-23 | Echostar Technologies L.L.C. | Systems and methods for hand gesture control of an electronic device |
KR101373285B1 (ko) | 2009-12-08 | 2014-03-11 | 한국전자통신연구원 | 제스쳐 인식 기능을 갖는 휴대 단말기 및 이를 이용한 인터페이스 시스템 |
KR20120051212A (ko) * | 2010-11-12 | 2012-05-22 | 엘지전자 주식회사 | 멀티미디어 장치의 사용자 제스쳐 인식 방법 및 그에 따른 멀티미디어 장치 |
US20130035086A1 (en) * | 2010-12-22 | 2013-02-07 | Logitech Europe S.A. | Remote control system for providing content suggestions |
CN102682589B (zh) * | 2012-01-09 | 2015-03-25 | 西安智意能电子科技有限公司 | 一种用于对受控设备进行遥控的系统 |
KR101590332B1 (ko) | 2012-01-09 | 2016-02-18 | 삼성전자주식회사 | 영상장치 및 그 제어방법 |
CN103294177B (zh) * | 2012-02-29 | 2016-01-06 | 株式会社理光 | 光标移动控制方法和系统 |
WO2013168171A1 (en) * | 2012-05-10 | 2013-11-14 | Umoove Services Ltd. | Method for gesture-based operation control |
CN202617260U (zh) | 2012-05-31 | 2012-12-19 | 无锡商业职业技术学院 | 一种基于手势控制电视机的装置 |
CN102866777A (zh) * | 2012-09-12 | 2013-01-09 | 中兴通讯股份有限公司 | 一种数字媒体内容播放转移的方法及播放设备及系统 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
US9417689B1 (en) * | 2013-05-17 | 2016-08-16 | Amazon Technologies, Inc. | Robust device motion detection |
WO2014190886A1 (zh) * | 2013-05-27 | 2014-12-04 | 上海科斗电子科技有限公司 | 智能交互系统及其软件系统 |
CN103456299B (zh) * | 2013-08-01 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 一种控制语音识别的方法和装置 |
US9357492B2 (en) | 2013-08-05 | 2016-05-31 | Qualcomm Incorporated | WLAN-capable remote control device |
US9390726B1 (en) | 2013-12-30 | 2016-07-12 | Google Inc. | Supplementing speech commands with gestures |
US10540979B2 (en) * | 2014-04-17 | 2020-01-21 | Qualcomm Incorporated | User interface for secure access to a device using speaker verification |
CN105258011A (zh) * | 2014-07-16 | 2016-01-20 | 东莞勤上光电股份有限公司 | 一种具有综合智能控制功能的led落地灯 |
US9849588B2 (en) * | 2014-09-17 | 2017-12-26 | Brain Corporation | Apparatus and methods for remotely controlling robotic devices |
CN104811792A (zh) | 2015-03-20 | 2015-07-29 | 无锡华海天和信息科技有限公司 | 一种通过手机声控电视盒子的系统及方法 |
CN105096580A (zh) * | 2015-08-18 | 2015-11-25 | 金德奎 | 一种可控制家用电器的手势控制智能开关 |
US10048936B2 (en) * | 2015-08-31 | 2018-08-14 | Roku, Inc. | Audio command interface for a multimedia device |
-
2016
- 2016-08-16 US US15/238,364 patent/US10506192B2/en active Active
-
2017
- 2017-08-01 DE DE202017104587.0U patent/DE202017104587U1/de active Active
- 2017-08-11 JP JP2019507755A patent/JP6913745B2/ja active Active
- 2017-08-11 EP EP17757979.4A patent/EP3482278B1/en active Active
- 2017-08-11 KR KR1020197007601A patent/KR102258710B1/ko active IP Right Grant
- 2017-08-11 WO PCT/US2017/046494 patent/WO2018034980A1/en active Search and Examination
- 2017-08-11 CN CN201780050202.9A patent/CN109564474B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
WO2018034980A1 (en) | 2018-02-22 |
KR20190039777A (ko) | 2019-04-15 |
US10506192B2 (en) | 2019-12-10 |
KR102258710B1 (ko) | 2021-06-01 |
DE202017104587U1 (de) | 2018-03-08 |
CN109564474B (zh) | 2023-02-17 |
CN109564474A (zh) | 2019-04-02 |
EP3482278A1 (en) | 2019-05-15 |
EP3482278B1 (en) | 2020-10-21 |
JP2019528526A (ja) | 2019-10-10 |
US20180054586A1 (en) | 2018-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6821767B2 (ja) | 記録されたメディアホットワードトリガ抑制 | |
US10720176B2 (en) | Multisensory speech detection | |
US10230831B2 (en) | Context and environment aware volume control in telephonic conversation | |
US9668048B2 (en) | Contextual switching of microphones | |
US20160162469A1 (en) | Dynamic Local ASR Vocabulary | |
KR102363872B1 (ko) | 오디오 워터 마킹을 이용한 키 구문 검출 | |
US10339913B2 (en) | Context-based cancellation and amplification of acoustical signals in acoustical environments | |
CN108681440A (zh) | 一种智能设备音量控制方法及系统 | |
WO2016094418A1 (en) | Dynamic local asr vocabulary | |
US10861479B2 (en) | Echo cancellation for keyword spotting | |
US10754475B2 (en) | Near ultrasound based proximity sensing for mobile devices | |
JP6913745B2 (ja) | ジェスチャによりアクティブ化されるリモートコントロール | |
KR102623998B1 (ko) | 음성인식을 위한 전자장치 및 그 제어 방법 | |
KR20140116642A (ko) | 음성 인식 기반의 기능 제어 방법 및 장치 | |
JP6670014B2 (ja) | モバイルデバイスにおける非線形エコーキャンセルのための二方式振幅処理フレームワーク | |
US20180277134A1 (en) | Key Click Suppression | |
JP2013072904A (ja) | 音声認識方法および音声認識装置 | |
US20150249884A1 (en) | Post-processed reference path for acoustic echo cancellation | |
CN110446142B (zh) | 音频信息处理方法、服务器、设备、存储介质和客户端 | |
EP4404189A1 (en) | Auditory augmentation of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200206 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210427 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210615 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6913745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |