JP2019528526A - ジェスチャによりアクティブ化されるリモートコントロール - Google Patents

ジェスチャによりアクティブ化されるリモートコントロール Download PDF

Info

Publication number
JP2019528526A
JP2019528526A JP2019507755A JP2019507755A JP2019528526A JP 2019528526 A JP2019528526 A JP 2019528526A JP 2019507755 A JP2019507755 A JP 2019507755A JP 2019507755 A JP2019507755 A JP 2019507755A JP 2019528526 A JP2019528526 A JP 2019528526A
Authority
JP
Japan
Prior art keywords
electronic device
remote control
frequencies
sound
sound data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019507755A
Other languages
English (en)
Other versions
JP6913745B2 (ja
JP2019528526A5 (ja
Inventor
レオン,チエン・ウェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2019528526A publication Critical patent/JP2019528526A/ja
Publication of JP2019528526A5 publication Critical patent/JP2019528526A5/ja
Application granted granted Critical
Publication of JP6913745B2 publication Critical patent/JP6913745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4222Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0384Wireless input, i.e. hardware and software details of wireless interface arrangements for pointing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)

Abstract

テレビから離れたコンピューティングデバイスのバックグラウンドにおいて実行する、テレビのためのジェスチャに基づくコントロールが提供され、コントロールは、ジェスチャによってアクティブ化される。有利には、ユーザは、テレビをコントロールするために、何らの作業を中断する必要がない。ジェスチャに基づくコントロールは、音声コントロールをアクティブ化するように構成され得、これは、ノイズが存在する状況にあってもロバストに動作し、テレビから発散する音声と競合するだろう。

Description

関連出願の相互参照
この出願は、2016年8月16日付出願の「GESTURE−ACTIVATED REMOTE CONTROL」と題される米国特許出願第15/238,364号に基づく優先権を主張し、その継続出願であり、その開示全体は、参照により本明細書に組み込まれる。
技術分野
この明細書は、リモートコントロールに関する。
背景
典型的に、人々は、テレビのさまざまな態様(たとえば、チャンネル、音量、表示されるデバイス等)をコントロールするために、傍らにあるリモートコントロールを用い、テレビを視る。いくつかのリモートコントロールは、ラップトップコンピュータまたはタブレットコンピュータといった電子デバイス内に埋め込まれる。そのようなリモートコントロールは、これらの電子デバイス上で動作するソフトウェアとして実現されてもよく、これは、ユーザが標準的な入力(たとえば、キーボードおよびマウス/トラックパッド)を介してテレビをコントロールすることを可能とする。
概要
1つの一般的な態様では、方法は、第1の電子デバイスのカメラからビデオストリームを受信することを含み得、カメラは、第1の電子デバイスのユーザの方向に向けられ、第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、第2の電子デバイスは、知覚出力を作成するように構成される。方法はまた、ビデオストリームのフレームのセットにわたって、ユーザによって行われたジェスチャを検出することを含み得る。方法はさらに、ジェスチャの検出に応答して、リモートコントロールを非アクティブ状態からアクティブ状態に遷移させるために、第1の電子デバイス内のリモートコントロールをアクティブ化することを含み得、リモートコントロールがアクティブ状態にあるときに、リモートコントロールは、第2の電子デバイスによって作成された知覚出力に対して変化をトリガするように構成される。
1つまたは複数の実装の詳細は、添付図面および以下の説明において明らかにされる。その他の特徴は、説明および図面から、および請求項から、明らかにされる。
ジェスチャに基づくリモートコントロールが実現され得る電子環境の例を示す図である。 図1内に示されるジェスチャに基づくリモートコントロールを実装する方法の例を示すフローチャートである。 図1内に示されるリモートコントロールの例を示す図である。 図1内に示されるリモートコントロールにおいて音声に基づくコマンドを使用するプロセスの例を示すフローチャートである。 図1内に示されるリモートコントロールにおいてジェスチャに基づくコマンドを使用するプロセスの例を示すフローチャートである。 ここで説明される回路とともに使用され得るコンピュータデバイスおよびモバイルコンピュータデバイスの例を図示する。
詳細な説明
多くの状況では、ユーザは、複数の作業を同時進行しており、テレビを視ている間にいくつかのその他の作業を行っている。その場合、リモートコントロールソフトウェアにアクセスするために、ユーザは、その他の作業を中断しなければならないだろう。
ここで説明される実装に従い、テレビから離れたコンピューティングデバイスのバックグラウンドにおいて動作する、テレビのためのジェスチャに基づくコントロールが提供され、コントロールは、ジェスチャによってアクティブ化される。有利には、ユーザは、テレビをコントロールするために、何ら作業を中断する必要がない。ジェスチャに基づくコントロールは、音声コントロールをアクティブ化するように構成され得、これは、ノイズが存在してもロバストに動作し、テレビから発散する音声、すなわち発声音と競合するだろう。
図1は、上述のジェスチャに基づくリモートコントロールが実現され得る電子環境100の例を示す図である。示されるように、図1において、電子環境100は、部屋110、ユーザデバイス120、テレビ160、およびネットワーク170を含む。
部屋110は、そこから音波が反射され得る少なくとも壁114の一部またはいくつかのその他の障害物を包含する、任意の空間であり得る。部屋110は、ユーザデバイス120およびテレビ160の両方を含む。しかし、いくつかの実現例では、部屋110は、壁を有さなくてもよく、開放領域としてより良好に説明され得る。
ユーザデバイス120は、ネットワーク170経由でテレビ160をコントロールするように構成され、同時にまたユーザ112による使用のために任意の数のアプリケーションを動作させる。いくつかの実装では、ユーザデバイス120は、ラップトップコンピュータであってもよいが、また、デスクトップコンピュータ、タブレットコンピュータ、スマートフォンなどであってもよい。ユーザデバイス120はまた、ユーザ112によって行われた1つまたは複数のジェスチャによってアクティブ化されるリモートコントロールアプリケーションを、バックグラウンドにおいて動作させるように構成される。
ユーザデバイス120は、ネットワークインターフェース122、1つまたは複数のプロセッシングユニット124、メモリ126、カメラ132、およびマイクロフォン134を含む。図1に示されるように、メモリ126は、ジェスチャ分類器140、アクティベーション状態142、記録されたフレーム144、予め定められたコマンド146、コマンド分類器148、および記録されたコマンド150を含む、さまざまなデータを格納するように構成される。
リモートコントロール130は、テレビ160によって作成された知覚出力に対して変化をトリガするように構成される。たとえばリモートコントロール130によって作成され変化される知覚出力は、テレビ160を電源オンまたは電源オフすること、テレビ160による音出力の音量を増加または減少させること、テレビ160によって出力される放送局コンテンツを変えること等を含む。リモートコントロール130はさらに、リモートコントロール130がアクティブ状態にあるときにそのような変化をトリガし、非アクティブ状態にあるときに変化をトリガしないように構成される。
リモートコントロール130は、ユーザによって行われたジェスチャ112を通して、アクティブ状態と非アクティブ状態との間をトグルする。たとえばリモートコントロール130が、音声コントロールされるものと仮定する。その場合、ユーザ112の取り得るジェスチャは、握りこぶしがユーザ112の口元に向かって移動される形態をとり得る(すなわち、ユーザ112が話すマイクロフォンを模擬する)。
ジェスチャ分類器140は、記録されたフレーム144を、トリガジェスチャであるのかトリガジェスチャではないのかを分類するように構成される。ジェスチャ分類器140は、機械学習プロセスを使用して構成されてもよい。
アクティベーション状態142は、リモートコントロール130がアクティブ(「ACTIVE」)状態であるか非アクティブ(「INACTIVE」)状態であるかを示すバイナリ値である。
記録されたフレーム144は、カメラ132によって記録されたユーザ112の画像を包含するフレームのセットである。これらのフレームは、例示的に、たとえば10秒に等しいタイムウィンドウにわたって記録された直近のフレームである。 そしてこれらのフレームは、ジェスチャ分類器140によってトリガジェスチャを包含するものかトリガジェスチャを包含しないものとして分類される。ユーザデバイス120が、トリガジェスチャが存在すると判断すると、ユーザデバイス120は、アクティベーション状態142をACTIVEに設定する。ユーザデバイス120が、トリガジェスチャが存在しないと判断すると、ユーザデバイス120は、アクティベーション状態142をINACTIVEに設定する。このため、ある実装では、ユーザ112が彼のまたは彼女の握りこぶしを彼のまたは彼女の口元から外すと、ユーザデバイスは、アクティベーション状態をINACTIVEに設定する。
予め定められたコマンド146は、テレビ160の出力に対して変化をトリガするためのコマンドの定義を提供するように構成される。予め定められたコマンドの例は、「POWER ON(電源ON)」と、「POWER OFF(電源OFF)」と、「INCREMENT VOLUME(音量を上げる)」と、「DECREMENT VOLUME(音量を下げる)」と、「INCREMENT STATION NUMBER(局番号を増やす)」と、「DECREMENT STATION NUMBER(局番号を減らす)」とを含む。そのようなコマンド146は、テレビが処理できる(たとえば、認識可能である)形態で、テレビへとネットワーク170経由で送信されるように構成される。
コマンド分類器148は、ユーザ112からのコミュニケーションを予め定められたコマンドへと分類するように構成される。たとえばリモートコントロール130が音声動作されるとき、ユーザ入力は、記録されたスピーチまたはスピーチの周波数スペクトルの形態を取り得る。その場合、各音声コマンドは、特定のコマンドへとパースされる、または分類される。この流れにそって、コマンド分類器148は、「Louder(もっと大きくして)」という音声コマンドを、INCREMENT VOLUME(音量を上げる)コマンドとして分類する等してもよい。
記録されたコマンド150は、直近のユーザ提供コマンドを表す。上記の例では、これらのコマンド150は、記録されたスピーチまたはその周波数スペクトルの形態を取り得る。
カメラ132は、ユーザ112によって行われたジェスチャを記録するように構成される。リモートコントロール130が音声コマンドを使用するとき、マイクロフォン134は、ユーザ112によって行われた音声コマンドを記録するように構成される。
テレビ160は、ユーザ112に任意のチャンネル番号(たとえば、局)のうちの1つからビデオおよび音響出力を提供するように構成される。テレビ160は、ネットワークインターフェース162(ネットワークインターフェース122と同様であってもよい)と、コマンドインタプリタ164と、スピーカ166とを含む。
コマンドインタプリタ164は、ネットワークインターフェース162を介して受信されたコマンドを取得するように構成され、それらを処理し、テレビ160上の物理効果を引き起こす。たとえばINCREMENT VOLUME(音量を上げる)コマンドがネットワークインターフェース162を経由して受信されると、コマンドインタプリタ164は、テレビの音量を固定量、たとえば固定量のデシベル分増加させる。
スピーカ166は、テレビ160によって作成される音響を、空気をわたって部屋114を通してユーザ112に対し送るように構成される。スピーカ166は、電気的入力に対して、音の特徴的スペクトルを作成する既知の応答を有する。さらに、スピーカ166は、いくらかの(未知の)距離だけユーザデバイス120から離れている。
ネットワーク170は、ユーザデバイス120とテレビ160との間にネットワーク接続を提供するために構成され、配置される。ネットワーク170は、インターネットまたはその他のネットワーク経由の通信のために一般に使用される任意のさまざまなプロトコルおよびトポロジを実装してもよい。さらに、ネットワーク170は、そのような通信において使用されるさまざまなコンポーネント(たとえば、ケーブル、スイッチ/ルータ、ゲートウェイ/ブリッジ、等。)を含んでもよい。
ネットワークインターフェース122は、ネットワーク170から受信された電子的および/または光学的信号を、ユーザデバイス120によって使用するための電子形態に変換するために、たとえば、イーサネット(登録商標)アダプタ、トーケンリングアダプタ等を含む。プロセッシングユニット124のセットは、1つまたは複数のプロセッシングチップおよび/またはアセンブリを含む。メモリ126は、揮発性メモリ(たとえば、RAM)と、1つまたは複数のROM、ディスクドライブ、ソリッドドライブ等の不揮発性メモリとの両方を含む。プロセッシングユニット124およびメモリ126のセットは、共にコントロール回路を形成し、これは、ここで説明されるようなさまざまな方法および機能を実装するために構成され、配置される。
ユーザデバイス120のコンポーネント(たとえば、モジュール、プロセッシングユニット124)は、1つまたは複数の種類のハードウェア、ソフトウェア、ファームウェア、オペレーティングシステム、ランタイムライブラリ、および/またはその他のものを含み得る、1つまたは複数のプラットフォーム(たとえば、1つまたは複数の同様のまたは異なるプラットフォーム)に基づき動作するように構成され得る。いくつかの実装では、ユーザデバイス120のコンポーネントは、デバイスのクラスタ(たとえば、サーバファーム)内で動作するように構成され得る。そのような実装では、ユーザデバイス120のコンポーネントの機能性および処理は、デバイスのクラスタのうちのいくつかのデバイスに分散され得る。
ユーザデバイス120のコンポーネントは、アトリビュートを処理するように構成される任意の種類のハードウェアおよび/またはソフトウェアであり得、またはそれらを含み得る。いくつかの実装では、図1内のユーザデバイス120のコンポーネントにおいて示されるコンポーネントの1つの部分または複数の部分は、ハードウェアベースモジュール(たとえば、デジタル信号プロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、メモリ)、ファームウェアモジュール、および/またはソフトウェアベースモジュール(たとえば、コンピュータにおいて実行され得る、コンピュータコードのモジュール、コンピュータ可読命令のセット)であり得、またはそれらを含み得る。たとえば、いくつかの実装では、ユーザデバイス120のコンポーネントの1つの部分または複数の部分は、少なくとも1つのプロセッサ(図示しない)によって実行されるように構成されるソフトウェアモジュールであり得、またはそれらを含み得る。いくつかの実装では、コンポーネントの機能性は、図1内に示されるものとは異なるモジュールおよび/または異なるコンポーネント内に含まれ得る。
図示はしないが、いくつかの実装では、ユーザデバイス120のコンポーネント(またはその一部)は、たとえば、データセンター(たとえば、クラウドコンピューティング環境)、コンピュータシステム、1つまたは複数のサーバ/ホストデバイス、および/またはその他のものの内部で動作するように構成され得る。いくつかの実装では、ユーザデバイス120のコンポーネント(またはその一部)は、ネットワーク内で動作するように構成され得る。このため、ユーザデバイス120のコンポーネント(またはその一部)は、1つまたは複数のデバイスおよび/または1つまたは複数のサーバデバイスを含み得るさまざまな種類のネットワーク環境内で機能するように構成され得る。たとえばネットワークは、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、および/またはその他のものであり得、またはそれらを含み得る。ネットワークは、たとえば、ゲートウェイデバイス、ブリッジ、スイッチを使用して実装される1つおよび/または複数の無線ネットワーク、および/またはその他のものであり得、またはそれらを含み得る。ネットワークは、1つまたは複数のセグメントを含み得、および/またはインターネットプロトコル(IP)および/または独自プロトコルといったさまざまなプロトコルに基づく部分を有することができる。ネットワークは、インターネットの少なくとも一部を含み得る。
いくつかの実施形態では、1つまたは複数のユーザデバイス120のコンポーネントは、メモリ内に格納される命令を処理するように構成されるプロセッサであり得、またはそれらを含み得る。たとえばリモートコントロール130(および/またはその一部)は、プロセッサとメモリとの組み合わせであり得、1つまたは複数の機能を実装するプロセスに関する命令を実行するように構成される。
いくつかの実装では、メモリ126は、ランダムアクセスメモリ、ディスクドライブメモリ、フラッシュメモリ、および/またはその他のものといった任意の種類のメモリであり得る。いくつかの実装では、メモリ126は、ユーザデバイス120のコンポーネントに関連付けられた複数のメモリコンポーネント(たとえば、複数のRAMコンポーネントまたはディスクドライブメモリ)として実装され得る。いくつかの実装では、メモリ126は、データベースメモリであり得る。いくつかの実装では、メモリ126は、非ローカルメモリであり得、またはそれを含み得る。たとえばメモリ126は、(図示しない)複数デバイスによって共有されるメモリであり得、またはそれを含み得る。いくつかの実装では、メモリ126は、ネットワーク内の(図示しない)サーバデバイスに関連付けられ得、ユーザデバイス120のコンポーネントに提供されるように構成され得る。
図2は、図1内に示されるジェスチャに基づくリモートコントロールを実装する方法200を示すフローチャートである。方法200は、図1に関連して説明されるソフトウェア構成によって行われてもよく、これは、ユーザデバイス120のメモリ126内に存在し、プロセッシングユニット124のセットによって動作される。
202において、第1の電子デバイスは、第1の電子デバイスのカメラからビデオストリームを受信し、カメラは、第1の電子デバイスのユーザの方向に向けられ(たとえば、狙っており)、第1の電子デバイスは、第2の電子デバイスから離れて近傍にあり、第2の電子デバイスは、知覚出力を作成するように構成される。たとえばユーザデバイス120は、ユーザ112によって行われたジェスチャを記録するためのカメラ132を有する。カメラ132は、これらのジェスチャの画像を、ユーザデバイス120によって受信されるビデオストリームのフレーム内に記録する。
204において、第1の電子デバイスは、ビデオストリームのフレームのセットにわたって、ユーザによって行われたジェスチャを検出する。ジェスチャ分類器140がジェスチャをアクティベーションジェスチャとして分類する場合、ユーザデバイス120は、ユーザがアクティベーションジェスチャを行ったと決定する。
206において、ジェスチャの検出に応答して、第1の電子デバイスは、第1の電子デバイス内のリモートコントロールをアクティブ化し、リモートコントロールを非アクティブ状態からアクティブ状態に遷移させ、リモートコントロールがアクティブ状態にあるときに、リモートコントロールは、第2の電子デバイスによって作成された知覚出力に対して変化をトリガするように構成される。これらの流れにそって、ユーザデバイス120は、ジェスチャ(たとえば、ユーザが彼のまたは彼女の握りこぶしを彼のまたは彼女の口元に置いたこと)を検出した際に、アクティベーション状態120をACTIVEに設定する。そしてリモートコントロール130は、ユーザが音声コマンドを発するときには、テレビにコマンドを送信可能に準備されている。リモートコントロールが音声コマンドをテレビ160によって認識されるコマンドに変換する方法の詳細については、図3および図4に関連して議論される。
図3は、リモートコントロール130の例を示す図である。図3に示されるように、リモートコントロール130は、マイクロフォン134(図1)において記録される音をテレビ160によって認識されるコマンドに変換するように構成されるいくつかのコンポーネント、すなわち、サウンド抽出マネージャ310、周波数解析マネージャ320、フィルタリングマネージャ330、およびコマンドマネージャ340を含む。
サウンド抽出マネージャ310は、音をマイクロフォン134から得るように構成される。サウンド抽出マネージャ310によってそのように得られた音は、必ずしもユーザ112によって話される純粋なスピーチではないことに留意すべきである。むしろ、音はまた、テレビ160のスピーカ166から発せられる発語並びに部屋110から放出されるノイズ(たとえば、壁114からの反射および部屋110内の暖房、冷房、および電気的デバイスからの低周波数ノイズ)を含んでもよい。
このため、リモートコントロール310は、リモートコントロール130がテレビ160にコマンドを正確に送信し得るように、ユーザ112によって話されるスピーチを分離するように構成される。そのような分離を行うための1つの方法は、得られた音の周波数分析を行い、ユーザ112のスピーチの部分ではないとわかる周波数のものをフィルタリングして除去することである。
周波数解析マネージャ320は、サウンド抽出マネージャ310によって得られた音から周波数スペクトルを生成するように構成される。このステップは、リモートコントロールがアクティブ状態にある間に起こってもよい。音データは、指定した時間の間記録され、これによって周波数のセットが取得される。1つの実装では、周波数解析マネージャ320は、得られた音のタイムウィンドウについて連続的フーリエ変換を行うことによって(たとえば、高速フーリエ変換を介して)周波数スペクトルを生成するように構成される。たとえば周波数解析マネージャ320は、記録された音の20秒のセグメントを、4つの5秒のセグメントへと切り出してもよい。そしてその場合、周波数解析マネージャ320は、各5秒のセグメントについてフーリエ変換を行い、4つの周波数スペクトルを作成する。そして周波数解析マネージャ320は、これらの4つの周波数スペクトルを時間順に配置し、得られた音の周波数スペクトルを表すスペクトログラムを時間の関数として作成してもよい。
その他の実装では、周波数解析マネージャ320は、たとえば、ある種類のウェーブレット変換等のフーリエ変換以外の変換を使用して、スペクトログラムを生成するように構成されてもよいことに留意すべきである。いくつかの場合、そのようなウェーブレット変換は、フーリエ変換と比べて周波数スペクトルのよりコンパクトな表現を提供し得る。
フィルタリングマネージャ330は、ユーザ112によって提供されるスピーチのいずれの部分ではないものの周波数成分を抑圧するように構成される。これらの流れにそって、フィルタリングマネージャ330は、ユーザ112のスピーチが無い状態で部屋内に存在する周波数を決定し、そしてこれらの周波数を周波数解析マネージャ320によって生成されるスペクトログラムから抑圧する。フィルタリングマネージャ330がそのような周波数を決定する方法についてのさらなる詳細は、図4を参照して示されるが、いくつかの詳細は、ここで示される。
テレビ160は、スピーカ166を介して、ユーザデバイス120から離れた位置から音を出力する。フィルタリングマネージャ330はそして、テレビ160とユーザデバイス120との間の直接接続を介して送信されたデータパケットに対するラウンドトリップタイム(RTT)を決定することによって、テレビ160またはスピーカ166とユーザデバイス120との間の距離を決定してもよい。さらに、フィルタリングマネージャ330はまた、ユーザデバイス120に相対的なスピーカの位置座標を決定するために、到来角/出発角を決定してもよい。これらの座標から、フィルタリングマネージャ330は、ある周波数成分の位相を決定してもよい。ユーザデバイス120に相対的なスピーカ166の配置によって決定されるそのような位相を有する周波数成分は、テレビ160によって生成されるものであってユーザ112によって生成されるものではないので、抑圧され得る。換言すると、音データ入力の周波数のセットのうちのこれらの周波数は、第2の電子デバイスによって作成された発声音の周波数のセットのうちのいくつかの周波数の振幅および位相に十分に近い振幅および位相を有することが識別される。その方法では、ユーザによって生成される音とスピーカ166によって生成される音との分離は改善されることができ、これによりスピーカによって生成されたかなりの音が存在しても、ユーザによって生成される音は、スピーチコマンドとして確実に認識され得る。
さらに、フィルタリングマネージャ330は、電気的システム、冷房システム、暖房システム等の部屋110からの低周波ハム(たとえば、60Hz)を、フィルタリングして除去してもよい。しかし、人のスピーチの中には60Hzよりも低い周波数を有するものもあるので、注意を払う必要がある。しかし、この場合、ハムが概ね時間にわたって一定であるので、時間にわたって一定のスペクトログラム内の低周波数のスパイクは、抑圧され得る。
コマンドマネージャ340は、フィルタされるスペクトログラムを、コマンド分類器148によって分類されるべきコマンドへとまたはコマンドのセットへとパースするように構成される。これらの流れにそって、コマンドマネージャ340は、スペクトログラムを対応する特定のコマンドとして分類する。いくつかの実装では、コマンドマネージャ340は、ユーザ112からのスピーチを復元するために、マッピングを行う前に逆フーリエ変換を行う。
図4は、リモートコントロール130において音声に基づくコマンドを使用するプロセス400を示すフローチャートである。プロセス400は、図3に関連して説明されるソフトウェア構成によって行われてもよく、これは、ユーザデバイス120のメモリ126内に存在し、プロセッシングユニット124のセットによって動作される。
402において、ユーザデバイス120は、部屋110の周波数応答を生成する。周波数応答は、テレビ160によって生成された音の各周波数における振幅および位相を含む。1つの代替的な実装では、ネットワーク上で接続を確立し、そして受信された信号を測定した際に、周波数掃引(たとえば、チャープ)を行うことによって、部屋の周波数応答が取得されてもよい。別の代替的な実装では、リモートコントロール130が非アクティブ状態にあるときに、テレビ160によって作成された周波数が抽出される。この場合、プライバシーの懸念に対処するため、連続的な記録は必須ではなく、作成されるべき信号が前もって既知であるため、ユーザデバイス120は、観察されていない周波数が再生されることが予測されるときにのみ、記録することができる。
404において、ユーザデバイス120は、マイクロフォン134から組み合わされたサウンド入力を受信する。再び、サウンド入力は、テレビ160からの音並びに部屋110からのノイズと組み合わされたユーザ112のスピーチからの音を含む。
406において、ユーザデバイス120は、スペクトログラム、すなわち、連続的なタイムウィンドウにわたる周波数スペクトルを、組み合わされたサウンド入力から生成する。いくつかの実装では、スペクトログラムは、リモートコントロールがアクティブ状態にあるときに、指定した時間の間、音データの記録を繰り返すことと、周波数のセットを取得することとによって得られる。
408において、ユーザデバイス120は、ネットワーク170を経由してテレビ160から入力されるサウンドを受信する。部屋110内の空気をわたって受けられた音が部屋110からの歪みおよびノイズを含むので、これとネットワーク170経由で受信されるサウンド入力とは、同じではないということに留意すべきである。ユーザデバイス120は、そのような信号の振幅および位相を近似するために、テレビ160からの信号を運ぶネットワーク170の、ラウンドトリップタイム(RTT)と、WiFi信号の到来角(AoA)または出発角(AoD)とを測定してもよいということが理解されるべきである。いくつかの場合、そのような位相は、テレビ160からの音における人の音声をユーザ112のスピーチから区別するために必要とされ得る。その方法では、人のスピーチは、より高精度に検出され得、このためテレビ160等に送信するために、スピーチからコマンドを上述のように生成すること向上させる。
412において、ユーザデバイス120は、部屋内の空気をわたって受けられた音におけるノイズを、周波数応答を使用して、組み合わされたサウンド入力からフィルタリングし、そうすることによって、スペクトログラムからスピーチに対応する周波数を選択する。1つの実装では、ユーザデバイス120は、スペクトログラムの各々ウィンドウから周波数応答フィルタされる周波数を差し引く。
414において、ユーザデバイス120は、スペクトログラムのうちの選択された周波数からコマンドを生成する。
416において、ユーザデバイス120は、テレビ160にネットワーク170を経由してコマンドを送信する。
上記のプロセス400は、ユーザ112がコマンドを話している間に、テレビ160がスピーカ166を介して音を作成するということを仮定する。簡易化されるプロセスは、リモートコントロールがアクティブ状態にある間に、消音コマンドをテレビ160に送信することを伴うだろう。別の実施では、プロセスは、消音コマンドよりもむしろ音量低下コマンドを送信することを伴ってもよい。そのような音量低下コマンドは、よりスムーズなユーザエクスペリエンスを提供し得る。
代替的に、ユーザデバイス120がスマートフォン、タブレットコンピュータ、またはその他の軽量デバイスであるとき、リモートコントロール130は、ユーザデバイス120の運動を介して動作されてもよい。そのような場合では、ユーザデバイス120は、そのような運動を測定する加速度計を有してもよい。そしてユーザデバイス120は、そのような運動を、リモートコントロール130がテレビ160に送信するコマンドにマップしてもよい。
図5は、リモートコントロール130内のジェスチャに基づくコマンドを使用するプロセス500を示すフローチャートである。プロセス500は、図3に関連して説明されるユーザデバイス120のメモリ126内に存在するソフトウェア構成によって行われてもよく、プロセッシングユニット124のセットによって動作される。さらに、プロセス500は、リモートコントロール130がアクティブ状態にある間に起こる。ユーザデバイス120内のリモートコントロールをアクティブ化することおよび非アクティブ化することは、上述のように、たとえば、図2内で図示される方法に従い起こってもよい。
502において、ユーザデバイス120は、リモートコントロール130がアクティブ状態にある間に、ユーザデバイス120のモーションを検出する。たとえば1つの実装では、ユーザ112は、ユーザデバイス112を上方向に動かし、これによりテレビ160の音量が大きくされる。
504において、ユーザデバイス120は、パーサ/分類器148を介してコマンドを作成するために、検出されるモーションを分類する。上記の例を続けると、ユーザデバイス120の上向モーションは、コマンド分類器148を介してINCREMENT VOLUME(音量を大きくする)コマンドとして分類される。
506において、ユーザデバイス120は、コマンドをテレビ160にネットワーク170を介して送信する。
図6は、ここで説明される技術とともに使用され得る、汎用コンピュータデバイス600および汎用モバイルコンピュータデバイス650の例を図示する。
図6に示されるように、コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータといった、さまざまな形態のデジタルコンピュータを表すことを意図される。コンピューティングデバイス650は、パーソナルデジタルアシスタント、セルラーフォン、スマートフォン、およびその他の同様のコンピューティングデバイスといったさまざまな形態のモバイルデバイスを表すことを意図される。ここで示されるコンポーネントと、それらの接続および関係と、それらの機能とは、例示的なものにすぎず、本文において記載されおよび/または特許請求される本発明の実施形態を限定するものではない。
コンピューティングデバイス600は、プロセッサ602と、メモリ604と、ストレージデバイス606と、メモリ604および高速拡張ポート610に接続される高速インターフェイス608と、低速インターフェイス612およびストレージデバイス606に接続される低速バス614とを含む。コンポーネント602、604、606、608、610、および612の各々は、さまざまなバスを使用して相互接続され、共通のマザーボード上にまたは適宜他の方法において取り付けられ得る。プロセッサ602は、メモリ604内またはストレージデバイス606上に記憶される命令を含む、コンピューティングデバイス600内での実行のための命令を処理して、高速インターフェイス608に結合されるディスプレイ616などの外部入力/出力デバイス上のGUI用のグラフィック情報を表示することができる。その他の実装では、複数のプロセッサおよび/または複数のバスを複数のメモリおよび複数の種類のメモリとともに適宜用い得る。また、複数のコンピューティングデバイス600が接続されるとともに、(たとえば、サーババンク、ブレードサーバの群、またはマルチプロセッサシステムとして)各々のデバイスは、必要な動作の一部を提供し得る。
メモリ604は、コンピューティングデバイス600内に情報を記憶する。1つの実装では、メモリ604は、1つまたは複数の揮発性メモリユニットである。別の実装では、メモリ604は、1つまたは複数の不揮発性メモリユニットである。メモリ604は、磁気ディスクまたは光ディスクなどの別の形態のコンピュータ可読媒体でもあり得る。
ストレージデバイス606は、コンピューティングデバイス600のためのマスストレージを提供する機能性を有する。1つの実装では、ストレージデバイス606は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光ディスクデバイスもしくはテープデバイスなどのコンピュータ可読媒体、フラッシュメモリもしくは他の同様の固体メモリデバイス、またはストレージエリアネットワークもしくは他のコンフィグレーション内のデバイスを含むデバイスのアレイであり得、またはそれを包含し得る。コンピュータプログラム製品は、情報担体中に有形に具現化されることができる。コンピュータプログラム製品は、実行されると、上述のものなどの1つ以上の方法を実行する命令も包含し得る。情報担体は、メモリ604、ストレージデバイス606、またはプロセッサ602上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
高速コントローラ608は、コンピューティングデバイス500の帯域消費型動作を管理する一方で、低速コントローラ612は、比較的帯域消費型ではない動作を管理する。そのような機能の割当ては例示にすぎない。1つの実装では、高速コントローラ608は、(たとえば、グラフィックプロセッサまたはアクセラレータを介して)メモリ604、ディスプレイ616に、およびさまざまな拡張カード(図示せず)を受け付け得る高速拡張ポート610に結合される。その実装では、低速コントローラ612は、ストレージデバイス506および低速拡張ポート614に結合される。さまざまな通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット(登録商標)、ワイヤレスイーサネット(登録商標))を含み得る低速拡張ポートは、たとえばキーボード、ポインティングデバイス、スキャナなどの1つ以上の入/出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、たとえばネットワークアダプタを通して結合され得る。
図に示されるように、コンピューティングデバイス600は、多数の異なる形態で実装され得る。たとえば、それは、標準的なサーバ620として、またはそのようなサーバグループ内で複数回実装され得る。それは、ラックサーバシステム624の一部としても実装され得る。加えて、それは、ラップトップコンピュータ622などのパーソナルコンピュータ内に実装され得る。代替的に、コンピューティングデバイス600からのコンポーネントは、デバイス650といったモバイルデバイス(図示せず)内の他のコンポーネントと組合せられ得る。そのようなデバイスの各々は、1つまたは複数のコンピューティングデバイス600、650を包含し得、システム全体は、互いに通信する複数のコンピューティングデバイス600、650からなり得る。
コンピューティングデバイス650は、コンポーネントのうちとりわけ、プロセッサ652、メモリ664、ディスプレイ654といった入/出力デバイス、通信インターフェイス666、およびトランシーバ668を含む。デバイス650は、追加的なストレージを設けるために、マイクロドライブまたはその他のデバイスといったストレージデバイスを設けられ得る。コンポーネント650、652、664、654、666、および668の各々は、さまざまなバスを用いて相互接続され、コンポーネントのうちいくつかは、共通のマザーボード上にまたは適宜他の態様で実装され得る。
プロセッサ652は、コンピューティングデバイス650内で命令を実行することができ、当該命令は、メモリ664内に格納される命令を含む。プロセッサは、別個のおよび複数のアナログプロセッサおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサは、たとえば、ユーザインターフェイスの制御、デバイス650によって実行されるアプリケーション、デバイス650による無線通信などの、デバイス650のその他のコンポーネントの協調を提供し得る。
プロセッサ652は、ディスプレイ654に結合されるコントロールインターフェイス658とディスプレイインターフェイス656とを通して、ユーザとコミュニケーションし得る。ディスプレイ654は、たとえば、TFT LCD(薄膜トランジスタ液晶ディスプレイ)またはOLED(有機発光ダイオード)ディスプレイまたはその他の適切なディスプレイ技術であり得る。ディスプレイインターフェイス656は、グラフィックおよびその他の情報をユーザに提示するために、ディスプレイ654を駆動するための適切な回路構成を備え得る。コントロールインターフェイス658は、ユーザからのコマンドを受け、それらを変換してプロセッサ652に送り得る。加えて、プロセッサ652と通信するための外部インターフェイス662が設けられ得、これにより、デバイス650によるその他のデバイスとの近距離通信を可能にする。外部インターフェイス662は、たとえば、いくつかの実装では有線通信を、または他の実装では無線通信を提供し得、複数のインターフェイスもまた用いられ得る。
メモリ664は、コンピューティングデバイス650内に情報を格納する。メモリ664は、1つまたは複数のコンピュータ可読媒体、1つまたは複数の揮発性メモリユニット、または1つまたは複数の不揮発性メモリユニットとして実装可能である。また、拡張メモリ674が設けられ、拡張インターフェイス672を通してデバイス650に接続され得る。これは、たとえば、SIMM(シングルインラインメモリモジュール)カードインターフェイスを含み得る。そのような拡張メモリ674は、デバイス650のための追加のストレージ容量を設け得、またはデバイス650のためのアプリケーションもしくはその他の情報も格納し得る。具体的には、拡張メモリ674は、上述のプロセスを実行するまたは補足する命令を含み得、セキュリティ情報も含み得る。このため、たとえば、拡張メモリ674は、デバイス650のためのセキュリティモジュールとして設けられ得、デバイス650のセキュアな使用を許可する命令を有してプログラミングされ得る。加えて、たとえばSIMMカード上にハッキングされない態様で識別情報を配置するなど、付加的な情報を加えたSIMMカードを介してセキュアな使用が提供され得る。
メモリは、たとえば、以下に論じるようにフラッシュメモリおよび/またはNVRAMメモリを含み得る。1つの実装では、コンピュータプログラム製品は、情報担体の中に有形に具現化される。コンピュータプログラム製品は、実行されると、上述のものといった1つまたは複数の方法を行なう命令を含む。情報担体は、メモリ664、拡張メモリ674、プロセッサ652上のメモリなどのコンピュータまたは機械可読媒体であり、それは、たとえばトランシーバ668もしくは外部インターフェイス662上で受信され得る。
デバイス650は、必要な場合、デジタル信号処理回路を含み得る通信インターフェイス666を介して無線で通信し得る。通信インターフェイス666は、とりわけ、GSM(登録商標)音声通話、SMS、EMSもしくはMMSメッセージング、CDMA、TDMA、PDC、WCDMA(登録商標)、CDMA2000、またはGPRSなどのさまざまなモードまたはプロトコル下での通信を提供し得る。そのような通信は、たとえば無線周波数トランシーバ668を通して行なわれ得る。加えて、ブルートゥース(登録商標)、WiFi(登録商標)、またはそのような他のトランシーバ(図示せず)を用いるなどする短距離通信が行なわれ得る。さらに、GPS(全地球測位システム)レシーバモジュール670は、追加的なナビゲーションおよび位置に関する無線データをデバイス650に提供し得、このデータは、デバイス650上で実行されるアプリケーションによって適宜用いられ得る。
デバイス650はまた、音声コーデック660を用いて聴覚を通じてコミュニケーションし得、これは、ユーザが話した情報を受け、それを使用可能なデジタル情報に変換し得る。音声コーデック660は同様に、スピーカを通してなど、たとえばデバイス650のハンドセットにおいて、ユーザに対して可聴音を生成し得る。そのような音は、音声電話からの音を含み得、記録される音(たとえば、音声メッセージ、音楽ファイルなど)を含み得、デバイス650上で動作するアプリケーションによって生成される音も含み得る。
コンピューティングデバイス650は、図に示されるように、いくつかの異なる形態で実装され得る。たとえば、それは、セルラーフォン680として実装され得る。それはまた、スマートフォン682、パーソナルデジタルアシスタント、またはその他の同様のモバイルデバイスの一部として実装され得る。
ここに記載されるシステムおよび技術のさまざまな実装は、デジタル電子回路、集積回路、特別に設計されるASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはその組合せにおいて実現されることができる。これらのさまざまな実装は、特殊用途または汎用であり、ストレージシステムからおよびストレージシステムへとデータおよび命令を送受信するように結合され得る少なくとも1つのプログラマブルプロセッサ、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを含むプログラマブルシステム上で実行可能なおよび/または解釈可能な1つまたは複数のコンピュータプログラム内の実装を含むことができる。
(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても既知の)これらのコンピュータプログラムは、プログラマブルプロセッサのための機械命令を含み、高レベル手続き型言語および/もしくはオブジェクト指向プログラミング言語ならびに/またはアセンブリ/機械言語において実装可能である。本明細書中で用いられるように、「機械可読媒体」「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに与えるために用いられる任意のコンピュータプログラム製品、機器および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに与えるために用いられる任意の信号を指す。
ユーザとの対話を提供するために、ここに記載されるシステムおよび技術は、情報をユーザに表示するためのディスプレイデバイス(たとえば、CRT(陰極管)もしくはLCD(液晶ディスプレイ)モニタ)、それによってユーザが入力をコンピュータに与えることができるキーボードおよびポインティングデバイス(たとえば、マウスもしくはトラックボール)を有するコンピュータ上で実装されることができる。その他の種類のデバイスを用いてユーザとの対話を提供することもできる。たとえば、ユーザに与えられるフィードバックは、任意の形態の感覚的フィードバック(たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であることができ、ユーザからの入力は、音響、スピーチ、または触覚入力を含む任意の形態で受けられることができる。
ここに記載されるシステムおよび技術は、(たとえば、データサーバのような)バックエンドコンポーネントを含むか、ミドルウェアコンポーネント(たとえば、アプリケーションサーバ)を含むか、フロントエンドコンポーネント(たとえば、それを通してユーザがここに記載されるシステムおよび技術の実装と対話することができるグラフィックユーザインターフェイスもしくはウェブブラウザを有するクライアントコンピュータ)を含むか、そのようなバックエンド、ミドルウェア、フロントエンドコンポーネントの任意の組合せを含む、コンピューティングシステム内で実装されることができる。システムのコンポーネントは、デジタルデータ通信(たとえば、通信ネットワーク)の任意の形態または媒体によって相互接続されることができる。通信ネットワークの例は、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)、およびインターネットを含む。
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントとサーバとは、一般的に互いからリモートにあり、典型的には通信ネットワークを通してインタラクションする。クライアントとサーバとの関係は、それぞれのコンピュータで実行され互いに対してクライアント−サーバ関係を有するコンピュータプログラムによって発生する。
いくつかの実施形態が説明される。しかし、本明細書の精神および範囲から逸脱することなく、さまざまな変形がなされ得ることが理解されるだろう。
ある要素が別の要素の上にあるか、接続されるか、電気的に接続されるか、結合されるか、電気的に結合されると言及される場合は、それは、その別の要素の直接上にあるか、直接接続されるか、直接結合されてもよく、または、1つまたは複数の介在要素が存在してもよい。対照的に、ある要素が別の要素の直接上にあるか、直接接続されるか、直接結合されると言及されるとき、介在要素は存在しない。直接上に、直接接続され、または直接結合される、という用語は詳細な説明を通して使用されないかもしれないが、直接上に、直接接続され、または直接結合されるように示される要素は、そのように言及され得る。本願の特許請求の範囲は、本明細書に記載されるか図に示される例示的な関係を記載するように補正され得る。
説明される実施形態のある特徴がここに説明されるように例示されてきたが、当業者にとって、多くの変形、代替、変更および均等物が想起され得るであろう。したがって、添付される特許請求の範囲は、実施形態の範囲に含まれるすべてのそのような変形および変更を包含するように意図されることが理解されるべきである。それらは限定しない一例としてのみ提示されており、形態および詳細においてさまざまな変更がなされ得ることが理解されるべきである。本明細書に記載の装置および/または方法の任意の部分は、相互排他的な組み合わせを除いて、任意の組み合わせにおいて組み合わされ得る。本明細書で説明される実装形態は、説明されるさまざまな実装形態の機能、構成要素、および/または特徴のさまざまなコンビネーションおよび/またはサブコンビネーションを含み得る。
加えて、図に示される論理フローは、望ましい結果を達成するために、示される特定の順序または順番を必須としない。さらに、説明されるフローにさらに他のステップが提供されてもよく、またはそれからいくつかのステップが削除されてもよく、説明されるシステムにさらに他のコンポーネントが追加されてもよく、またはそこからいくつかのコンポーネントが除去されてもよい。したがって、さらに他の実施形態は、添付の特許請求の範囲内である。

Claims (20)

  1. 非推移的記憶媒体を備えるコンピュータプログラム製品であって、前記コンピュータプログラム製品は、処理回路によって実行されると前記処理回路に方法を行わせるコードを含み、前記方法は、
    前記処理回路を含む第1の電子デバイスのカメラからビデオストリームを受信することを備え、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられ、前記第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成され、前記方法はさらに、
    前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出することと、
    前記ジェスチャを検出したことに応答して、前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティブ化することとを備え、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成される、コンピュータプログラム製品。
  2. 前記方法はさらに、
    前記リモートコントロールが前記アクティブ状態にあるときに、前記ビデオストリームの別のフレームのセットにわたって、前記ユーザによって行われた第2のジェスチャを検出することと、
    前記第2のジェスチャを検出したことに応答して、前記リモートコントロールを前記非アクティブ状態に遷移させるように、前記リモートコントロールを非アクティブ化することとを備える、請求項1に記載のコンピュータプログラム製品。
  3. 前記第1の電子デバイスはマイクロフォンをさらに含み、前記マイクロフォンは、前記マイクロフォン上に入射する音波を、前記第1の電子デバイスのメモリ内に記憶される音データへと変換するように構成され、
    前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
    前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することと、
    前記音データを、リモートコントロールデータに変換することとを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記リモートコントロールデータは、前記第2の電子デバイスによって作成された前記知覚出力に対して前記変化を前記第2の電子デバイスにトリガさせ、前記方法はさらに、
    前記リモートコントロールデータを前記第2の電子デバイスに送信することを備える、請求項1に記載のコンピュータプログラム製品。
  4. 前記第2の電子デバイスによって作成された前記知覚出力は、発声音を含み、
    前記音データを、前記第2の電子デバイスの前記知覚出力を前記変化させるための前記予め定められたコマンドとして識別することは、フィルタ演算を行うことを含み、前記フィルタ演算は、前記発声音を前記マイクロフォン上に前記入射する音波からフィルタリングするように構成される、請求項3に記載のコンピュータプログラム製品。
  5. 前記フィルタ演算を行うことは、
    前記リモートコントロールが前記アクティブ状態に遷移したことに応答して、前記第2の電子デバイスに音量低下コマンドを送信することを含み、前記音量低下コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より小さい振幅において前記発声音を作成させ、
    前記方法は、前記リモートコントロールが前記非アクティブ状態に遷移したことに応答して、音量増大コマンドを前記第2の電子デバイスに送信することをさらに備え、前記音量増大コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より大きい振幅において前記発声音を作成させる、請求項4に記載のコンピュータプログラム製品。
  6. 前記方法はさらに、前記第2の電子デバイスによって作成された前記発声音の周波数のセットを取得することを備え、
    前記フィルタ演算を行うことは、
    前記マイクロフォンへ入力された前記音データの周波数のセットを取得することと、
    前記第2の電子デバイスによって作成された前記発声音の前記周波数のセットのうちのいくつかの前記周波数を、前記音データの前記周波数のセットから抑圧し、フィルタされた周波数のセットを形成することと、
    前記フィルタされた周波数のセットから、リモートコントロールデータが作成されるフィルタされた音データを形成することとを含む、請求項4に記載のコンピュータプログラム製品。
  7. 前記マイクロフォンへ入力された前記音データの前記周波数のセットを取得することは、
    指定した時間の間入力された前記音データを記録し、音のタイムウィンドウを生成することと、
    前記音のタイムウィンドウから周波数のセットを取得し、周波数のタイムウィンドウを形成することと、
    前記リモートコントロールが前記アクティブ状態にあるときに、前記指定した時間の間、前記音データを記録することを繰り返し、周波数のセットを取得し、前記記録された音データのスペクトログラムを形成することとを含む、請求項6に記載のコンピュータプログラム製品。
  8. 前記マイクロフォンへ入力された前記音データの前記周波数のセットを取得することは、前記マイクロフォンへ入力された前記音データについてフーリエ変換演算を行うことを含む、請求項6に記載のコンピュータプログラム製品。
  9. 前記第2の電子デバイスによって作成された前記発声音の前記周波数のセットのうちのいくつかの前記周波数を抑圧することは、
    前記第1の電子デバイスと前記第2の電子デバイスとの間の距離を生成することと、
    前記第2の電子デバイスから前記発声音が伝播されたネットワーク信号の到来角(AOA)を生成することと、
    前記距離および前記AOAに基づき、前記第2の電子デバイスによって作成された前記発声音の前記周波数のセットのうちのいくつかの前記周波数の振幅および位相を作成することと、
    前記音データ入力の前記周波数のセットのうち、前記第2の電子デバイスによって作成された前記発声音の前記周波数のセットのうちのいくつかの前記周波数の前記振幅および位相に十分に近い振幅および位相を有する周波数のものを識別することとを含む、請求項6に記載のコンピュータプログラム製品。
  10. 前記フィルタ演算はさらに、前記第1の電子デバイスおよび前記第2の電子デバイスが配置される部屋によって作成される、前記マイクロフォン上に前記入射する音波からの音響ノイズをフィルタリングするように構成される、請求項3に記載のコンピュータプログラム製品。
  11. 前記フィルタ演算を行うことは、ノイズ周波数閾値よりも低い周波数を、前記マイクロフォンへ入力された前記音データからフィルタリングすることを含む、請求項10に記載のコンピュータプログラム製品。
  12. 前記第1の電子デバイスは、前記第1の電子デバイスの運動を検出し記録するように構成されるモーション検出器をさらに含み、
    前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
    前記第1の電子デバイスの運動を予め定められたジェスチャとして識別することと、
    前記予め定められたジェスチャを前記第2の電子デバイスの前記知覚出力を変化させるためのそれぞれのコマンドにマッピングすることと、
    前記それぞれのコマンドを、リモートコントロールデータとして前記第2の電子デバイスに送信することとを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記第2の電子デバイスは、前記第2の電子デバイスによって作成された前記知覚出力に対して、前記それぞれのコマンドによって命令される変化をトリガさせる、請求項1に記載のコンピュータプログラム製品。
  13. 方法であって、
    第1の電子デバイスのカメラからビデオストリームを受信することを備え、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられ、前記第1の電子デバイスは、第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成され、前記方法はさらに、
    前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出することと、
    前記ジェスチャを検出したことに応答して、前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティブ化することとを備え、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成される、方法。
  14. 前記リモートコントロールが前記アクティブ状態にあるときに、前記ビデオストリームの別のフレームのセットにわたって、前記ユーザによって行われた第2のジェスチャを検出することと、
    前記第2のジェスチャを検出したことに応答して、前記リモートコントロールを前記非アクティブ状態に遷移させるように、前記リモートコントロールを非アクティブ化することとをさらに備える、請求項13に記載の方法。
  15. 前記第1の電子デバイスは、マイクロフォンをさらに含み、前記マイクロフォンは、前記マイクロフォン上に入射する音波を、前記第1の電子デバイスのメモリ内に記憶される音データへと変換するように構成され、
    前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
    前記音データを、前記第2の電子デバイスの前記知覚出力を変化させるための予め定められたコマンドとして識別することと、
    前記音データをリモートコントロールデータに変換することとを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記リモートコントロールデータは、前記第2の電子デバイスによって作成された前記知覚出力に対する前記変化を前記第2の電子デバイスにトリガさせ、前記方法はさらに、
    前記リモートコントロールデータを前記第2の電子デバイスに送信することを備える、請求項13に記載の方法。
  16. 前記第2の電子デバイスによって作成された前記知覚出力は、発声音を含み、
    前記音データを、前記第2の電子デバイスの前記知覚出力を前記変化させるための前記予め定められたコマンドとして識別することは、フィルタ演算を行うことを含み、前記フィルタ演算は、前記発声音を前記マイクロフォン上に前記入射する音波からフィルタリングするように構成される、請求項15に記載の方法。
  17. 前記フィルタ演算を行うことは、
    前記リモートコントロールが前記アクティブ状態に遷移したことに応答して、前記第2の電子デバイスに音量低下コマンドを送信することを含み、前記音量低下コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスに、より小さい振幅において前記発声音を作成させ、
    前記方法は、前記リモートコントロールが前記非アクティブ状態に遷移したことに応答して、音量増大コマンドを前記第2の電子デバイスに送信することをさらに備え、前記音量増大コマンドは、前記第2の電子デバイスによって受信されると、前記第2の電子デバイスにより大きい振幅において前記発声音を作成させる、請求項16に記載の方法。
  18. 前記第2の電子デバイスによって作成された前記発声音の周波数のセットを取得することをさらに備え、
    前記フィルタ演算を行うことは、
    前記マイクロフォンへ入力される前記音データの周波数のセットを取得することと、
    前記音データの前記周波数のセットから、前記第2の電子デバイスによって作成された前記発声音の前記周波数のセットのうちのいくつかの前記周波数を抑圧し、フィルタされた周波数のセットを形成することと、
    前記フィルタされた周波数のセットから、リモートコントロールデータが作成されるフィルタされた音データを形成することとを含む、請求項16に記載の方法。
  19. 前記第1の電子デバイスは、前記第1の電子デバイスの運動を検出し記録するように構成されるモーション検出器をさらに含み、
    前記リモートコントロールが前記アクティブ状態にあることに応答して、前記方法はさらに、
    前記第1の電子デバイスの運動を、予め定められたジェスチャとして識別することと、
    前記予め定められたジェスチャを、前記第2の電子デバイスの前記知覚出力を変化させるためのそれぞれのコマンドにマッピングすることと、
    リモートコントロールデータとして、前記それぞれのコマンドを前記第2の電子デバイスに送信することとを備え、前記リモートコントロールデータが前記第2の電子デバイスによって受信されると、前記第2の電子デバイスは、前記第2の電子デバイスによって作成された前記知覚出力に対して、前記それぞれのコマンドによって命令される変化をトリガさせる、請求項13に記載の方法。
  20. システムであって、
    第1の電子デバイスおよび第2の電子デバイスを備え、前記第1の電子デバイスは、前記第2の電子デバイスから離れてその近傍にあり、前記第2の電子デバイスは、知覚出力を作成するように構成され、前記第1の電子デバイスは、ネットワークインターフェース、カメラ、メモリ、および前記メモリに結合される処理回路を含み、前記処理回路は、
    前記カメラからビデオストリームを受信するように構成され、前記カメラは、前記第1の電子デバイスのユーザの方向に向けられ、前記処理回路はさらに、
    前記ビデオストリームのフレームのセットにわたって、前記ユーザによって行われたジェスチャを検出し、
    前記ジェスチャを検出したことに応答して、前記第1の電子デバイス内のリモートコントロールを、前記リモートコントロールが非アクティブ状態からアクティブ状態に遷移するようにアクティブ化するように構成され、前記リモートコントロールが前記アクティブ状態にあるときに、前記リモートコントロールは、前記第2の電子デバイスによって作成された前記知覚出力に対して変化をトリガするように構成される、システム。
JP2019507755A 2016-08-16 2017-08-11 ジェスチャによりアクティブ化されるリモートコントロール Active JP6913745B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/238,364 US10506192B2 (en) 2016-08-16 2016-08-16 Gesture-activated remote control
US15/238,364 2016-08-16
PCT/US2017/046494 WO2018034980A1 (en) 2016-08-16 2017-08-11 Gesture-activated remote control

Publications (3)

Publication Number Publication Date
JP2019528526A true JP2019528526A (ja) 2019-10-10
JP2019528526A5 JP2019528526A5 (ja) 2020-03-19
JP6913745B2 JP6913745B2 (ja) 2021-08-04

Family

ID=59702856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019507755A Active JP6913745B2 (ja) 2016-08-16 2017-08-11 ジェスチャによりアクティブ化されるリモートコントロール

Country Status (7)

Country Link
US (1) US10506192B2 (ja)
EP (1) EP3482278B1 (ja)
JP (1) JP6913745B2 (ja)
KR (1) KR102258710B1 (ja)
CN (1) CN109564474B (ja)
DE (1) DE202017104587U1 (ja)
WO (1) WO2018034980A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204223A1 (de) * 2018-03-20 2019-09-26 Audi Ag Mobile, portable Bedienvorrichtung zum Bedienen eines mit der Bedienvorrichtung drahtlos gekoppelten Geräts, und Verfahren zum Betreiben eines Geräts mithilfe einer mobilen, portablen Bedienvorrichtung
CN112489413B (zh) * 2020-11-27 2022-01-11 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250233A (ja) * 2004-03-05 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007189536A (ja) * 2006-01-13 2007-07-26 Matsushita Electric Ind Co Ltd 音響エコーキャンセラ装置、音響エコーキャンセル方法及び通話装置
US20080107281A1 (en) * 2006-11-02 2008-05-08 Masahito Togami Acoustic echo canceller system
JP2008141718A (ja) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd 音響エコーキャンセラシステム
EP2019544A2 (en) * 2007-07-26 2009-01-28 Casio Hitachi Mobile Communications Co., Ltd. Noise suppression system, sound acquisition apparatus, sound output apparatus and computer-readable medium
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
EP2613313A1 (en) * 2012-01-09 2013-07-10 Samsung Electronics Co., Ltd Image display apparatus and method of controlling the same
CN103456299A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6501515B1 (en) * 1998-10-13 2002-12-31 Sony Corporation Remote control system
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
CA2539442C (en) 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
US11012732B2 (en) 2009-06-25 2021-05-18 DISH Technologies L.L.C. Voice enabled media presentation systems and methods
US8428368B2 (en) * 2009-07-31 2013-04-23 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
KR101373285B1 (ko) 2009-12-08 2014-03-11 한국전자통신연구원 제스쳐 인식 기능을 갖는 휴대 단말기 및 이를 이용한 인터페이스 시스템
KR20120051212A (ko) * 2010-11-12 2012-05-22 엘지전자 주식회사 멀티미디어 장치의 사용자 제스쳐 인식 방법 및 그에 따른 멀티미디어 장치
US20130035086A1 (en) * 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
CN102682589B (zh) * 2012-01-09 2015-03-25 西安智意能电子科技有限公司 一种用于对受控设备进行遥控的系统
CN103294177B (zh) * 2012-02-29 2016-01-06 株式会社理光 光标移动控制方法和系统
WO2013168171A1 (en) * 2012-05-10 2013-11-14 Umoove Services Ltd. Method for gesture-based operation control
CN202617260U (zh) 2012-05-31 2012-12-19 无锡商业职业技术学院 一种基于手势控制电视机的装置
CN102866777A (zh) * 2012-09-12 2013-01-09 中兴通讯股份有限公司 一种数字媒体内容播放转移的方法及播放设备及系统
US9417689B1 (en) * 2013-05-17 2016-08-16 Amazon Technologies, Inc. Robust device motion detection
WO2014190886A1 (zh) * 2013-05-27 2014-12-04 上海科斗电子科技有限公司 智能交互系统及其软件系统
US9357492B2 (en) 2013-08-05 2016-05-31 Qualcomm Incorporated WLAN-capable remote control device
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN105258011A (zh) * 2014-07-16 2016-01-20 东莞勤上光电股份有限公司 一种具有综合智能控制功能的led落地灯
US9849588B2 (en) * 2014-09-17 2017-12-26 Brain Corporation Apparatus and methods for remotely controlling robotic devices
CN104811792A (zh) 2015-03-20 2015-07-29 无锡华海天和信息科技有限公司 一种通过手机声控电视盒子的系统及方法
CN105096580A (zh) * 2015-08-18 2015-11-25 金德奎 一种可控制家用电器的手势控制智能开关
US10048936B2 (en) * 2015-08-31 2018-08-14 Roku, Inc. Audio command interface for a multimedia device

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250233A (ja) * 2004-03-05 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007189536A (ja) * 2006-01-13 2007-07-26 Matsushita Electric Ind Co Ltd 音響エコーキャンセラ装置、音響エコーキャンセル方法及び通話装置
US20080107281A1 (en) * 2006-11-02 2008-05-08 Masahito Togami Acoustic echo canceller system
JP2008141718A (ja) * 2006-11-02 2008-06-19 Hitachi Communication Technologies Ltd 音響エコーキャンセラシステム
JP2009020459A (ja) * 2007-07-13 2009-01-29 Yamaha Corp 音声処理装置およびプログラム
EP2019544A2 (en) * 2007-07-26 2009-01-28 Casio Hitachi Mobile Communications Co., Ltd. Noise suppression system, sound acquisition apparatus, sound output apparatus and computer-readable medium
JP2009033470A (ja) * 2007-07-26 2009-02-12 Casio Hitachi Mobile Communications Co Ltd 音声取得装置、音声出力装置、雑音除去システム、及び、プログラム
EP2613313A1 (en) * 2012-01-09 2013-07-10 Samsung Electronics Co., Ltd Image display apparatus and method of controlling the same
JP2013142903A (ja) * 2012-01-09 2013-07-22 Samsung Electronics Co Ltd 映像装置及びその制御方法
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
US20150331490A1 (en) * 2013-02-13 2015-11-19 Sony Corporation Voice recognition device, voice recognition method, and program
CN103456299A (zh) * 2013-08-01 2013-12-18 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures

Also Published As

Publication number Publication date
US20180054586A1 (en) 2018-02-22
CN109564474B (zh) 2023-02-17
DE202017104587U1 (de) 2018-03-08
US10506192B2 (en) 2019-12-10
KR20190039777A (ko) 2019-04-15
CN109564474A (zh) 2019-04-02
WO2018034980A1 (en) 2018-02-22
JP6913745B2 (ja) 2021-08-04
KR102258710B1 (ko) 2021-06-01
EP3482278A1 (en) 2019-05-15
EP3482278B1 (en) 2020-10-21

Similar Documents

Publication Publication Date Title
US9668048B2 (en) Contextual switching of microphones
US20210005216A1 (en) Multi-person speech separation method and apparatus
US20160162469A1 (en) Dynamic Local ASR Vocabulary
US10339913B2 (en) Context-based cancellation and amplification of acoustical signals in acoustical environments
EP2911149B1 (en) Determination of an operational directive based at least in part on a spatial audio property
KR102363872B1 (ko) 오디오 워터 마킹을 이용한 키 구문 검출
US9620116B2 (en) Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
JP2021086154A (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
JP5538415B2 (ja) 多感覚応用音声検出
WO2015130453A1 (en) Listen to people you recognize
KR102367660B1 (ko) 마이크로폰 어레이 스피치 향상 기법
WO2016094418A1 (en) Dynamic local asr vocabulary
US10861479B2 (en) Echo cancellation for keyword spotting
CN106165015B (zh) 用于促进基于加水印的回声管理的装置和方法
US20190302916A1 (en) Near ultrasound based proximity sensing for mobile devices
JP6913745B2 (ja) ジェスチャによりアクティブ化されるリモートコントロール
KR102623998B1 (ko) 음성인식을 위한 전자장치 및 그 제어 방법
JP6670014B2 (ja) モバイルデバイスにおける非線形エコーキャンセルのための二方式振幅処理フレームワーク
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
US20180277134A1 (en) Key Click Suppression
US20210110838A1 (en) Acoustic aware voice user interface
US20150249884A1 (en) Post-processed reference path for acoustic echo cancellation
US20230298612A1 (en) Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R150 Certificate of patent or registration of utility model

Ref document number: 6913745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150