CN109564474A - 手势激活的远程控制 - Google Patents

手势激活的远程控制 Download PDF

Info

Publication number
CN109564474A
CN109564474A CN201780050202.9A CN201780050202A CN109564474A CN 109564474 A CN109564474 A CN 109564474A CN 201780050202 A CN201780050202 A CN 201780050202A CN 109564474 A CN109564474 A CN 109564474A
Authority
CN
China
Prior art keywords
electronic equipment
long
sound
range control
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780050202.9A
Other languages
English (en)
Other versions
CN109564474B (zh
Inventor
梁健威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN109564474A publication Critical patent/CN109564474A/zh
Application granted granted Critical
Publication of CN109564474B publication Critical patent/CN109564474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/4104Peripherals receiving signals from specially adapted client devices
    • H04N21/4126The peripheral being portable, e.g. PDAs or mobile phones
    • H04N21/41265The peripheral being portable, e.g. PDAs or mobile phones having a remote control device for bidirectional communication between the remote control device and client device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/4222Remote control device emulator integrated into a non-television apparatus, e.g. a PDA, media center or smart toy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details
    • H04N21/42222Additional components integrated in the remote control device, e.g. timer, speaker, sensors for detecting position, direction or movement of the remote control, microphone or battery charging device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0384Wireless input, i.e. hardware and software details of wireless interface arrangements for pointing devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Selective Calling Equipment (AREA)

Abstract

提供了一种用于电视的基于手势的控制,其在远离电视的计算设备的后台中运行,其中控制通过手势来激活。有利地,用户不必为了控制电视而中断任何任务。基于手势的控制可被配置成激活语音控制,该语音控制甚至在存在噪声和从电视发出的竞争语音的情况下也将稳健地运行。

Description

手势激活的远程控制
相关申请的交叉引用
本申请要求于2016年8月16日提交的标题为“GESTURE-ACTIVATED REMOTECONTROL”的美国专利申请No.15/238,364的优先权,并且是其继续申请,其公开内容通过引用整体地并入在本文中。
技术领域
本说明书涉及远程控制。
背景技术
人们通常利用附近的遥控器控制电视的各个方面(例如,频道、音量、显示的设备等)来看电视。一些遥控器被嵌入在诸如膝上型计算机或平板计算机的电子设备中。此类遥控器可以作为在这些电子设备上运行的软件被实现,该电子设备允许用户经由标准输入(例如,键盘和鼠标/触控板)控制电视。
发明内容
在一个一般方面中,一种方法可包括从第一电子设备的相机接收视频流,相机指向第一电子设备的用户的方向,第一电子设备被定位为与第二电子设备分离并在第二电子设备附近,第二电子设备被配置成产生感觉输出。该方法还可包括在视频流的帧集合中检测由用户做出的手势。该方法还可以包括,响应于检测到手势,激活第一电子设备内的远程控制以使该远程控制从不活动状态转变到活动状态,该远程控制被配置成在该远程控制处于活动状态的同时触发对由第二电子设备产生的感觉输出的改变。
在下面的附图和描述中阐述一个或多个实施方式的细节。其他特征将从说明书和附图中并从权利要求书中显而易见。
附图说明
图1是图示可以实现基于手势的远程控制的示例电子环境的图。
图2是图示实现图1中所示的基于手势的远程控制的示例方法的流程图。
图3是图示图1中所示的示例远程控制的图。
图4是图示在图1中所示的远程控制中使用基于语音的命令的示例过程的流程图。
图5是图示在图1中所示的远程控制中使用基于手势的命令的示例过程的流程图。
图6图示可与这里描述的电路一起使用的计算机设备和移动计算机设备的示例。
具体实施方式
在许多情形下,用户在观看电视的同时进行多任务处理并执行某个其他任务。在那种情况下,用户将必须中断其他任务以便访问远程控制软件。
依照本文中描述的实施方式,提供了一种用于电视的基于手势的控制,其在远离电视的计算设备的后台中运行,其中控制通过手势来激活。有利地,用户不必为了控制电视而中断任何任务。基于手势的控制可被配置成激活语音控制,其甚至在存在噪声和从电视发出的竞争语音——即,发声声音——的情况下也将稳健地运行。
图1是图示可以实现上述基于手势的远程控制的示例电子环境100的图。如所示,在图1中,电子环境100包括房间110、用户设备120、电视160、和网络170。
房间110可以是包含墙壁114的至少一部分或声波可以反射离开的某些其他障碍物的任何房间。房间110包含用户设备120和电视160两者。然而,在一些实施方式中,房间110可以不具有墙壁并且可以被更好地描述为开放区域。
用户设备120被配置成通过网络170控制电视160,同时还运行用于由用户112使用的任何数目的应用。在一些实施方式中,用户设备120可以是膝上型计算机,但是也可以是台式计算机、平板计算机、智能电话等。用户设备120还被配置成在后台中运行通过由用户112做出的一个或多个手势激活的远程控制应用。
用户设备120包括网络接口122、一个或多个处理单元124、存储器126、相机132、和麦克风134。如图1中所图示的,存储器126被配置成存储各种数据,包括手势分类器140、激活状态142、记录的帧144、预定义命令146、命令分类器148、和记录的命令150。
远程控制130被配置成触发对由电视160产生的感觉输出的改变。例如,由远程控制130产生改变的感觉输出可包括将电视160通电或断电、增加或减小由电视160输出的声音的音量、改变由电视160输出的电台广播内容等。远程控制130还被配置成当远程控制130处于活动状态时触发此类改变而在不活动状态下不触发改变。
远程控制130通过由用户112做出的手势来在活动状态与不活动状态之间切换。例如,假定远程控制130是语音控制的。然后,用户112可做出的手势将采取朝向用户112的嘴移动的拳头的形式(即,以模拟用户112说话的麦克风)。
手势分类器140被配置成将记录帧144分类为触发手势或非触发手势。可以使用机器学习过程来配置手势分类器140。
激活状态142是指示远程控制130是处于活动(“ACTIVE”)还是不活动(“INACTIVE”)状态的二进制值。
记录的帧144是由相机132记录的包含用户112的图像的一组帧。这些帧通常是例如在等于10秒的时间窗期间记录的最近帧。这些帧然后被手势分类器140分类为包含触摸手势或者不包含触发手势。当用户设备120认为存在触发手势时,用户设备120将激活状态142设置为ACTIVE。当用户设备120认为不存在触发手势时,用户设备120将激活状态142设置为INACTIVE。因此,在实施方式中,如果用户112从他的或她的嘴移开他的或她的拳头,则用户设备将激活状态设置为INACTIVE。
预定义命令146被配置成提供触发电视160的输出的改变的命令的定义。预定义命令的示例包括“通电”、“断电”、“增加音量”、“减小音量”、“增加电台号”和“减小电台号”。此类命令146被配置成以可以由电视处理(例如,可辨识)的形式通过网络170发送到电视。
命令分类器148被配置成将来自用户112的通信分类成预定义命令。例如,当远程控制130为语音操作时,则用户输入可以采取记录语音或该语音的频谱的形式。在那种情况下,可以将每个语音命令解析或者分类成特定命令。通过这样做,命令分类器148可以将语音命令“更大声”分类为命令增加音量(INCREMENT VOLUME)等。
记录的命令150表示最近用户提供的命令。在以上示例中,这些命令150可以采取记录的语音或其频谱的形式。
相机132被配置成记录由用户112做出的手势。麦克风134被配置成当远程控制130使用语音命令时记录由用户112做出的语音命令。
电视160被配置成从任何数目的频道(例如,电台)中的一个向用户112提供视频和音频输出。电视160包括网络接口162(其可以类似于网络接口122)、命令解释器164、和扬声器166。
命令解释器164被配置成接受经由网络接口162接收到的命令并且处理它们以在电视160上产生物理效果。例如,当通过网络接口162接收到命令增加音量时,命令解释器164将电视的音量增加固定量,例如固定分贝量。
扬声器166被配置成在空中通过房间114为用户112发送由电视160产生的音频。扬声器166具有对电输入的已知响应,其产生声音的特征频谱。另外,扬声器166距用户设备120一些(未知)距离。
网络170被配置和布置成在用户设备120与电视160之间提供网络连接。网络170可以实现通常用于通过因特网或其他网络进行通信的各种协议和拓扑中的任一种。另外,网络170可以包括在此类通信中使用的各种组件(例如,电缆、交换机/路由器、网关/桥接器等)。
网络接口122包括例如以太网适配器、令牌环网适配器等,用于将从网络170接收到的电子和/或光学信号转换成电子形式以供由用户设备120使用。处理单元组124包括一个或多个处理芯片和/或组装件。存储器126包括易失性存储器(例如,RAM)和非易失性存储器两者,诸如一个或多个ROM、磁盘驱动器、固态驱动器等。处理单元组124和存储器126一起形成控制电路,其被配置和布置成执行如本文中所描述的各种方法和功能。
用户设备120的组件(例如,模块、处理单元124)可被配置成基于可包括一种或多种类型的硬件、软件、固件、操作系统、运行时库和/或此类物的一个或多个平台(例如,一个或多个类似或不同的平台)操作。在一些实施方式中,用户设备120的组件可被配置成在设备的集群(例如,服务器场)内操作。在这种实施方式中,可将用户设备120的组件的功能性和处理分发到设备的集群的若干设备。
用户设备120的组件可以是或者可包括被配置成处理属性的任何类型的硬件和/或软件。在一些实施方式中,在图1中的用户设备120的组件中示出的组件的一个或多个部分可以是或者可包括基于硬件的模块(例如,数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器)、固件模块、和/或基于软件的模块(例如,计算机代码的模块、可在计算机处执行的一组计算机可读指令)。例如,在一些实施方式中,用户设备120的组件的一个或多个部分可以是或者可包括被配置用于由至少一个处理器(未示出)执行的软件模块。在一些实施方式中,组件的功能性可被包括在与图1中所示的那些不同的模块和/或不同的组件中。
尽管未示出,然而在一些实施方式中,用户设备120的组件(或其部分)可被配置成在例如数据中心(例如,云计算环境)、计算机系统、一个或多个服务器/主机设备、和/或类似物中运行。在一些实施方式中,用户设备120的组件(或其部分)可被配置成在网络内操作。因此,用户设备120的组件(或其部分)可被配置成在可包括一个或多个设备和/或一个或多个服务器设备的各种类型的网络环境中起作用。例如,网络可以是或者可包括局域网(LAN)、广域网(WAN)、和/或类似物。网络可以是或者可包括使用例如网关设备、桥接器、交换机、和/或类似物实现的无线网络和/或无线网络。网络可包括一个或多个网段并且/或者可具有基于诸如网际协议(IP)和/或专有协议的各种协议的部分。
在一些实施例中,用户设备120的组件中的一个或多个可以是或者可包括被配置成处理存储在存储器中的指令的处理器。例如,远程控制130(和/或其一部分)可以是被配置成执行与实现一个或多个功能的过程有关的指令的处理器和存储器的组合。
在一些实施方式中,存储器126可以是任何类型的存储器,诸如随机存取存储器、磁盘驱动器存储器、闪速存储器、和/或类似物。在一些实施方式中,存储器126可作为与用户设备120的组件相关联的多于一个存储器组件(例如,多于一个RAM组件或磁盘驱动器存储器)被实现。在一些实施方式中,存储器126可以是数据库存储器。在一些实施方式中,存储器126可以是或者可包括非本地存储器。例如,存储器126可以是或者可包括由多个设备(未示出)共享的存储器。在一些实施方式中,存储器126可与在网络内并且被配置成为用户设备120的组件服务的服务器设备(未示出)相关联。
图2是图示实现图1中所示的基于手势的远程控制的方法200的流程图。方法200可以由连同图1一起描述的软件构造来执行,该软件构造驻留在用户设备120的存储器126中并且由处理单元组124运行。
在202,第一电子设备从第一电子设备的相机接收视频流,相机指向(例如,定向至)第一电子设备的用户的方向,第一电子设备被定位为与第二电子设备分离并在第二电子设备附近,第二电子设备被配置成产生感觉输出。例如,用户设备120具有相机132以记录由用户112做出的手势。相机132将这些手势的图像记录在由用户设备120接收到的视频流的帧中。
在204,第一电子设备在视频流的帧集合中检测由用户做出的手势。如果手势分类器140将手势分类为激活手势,则用户设备120确定用户做出了激活手势。
在206,响应于检测到手势,第一电子设备激活第一电子设备内的远程控制以使该远程控制从不活动状态转变到活动状态,远程控制被配置成在该远程控制处于活动状态的同时触发对由第二电子设备产生的感觉输出的改变。通过这样做,用户设备120在检测到手势(例如,用户将他的或她的拳头放置到他的或她的嘴处)时将激活状态120设置为ACTIVE。远程控制130然后准备好在用户发出语音命令时向电视发送命令。关于图3和图4讨论远程控制如何将语音命令转换为由电视160辨识的命令的细节。
图3是图示示例远程控制130的图。如图3中所示,远程控制130包括被配置成将麦克风134(图1)中记录的声音转换为由电视160辨识的命令的多个组件:声音提取管理器310、频率分析管理器320、过滤管理器330、和命令管理器340。
声音提取管理器310被配置成从麦克风134获取声音。应该注意的是,由声音提取管理器310如此获取的声音不一定是由用户112所说的纯语音。相反,声音也可以包括从电视160的扬声器166发出的所说的单词以及从房间110发出的噪声(例如,墙壁114的反射以及来自房间110中的加热、冷却和电气设备的低频噪声)。
因此,远程控制310被配置成隔离由用户112所说的语音,使得远程控制130可以将命令准确地发送到电视160。执行这种隔离的一种方式是执行所获取的声音的频率分析并且滤出已知不为用户112的语音的一部分的那些频率。
频率分析管理器320被配置成从由声音提取管理器310获取的声音生成频谱。此步骤可以在远程控制处于活动状态的同时发生。声音数据被记录达指定的时间量,从而获得一组频率。在一个实施方式中,频率分析管理器320被配置成通过执行所获取的声音的时间窗的连续傅里叶变换(例如,经由快速傅里叶变换)来生成频谱。例如,频率分析管理器320可以将记录声音的20秒段分成四个五秒段。在那种情况下,频率分析管理器320然后将对每个五秒段执行傅立叶变换以创建四个频谱。频率分析管理器320然后可以按时间顺序布置这四个频谱以创建将所获取的声音的频谱表示为时间的函数的频谱图。
应该注意的是,在其他实施方式中,频率分析管理器320可以被配置成使用除傅立叶变换以外的变换——例如,某些类型的小波变换——来生成频谱图。在一些情况下,此类小波变换与傅里叶变换相比可以提供频谱的更紧凑表示。
过滤管理器330被配置成抑制不是由用户112提供的任何语音的一部分的那些频率分量。通过这样做,过滤管理器330确定存在于房间中的频率而没有用户112的语音并且然后从由频率分析管理器320生成的频谱图中抑制那些频率。尽管关于图4提供了过滤管理器330如何确定此类频率的进一步细节,在这里提供一些细节。
电视160经由扬声器166输出来自与用户设备120分开的位置的声音。过滤管理器330然后可以通过确定经由电视160与用户设备120之间的直接连接发送的数据分组的往返时间(RTT)来确定电视160或扬声器166与用户设备120之间的距离。另外,过滤管理器330还可以确定到达角/离去角以确定扬声器相对于用户设备120的位置的坐标。根据这些坐标,过滤管理器330可以确定某些频率分量的相位。具有如通过扬声器166相对于用户设备120的放置所确定的这种相位的频率分量可以被抑制为已经由电视160而不是用户112生成。换句话说,声音数据输入的频率集的、具有与由第二电子设备产生的发声声音的频率集的频率的振幅和相位足够接近的振幅和相位的那些频率被识别。以这种方式,可改进由用户生成的声音和由扬声器166生成的声音的分离,使得甚至在存在由扬声器生成的实质声音的情况下,由用户生成的声音也可以被可靠地辨识为语音命令。
另外,过滤管理器330可以过滤出来自房间110(例如电气、冷却和加热系统)的低频嗡嗡声(例如,60Hz)。然而,必须小心,因为一些人类语音具有低于60Hz的频率。然而,在这种情况下,因为嗡嗡声随着时间的推移是大致恒定的,所以可以抑制频谱图中随着时间的推移恒定的低频尖峰。
命令管理器340被配置成将经过滤的频谱图解析成要由命令分类器148分类的命令或命令集。通过这样做,命令管理器340将频谱图分类为与特定命令相对应。在一些实施方式中,命令管理器340执行逆傅立叶变换以在执行映射之前恢复来自用户112的语音。
图4是图示在远程控制130中使用基于语音的命令的过程400的流程图。过程400可以通过连同图3一起描述的软件构造来执行,该软件构造驻留在用户设备120的存储器126中并且由处理单元组124运行。
在402,用户设备120生成房间110的频率响应。频率响应包括由电视160生成的声音的每个频率处的振幅和相位。在一个替代实施方式中,可以通过在通过网络建立连接时执行频率扫描(例如,啁啾)并且然后测量所接收到的信号来获得房间的频率响应。在另一替代实施方式中,当频率是在远程控制130处于不活动状态的同时由电视160产生的时对频率进行采样。在这种情况下,为了解决隐私问题,不需要连续记录:因为要提前产生的信号是已知的,所以用户设备120可以只有当未观察到的频率将被播放时才记录。
在404,用户设备120接收来自麦克风134的组合声音输入。再次,该声音输入包括与来自电视160的声音以及来自房间110的噪声组合的来自用户112的语音的声音。
在406,用户设备120从组合声音输入生成频谱图——连续时间窗口上的频谱。在一些实施方式中,频谱图是通过下述方式获得的:在远程控制处于ACTIVE状态的同时,重复对声音数据的记录达所指定的时间量并且获得一组频率。
在408,用户设备120通过网络170从电视160接收声音输入。注意的是,通过网络170接收到的声音输入与在房间110中通过空中接收到的声音不同,因为后者包括来自房间110的失真和噪声。应该领会的是,用户设备120可以测量用来传送来自电视160的信号的网络170的WiFi信号的往返时间(RTT)和到达角(AoA)或离去角(AoD)以便近似此类信号的振幅和相位。在一些情况下,可能需要这种相位来区分来自电视160的声音中的人类语音与用户112的人类语音。以那种方式,可更精确地检测人类语音,从而改进从语音生成命令,如先前所描述的,以用于例如传输到电视160。
在412,用户设备120使用频率响应来从组合声音输入中过滤在房间中通过空中接收到的声音中的噪声,并且在这样做时,从频谱图中选择与语音相对应的频率。在一个实施方式中,用户设备120从频谱图的每个窗中减去经频率响应过滤的频率。
在414,用户设备120从频谱图的所选频率生成命令。
在416,用户设备120通过网络170将命令发送到电视160。
上述过程400假定电视160在用户112说出命令的同时经由扬声器166产生声音。简化过程将涉及当远程控制处于ACTIVE状态时向电视160发送静音命令。在另一实施方式中,过程可以涉及发送音量调低命令而不是静音命令。这种音量调低命令可以提供更平滑的用户体验。
可替选地,当用户设备120是智能电话、平板计算机或其他轻量设备时,可以经由用户设备120的移动来操作远程控制130。在这种情况下,用户设备120可以具有测量此类移动的加速度计。用户设备120然后可以将此类移动映射到远程控制130将向电视160发送的命令。
图5是图示在远程控制130中使用基于手势的命令的过程500的流程图。过程500可以通过连同图3一起描述的软件构造来执行,该软件构造驻留在用户设备120的存储器126中并且由处理单元组124运行。此外,当远程控制130处于ACTIVE状态时发生过程500。激活和去激活用户设备120内的远程控制可以像先前所描述的那样并且例如根据图2中所图示的方法来发生。
在502,用户设备120在远程控制130处于ACTIVE状态的同时检测用户设备120的运动。例如,在一个实施方式中,用户112在向上方向上移动用户设备112,使得电视160的音量增加。
在504,用户设备120经由解析器/分类器148对所检测到的运动进行分类以产生命令。为了继续上述示例,用户设备120的向上运动经由命令分类器148被分类为增加音量命令。
在506,用户设备120经由网络170将命令发送到电视160。
图6图示可以与这里描述的技术一起使用的通用计算机设备600和通用移动计算机设备650的示例。
如图6中所示,计算设备600旨在表示各种形式的数字计算机,诸如膝上型电脑、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备650旨在表示各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能电话和其他类似的计算设备。这里示出的组件、其连接和关系及其功能仅意在为示例性的,而不意在限制本文档中描述和/或要求保护的发明的实施方式。
计算设备600包括处理器602、存储器604、存储设备606、连接到存储器604和高速扩展端口610的高速接口608、以及连接到低速总线614和存储设备606的低速接口612。组件602、604、606、608、610和612中的每一个均使用各种总线来互连,并且可以被安装在公共主板上或者酌情以其他方式安装。处理器602可处理用于在计算设备600内执行的指令,包括存储在存储器604中或者在存储设备606上以在诸如耦合到高速接口608的显示器616的外部输入/输出设备上显示用于GUI的图形信息的指令。在其他实施方式中,可以酌情连同多个存储器和多种类型的存储器一起使用多个处理器和/或多个总线。另外,可以连接多个计算设备600,其中每个设备提供必要操作的部分(例如,作为服务器组、一组刀片服务器或多处理器系统)。
存储器604存储计算设备600内的信息。在一个实施方式中,存储器604是一个或多个易失性存储器单元。在另一实施方式中,存储器604是一个或多个非易失性存储器单元。存储器604还可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备606能够为计算设备600提供大容量存储。在一个实施方式中,存储设备606可以是或者包含计算机可读介质,诸如软盘设备、硬盘设备、光盘设备或磁带设备、闪速存储器或其他类似的固态存储设备或设备的阵列,包括存储区域网络或其他配置中的设备。计算机程序产品可被有形地具体实现在信息载体中。计算机程序产品还可以包含指令,该指令当被执行时执行一个或多个方法,诸如上面描述的那些方法。信息载体是计算机或机器可读介质,诸如存储器604、存储设备606、或处理器602上的存储器。
高速控制器608管理计算设备500的带宽密集操作,而低速控制器612管理较低带宽密集操作。功能的这种分配仅是示例性的。在一个实施方式中,高速控制器608耦合到存储器604、显示器616(例如,通过图形处理器或加速器),并且耦合到高速扩展端口610,该高速扩展端口610可以接受各种扩展卡(未示出)。在该实施方式中,低速控制器612耦合到存储设备506和低速扩展端口614。可以包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合到一个或多个输入/输出设备,诸如键盘、指点设备、扫描仪、或诸如交换机或路由器的联网设备。
如图中所示,可以以许多不同的形式实现计算设备600。例如,它可以作为标准服务器620被实现,或者被多次实现在一组此类服务器中。它还可以作为机架服务器系统624的一部分被实现。此外,它可以被实现在诸如膝上型计算机622的个人计算机中。可替选地,来自计算设备600的组件可以与诸如设备650的移动设备(未示出)中的其他组件组合。此类设备中的每一个均可以包含计算设备600、650中的一个或多个,并且整个系统可以由彼此通信的多个计算设备600、650组成。
计算设备650包括处理器652、存储器664、诸如显示器654的输入/输出设备、通信接口666、和收发器668以及其他组件。设备650还可以被提供有存储设备,诸如微驱动器或其他设备,以提供附加存储。组件650、652、664、654、666和668中的每一个均使用各种总线来互连,并且若干组件可以被安装在公共主板上或者酌情以其他方式安装。
处理器652可执行计算设备650内的指令,包括存储在存储器664中的指令。处理器可以作为芯片的芯片组被实现,该芯片包括单独的和多个模拟和数字处理器。处理器可以例如提供用于设备650的其他组件的协调,诸如对用户界面、由设备650运行的应用和由设备650进行的无线通信的控制。
处理器652可以通过耦合到显示器654的控制接口658和显示接口656来与用户进行通信。显示器654可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其他适当的显示技术。显示接口656可以包括用于驱动显示器654以向用户呈现图形和其他信息的适当的电路。控制接口658可以从用户接收命令并且对它们进行转换以便提交给处理器652。此外,可以提供与处理器652通信的外部接口662,以便使得能实现设备650与其他设备的近区域通信。外部接口662可以在一些实施方式中例如提供用于有线通信,或者在其他实施方式中用于无线通信,并且还可以使用多个接口。
存储器664存储计算设备650内的信息。存储器664可作为一个或多个计算机可读介质、一个或多个易失性存储器单元、或者一个或多个非易失性存储器单元中的一种或多种被实现。还可以提供扩展存储器674并且通过扩展接口672将它连接到设备650,扩展接口672可以包括例如SIMM(单列直插存储器模块)卡接口。这种扩展存储器674可以为设备650提供附加的存储空间,或者还可以为设备650存储应用或其他信息。具体地,扩展存储器674可以包括用于执行或者补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器674可以作为用于设备650的安全模块被提供,并且可以被编程有允许安全使用设备650的指令。此外,可以经由SIMM卡提供安全应用以及附加信息,诸如以不可破解的方式将识别信息放置在SIMM卡上。
存储器可以包括例如闪速存储器和/或NVRAM存储器,如在下面所讨论的。在一个实施方式中,计算机程序产品被有形地具体实现在信息载体中。计算机程序产品包含指令,该指令当被执行时执行一个或多个方法,诸如上述的那些方法。信息载体是可以例如通过收发器668或外部接口662接收的计算机或机器可读介质,诸如存储器664、扩展存储器674、或处理器652上的存储器。
设备650可以通过通信接口666以无线方式通信,该通信接口666必要时可以包括数字信号处理电路。通信接口666可以提供用于各种模式或协议下的通信,各种模式或协议诸如GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信可以例如通过射频收发器668而发生。此外,可以发生短距离通信,诸如使用蓝牙、WiFi或其他这种收发器(未示出)。此外,GPS(全球定位系统)接收器模块670可以向设备650提供附加的导航和位置相关无线数据,其可以酌情由在设备650上运行的应用使用。
设备650还可以使用音频编解码器660可听地通信,该音频编解码器660可以从用户接收口语信息并且将它转换为可用的数字信息。音频编解码器660可以同样地诸如通过扬声器为用户生成可听声音——例如,在设备650的头戴式耳机中。这种声音可以包括来自语音电话呼叫的声音,可以包括记录的声音(例如,语音消息、音乐文件等)并且还可以包括由在设备650上操作的应用所生成的声音。
如图中所示,可以以许多不同的形式实现计算设备650。例如,它可以作为蜂窝电话680被实现。它还可以作为智能电话682、个人数字助理或其他类似的移动设备的一部分被实现。
这里描述的系统和技术的各种实施方式可用数字电子电路、集成电路、专门地设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或其组合加以实现。这些各种实施方式可包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,该可编程系统包括至少一个可编程处理器,其可以是专用的或通用的,耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令,并且以向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可用高级过程和/或面向对象编程语言和/或用汇编/机器语言加以实现。如本文中所使用的,术语“机器可读介质”、“计算机可读介质”指代用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括将机器指令作为机器可读信号来接收的机器可读介质。术语“机器可读信号”指代用于向可编程处理器提供机器指令和/或数据的任何信号。
为了提供与用户的交互,可将这里描述的系统和技术实现在计算机上,计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可用来向该计算机提供输入的键盘和指向设备(例如,鼠标或轨迹球)。其他种类的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以任何形式接收来自用户的输入,包括声学、语音或触觉输入。
可将这里描述的系统和技术实现在计算系统中,计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与这里描述的系统和技术的实施方式交互的图形用户界面或Web浏览器的客户端计算机),或者包括此类后端、中间件或前端组件的任何组合。系统的组件可通过任何形式或介质的数字数据通信(例如,通信网络)来互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。
计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
已经描述了许多实施例。然而,应理解的是,可以在不脱离本说明书的精神和范围的情况下做出各种修改。
还应理解的是,当一个元件被称为在另一元件上、连接到、电连接到、耦合到或者电耦合到另一元件时,它可以直接地在另一元件上,连接或者耦合到另一元件,或者可以存在一个或多个中间元件。相比之下,当一个元件被称为直接地在另一元件上、直接地连接到或者直接地耦合到另一元件时,不存在中间元件。尽管在整个详细描述中可以不使用术语直接地在…上、直接地连接到或直接地耦合到,然而被示出为直接地在…上、直接地连接或直接地耦合的元件可被如此表示。可以修正本申请的权利要求以叙述在说明书中描述或在图中示出的示例性关系。
虽然已经像本文中所描述的那样示出了所描述的实施方式的某些特征,但是本领域的技术人员现在将想到许多修改、替换、改变和等同物。因此应当理解的是,所附权利要求旨在涵盖如落入实施方式的范围内的所有此类修改和改变。应该理解的是,它们已仅作为示例而非限制被呈现,并且可以做出形式和细节上的各种改变。可以按照除互斥组合外的任何组合来组合本文中描述的装置和/或方法的任何部分。本文中描述的实施方式可包括所描述的不同实施方式的功能、组件和/或特征的各种组合和/或子组合。
此外,图中描绘的逻辑流程不要求所示的特定次序或顺序次序来实现所希望的结果。此外,可以提供其他步骤,或者可以从所描述的流程中消除步骤,并且可以向所描述的系统添加或者从所描述的系统移除其他组件。因此,其他实施例在以下权利要求的范围内。

Claims (20)

1.一种包括非易失性存储介质的计算机程序产品,所述计算机程序产品包括代码,所述代码当由处理电路执行时使所述处理电路执行方法,所述方法包括:
从包括所述处理电路的第一电子设备的相机接收视频流,所述相机指向所述第一电子设备的用户的方向,所述第一电子设备被定位为与第二电子设备分离并在第二电子设备附近,所述第二电子设备被配置成产生感觉输出;
在所述视频流的帧集合中检测由所述用户做出的手势;以及
响应于检测到所述手势,激活所述第一电子设备内的远程控制以使所述远程控制从不活动状态转变到活动状态,所述远程控制被配置成在所述远程控制处于所述活动状态的同时触发对由所述第二电子设备产生的所述感觉输出的改变。
2.根据权利要求1所述的计算机程序产品,其中,所述方法还包括:
在所述远程控制处于所述活动状态的同时,在所述视频流的另一帧集合中检测由所述用户做出的第二手势;以及
响应于检测到所述第二手势,去激活所述远程控制以使所述远程控制转变到所述不活动状态。
3.根据权利要求1所述的计算机程序产品,其中,所述第一电子设备还包括麦克风,所述麦克风被配置成将入射在所述麦克风上的声波转换成存储在所述第一电子设备的存储器中的声音数据,并且
其中,响应于所述远程控制处于所述活动状态,所述方法还包括:
将所述声音数据识别为用于对所述第二电子设备的所述感觉输出进行改变的预定义命令;
将所述声音数据转换为远程控制数据,所述远程控制数据当由所述第二电子设备接收到时使所述第二电子设备触发对由所述第二电子设备产生的所述感觉输出的改变;以及
将所述远程控制数据发送到所述第二电子设备。
4.根据权利要求3所述的计算机程序产品,其中,由所述第二电子设备产生的所述感觉输出包括发声声音;
其中,将所述声音数据识别为用于对所述第二电子设备的所述感觉输出进行改变的所述预定义命令包括:执行过滤操作,所述过滤操作被配置成从入射在所述麦克风上的所述声波中过滤所述发声声音。
5.根据权利要求4所述的计算机程序产品,其中,执行所述过滤操作包括:
响应于所述远程控制转变到所述活动状态,向所述第二电子设备发送音量调低命令,所述音量调低命令当由所述第二电子设备接收到时使所述第二电子设备以更小的振幅产生所述发声声音,并且
其中,所述方法还包括,响应于所述远程控制转变到所述不活动状态,向所述第二电子设备发送音量调高命令,所述音量调高命令当由所述第二电子设备接收到时使所述第二电子设备以更大的振幅产生所述发声声音。
6.根据权利要求4所述的计算机程序产品,其中,所述方法还包括获得由所述第二电子设备产生的所述发声声音的频率集合,并且
其中,执行所述过滤操作包括:
获得输入到所述麦克风中的所述声音数据的频率集合;
从所述声音数据的所述频率集合中抑制由所述第二电子设备产生的所述发声声音的频率集合的频率,以形成过滤的频率集合;以及
从所述过滤的频率集合形成过滤的声音数据,所述远程控制数据从所述过滤的声音数据产生。
7.根据权利要求6所述的计算机程序产品,其中,获得输入到所述麦克风中的所述声音数据的频率集合包括:
记录所输入的所述声音数据达指定的时间量以生成声音时间窗;
从所述声音时间窗获得频率集合以形成频率时间窗;
在所述远程控制处于所述活动状态的同时重复对声音数据的记录达所述指定的时间量并且获得频率集合,以形成所记录的声音数据的频谱图。
8.根据权利要求6所述的计算机程序产品,其中,获得输入到所述麦克风中的所述声音数据的频率集合包括对输入到所述麦克风中的所述声音数据执行傅立叶变换操作。
9.根据权利要求6所述的计算机程序产品,其中,抑制由所述第二电子设备产生的所述发声声音的所述频率集合的频率包括:
生成所述第一电子设备与所述第二电子设备之间的距离;
生成网络信号的到达角(AOA),通过所述网络信号输送来自所述第二电子设备的所述发声声音;
基于所述距离和所述AOA,产生由所述第二电子设备产生的所述发声声音的所述频率集合的频率的振幅和相位;以及
识别所输入的所述声音数据的频率集合中具有与由所述第二电子设备产生的所述发声声音的频率集合的频率的振幅和相位足够接近的振幅和相位的那些频率。
10.根据权利要求3所述的计算机程序产品,其中,所述过滤操作还被配置成从入射在所述麦克风上的所述声波中过滤由所述第一电子设备和所述第二电子设备所位于的房间产生的音频噪声。
11.根据权利要求10所述的计算机程序产品,其中,执行所述过滤操作包括从输入到所述麦克风中的所述声音数据中过滤小于噪声频率阈值的频率。
12.根据权利要求1所述的计算机程序产品,其中,所述第一电子设备还包括运动检测器,所述运动检测器被配置成检测和记录所述第一电子设备的移动,并且
其中,响应于所述远程控制处于所述活动状态,所述方法还包括:
将所述第一电子设备的移动识别为预定义手势;
将所述预定义手势映射到用于对所述第二电子设备的所述感觉输出进行改变的相应命令;以及
将所述相应命令作为远程控制数据发送到所述第二电子设备,所述远程控制数据当由所述第二电子设备接收到时使所述第二电子设备按照所述相应命令的指示触发对由所述第二电子设备产生的所述感觉输出的改变。
13.一种方法,包括:
从第一电子设备的相机接收视频流,所述相机指向所述第一电子设备的用户的方向,所述第一电子设备被定位为与第二电子设备分离并在第二电子设备附近,所述第二电子设备被配置成产生感觉输出;
在所述视频流的帧集合中检测由所述用户做出的手势;以及
响应于检测到所述手势,激活所述第一电子设备内的远程控制以使所述远程控制从不活动状态转变到活动状态,所述远程控制被配置成在所述远程控制处于所述活动状态的同时触发对由所述第二电子设备产生的所述感觉输出的改变。
14.根据权利要求13所述的方法,还包括:
在所述远程控制处于所述活动状态的同时,在所述视频流的另一帧集合中检测由所述用户做出的第二手势;以及
响应于检测到所述第二手势,去激活所述远程控制以使所述远程控制转变到所述不活动状态。
15.根据权利要求13所述的方法,其中,所述第一电子设备还包括麦克风,所述麦克风被配置成将入射在所述麦克风上的声波转换成存储在所述第一电子设备的存储器中的声音数据,并且
其中,响应于所述远程控制处于所述活动状态,所述方法还包括:
将所述声音数据识别为用于对所述第二电子设备的所述感觉输出进行改变的预定义命令;
将所述声音数据转换为远程控制数据,所述远程控制数据当由所述第二电子设备接收到时使所述第二电子设备触发对由所述第二电子设备产生的所述感觉输出的改变;以及
将所述远程控制数据发送到所述第二电子设备。
16.根据权利要求15所述的方法,其中,由所述第二电子设备产生的所述感觉输出包括发声声音;
其中,将所述声音数据识别为用于对所述第二电子设备的所述感觉输出进行改变的所述预定义命令包括:执行过滤操作,所述过滤操作被配置成从入射在所述麦克风上的所述声波中过滤所述发声声音。
17.根据权利要求16所述的方法,其中,执行所述过滤操作包括:
响应于所述远程控制转变到所述活动状态,向所述第二电子设备发送音量调低命令,所述音量调低命令当由所述第二电子设备接收到时使所述第二电子设备以更小的振幅产生所述发声声音,并且
其中,所述方法还包括,响应于所述远程控制转变到所述不活动状态,向所述第二电子设备发送音量调高命令,所述音量调高命令当由所述第二电子设备接收到时使所述第二电子设备以更大的振幅产生所述发声声音。
18.根据权利要求16所述的方法,还包括获得由所述第二电子设备产生的所述发声声音的频率集合,并且
其中,执行所述过滤操作包括:
获得输入到所述麦克风中的所述声音数据的频率集合;
从所述声音数据的所述频率集合中抑制由所述第二电子设备产生的所述发声声音的频率集合的频率,以形成过滤的频率集合;以及
从所述过滤的频率集合形成过滤的声音数据,所述远程控制数据从所述过滤的声音数据产生。
19.根据权利要求13所述的方法,其中,所述第一电子设备还包括运动检测器,所述运动检测器被配置成检测和记录所述第一电子设备的移动,并且
其中,响应于所述远程控制处于所述活动状态,所述方法还包括:
将所述第一电子设备的移动识别为预定义手势;
将所述预定义手势映射到用于对所述第二电子设备的所述感觉输出进行改变的相应命令;以及
将所述相应命令作为远程控制数据发送到所述第二电子设备,所述远程控制数据当由所述第二电子设备接收到时使所述第二电子设备按照所述相应命令的指示触发对由所述第二电子设备产生的所述感觉输出的改变。
20.一种系统,包括:
第一电子设备和第二电子设备,所述第一电子设备被定位为与所述第二电子设备分离并在所述第二电子设备附近,所述第二电子设备被配置成产生感觉输出,所述第一电子设备包括网络接口、相机、存储器和耦合到所述存储器的处理电路,所述处理电路被配置成:
从所述相机接收视频流,所述相机指向所述第一电子设备的用户的方向;
在所述视频流的帧集合中检测由所述用户做出的手势;以及
响应于检测到所述手势,激活所述第一电子设备内的远程控制以使所述远程控制从不活动状态转变到活动状态,所述远程控制被配置成在所述远程控制处于所述活动状态的同时触发对由所述第二电子设备产生的所述感觉输出的改变。
CN201780050202.9A 2016-08-16 2017-08-11 手势激活的远程控制 Active CN109564474B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/238,364 US10506192B2 (en) 2016-08-16 2016-08-16 Gesture-activated remote control
US15/238,364 2016-08-16
PCT/US2017/046494 WO2018034980A1 (en) 2016-08-16 2017-08-11 Gesture-activated remote control

Publications (2)

Publication Number Publication Date
CN109564474A true CN109564474A (zh) 2019-04-02
CN109564474B CN109564474B (zh) 2023-02-17

Family

ID=59702856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780050202.9A Active CN109564474B (zh) 2016-08-16 2017-08-11 手势激活的远程控制

Country Status (7)

Country Link
US (1) US10506192B2 (zh)
EP (1) EP3482278B1 (zh)
JP (1) JP6913745B2 (zh)
KR (1) KR102258710B1 (zh)
CN (1) CN109564474B (zh)
DE (1) DE202017104587U1 (zh)
WO (1) WO2018034980A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489413A (zh) * 2020-11-27 2021-03-12 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102018204223A1 (de) * 2018-03-20 2019-09-26 Audi Ag Mobile, portable Bedienvorrichtung zum Bedienen eines mit der Bedienvorrichtung drahtlos gekoppelten Geräts, und Verfahren zum Betreiben eines Geräts mithilfe einer mobilen, portablen Bedienvorrichtung

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100333163A1 (en) * 2009-06-25 2010-12-30 Echostar Technologies L.L.C. Voice enabled media presentation systems and methods
US20120119985A1 (en) * 2010-11-12 2012-05-17 Kang Mingoo Method for user gesture recognition in multimedia device and multimedia device thereof
CN102682589A (zh) * 2012-01-09 2012-09-19 西安智意能电子科技有限公司 一种用于对受控设备进行遥控的系统
CN102866777A (zh) * 2012-09-12 2013-01-09 中兴通讯股份有限公司 一种数字媒体内容播放转移的方法及播放设备及系统
US20130035086A1 (en) * 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
CN103294177A (zh) * 2012-02-29 2013-09-11 株式会社理光 光标移动控制方法和系统
CN204695082U (zh) * 2014-01-21 2015-10-07 上海聚然智能科技有限公司 智能管家机器人
US9176590B2 (en) * 2009-07-31 2015-11-03 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
CN105096580A (zh) * 2015-08-18 2015-11-25 金德奎 一种可控制家用电器的手势控制智能开关
CN105258011A (zh) * 2014-07-16 2016-01-20 东莞勤上光电股份有限公司 一种具有综合智能控制功能的led落地灯
US20160075015A1 (en) * 2014-09-17 2016-03-17 Brain Corporation Apparatus and methods for remotely controlling robotic devices
US9417689B1 (en) * 2013-05-17 2016-08-16 Amazon Technologies, Inc. Robust device motion detection

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6501515B1 (en) * 1998-10-13 2002-12-31 Sony Corporation Remote control system
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
US20050154588A1 (en) * 2001-12-12 2005-07-14 Janas John J.Iii Speech recognition and control in a process support system
CA2539442C (en) 2003-09-17 2013-08-20 Nielsen Media Research, Inc. Methods and apparatus to operate an audience metering device with voice commands
JP2005250233A (ja) * 2004-03-05 2005-09-15 Sanyo Electric Co Ltd ロボット装置
JP2007121576A (ja) * 2005-10-26 2007-05-17 Matsushita Electric Works Ltd 音声操作装置
JP2007189536A (ja) * 2006-01-13 2007-07-26 Matsushita Electric Ind Co Ltd 音響エコーキャンセラ装置、音響エコーキャンセル方法及び通話装置
JP5034607B2 (ja) * 2006-11-02 2012-09-26 株式会社日立製作所 音響エコーキャンセラシステム
US8126161B2 (en) * 2006-11-02 2012-02-28 Hitachi, Ltd. Acoustic echo canceller system
JP4877114B2 (ja) * 2007-07-13 2012-02-15 ヤマハ株式会社 音声処理装置およびプログラム
JP4431836B2 (ja) * 2007-07-26 2010-03-17 株式会社カシオ日立モバイルコミュニケーションズ 音声取得装置、雑音除去システム、及び、プログラム
KR101373285B1 (ko) 2009-12-08 2014-03-11 한국전자통신연구원 제스쳐 인식 기능을 갖는 휴대 단말기 및 이를 이용한 인터페이스 시스템
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9952663B2 (en) * 2012-05-10 2018-04-24 Umoove Services Ltd. Method for gesture-based operation control
CN202617260U (zh) 2012-05-31 2012-12-19 无锡商业职业技术学院 一种基于手势控制电视机的装置
JP2014153663A (ja) * 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
CN103456299B (zh) * 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
US9357492B2 (en) 2013-08-05 2016-05-31 Qualcomm Incorporated WLAN-capable remote control device
US9390726B1 (en) 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104811792A (zh) 2015-03-20 2015-07-29 无锡华海天和信息科技有限公司 一种通过手机声控电视盒子的系统及方法
US10048936B2 (en) * 2015-08-31 2018-08-14 Roku, Inc. Audio command interface for a multimedia device

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100333163A1 (en) * 2009-06-25 2010-12-30 Echostar Technologies L.L.C. Voice enabled media presentation systems and methods
US9176590B2 (en) * 2009-07-31 2015-11-03 Echostar Technologies L.L.C. Systems and methods for hand gesture control of an electronic device
US20120119985A1 (en) * 2010-11-12 2012-05-17 Kang Mingoo Method for user gesture recognition in multimedia device and multimedia device thereof
US20130035086A1 (en) * 2010-12-22 2013-02-07 Logitech Europe S.A. Remote control system for providing content suggestions
CN102682589A (zh) * 2012-01-09 2012-09-19 西安智意能电子科技有限公司 一种用于对受控设备进行遥控的系统
CN103294177A (zh) * 2012-02-29 2013-09-11 株式会社理光 光标移动控制方法和系统
CN102866777A (zh) * 2012-09-12 2013-01-09 中兴通讯股份有限公司 一种数字媒体内容播放转移的方法及播放设备及系统
US9417689B1 (en) * 2013-05-17 2016-08-16 Amazon Technologies, Inc. Robust device motion detection
CN204695082U (zh) * 2014-01-21 2015-10-07 上海聚然智能科技有限公司 智能管家机器人
CN105258011A (zh) * 2014-07-16 2016-01-20 东莞勤上光电股份有限公司 一种具有综合智能控制功能的led落地灯
US20160075015A1 (en) * 2014-09-17 2016-03-17 Brain Corporation Apparatus and methods for remotely controlling robotic devices
CN105096580A (zh) * 2015-08-18 2015-11-25 金德奎 一种可控制家用电器的手势控制智能开关

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489413A (zh) * 2020-11-27 2021-03-12 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备
CN112489413B (zh) * 2020-11-27 2022-01-11 京东方科技集团股份有限公司 遥控器的控制方法及系统、存储介质、电子设备

Also Published As

Publication number Publication date
EP3482278B1 (en) 2020-10-21
CN109564474B (zh) 2023-02-17
US10506192B2 (en) 2019-12-10
DE202017104587U1 (de) 2018-03-08
KR102258710B1 (ko) 2021-06-01
KR20190039777A (ko) 2019-04-15
JP2019528526A (ja) 2019-10-10
EP3482278A1 (en) 2019-05-15
JP6913745B2 (ja) 2021-08-04
US20180054586A1 (en) 2018-02-22
WO2018034980A1 (en) 2018-02-22

Similar Documents

Publication Publication Date Title
US10469967B2 (en) Utilizing digital microphones for low power keyword detection and noise suppression
US10339913B2 (en) Context-based cancellation and amplification of acoustical signals in acoustical environments
US10586543B2 (en) Sound capturing and identifying devices
US9668048B2 (en) Contextual switching of microphones
US9978388B2 (en) Systems and methods for restoration of speech components
Rossi et al. AmbientSense: A real-time ambient sound recognition system for smartphones
US8682675B2 (en) Sound monitoring system for sound field selection based on stored microphone data
CN108681440A (zh) 一种智能设备音量控制方法及系统
JP2020109498A (ja) システム、及び、方法
US20190043521A1 (en) Automatic Gain Adjustment for Improved Wake Word Recognition in Audio Systems
JP2020115206A (ja) システム及び方法
US10490203B2 (en) Echo cancellation for keyword spotting
EP2945156A1 (en) Audio signal recognition method and electronic device supporting the same
US20170307435A1 (en) Environmental analysis
CN109564474A (zh) 手势激活的远程控制
KR102623998B1 (ko) 음성인식을 위한 전자장치 및 그 제어 방법
JP6670014B2 (ja) モバイルデバイスにおける非線形エコーキャンセルのための二方式振幅処理フレームワーク
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
US20180277134A1 (en) Key Click Suppression
US11398070B1 (en) Boundary approximation utilizing radar
WO2019246314A1 (en) Acoustic aware voice user interface
US9532155B1 (en) Real time monitoring of acoustic environments using ultrasound
CN117916801A (zh) 基于调制域注意力的混响和噪声鲁棒语音活动检测

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant