CN105074817B

CN105074817B - 用于使用手势来切换处理模式的系统和方法

Info

Publication number: CN105074817B
Application number: CN201480013294.XA
Authority: CN
Inventors: P·L·通; 埃文·R·希尔德雷思; 乔尔·S·伯恩阿特; S·阿雷拉诺
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-03-15
Filing date: 2014-03-13
Publication date: 2018-11-27
Anticipated expiration: 2034-03-13
Also published as: US9436287B2; KR101748316B1; EP2973549B1; JP2016512364A; KR20150127712A; US20140278441A1; EP2973549A1; WO2014151702A1; JP6072344B2; CN105074817A

Abstract

本发明提供用于使用手势在语音听写模式之间切换的系统和方法，以使得可以对所听写的词语应用替代性含义。所述所提供的系统和方法给所检测到的手势和从语音听写所检测到的词语加时间戳，并且比较检测到手势的时间戳与检测到词语的时间戳。当确定手势的时间戳大致匹配词语的时间戳时，所述词语可以被处理成具有替代性含义，例如命令、标点或动作。

Description

用于使用手势来切换处理模式的系统和方法

技术领域

本文所揭示的实施例大体上是针对在计算装置的模式之间切换的系统和方法。确切地说，本文所揭示的实施例是针对基于所检测到的手势来在模式之间切换。

背景技术

语音听写过去常意味着向磁带录音机或打字员说话。然而，随着语音检测系统改进，并且系统能够较好地将语音处理成文字，语音听写系统已经在安装于计算机或移动装置上的软件中实施。此外，语音听写系统能够在用户说话时将语音处理成文字，从而在免提和可访问性应用中提供明显进步。

在实施语音听写中的困难之一是适应个人的自然话音模式(natural speechpattern)。目前的语音听写系统将完整说出的词语串处理成文字，并且处理所述文字的命令或标点。然而，对于许多系统，处理文字的命令或标点是困难的。一些系统寻找停顿以确定文字的结束，并且使用这一停顿作为下一字串(string)将包含待对前一字串执行的命令的提示。如果用户在其话音中停顿以整理思绪或考虑接下来要说什么，并且下一字串包含可能被解译为命令的词语，那么尽管用户不希望同时执行命令，但命令仍可能得到执行。

因此，需要用于改进的语音听写的系统和方法，所述语音听写能够较好地顾及用户的自然话音模式并且区分所听写的词语(包含可能是命令和/或标点的词语)的不同含义。

发明内容

与一些实施例一致，提供一种用于以第一模式和第二模式处理所检测到的音频波形的系统。所述系统包含麦克风，所述麦克风经配置用于检测音频波形；手势检测传感器，所述手势检测传感器经配置以检测无接触手势；以及系统时钟，所述系统时钟经配置以向所检测到的音频波形和所检测到的无接触手势提供时间戳。所述系统还包含一或多个处理器，所述处理器经配置以在所检测到的音频波形的时间戳与所检测到的无接触手势的时间戳大致匹配时以第二模式处理所检测到的音频波形。

与一些实施例一致，进一步提供一种用于以第一模式和第二模式处理所检测到的音频波形的方法。所述方法包含以下步骤：通过麦克风检测初始音频波形输入；启动手势检测；给所述音频波形输入加时间戳；检测是否执行无接触手势；给所检测到的无接触手势加时间戳；以及从大约所述所检测到的无接触手势的时间戳起，由一或多个耦合到所述麦克风上的处理器以第二模式处理音频波形输入，直到大约不再检测到无接触手势时的时间为止。所提供的方法也可以实施为计算机可读媒体中的指令。

与一些实施例一致，进一步提供一种用于以第一模式和第二模式处理所检测到的音频波形的系统。所述系统包含用于检测音频波形输入并且给所述音频波形输入加时间戳的装置；用于检测无接触手势并且给所检测到的无接触手势加时间戳的装置；以及用于在所述音频波形输入的时间戳大致匹配所述所检测到的无接触手势的时间戳时选择性地以第二模式处理所述音频波形输入的装置。

附图说明

图1是图解说明与一些实施例一致的处理装置100的简图。

图2A到2C图解说明与一些实施例一致的一种用于基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。

图3A到3F图解说明与一些实施例一致的一种基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。

图4是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。

图5是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。

图6A到6G图解说明与一些实施例一致的一种基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。

图7是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。

在附图中，具有相同名称的元件具有相同或类似的功能。

具体实施方式

在以下描述中，阐述描述某些实施例的具体细节。然而，对于所属领域的技术人员将显而易见的是，所揭示的实施例可以在没有这些具体细节中的一些或全部的情况下实践。所呈现的具体实施例意图为说明性的而非限制性的。所属领域的技术人员可以认识到尽管未具体描述于本文中但处于本发明范围和精神内的其它材料。

图1是图解说明与一些实施例一致的处理装置100的简图。处理装置100可以是移动装置，例如智能手机(例如iPhone^TM)，或运行iOS^TM操作系统、Android^TM操作系统、BlackBerry^TM操作系统、手机操作系统、Symbian^TM OS或webOS^TM的其它移动装置，或不实施操作系统的移动装置。处理装置100也可以是平板计算机(例如iPad^TM)或运行前述操作系统中的一者的其它平板计算机。处理装置100也可以是PC或膝上型计算机或上网本、机顶盒(STB)(例如由电缆或卫星内容提供商提供)，或视频游戏系统控制台(例如 Wii^TM、 Xbox 360^TM或 PlayStation^TM 3)或其它视频游戏系统控制台。在一些实施例中，处理装置100实施在汽车中，例如在汽车的娱乐中心或控制台中，或包含或实施在医疗装置中。根据一些实施例，处理装置100可以使用经配置用于接收和采集音频输入并且检测手势的硬件和/或软件的任何适当组合来实施。确切地说，处理装置100可以包含硬件和/或软件的任何适当组合，所述硬件和/或软件具有一或多个处理器并且能够读取存储在非暂时性机器可读媒体上的用于由用于接收和采集音频输入并且检测手势的一或多个处理器执行的指令。机器可读媒体的一些常见形式包含例如软盘、软磁盘、硬盘、磁带、任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔洞图案的任何其它物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或盒带，和/或一或多个处理器或计算机经调适以从其进行读取的任何其它媒体。

处理装置100可以包含经配置用于与网络通信的网络接口组件102。与一些实施例一致，网络接口组件102可以经配置以与同轴电缆、光纤电缆、数字订户线(DSL)调制解调器、公共交换电话网络(PSTN)调制解调器、以太网装置和/或各种其它类型的有线网络通信装置介接。网络接口组件102还可以包含一或多个无线收发器，其中每一个无线收发器可以包含天线(所述天线是可分离的或一体化的)，并且能够根据不同的无线联网协议(例如Wi-Fi^TM、3G、4G、HDSPA、LTE、RF、NFC)发送和接收信息。与一些实施例一致，处理装置100包含用于互连处理装置100内的各种组件以及在所述各种组件之间传送信息的系统总线104。在一些实施例中，总线104在片上系统(SoC)中实施并且连接一或多个处理器的芯片和/或核心上的各种元件或组件。组件可以包含处理组件106，所述处理组件可以是一或多个处理器、中央处理单元(CPU)、图像信号处理器(ISP)、微控制器或数字信号处理器(DSP)和音频信号处理器，所述音频信号处理器可以包含模拟和/或数字音频信号处理器。组件还可以包含系统存储器组件108，其可以对应于随机存取存储器(RAM)；内部存储器组件110，其可以对应于只读存储器(ROM)；和外部或静态存储器112，其可以对应于光学、磁性或固态存储器。与一些实施例一致，处理装置100还可以包含用于向用户显示信息的显示器组件114。显示器组件114可以是液晶显示(LCD)屏、有机发光二极管(OLED)屏(包含主动矩阵AMOLED屏)、LED屏、等离子显示器或阴极射线管(CRT)显示器。显示器组件114可以与处理装置100整合，或可以与处理装置100分离并且耦合到处理装置100上。处理装置100还可以包含输入和导航控制组件116，其允许用户输入信息并且沿着显示器组件114进行导航。举例来说，输入和导航组件116可以包含键盘或小键盘(不管是物理的还是虚拟的)、鼠标、轨迹球或其它此类装置，或基于电容式传感器的触摸屏。根据一些实施例，处理装置100可以包含比图1中所展示的更多或更少的组件。举例来说，处理装置100可以包含系统存储器组件108、内部存储器组件110和外部存储器组件112中的任何一个或两个。此外，图1中所展示的组件可以直接耦合到图1中的一或多个其它组件上，从而消除对于系统总线104的需求。一般来说，图1中所展示的组件作为能够执行本文所揭示实施例的处理装置100中的组件的实例展示。然而，处理装置100可以具有更多或更少的组件并且仍然能够执行本文所揭示的一些实施例。

处理装置100还包含麦克风118，所述麦克风用于检测和接收来自例如用户120的音频输入。根据一些实施例，麦克风118可以经配置以检测音频(例如语音)，所述音频随后被传输到处理组件106以用于处理并且被传输到存储器108、110和112中的任一者以用于存储。在一些实施例中，麦克风118可以经配置用于检测来自用户120的语音以用于听写中。麦克风118可以与处理装置100整合，或可以分离的并且通过电缆或无线耦合而耦合到处理装置100上。根据一些实施例，麦克风118检测与用户120的语音相关联的音频波形，并且将所检测到的波形翻译成一或多个电信号，所述电信号被传输到处理组件106以用于根据存储于存储器108、110和112中任一者中的指令来处理。在一些实施例中，麦克风118可以包含声波向电力换能器或传感器，所述换能器或传感器将所检测到的音频波形转换成一或多个电信号。

处理装置100还可以包含手势检测传感器122。手势检测传感器122可以是能够检测由用户120作出的手势的任何传感器。根据一些实施例，手势检测传感器122可以是相机、超声换能器、导光管阴影检测器(light pipe shadow detector)、红外传感器和/或环境光传感器、或经配置以检测手势的其它传感器。在一些实施例中，手势可以是可以通过手势检测传感器122检测到的无接触手势或相互作用，其中由用户120作出的手势可以在用户不必触摸手势检测传感器122的情况下进行检测。无接触手势的实例可以包含手势，例如举起的手或用手遮盖的手势，其中用户120的手遮盖手势检测传感器122。在一些实施例中，手势检测传感器122可以包含麦克风118或对超声波频率敏感的独立麦克风。对于使用相机来检测手势的实施例，相机可以是可见光相机或深度传感相机，例如 Xbox^TM Kinect^TM相机。相机还可以经配置以检测红外(IR)光或紫外(UV)光。手势检测传感器122也可以是立体相机、飞行时间(ToF)相机或能够检测由用户120作出的手势的其它相机。在一些实施例中，手势检测传感器122也可以是Wii^TM WiiMote^TM或 PlayStation^TMMove^TM。在一些实施例中，手势检测传感器122可以包含一或多个手势检测传感器(例如上文所描述)，其组合工作以检测由用户作出的手势。

根据一些实施例，手势检测传感器122可以经配置以检测由用户120作出的手势以用于将由处理组件106对音频的处理从第一或正常模式切换成第二或替代性模式。根据一些实施例，手势检测传感器122可以是不作用的，直到麦克风118检测到用于处理的音频波形为止以节约电力。此外，手势检测传感器122可以是不作用的，直到由处理组件106确定所检测到的音频波形是人类语音为止。在一些实施例中，响应于所检测到的音频波形和/或人类语音，例如由处理组件106来启用与传感器122一起使用的手势检测程序。在一些此类实施例中，在一些情况下，即使当通过麦克风118未检测到音频波形和/或人类语音时，传感器122仍可以保持开启，但可以启用一或多种特定手势的检测和/或传感器122可以在较高工作周期下操作或在操作上以一或多种其它方式受影响。此外，手势检测传感器122可以经配置以采集可以分析手势存在和/或不存在的数据(包含图像数据)帧。在一些实施例中，手势检测传感器122可以经配置以采集每秒预定数目的帧，所述预定数目可以基于检测准确性和电力节约所需的因素而增加或减少。举例来说，每秒采集较多帧可以提供较大的准确性，同时较快速地消耗电力，而每秒采集较少帧可以提供较少的准确性，但将较慢地消耗电力。此外，手势检测传感器122可以经配置以可变速率寻找帧中的手势，所述速率可以增加以便以电力为代价改进准确性，但可以降低以便以准确性为代价改进电力节约。在一些实施例中，手势检测传感器122可以经配置以在每八帧中的一帧中寻找手势以节约电力，但此速率可以增加或降低以改进准确性或电力节约。在一些实施例中，响应于检测音频波形和/或语音的麦克风118来增加可变速率。此外，帧可以存储于手势检测传感器122中的缓冲器中或存储器108-112中的任一者中，并且可以出于手势检测的较大准确性而视需要存取。也就是说，如果手势检测传感器122经配置以在每八帧中的仅一帧中寻找手势，那么其它七帧可以存储于缓冲器或存储器中，并且出于较大准确性而通过手势检测传感器122或处理组件106存取以确定手势的存在或用于分辨可能或部分检测到的手势。此外，帧可以经缓冲以考虑到例如由于在说话与示意之间的延迟，用户不在与说出的某一词语完全相关的时间示意。

处理装置100还包含系统时钟124，其为处理装置100的组件提供时钟和计时，并且可以经配置以为所检测到的音频波形和所检测到的手势提供时间戳。尽管处理装置100的组件展示为与处理装置100一体化的，但组件不限于此并且可以与处理装置100分离并处于所述处理装置的外部，并且经由有线或无线耦合而耦合到处理装置100和系统总线104。

与一些实施例一致，用户120可以使用装置100以用于语音听写，其中麦克风118经配置以检测与由用户口述的词语串相关联的音频波形，所述音频波形被转换成电信号并且被传输到处理组件106以用于处理。与音频波形相关联的电信号可以与在存储于存储器108、110和112中任一者中的词典中所定义的对应于词语、命令或标点的预定含义相关联，并且处理组件106可以将所述与音频波形相关联的电信号与所述含义匹配，并且将对应含义输出成文本。如上所述，实施语音听写中的困难之一是区分具有不同含义的词语或词语串。例如“发送”、“删除”、“消息”、“电子邮件”和“转发”的词语都是可以解译为与电子邮件和消息传递功能相关的命令或指令的词语。类似地，例如“点(dot)”、“句号(period)”、“在(at)”和“逗号(comma)”的词语可以解译为词语或标点。

图2A到2C图解说明与一些实施例一致的一种用于基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。如图2A中所展示，用户120向装置100口述。根据一些实施例，麦克风118检测与用户120的语音相关联的音频波形，由所述音频波形生成电信号，所述电信号由处理组件106基于存储于存储器108、110和112中任一者中的指令来处理。确切地说，处理组件106比较每一个电信号与已知信号，所述已知信号表示与在存储于存储器108、110和112中任一者中的词典中的特定词语、命令、标点或词语串对应的含义。与一些实施例一致，词典可以由第三方准备，或可以是与常见语音听写系统相关联的已知词典。此外，词典可以是用户可编辑的，其中用户可能能够记录音频波形并且定义所记录音频波形的含义。

当处理组件106将电信号与词典中的电信号相匹配时，与所述电信号相关联的含义可以显示在显示器组件114上或装置100可以采取其它动作。含义可以是词语或标点，其可以显示在显示器组件114上或存储于存储器108到112中的一者中以例如用于随后再调用或传输；或命令，其可以指示处理组件106执行动作。与一些实施例一致，与对应于语音的音频波形相关联的电信号可以具有第二或替代性含义。此外，用户120可以通过作出手势来激活此替代性含义，所述手势通过手势检测传感器122检测以将语音听写系统切换成以使用替代性含义的替代性模式处理对应于所检测到的音频波形的电信号。当手势检测传感器122检测到手势时，生成电信号，所述电信号由处理组件106基于存储于存储器108、110和112中任一者中的指令来处理，以使得由所检测到的音频波形生成的对应电信号以另一模式进行处理并且被给予替代性含义。举例来说，如果用户120在说出词语“发送消息给马特(Matt)”的同时作出手势，例如图2A中所展示的手势，那么处理组件106根据由所述手势启动的替代性模式来处理字符串中的一或多个词语。根据一些实施例，用户120可以得到由装置100的显示器组件114显示或由装置100的扬声器(未图示)发出的音频或视觉反馈，所述反馈通知用户所检测到的音频波形将以替代性模式处理。

根据一些实施例，处理组件106将基于由系统时钟124提供的时间来给每一个所检测到的音频波形加时间戳。在一些实施例中，时间戳将基于所检测到的指示个别词语之间间隔的较小停顿而与所检测到的音频波形相关联。在一些实施例中，可以给所检测到的音频波形的每一个音素或字节加时间戳。此外，在一些实施例中，可以基于可能是每一秒或一秒的特定分数的时间段来给所检测到的音频波形周期性地加时间戳。处理组件106也将基于由系统时钟124提供的时间来给所检测到的手势加时间戳。处理组件106随后将比较所检测到的音频波形和所检测到的手势的时间戳，并且当在检测到手势的时间间隔期间检测到一或多个所检测到的音频波形时，处理组件106将根据替代性模式处理所检测到的词语。与一些实施例一致，基于合理的时延容许性，时间间隔可以包含在检测到手势前后的时段的时间间隔。在一些实施例中，时延可以归因于在用户120作出手势与说话的时间之间的延迟，和/或不论是由硬件还是软件造成的处理装置100或手势检测传感器122的已知滞后。在一些实施例中，处理组件106可以经配置以学习用户120的口述模式，例如用户修正所听写的词语的频率、用户120说话的快慢程度、和在用户120作出手势的时间与用户120说话的时间之间存在的延迟多少，并且反之亦然。基于此学习，处理组件106可能能够提供适应性或学习到的时延。在一些实施例中，时间间隔不仅可以考虑到时延，而且也可以向用户120提供修正所说或所解译内容的时间间隔。

与一些实施例一致，通过麦克风118所检测到的音频波形可以经缓冲，以使得所检测到的音频波形可以基于通过手势检测传感器122所检测到的手势来以一或多种模式处理。举例来说，在第一模式中，经缓冲的音频波形可以由处理组件处理以具有第一含义，所述第一含义可以对应于由显示器组件114显示的文字。在由通过手势检测传感器122所检测到的手势激活的第二模式中，经缓冲的音频波形可以具有不同于第一含义的第二含义。根据一些实施例，第二模式可以对应于待由处理组件106执行的命令或动作。在一些实施例中，经缓冲音频波形中的一些在第二模式中并不具有不同含义，并且以与第一模式相同的方式处理。经缓冲的音频波形可以由处理组件106根据与所述音频波形相关联的时间戳来处理，以使得处理组件106基于通过手势检测传感器122是否在对应时间处检测到手势来选择性地以第一模式或第二模式处理所述经缓冲的音频波形。在一些实施例中，以第二模式处理包括使音频波形与不同输出(例如标点，而非文字)相关。在其它实施例中，音频波形与相同输出相关，但输出以第二模式翻译，例如将词语“句号”翻译成标点符号。在一些实施例中，音频波形在解译之前在缓冲器中存储较短时间，以允许用户取消、编辑和/或修正所述音频波形。

如图2A中所展示，基于通过麦克风118所检测到的来自用户120的音频波形，显示器组件114显示“发送消息给马特”的文字。然而，因为用户120作出可以通过传感器122检测到的手势，所以处理组件106可以通过比较所检测到的手势的时间戳与所检测到的音频波形的时间戳来在合理的容许性内将用户120作出手势的时间与检测到音频波形的时间相匹配，并且根据第二或替代性模式处理所检测到的音频波形，所述模式可以对所检测到的音频波形中的一些给予替代性含义，同时所检测到的音频波形中的一些可以具有相同含义。与一些实施例一致，可以处理图2A中所展示的所检测到的音频波形，以使得所检测到的对应于所听写的词语“发送消息给马特”的音频波形被处理成用于将消息发送给名为马特的联系人的命令。

在一些实施例中，由用户120产生的可以对应于由用户口述的词语的音频波形可以针对每一个词语实时或近实时处理，所述词语表示为一或多个在两侧具有短停顿的近连续音频波形。在一些实施例中，音频波形可以按片段形式处理，以使得一次处理持续预定量的时间的音频波形片段。在一些实施例中，选择预定量的时间以代表用户120说出一个词语所要的平均时间。预定量的时间可以是适应性的，并且通过在用户120使用装置100时学习来改变。在一些实施例中，音频波形可以在检测到短停顿之后进行处理，所述停顿指示在词语或短语之间的停顿。在一些实施例中，周期性地处理音频波形，例如每一秒或每五秒。在一些实施例中，所检测到的音频波形可以经缓冲。在一些实施例中，通过手势检测传感器122对手势的检测可以使所有音频波形载入缓冲器或从缓冲器载出，并且随后由处理组件106处理以确定含义。举例来说，当通过手势检测传感器122检测到手势时，存储于缓冲器中的音频波形可以从缓冲器载出，并且以第二模式处理并与第二含义相关联，同时传入的音频波形存储于所述缓冲器中。随后，当通过手势检测传感器122不再检测到手势时或当检测到用信号通知处理组件106停止以第二模式处理并且以第一模式处理的后续手势时，将存储于缓冲器中的音频波形从所述缓冲器载出，并且以第一模式处理并与第一含义相关联。在一些实施例中，在音频波形串的任一末端处的时间戳可以用于在音频波形串内插入可能与个别词语或声音相关联的时间戳。

如图2B中所展示，用户120停止作出手势，并且因此，在用户停止作出手势的时间将根据由系统时钟124基于来自传感器122的信息提供的时间来加时间戳。用户120可以在停止手势之后继续说话，并且说“马特，你可以把查尔斯转发给你的消息发送给我么”。处理组件106将接收与所检测到的音频波形相关联的对应于此词语串的电信号，并且分析与所检测到的音频波形相关联的时间戳以判定手势检测传感器122是否也同时检测到手势。因为用户120未作出手势，所以手势检测传感器122将不会检测到手势，将不存在其时间戳对应于所检测到的音频波形的时间戳的任何所检测到的手势，并且处理组件106将以第一模式处理所检测到的音频波形，其中对与所检测到的音频波形相关联的电信号给予第一含义。第一含义可以是与所检测到的音频波形相关联的文字。

图2C展示图2A和2B的结果。如图2C中所展示，装置100的显示器组件114显示发给马特的消息，其包含文字“马特，你可以把查尔斯转发给你的消息发送给我么”。在不使用手势来在第一正常模式与给予替代性含义的第二替代性模式之间切换的情况下，所检测到的音频波形可能以将与图2C中所展示的情况不一致的多种不同方式进行处理。举例来说，处理组件106可能将词语“发送”、“消息”或“转发给”中的“转发”中的任一者处理成命令，导致发送或转发不准确的消息。然而，通过使所检测到的手势与所检测到的音频波形相关并且将所检测到的手势的时间戳与所检测到的音频波形的时间戳相匹配，处理组件106理解用户120何时希望所检测到的音频波形以替代性模式进行处理以给予所检测到的音频波形替代性含义，和用户何时希望所检测到的音频波形以第一正常模式进行处理以给予所检测到的音频波形第一正常含义。

图3A到3F图解说明与一些实施例一致的一种基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。如图3A中所展示，用户120可以向装置100口述词语串，并且使用手势来在第一或正常模式与第二替代性模式之间切换，在所述第二替代性模式中所检测到的音频波形可以被给予替代性含义。与一些实施例一致，与所检测到的来自用户120的音频波形相关联的电信号可以是与词典中的一或多个含义相关联，其中用户可以通过使用手势来从第一或正常含义切换成替代性含义。第一或正常含义可以对应于与对应于所检测到的词语串中词语音频波形的电信号相关联的文字，并且替代性含义对应于命令或标点。举例来说，麦克风118检测来自用户120的音频波形，其在由系统时钟124确定的时间戳处生成电信号。在第一模式中，如图3A中所展示，处理组件106可以处理电信号以生成文字“电子邮件”。然而，手势检测传感器122检测到用户120作出手势，所述手势具有由系统时钟124确定的时间戳。处理组件106接收对应于所检测到的手势的信号，记录时间戳，并且根据替代性模式处理在大约相同时间戳处来自麦克风118的电信号。与一些实施例一致，“电子邮件”的替代性模式可以由处理组件106处理成生成电子邮件消息的命令。

如图3B中所展示，麦克风118在由系统时钟124确定的时间戳处检测到来自词语串的音频波形，其生成电信号，所述电信号可以被处理成对应于文字“Luke at home”。因为在对应时间戳处通过手势检测传感器122未检测到手势，所以处理组件106将根据第一或正常模式处理电信号并且对词语串应用正常含义。如图3C中所展示，麦克风118在大约由系统时钟124确定的时间戳处检测到来自由用户120说出的词语的音频波形，其生成电信号，所述电信号在正常模式中可以被处理成对应于词语“在”的文字。然而，手势检测传感器122也在大约对应的时间戳处检测到手势，并且处理组件106将根据替代性模式处理电信号。与一些实施例一致，在替代性模式中，词语“at”的含义可以是标点符号，即“@”。

如图3D中所展示，麦克风118在由系统时钟124确定的时间戳处检测到来自词语串的音频波形，其生成电信号，所述电信号在正常模式中可以被处理成对应于文字“bluedot”。因为在大约对应的时间戳处通过手势检测传感器122未检测到手势，所以处理组件106将根据第一或正常模式处理电信号。如图3E中所展示，麦克风在由系统时钟124确定的时间戳处检测到来自由用户120说出的词语的音频波形，其生成电信号，所述电信号可以被处理成对应于词语“dot com”的文字。然而，手势检测传感器122也在大约对应的时间戳处检测到手势，并且处理组件106将根据替代性模式处理电信号。与一些实施例一致，替代性模式中对于词语“dot”的含义可以被处理成标点符号，即“.”，并且在替代性模式中对于词语“com”可能不存在任何含义。

图3E图解说明图3A到3E的结果。如图3E中所展示，通过组合音频检测与手势检测来切换模式，装置100已经生成待发送给电子邮件地址“Lukeathome@bluedot.com”的电子邮件。然而，常规系统可能具有推断词语“在(at)”和“点(dot)”应是词语还是标点符号的困难。然而，通过使所检测到的手势与所检测到的音频波形相关并且将所检测到的手势的时间戳与所检测到的音频波形的时间戳相匹配，处理组件106理解用户120何时希望所检测到的音频波形以替代性模式进行处理以给予所检测到的音频波形替代性含义，和用户何时希望所检测到的音频波形以第一或正常模式进行处理以给予所检测到的音频波形正常含义。

图4是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。出于图解说明的目的，将参考图1、2A-2C和3A-3F中的任一者描述图4。图4中所展示的方法可以按用于由装置100的处理组件106中的一或多个处理器执行的计算机可读指令的形式来实施。如图4中所展示，麦克风118可以检测来自用户120的音频波形输入(402)。根据一些实施例，音频波形输入可以是用户120出于语音听写或语音命令装置100的目的而向装置100说出的语音。通过麦克风118所检测到的音频波形可以生成电信号，所述电信号可以由处理组件106根据存储器108、110和112中任一者中的指令来处理，以基于含义词典来确定所述电信号的含义。所检测到的音频波形输入可以随后根据从系统时钟124接收的时间来加时间戳(404)。处理组件106可以随后根据正常或第一模式处理所检测到的音频波形。根据一些实施例，第一模式可以对应于语音听写模式，其中所检测到的音频波形被翻译成由显示器组件114显示的基于与所检测到的音频波形相关联的第一含义的文本。

手势检测传感器122随后可以检测无接触手势(406)。所检测到的手势可以随后根据从系统时钟124接收的时间来加时间戳(408)。处理组件106可以随后在音频波形的时间戳大致匹配所检测到的手势的时间戳时以第二模式处理所检测到的音频波形(410)。根据一些实施例，以第二模式处理所检测到的音频波形输入可以包含以例如命令或标点模式的第二模式处理所检测到的音频波形输入，以使得对应于由所检测到的音频波形生成的电信号的第二含义由处理组件106使用。第二含义可以对应于命令、标点或词语的同音异义词。

此外，不同模式可以对应于所检测到的不同无接触手势。举例来说，在一些实施例中，包含用户120举起其手臂并且使手掌面向装置100的接合手势(engagement gesture)在通过手势检测传感器122检测到时可以指示装置100的处理组件106以命令或标点模式处理所检测到的音频波形。在一些实施例中，包含用户120用手遮盖手势检测传感器122的遮盖手势可以指示装置100的处理组件106以命令或标点模式处理所检测到的音频波形。这些手势也可以由装置100理解成指示处理组件106以除命令或标点模式之外的其它模式处理所检测到的音频波形。其它模式可以包含修正模式，其中用户120可以作出手势以指示其希望修正对应于所检测到的由用户120说出的音频波形的一或多个词语、字母、符号或显示在显示器组件114上的其它文字。举例来说，在一些实施例中，通过传感器122所检测到的向左短滑动可以由处理组件106解译为重写前一个词语。另一个模式可以包含文字音标发音模式，其中用户120可以作出手势以指示，例如与正确或公认的拼写相反，其希望得到与所检测到的音频波形的文字或音标发音相关联的的拼写。用于激活这些模式的手势可以是例如上文所描述的接合或遮盖手势，或其可以是不同的手势。其它手势可以包含摆手、手的运动或手势检测传感器122可以被程序化成用于检测的其它有意动作。

图5是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。出于图解说明的目的，将参考图1、2A-2C和3A-3F中的任一者描述图5。图5中所展示的方法可以按用于由装置100的处理组件106中的一或多个处理器执行的计算机可读指令的形式来实施。如图5中所展示，麦克风118可以检测来自用户120的初始音频波形输入(402)。根据一些实施例，音频波形输入可以是用户120出于语音听写或语音命令装置100的目的而向装置100说出的语音。通过麦克风118所检测到的音频波形可以生成电信号，所述电信号可以由处理组件106根据存储器108、110和112中任一者中的指令来处理，以基于含义词典来确定所述电信号的含义。当检测到初始音频波形输入时，装置100可以通过激活手势检测传感器122来启动手势检测(504)，或在一些实施例中，手势检测可能已经开启。根据一些实施例，手势检测传感器122可以保持不作用以节约电力，直到检测到初始音频波形输入为止。所检测到的音频波形输入可以随后根据从系统时钟124接收的时间来加时间戳(506)。

手势检测传感器122可以判定是否检测到手势(508)。如果未检测到手势，那么处理组件106可以按第一模式处理所检测到的音频波形输入(510)。根据一些实施例，以第一模式处理所检测到的音频输入可以包含处理所检测到的音频波形输入，以使得对应于由所检测到的音频波形生成的电信号的第一含义由处理组件106使用。如果手势检测传感器122检测到手势，那么所检测到的手势根据从系统时钟124接收的时间来加时间戳(512)。处理组件106可以随后从所检测到的手势的时间起以第二模式处理所检测到的音频波形(514)。根据一些实施例，以第二模式处理所检测到的音频波形输入可以包含根据第二模式处理所检测到的音频波形输入，以使得对应于由所检测到的音频波形生成的电信号的第二含义由处理组件106使用。第二或替代性含义可以对应于命令、标点或词语的同音异义词。第二或替代性含义可以对应于命令、标点或词语的同音异义词。第二含义也可以允许用户修正前一个词语或字母，或可以允许用户使用词语的文字或音标拼写。

手势检测传感器122将继续判定是否检测到手势(516)，并且只要检测到手势，那么所述手势将被加时间戳(512)，并且处理组件106将从所检测到的手势的时间起以第二模式处理音频波形输入(514)。一旦未检测到手势，那么不再检测到手势的时间被加时间戳(518)，并且处理组件106将从不再检测到所述手势的时间起开始以第一模式处理音频波形输入(520)。根据一些实施例，以第一模式处理所检测到的音频输入可以包含处理所检测到的音频输入，以使得对应于由所检测到的音频波形生成的电信号的第一含义由处理组件106使用。处理组件将继续以第一模式处理音频波形输入(410)，直到检测到手势(408)为止。根据一些实施例，在不再通过麦克风118检测到音频波形输入之后，可以停止通过手势检测传感器122的手势检测以便节约电力。

图6A到6G图解说明与一些实施例一致的一种基于所检测到的手势来以第一模式和第二模式处理所检测到的音频波形的系统的实例。图6A-6G中所展示的实例系统类似于图2A-2C和3A-3F中所展示的系统，除了在图6A-6G中所展示的系统中，装置100在检测到手势之后以第二模式处理所检测到的音频波形，并且持续以第二模式处理所检测到的音频波形，直到检测到后续手势为止。如图6A中所展示，用户120可以作出手势，所述手势通过手势检测传感器122检测并且具有由系统时钟124确定的时间戳。根据图6A-6G中所展示的实例，装置的处理组件106可以从大致所检测到的手势的时间戳起以第二模式处理所检测到的音频波形，直到大致后续所检测到的手势的时间戳为止。

如图6B中所展示，麦克风118可以检测来自用户的音频波形，其在由系统时钟124确定的时间戳处生成电信号。所检测到的对应于词语“电子邮件”、“John”、“at”、“doe”、“dot”和“com”的音频波形可以具有存储器108到112中任一者中的词典中的一或多个含义。因为在早于所检测到的音频波形时间戳的时间戳处并且在检测到后续手势之前检测到手势，所以所述音频波形可以按第二模式进行处理并且被给予第二含义。第二含义可以是命令或标点。根据一些实施例，在第二模式中，词语“电子邮件”可以被给予以下含义：生成发给以下电子邮件地址的电子邮件的命令。词语“John”可能不具有第二含义，并且在第二模式中可以被给予与第一模式中相同的含义。词语“at”在第二模式中可以被给予如标点符号“@”的含义。词语“doe”可能不具有第二含义，并且在第二模式中可以被给予与第一模式中相同的含义。词语“dot”在第二模式中可以被给予如标点符号“.”的含义。词语“com”可能不具有第二含义，并且在第二模式中可以被给予与第一模式中相同的含义。

如图6C中所展示，用户120作出手势，所述手势可以通过手势检测传感器122检测并且可以具有根据系统时钟124的时间戳。装置100的处理组件106可以根据第一模式处理后续所检测到的音频波形，以使得处理组件106从与所检测到的手势相关联的的时间戳起给予所检测到的音频波形第一含义。如图6D中所展示，麦克风118可以检测来自用户的音频波形，其在由系统时钟124确定的时间戳处生成电信号。所检测到的对应于词语“约翰(John)”、“请(please)”、“接下来(upcoming)”、“一段时间(period)”、“电子表格(spreadsheet)”、“电子邮件(e-mail)”和“我(me)”的音频波形可以具有在存储器108-112中任一者中的词典中的一或多个含义。因为在早于所检测到的音频波形时间戳的时间戳处检测到后续手势，所以所述音频波形可以按第一模式进行处理并且被给予第一含义。第一含义可以对应于由显示器组件114显示的文字。

如图6E中所展示，用户120作出手势，所述手势可以通过手势检测传感器122检测并且可以具有根据系统时钟124的时间戳。装置100的处理组件106可以根据第二模式处理后续所检测到的音频波形，以使得处理组件106从与所检测到的手势相关联的的时间戳起给予所检测到的音频波形第二含义。如图6E中所展示，麦克风118可以检测来自用户的音频波形，其在由系统时钟124确定的时间戳处生成电信号。所检测到的对应于词语“句号(period)”的音频波形可以具有在存储器108-112中任一者中的词典中的一或多个含义。因为在早于所检测到的音频波形时间戳的时间戳处并且在已经检测到后续手势之前检测到手势，所以所述音频波形可以按第二模式进行处理并且被给予第二含义。第二含义可以对应于与所检测到的音频波形相关联的标点。

图6G图解说明图6A-6F的结果。如图6G中所展示，已经产生发给john@doe.com的电子邮件消息，其包含消息“约翰，请把接下来一段时间的电子表格用电子邮件发给我。”如图6A-6G中所展示，词语“电子邮件(e-mail)”和“一段时间/句号(period)”可以具有至少第一模式中的第一含义和第二模式中的第二含义，其中用户120可以通过使用手势来限定模式，并且因此限定含义。尽管图6A-6G已经被描述为具有对应于文字的第一模式和对应于命令或标点的第二模式，但也可以包含其它模式。其它模式可以包含修正模式、或文字或音标发声模式。这些其它模式可以替代所描绘的第二模式，或是第二模式的附加。

图7是图解说明与一些实施例一致的一种以第一模式和第二模式处理所检测到的音频波形的方法的流程图。出于图解说明的目的，将参考图1和6A-6G中的任一者描述图7。图7中所展示的方法可以按用于由装置100的处理组件106中的一或多个处理器执行的计算机可读指令的形式来实施。如图7中所展示，麦克风118可以检测来自用户120的初始音频波形输入(702)。根据一些实施例，音频波形输入可以是用户120出于语音听写或语音命令装置100的目的而向装置100说出的语音。通过麦克风118所检测到的音频波形可以生成电信号，所述电信号可以由处理组件106根据存储器108、110和112中任一者中的指令来处理，以基于含义词典来确定所述电信号的含义。当检测到初始音频波形输入时，装置100可以通过激活手势检测传感器122来启动手势检测(704)，或在一些实施例中，手势检测可能已经开启。根据一些实施例，手势检测传感器122可以保持不作用以节约电力，直到检测到初始音频波形输入为止。所检测到的音频波形输入可以随后根据从系统时钟124接收的时间来加时间戳(706)。

手势检测传感器122可以判定是否检测到手势(708)。如果未检测到手势，那么处理组件106可以按第一、正常和/或默认模式处理所检测到的音频波形输入(710)。根据一些实施例，以第一模式处理所检测到的音频输入可以包含处理所检测到的音频波形输入，以使得对应于由所检测到的音频波形生成的电信号的第一含义由处理组件106使用。如果手势检测传感器122检测到手势，那么所检测到的手势根据从系统时钟124接收的时间来加时间戳(712)。处理组件106可以随后从所检测到的手势的时间戳起以第二模式处理所检测到的音频波形(714)。根据一些实施例，以第二模式处理所检测到的音频波形输入可以包含根据第二模式处理所检测到的音频波形输入，以使得对应于由所检测到的音频波形生成的电信号的第二含义由处理组件106使用。第二或替代性含义可以对应于命令、标点或词语的同音异义词。举例来说，第二含义也可以允许用户修正前一个词语或字母，或可以允许用户使用词语的文字或音标拼写。

手势检测传感器122将继续判定是否检测到手势(716)，并且处理组件106将从所检测到的手势的时间起以第二模式处理音频波形输入(714)。在图7中所图解说明的实施例中，以第二模式处理音频波形输入可以继续，直到检测到后续手势为止。一旦检测到后续手势，那么检测到后续手势的时间被加时间戳(718)，并且处理组件106将从检测到所述后续手势的时间起开始以第一模式处理音频波形输入(720)。根据一些实施例，以第一模式处理所检测到的音频输入可以包含处理所检测到的音频输入，以使得对应于由所检测到的音频波形生成的电信号的第一含义由处理组件106使用。处理组件106可以继续以第一模式处理音频波形输入(710)，直到检测到另一个手势为止(708)。图7中所展示的方法可以允许用户120用手势切换成第二模式，并且随后用手势切换回第一模式，所述手势例如相同手势或另一个手势(例如模式结束手势)。尽管图7描述用手势在第一模式与第二模式之间切换，但可以通过手势检测传感器检测其它手势以用于切换成其它模式。

举例来说，其它模式可以包含修正模式。举例来说，用户120可能能够进入修正模式，其中在所述修正模式中给予某些词语一个含义以允许用户修正已经以文字形式显示在显示器组件114上的词语。此类词语可以包含“删除(delete)”、“修复(fix)”、“我想说(Imean)”、“我是说(I meant)”、“哎呀(oops)”、“修正(correct)”、“返回(back)”和“替换(replace)”。这些词语在以由所检测到的手势指示的修正模式处理时可以是被给予删除或替换前一个词语的第二含义。在一些实施例中，仅在伴随有某一手势(例如向左短滑动手势)时以修正模式处理这些词语。

其它模式可以包含文字或音标翻译模式。举例来说，某些所检测到的音频波形的拼写可能不同于对应于文字或音标拼写的第一或正常拼写。在一些实施例中，文字或音标拼写可以由处理组件106自动修正并且被给予第一或正常拼写。举例来说，如果用户说出“海滩/玩家(playa)”作为西班牙语词语的错误读音或作为英语俚语，那么处理组件对此词语的拼写可能对应于正确英语术语“玩家(player)”。此词语可能具有第二拼写，即俚语词语或海滩的西班牙语词语，并且用户120可以通过作出手势来具体指示那是所需的拼写。

这些其它模式可以对应于如在图中所提及的第二模式，或第三、第四或任何其它模式。与一些实施例一致，对应于所检测到的音频波形的电信号可以被给予存储于存储器108-112中任一者中的词典中的一或多个含义。一些音频波形可能具有两个含义，其中手势可以用于在所述含义之间切换。一些音频波形可能具有多个含义，其中多个手势可以用于在所述含义之间切换。所述含义可以包含如上文所描述的标点、命令、修正、和文字或音标含义。所述含义也可以对应于对应于某些词语的群组。举例来说，词语“朋友”可以具有将词语文字显示在显示器组件114上的第一含义。所述词语也可能具有是指已经标记为朋友的联系人群组的第二含义，以使得用户120作出手势并且说出“发电子邮件给朋友”可以被解译为以下命令：产生发给所有标记为“朋友”的联系人的电子邮件。第二或替代性含义也可以是用户自定义的，以使得用户120可以将不同含义应用于词语或短语上，并且随后通过作出手势来切换成此含义。

根据本发明,软件(例如程序代码和/或数据)可以存储在一或多个机器可读媒体(包含非暂时性机器可读媒体)上。还预期本文所标识的软件可以使用一或多个联网和/或未联网的通用或专用计算机和/或计算机系统来实施。在适用的情况下，本文所描述的各种步骤的次序可以改变、组合为复合步骤和/或分成子步骤以提供本文所描述的特征。

因此，如本文所描述的实施例可以通过允许用户使用手势限定词语或词语串何时应该以替代性模式进行处理以具有替代性含义(例如命令、标点符号或动作)来提供对目前语音听写解决方案的改进。此外，通过由比较词语和手势的时间戳来在模式之间切换，如本文所描述的实施例可以提供在切换模式时提供更多准确性并且能够考虑到用户在作出手势时引入的任何时延的系统和方法。上文所提供的实例仅是示例性的，而并不意图是限制性的。所属领域的技术人员可以容易地设计与所揭示实施例一致的意图处于本发明范围内的其它系统。因此，本申请案仅受以下权利要求书的限制。

Claims

1.一种用于以第一模式和第二模式处理所检测到的音频波形的系统，所述系统包括：

麦克风，所述麦克风经配置用于检测一或多个音频波形；

手势检测传感器，所述手势检测传感器经配置以检测对应于不同处理模式的一或多个无接触手势；

系统时钟，所述系统时钟经配置以提供用于通过所述麦克风所检测到的所述一或多个音频波形的时间戳和用于通过所述手势检测传感器所检测到的所述一或多个无接触手势的时间戳，所述用于所述一或多个无接触手势的时间戳指示每一经无接触手势的起始时间和结束时间；

缓冲器，所述缓冲器经配置以存储所述一或多个音频波形以及关于所述一或多个无接触手势的信息；以及

一或多个处理器，所述处理器经配置以进入所述第二模式且在所检测到的音频波形的时间戳在第一时间戳和第二时间戳之间时，选择性地以所述第二模式处理存储在所述缓冲器中的所述所检测到的音频波形，其中所述第一时间戳为通过所述手势检测传感器所检测到的对应于所述第二模式的第一无接触手势的时间戳，所述第二时间戳与所述一或多个无接触手势的其中一者相关联。

2.根据权利要求1所述的系统，其中所述一或多个处理器进一步经配置以在所述所检测到的音频波形的时间戳在所述第一时间戳之前或在所述第二时间戳之后以所述第一模式处理所检测到的音频波形。

3.根据权利要求1所述的系统，其进一步包括存储器，所述存储器存储用于以所述第一模式处理的所检测到的音频波形的第一含义和用于以所述第二模式处理的一些所检测到的音频波形的第二含义。

4.根据权利要求3所述的系统，其中所述第二含义包括命令、标点符号和动作中的至少一者。

5.根据权利要求4所述的系统，其中所述第一含义包括与所述所检测到的音频波形相关联的文本。

6.根据权利要求1所述的系统，其中所述手势检测传感器包括相机、超声换能器、阴影检测器和红外传感器中的至少一者。

7.根据权利要求1所述的系统，其进一步包括显示器，所述显示器经配置以显示指示所述所检测到的音频波形何时以所述第二模式进行处理的反馈。

8.根据权利要求1所述的系统，

其中所述一或多个无接触手势中的每一者对应于多种模式中的相应模式，并且

其中所述一或多个处理器经配置以在下列情况下选择性地以所述多种模式中的一种模式处理通过所述麦克风所检测到的音频波形：

所述所检测到的音频波形的时间戳在通过所述手势检测传感器所检测到的所述一或多个无接触手势中的一个无接触手势的开始和对应于所述一个无接触手势的结尾之间，其中所述一个无接触手势对应于所述一种模式；或者

所述所检测到的音频波形的时间戳在对应于所述一个无接触手势的所述开始的时间戳和对应于下一经检测无接触手势的开始的时间戳之间。

9.根据权利要求1所述的系统，其中从所述缓冲器向所述一或多个处理器提供所述所检测到的音频波形以用于基于通过所述手势检测传感器所检测到的所述一或多个无接触手势来进行处理。

10.根据权利要求1所述的系统，其中所述一或多个处理器经配置以在所述麦克风检测到音频波形时使用所述手势检测传感器启用手势检测程序。

11.根据权利要求10所述的系统，其中所述手势检测传感器是不作用的，直到确定所述所检测到的音频波形是人类语音为止。

12.一种用于以第一模式和第二模式处理所检测到的音频波形的方法，所述方法包括：

通过麦克风检测一或多个音频波形；

给所述所检测到的一或多个音频波形加时间戳；

通过手势检测传感器检测对应于一或多个模式的一或多个无接触手势；

给所述所检测到的一或多个无接触手势的起始时间和结束时间加时间戳；

将所述一或多个音频波形以及与所述一或多个无接触手势相关联的信息存储在缓冲器中；以及

进入所述第二模式且由一或多个耦合到所述麦克风的处理器来当所述一或多个音频波形中的一个音频波形的时间戳在第一时间戳和第二时间戳之间时，选择性地以所述第二模式处理所述一个音频波形，其中所述第一时间戳为通过所述手势检测传感器检测到的对应于所述第二模式的第一无接触手势的时间戳，所述第二时间戳与所述一或多个无接触手势中的一者相关联。

13.根据权利要求12所述的方法，

其中所述第一无接触手势的所述第一时间戳对应于所述第一无接触手势的开始；且

其中所述第二时间戳对应于所述第一无接触手势的结尾或对应于所述第一模式的下一经检测无接触手势的开始。

14.根据权利要求12所述的方法，其进一步包括在当所述音频波形的时间戳在所述第一时间戳之前或在所述第二时间戳之后未检测到所述无接触手势的情况下以所述第一模式处理所述音频波形。

15.根据权利要求13所述的方法，其中以所述第二模式处理所述音频波形包括使所述音频波形输入与不同于对应于所述第一模式的第一含义的含义相关。

16.根据权利要求15所述的方法，其中所述不同于所述第一含义的含义包括命令、标点符号和动作中的至少一者。

17.根据权利要求16所述的方法，其中所述第一含义包括与所述音频波形相关联的文本。

18.根据权利要求12所述的方法，其中检测所述一或多个无接触手势包括使用相机、超声换能器、阴影检测器和红外传感器中的至少一者来检测是否执行所述一或多个无接触手势。

19.根据权利要求12所述的方法，其中以所述第二模式处理所述音频波形包括生成指示所述音频波形以所述第二模式进行处理的音频或视觉反馈。

20.根据权利要求12所述的方法，

其中所述一或多个无接触手势中的每一者对应于所述一或多个模式中的相应一者，且

其中选择性处理包括在下列情况下选择性地以对应于所述一或多个无接触手势中的一个无接触手势的所述一或多个模式中的一模式处理所述音频波形：

所述音频波形的时间戳在对应于通过所述手势检测传感器所检测到的所述一个无接触手势的开始的时间戳和对应于所述一个无接触手势的结尾的时间戳之间；或者

所述音频波形的时间戳在对应于所述一个无接触手势的所述开始的所述时间戳和对应于所述一或多个无接触手势中的下一所检测到的无接触手势的开始的时间戳之间。

21.根据权利要求12所述的方法，其进一步包括：

当检测到所述一或多个无接触手势时提供来自所述缓冲器的所述一或多个音频波形。

22.根据权利要求12所述的方法，其进一步包括响应于所述麦克风检测到音频波形而启用手势检测程序。

23.一种非暂时性计算机可读媒体，其包含在由一或多个处理器执行时使所述一或多个处理器执行用于以第一模式和第二模式处理所检测到的音频波形的方法的指令，所述方法包括：

检测一或多个音频波形；

给所述所检测到的一或多个音频波形加时间戳；

检测对应于一或多个模式的一或多个无接触手势；

将所述一或多个音频波形以及与所述一或多个无接触手势相关联的信息存储在缓冲器中；以及进入所述第二模式且当所述一或多个音频波形中的一个音频波形的时间戳在第一时间戳和第二时间戳之间时，选择性地以所述第二模式处理所述音频波形输入，其中所述第一时间戳为通过所述手势检测传感器所检测到的对应于所述第二模式的所述一或多个无接触手势中的第一无接触手势的时间戳，所述第二时间戳与所述一或多个无接触手势中的一者相关联。

24.一种用于以第一模式和第二模式处理所检测到的音频波形的系统，所述系统包括：

用于检测一或多个音频波形并且给所述一或多个音频波形加时间戳的装置；

用于检测对应于一或多个模式的一或多个无接触手势并且给所述所检测到的一或多个无接触手势的每一者的开始时间和结束时间加时间戳的装置；

用于存储所述一或多个音频波形以及关于所述一或多个无接触手势的信息的装置；

用于进入所述第二模式且在来自所述一或多个音频波形的一个音频波形的时间戳在第一时间戳和第二时间戳之间时，选择性地以所述第二模式处理所述音频波形的装置，其中所述第一时间戳为对应于所述第二模式的所述一或多个无接触手势中的第一经检测无接触手势的时间戳，所述第二时间戳与所述一或多个无接触手势的其中一者相关联。

25.根据权利要求24所述的系统，其中所述第一经检测无接触手势的所述第一时间戳对应于所述第一经检测无接触手势的开始；且

其中所述第二时间戳对应于所述第一经检测无接触手势的结尾或对应于所述第一模式的下一经检测无接触手势的开始。

26.根据权利要求24所述的系统，其中所述用于选择性处理的装置在所述音频波形的时间戳在所述第一时间戳之前或者在所述第二时间戳之后以所述第一模式处理所述音频波形。

27.根据权利要求24所述的系统，其中所述用于选择性处理的装置通过使所述音频波形与不同于对应于所述第一模式的第一含义的第二含义相关来以所述第二模式处理所述音频波形。

28.根据权利要求27所述的系统，其中所述不同于所述第一含义的第二含义包括命令、标点符号和动作中的至少一者。

29.根据权利要求28所述的系统，其中所述第一含义包括与所述音频波形相关联的文本。

30.根据权利要求24所述的系统，其中所述用于检测所述一或多个无接触手势的装置包括相机、超声换能器、阴影检测器和红外传感器中的至少一者。

31.根据权利要求24所述的系统，其中所述用于选择性处理的装置生成指示所述音频波形以所述第二模式进行处理的音频或视觉反馈。

32.根据权利要求24所述的系统，

其中所述一或多个无接触手势中的每一者对应于多种模式中的相应模式，且

其中所述用于选择性处理的装置包括：

在下列情况下选择性地以对应于所述一或多个无接触手势中的一个无接触手势的所述多种模式中的一种模式处理所述音频波形：

所述音频波形的时间戳在对应于所述一个无接触手势的所述开始的所述时间戳和对应于所述一或多个无接触手势中的下一经检测无接触手势的开始的时间戳之间。

33.根据权利要求24所述的系统，

其中用于存储所述音频波形的装置在所述用于检测所述一或多个无接触手势的装置检测到所述一或多个无接触手势时将所存储的音频波形提供到所述用于选择性处理的装置。