CN105009202A - 分为两部分的语音识别 - Google Patents
分为两部分的语音识别 Download PDFInfo
- Publication number
- CN105009202A CN105009202A CN201380074058.4A CN201380074058A CN105009202A CN 105009202 A CN105009202 A CN 105009202A CN 201380074058 A CN201380074058 A CN 201380074058A CN 105009202 A CN105009202 A CN 105009202A
- Authority
- CN
- China
- Prior art keywords
- order
- dialog box
- wearing
- determinacy
- head type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/017—Head mounted
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
- G06F1/3215—Monitoring of peripheral devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G02—OPTICS
- G02B—OPTICAL ELEMENTS, SYSTEMS OR APPARATUS
- G02B27/00—Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
- G02B27/01—Head-up displays
- G02B27/0101—Head-up displays characterised by optical features
- G02B2027/014—Head-up displays characterised by optical features comprising information/image processing systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Abstract
呈现了针对用于控制装置的语音识别系统的改进。特征包括两级确认,两级受限语音识别模式以及用于语音驱动的应用和系统的两级唤醒。一种头戴式计算机装置包括这种分级的确认操作。
Description
相关申请
本申请要求2013年1月4日提交的美国临时申请号61/749,243的权益。下文具有与2008年1月8日提交的美国申请号12/008,114、2008年1月8日提交的美国申请号12/008,104,和2012年5月10日提交的美国申请号13/468,207相关的主题。上述申请以其全部内容并入本文。
背景技术
语音识别(ASR)系统用于控制装置。对于多数情况,ASR系统工作良好并允许用户以高精确度操纵并控制系统。
然而,存在高精确度不足的且只有100%的精度是可接受的一些情景,或者存在这样一些情景,即,我们完全不能让ASR由于噪音而意外地触发,或将说出的对话误解译为真实的命令。
发明内容
本发明解决现有技术中的上述问题和缺点。为应对上述情况,申请人设计了两级确认处理。
具体地,本发明的ASR实施例提供如下特征:
两级确认;
两级受限语音识别模式,和/或
针对语音驱动系统的两级唤醒。
在一个优选实施例中,本发明涉及计算机应用中语音控制的方法,其中,提供了具有麦克风和显示器的头戴式计算机,其经由麦克风接收声音输入,使用耦合到头戴式计算机的语音识别引擎来处理声音输入。作为该处理的部分,语音识别引擎用于解译声音输入,以确定其是否为针对具有关键性水平的动作的命令,该关键性水平满足或超过阈值关键性水平,即,所谓的关键性命令。如果确定命令是关键性命令,则第一对话框被显示在显示器上并且在用户处,并使与命令相关联的动作表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。在另一个实施例中,在本段上文中描述的方法进一步涉及具有自动超时能力的第一对话框,或关键性命令是头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。
在另一个优选实施例中,方法进一步涉及经由麦克风接收对应于第一对话框中的提示的第一确定性表述;以及响应于对第一确定性表述的接收,在显示器上显示第二对话框,头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。在其他实施例中,本段上文中描述的方法发进一步涉及具有自动超时能力的第二对话框,或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。在又另一个实施例中,第一确定性表述和第二确定性表述彼此不同。
计算机系统、头戴式计算机、装置和设备可以实施上述方法。实现上述方法的另外其它实施例包括计算机程序产品。
在一个优选实施例中,本发明涉及语音控制装置,其提供了具有显示器和麦克风头戴式计算机,麦克风配置为接收声音输入;包括语音识别引擎,配置为解译声音输入,并作为解译的部分,确定声音输入是否为具有关键性水平的动作的命令,该关键性水平满足或超过阈值关键性水平,所述命令为关键性命令;以及处理器,其通信地耦合到语音识别引擎。响应于语音识别引擎对声音输入是关键性命令的确定,处理器配置为在显示器上显示第一对话框,使动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。在另一实施例中,本段上文描述的语音控制装置进一步涉及具有自动超时能力的第一对话框或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。
在另一个优选实施例中,装置进一步涉及经由麦克风接收第一确定性表述,其对应于第一对话框中的提示;并响应于对第一确定性表述的接收,在显示器上显示第二对话框,头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。在又另一个实施例中,本段上文描述的装置进一步包括具有自动超时能力的第二对话框或关键性命令是令头戴式计算机从低功耗睡眠模式或受限语音识别模式中解除的命令。在又另一个实施例中,第一确定性表述和第二确定性表述彼此不同。
在又另一个优选实施例中,本发明涉及头戴式计算机,其包括显示器;接收声音输入的麦克风;语音识别引擎,其被配置为解译声音输入,并作为解译的部分,确定声音输入是否为具有关键性水平的动作的命令,该关键性水平满足或超过阈值关键性水平,所述命令为关键性命令;以及处理器,其通信地耦合到语音识别引擎。响应于语音识别引擎对声音输入是关键性命令的确定,处理器被配置为在显示器上显示第一对话框,并使所述动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。
附图说明
通过下面对如附图中所描述的本发明的示例实施例的更为具体描述,上述内容将更清楚,其中贯穿不同视图的相同参考标记指代相同部件。附图不一定按比例,而是为了说明本发明的实施例而进行了强调。
图1是体现本发明的计算机网络的示意图。
图2是图1的实施例中的计算机节点的框图。
图3是实施根据本发明的ASR中两级确认的头戴式计算机的示意图。
图4是具有两级受限语音识别的语音驱动系统用户界面的示意性图示。
图5是根据本发明的具有两级确认的用户界面的示意图性图示。
图6是语音驱动系统中两级唤醒的示意性图示。
图7是实施根据本发明的ASR中两级确认的头戴式计算机的框图。
具体实施方式
下文是对本发明示例实施例的描述。
图1图示了本发明可被实施的多种计算机网络或类似的数字处理环境中的一种。图1描绘了客户端计算机/装置50和服务器计算机60,其可提供与执行应用程序等相关联的处理、存储和输入/输出装置。这些装置经由链路(例如,链路107)被连接到网络70。网络70可以是远程访问网络、全球网络(例如,互联网)、全球范围的计算机集合、局域网或广域网、或网关,或者其一部分,其当前采用各自的协议(TCP/IP、蓝牙等)相互通信。其它电子装置/计算机网络架构是适合的。网络70可相应地经由链路111连接到一个或多个额外的网络,诸如互联网210。链路107和111可采用多种物理形式,例如,有线的和无线的,并可采用多种信号和协议执行通信。
在实施例中,客户端计算机/装置50被佩戴在头上并使用运动和语音命令来控制信息的显示,以及远程装置等,如由申请人申请的申请号为12/008,114、12/008,104和13/468,207的美国专利申请中所详细说明的,并且将其作为参考并入本文。这些头戴计算装置可采用多种形式,如头部配戴计算机、头部固定显示器装置和头戴式计算机。这些头部配戴计算装置在此被称为“头戴式计算装置”或HSC100,并且将在下文进一步描述HSC 100的实施例。
HSC 100可以多种方式被配置并使用。在一些实施例中,HSC100可直接连接到计算机网络70。在其它实施例中,如图1中描绘的,HSC 100经由远程主机计算装置200连接到计算机网络70,HSC100经由链路150与远程主机计算装置200通信。在操作中,HSC 100可以被用作例如从远程主机计算装置200接收的流视频信号的远程显示器。
多种装置可用作远程主机计算装置200,包括例如笔记本PC、智能电话、平板装置或具有比无线计算头戴式装置100更小和更大计算复杂性的其它计算装置,如基于云的网络资源。主机200可进一步直接或由网络70连接到额外网络,诸如互联网210、有线电视网络、第三方数据网络等。
多种链路150可被用于使能头戴式HSC 100和主机200之间的通信。在实施例中,链路150是无线链路,并且通信经由一个或多个无线协议,诸如、WiFi、WiMAX或4G LTE(Bluetooth是5209Lake Washington Boulevard,Kirkland,Washington 98033的Bluetooth Sig,Inc.的注册商标)。在示例实施例中,如图1中描述,主机200经由连接109连接到网络70,连接109可以是无线连接,且网络70也可以连接到互联网210或其它基于云的网络资源,以使得主机200可以作为无线中继。在其它实施例中,主机200被直接连接到互联网210或其它基于云的资源。此外,HSC 100的一些示例实施例可以无线连接到互联网和基于云的网络资源而不使用主机无线中继。
客户端计算机/装置50、HSC 100和主机200可以通过通信网络70链接到其它计算装置,包括其它客户端装置/处理器50、服务器计算机60、HSC 100和主机200。
图2是图1的示例性计算机网络中计算机(例如,客户端处理器/装置50、100、200或服务器计算机60)的内部机构的框图,即下文中的计算机50、60、100、200。计算机50、60、100、200包含系统总线79,其中总线是用于在计算机或处理系统的组件间传递数据的硬件线路的集合。系统总线79本质上是连接计算机系统的不同元件(例如处理器、磁盘存储装置、存储器、输入/输出接口、网络接口等)的共享通道,其使能元件之间的信息传输。如图2所示,若干元件附接到系统总线79。
输入/输出(I/O)装置接口82将各种输入和输出装置(例如键盘、鼠标、显示器、打印机、扬声器等)连接到计算机50、60、100、200。中央处理器单元84提供计算机指令的执行。网络接口86允许计算机50、60、100、200连接到附接到网络(例如,图1的网络70)的各种其它装置。存储器90为计算机软件指令提供易失性存储装置,诸如处理器例程92和用于实施本发明实施例的相关数据94(例如下文详细描述的两级语音识别引擎,用户界面和支持代码)。磁盘存储装置95为用于实施本发明实施例的计算机软件指令(如OS程序97和相关联的数据99)提供非易失性存储装置。
在一个实施例中,处理器例程92和相关数据94是计算机程序产品(总体上标记为92),包括计算机可读介质(例如,非可移除和可移除存储介质,诸如一个或多个DVD-ROM、CD-ROM、软磁盘、磁带等),其提供用于本发明系统的至少部分软件指令。计算机程序产品92可通过如本领域已知的任何适当的软件安装程序安装。
在另一个实施例中,至少部分软件指令也可通过线缆、通信和/或无线连接下载。在其它实施例中,本发明的程序是计算机程序传播的信号产品107,其体现在传播介质上的传播信号上(例如无线电波、红外波、激光波、声波或通如互联网或其他网络传播的电波)。这种载体介质或信号提供用于本发明的例程/程序92的至少部分软件指令。
在其它实施例中,传播信号是在传播介质上承载的模拟载波或数字信号。例如,传播信号可以为在全球网络(例如互联网)、电信网络或其它网络上传播的数字化信号。在一个实施例中,传播的信号是在时间段内在传播介质上传递的信号,诸如在毫秒、秒、分或更长时段在网络上以包发送的软件应用的指令。
在又一实施例中,计算机程序产品92的计算机可读介质是计算机系统50可以诸如通过接收传播介质并识别体现在传播介质内的传播信号来接收并读取的传播介质,如上文计算机程序传播信号产品所描述。
一般来说,术语“载体介质”或暂态载体包括前述的暂态信号、传播信号、传播介质、存储介质等。
在实施例中,存储在存储器90或磁盘存储装置95内的处理例程程序指令或其它操作92实现根据本发明原理的具有两级确认的语音识别引擎。图3至7用于说明。
图3是示出了头戴式计算机100的实施例一些细节的透视图。HSC 100的实施例一般性地包含框架1000、带子1002、后壳体1004、扬声器1006、具有内置麦克风1015的悬臂(也称为臂或吊杆1008)以及具有显示器元件1011的微显示器子组件1010。
头部配戴框架1000和带子1002一般被配置使得用户可以在用户头上配戴HSC 100。后壳体1004一般是低外形单元,其容纳电子装置,诸如微处理器、存储器或其它存储装置,以及其它相关电路。扬声器1006向用户提供音频输出,以使得用户可以听到信息。麦克风1015允许用户提供音频输入并优选地被配置为接近用户的嘴以最大化信噪比,并且在一些实施例中可以采用方向性的麦克风。
微显示器子组件1010用于经由显示器元件1011向用户传递视觉信息,如高分辨率(VGA或更好)微显示器元件。也可使用其它显示器元件。子组件1010耦合到臂1008。尽管图3中所描述的是单眼微显示器,其呈现通过悬臂吊杆支撑在用户面部上的单个固定显示器元件,但应理解,用于远程控制显示器装置100的其它机械配置是可能的。
臂1008一般性地提供物理支撑,以使得微显示器子组件能够被定位在用户视野内,优选在用户眼前或优选地在略低于或高于眼睛的外围视线内。臂1008还提供在微显示器子组件1010和容纳在壳体单元1004内的控制电路之间的电子或光学连接。根据将在下文中更详细地阐述的方面,HSC 100允许用户在由显示器元件1011的虚拟显示器限定的更大区域内选择视野。用户通常可以控制视野的位置、延伸(例如,X-Y或3D范围)和/或放大倍率。
通常位于头戴式计算装置100壳体内的是各种电子电路,包括微型计算机(单核或多核处理器)、一个或多个有线和/或无线通信接口、存储器或存储装置、各种传感器和外围安装架或,如“热靴”的安装架。这些未单独的详细显示在图3中。
HSC 100可以包括除上文中针对图3所描述的那些之外或代替那些的广泛的多种装置和特征。这些包含广泛的多种音频输入和/或输出装置,包括一个或多个麦克风、输入和输出扬声器、地理位置传感器(GPS)、三到九轴自由度定向传感器、气压传感器、健康状况传感器、数字指南针、压力传感器、环境传感器、能量传感器、加速度传感器,位置、高度、运动、速度和/或光学传感器、摄像机(可见光,红外等),多个无线收音机、辅助照明设备、测距仪或类似,和/或传感器阵列,其嵌入和/或集成到头戴式装置和/或通过一个或多个外围接口附接到该装置(未在图3中详细示出)。
HSC 100的示例实施例可通过感测语音命令、头部运动和手势或其组合接收用户输入。陀螺仪、加速计或其它微-机电系统传感器可被集成到HSC 100并用于跟踪用户头部运动以提供用户输入命令。摄像机或其它移动跟踪传感器可被用于监视用户输入命令的用户手势。这种用户界面克服了其它移动装置的依赖于手的形式。
在示例性HSC装置100的操作中,装置从用户接收一个或多个广泛的多种输入,如(a)通过麦克风1015来自用户的语音输入,(b)经由位置和方向传感器,或经由摄像机或光学传感器的手部移动输入或身体姿势输入,以及(c)经由诸如3轴到9轴自由度定向传感之类的头部跟踪电路的头部移动输入。在优选实施例中。输入的至少一个输入是语音输入。
这些输入通过HSC装置100内的软件翻译成键盘和/或鼠标命令,其随后通过蓝牙或其它无线接口150被发送到主机200。主机200随后根据其自身操作系统/应用软件解译这些翻译的命令,以执行各种功能。在命令中,存在一个在虚拟显示器内选择视野并将选择的屏幕数据返回到HSC装置100的命令。因此,应理解,非常大幅的虚拟显示区域可以与主机200上运行的应用软件或操作系统相关联。然而,视野内仅部分的该较大虚拟显示区域被返回到HSC装置100的微显示器1011并被其实际显示。
在一个实施例中,HSC 100可以采用共同在审的美国专利公开号2011/0187640中所描述的HSC的形式,其全部内容作为参考被并入本文。在另一个实施例中,本发明涉及使用头部固定显示器(HMD)的概念,诸如1010和1011结合外部“智能”装置200(如智能电话或平板电脑),以为用户提供不需要手的信息和控制。本发明需要小量数据的传送,提供了实时运行的更为可靠的数据传输方法。
因此在这个意义上,通过连接150将被传送的数据量较小,仅仅是如何布局屏幕,哪些文本显示于屏幕和其它风格化信息,如绘画箭头或背景颜色、包括的图像等的简单指令。附加数据可以通过相同的150或其它连接流传输并显示在屏幕(诸如显示器元件1011)上,诸如如果主机200需要的视频流。
在实施例中,麦克风1015可操作地耦合或优选地集成到HSC100中,并可以被用于捕获语音命令,其随后被数字化并使用自动语音识别技术将其处理。
应当理解,一些命令(如果被执行)可能导致不可逆的后果,诸如删除文件。因此,需要保证这种命令不被错误地执行。
错误的源可以包括被系统100正确或不正确地识别为触发命令的例如伪音频输入(例如背景噪音)。用户也可能非故意地向麦克风1015提供音频/语音/声音输入,如与其他人进行对话而没有关闭或停用头戴式100上的语音命令。错误的另一个源是数字信号到被识别的语音内容的错误处理。语音识别引擎不总是可靠地将语音翻译为文本。这对于有口音的用户(相对于编程者预期的语音和语音模式)以及还未用他们声音“训练”语音引擎的用户会更有问题。
在可以使用HSC 100的环境和情况下,这些错误的源可能尤其严重。在紧急情况下,例如,如车辆事故情况、火灾、急诊室设置或包括在战斗中的军事设置,将在一定程度的背景噪音中穿戴装置。此外,精神压力可以改变语法和语音模式,这使语音识别更加困难。此外,HSC 100由第一响应者穿戴,其可与若干其它个体共享装置,降低了用户已“训练”语音识别引擎的相似性。在很多设置中,希望在一旦穿上后,将穿戴HSC 100达延长的时间段,例如在延长时间段的紧急情况、武装战斗、军事操作、手术和连续语音和/或视频通信的能力是需要的或关键的任何情况期间。因此,当直接与在他周围的其他人谈话时,用户可能不移开HSC 100,并且可能忽视关闭、禁用或将装置置于安全模式,以使得用户的语音没有被解译为意图的命令输入。
语音引擎的错误率也可取决于使用的麦克风的质量,用户的清晰度,是否存在背景噪音和语音引擎采用的算法和启发方法。在一些情况下,即使针对于文本的结论是推测的,但语音引擎仍可被编程以提供输出。而在很多情况下,尽管巧妙的推测可能是需要的,但其也可能增加命令或其它活动的非故意执行率。
本发明的方面涉及降低由语音/声音/音频输入造成的命令或其它活动委托的造成的非故意执行率,包括来自用户,来自头戴式计算机100的这种输入。在语音驱动的HSC 100的容易操作和经由声音输入的避免非故意操作之间可存在平衡。在一个极端,可以对一些类型的确认处理做出所有命令。在另一极端,对确认不做出任何命令。在一些情况下,较好方法是系统使用ASR引擎来处理音频输入,确定音频(基于声音)输入是否被识别为语音命令,并且如果被识别为语音命令,则评估与语音命令相关的动作的关键性。规则、表格或数据库查找表或其它数据结构94和程序配置可以储存在存储器90(图2),9120(图7)中并被采用以实施动作关键性的评估。评估的与将被执行的命令相关联的动作的关键性确定在执行命令前由HSC 100所要求的确认的程度。
例如,关键动作可能是不易于撤销或如果被错误执行将造成特别不希望后果的动作。示例可包含将导致文件永久删除、保密或敏感材料传输、周边装置激活等动作。在军事设置中,其中HSC 100用于激活能够引起破坏的系统或装置,包括潜在的致命系统,对于意外语音激活的保护的需要特别强烈。同时在这种设置中,需要不妨碍系统的使用(例如,动作的条件和/或延迟点火/实施/完成),除非完全需要避免潜在的灾难后果。
因此,根据本发明的方面,需要系统能够评估与推定地被识别地命令相关联的动作的关键性,并且如果关键,请求确认性输入。由本发明的方面寻求的确认可以以多种方式实现。
现转到图4至图6,呈现了根据本发明的在ASR应用中实施两级确认的用户界面屏幕视图的三个示例实施例。首先讨论示例1,其对应于图4的图示。示例2随后,其对应于图5的图示。最后呈现示例3,其对应于图6的图示。
示例1。在一个方面,本发明涉及语音驱动系统的一级或两级确认处理。例如,HSC 100可能解译并将语音声波输入识别为用于“删除文件”的命令。与该命令相关的动作是文件删除,并且这种未决工作可以被系统评估为关键。作为响应,如图4描绘的示例,在对话框410中对用户呈现屏幕上的选项,提供诸如“删除文件”或“取消”的选项。在这点上,ASR接管以监听两个命令“删除文件”或“取消”中的一个。在备选方案中,该动作可为标准操作程序,而不是仅响应于如上文描述被视为“关键”的未决动作而被请求。
然而,即使在这种使用一级确认的情况,仍存在ASR将意外将背景噪声或不意图作为命令的语音处理为由第一级对话框询问的确认或其它确认模式,并且执行不意图的动作的风险。在实践中,如果存在很多背景噪声,或系统对用户所说的内容进行误解译,以及出于可能导致首先需要包括确认屏幕的原因时,这可能发生。因此,为了使系统对任何主要动作是防误操作的,第二对话框420可以被置入以确认未决操作是有意的并且是用户希望的。
该第二对话框420可以额外包含自动超时或可选持续时间,如例如10秒。如果在该时间段内没有接收到可辨识的答复,则“取消”按钮将以编程方式被按下,对话框被消除且用户动作被取消。第二确定性对话框的外观也可以取决于未决动作被评估的关键性。
这有效阻止了由于噪音引发的意外触发。例如,在第一实例中,ASR可能将噪音误解译为“删除文件”命令。这虽不太可能,但会发生。在这一点上,系统100响应地采用第一对话框410后跟第二对话框420,以两级方式分段地询问确认。现在ASR将非常不可能在10秒的窗口内被噪音触发。如果10秒到时,“取消”动作将接着发生,将用户返回到他们的操作屏幕。
在另一方面,如果动作是如用户说出所意图的,则易于操控后跟第二确认框(屏幕视图)420的初始命令(对话框410)。
示例2。在另一方面,本发明涉及语音-驱动系统的一级或两级受限ASR模式。
HSC 100可被置于受限ASR模式,其中其不识别全部说出的命令或对其反应。这允许将ASR置于受限操作模式,该模式阻止其对我们说出词语做出反应。在我们具有不想改变的充满数据的屏幕而在观看屏幕的同时将加入到对话中的情况下,这将特别有用。在正常情况下,我们的活动对话会出发ASR,导致屏幕上的信息改变。
虽然这种受限ASR模式可以提供保护以免受偶然激活,但仍存在系统从该状态偶然解除的风险,诸如当解除由语音命令触发时。在此情况,环境噪音或不意图作为对HSC 100的命令的用户语音可能被ASR解译为解除命令,并触发从受限模式的偶然解除。
我们希望避免由于噪音或ASR误解译性的对话造成的意外唤醒,所以我们可以发出命令以将装置设为受限ASR模式,并随后依靠装置忽略全部说出的短语直到发出正确的双命令序列。例如,如果用户经由装置打电话,那么装置将可能想要切换到受限ASR模式,并提供用户单一的言语命令以“挂断电话”。
为了确定用户的确希望挂断电话,而不是在用户对话期间意外触发,可以使用如上文描述的两级确认。
例如,在受限ASR模式中,全部可用当前语音命令可以被仅一个诸如“计算机唤醒”之类的短语所替代。这可以通过参考图5看出,其示出了根据本发明方面的示例性对话框510、520。上文描述的相同一个短语或两个短语方式可以结合使装置从受限ASR模式恢复而使用。
通过识别触发词,对话框510提示用户确认用户希望系统从受限模式解除。可选地,如果用户说出提示短语(此处为“唤醒”),则唤醒按钮512可以变为激活形式,如例如强调或加粗,以确认输入已被接收和识别。如之前说明的,第二对话框520出现,以通过说出第二词,诸如“确认”(与按钮522相关联)来允许用户确认希望从受限模式中唤醒。备选地,用户可以发出“取消”(按钮524),来结束解除进程。也可以包括超时特征。
示例3。在本发明的另一方面,相同的两阶段方法可被用于使装置从低功率睡眠模式中恢复。在该睡眠模式中,我们可以关闭未使用的外围设备,降低主CPU速度,降低屏幕亮度或关闭屏幕并利用仅一个诸如“计算机唤醒”之类的短语替换全部可用当前语音命令。然而,我们不将装置设为完全睡眠模式;我们仅令ASR运行,监听唤醒短语。
如图6所示,在该模式中,我们现在仅听取一个唤醒命令,如对话框610所提示的,其可在睡眠模式操作期间永久地显示在屏幕的一部分内,或可响应于来自麦克风的音频输入而出现。如果对话框610提供的词(此处为“唤醒”(按钮612))被说出,在装置完全唤醒前(触发脱离睡眠/低功率模式)使用第二级对话框。第二对话框(屏幕视图)620包含确认指令和用户可选择的选项(例如“确定”按钮622和“取消”按钮624)。如果ASR基于噪音或随机对话触发第一短语,第二级确认将很可能不被触发,特别是当被编程以在10秒后超时的情况下(经由按钮624自动“取消”),将装置返回到其低功率睡眠模式。
应当意识到可以使用额外的方法和处理来降低音频输入被无意地识别为命令输入并像这样被处理的可能性。这些方法便于HSC 100在多种环境下操作,包括嘈杂环境和延长的使用时间段。在一些环境中,用户组使用HSC 100头戴装置,例如,头戴装置可彼此通信或与中央计算机通信,从而关于音频输入的信息可被共享,并且该共享的信息可被用于标识为背景噪音的声音。例如,其中相似声音同时被多个HSC麦克风接收,该声音可能为背景噪音,而不是用户的语音。
此外,背景噪音消减的形式可被用于改进语音音频信号质量。单个或多个HSC 100可装配有多个麦克风以检测背景噪音。该噪音随后被从置于HSC上以接收语音命令的麦克风中检测到的信号中减去。例如,两个麦克风可以被安装在相同的HSC 100上,一个位于和/或指向用户的嘴处,而另一个一般性地位于/指向远离用户的嘴,并通过第二麦克风检测实质上的背景噪音。该背景噪音同样可以是在第一麦克风处检测到的信号的分量,所以来自第二麦克风的信号可以从来自第一麦克风的信号中被减去以增强音频信号的语音分量的质量。
图7示出了示例性非限制无线免手持视频计算头戴装置,HSC100,其配置为在语音命令下操作,并示出了示意性模块。在该实施例中,头戴式装置包含微型显示器9010、扬声器9006和麦克风9020。麦克风9020被绘述为在臂9013的端部。在备选方案中,麦克风9012可被安装到连接到微型显示器9010的臂。
在HSC 100的操作中,用户可被呈现以微显示器9010上的图像,例如,如上文提到的作为由主机计算机200应用的输出。用户也可经由扬声器9006接收音频输出并经由麦克风9012提供语音输入9090。对于语音输入,当用户对麦克风9012讲话时,麦克风在模块9021a将模拟音频(声音)信号转换为数字信号。随后数字化的音频信号被语音识别引擎9035a处理以将数字化音频信号翻译为单词或其它符号。翻译后的信号随后可被用作处理器(诸如运行应用92的处理器84)的输入,其确定语音输入是否对应于命令,如果是,则触发适当的动作。特别地,处理器84确定与命令相关联的动作,评估相关联动作的关键性,并且对于超过阈值的被评估的关键性,将动作表现保持或条件化直到成功完成分级的(一个或多个)确认。例如,关键性阈值水平可以是在存储器9120中储存的、预设(预定义)参数(常量)。
对于语音驱动的应用中两级确认的情况,控制器9100访问两级确认模块9036,其可以本地地位于每个HSC 100或HMD或远程地位于主机200处。两级确认软件模块9036包含指令,以对用户显示相关信息框等的图像,诸如下文示例中提供的和在图4至图6中详细描述的。图形转换模块9040转换经由总线9103从两级确认模块9036接收到的图像指令并将指令转换为图形以显示在单眼显示器9010上。
同时,文本到语音模块9035b转换从两级确认软件模块9036接收到的指令以创建表示将被图像的内容的声音。指令被转换为数字声音,其表示对应的文本到语音模块9035b馈送到数模转换器9021b的图像内容,其进而被馈送给扬声器9006以将音频呈现给用户。
两级确认软件模块9036可被本地存储在存储器9120或远程储存在主机200处。用户可以说出/表达来自图像的命令选择并且用户的语音9090在麦克风9020处被接收。接收到的语音随后在模数转换器9021a处从模拟信号转换为数字信号。一旦语音从模拟转换为数字信号,语音识别模块9035a将语音处理为识别语音。识别出的语音与已知语音和根据指令9036的两级确认模块进行比较。
HSC 100或HMD的用户可以使用两级确认软件模块9036,其位于本地或来自远程主机200,其中用户被呈现有信息框、文本框或对话框的图像(例如图4至图6的420、520、620),要求在微型显示器9010上的用户确认和通过头戴式计算机100的扬声器9006传递的相同用户确认的音频。因为头戴式计算机100同样装配有麦克风9020,用户可表达确认单词或短语(命令选择)。或者头戴式计算机可以如上文图4至图6的示例所描述的在确定性操作上自动超时。超时设置可以被储存在例如存储器9120中。
虽然参照其实施例具体示出并描述了本发明,但本领域技术人员应理解,在不背离随附权利要求覆盖的本发明的范围的情况下,可以在其中在形式上和细节上进行多种改变。
Claims (20)
1.一种计算机应用中语音控制的方法,包括:
在被提供有具有麦克风和显示器的头戴式计算机时,经由所述麦克风接收声音输入;
使用耦合到所述头戴式计算机的语音识别引擎处理所述声音输入,所述处理包括所述语音识别引擎将所述声音输入解译为针对具有关键性水平的动作的命令,所述关键性水平满足或超过阈值关键性水平;以及
响应于经处理的所述声音输入:
(i)在所述显示器上显示第一对话框,以及
(ii)使所述动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。
2.根据权利要求1所述的方法,其中所述第一对话框的显示能够自动超时。
3.根据权利要求1所述的方法,其中所述命令是令所述头戴式计算机从低功耗睡眠模式中解除的命令。
4.根据权利要求1所述的方法,其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。
5.根据权利要求1所述的方法,进一步包括步骤:
经由所述麦克风接收所述第一确定性表述,所述第一确定性表述对应于所述第一对话框中的所述提示;以及
响应于对所述第一确定性表述的接收,在所述显示器上显示第二对话框,所述头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。
6.根据权利要求5所述的方法,其中所述第二对话框的显示能够自动超时。
7.根据权利要求5所述的方法,其中所述命令是令所述头戴式计算机从低功耗睡眠模式中解除的命令。
8.根据权利要求5所述的方法,其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。
9.根据权利要求5所述的方法,其中所述第一确定性表述和所述第二确定性表述彼此不同。
10.一种语音控制设备,包括:
提供的具有显示器和麦克风的头戴式计算机,所述麦克风被配置为接收声音输入;
语音识别引擎,被配置为解译所述声音输入,并作为所述解译的部分来确定所述声音输入是否为针对具有关键性水平的动作的命令,所述关键性水平满足或超过阈值关键性水平,所述命令是关键命令;以及
处理器,通信地耦合到所述语音识别引擎,并响应于所述语音识别引擎对声音输入是关键命令的确定,而被配置为:
(i)在所述显示器上显示器第一对话框,以及
(ii)使所述动作的头戴式计算机取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。
11.根据权利要求10所述的设备,其中所述第一对话框能够自动超时。
12.根据权利要求10所述的设备,其中所述命令是所述头戴式计算机从低功耗睡眠模式中解除的命令。
13.根据权利要求10所述的设备,其中所述命令是令所述头戴式计算机从受限语音识别模式中解除的命令。
14.根据权利要求10所述的设备,所述处理器进一步被配置为:
经由所述麦克风接收所述第一确定性表述,所述第一确定性表述对应于所述第一对话框中的所述提示;以及
响应于对所述第一确定性表述的接收,在所述显示器上显示第二对话框,所述头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。
15.根据权利要求14所述的设备,其中所述第二对话框能够自动超时。
16.根据权利要求14所述的设备,其中所述命令是所述头戴式计算机从低功耗睡眠模式中解除的命令。
17.根据权利要求14所述的设备,其中所述命令是所述头戴式计算机从受限语音识别模式中解除的命令。
18.根据权利要求14所述的设备,其中所述第一确定性表述和所述第二确定性表述彼此不同。
19.一种头戴式计算机,包括:
显示器;
麦克风,所述麦克风接收声音输入;
语音识别引擎,被配置为解译所述声音输入,并作为所述解译的部分来确定所述声音输入是否为具有关键性水平的动作的命令,所述关键性水平满足或超过阈值关键性水平,所述命令是关键命令;以及
处理器,通信地耦合到所述语音识别引擎,并响应于所述语音识别引擎对声音输入是关键命令的确定,而被配置为:
(i)在所述显示器上显示器第一对话框,以及
(ii)使所述动作的头戴式计算机表现取决于用户做出对应于所述第一对话框中的提示的第一确定性表述。
20.根据权利要求19所述的头戴式计算机,所述处理器进一步被配置为:
经由所述麦克风接收所述第一确定性表述,所述第一确定性表述对应于所述第一对话框中的所述提示;以及
响应于对所述第一确定性表述的接收,在所述显示器上显示第二对话框,所述头戴式计算机使所述动作的表现取决于所述用户做出对应于所述第二对话框中的提示的第二确定性表述。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361749243P | 2013-01-04 | 2013-01-04 | |
US61/749,243 | 2013-01-04 | ||
PCT/US2013/078079 WO2014107413A1 (en) | 2013-01-04 | 2013-12-27 | Bifurcated speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105009202A true CN105009202A (zh) | 2015-10-28 |
CN105009202B CN105009202B (zh) | 2019-05-07 |
Family
ID=49918940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380074058.4A Active CN105009202B (zh) | 2013-01-04 | 2013-12-27 | 分为两部分的语音识别 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9620144B2 (zh) |
EP (1) | EP2941769B1 (zh) |
JP (1) | JP6420769B2 (zh) |
CN (1) | CN105009202B (zh) |
WO (1) | WO2014107413A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106028223A (zh) * | 2016-07-26 | 2016-10-12 | 广东欧珀移动通信有限公司 | 一种智能音箱的控制方法、装置及智能音箱 |
WO2017096843A1 (zh) * | 2015-12-10 | 2017-06-15 | 乐视控股(北京)有限公司 | 头戴设备的控制方法和装置 |
CN107919124A (zh) * | 2017-12-22 | 2018-04-17 | 北京小米移动软件有限公司 | 设备唤醒方法及装置 |
CN108663942A (zh) * | 2017-04-01 | 2018-10-16 | 青岛有屋科技有限公司 | 一种语音识别设备控制方法、语音识别设备和中控服务器 |
CN109074819A (zh) * | 2016-04-29 | 2018-12-21 | 维塔驰有限公司 | 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备 |
CN110874129A (zh) * | 2018-08-31 | 2020-03-10 | 苹果公司 | 显示系统 |
CN111755002A (zh) * | 2020-06-19 | 2020-10-09 | 北京百度网讯科技有限公司 | 语音识别装置、电子设备和语音识别方法 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10381001B2 (en) * | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US10373615B2 (en) * | 2012-10-30 | 2019-08-06 | Google Technology Holdings LLC | Voice control user interface during low power mode |
US9584642B2 (en) * | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US20160049147A1 (en) * | 2014-08-13 | 2016-02-18 | Glen J. Anderson | Distributed voice input processing based on power and sensing |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9424841B2 (en) | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
US9418656B2 (en) | 2014-10-29 | 2016-08-16 | Google Inc. | Multi-stage hotword detection |
US10686738B2 (en) * | 2015-07-24 | 2020-06-16 | Facebook, Inc. | Providing personal assistant service via messaging |
US9691378B1 (en) * | 2015-11-05 | 2017-06-27 | Amazon Technologies, Inc. | Methods and devices for selectively ignoring captured audio data |
CN109313895A (zh) * | 2016-06-23 | 2019-02-05 | 索尼公司 | 信息处理装置和信息处理方法 |
US10283138B2 (en) | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
KR102241970B1 (ko) | 2016-11-07 | 2021-04-20 | 구글 엘엘씨 | 기록된 미디어 핫워드 트리거 억제 |
US10437070B2 (en) | 2016-12-23 | 2019-10-08 | Realwear, Inc. | Interchangeable optics for a head-mounted display |
US10936872B2 (en) | 2016-12-23 | 2021-03-02 | Realwear, Inc. | Hands-free contextually aware object interaction for wearable display |
US10393312B2 (en) | 2016-12-23 | 2019-08-27 | Realwear, Inc. | Articulating components for a head-mounted display |
US10620910B2 (en) * | 2016-12-23 | 2020-04-14 | Realwear, Inc. | Hands-free navigation of touch-based operating systems |
US11099716B2 (en) | 2016-12-23 | 2021-08-24 | Realwear, Inc. | Context based content navigation for wearable display |
US10365493B2 (en) | 2016-12-23 | 2019-07-30 | Realwear, Incorporated | Modular components for a head-mounted display |
US11507216B2 (en) | 2016-12-23 | 2022-11-22 | Realwear, Inc. | Customizing user interfaces of binary applications |
EP3346681B1 (en) | 2017-01-04 | 2020-04-01 | Unify Patente GmbH & Co. KG | Apparatus for audio and/or video communication, and methods of operating an apparatus for audio and/or video communication |
US10074371B1 (en) * | 2017-03-14 | 2018-09-11 | Amazon Technologies, Inc. | Voice control of remote device by disabling wakeword detection |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
WO2018198812A1 (ja) * | 2017-04-27 | 2018-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
US10789949B2 (en) * | 2017-06-20 | 2020-09-29 | Bose Corporation | Audio device with wakeup word detection |
CN107564517A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
US10777189B1 (en) * | 2017-12-05 | 2020-09-15 | Amazon Technologies, Inc. | Dynamic wakeword detection |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
WO2020005305A1 (en) | 2018-06-29 | 2020-01-02 | Google Llc | Audio processing in a low-bandwidth networked system |
US11380312B1 (en) * | 2019-06-20 | 2022-07-05 | Amazon Technologies, Inc. | Residual echo suppression for keyword detection |
CN111429901B (zh) * | 2020-03-16 | 2023-03-21 | 云知声智能科技股份有限公司 | 一种面向IoT芯片的多级语音智能唤醒方法及系统 |
EP4156178A1 (de) * | 2021-09-23 | 2023-03-29 | Siemens Healthcare GmbH | Sprachsteuerung einer medizinischen vorrichtung |
EP4156179A1 (de) * | 2021-09-23 | 2023-03-29 | Siemens Healthcare GmbH | Sprachsteuerung einer medizinischen vorrichtung |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4471683A (en) * | 1982-08-26 | 1984-09-18 | The United States Of America As Represented By The Secretary Of The Air Force | Voice command weapons launching system |
US4945570A (en) * | 1987-10-02 | 1990-07-31 | Motorola, Inc. | Method for terminating a telephone call by voice command |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
CN1385783A (zh) * | 2001-05-14 | 2002-12-18 | 索尼电脑娱乐美国公司 | 在游戏环境中以菜单驱动的语音来控制角色的系统和方法 |
CN1451152A (zh) * | 2000-09-01 | 2003-10-22 | 捷装技术公司 | 计算机实现的语音识别系统训练 |
US20050165609A1 (en) * | 1998-11-12 | 2005-07-28 | Microsoft Corporation | Speech recognition user interface |
EP2200020A2 (en) * | 2008-12-19 | 2010-06-23 | Honeywell International Inc. | Method and system for operating a vehicular electronic system with voice command capability |
CN102132548A (zh) * | 2008-08-28 | 2011-07-20 | 高通股份有限公司 | 用于在视频显示会话期间滚动语音呼叫或消息的文本显示的方法和设备 |
CN102360187A (zh) * | 2011-05-25 | 2012-02-22 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
CN102841771A (zh) * | 2011-06-21 | 2012-12-26 | 联想(北京)有限公司 | 一种语音处理方法及语音处理装置 |
Family Cites Families (68)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5491651A (en) | 1992-05-15 | 1996-02-13 | Key, Idea Development | Flexible wearable computer |
US6010216A (en) | 1993-01-19 | 2000-01-04 | Jesiek; Daniel Stephen | "Hear speak" two-way voice radio communications eyeglasses |
US6853293B2 (en) | 1993-05-28 | 2005-02-08 | Symbol Technologies, Inc. | Wearable communication system |
JPH07219584A (ja) * | 1994-01-31 | 1995-08-18 | Canon Inc | 音声処理装置及び方法 |
CA2158271A1 (en) | 1994-03-04 | 1995-09-08 | John Wayne Mckown | Information display apparatus |
JPH07244494A (ja) * | 1994-03-04 | 1995-09-19 | Ricoh Co Ltd | 音声認識装置 |
JPH0832663A (ja) * | 1994-07-13 | 1996-02-02 | Hitachi Ltd | 音声ダイアル機能付き電話装置 |
US5990793A (en) | 1994-09-02 | 1999-11-23 | Safety Tech Industries, Inc. | Firefighters integrated communication and safety system |
US6094476A (en) * | 1997-03-24 | 2000-07-25 | Octel Communications Corporation | Speech-responsive voice messaging system and method |
US6144938A (en) * | 1998-05-01 | 2000-11-07 | Sun Microsystems, Inc. | Voice user interface with personality |
JP3275840B2 (ja) * | 1998-08-12 | 2002-04-22 | 日本電気株式会社 | 機器操作システム及び方法、並びに記録媒体 |
US8275617B1 (en) * | 1998-12-17 | 2012-09-25 | Nuance Communications, Inc. | Speech command input recognition system for interactive computer display with interpretation of ancillary relevant speech query terms into commands |
US6424357B1 (en) * | 1999-03-05 | 2002-07-23 | Touch Controls, Inc. | Voice input system and method of using same |
US7278734B2 (en) | 2000-06-02 | 2007-10-09 | Oakley, Inc. | Wireless interactive headset |
US7461936B2 (en) | 2000-06-02 | 2008-12-09 | Oakley, Inc. | Eyeglasses with detachable adjustable electronics module |
US20120105740A1 (en) | 2000-06-02 | 2012-05-03 | Oakley, Inc. | Eyewear with detachable adjustable electronics module |
US7150526B2 (en) | 2000-06-02 | 2006-12-19 | Oakley, Inc. | Wireless interactive headset |
US6325507B1 (en) | 2000-06-02 | 2001-12-04 | Oakley, Inc. | Eyewear retention system extending across the top of a wearer's head |
US8482488B2 (en) | 2004-12-22 | 2013-07-09 | Oakley, Inc. | Data input management system for wearable electronically enabled interface |
JP2002032212A (ja) * | 2000-07-14 | 2002-01-31 | Toshiba Corp | コンピュータシステムおよびヘッドセット型表示装置 |
US6798391B2 (en) | 2001-01-02 | 2004-09-28 | Xybernaut Corporation | Wearable computer system |
US20020094845A1 (en) | 2001-01-16 | 2002-07-18 | Rei Inasaka | Body worn display system |
DE10103922A1 (de) | 2001-01-30 | 2002-08-01 | Physoptics Opto Electronic Gmb | Interaktives Datensicht- und Bediensystem |
WO2002077972A1 (en) | 2001-03-27 | 2002-10-03 | Rast Associates, Llc | Head-worn, trimodal device to increase transcription accuracy in a voice recognition system and to process unvocalized speech |
US6769767B2 (en) | 2001-04-30 | 2004-08-03 | Qr Spex, Inc. | Eyewear with exchangeable temples housing a transceiver forming ad hoc networks with other devices |
US7013009B2 (en) | 2001-06-21 | 2006-03-14 | Oakley, Inc. | Eyeglasses with wireless communication features |
US7313246B2 (en) | 2001-10-06 | 2007-12-25 | Stryker Corporation | Information system using eyewear for communication |
KR100438838B1 (ko) * | 2002-01-29 | 2004-07-05 | 삼성전자주식회사 | 대화 포커스 추적 기능을 가진 음성명령 해석장치 및 방법 |
JP2003223314A (ja) * | 2002-01-31 | 2003-08-08 | Canon Inc | 情報処理装置及びその方法、プログラム |
US7035091B2 (en) | 2002-02-28 | 2006-04-25 | Accenture Global Services Gmbh | Wearable computer system and modes of operating the system |
US7110799B1 (en) | 2002-06-14 | 2006-09-19 | Symbol Technologies, Inc. | Mobile terminal for interoperating with a standard or push-button enabled headset |
MXPA05001079A (es) | 2002-07-26 | 2005-06-03 | Oakley Inc | Audifonos interactivos inalambricos. |
US7774075B2 (en) | 2002-11-06 | 2010-08-10 | Lin Julius J Y | Audio-visual three-dimensional input/output |
JP2004226698A (ja) * | 2003-01-23 | 2004-08-12 | Yaskawa Electric Corp | 音声認識装置 |
US7760898B2 (en) | 2003-10-09 | 2010-07-20 | Ip Venture, Inc. | Eyeglasses with hearing enhanced and other audio signal-generating capabilities |
US7806525B2 (en) | 2003-10-09 | 2010-10-05 | Ipventure, Inc. | Eyeglasses having a camera |
US20050033571A1 (en) * | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
US7496387B2 (en) * | 2003-09-25 | 2009-02-24 | Vocollect, Inc. | Wireless headset for use in speech recognition environment |
KR100571955B1 (ko) * | 2003-11-18 | 2006-04-17 | 삼성전자주식회사 | 일시 인쇄 중지 및 재개가 가능한 프린트 방법 및 그프린터 |
US7976480B2 (en) | 2004-12-09 | 2011-07-12 | Motorola Solutions, Inc. | Wearable auscultation system and method |
US7437297B2 (en) | 2005-01-27 | 2008-10-14 | International Business Machines Corporation | Systems and methods for predicting consequences of misinterpretation of user commands in automated systems |
US8694322B2 (en) * | 2005-08-05 | 2014-04-08 | Microsoft Corporation | Selective confirmation for execution of a voice activated user interface |
US20070081123A1 (en) | 2005-10-07 | 2007-04-12 | Lewis Scott W | Digital eyewear |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US7773767B2 (en) * | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US8212859B2 (en) | 2006-10-13 | 2012-07-03 | Apple Inc. | Peripheral treatment for head-mounted displays |
US9217868B2 (en) | 2007-01-12 | 2015-12-22 | Kopin Corporation | Monocular display device |
JP5190070B2 (ja) | 2007-01-12 | 2013-04-24 | コピン コーポレーション | 単眼式の表示装置 |
US20100020229A1 (en) | 2007-04-30 | 2010-01-28 | General Electric Company | Wearable personal video/audio device method and system |
US8825468B2 (en) * | 2007-07-31 | 2014-09-02 | Kopin Corporation | Mobile wireless display providing speech to speech translation and avatar simulating human attributes |
US8072393B2 (en) | 2007-11-15 | 2011-12-06 | Symbol Technologies, Inc. | User interface for a head mounted display |
US8520860B2 (en) | 2007-12-13 | 2013-08-27 | Symbol Technologies, Inc. | Modular mobile computing headset |
US7959084B2 (en) | 2008-07-01 | 2011-06-14 | Symbol Technologies, Inc. | Multi-functional mobile computing device utilizing a removable processor module |
US20100053069A1 (en) | 2008-08-26 | 2010-03-04 | Symbol Technologies, Inc. | Mobile computing system facilitating adaptive display of content among a plurality of display components including at least one virtual image display component |
AT10520U3 (de) | 2008-09-05 | 2013-10-15 | Knapp Systemintegration Gmbh | Vorrichtung und verfahren zur visuellen unterstützung von kommissioniervorgängen |
US7997723B2 (en) | 2008-12-31 | 2011-08-16 | Nokia Corporation | Display apparatus and device |
US20100238184A1 (en) | 2009-03-19 | 2010-09-23 | Michael Janicki | Method and apparatus for three-dimensional visualization in mobile devices |
CN102460349A (zh) * | 2009-05-08 | 2012-05-16 | 寇平公司 | 使用运动和语音命令对主机应用进行远程控制 |
JP5267388B2 (ja) * | 2009-08-31 | 2013-08-21 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US20110090135A1 (en) | 2009-10-21 | 2011-04-21 | Symbol Technologies, Inc. | Interchangeable display device for a head-mounted display system |
AU2011220382A1 (en) | 2010-02-28 | 2012-10-18 | Microsoft Corporation | Local advertising content on an interactive head-mounted eyepiece |
US20110214082A1 (en) | 2010-02-28 | 2011-09-01 | Osterhout Group, Inc. | Projection triggering through an external marker in an augmented reality eyepiece |
US20120056846A1 (en) | 2010-03-01 | 2012-03-08 | Lester F. Ludwig | Touch-based user interfaces employing artificial neural networks for hdtp parameter and symbol derivation |
US9122307B2 (en) * | 2010-09-20 | 2015-09-01 | Kopin Corporation | Advanced remote control of host application using motion and voice commands |
WO2012040386A1 (en) | 2010-09-21 | 2012-03-29 | 4Iiii Innovations Inc. | Head-mounted peripheral vision display systems and methods |
WO2012154938A1 (en) | 2011-05-10 | 2012-11-15 | Kopin Corporation | Headset computer that uses motion and voice commands to control information display and remote devices |
EP2986014A1 (en) * | 2011-08-05 | 2016-02-17 | Samsung Electronics Co., Ltd. | Method for controlling electronic apparatus based on voice recognition and motion recognition, and electronic apparatus applying the same |
US9442290B2 (en) | 2012-05-10 | 2016-09-13 | Kopin Corporation | Headset computer operation using vehicle sensor feedback for remote control vehicle |
-
2013
- 2013-12-27 WO PCT/US2013/078079 patent/WO2014107413A1/en active Application Filing
- 2013-12-27 CN CN201380074058.4A patent/CN105009202B/zh active Active
- 2013-12-27 EP EP13818176.3A patent/EP2941769B1/en active Active
- 2013-12-27 JP JP2015551737A patent/JP6420769B2/ja active Active
- 2013-12-27 US US14/142,280 patent/US9620144B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4471683A (en) * | 1982-08-26 | 1984-09-18 | The United States Of America As Represented By The Secretary Of The Air Force | Voice command weapons launching system |
US4945570A (en) * | 1987-10-02 | 1990-07-31 | Motorola, Inc. | Method for terminating a telephone call by voice command |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US20050165609A1 (en) * | 1998-11-12 | 2005-07-28 | Microsoft Corporation | Speech recognition user interface |
CN1451152A (zh) * | 2000-09-01 | 2003-10-22 | 捷装技术公司 | 计算机实现的语音识别系统训练 |
CN1385783A (zh) * | 2001-05-14 | 2002-12-18 | 索尼电脑娱乐美国公司 | 在游戏环境中以菜单驱动的语音来控制角色的系统和方法 |
CN102132548A (zh) * | 2008-08-28 | 2011-07-20 | 高通股份有限公司 | 用于在视频显示会话期间滚动语音呼叫或消息的文本显示的方法和设备 |
EP2200020A2 (en) * | 2008-12-19 | 2010-06-23 | Honeywell International Inc. | Method and system for operating a vehicular electronic system with voice command capability |
CN102360187A (zh) * | 2011-05-25 | 2012-02-22 | 吉林大学 | 语谱图互相关的驾驶员汉语语音控制系统及方法 |
CN102841771A (zh) * | 2011-06-21 | 2012-12-26 | 联想(北京)有限公司 | 一种语音处理方法及语音处理装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017096843A1 (zh) * | 2015-12-10 | 2017-06-15 | 乐视控股(北京)有限公司 | 头戴设备的控制方法和装置 |
CN109074819A (zh) * | 2016-04-29 | 2018-12-21 | 维塔驰有限公司 | 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备 |
CN109074819B (zh) * | 2016-04-29 | 2023-05-16 | 维塔驰有限公司 | 基于操作-声音的多模式命令的优选控制方法及应用其的电子设备 |
CN106028223A (zh) * | 2016-07-26 | 2016-10-12 | 广东欧珀移动通信有限公司 | 一种智能音箱的控制方法、装置及智能音箱 |
CN108663942A (zh) * | 2017-04-01 | 2018-10-16 | 青岛有屋科技有限公司 | 一种语音识别设备控制方法、语音识别设备和中控服务器 |
CN107919124A (zh) * | 2017-12-22 | 2018-04-17 | 北京小米移动软件有限公司 | 设备唤醒方法及装置 |
CN110874129A (zh) * | 2018-08-31 | 2020-03-10 | 苹果公司 | 显示系统 |
CN110874129B (zh) * | 2018-08-31 | 2024-03-08 | 苹果公司 | 显示系统 |
CN111755002A (zh) * | 2020-06-19 | 2020-10-09 | 北京百度网讯科技有限公司 | 语音识别装置、电子设备和语音识别方法 |
CN111755002B (zh) * | 2020-06-19 | 2021-08-10 | 北京百度网讯科技有限公司 | 语音识别装置、电子设备和语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6420769B2 (ja) | 2018-11-07 |
JP2016505897A (ja) | 2016-02-25 |
WO2014107413A1 (en) | 2014-07-10 |
US20140195247A1 (en) | 2014-07-10 |
CN105009202B (zh) | 2019-05-07 |
EP2941769A1 (en) | 2015-11-11 |
EP2941769B1 (en) | 2019-05-08 |
US9620144B2 (en) | 2017-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105009202A (zh) | 分为两部分的语音识别 | |
US11809022B2 (en) | Temple and ear horn assembly for headworn computer | |
US10402162B2 (en) | Automatic speech recognition (ASR) feedback for head mounted displays (HMD) | |
US10634922B2 (en) | Speaker assembly for headworn computer | |
US10466492B2 (en) | Ear horn assembly for headworn computer | |
US8862186B2 (en) | Lapel microphone micro-display system incorporating mobile information access system | |
US9152378B2 (en) | Bluetooth or other wireless interface with power management for head mounted display | |
JP6383724B2 (ja) | ハンズフリー緊急対応を伴うヘッドセットコンピュータ | |
EP3411780B1 (en) | Intelligent electronic device and method of operating the same | |
EP2617202A2 (en) | Bluetooth or other wireless interface with power management for head mounted display | |
US9588910B2 (en) | Electronic apparatus and linked operation method | |
JP6201024B1 (ja) | ヘッドマウントデバイスを用いてコンテンツを提供するアプリケーションへの入力を支援するための方法、当該方法をコンピュータに実行させるためのプログラム、およびコンテンツ表示装置 | |
KR102391298B1 (ko) | 음성 인식 서비스를 제공하는 전자 장치 및 그 방법 | |
KR20190009101A (ko) | 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버 | |
JP2019092216A (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR20230008662A (ko) | 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치 | |
WO2020070839A1 (ja) | ヘッドマウントディスプレイ及びヘッドマウントディスプレイシステム | |
CN111415421B (zh) | 虚拟物体控制方法、装置、存储介质及增强现实设备 | |
KR20200116811A (ko) | 스피커를 이용하여 먼지를 제거하는 방법 및 이를 지원하는 전자 장치 | |
CN116670618A (zh) | 从外部可穿戴电子设备接收信息的可穿戴电子设备及其操作方法 | |
CN106031135A (zh) | 可穿戴设备和通信控制方法 | |
US20180329502A1 (en) | Information processing device, information processing method, and program | |
JP2021099538A (ja) | 情報処理装置、情報処理方法およびプログラム | |
KR101594429B1 (ko) | 긴급 통화 제어 방법 및 장치 | |
KR20230050160A (ko) | 머리 착용형 디스플레이 장치를 위한 확인 이벤트 처리 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |