CN103930945B - 用于移动计算设备中的连续话音识别和检测的系统和方法 - Google Patents
用于移动计算设备中的连续话音识别和检测的系统和方法 Download PDFInfo
- Publication number
- CN103930945B CN103930945B CN201280056118.5A CN201280056118A CN103930945B CN 103930945 B CN103930945 B CN 103930945B CN 201280056118 A CN201280056118 A CN 201280056118A CN 103930945 B CN103930945 B CN 103930945B
- Authority
- CN
- China
- Prior art keywords
- mobile computing
- computing device
- action
- application
- electric power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请描述了用于移动计算设备的连续话音识别的系统、制品和方法。一个实施例包括判定移动计算设备是在从外部电源还是从电池电源接收操作电力,并且响应于判定移动计算设备在从外部电源接收电力而激活触发字词检测子例程。在一些实施例中,触发字词检测子例程在移动计算设备在从外部电源接收电力时连续地操作。触发字词检测子例程包括判定经由麦克风接收的多个口说字词是否包括一个或多个触发字词,并且响应于判定多个口说字词包括至少一个触发字词,启动与多个口说字词中包括的至少一个触发字词相对应的应用。
Description
相关申请的交叉引用
本专利申请要求2011年9月30日递交的61/542,074号美国临时申请的优先权,这里通过引用将该美国临时申请的内容全部并入,就好像在本申请中完全记载了一样。
背景技术
通常,激活移动计算设备上的语音命令接口要求用户对语音命令接口的某种物理激活。例如,为了激活移动计算设备上的语音命令接口,用户可能需要按压或按住移动计算设备的外表上的物理按钮或开关,或者用户可能需要激活与移动计算设备相关联的图形用户接口上的虚拟按钮或开关。
发明内容
经由语音命令控制移动计算设备在用户不能容易地在物理上与移动计算设备交互时经常是有用的。例如,经由语音命令控制移动计算设备在用户驾驶车辆时或者在移动计算设备离用户有一些距离时(例如在房间那头或者因其他原因而不能被用户立即触及)可能是有用的。
用于控制移动计算设备的语音命令接口一般要求操作麦克风或其他话音输入设备来从用户接收话音,并且在移动计算设备上运行话音识别和检测算法以检测和识别经由麦克风接收的话音。然而,连续地操作麦克风和连续地在移动计算设备上运行话音检测和识别应用在许多情形中可能是不合需要的,因为操作麦克风和连续地执行检测和识别算法所需要的电力可能迅速地耗尽移动计算设备的电池。
本申请公开了系统和方法,其允许了用户享受经由语音命令来控制移动计算设备的优点,而没有如现有设备所要求的那样必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。
在操作中,根据所公开的系统和方法的一些实施例的移动计算设备被配置为:(i)检测与外部电源的耦合,以及(ii)响应于该检测,激活话音识别模式。一些实施例包括用于检测与外部电源的耦合的电力监视例程。类似地在一些实施例中,在话音识别模式中操作的移动计算设备可包括触发字词检测子例程。检测与外部电源的耦合和激活话音识别模式的组合使得所公开的实施例能够克服现有设备的限制,并且在许多情形中对移动计算设备的电池的影响可忽略。
一些实施例包括判定移动计算设备是在从外部电源还是从电池接收操作电力。如果移动计算设备在从外部电源接收电力,则移动计算设备激活话音识别模式。在一些实施例中,话音识别模式包括触发字词检测子例程。外部电源可以是用于移动计算设备的壁式充电器或者用于移动计算设备的坞接站,例如桌面或车载坞接站。一些实施例还可包括当移动计算设备在从电池接收操作电力时从话音识别模式退出(和/或可能对触发字词检测子例程解除激活)。
在操作中,触发字词检测子例程包括判定经由麦克风接收的口说字词是否包括一个或多个触发字词的集合中的至少一个触发字词。响应于判定口说字词包括至少一个触发字词,触发字词检测子例程启动与口说字词中包括的至少一个触发字词相对应的应用。在一些实施例中,只要移动计算设备继续从外部电源接收电力,触发字词检测子例程就连续地操作。
在一些实施例中,启动的与检测到的(一个或多个)触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示。当语音命令提示被启动时,用户可经由一个或多个语音命令来控制移动计算设备。(一个或多个)触发字词之后的语音命令可包括动作和该动作的对象。例如,启动语音命令提示应用的触发字词可以是“Android”,并且语音命令可包括“呼叫”(动作)和“简·史密斯”(动作的对象)。语音命令如本文所述可包括额外的字词。
在其他实施例中,启动的应用可以是特定的通信应用、多媒体应用或者用于配置移动计算设备的设定的应用。在这些实施例中,触发字词甚至可以是应用的名称。例如,启动电话拨号程序的触发字词可以是“呼叫”。响应于检测到触发字词“呼叫”,移动计算设备可被配置为启动电话拨号程序,然后或者(i)等待接收期望的被叫方的名字,或者(ii)使用“呼叫”触发字词之后的字词作为期望的被叫方的名字。电话拨号程序(或者其他启动的应用)可被配置为在其被启动之后接收额外的语音命令。如本文所述,命令的类型可取决于特定的应用而有所不同。
在一些实施例中,触发字词检测例程可响应于将设备耦合到外部电源、而不是响应于任何其他类型的输入(例如,触摸输入、手动按钮按压,等等)而被启动。在这些实施例中,话音识别模式和/或触发字词检测例程可以仅当移动计算设备在从外部电源接收电力时才被自动激活。在一些实施例中,话音识别模式可以仅当移动计算设备在从外部电源接收操作电力时才被激活,并且话音识别模式可以总是在移动计算设备在从电池接收操作电力时被解除激活。
其他实施例可包括从用户接收激活(或解除激活)触发字词检测子例程的手动输入,而无论移动计算设备是在从外部电源还是从电池接收操作电力。在这些实施例中,即使移动计算设备可能在从电池接收操作电力,移动计算设备仍可激活触发字词检测子例程。当触发字词检测子例程被用户手动激活时(例如,触摸输入、手动按钮按压,等等),触发字词检测子例程在移动计算设备在从电池接收电力时仍可连续地操作。
在一些实施例中,所公开的方法的特征和功能可与移动计算设备的操作系统相集成。在其他实施例中,所公开的实施例的特征和功能可以是被移动计算设备安装和执行的应用的组件,例如从在线应用商店下载的应用。
本文描述的任何方法可以以存储在非暂态有形计算机可读介质上的指令的形式实现。当被移动计算设备执行时,这些指令可使得移动计算设备执行所公开的方法的一个或多个功能。另外的示例也可包括包含编码有计算机可读指令的有形非暂态计算机可读介质的制品。这些指令可包括执行本文描述的方法的一个或多个功能的指令。
计算机可读介质可包括非暂态计算机可读介质,例如像寄存器存储器、处理器缓存和随机访问存储器(random access memory,RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质,例如次级或永久性长期存储装置,比如只读存储器(read only memory,ROM)、光盘或磁盘、致密盘只读存储器(compact-disc read onlymemory,CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。在一些实施例中,计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储介质。
此外,所公开的方法的一些方面可由被配置为执行本文描述的任何过程或方法中的逻辑功能的电路来执行。在其他示例中,许多类型的设备可以被使用或配置来执行本文描述的任何过程或方法中的逻辑功能。在另外的示例中,许多类型的设备(和/或设备的组件或子组件)可以被使用或配置为用于执行本文描述的任何方法(或者本文描述的方法的任何部分)的功能的装置。
附图说明
图1示出了根据一些实施例的移动计算设备的简化框图的示例。
图2A示出了根据一些实施例的电力检测例程的示例算法。
图2B示出了根据一些实施例的触发字词检测子例程的示例算法。
图3A-3C示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。
图4示出了根据一些实施例的示例方法。
图5示出了根据一些实施例的示例方法。
具体实施方式
以下详细描述包括对附图的参照。在附图中,相似的标号通常标识相似的组件,除非上下文另有规定。详细描述、附图和权利要求中概述的示例实施例并不打算进行限定。在不脱离本文给出的主题的范围的情况下,可以利用其他实施例,并且可以进行其他改变。容易理解,本文概括描述并且在附图中图示的本公开的各方面可按许多种不同的配置来布置、替换、组合、分离和设计,所有这些在这里都已明确设想到。
图1示出了根据一些实施例的移动计算设备100的简化框图的示例。在一些实施例中,移动计算设备100可以是移动电话、蜂窝电话、智能电话或者现在已知或以后开发的可经由语音命令来控制的类似的移动通信设备。在其他实施例中,移动计算设备100可以是膝上型计算机、平板计算机或者现在已知或以后开发的可经由语音命令来控制的其他类型的移动计算设备。
移动计算设备100包括多个组件,例如一个或多个处理器101、数据存储装置102、电力管理子系统103、用户输入/输出接口104、通信接口105和传感器106。个体组件经由一个或多个数据总线115或者被配置为使得个体组件能够向移动计算设备100的其他组件发送数据和从移动计算设备100的其他组件接收数据的类似通信连接而连接。个体组件还经由配电总线116或者被配置为向移动计算设备100的个体组件提供操作电力的类似连接而连接到电力管理子系统103。
一个或多个处理器101可包括现在已知或以后开发的任何类型的通用处理器(例如来自Intel、Advanced Micro Devices(AMD)等等的处理器)或者任何类型的专用处理器(例如,专用集成电路(application specific integrated circuit,ASIC)、数字信号处理器(digital signal processor,DSP)、编码器/解码器(编解码器CODEC),等等)。
数据存储装置102被配置为存储数据以及计算机可读程序指令108。数据存储装置102可包括本文描述的任何类型的数据存储装置,包括用于在程序代码或指令的执行期间存储数据和/或程序代码或指令的短期易失性存储器(例如RAM)和/或用于存储数据和/或程序代码或指令的长期非易失性存储器(例如ROM)。在一些实施例中,数据存储装置可实现为固态和/或闪速存储器或者其他类似类型的小外形参数存储介质。
电力管理子系统103包括电池电力接口112、外部电力接口113和电源选择器114。电池电力接口112被配置为从电池源接收操作电力,该电池源例如是内部电池、与移动计算设备100电耦合的可移除电池或者现在已知或以后开发的任何其他种类的电池或者类似类型的便携式电源。经由电池接口112为移动计算设备100供应操作电力的电池可以是可再充电的或不可再充电的。
外部电力接口113被配置为从外部电源为移动计算设备100接收电力。外部电源的示例包括壁装电源插座、桌面坞接站(docking station)、车载坞接站或电源线、带有坞接站的闹钟或娱乐系统、或者被配置为向移动计算设备100提供操作电力以便移动计算设备100不需要依赖于经由电池接口112来自电池的操作电力的任何其他类型的连接或设备。
在一些实施例中,电源选择器114可被配置为选择性地从电池接口112或外部电力接口113之一提供操作电力。在具有可再充电电池的实施例中,当经由外部电力接口113连接了外部电源时,电源选择器114可被配置为既(i)经由外部电力接口113从外部电力供应向移动计算设备100提供操作电力,又(ii)通过提供从外部电力接口113到电池接口112的电连接来用来自外部电力供应的电力对电池充电。
用户输入/输出接口104包括多个输入和输出组件,例如声音输入/输出组件107、显示输入/输出组件108和可选的键盘109。声音组件107可包括麦克风或者被配置为检测和接收声波的现在已知或以后开发的其他类似类型的声音检测设备。声音组件107还可包括一个或多个扬声器或被配置为生成声波的现在已知或以后开发的类似的声音生成设备。
显示输入/输出组件108可包括液晶显示器(Liquid Crystal Display,LCD)、等离子显示器或者被配置为向用户显示图形用户接口和/或其他信息的现在已知或以后开发的类似类型的显示设备。在一些实施例中,显示器108可包括触摸屏接口或其他触敏组件以使得用户能够向移动计算设备100输入命令或其他信息(或以其他方式与移动计算设备100交互)。在一些实施例中,显示器108可被配置为生成和显示虚拟键盘来供用户进行数据输入。在其他实施例中,移动计算设备100可以可选地包括物理键盘109。然而,键盘(虚拟的或物理的)在所有实施例中都不是必需的。一些实施例还可包括一个或多个外部开关或按钮(未示出),以开启或关闭移动计算设备100、将设备从睡眠状态唤醒、控制音量或其他类似的功能。
通信接口105可包括一个或多个无线通信接口110和一个或多个有线接口111。无线接口110可包括被配置为根据多种不同的无线通信协议中的任何一种来发送和接收数据的任何类型的无线通信接口,所述无线通信协议例如是:蓝牙、IEEE802.11(IEEE802.11可以指IEEE802.11-2007、IEEE802.11n-2009或者任何其他IEEE802.11修订版)或者其他Wi-Fi变体、码分多址(Code-Division Multiple Access,CDMA)、全球移动通信系统(GlobalSystem for Mobile Communications,GSM)、第3代(3rd Generation,3G)、第4代(4thGeneration,4G)、第3代合作伙伴计划—长期演进(3rd Generation PartnershipProject--Long Term Evolution,3GPP-LTE)、微波接入全球互通(WorldwideInteroperability for Microwave Access,WiMAX)、Zigbee、通用分组无线电服务(General Packet Radio Service,GPRS)、演进数据优化(Evolution-Data Optimized,EV-DO)、高速下行链路分组接入(High-Speed Downlink Packet Access,HSDPA)或者现在已知或以后开发的任何其他类型的无线通信协议。有线接口111可包括被配置为根据多种不同通信协议中的任何一种来发送和接收数据的任何类型的有线通信接口(例如电的、光的等等),所述通信协议例如是通用串行总线(Universal Serial Bus,USB)、以太网、IEEE1394、Firewire、Thunderbolt或者现在已知或以后开发的任何其他类型的串行或并行数据通信协议。无线接口110和有线接口111可被配置为经由网络——例如因特网——与其他计算或通信设备通信,和/或经由蓝牙、USB或类似的连接与外围设备通信,其中外围设备例如是盘驱动器、外部监视器、鼠标或轨迹球/轨迹板设备以及外部键盘等等。在一些示例中,移动计算设备100可使用有线接口110和/或无线接口111来与代表移动计算设备100执行话音识别的服务器通信。
在一些实施例中,有线通信接口111还可被配置为如电力连接117所示经由外部电力接口113从有线接口111向外部电力接口113提供操作电力。例如,USB是可被配置为既提供通信也提供电力的一类有线通信接口。
移动计算设备100的一些实施例还可包括一个或多个传感器106。传感器106可包括任何一个或多个相机或其他图像传感器、加速度计、全球定位系统(Global PositioningSystem,GPS)传感器、温度传感器或者可能希望与移动计算设备100集成的现在已知或以后开发的任何其他类型的传感器。
如以上简要描述的,根据所公开的实施例配置的移动计算设备可使得用户能够享受经由语音命令来控制移动计算设备的优点,而没有必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。在一个实施例中,上述优点可经由移动计算设备100执行的电力检测例程和触发字词检测子例程的组合来实现。
图2A示出了根据一些实施例的电力检测例程201的示例算法,并且图2B示出了根据一些实施例的触发字词检测子例程210的示例算法。对图2A和2B的算法的描述包括对本文参考图1示出和描述的示例移动计算设备100及其相应组件的参照。在一些实施例中,电力检测例程201和/或触发字词检测子例程210可以是移动计算设备100的操作系统的组件。在其他实施例中,电力检测例程201和/或触发字词检测子例程210可以是安装在移动计算设备100上的应用或窗口小部件(widget)的组件,例如从在线应用商店下载的应用或窗口小部件。
在一些实施例中,电力检测例程201可被配置为在移动计算设备100上连续地(或至少基本上连续地)操作。一些实施例也可允许用户对电力检测例程201进行激活或解除激活。在一些实施例中,电力检测例程201可被用户选择性地激活或解除激活。
在图2A和2B的实施例中,触发字词检测子例程210是电力检测例程201的“子例程”,因为触发字词检测子例程210是由电力检测例程201在某些条件下激活的,如本文所述。然而,触发字词检测能力并不需要在所有实施例中都实现为电力检测例程的子例程。
电力检测例程开始于块202。在块203,电力检测例程201判定移动计算设备100的操作电力是(1)经由外部电力接口113从外部电源接收的,还是(2)经由电池接口112从电池电源接收的。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。如果未检测到外部电源(即,移动计算设备100在从电池源接收操作电力),则电力检测例程201结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
然而,如果在块203,电力检测例程201判定移动计算设备100在经由外部电力接口113从外部电源接收操作电力,则电力检测例程201前进到块204。在块204,电力检测例程201激活触发字词检测子例程210。一旦其在块204被电力检测例程201激活,触发字词检测子例程210就可被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。
在在块204激活触发字词检测子例程210之后,电力检测例程前进到块205。在块205,电力检测例程201判定通信设备100是否在经由外部电力接口113从外部电源接收操作电力。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。
如果移动计算设备100在从外部电源接收其操作电力,则电力检测例程201返回到块205。但如果电力检测例程201判定移动计算设备100不再从外部电源接收其操作电力(即,外部电源已与外部电力接口113断开连接和/或移动计算设备100已切换到电池电力),则电力检测例程201前进到块206。在块206,电力检测例程201对触发字词检测子例程210解除激活。电力检测例程201随后结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
图2B示出了触发字词检测子例程210的示例算法。如联系图2A所述,一旦电力检测例程201在块204激活了触发字词检测子例程210,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。如上所述,触发字词检测子例程210可在块206被电力检测例程201解除激活。在一些实施例中,触发字词检测子例程210可被用户选择性地激活和/或解除激活。
触发字词检测子例程210开始于块212。在块213,触发字词检测子例程接收声音样本。可经由移动计算设备100的声音输入107接收声音样本。在一些实施例中,声音输入107可包括麦克风或其他类型的声音输入或检测设备。一些实施例可包括触发对麦克风的激活的声音检测器。一旦被激活,麦克风就捕捉声音样本。在其他实施例中,麦克风可被配置为,一旦触发字词检测子例程210被激活,就连续地(或至少基本上连续地)捕捉声音样本。
在块214,触发字词检测子例程210判定在块213接收的声音样本是否包括话音。判定声音样本是否包括话音可由现在已知或以后开发的多种话音检测算法中的任何一种来完成。在一些实施例中,话音检测算法可由一个或多个处理器101执行。在其他实施例中,话音检测算法可由声音输入107的一个或多个组件执行。
如果声音样本不包括话音,则触发字词检测子例程210结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果声音样本包括话音,则触发字词检测子例程210前进到块215。
在块215,分析来自声音样本的话音以判定话音是否包括一个或多个触发字词的集合中的至少一个。联系图3A-3C来更详细描述触发字词。可利用现在已知或以后开发的多种声音或语音识别算法中的任何一种来分析声音样本。例如,可对口说输入执行话音识别以获得文本,并且可分析该文本来判定该文本是否包括一个或多个触发字词。话音识别可由移动计算设备100执行、由移动计算设备100与之通信的服务器执行、或者由两者的组合来执行。
如果话音不包括至少一个触发字词,则触发字词检测子例程结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果接收到的话音包括至少一个触发字词,则触发字词检测子例程前进到块216。在块216,触发字词检测子例程210启动与在块215判定的至少一个触发字词相对应的应用。在在块216启动应用之后,触发字词检测子例程210结束于块217。在结束于块217之后,触发字词检测子例程210在块212(立即或在短暂的等待时间之后)重新开始以在块213接收新的声音样本。
如上所述,触发字词检测子例程210以这种方式连续地(或至少基本上连续地)继续,直到触发字词检测子例程210被电力检测例程201或用户解除激活为止。
图3A-3B示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。移动计算设备300可与联系图1示出和描述的移动计算设备100类似。类似地,移动计算设备300可被配置为执行联系图2A-2B示出和描述的电力检测例程201和/或触发字词检测子例程210。
在图3A-3B中,移动计算设备300经由线缆301从与移动计算设备300连接的外部电源接收操作电力。移动计算设备300的显示器303上的电力图标302指示出移动计算设备300在从外部电源接收电力。因为移动计算设备300在从外部电源接收操作电力,所以电力检测例程201(图2A)将激活了触发字词检测子例程210(图2B)。如本文所述,一旦被激活,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)操作,直到其被电力检测例程201或用户解除激活为止。
在被激活时,触发字词检测子例程210经由移动计算设备300的麦克风304接收声音样本。当移动计算设备300判定经由其麦克风304接收的声音样本包括一个或多个触发字词的集合中的至少一个触发字词时,移动计算设备300被配置为启动与所判定的至少一个触发字词相对应的应用。
在一些实施例中,移动计算设备300可被配置为检测单个触发字词。例如,该触发字词可以是“安卓”(或者可能某种其他的由用户限定的触发字词或字词群组)。在操作中,当移动计算设备300检测到该触发字词(或字词群组时),移动计算设备可启动语音命令提示。图3A示出了移动计算设备300响应于检测到与语音命令提示305相对应的触发字词而启动语音命令提示305的示例。
在语音命令提示305被启动之后,用户随后可向移动计算设备300发出口说命令串。例如,口说命令串可包括“呼叫…简·史密斯…办公室”。这里,该命令包括动作(“呼叫”),动作的对象(“简·史密斯”),以及参数(“办公室”)。响应于接收到口说命令串,移动计算设备300可以:(i)启动与该动作(以及可能与该动作相关联的一个或多个参数)相对应的应用,以及(ii)基于动作的对象(以及可能与该动作的对象相关联的一个或多个参数)执行该应用。图3B示出了移动计算设备300响应于经由语音命令提示305接收的口说命令串(图3A)而启动电话应用306并且呼叫“简·史密斯”的办公室号码。
在其他实施例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的特定口说命令串而启动其他类型的应用。在一个示例中,移动计算设备300可被配置为对特定的应用、特征或服务进行激活或解除激活。例如,移动计算设备300可被配置为响应于诸如“配置振铃静音”之类的命令串而使其振铃静音或解除激活。在另一示例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的口说命令串而启动多媒体播放器并且播放特定的歌曲或视频。例如,口说命令串“播放歌曲All You Need Is Love”可使得移动计算设备300启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。
如上所述,口说命令串可包括与动作或对象相关联的一个或多个参数以以减轻或以其他方式最小化含糊。在图3B所示的示例中,“呼叫”是动作,“简·史密斯”是对象,并且“办公室”是与对象“简·史密斯”相关联的参数。参数“办公室”指定要呼叫简·史密斯的号码中的哪一个(即,家庭、办公室、移动,等等)。
在前述示例中,触发字词是“安卓”并且命令串是“呼叫简·史密斯办公室”。在一些实施例中,用户可能需要在触发字词之后稍微暂停一下才说出命令串,以允许移动计算设备300有时间启动语音命令提示305。类似地,用户在为语音命令提示说出“动作”之后可能需要稍微暂停一下,以允许移动计算设备300有时间启动与该动作相对应的应用,例如此示例中的电话应用。
然而,在其他实施例中,移动计算设备300可被配置为缓存口说字词的简短历史,例如多达大约5-30秒的口说字词,或者可能可配置数目的字词,例如多达10-20个口说字词,这取决于配置。在缓存口说字词的简短历史的实施例中,计算设备300可被配置为分析缓存中的字词以识别可跟随在(一个或多个)触发字词之后的动作、对象和参数。缓存口说字词的简短历史的一个优点在于用户在触发字词之后或者在“动作”之后可不需要长时间暂停(或者根本不需要暂停)来等待移动计算设备300响应于触发字词而启动语音命令提示或者响应于经由语音命令提示接收的“动作”而启动应用。
在一些实施例中,移动计算设备300可被配置为检测多个触发字词(或者字词的群组,即触发短语),其中个体触发字词(或短语)对应于不同的应用或在特定应用中要采取的不同动作。在先前示例中,单个触发字词(或者可能触发短语),例如“安卓”,可使得移动计算设备300启动语音命令提示305(图3A)。一旦语音命令提示305被启动,移动计算设备300就可接收口说命令串以启动其他应用(即,如图3B所示的电话应用)。但在移动计算设备300被配置为检测多个触发字词(或者触发字词或短语的多个集合)的实施例中,与可依赖于单个触发字词来先打开语音命令提示305、然后才接收口说命令串来启动应用的实施例相比,移动计算设备300可能够更快速地启动应用并处理命令。
在一些实施例中,触发字词的集合可包括用于语音命令提示的(一个或多个)特定触发字词、用于电话应用的(一个或多个)特定触发字词、用于文本消息应用的(一个或多个)特定触发字词、用于电子邮件应用的(一个或多个)特定触发字词、以及用于多媒体播放器应用的(一个或多个)特定触发字词,等等。在操作中,移动计算设备300可具有与许多不同的应用和/或功能相对应的许多不同的触发字词或短语。在一些实施例中,用户可能够配置或定制特定的触发字词或短语并将这些定制的触发字词或短语与特定的应用或其他计算、通信或娱乐任务关联起来。例如,用户可配置触发短语“最爱的歌曲”来使得移动计算设备启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。
虽然以上联系响应于经由语音命令提示接收的口说命令串而启动电话应用来描述了图3B,但图3B也可对应于移动计算设备300响应于检测到与电话应用相对应的触发字词而启动电话应用的示例。例如,与电话应用相对应的触发字词可以是“呼叫”。当移动计算设备300检测到触发字词“呼叫”时,移动计算设备可启动电话应用,然后聆听进一步指令,例如要呼叫的号码或人。
图3C示出了移动计算设备300响应于检测到与电子邮件应用307相对应的触发字词而启动电子邮件应用307的示例。在此示例中,与电子邮件应用307相对应的触发字词可以是“邮件”,并且在检测到“邮件”触发字词后,移动计算设备300可启动电子邮件应用307,然后聆听进一步指令,例如电子邮件消息的接收者、主题和正文。
图4示出了根据一些实施例的示例方法400。方法400开始于块401,在这里移动计算设备判定其是否在从以下之一接收操作电力:(i)外部电源,或(ii)被配置为为移动计算设备供电的一个或多个电池。移动计算设备可与本文别处描述的移动计算设备中的任何一个类似。在此示例中,移动设备包括可由用户输入来激活或者可响应于判定移动计算设备在接收外部电力而自动激活的触发字词检测子例程。
在块402,移动计算设备响应于判定其在从外部电源接收电力而激活触发字词检测子例程。触发字词检测子例程在块402a–402d中示出,下文更详细描述这些块。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从一个或多个电池接收电力时也响应于接收到来自用户的激活触发字词检测子例程的输入而激活触发字词检测子例程。
在块403,移动计算设备响应于判定其在从一个或多个电池接收操作电力而对触发字词检测子例程解除激活。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从外部电源接收电力时也响应于接收到用户的对触发字词检测子例程解除激活的输入而对触发字词检测子例程解除激活。
触发字词检测子例程在块402a–402d中示出。在操作中,一旦被激活,触发字词检测子例程就可被配置为连续地(或至少基本上连续地)执行,直到其在步骤403或者被用户解除激活为止。
触发字词检测子例程开始于块402a,在这里移动计算设备经由麦克风接收口说输入。在块402b,移动计算设备基于对口说输入执行的话音识别,获得与口说输入相对应的文本。话音识别可由移动计算设备执行。或者,话音识别可全部或部分由移动计算设备外部的一个或多个设备执行。例如,移动计算设备可将口说输入发送给服务器,服务器可对口说输入执行话音识别以确定相应的文本,并且移动计算设备可从服务器获得该文本。
在块402c,移动计算设备分析该文本以判定该文本是否包括一个或多个预定义的触发字词的集合中的至少一个。在块402d,响应于判定该文本包括一个或多个预定义的触发字词的集合中的至少一个,移动计算设备启动与文本中包括的至少一个触发字词相对应的应用。
在一些实施例中,与至少一个触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示应用。语音命令可包括以下各项中的一个或多个:(i)动作,(ii)动作的对象,以及(iii)与动作或对象相关联的一个或多个参数。语音命令提示和经由语音命令提示接收的语音命令可与本文别处描述的语音命令提示和语音命令类似。
在其他实施例中,与至少一个触发字词相对应的应用可以是以下各项中的任何一个:语音命令提示、通信应用、多媒体应用、或者用于配置移动计算设备的设定的应用。
在一些实施例中,通过将移动计算设备耦合到外部电源可激活移动计算设备的话音识别模式。图5示出了根据这种实施例的示例方法500。方法500开始于块501,此时移动计算设备检测到移动计算设备与外部电源的耦合。响应于检测到的耦合,在块502,移动计算设备激活话音识别模式。块502–505描述了话音识别模式在被激活之后可如何操作的示例。
在块503,移动计算设备经由麦克风接收口说输入。在块504,移动计算设备判定口说输入是否包括一个或多个触发字词。如上所述,这可涉及由移动计算设备和/或由服务器执行的话音识别。响应于判定口说输入包括至少一个触发字词,在块505,移动计算设备启动与该至少一个触发字词相对应的应用。
虽然本文已公开了各种方面和实施例,但本领域技术人员将清楚其他方面和实施例。本文公开的各种方面和实施例只是为了说明,而并不打算进行限定,真实的范围和精神由权利要求指示。
Claims (26)
1.一种用于移动计算设备中的连续话音识别和检测的方法,包括:
判定移动计算设备是否在从外部电源接收操作电力,其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程;以及
响应于判定所述移动计算设备在从所述外部电源接收操作电力,激活所述触发字词检测子例程,其中所述触发字词检测子例程包括:
经由所述移动计算设备的麦克风接收口说输入,
基于对所述口说输入执行的话音识别获得文本,
判定所述文本是否包括与语音命令提示应用相关联的一个或多个触发字词,以及
响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词,启动所述语音命令提示应用,其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。
2.如权利要求1所述的方法,还包括:连续地执行所述触发字词检测子例程,直到其被解除激活为止。
3.如权利要求1所述的方法,还包括:响应于判定所述移动计算设备在从一个或多个电池接收操作电力,对所述触发字词检测子例程解除激活。
4.如权利要求1所述的方法,还包括:
接收所述用户输入;以及
响应于接收到所述用户输入而激活所述触发字词检测子例程,无论所述移动计算设备是否在从所述外部电源接收操作电力。
5.如权利要求1所述的方法,其中,所述一个或多个其他应用包括以下各项中的至少一个:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
6.如权利要求1所述的方法,其中,所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。
7.如权利要求1所述的方法,其中,判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。
8.如权利要求1所述的方法,还包括:在启动所述语音命令提示应用之后,经由所述麦克风接收口说命令串,其中所述口说命令串包括动作和该动作的对象;以及响应于接收到所述口说命令串,在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用。
9.如权利要求8所述的方法,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,在所述移动计算设备上启动至少与所述动作相对应的应用包括:在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
10.如权利要求8所述的方法,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,在所述移动计算设备上至少基于所述动作的对象执行所述应用包括:在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。
11.一种移动计算设备,包括:
声音检测器;
显示器;
电力选择器,用于选择性地从外部电源或一个或多个电池中的一者为所述移动计算设备供电;以及
一个或多个处理器,用于当所述电力选择器在从所述外部电源为所述移动计算设备供电时连续地执行触发字词检测子例程以及当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时停止所述触发字词检测子例程的执行,
其中,所述触发字词检测子例程包括判定经由所述声音检测器接收的口说输入是否包括与语音命令提示应用相关联的一个或多个触发字词,以及响应于判定所述口说输入包括与所述语音命令提示应用相关联的一个或多个触发字词,启动所述语音命令提示应用,其中所述语音命令提示应用被配置为经由所述声音检测器接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述显示器上显示语音命令提示。
12.如权利要求11所述的移动计算设备,还包括:
用户接口,用于当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时从用户接收激活所述触发字词检测子例程的输入。
13.如权利要求11所述的移动计算设备,其中,所述一个或多个其他应用包括以下各项之一:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
14.如权利要求11所述的移动计算设备,其中,所述一个或多个处理器还用于:响应于包括动作和该动作的对象的所述口说命令串,启动至少与所述动作相对应的应用并且至少基于所述动作的对象来执行所述应用。
15.如权利要求14所述的移动计算设备,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,启动至少与所述动作相对应的应用包括启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
16.如权利要求14所述的移动计算设备,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,至少基于所述动作的对象来执行所述应用包括在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数来执行所述应用。
17.一种用于移动计算设备中的连续话音识别和检测的装置,包括:
用于判定移动计算设备是否在从外部电源接收操作电力的装置,其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程;以及
用于响应于判定所述移动计算设备在从所述外部电源接收操作电力来激活所述触发字词检测子例程的装置,其中所述触发字词检测子例程包括:
经由所述移动计算设备的麦克风接收口说输入,
基于对所述口说输入执行的话音识别获得文本,
判定所述文本是否包括与语音命令提示应用相关联的一个或多个触发字词,以及
用于响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词来启动所述语音命令提示应用的装置,其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。
18.如权利要求17所述的装置,还包括:用于连续地执行所述触发字词检测子例程直到其被解除激活为止的装置。
19.如权利要求17所述的装置,还包括:用于响应于判定所述移动计算设备在从一个或多个电池接收操作电力来对所述触发字词检测子例程解除激活的装置。
20.如权利要求17所述的装置,还包括:
用于接收所述用户输入的装置;以及
用于响应于接收到所述用户输入而激活所述触发字词检测子例程而无论所述移动计算设备是否在从所述外部电源接收操作电力的装置。
21.如权利要求17所述的装置,其中,所述一个或多个其他应用包括以下各项中的至少一个:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
22.如权利要求17所述的装置,其中,所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。
23.如权利要求17所述的装置,其中,判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。
24.如权利要求17所述的装置,还包括:用于在启动所述语音命令提示应用之后,经由所述麦克风接收口说命令串的装置,其中所述口说命令串包括动作和该动作的对象;以及
用于响应于接收到所述口说命令串,在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用的装置。
25.如权利要求17所述的装置,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,在所述移动计算设备上启动至少与所述动作相对应的应用包括:在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
26.如权利要求17所述的装置,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,在所述移动计算设备上至少基于所述动作的对象执行所述应用包括:在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161542074P | 2011-09-30 | 2011-09-30 | |
US61/542,074 | 2011-09-30 | ||
US13/621,068 | 2012-09-15 | ||
US13/621,068 US8452597B2 (en) | 2011-09-30 | 2012-09-15 | Systems and methods for continual speech recognition and detection in mobile computing devices |
PCT/US2012/057576 WO2013049358A1 (en) | 2011-09-30 | 2012-09-27 | Systems and methods for continual speech recognition and detection in mobile computing devices |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103930945A CN103930945A (zh) | 2014-07-16 |
CN103930945B true CN103930945B (zh) | 2017-10-31 |
Family
ID=47993412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280056118.5A Active CN103930945B (zh) | 2011-09-30 | 2012-09-27 | 用于移动计算设备中的连续话音识别和检测的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (3) | US8452597B2 (zh) |
EP (1) | EP2761615A1 (zh) |
CN (1) | CN103930945B (zh) |
WO (1) | WO2013049358A1 (zh) |
Families Citing this family (234)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US8731936B2 (en) * | 2011-05-26 | 2014-05-20 | Microsoft Corporation | Energy-efficient unobtrusive identification of a speaker |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8996381B2 (en) * | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US9031847B2 (en) * | 2011-11-15 | 2015-05-12 | Microsoft Technology Licensing, Llc | Voice-controlled camera operations |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
KR101990037B1 (ko) * | 2012-11-13 | 2019-06-18 | 엘지전자 주식회사 | 이동 단말기 및 그것의 제어 방법 |
US9424405B2 (en) * | 2012-11-28 | 2016-08-23 | Apple Inc. | Using receipts to control assignments of items of content to users |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
CN103871408B (zh) * | 2012-12-14 | 2017-05-24 | 联想(北京)有限公司 | 一种语音识别方法及装置、电子设备 |
US9047857B1 (en) * | 2012-12-19 | 2015-06-02 | Rawles Llc | Voice commands for transitioning between device states |
AU2021202255B9 (en) * | 2013-02-07 | 2022-06-09 | Apple Inc. | Voice trigger for a digital assistant |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9530410B1 (en) | 2013-04-09 | 2016-12-27 | Google Inc. | Multi-mode guard for voice commands |
EP2801974A3 (en) * | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
US9026176B2 (en) | 2013-05-12 | 2015-05-05 | Shyh-Jye Wang | Message-triggered voice command interface in portable electronic devices |
EP3000241B1 (en) | 2013-05-23 | 2019-07-17 | Knowles Electronics, LLC | Vad detection microphone and method of operating the same |
US10020008B2 (en) | 2013-05-23 | 2018-07-10 | Knowles Electronics, Llc | Microphone and corresponding digital interface |
US9711166B2 (en) | 2013-05-23 | 2017-07-18 | Knowles Electronics, Llc | Decimation synchronization in a microphone |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US9747899B2 (en) * | 2013-06-27 | 2017-08-29 | Amazon Technologies, Inc. | Detecting self-generated wake expressions |
CN103309618A (zh) | 2013-07-02 | 2013-09-18 | 姜洪明 | 移动操作系统 |
GB2526980B (en) * | 2013-07-10 | 2017-04-12 | Cirrus Logic Int Semiconductor Ltd | Sensor input recognition |
GB2553040B (en) * | 2013-07-10 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Sensor input recognition |
US20150088525A1 (en) * | 2013-09-24 | 2015-03-26 | Tencent Technology (Shenzhen) Co., Ltd. | Method and apparatus for controlling applications and operations on a terminal |
US9502028B2 (en) | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
CN103500578B (zh) * | 2013-10-22 | 2016-05-11 | 上海云视科技股份有限公司 | 语音操控方法和装置 |
US9147397B2 (en) | 2013-10-29 | 2015-09-29 | Knowles Electronics, Llc | VAD detection apparatus and method of operating the same |
US9769550B2 (en) | 2013-11-06 | 2017-09-19 | Nvidia Corporation | Efficient digital microphone receiver process and system |
US9454975B2 (en) * | 2013-11-07 | 2016-09-27 | Nvidia Corporation | Voice trigger |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
US20150221307A1 (en) * | 2013-12-20 | 2015-08-06 | Saurin Shah | Transition from low power always listening mode to high power speech recognition mode |
KR102179506B1 (ko) | 2013-12-23 | 2020-11-17 | 삼성전자 주식회사 | 전자장치 및 그 제어방법 |
US11132173B1 (en) * | 2014-02-20 | 2021-09-28 | Amazon Technologies, Inc. | Network scheduling of stimulus-based actions |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9355640B2 (en) | 2014-06-04 | 2016-05-31 | Google Inc. | Invoking action responsive to co-presence determination |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9449442B2 (en) * | 2014-10-23 | 2016-09-20 | Vivint, Inc. | Interface of an automation system |
CN105740056B (zh) * | 2014-12-08 | 2019-03-29 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
WO2016118480A1 (en) | 2015-01-21 | 2016-07-28 | Knowles Electronics, Llc | Low power voice trigger for acoustic apparatus and method |
US9633661B1 (en) * | 2015-02-02 | 2017-04-25 | Amazon Technologies, Inc. | Speech-responsive portable speaker |
US10121472B2 (en) | 2015-02-13 | 2018-11-06 | Knowles Electronics, Llc | Audio buffer catch-up apparatus and method with two microphones |
CN104715754A (zh) * | 2015-03-05 | 2015-06-17 | 北京华丰亨通科贸有限公司 | 一种快速响应语音命令的方法及装置 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) * | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9467563B1 (en) * | 2015-04-10 | 2016-10-11 | Angel.Com Incorporated | Visual interactive voice response system |
WO2016161641A1 (zh) | 2015-04-10 | 2016-10-13 | 华为技术有限公司 | 语音识别方法、语音唤醒装置、语音识别装置及终端 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10001964B2 (en) * | 2015-06-08 | 2018-06-19 | Intel Corporation | Systems, methods, and devices for handling Wi-Fi and bluetooth audio |
KR102296174B1 (ko) * | 2015-06-26 | 2021-08-31 | 삼성전자주식회사 | 전자 장치 및 그의 오디오 변환 방법 |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9478234B1 (en) | 2015-07-13 | 2016-10-25 | Knowles Electronics, Llc | Microphone apparatus and method with catch-up buffer |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10083685B2 (en) * | 2015-10-13 | 2018-09-25 | GM Global Technology Operations LLC | Dynamically adding or removing functionality to speech recognition systems |
CN106653010B (zh) | 2015-11-03 | 2020-07-24 | 络达科技股份有限公司 | 电子装置及其透过语音辨识唤醒的方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10049670B2 (en) * | 2016-06-06 | 2018-08-14 | Google Llc | Providing voice action discoverability example for trigger term |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10283138B2 (en) | 2016-10-03 | 2019-05-07 | Google Llc | Noise mitigation for a voice interface device |
JP6659514B2 (ja) * | 2016-10-12 | 2020-03-04 | 東芝映像ソリューション株式会社 | 電子機器及びその制御方法 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US9940930B1 (en) | 2016-12-07 | 2018-04-10 | Google Llc | Securing audio data |
US10134396B2 (en) | 2016-12-07 | 2018-11-20 | Google Llc | Preventing of audio attacks |
US10242673B2 (en) | 2016-12-07 | 2019-03-26 | Google Llc | Preventing of audio attacks using an input and an output hotword detection model |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10332520B2 (en) | 2017-02-13 | 2019-06-25 | Qualcomm Incorporated | Enhanced speech generation |
JP6812843B2 (ja) * | 2017-02-23 | 2021-01-13 | 富士通株式会社 | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 |
KR102389996B1 (ko) * | 2017-03-28 | 2022-04-25 | 삼성전자 주식회사 | 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법 |
CN107122179A (zh) | 2017-03-31 | 2017-09-01 | 阿里巴巴集团控股有限公司 | 语音的功能控制方法和装置 |
US11250844B2 (en) * | 2017-04-12 | 2022-02-15 | Soundhound, Inc. | Managing agent engagement in a man-machine dialog |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10311870B2 (en) * | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
EP3435642A1 (en) * | 2017-07-29 | 2019-01-30 | Advanced Digital Broadcast S.A. | A system and method for remote control of appliances by voice |
US11282528B2 (en) * | 2017-08-14 | 2022-03-22 | Lenovo (Singapore) Pte. Ltd. | Digital assistant activation based on wake word association |
KR102489914B1 (ko) * | 2017-09-15 | 2023-01-20 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US10235353B1 (en) * | 2017-09-15 | 2019-03-19 | Dell Products Lp | Natural language translation interface for networked devices |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US11127405B1 (en) * | 2018-03-14 | 2021-09-21 | Amazon Technologies, Inc. | Selective requests for authentication for voice-based launching of applications |
US10877637B1 (en) | 2018-03-14 | 2020-12-29 | Amazon Technologies, Inc. | Voice-based device operation mode management |
US10885910B1 (en) | 2018-03-14 | 2021-01-05 | Amazon Technologies, Inc. | Voice-forward graphical user interface mode management |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
KR102563314B1 (ko) * | 2018-08-30 | 2023-08-04 | 삼성전자주식회사 | 전자 장치 및 단축 명령어의 바로가기 생성 방법 |
US10861444B2 (en) * | 2018-09-24 | 2020-12-08 | Rovi Guides, Inc. | Systems and methods for determining whether to trigger a voice capable device based on speaking cadence |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
JP7202853B2 (ja) * | 2018-11-08 | 2023-01-12 | シャープ株式会社 | 冷蔵庫 |
US11100925B2 (en) | 2018-12-06 | 2021-08-24 | Comcast Cable Communications, Llc | Voice command trigger words |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11875231B2 (en) | 2019-06-26 | 2024-01-16 | Samsung Electronics Co., Ltd. | System and method for complex task machine learning |
KR20210031265A (ko) * | 2019-09-11 | 2021-03-19 | 삼성전자주식회사 | 전자 장치 및 그 동작방법 |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
KR20210055347A (ko) | 2019-11-07 | 2021-05-17 | 엘지전자 주식회사 | 인공 지능 장치 |
US11295741B2 (en) | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
US11321048B2 (en) | 2020-02-25 | 2022-05-03 | Motorola Solutions, Inc. | Method and apparatus for temporary hands-free voice interaction |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11620999B2 (en) | 2020-09-18 | 2023-04-04 | Apple Inc. | Reducing device processing of unintended audio |
US11652655B1 (en) * | 2022-01-31 | 2023-05-16 | Zoom Video Communications, Inc. | Audio capture device selection for remote conference participants |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1054388A2 (en) * | 1999-05-21 | 2000-11-22 | Information Storage Devices, Inc. | Method and apparatus for determining the state of voice controlled devices |
US6212541B1 (en) * | 1994-10-24 | 2001-04-03 | Microsoft Corporation | System and method for switching between software applications in multi-window operating system |
CN1316863A (zh) * | 2000-04-04 | 2001-10-10 | 李秀星 | 语音识别操作便携电话机的方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539358B1 (en) * | 2000-05-24 | 2003-03-25 | Delphi Technologies, Inc. | Voice-interactive docking station for a portable computing device |
KR100652645B1 (ko) * | 2004-07-23 | 2006-12-06 | 엘지전자 주식회사 | 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법 |
JP4317834B2 (ja) * | 2005-06-01 | 2009-08-19 | 株式会社カシオ日立モバイルコミュニケーションズ | 音出力装置、および、音出力制御プログラム |
US20090222270A2 (en) * | 2006-02-14 | 2009-09-03 | Ivc Inc. | Voice command interface device |
US8204748B2 (en) * | 2006-05-02 | 2012-06-19 | Xerox Corporation | System and method for providing a textual representation of an audio message to a mobile device |
US8060249B2 (en) * | 2006-11-22 | 2011-11-15 | Senticare Inc. | Medication dispenser with integrated monitoring system |
US20080154612A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Local storage and use of search results for voice-enabled mobile communications devices |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9111538B2 (en) * | 2009-09-30 | 2015-08-18 | T-Mobile Usa, Inc. | Genius button secondary commands |
WO2011091402A1 (en) * | 2010-01-25 | 2011-07-28 | Justin Mason | Voice electronic listening assistant |
US8296142B2 (en) * | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8798995B1 (en) * | 2011-09-23 | 2014-08-05 | Amazon Technologies, Inc. | Key word determinations from voice data |
-
2012
- 2012-09-15 US US13/621,068 patent/US8452597B2/en active Active
- 2012-09-27 WO PCT/US2012/057576 patent/WO2013049358A1/en active Application Filing
- 2012-09-27 CN CN201280056118.5A patent/CN103930945B/zh active Active
- 2012-09-27 US US14/347,456 patent/US20140244253A1/en not_active Abandoned
- 2012-09-27 EP EP12773459.8A patent/EP2761615A1/en not_active Ceased
-
2016
- 2016-02-16 US US15/045,128 patent/US20160180851A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6212541B1 (en) * | 1994-10-24 | 2001-04-03 | Microsoft Corporation | System and method for switching between software applications in multi-window operating system |
EP1054388A2 (en) * | 1999-05-21 | 2000-11-22 | Information Storage Devices, Inc. | Method and apparatus for determining the state of voice controlled devices |
CN1316863A (zh) * | 2000-04-04 | 2001-10-10 | 李秀星 | 语音识别操作便携电话机的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US20130085755A1 (en) | 2013-04-04 |
US20160180851A1 (en) | 2016-06-23 |
US8452597B2 (en) | 2013-05-28 |
CN103930945A (zh) | 2014-07-16 |
WO2013049358A1 (en) | 2013-04-04 |
US20140244253A1 (en) | 2014-08-28 |
EP2761615A1 (en) | 2014-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103930945B (zh) | 用于移动计算设备中的连续话音识别和检测的系统和方法 | |
US10838765B2 (en) | Task execution method for voice input and electronic device supporting the same | |
US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
EP3062309B1 (en) | Low power detection of an activation phrase | |
EP3001414B1 (en) | Method for executing voice command and electronic device | |
EP2842125B1 (en) | Embedded system for construction of small footprint speech recognition with user-definable constraints | |
CN103310785B (zh) | 使用语音识别控制电源的电子装置和方法 | |
CN108694944B (zh) | 通过使用框架生成自然语言表达的方法和设备 | |
CN104247280A (zh) | 话音控制的通信连接 | |
US10880833B2 (en) | Smart listening modes supporting quasi always-on listening | |
KR20180060328A (ko) | 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버 | |
WO2014086238A1 (zh) | 语音后台控制方法及移动终端 | |
US20200349947A1 (en) | Method for responding to user utterance and electronic device for supporting same | |
US11120792B2 (en) | System for processing user utterance and controlling method thereof | |
KR20200016636A (ko) | 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법 | |
US11361750B2 (en) | System and electronic device for generating tts model | |
CN104391742A (zh) | 应用优化方法和装置 | |
KR20190021088A (ko) | 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법 | |
JP2001096481A (ja) | 情報処理装置および方法、並びにプログラム格納媒体 | |
KR20150106567A (ko) | 음성 메시지 출력 방법, 이를 위한 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: American California Patentee after: Google limited liability company Address before: American California Patentee before: Google Inc. |