CN103930945A - 用于移动计算设备中的连续话音识别和检测的系统和方法 - Google Patents

用于移动计算设备中的连续话音识别和检测的系统和方法 Download PDF

Info

Publication number
CN103930945A
CN103930945A CN201280056118.5A CN201280056118A CN103930945A CN 103930945 A CN103930945 A CN 103930945A CN 201280056118 A CN201280056118 A CN 201280056118A CN 103930945 A CN103930945 A CN 103930945A
Authority
CN
China
Prior art keywords
mobile computing
computing device
words
application
triggering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280056118.5A
Other languages
English (en)
Other versions
CN103930945B (zh
Inventor
B.E.布林格特
P.J.霍奇森
P.皮特利卡
S.蒂克纳
R.Z.科恩
H.彭哈
L.扎诺林
D.伯克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN103930945A publication Critical patent/CN103930945A/zh
Application granted granted Critical
Publication of CN103930945B publication Critical patent/CN103930945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了用于移动计算设备的连续话音识别的系统、制品和方法。一个实施例包括判定移动计算设备是在从外部电源还是从电池电源接收操作电力,并且响应于判定移动计算设备在从外部电源接收电力而激活触发字词检测子例程。在一些实施例中,触发字词检测子例程在移动计算设备在从外部电源接收电力时连续地操作。触发字词检测子例程包括判定经由麦克风接收的多个口说字词是否包括一个或多个触发字词,并且响应于判定多个口说字词包括至少一个触发字词,启动与多个口说字词中包括的至少一个触发字词相对应的应用。

Description

用于移动计算设备中的连续话音识别和检测的系统和方法
相关申请的交叉引用
本专利申请要求2011年9月30日递交的61/542,074号美国临时申请的优先权,这里通过引用将该美国临时申请的内容全部并入,就好像在本申请中完全记载了一样。
背景技术
通常,激活移动计算设备上的语音命令接口要求用户对语音命令接口的某种物理激活。例如,为了激活移动计算设备上的语音命令接口,用户可能需要按压或按住移动计算设备的外表上的物理按钮或开关,或者用户可能需要激活与移动计算设备相关联的图形用户接口上的虚拟按钮或开关。
发明内容
经由语音命令控制移动计算设备在用户不能容易地在物理上与移动计算设备交互时经常是有用的。例如,经由语音命令控制移动计算设备在用户驾驶车辆时或者在移动计算设备离用户有一些距离时(例如在房间那头或者因其他原因而不能被用户立即触及)可能是有用的。
用于控制移动计算设备的语音命令接口一般要求操作麦克风或其他话音输入设备来从用户接收话音,并且在移动计算设备上运行话音识别和检测算法以检测和识别经由麦克风接收的话音。然而,连续地操作麦克风和连续地在移动计算设备上运行话音检测和识别应用在许多情形中可能是不合需要的,因为操作麦克风和连续地执行检测和识别算法所需要的电力可能迅速地耗尽移动计算设备的电池。
本申请公开了系统和方法,其允许了用户享受经由语音命令来控制移动计算设备的优点,而没有如现有设备所要求的那样必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。
在操作中,根据所公开的系统和方法的一些实施例的移动计算设备被配置为:(i)检测与外部电源的耦合,以及(ii)响应于该检测,激活话音识别模式。一些实施例包括用于检测与外部电源的耦合的电力监视例程。类似地在一些实施例中,在话音识别模式中操作的移动计算设备可包括触发字词检测子例程。检测与外部电源的耦合和激活话音识别模式的组合使得所公开的实施例能够克服现有设备的限制,并且在许多情形中对移动计算设备的电池的影响可忽略。
一些实施例包括判定移动计算设备是在从外部电源还是从电池接收操作电力。如果移动计算设备在从外部电源接收电力,则移动计算设备激活话音识别模式。在一些实施例中,话音识别模式包括触发字词检测子例程。外部电源可以是用于移动计算设备的壁式充电器或者用于移动计算设备的坞接站,例如桌面或车载坞接站。一些实施例还可包括当移动计算设备在从电池接收操作电力时从话音识别模式退出(和/或可能对触发字词检测子例程解除激活)。
在操作中,触发字词检测子例程包括判定经由麦克风接收的口说字词是否包括一个或多个触发字词的集合中的至少一个触发字词。响应于判定口说字词包括至少一个触发字词,触发字词检测子例程启动与口说字词中包括的至少一个触发字词相对应的应用。在一些实施例中,只要移动计算设备继续从外部电源接收电力,触发字词检测子例程就连续地操作。
在一些实施例中,启动的与检测到的(一个或多个)触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示。当语音命令提示被启动时,用户可经由一个或多个语音命令来控制移动计算设备。(一个或多个)触发字词之后的语音命令可包括动作和该动作的对象。例如,启动语音命令提示应用的触发字词可以是“Android”,并且语音命令可包括“呼叫”(动作)和“简·史密斯”(动作的对象)。语音命令如本文所述可包括额外的字词。
在其他实施例中,启动的应用可以是特定的通信应用、多媒体应用或者用于配置移动计算设备的设定的应用。在这些实施例中,触发字词甚至可以是应用的名称。例如,启动电话拨号程序的触发字词可以是“呼叫”。响应于检测到触发字词“呼叫”,移动计算设备可被配置为启动电话拨号程序,然后或者(i)等待接收期望的被叫方的名字,或者(ii)使用“呼叫”触发字词之后的字词作为期望的被叫方的名字。电话拨号程序(或者其他启动的应用)可被配置为在其被启动之后接收额外的语音命令。如本文所述,命令的类型可取决于特定的应用而有所不同。
在一些实施例中,触发字词检测例程可响应于将设备耦合到外部电源、而不是响应于任何其他类型的输入(例如,触摸输入、手动按钮按压,等等)而被启动。在这些实施例中,话音识别模式和/或触发字词检测例程可以仅当移动计算设备在从外部电源接收电力时才被自动激活。在一些实施例中,话音识别模式可以仅当移动计算设备在从外部电源接收操作电力时才被激活,并且话音识别模式可以总是在移动计算设备在从电池接收操作电力时被解除激活。
其他实施例可包括从用户接收激活(或解除激活)触发字词检测子例程的手动输入,而无论移动计算设备是在从外部电源还是从电池接收操作电力。在这些实施例中,即使移动计算设备可能在从电池接收操作电力,移动计算设备仍可激活触发字词检测子例程。当触发字词检测子例程被用户手动激活时(例如,触摸输入、手动按钮按压,等等),触发字词检测子例程在移动计算设备在从电池接收电力时仍可连续地操作。
在一些实施例中,所公开的方法的特征和功能可与移动计算设备的操作系统相集成。在其他实施例中,所公开的实施例的特征和功能可以是被移动计算设备安装和执行的应用的组件,例如从在线应用商店下载的应用。
本文描述的任何方法可以以存储在非暂态有形计算机可读介质上的指令的形式实现。当被移动计算设备执行时,这些指令可使得移动计算设备执行所公开的方法的一个或多个功能。另外的示例也可包括包含编码有计算机可读指令的有形非暂态计算机可读介质的制品。这些指令可包括执行本文描述的方法的一个或多个功能的指令。
计算机可读介质可包括非暂态计算机可读介质,例如像寄存器存储器、处理器缓存和随机访问存储器(random access memory,RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质,例如次级或永久性长期存储装置,比如只读存储器(read only memory,ROM)、光盘或磁盘、致密盘只读存储器(compact-disc read only memory,CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。在一些实施例中,计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储介质。
此外,所公开的方法的一些方面可由被配置为执行本文描述的任何过程或方法中的逻辑功能的电路来执行。在其他示例中,许多类型的设备可以被使用或配置来执行本文描述的任何过程或方法中的逻辑功能。在另外的示例中,许多类型的设备(和/或设备的组件或子组件)可以被使用或配置为用于执行本文描述的任何方法(或者本文描述的方法的任何部分)的功能的装置。
附图说明
图1示出了根据一些实施例的移动计算设备的简化框图的示例。
图2A示出了根据一些实施例的电力检测例程的示例算法。
图2B示出了根据一些实施例的触发字词检测子例程的示例算法。
图3A-3C示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。
图4示出了根据一些实施例的示例方法。
图5示出了根据一些实施例的示例方法。
具体实施方式
以下详细描述包括对附图的参照。在附图中,相似的标号通常标识相似的组件,除非上下文另有规定。详细描述、附图和权利要求中概述的示例实施例并不打算进行限定。在不脱离本文给出的主题的范围的情况下,可以利用其他实施例,并且可以进行其他改变。容易理解,本文概括描述并且在附图中图示的本公开的各方面可按许多种不同的配置来布置、替换、组合、分离和设计,所有这些在这里都已明确设想到。
图1示出了根据一些实施例的移动计算设备100的简化框图的示例。在一些实施例中,移动计算设备100可以是移动电话、蜂窝电话、智能电话或者现在已知或以后开发的可经由语音命令来控制的类似的移动通信设备。在其他实施例中,移动计算设备100可以是膝上型计算机、平板计算机或者现在已知或以后开发的可经由语音命令来控制的其他类型的移动计算设备。
移动计算设备100包括多个组件,例如一个或多个处理器101、数据存储装置102、电力管理子系统103、用户输入/输出接口104、通信接口105和传感器106。个体组件经由一个或多个数据总线115或者被配置为使得个体组件能够向移动计算设备100的其他组件发送数据和从移动计算设备100的其他组件接收数据的类似通信连接而连接。个体组件还经由配电总线116或者被配置为向移动计算设备100的个体组件提供操作电力的类似连接而连接到电力管理子系统103。
一个或多个处理器101可包括现在已知或以后开发的任何类型的通用处理器(例如来自Intel、Advanced Micro Devices(AMD)等等的处理器)或者任何类型的专用处理器(例如,专用集成电路(application specific integratedcircuit,ASIC)、数字信号处理器(digital signal processor,DSP)、编码器/解码器(编解码器CODEC),等等)。
数据存储装置102被配置为存储数据以及计算机可读程序指令108。数据存储装置102可包括本文描述的任何类型的数据存储装置,包括用于在程序代码或指令的执行期间存储数据和/或程序代码或指令的短期易失性存储器(例如RAM)和/或用于存储数据和/或程序代码或指令的长期非易失性存储器(例如ROM)。在一些实施例中,数据存储装置可实现为固态和/或闪速存储器或者其他类似类型的小外形参数存储介质。
电力管理子系统103包括电池电力接口112、外部电力接口113和电源选择器114。电池电力接口112被配置为从电池源接收操作电力,该电池源例如是内部电池、与移动计算设备100电耦合的可移除电池或者现在已知或以后开发的任何其他种类的电池或者类似类型的便携式电源。经由电池接口112为移动计算设备100供应操作电力的电池可以是可再充电的或不可再充电的。
外部电力接口113被配置为从外部电源为移动计算设备100接收电力。外部电源的示例包括壁装电源插座、桌面坞接站(docking station)、车载坞接站或电源线、带有坞接站的闹钟或娱乐系统、或者被配置为向移动计算设备100提供操作电力以便移动计算设备100不需要依赖于经由电池接口112来自电池的操作电力的任何其他类型的连接或设备。
在一些实施例中,电源选择器114可被配置为选择性地从电池接口112或外部电力接口113之一提供操作电力。在具有可再充电电池的实施例中,当经由外部电力接口113连接了外部电源时,电源选择器114可被配置为既(i)经由外部电力接口113从外部电力供应向移动计算设备100提供操作电力,又(ii)通过提供从外部电力接口113到电池接口112的电连接来用来自外部电力供应的电力对电池充电。
用户输入/输出接口104包括多个输入和输出组件,例如声音输入/输出组件107、显示输入/输出组件108和可选的键盘109。声音组件107可包括麦克风或者被配置为检测和接收声波的现在已知或以后开发的其他类似类型的声音检测设备。声音组件107还可包括一个或多个扬声器或被配置为生成声波的现在已知或以后开发的类似的声音生成设备。
显示输入/输出组件108可包括液晶显示器(Liquid Crystal Display,LCD)、等离子显示器或者被配置为向用户显示图形用户接口和/或其他信息的现在已知或以后开发的类似类型的显示设备。在一些实施例中,显示器108可包括触摸屏接口或其他触敏组件以使得用户能够向移动计算设备100输入命令或其他信息(或以其他方式与移动计算设备100交互)。在一些实施例中,显示器108可被配置为生成和显示虚拟键盘来供用户进行数据输入。在其他实施例中,移动计算设备100可以可选地包括物理键盘109。然而,键盘(虚拟的或物理的)在所有实施例中都不是必需的。一些实施例还可包括一个或多个外部开关或按钮(未示出),以开启或关闭移动计算设备100、将设备从睡眠状态唤醒、控制音量或其他类似的功能。
通信接口105可包括一个或多个无线通信接口110和一个或多个有线接口111。无线接口110可包括被配置为根据多种不同的无线通信协议中的任何一种来发送和接收数据的任何类型的无线通信接口,所述无线通信协议例如是:蓝牙、IEEE802.11(IEEE802.11可以指IEEE802.11-2007、IEEE802.11n-2009或者任何其他IEEE802.11修订版)或者其他Wi-Fi变体、码分多址(Code-Division Multiple Access,CDMA)、全球移动通信系统(GlobalSystem for Mobile Communications,GSM)、第3代(3rd Generation,3G)、第4代(4th Generation,4G)、第3代合作伙伴计划—长期演进(3rd GenerationPartnership Project--Long Term Evolution,3GPP-LTE)、微波接入全球互通(Worldwide Interoperability for Microwave Access,WiMAX)、Zigbee、通用分组无线电服务(General Packet Radio Service,GPRS)、演进数据优化(Evolution-Data Optimized,EV-DO)、高速下行链路分组接入(High-SpeedDownlink Packet Access,HSDPA)或者现在已知或以后开发的任何其他类型的无线通信协议。有线接口111可包括被配置为根据多种不同通信协议中的任何一种来发送和接收数据的任何类型的有线通信接口(例如电的、光的等等),所述通信协议例如是通用串行总线(Universal Serial Bus,USB)、以太网、IEEE1394、Firewire、Thunderbolt或者现在已知或以后开发的任何其他类型的串行或并行数据通信协议。无线接口110和有线接口111可被配置为经由网络——例如因特网——与其他计算或通信设备通信,和/或经由蓝牙、USB或类似的连接与外围设备通信,其中外围设备例如是盘驱动器、外部监视器、鼠标或轨迹球/轨迹板设备以及外部键盘等等。在一些示例中,移动计算设备100可使用有线接口110和/或无线接口111来与代表移动计算设备100执行话音识别的服务器通信。
在一些实施例中,有线通信接口111还可被配置为如电力连接117所示经由外部电力接口113从有线接口111向外部电力接口113提供操作电力。例如,USB是可被配置为既提供通信也提供电力的一类有线通信接口。
移动计算设备100的一些实施例还可包括一个或多个传感器106。传感器106可包括任何一个或多个相机或其他图像传感器、加速度计、全球定位系统(Global Positioning System,GPS)传感器、温度传感器或者可能希望与移动计算设备100集成的现在已知或以后开发的任何其他类型的传感器。
如以上简要描述的,根据所公开的实施例配置的移动计算设备可使得用户能够享受经由语音命令来控制移动计算设备的优点,而没有必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。在一个实施例中,上述优点可经由移动计算设备100执行的电力检测例程和触发字词检测子例程的组合来实现。
图2A示出了根据一些实施例的电力检测例程201的示例算法,并且图2B示出了根据一些实施例的触发字词检测子例程210的示例算法。对图2A和2B的算法的描述包括对本文参考图1示出和描述的示例移动计算设备100及其相应组件的参照。在一些实施例中,电力检测例程201和/或触发字词检测子例程210可以是移动计算设备100的操作系统的组件。在其他实施例中,电力检测例程201和/或触发字词检测子例程210可以是安装在移动计算设备100上的应用或窗口小部件(widget)的组件,例如从在线应用商店下载的应用或窗口小部件。
在一些实施例中,电力检测例程201可被配置为在移动计算设备100上连续地(或至少基本上连续地)操作。一些实施例也可允许用户对电力检测例程201进行激活或解除激活。在一些实施例中,电力检测例程201可被用户选择性地激活或解除激活。
在图2A和2B的实施例中,触发字词检测子例程210是电力检测例程201的“子例程”,因为触发字词检测子例程210是由电力检测例程201在某些条件下激活的,如本文所述。然而,触发字词检测能力并不需要在所有实施例中都实现为电力检测例程的子例程。
电力检测例程开始于块202。在块203,电力检测例程201判定移动计算设备100的操作电力是(1)经由外部电力接口113从外部电源接收的,还是(2)经由电池接口112从电池电源接收的。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。如果未检测到外部电源(即,移动计算设备100在从电池源接收操作电力),则电力检测例程201结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
然而,如果在块203,电力检测例程201判定移动计算设备100在经由外部电力接口113从外部电源接收操作电力,则电力检测例程201前进到块204。在块204,电力检测例程201激活触发字词检测子例程210。一旦其在块204被电力检测例程201激活,触发字词检测子例程210就可被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。
在在块204激活触发字词检测子例程210之后,电力检测例程前进到块205。在块205,电力检测例程201判定通信设备100是否在经由外部电力接口113从外部电源接收操作电力。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。
如果移动计算设备100在从外部电源接收其操作电力,则电力检测例程201返回到块205。但如果电力检测例程201判定移动计算设备100不再从外部电源接收其操作电力(即,外部电源已与外部电力接口113断开连接和/或移动计算设备100已切换到电池电力),则电力检测例程201前进到块206。在块206,电力检测例程201对触发字词检测子例程210解除激活。电力检测例程201随后结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
图2B示出了触发字词检测子例程210的示例算法。如联系图2A所述,一旦电力检测例程201在块204激活了触发字词检测子例程210,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。如上所述,触发字词检测子例程210可在块206被电力检测例程201解除激活。在一些实施例中,触发字词检测子例程210可被用户选择性地激活和/或解除激活。
触发字词检测子例程210开始于块212。在块213,触发字词检测子例程接收声音样本。可经由移动计算设备100的声音输入107接收声音样本。在一些实施例中,声音输入107可包括麦克风或其他类型的声音输入或检测设备。一些实施例可包括触发对麦克风的激活的声音检测器。一旦被激活,麦克风就捕捉声音样本。在其他实施例中,麦克风可被配置为,一旦触发字词检测子例程210被激活,就连续地(或至少基本上连续地)捕捉声音样本。
在块214,触发字词检测子例程210判定在块213接收的声音样本是否包括话音。判定声音样本是否包括话音可由现在已知或以后开发的多种话音检测算法中的任何一种来完成。在一些实施例中,话音检测算法可由一个或多个处理器101执行。在其他实施例中,话音检测算法可由声音输入107的一个或多个组件执行。
如果声音样本不包括话音,则触发字词检测子例程210结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果声音样本包括话音,则触发字词检测子例程210前进到块215。
在块215,分析来自声音样本的话音以判定话音是否包括一个或多个触发字词的集合中的至少一个。联系图3A-3C来更详细描述触发字词。可利用现在已知或以后开发的多种声音或语音识别算法中的任何一种来分析声音样本。例如,可对口说输入执行话音识别以获得文本,并且可分析该文本来判定该文本是否包括一个或多个触发字词。话音识别可由移动计算设备100执行、由移动计算设备100与之通信的服务器执行、或者由两者的组合来执行。
如果话音不包括至少一个触发字词,则触发字词检测子例程结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果接收到的话音包括至少一个触发字词,则触发字词检测子例程前进到块216。在块216,触发字词检测子例程210启动与在块215判定的至少一个触发字词相对应的应用。在在块216启动应用之后,触发字词检测子例程210结束于块217。在结束于块217之后,触发字词检测子例程210在块212(立即或在短暂的等待时间之后)重新开始以在块213接收新的声音样本。
如上所述,触发字词检测子例程210以这种方式连续地(或至少基本上连续地)继续,直到触发字词检测子例程210被电力检测例程201或用户解除激活为止。
图3A-3B示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。移动计算设备300可与联系图1示出和描述的移动计算设备100类似。类似地,移动计算设备300可被配置为执行联系图2A-2B示出和描述的电力检测例程201和/或触发字词检测子例程210。
在图3A-3B中,移动计算设备300经由线缆301从与移动计算设备300连接的外部电源接收操作电力。移动计算设备300的显示器303上的电力图标302指示出移动计算设备300在从外部电源接收电力。因为移动计算设备300在从外部电源接收操作电力,所以电力检测例程201(图2A)将激活了触发字词检测子例程210(图2B)。如本文所述,一旦被激活,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)操作,直到其被电力检测例程201或用户解除激活为止。
在被激活时,触发字词检测子例程210经由移动计算设备300的麦克风304接收声音样本。当移动计算设备300判定经由其麦克风304接收的声音样本包括一个或多个触发字词的集合中的至少一个触发字词时,移动计算设备300被配置为启动与所判定的至少一个触发字词相对应的应用。
在一些实施例中,移动计算设备300可被配置为检测单个触发字词。例如,该触发字词可以是“安卓”(或者可能某种其他的由用户限定的触发字词或字词群组)。在操作中,当移动计算设备300检测到该触发字词(或字词群组时),移动计算设备可启动语音命令提示。图3A示出了移动计算设备300响应于检测到与语音命令提示305相对应的触发字词而启动语音命令提示305的示例。
在语音命令提示305被启动之后,用户随后可向移动计算设备300发出口说命令串。例如,口说命令串可包括“呼叫…简·史密斯…办公室”。这里,该命令包括动作(“呼叫”),动作的对象(“简·史密斯”),以及参数(“办公室”)。响应于接收到口说命令串,移动计算设备300可以:(i)启动与该动作(以及可能与该动作相关联的一个或多个参数)相对应的应用,以及(ii)基于动作的对象(以及可能与该动作的对象相关联的一个或多个参数)执行该应用。图3B示出了移动计算设备300响应于经由语音命令提示305接收的口说命令串(图3A)而启动电话应用306并且呼叫“简·史密斯”的办公室号码。
在其他实施例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的特定口说命令串而启动其他类型的应用。在一个示例中,移动计算设备300可被配置为对特定的应用、特征或服务进行激活或解除激活。例如,移动计算设备300可被配置为响应于诸如“配置振铃静音”之类的命令串而使其振铃静音或解除激活。在另一示例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的口说命令串而启动多媒体播放器并且播放特定的歌曲或视频。例如,口说命令串“播放歌曲All You Need Is Love”可使得移动计算设备300启动多媒体播放器并播放Beatles的歌曲“All YouNeed Is Love”。
如上所述,口说命令串可包括与动作或对象相关联的一个或多个参数以以减轻或以其他方式最小化含糊。在图3B所示的示例中,“呼叫”是动作,“简·史密斯”是对象,并且“办公室”是与对象“简·史密斯”相关联的参数。参数“办公室”指定要呼叫简·史密斯的号码中的哪一个(即,家庭、办公室、移动,等等)。
在前述示例中,触发字词是“安卓”并且命令串是“呼叫简·史密斯办公室”。在一些实施例中,用户可能需要在触发字词之后稍微暂停一下才说出命令串,以允许移动计算设备300有时间启动语音命令提示305。类似地,用户在为语音命令提示说出“动作”之后可能需要稍微暂停一下,以允许移动计算设备300有时间启动与该动作相对应的应用,例如此示例中的电话应用。
然而,在其他实施例中,移动计算设备300可被配置为缓存口说字词的简短历史,例如多达大约5-30秒的口说字词,或者可能可配置数目的字词,例如多达10-20个口说字词,这取决于配置。在缓存口说字词的简短历史的实施例中,计算设备300可被配置为分析缓存中的字词以识别可跟随在(一个或多个)触发字词之后的动作、对象和参数。缓存口说字词的简短历史的一个优点在于用户在触发字词之后或者在“动作”之后可不需要长时间暂停(或者根本不需要暂停)来等待移动计算设备300响应于触发字词而启动语音命令提示或者响应于经由语音命令提示接收的“动作”而启动应用。
在一些实施例中,移动计算设备300可被配置为检测多个触发字词(或者字词的群组,即触发短语),其中个体触发字词(或短语)对应于不同的应用或在特定应用中要采取的不同动作。在先前示例中,单个触发字词(或者可能触发短语),例如“安卓”,可使得移动计算设备300启动语音命令提示305(图3A)。一旦语音命令提示305被启动,移动计算设备300就可接收口说命令串以启动其他应用(即,如图3B所示的电话应用)。但在移动计算设备300被配置为检测多个触发字词(或者触发字词或短语的多个集合)的实施例中,与可依赖于单个触发字词来先打开语音命令提示305、然后才接收口说命令串来启动应用的实施例相比,移动计算设备300可能够更快速地启动应用并处理命令。
在一些实施例中,触发字词的集合可包括用于语音命令提示的(一个或多个)特定触发字词、用于电话应用的(一个或多个)特定触发字词、用于文本消息应用的(一个或多个)特定触发字词、用于电子邮件应用的(一个或多个)特定触发字词、以及用于多媒体播放器应用的(一个或多个)特定触发字词,等等。在操作中,移动计算设备300可具有与许多不同的应用和/或功能相对应的许多不同的触发字词或短语。在一些实施例中,用户可能够配置或定制特定的触发字词或短语并将这些定制的触发字词或短语与特定的应用或其他计算、通信或娱乐任务关联起来。例如,用户可配置触发短语“最爱的歌曲”来使得移动计算设备启动多媒体播放器并播放Beatles的歌曲“AllYou Need Is Love”。
虽然以上联系响应于经由语音命令提示接收的口说命令串而启动电话应用来描述了图3B,但图3B也可对应于移动计算设备300响应于检测到与电话应用相对应的触发字词而启动电话应用的示例。例如,与电话应用相对应的触发字词可以是“呼叫”。当移动计算设备300检测到触发字词“呼叫”时,移动计算设备可启动电话应用,然后聆听进一步指令,例如要呼叫的号码或人。
图3C示出了移动计算设备300响应于检测到与电子邮件应用307相对应的触发字词而启动电子邮件应用307的示例。在此示例中,与电子邮件应用307相对应的触发字词可以是“邮件”,并且在检测到“邮件”触发字词后,移动计算设备300可启动电子邮件应用307,然后聆听进一步指令,例如电子邮件消息的接收者、主题和正文。
图4示出了根据一些实施例的示例方法400。方法400开始于块401,在这里移动计算设备判定其是否在从以下之一接收操作电力:(i)外部电源,或(ii)被配置为为移动计算设备供电的一个或多个电池。移动计算设备可与本文别处描述的移动计算设备中的任何一个类似。在此示例中,移动设备包括可由用户输入来激活或者可响应于判定移动计算设备在接收外部电力而自动激活的触发字词检测子例程。
在块402,移动计算设备响应于判定其在从外部电源接收电力而激活触发字词检测子例程。触发字词检测子例程在块402a–402d中示出,下文更详细描述这些块。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从一个或多个电池接收电力时也响应于接收到来自用户的激活触发字词检测子例程的输入而激活触发字词检测子例程。
在块403,移动计算设备响应于判定其在从一个或多个电池接收操作电力而对触发字词检测子例程解除激活。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从外部电源接收电力时也响应于接收到用户的对触发字词检测子例程解除激活的输入而对触发字词检测子例程解除激活。
触发字词检测子例程在块402a–402d中示出。在操作中,一旦被激活,触发字词检测子例程就可被配置为连续地(或至少基本上连续地)执行,直到其在步骤403或者被用户解除激活为止。
触发字词检测子例程开始于块402a,在这里移动计算设备经由麦克风接收口说输入。在块402b,移动计算设备基于对口说输入执行的话音识别,获得与口说输入相对应的文本。话音识别可由移动计算设备执行。或者,话音识别可全部或部分由移动计算设备外部的一个或多个设备执行。例如,移动计算设备可将口说输入发送给服务器,服务器可对口说输入执行话音识别以确定相应的文本,并且移动计算设备可从服务器获得该文本。
在块402c,移动计算设备分析该文本以判定该文本是否包括一个或多个预定义的触发字词的集合中的至少一个。在块402d,响应于判定该文本包括一个或多个预定义的触发字词的集合中的至少一个,移动计算设备启动与文本中包括的至少一个触发字词相对应的应用。
在一些实施例中,与至少一个触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示应用。语音命令可包括以下各项中的一个或多个:(i)动作,(ii)动作的对象,以及(iii)与动作或对象相关联的一个或多个参数。语音命令提示和经由语音命令提示接收的语音命令可与本文别处描述的语音命令提示和语音命令类似。
在其他实施例中,与至少一个触发字词相对应的应用可以是以下各项中的任何一个:语音命令提示、通信应用、多媒体应用、或者用于配置移动计算设备的设定的应用。
在一些实施例中,通过将移动计算设备耦合到外部电源可激活移动计算设备的话音识别模式。图5示出了根据这种实施例的示例方法500。方法500开始于块501,此时移动计算设备检测到移动计算设备与外部电源的耦合。响应于检测到的耦合,在块502,移动计算设备激活话音识别模式。块502–505描述了话音识别模式在被激活之后可如何操作的示例。
在块503,移动计算设备经由麦克风接收口说输入。在块504,移动计算设备判定口说输入是否包括一个或多个触发字词。如上所述,这可涉及由移动计算设备和/或由服务器执行的话音识别。响应于判定口说输入包括至少一个触发字词,在块505,移动计算设备启动与该至少一个触发字词相对应的应用。
虽然本文已公开了各种方面和实施例,但本领域技术人员将清楚其他方面和实施例。本文公开的各种方面和实施例只是为了说明,而并不打算进行限定,真实的范围和精神由权利要求指示。

Claims (20)

1.一种方法,包括:
判定移动计算设备是否在从外部电源接收操作电力,其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程;以及
响应于判定所述移动计算设备在从所述外部电源接收操作电力,激活触发字词检测子例程,其中所述触发字词检测子例程包括:
经由所述移动计算设备的麦克风接收口说输入,
基于对所述口说输入执行的话音识别获得文本,
判定所述文本是否包括一个或多个触发字词,以及
响应于判定所述文本包括至少一个触发字词,启动与所述至少一个触发字词相对应的应用。
2.如权利要求1所述的方法,还包括:
连续地执行所述触发字词检测例程,直到其被解除激活为止。
3.如权利要求1所述的方法,还包括:
响应于判定所述移动计算设备在从一个或多个电池接收操作电力,对所述触发字词检测子例程解除激活。
4.如权利要求1所述的方法,还包括:
接收所述用户输入;以及
响应于接收到所述用户输入而激活所述触发字词检测子例程,无论所述移动计算设备是否在从所述外部电源接收操作电力。
5.如权利要求1所述的方法,其中,启动的与所述至少一个触发字词相对应的应用是被配置为从用户接收语音命令的语音命令提示应用。
6.如权利要求5所述的方法,其中,所述语音命令包括以下各项中的一个或多个:动作、动作的对象、与动作相关联的一个或多个参数、以及与动作的对象相关联的一个或多个参数。
7.如权利要求1所述的方法,还包括:
接收对于启动的应用的语音输入,其中所述语音输入包括以下各项中的一个或多个:动作、动作的对象、与动作相关联的一个或多个参数、以及与动作的对象相关联的一个或多个参数。
8.如权利要求1所述的方法,其中,与一个或多个触发字词的集合相对应的应用是通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
9.如权利要求1所述的方法,其中,所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。
10.如权利要求1所述的方法,其中,判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。
11.一种移动计算设备,包括:
声音检测器;
电力选择器,被配置为选择性地从外部电源或一个或多个电池中的一者为所述移动计算设备供电;以及
一个或多个处理器,被配置为:(i)当所述电力选择器在从所述外部电源为所述移动计算设备供电时,连续地执行触发字词检测子例程,以及(ii)当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时,停止所述触发字词检测子例程的执行。
12.如权利要求11所述的移动计算设备,其中,所述触发字词检测子例程包括:(i)判定经由所述声音检测器接收的多个口说字词是否包括一个或多个触发字词的集合中的至少一个触发字词,以及(ii)响应于判定所述多个口说字词包括至少一个触发字词,启动与至少一个触发字词相对应的应用。
13.如权利要求12所述的移动计算设备,还包括:
用户接口,被配置为当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时从用户接收激活所述触发字词检测子例程的输入。
14.如权利要求12所述的移动计算设备,其中,与所述至少一个触发字词相对应的应用是被配置为经由所述声音检测器从用户接收语音命令的语音命令提示应用。
15.如权利要求14所述的移动计算设备,其中,所述语音命令包括至少标识动作和动作的对象的一个或多个字词的串。
16.如权利要求11所述的移动计算设备,其中,与所述至少一个触发字词相对应的应用是以下各项之一:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
17.一种计算机可读介质,其中存储有可执行指令,所述指令当被具有至少一个处理器的计算设备执行时使得该计算设备执行功能,所述功能包括:
判定移动计算设备是在从外部电源还是从内部电池源接收操作电力;以及
响应于判定所述移动计算设备在从所述外部电源接收电力而激活触发字词检测子例程,其中所述触发字词检测子例程包括连续地判定经由麦克风接收的多个口说字词是否包括一个或多个触发字词的集合中的至少一个,并且响应于判定所述多个口说字词包括至少一个触发字词,启动与所述至少一个触发字词相对应的应用。
18.如权利要求17所述的计算机可读介质,其中,所述功能还包括:
响应于判定所述移动计算设备在从所述内部电池源接收操作电力,对所述触发字词检测子例程解除激活。
19.如权利要求17所述的计算机可读介质,其中,所述功能还包括:
接收用户输入;以及
响应于接收到所述用户输入,激活所述触发字词检测子例程,无论所述移动计算设备是在从所述外部电源还是从所述内部电池源接收操作电力。
20.如权利要求17所述的计算机可读介质,其中,启动的与所述至少一个触发字词相对应的应用是以下各项之一:语音命令提示应用、通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
CN201280056118.5A 2011-09-30 2012-09-27 用于移动计算设备中的连续话音识别和检测的系统和方法 Active CN103930945B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161542074P 2011-09-30 2011-09-30
US61/542,074 2011-09-30
US13/621,068 2012-09-15
US13/621,068 US8452597B2 (en) 2011-09-30 2012-09-15 Systems and methods for continual speech recognition and detection in mobile computing devices
PCT/US2012/057576 WO2013049358A1 (en) 2011-09-30 2012-09-27 Systems and methods for continual speech recognition and detection in mobile computing devices

Publications (2)

Publication Number Publication Date
CN103930945A true CN103930945A (zh) 2014-07-16
CN103930945B CN103930945B (zh) 2017-10-31

Family

ID=47993412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280056118.5A Active CN103930945B (zh) 2011-09-30 2012-09-27 用于移动计算设备中的连续话音识别和检测的系统和方法

Country Status (4)

Country Link
US (3) US8452597B2 (zh)
EP (1) EP2761615A1 (zh)
CN (1) CN103930945B (zh)
WO (1) WO2013049358A1 (zh)

Cited By (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715754A (zh) * 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
CN107430501A (zh) * 2015-03-08 2017-12-01 苹果公司 对语音触发进行响应的竞争设备
CN107636604A (zh) * 2015-06-08 2018-01-26 英特尔公司 用于处理Wi‑Fi和蓝牙音频的系统、方法和设备
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US12001933B2 (en) 2022-09-21 2024-06-04 Apple Inc. Virtual assistant in a communication session

Families Citing this family (146)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8731936B2 (en) * 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8996381B2 (en) * 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9424405B2 (en) * 2012-11-28 2016-08-23 Apple Inc. Using receipts to control assignments of items of content to users
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
US9047857B1 (en) * 2012-12-19 2015-06-02 Rawles Llc Voice commands for transitioning between device states
AU2021202255B9 (en) * 2013-02-07 2022-06-09 Apple Inc. Voice trigger for a digital assistant
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
US9043211B2 (en) * 2013-05-09 2015-05-26 Dsp Group Ltd. Low power activation of a voice activated device
US9026176B2 (en) 2013-05-12 2015-05-05 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN103309618A (zh) 2013-07-02 2013-09-18 姜洪明 移动操作系统
GB2553040B (en) * 2013-07-10 2018-04-18 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
GB2526980B (en) * 2013-07-10 2017-04-12 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
US20150088525A1 (en) * 2013-09-24 2015-03-26 Tencent Technology (Shenzhen) Co., Ltd. Method and apparatus for controlling applications and operations on a terminal
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
CN103500578B (zh) * 2013-10-22 2016-05-11 上海云视科技股份有限公司 语音操控方法和装置
US9147397B2 (en) * 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
KR102179506B1 (ko) 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
US11132173B1 (en) * 2014-02-20 2021-09-28 Amazon Technologies, Inc. Network scheduling of stimulus-based actions
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9355640B2 (en) 2014-06-04 2016-05-31 Google Inc. Invoking action responsive to co-presence determination
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9449442B2 (en) * 2014-10-23 2016-09-20 Vivint, Inc. Interface of an automation system
CN105740056B (zh) * 2014-12-08 2019-03-29 联想(北京)有限公司 信息处理方法及电子设备
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US9633661B1 (en) 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9467563B1 (en) 2015-04-10 2016-10-11 Angel.Com Incorporated Visual interactive voice response system
CA2982196C (en) * 2015-04-10 2022-07-19 Huawei Technologies Co., Ltd. Speech recognition method, speech wakeup apparatus, speech recognition apparatus, and terminal
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
KR102296174B1 (ko) * 2015-06-26 2021-08-31 삼성전자주식회사 전자 장치 및 그의 오디오 변환 방법
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
CN106653010B (zh) 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
JP6659514B2 (ja) 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US9940930B1 (en) 2016-12-07 2018-04-10 Google Llc Securing audio data
US10242673B2 (en) 2016-12-07 2019-03-26 Google Llc Preventing of audio attacks using an input and an output hotword detection model
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
JP6812843B2 (ja) * 2017-02-23 2021-01-13 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
KR102389996B1 (ko) * 2017-03-28 2022-04-25 삼성전자 주식회사 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US10748531B2 (en) 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10311870B2 (en) 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3435642A1 (en) * 2017-07-29 2019-01-30 Advanced Digital Broadcast S.A. A system and method for remote control of appliances by voice
US11282528B2 (en) * 2017-08-14 2022-03-22 Lenovo (Singapore) Pte. Ltd. Digital assistant activation based on wake word association
KR102489914B1 (ko) * 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10235353B1 (en) * 2017-09-15 2019-03-19 Dell Products Lp Natural language translation interface for networked devices
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
KR102563314B1 (ko) * 2018-08-30 2023-08-04 삼성전자주식회사 전자 장치 및 단축 명령어의 바로가기 생성 방법
US10861444B2 (en) * 2018-09-24 2020-12-08 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
US11100925B2 (en) 2018-12-06 2021-08-24 Comcast Cable Communications, Llc Voice command trigger words
US11875231B2 (en) * 2019-06-26 2024-01-16 Samsung Electronics Co., Ltd. System and method for complex task machine learning
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
KR20210055347A (ko) * 2019-11-07 2021-05-17 엘지전자 주식회사 인공 지능 장치
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US11321048B2 (en) 2020-02-25 2022-05-03 Motorola Solutions, Inc. Method and apparatus for temporary hands-free voice interaction
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio
US11652655B1 (en) * 2022-01-31 2023-05-16 Zoom Video Communications, Inc. Audio capture device selection for remote conference participants

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1054388A2 (en) * 1999-05-21 2000-11-22 Information Storage Devices, Inc. Method and apparatus for determining the state of voice controlled devices
US6212541B1 (en) * 1994-10-24 2001-04-03 Microsoft Corporation System and method for switching between software applications in multi-window operating system
CN1316863A (zh) * 2000-04-04 2001-10-10 李秀星 语音识别操作便携电话机的方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539358B1 (en) * 2000-05-24 2003-03-25 Delphi Technologies, Inc. Voice-interactive docking station for a portable computing device
KR100652645B1 (ko) * 2004-07-23 2006-12-06 엘지전자 주식회사 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법
JP4317834B2 (ja) * 2005-06-01 2009-08-19 株式会社カシオ日立モバイルコミュニケーションズ 音出力装置、および、音出力制御プログラム
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US8060249B2 (en) * 2006-11-22 2011-11-15 Senticare Inc. Medication dispenser with integrated monitoring system
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9111538B2 (en) * 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
WO2011091402A1 (en) * 2010-01-25 2011-07-28 Justin Mason Voice electronic listening assistant
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8798995B1 (en) * 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212541B1 (en) * 1994-10-24 2001-04-03 Microsoft Corporation System and method for switching between software applications in multi-window operating system
EP1054388A2 (en) * 1999-05-21 2000-11-22 Information Storage Devices, Inc. Method and apparatus for determining the state of voice controlled devices
CN1316863A (zh) * 2000-04-04 2001-10-10 李秀星 语音识别操作便携电话机的方法和系统

Cited By (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
CN104715754A (zh) * 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
CN107430501A (zh) * 2015-03-08 2017-12-01 苹果公司 对语音触发进行响应的竞争设备
CN107430501B (zh) * 2015-03-08 2019-07-23 苹果公司 对语音触发进行响应的竞争设备
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN107636604A (zh) * 2015-06-08 2018-01-26 英特尔公司 用于处理Wi‑Fi和蓝牙音频的系统、方法和设备
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US12010262B2 (en) 2020-08-20 2024-06-11 Apple Inc. Auto-activating smart responses based on activities from remote devices
US12001933B2 (en) 2022-09-21 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12009007B2 (en) 2023-04-17 2024-06-11 Apple Inc. Voice trigger for a digital assistant

Also Published As

Publication number Publication date
US20130085755A1 (en) 2013-04-04
EP2761615A1 (en) 2014-08-06
US20140244253A1 (en) 2014-08-28
US20160180851A1 (en) 2016-06-23
WO2013049358A1 (en) 2013-04-04
US8452597B2 (en) 2013-05-28
CN103930945B (zh) 2017-10-31

Similar Documents

Publication Publication Date Title
CN103930945A (zh) 用于移动计算设备中的连续话音识别和检测的系统和方法
US10999420B2 (en) Adaptive communication mode for recording a media message
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
EP3062309B1 (en) Low power detection of an activation phrase
WO2018188591A1 (zh) 一种语音识别方法、装置及电子设备
US9530409B2 (en) Event-triggered hands-free multitasking for media playback
CN103310785B (zh) 使用语音识别控制电源的电子装置和方法
EP2842125B1 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
EP3608906B1 (en) System for processing user voice utterance and method for operating same
EP4236281A2 (en) Event-triggered hands-free multitasking for media playback
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
EP3559944A1 (en) Server side hotwording
CN108694944B (zh) 通过使用框架生成自然语言表达的方法和设备
CN104247280A (zh) 话音控制的通信连接
US20150127345A1 (en) Name Based Initiation of Speech Recognition
US11048293B2 (en) Electronic device and system for deciding duration of receiving voice input based on context information
CN112567718A (zh) 响应用户语音执行包括呼叫的任务的电子装置及操作方法
TW201928740A (zh) 關鍵詞確認方法和裝置
US11361750B2 (en) System and electronic device for generating tts model
KR20190021088A (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
KR20210111423A (ko) 사용자 입력을 처리하는 전자 장치 및 방법
KR20150106567A (ko) 음성 메시지 출력 방법, 이를 위한 장치 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.

CP01 Change in the name or title of a patent holder