CN103930945B - 用于移动计算设备中的连续话音识别和检测的系统和方法 - Google Patents

用于移动计算设备中的连续话音识别和检测的系统和方法 Download PDF

Info

Publication number
CN103930945B
CN103930945B CN201280056118.5A CN201280056118A CN103930945B CN 103930945 B CN103930945 B CN 103930945B CN 201280056118 A CN201280056118 A CN 201280056118A CN 103930945 B CN103930945 B CN 103930945B
Authority
CN
China
Prior art keywords
mobile computing
computing device
action
application
electric power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280056118.5A
Other languages
English (en)
Other versions
CN103930945A (zh
Inventor
B.E.布林格特
P.J.霍奇森
P.皮特利卡
S.蒂克纳
R.Z.科恩
H.彭哈
L.扎诺林
D.伯克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN103930945A publication Critical patent/CN103930945A/zh
Application granted granted Critical
Publication of CN103930945B publication Critical patent/CN103930945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请描述了用于移动计算设备的连续话音识别的系统、制品和方法。一个实施例包括判定移动计算设备是在从外部电源还是从电池电源接收操作电力,并且响应于判定移动计算设备在从外部电源接收电力而激活触发字词检测子例程。在一些实施例中,触发字词检测子例程在移动计算设备在从外部电源接收电力时连续地操作。触发字词检测子例程包括判定经由麦克风接收的多个口说字词是否包括一个或多个触发字词,并且响应于判定多个口说字词包括至少一个触发字词,启动与多个口说字词中包括的至少一个触发字词相对应的应用。

Description

用于移动计算设备中的连续话音识别和检测的系统和方法
相关申请的交叉引用
本专利申请要求2011年9月30日递交的61/542,074号美国临时申请的优先权,这里通过引用将该美国临时申请的内容全部并入,就好像在本申请中完全记载了一样。
背景技术
通常,激活移动计算设备上的语音命令接口要求用户对语音命令接口的某种物理激活。例如,为了激活移动计算设备上的语音命令接口,用户可能需要按压或按住移动计算设备的外表上的物理按钮或开关,或者用户可能需要激活与移动计算设备相关联的图形用户接口上的虚拟按钮或开关。
发明内容
经由语音命令控制移动计算设备在用户不能容易地在物理上与移动计算设备交互时经常是有用的。例如,经由语音命令控制移动计算设备在用户驾驶车辆时或者在移动计算设备离用户有一些距离时(例如在房间那头或者因其他原因而不能被用户立即触及)可能是有用的。
用于控制移动计算设备的语音命令接口一般要求操作麦克风或其他话音输入设备来从用户接收话音,并且在移动计算设备上运行话音识别和检测算法以检测和识别经由麦克风接收的话音。然而,连续地操作麦克风和连续地在移动计算设备上运行话音检测和识别应用在许多情形中可能是不合需要的,因为操作麦克风和连续地执行检测和识别算法所需要的电力可能迅速地耗尽移动计算设备的电池。
本申请公开了系统和方法,其允许了用户享受经由语音命令来控制移动计算设备的优点,而没有如现有设备所要求的那样必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。
在操作中,根据所公开的系统和方法的一些实施例的移动计算设备被配置为:(i)检测与外部电源的耦合,以及(ii)响应于该检测,激活话音识别模式。一些实施例包括用于检测与外部电源的耦合的电力监视例程。类似地在一些实施例中,在话音识别模式中操作的移动计算设备可包括触发字词检测子例程。检测与外部电源的耦合和激活话音识别模式的组合使得所公开的实施例能够克服现有设备的限制,并且在许多情形中对移动计算设备的电池的影响可忽略。
一些实施例包括判定移动计算设备是在从外部电源还是从电池接收操作电力。如果移动计算设备在从外部电源接收电力,则移动计算设备激活话音识别模式。在一些实施例中,话音识别模式包括触发字词检测子例程。外部电源可以是用于移动计算设备的壁式充电器或者用于移动计算设备的坞接站,例如桌面或车载坞接站。一些实施例还可包括当移动计算设备在从电池接收操作电力时从话音识别模式退出(和/或可能对触发字词检测子例程解除激活)。
在操作中,触发字词检测子例程包括判定经由麦克风接收的口说字词是否包括一个或多个触发字词的集合中的至少一个触发字词。响应于判定口说字词包括至少一个触发字词,触发字词检测子例程启动与口说字词中包括的至少一个触发字词相对应的应用。在一些实施例中,只要移动计算设备继续从外部电源接收电力,触发字词检测子例程就连续地操作。
在一些实施例中,启动的与检测到的(一个或多个)触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示。当语音命令提示被启动时,用户可经由一个或多个语音命令来控制移动计算设备。(一个或多个)触发字词之后的语音命令可包括动作和该动作的对象。例如,启动语音命令提示应用的触发字词可以是“Android”,并且语音命令可包括“呼叫”(动作)和“简·史密斯”(动作的对象)。语音命令如本文所述可包括额外的字词。
在其他实施例中,启动的应用可以是特定的通信应用、多媒体应用或者用于配置移动计算设备的设定的应用。在这些实施例中,触发字词甚至可以是应用的名称。例如,启动电话拨号程序的触发字词可以是“呼叫”。响应于检测到触发字词“呼叫”,移动计算设备可被配置为启动电话拨号程序,然后或者(i)等待接收期望的被叫方的名字,或者(ii)使用“呼叫”触发字词之后的字词作为期望的被叫方的名字。电话拨号程序(或者其他启动的应用)可被配置为在其被启动之后接收额外的语音命令。如本文所述,命令的类型可取决于特定的应用而有所不同。
在一些实施例中,触发字词检测例程可响应于将设备耦合到外部电源、而不是响应于任何其他类型的输入(例如,触摸输入、手动按钮按压,等等)而被启动。在这些实施例中,话音识别模式和/或触发字词检测例程可以仅当移动计算设备在从外部电源接收电力时才被自动激活。在一些实施例中,话音识别模式可以仅当移动计算设备在从外部电源接收操作电力时才被激活,并且话音识别模式可以总是在移动计算设备在从电池接收操作电力时被解除激活。
其他实施例可包括从用户接收激活(或解除激活)触发字词检测子例程的手动输入,而无论移动计算设备是在从外部电源还是从电池接收操作电力。在这些实施例中,即使移动计算设备可能在从电池接收操作电力,移动计算设备仍可激活触发字词检测子例程。当触发字词检测子例程被用户手动激活时(例如,触摸输入、手动按钮按压,等等),触发字词检测子例程在移动计算设备在从电池接收电力时仍可连续地操作。
在一些实施例中,所公开的方法的特征和功能可与移动计算设备的操作系统相集成。在其他实施例中,所公开的实施例的特征和功能可以是被移动计算设备安装和执行的应用的组件,例如从在线应用商店下载的应用。
本文描述的任何方法可以以存储在非暂态有形计算机可读介质上的指令的形式实现。当被移动计算设备执行时,这些指令可使得移动计算设备执行所公开的方法的一个或多个功能。另外的示例也可包括包含编码有计算机可读指令的有形非暂态计算机可读介质的制品。这些指令可包括执行本文描述的方法的一个或多个功能的指令。
计算机可读介质可包括非暂态计算机可读介质,例如像寄存器存储器、处理器缓存和随机访问存储器(random access memory,RAM)那样短时间存储数据的计算机可读介质。计算机可读介质还可包括非暂态介质,例如次级或永久性长期存储装置,比如只读存储器(read only memory,ROM)、光盘或磁盘、致密盘只读存储器(compact-disc read onlymemory,CD-ROM)。计算机可读介质也可以是任何其他易失性或非易失性存储系统。在一些实施例中,计算机可读介质可被认为是例如计算机可读存储介质,或者有形存储介质。
此外,所公开的方法的一些方面可由被配置为执行本文描述的任何过程或方法中的逻辑功能的电路来执行。在其他示例中,许多类型的设备可以被使用或配置来执行本文描述的任何过程或方法中的逻辑功能。在另外的示例中,许多类型的设备(和/或设备的组件或子组件)可以被使用或配置为用于执行本文描述的任何方法(或者本文描述的方法的任何部分)的功能的装置。
附图说明
图1示出了根据一些实施例的移动计算设备的简化框图的示例。
图2A示出了根据一些实施例的电力检测例程的示例算法。
图2B示出了根据一些实施例的触发字词检测子例程的示例算法。
图3A-3C示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。
图4示出了根据一些实施例的示例方法。
图5示出了根据一些实施例的示例方法。
具体实施方式
以下详细描述包括对附图的参照。在附图中,相似的标号通常标识相似的组件,除非上下文另有规定。详细描述、附图和权利要求中概述的示例实施例并不打算进行限定。在不脱离本文给出的主题的范围的情况下,可以利用其他实施例,并且可以进行其他改变。容易理解,本文概括描述并且在附图中图示的本公开的各方面可按许多种不同的配置来布置、替换、组合、分离和设计,所有这些在这里都已明确设想到。
图1示出了根据一些实施例的移动计算设备100的简化框图的示例。在一些实施例中,移动计算设备100可以是移动电话、蜂窝电话、智能电话或者现在已知或以后开发的可经由语音命令来控制的类似的移动通信设备。在其他实施例中,移动计算设备100可以是膝上型计算机、平板计算机或者现在已知或以后开发的可经由语音命令来控制的其他类型的移动计算设备。
移动计算设备100包括多个组件,例如一个或多个处理器101、数据存储装置102、电力管理子系统103、用户输入/输出接口104、通信接口105和传感器106。个体组件经由一个或多个数据总线115或者被配置为使得个体组件能够向移动计算设备100的其他组件发送数据和从移动计算设备100的其他组件接收数据的类似通信连接而连接。个体组件还经由配电总线116或者被配置为向移动计算设备100的个体组件提供操作电力的类似连接而连接到电力管理子系统103。
一个或多个处理器101可包括现在已知或以后开发的任何类型的通用处理器(例如来自Intel、Advanced Micro Devices(AMD)等等的处理器)或者任何类型的专用处理器(例如,专用集成电路(application specific integrated circuit,ASIC)、数字信号处理器(digital signal processor,DSP)、编码器/解码器(编解码器CODEC),等等)。
数据存储装置102被配置为存储数据以及计算机可读程序指令108。数据存储装置102可包括本文描述的任何类型的数据存储装置,包括用于在程序代码或指令的执行期间存储数据和/或程序代码或指令的短期易失性存储器(例如RAM)和/或用于存储数据和/或程序代码或指令的长期非易失性存储器(例如ROM)。在一些实施例中,数据存储装置可实现为固态和/或闪速存储器或者其他类似类型的小外形参数存储介质。
电力管理子系统103包括电池电力接口112、外部电力接口113和电源选择器114。电池电力接口112被配置为从电池源接收操作电力,该电池源例如是内部电池、与移动计算设备100电耦合的可移除电池或者现在已知或以后开发的任何其他种类的电池或者类似类型的便携式电源。经由电池接口112为移动计算设备100供应操作电力的电池可以是可再充电的或不可再充电的。
外部电力接口113被配置为从外部电源为移动计算设备100接收电力。外部电源的示例包括壁装电源插座、桌面坞接站(docking station)、车载坞接站或电源线、带有坞接站的闹钟或娱乐系统、或者被配置为向移动计算设备100提供操作电力以便移动计算设备100不需要依赖于经由电池接口112来自电池的操作电力的任何其他类型的连接或设备。
在一些实施例中,电源选择器114可被配置为选择性地从电池接口112或外部电力接口113之一提供操作电力。在具有可再充电电池的实施例中,当经由外部电力接口113连接了外部电源时,电源选择器114可被配置为既(i)经由外部电力接口113从外部电力供应向移动计算设备100提供操作电力,又(ii)通过提供从外部电力接口113到电池接口112的电连接来用来自外部电力供应的电力对电池充电。
用户输入/输出接口104包括多个输入和输出组件,例如声音输入/输出组件107、显示输入/输出组件108和可选的键盘109。声音组件107可包括麦克风或者被配置为检测和接收声波的现在已知或以后开发的其他类似类型的声音检测设备。声音组件107还可包括一个或多个扬声器或被配置为生成声波的现在已知或以后开发的类似的声音生成设备。
显示输入/输出组件108可包括液晶显示器(Liquid Crystal Display,LCD)、等离子显示器或者被配置为向用户显示图形用户接口和/或其他信息的现在已知或以后开发的类似类型的显示设备。在一些实施例中,显示器108可包括触摸屏接口或其他触敏组件以使得用户能够向移动计算设备100输入命令或其他信息(或以其他方式与移动计算设备100交互)。在一些实施例中,显示器108可被配置为生成和显示虚拟键盘来供用户进行数据输入。在其他实施例中,移动计算设备100可以可选地包括物理键盘109。然而,键盘(虚拟的或物理的)在所有实施例中都不是必需的。一些实施例还可包括一个或多个外部开关或按钮(未示出),以开启或关闭移动计算设备100、将设备从睡眠状态唤醒、控制音量或其他类似的功能。
通信接口105可包括一个或多个无线通信接口110和一个或多个有线接口111。无线接口110可包括被配置为根据多种不同的无线通信协议中的任何一种来发送和接收数据的任何类型的无线通信接口,所述无线通信协议例如是:蓝牙、IEEE802.11(IEEE802.11可以指IEEE802.11-2007、IEEE802.11n-2009或者任何其他IEEE802.11修订版)或者其他Wi-Fi变体、码分多址(Code-Division Multiple Access,CDMA)、全球移动通信系统(GlobalSystem for Mobile Communications,GSM)、第3代(3rd Generation,3G)、第4代(4thGeneration,4G)、第3代合作伙伴计划—长期演进(3rd Generation PartnershipProject--Long Term Evolution,3GPP-LTE)、微波接入全球互通(WorldwideInteroperability for Microwave Access,WiMAX)、Zigbee、通用分组无线电服务(General Packet Radio Service,GPRS)、演进数据优化(Evolution-Data Optimized,EV-DO)、高速下行链路分组接入(High-Speed Downlink Packet Access,HSDPA)或者现在已知或以后开发的任何其他类型的无线通信协议。有线接口111可包括被配置为根据多种不同通信协议中的任何一种来发送和接收数据的任何类型的有线通信接口(例如电的、光的等等),所述通信协议例如是通用串行总线(Universal Serial Bus,USB)、以太网、IEEE1394、Firewire、Thunderbolt或者现在已知或以后开发的任何其他类型的串行或并行数据通信协议。无线接口110和有线接口111可被配置为经由网络——例如因特网——与其他计算或通信设备通信,和/或经由蓝牙、USB或类似的连接与外围设备通信,其中外围设备例如是盘驱动器、外部监视器、鼠标或轨迹球/轨迹板设备以及外部键盘等等。在一些示例中,移动计算设备100可使用有线接口110和/或无线接口111来与代表移动计算设备100执行话音识别的服务器通信。
在一些实施例中,有线通信接口111还可被配置为如电力连接117所示经由外部电力接口113从有线接口111向外部电力接口113提供操作电力。例如,USB是可被配置为既提供通信也提供电力的一类有线通信接口。
移动计算设备100的一些实施例还可包括一个或多个传感器106。传感器106可包括任何一个或多个相机或其他图像传感器、加速度计、全球定位系统(Global PositioningSystem,GPS)传感器、温度传感器或者可能希望与移动计算设备100集成的现在已知或以后开发的任何其他类型的传感器。
如以上简要描述的,根据所公开的实施例配置的移动计算设备可使得用户能够享受经由语音命令来控制移动计算设备的优点,而没有必须按压或按住移动计算设备上的物理按钮或开关或者手动激活移动计算设备的图形用户接口上的虚拟按钮或开关的限制。在一个实施例中,上述优点可经由移动计算设备100执行的电力检测例程和触发字词检测子例程的组合来实现。
图2A示出了根据一些实施例的电力检测例程201的示例算法,并且图2B示出了根据一些实施例的触发字词检测子例程210的示例算法。对图2A和2B的算法的描述包括对本文参考图1示出和描述的示例移动计算设备100及其相应组件的参照。在一些实施例中,电力检测例程201和/或触发字词检测子例程210可以是移动计算设备100的操作系统的组件。在其他实施例中,电力检测例程201和/或触发字词检测子例程210可以是安装在移动计算设备100上的应用或窗口小部件(widget)的组件,例如从在线应用商店下载的应用或窗口小部件。
在一些实施例中,电力检测例程201可被配置为在移动计算设备100上连续地(或至少基本上连续地)操作。一些实施例也可允许用户对电力检测例程201进行激活或解除激活。在一些实施例中,电力检测例程201可被用户选择性地激活或解除激活。
在图2A和2B的实施例中,触发字词检测子例程210是电力检测例程201的“子例程”,因为触发字词检测子例程210是由电力检测例程201在某些条件下激活的,如本文所述。然而,触发字词检测能力并不需要在所有实施例中都实现为电力检测例程的子例程。
电力检测例程开始于块202。在块203,电力检测例程201判定移动计算设备100的操作电力是(1)经由外部电力接口113从外部电源接收的,还是(2)经由电池接口112从电池电源接收的。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。如果未检测到外部电源(即,移动计算设备100在从电池源接收操作电力),则电力检测例程201结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
然而,如果在块203,电力检测例程201判定移动计算设备100在经由外部电力接口113从外部电源接收操作电力,则电力检测例程201前进到块204。在块204,电力检测例程201激活触发字词检测子例程210。一旦其在块204被电力检测例程201激活,触发字词检测子例程210就可被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。
在在块204激活触发字词检测子例程210之后,电力检测例程前进到块205。在块205,电力检测例程201判定通信设备100是否在经由外部电力接口113从外部电源接收操作电力。在一些实施例中,该判定可由电源选择器114作出。在其他实施例中,该判定可由被配置为监视电池接口112、外部电力接口113和/或电源选择器114中的任何一个的一个或多个处理器101作出。
如果移动计算设备100在从外部电源接收其操作电力,则电力检测例程201返回到块205。但如果电力检测例程201判定移动计算设备100不再从外部电源接收其操作电力(即,外部电源已与外部电力接口113断开连接和/或移动计算设备100已切换到电池电力),则电力检测例程201前进到块206。在块206,电力检测例程201对触发字词检测子例程210解除激活。电力检测例程201随后结束于块207。在结束于块207之后,电力检测例程201在块202重新开始,该重新开始是立即进行的以使得电力检测例程201连续地操作(或者是在短暂的等待时段之后进行的以使得电力检测例程201至少基本上连续地操作)。
图2B示出了触发字词检测子例程210的示例算法。如联系图2A所述,一旦电力检测例程201在块204激活了触发字词检测子例程210,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)执行,直到其被解除激活为止。如上所述,触发字词检测子例程210可在块206被电力检测例程201解除激活。在一些实施例中,触发字词检测子例程210可被用户选择性地激活和/或解除激活。
触发字词检测子例程210开始于块212。在块213,触发字词检测子例程接收声音样本。可经由移动计算设备100的声音输入107接收声音样本。在一些实施例中,声音输入107可包括麦克风或其他类型的声音输入或检测设备。一些实施例可包括触发对麦克风的激活的声音检测器。一旦被激活,麦克风就捕捉声音样本。在其他实施例中,麦克风可被配置为,一旦触发字词检测子例程210被激活,就连续地(或至少基本上连续地)捕捉声音样本。
在块214,触发字词检测子例程210判定在块213接收的声音样本是否包括话音。判定声音样本是否包括话音可由现在已知或以后开发的多种话音检测算法中的任何一种来完成。在一些实施例中,话音检测算法可由一个或多个处理器101执行。在其他实施例中,话音检测算法可由声音输入107的一个或多个组件执行。
如果声音样本不包括话音,则触发字词检测子例程210结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果声音样本包括话音,则触发字词检测子例程210前进到块215。
在块215,分析来自声音样本的话音以判定话音是否包括一个或多个触发字词的集合中的至少一个。联系图3A-3C来更详细描述触发字词。可利用现在已知或以后开发的多种声音或语音识别算法中的任何一种来分析声音样本。例如,可对口说输入执行话音识别以获得文本,并且可分析该文本来判定该文本是否包括一个或多个触发字词。话音识别可由移动计算设备100执行、由移动计算设备100与之通信的服务器执行、或者由两者的组合来执行。
如果话音不包括至少一个触发字词,则触发字词检测子例程结束于块217,并且在此之后在块212(立即或在短暂的等待时间之后)重新开始以在块213接收另外一个声音样本。然而,如果接收到的话音包括至少一个触发字词,则触发字词检测子例程前进到块216。在块216,触发字词检测子例程210启动与在块215判定的至少一个触发字词相对应的应用。在在块216启动应用之后,触发字词检测子例程210结束于块217。在结束于块217之后,触发字词检测子例程210在块212(立即或在短暂的等待时间之后)重新开始以在块213接收新的声音样本。
如上所述,触发字词检测子例程210以这种方式连续地(或至少基本上连续地)继续,直到触发字词检测子例程210被电力检测例程201或用户解除激活为止。
图3A-3B示出了根据一些实施例的移动计算设备300响应于检测到触发字词而启动应用的示例。移动计算设备300可与联系图1示出和描述的移动计算设备100类似。类似地,移动计算设备300可被配置为执行联系图2A-2B示出和描述的电力检测例程201和/或触发字词检测子例程210。
在图3A-3B中,移动计算设备300经由线缆301从与移动计算设备300连接的外部电源接收操作电力。移动计算设备300的显示器303上的电力图标302指示出移动计算设备300在从外部电源接收电力。因为移动计算设备300在从外部电源接收操作电力,所以电力检测例程201(图2A)将激活了触发字词检测子例程210(图2B)。如本文所述,一旦被激活,触发字词检测子例程210就被配置为连续地(或至少基本上连续地)操作,直到其被电力检测例程201或用户解除激活为止。
在被激活时,触发字词检测子例程210经由移动计算设备300的麦克风304接收声音样本。当移动计算设备300判定经由其麦克风304接收的声音样本包括一个或多个触发字词的集合中的至少一个触发字词时,移动计算设备300被配置为启动与所判定的至少一个触发字词相对应的应用。
在一些实施例中,移动计算设备300可被配置为检测单个触发字词。例如,该触发字词可以是“安卓”(或者可能某种其他的由用户限定的触发字词或字词群组)。在操作中,当移动计算设备300检测到该触发字词(或字词群组时),移动计算设备可启动语音命令提示。图3A示出了移动计算设备300响应于检测到与语音命令提示305相对应的触发字词而启动语音命令提示305的示例。
在语音命令提示305被启动之后,用户随后可向移动计算设备300发出口说命令串。例如,口说命令串可包括“呼叫…简·史密斯…办公室”。这里,该命令包括动作(“呼叫”),动作的对象(“简·史密斯”),以及参数(“办公室”)。响应于接收到口说命令串,移动计算设备300可以:(i)启动与该动作(以及可能与该动作相关联的一个或多个参数)相对应的应用,以及(ii)基于动作的对象(以及可能与该动作的对象相关联的一个或多个参数)执行该应用。图3B示出了移动计算设备300响应于经由语音命令提示305接收的口说命令串(图3A)而启动电话应用306并且呼叫“简·史密斯”的办公室号码。
在其他实施例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的特定口说命令串而启动其他类型的应用。在一个示例中,移动计算设备300可被配置为对特定的应用、特征或服务进行激活或解除激活。例如,移动计算设备300可被配置为响应于诸如“配置振铃静音”之类的命令串而使其振铃静音或解除激活。在另一示例中,移动计算设备300可被配置为响应于经由语音命令提示305接收的口说命令串而启动多媒体播放器并且播放特定的歌曲或视频。例如,口说命令串“播放歌曲All You Need Is Love”可使得移动计算设备300启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。
如上所述,口说命令串可包括与动作或对象相关联的一个或多个参数以以减轻或以其他方式最小化含糊。在图3B所示的示例中,“呼叫”是动作,“简·史密斯”是对象,并且“办公室”是与对象“简·史密斯”相关联的参数。参数“办公室”指定要呼叫简·史密斯的号码中的哪一个(即,家庭、办公室、移动,等等)。
在前述示例中,触发字词是“安卓”并且命令串是“呼叫简·史密斯办公室”。在一些实施例中,用户可能需要在触发字词之后稍微暂停一下才说出命令串,以允许移动计算设备300有时间启动语音命令提示305。类似地,用户在为语音命令提示说出“动作”之后可能需要稍微暂停一下,以允许移动计算设备300有时间启动与该动作相对应的应用,例如此示例中的电话应用。
然而,在其他实施例中,移动计算设备300可被配置为缓存口说字词的简短历史,例如多达大约5-30秒的口说字词,或者可能可配置数目的字词,例如多达10-20个口说字词,这取决于配置。在缓存口说字词的简短历史的实施例中,计算设备300可被配置为分析缓存中的字词以识别可跟随在(一个或多个)触发字词之后的动作、对象和参数。缓存口说字词的简短历史的一个优点在于用户在触发字词之后或者在“动作”之后可不需要长时间暂停(或者根本不需要暂停)来等待移动计算设备300响应于触发字词而启动语音命令提示或者响应于经由语音命令提示接收的“动作”而启动应用。
在一些实施例中,移动计算设备300可被配置为检测多个触发字词(或者字词的群组,即触发短语),其中个体触发字词(或短语)对应于不同的应用或在特定应用中要采取的不同动作。在先前示例中,单个触发字词(或者可能触发短语),例如“安卓”,可使得移动计算设备300启动语音命令提示305(图3A)。一旦语音命令提示305被启动,移动计算设备300就可接收口说命令串以启动其他应用(即,如图3B所示的电话应用)。但在移动计算设备300被配置为检测多个触发字词(或者触发字词或短语的多个集合)的实施例中,与可依赖于单个触发字词来先打开语音命令提示305、然后才接收口说命令串来启动应用的实施例相比,移动计算设备300可能够更快速地启动应用并处理命令。
在一些实施例中,触发字词的集合可包括用于语音命令提示的(一个或多个)特定触发字词、用于电话应用的(一个或多个)特定触发字词、用于文本消息应用的(一个或多个)特定触发字词、用于电子邮件应用的(一个或多个)特定触发字词、以及用于多媒体播放器应用的(一个或多个)特定触发字词,等等。在操作中,移动计算设备300可具有与许多不同的应用和/或功能相对应的许多不同的触发字词或短语。在一些实施例中,用户可能够配置或定制特定的触发字词或短语并将这些定制的触发字词或短语与特定的应用或其他计算、通信或娱乐任务关联起来。例如,用户可配置触发短语“最爱的歌曲”来使得移动计算设备启动多媒体播放器并播放Beatles的歌曲“All You Need Is Love”。
虽然以上联系响应于经由语音命令提示接收的口说命令串而启动电话应用来描述了图3B,但图3B也可对应于移动计算设备300响应于检测到与电话应用相对应的触发字词而启动电话应用的示例。例如,与电话应用相对应的触发字词可以是“呼叫”。当移动计算设备300检测到触发字词“呼叫”时,移动计算设备可启动电话应用,然后聆听进一步指令,例如要呼叫的号码或人。
图3C示出了移动计算设备300响应于检测到与电子邮件应用307相对应的触发字词而启动电子邮件应用307的示例。在此示例中,与电子邮件应用307相对应的触发字词可以是“邮件”,并且在检测到“邮件”触发字词后,移动计算设备300可启动电子邮件应用307,然后聆听进一步指令,例如电子邮件消息的接收者、主题和正文。
图4示出了根据一些实施例的示例方法400。方法400开始于块401,在这里移动计算设备判定其是否在从以下之一接收操作电力:(i)外部电源,或(ii)被配置为为移动计算设备供电的一个或多个电池。移动计算设备可与本文别处描述的移动计算设备中的任何一个类似。在此示例中,移动设备包括可由用户输入来激活或者可响应于判定移动计算设备在接收外部电力而自动激活的触发字词检测子例程。
在块402,移动计算设备响应于判定其在从外部电源接收电力而激活触发字词检测子例程。触发字词检测子例程在块402a–402d中示出,下文更详细描述这些块。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从一个或多个电池接收电力时也响应于接收到来自用户的激活触发字词检测子例程的输入而激活触发字词检测子例程。
在块403,移动计算设备响应于判定其在从一个或多个电池接收操作电力而对触发字词检测子例程解除激活。在一些实施例中,移动计算设备可以额外地或替换地即使在移动计算设备在从外部电源接收电力时也响应于接收到用户的对触发字词检测子例程解除激活的输入而对触发字词检测子例程解除激活。
触发字词检测子例程在块402a–402d中示出。在操作中,一旦被激活,触发字词检测子例程就可被配置为连续地(或至少基本上连续地)执行,直到其在步骤403或者被用户解除激活为止。
触发字词检测子例程开始于块402a,在这里移动计算设备经由麦克风接收口说输入。在块402b,移动计算设备基于对口说输入执行的话音识别,获得与口说输入相对应的文本。话音识别可由移动计算设备执行。或者,话音识别可全部或部分由移动计算设备外部的一个或多个设备执行。例如,移动计算设备可将口说输入发送给服务器,服务器可对口说输入执行话音识别以确定相应的文本,并且移动计算设备可从服务器获得该文本。
在块402c,移动计算设备分析该文本以判定该文本是否包括一个或多个预定义的触发字词的集合中的至少一个。在块402d,响应于判定该文本包括一个或多个预定义的触发字词的集合中的至少一个,移动计算设备启动与文本中包括的至少一个触发字词相对应的应用。
在一些实施例中,与至少一个触发字词相对应的应用可以是被配置为从用户接收语音命令的语音命令提示应用。语音命令可包括以下各项中的一个或多个:(i)动作,(ii)动作的对象,以及(iii)与动作或对象相关联的一个或多个参数。语音命令提示和经由语音命令提示接收的语音命令可与本文别处描述的语音命令提示和语音命令类似。
在其他实施例中,与至少一个触发字词相对应的应用可以是以下各项中的任何一个:语音命令提示、通信应用、多媒体应用、或者用于配置移动计算设备的设定的应用。
在一些实施例中,通过将移动计算设备耦合到外部电源可激活移动计算设备的话音识别模式。图5示出了根据这种实施例的示例方法500。方法500开始于块501,此时移动计算设备检测到移动计算设备与外部电源的耦合。响应于检测到的耦合,在块502,移动计算设备激活话音识别模式。块502–505描述了话音识别模式在被激活之后可如何操作的示例。
在块503,移动计算设备经由麦克风接收口说输入。在块504,移动计算设备判定口说输入是否包括一个或多个触发字词。如上所述,这可涉及由移动计算设备和/或由服务器执行的话音识别。响应于判定口说输入包括至少一个触发字词,在块505,移动计算设备启动与该至少一个触发字词相对应的应用。
虽然本文已公开了各种方面和实施例,但本领域技术人员将清楚其他方面和实施例。本文公开的各种方面和实施例只是为了说明,而并不打算进行限定,真实的范围和精神由权利要求指示。

Claims (26)

1.一种用于移动计算设备中的连续话音识别和检测的方法,包括:
判定移动计算设备是否在从外部电源接收操作电力,其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程;以及
响应于判定所述移动计算设备在从所述外部电源接收操作电力,激活所述触发字词检测子例程,其中所述触发字词检测子例程包括:
经由所述移动计算设备的麦克风接收口说输入,
基于对所述口说输入执行的话音识别获得文本,
判定所述文本是否包括与语音命令提示应用相关联的一个或多个触发字词,以及
响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词,启动所述语音命令提示应用,其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。
2.如权利要求1所述的方法,还包括:连续地执行所述触发字词检测子例程,直到其被解除激活为止。
3.如权利要求1所述的方法,还包括:响应于判定所述移动计算设备在从一个或多个电池接收操作电力,对所述触发字词检测子例程解除激活。
4.如权利要求1所述的方法,还包括:
接收所述用户输入;以及
响应于接收到所述用户输入而激活所述触发字词检测子例程,无论所述移动计算设备是否在从所述外部电源接收操作电力。
5.如权利要求1所述的方法,其中,所述一个或多个其他应用包括以下各项中的至少一个:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
6.如权利要求1所述的方法,其中,所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。
7.如权利要求1所述的方法,其中,判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。
8.如权利要求1所述的方法,还包括:在启动所述语音命令提示应用之后,经由所述麦克风接收口说命令串,其中所述口说命令串包括动作和该动作的对象;以及响应于接收到所述口说命令串,在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用。
9.如权利要求8所述的方法,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,在所述移动计算设备上启动至少与所述动作相对应的应用包括:在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
10.如权利要求8所述的方法,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,在所述移动计算设备上至少基于所述动作的对象执行所述应用包括:在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。
11.一种移动计算设备,包括:
声音检测器;
显示器;
电力选择器,用于选择性地从外部电源或一个或多个电池中的一者为所述移动计算设备供电;以及
一个或多个处理器,用于当所述电力选择器在从所述外部电源为所述移动计算设备供电时连续地执行触发字词检测子例程以及当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时停止所述触发字词检测子例程的执行,
其中,所述触发字词检测子例程包括判定经由所述声音检测器接收的口说输入是否包括与语音命令提示应用相关联的一个或多个触发字词,以及响应于判定所述口说输入包括与所述语音命令提示应用相关联的一个或多个触发字词,启动所述语音命令提示应用,其中所述语音命令提示应用被配置为经由所述声音检测器接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述显示器上显示语音命令提示。
12.如权利要求11所述的移动计算设备,还包括:
用户接口,用于当所述电力选择器在从所述一个或多个电池为所述移动计算设备供电时从用户接收激活所述触发字词检测子例程的输入。
13.如权利要求11所述的移动计算设备,其中,所述一个或多个其他应用包括以下各项之一:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
14.如权利要求11所述的移动计算设备,其中,所述一个或多个处理器还用于:响应于包括动作和该动作的对象的所述口说命令串,启动至少与所述动作相对应的应用并且至少基于所述动作的对象来执行所述应用。
15.如权利要求14所述的移动计算设备,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,启动至少与所述动作相对应的应用包括启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
16.如权利要求14所述的移动计算设备,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,至少基于所述动作的对象来执行所述应用包括在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数来执行所述应用。
17.一种用于移动计算设备中的连续话音识别和检测的装置,包括:
用于判定移动计算设备是否在从外部电源接收操作电力的装置,其中所述移动计算设备具有能够由用户输入来激活并且能够响应于判定所述移动计算设备在接收外部电力而自动激活的触发字词检测子例程;以及
用于响应于判定所述移动计算设备在从所述外部电源接收操作电力来激活所述触发字词检测子例程的装置,其中所述触发字词检测子例程包括:
经由所述移动计算设备的麦克风接收口说输入,
基于对所述口说输入执行的话音识别获得文本,
判定所述文本是否包括与语音命令提示应用相关联的一个或多个触发字词,以及
用于响应于判定所述文本包括与语音命令提示应用相关联的一个或多个触发字词来启动所述语音命令提示应用的装置,其中所述语音命令提示应用被配置为经由所述麦克风接收使得所述移动计算设备启动一个或多个其他应用的口说命令串,并且其中启动所述语音命令提示应用包括在所述移动计算设备上显示语音命令提示。
18.如权利要求17所述的装置,还包括:用于连续地执行所述触发字词检测子例程直到其被解除激活为止的装置。
19.如权利要求17所述的装置,还包括:用于响应于判定所述移动计算设备在从一个或多个电池接收操作电力来对所述触发字词检测子例程解除激活的装置。
20.如权利要求17所述的装置,还包括:
用于接收所述用户输入的装置;以及
用于响应于接收到所述用户输入而激活所述触发字词检测子例程而无论所述移动计算设备是否在从所述外部电源接收操作电力的装置。
21.如权利要求17所述的装置,其中,所述一个或多个其他应用包括以下各项中的至少一个:通信应用、多媒体应用、或者用于配置所述移动计算设备的设定的应用。
22.如权利要求17所述的装置,其中,所述外部电源是与所述移动计算设备相关联的充电器和用于所述移动计算设备的坞接站之一。
23.如权利要求17所述的装置,其中,判定步骤、激活步骤和所述触发字词检测子例程中的一个或多个是移动计算设备操作系统的组件。
24.如权利要求17所述的装置,还包括:用于在启动所述语音命令提示应用之后,经由所述麦克风接收口说命令串的装置,其中所述口说命令串包括动作和该动作的对象;以及
用于响应于接收到所述口说命令串,在所述移动计算设备上启动至少与所述动作相对应的应用并且至少基于所述动作的对象在所述移动计算设备上执行所述应用的装置。
25.如权利要求17所述的装置,其中,所述口说命令串还包括与所述动作相关联的一个或多个参数,并且其中,在所述移动计算设备上启动至少与所述动作相对应的应用包括:在所述移动计算设备上启动与所述动作和与所述动作相关联的一个或多个参数相对应的应用。
26.如权利要求17所述的装置,其中,所述口说命令串还包括与所述动作的对象相关联的一个或多个参数,并且其中,在所述移动计算设备上至少基于所述动作的对象执行所述应用包括:在所述移动计算设备上基于所述动作的对象和与所述动作的对象相关联的一个或多个参数执行所述应用。
CN201280056118.5A 2011-09-30 2012-09-27 用于移动计算设备中的连续话音识别和检测的系统和方法 Active CN103930945B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161542074P 2011-09-30 2011-09-30
US61/542,074 2011-09-30
US13/621,068 2012-09-15
US13/621,068 US8452597B2 (en) 2011-09-30 2012-09-15 Systems and methods for continual speech recognition and detection in mobile computing devices
PCT/US2012/057576 WO2013049358A1 (en) 2011-09-30 2012-09-27 Systems and methods for continual speech recognition and detection in mobile computing devices

Publications (2)

Publication Number Publication Date
CN103930945A CN103930945A (zh) 2014-07-16
CN103930945B true CN103930945B (zh) 2017-10-31

Family

ID=47993412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280056118.5A Active CN103930945B (zh) 2011-09-30 2012-09-27 用于移动计算设备中的连续话音识别和检测的系统和方法

Country Status (4)

Country Link
US (3) US8452597B2 (zh)
EP (1) EP2761615A1 (zh)
CN (1) CN103930945B (zh)
WO (1) WO2013049358A1 (zh)

Families Citing this family (234)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8731936B2 (en) * 2011-05-26 2014-05-20 Microsoft Corporation Energy-efficient unobtrusive identification of a speaker
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8996381B2 (en) * 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US9031847B2 (en) * 2011-11-15 2015-05-12 Microsoft Technology Licensing, Llc Voice-controlled camera operations
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
KR101990037B1 (ko) * 2012-11-13 2019-06-18 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9424405B2 (en) * 2012-11-28 2016-08-23 Apple Inc. Using receipts to control assignments of items of content to users
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
CN103871408B (zh) * 2012-12-14 2017-05-24 联想(北京)有限公司 一种语音识别方法及装置、电子设备
US9047857B1 (en) * 2012-12-19 2015-06-02 Rawles Llc Voice commands for transitioning between device states
AU2021202255B9 (en) * 2013-02-07 2022-06-09 Apple Inc. Voice trigger for a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9530410B1 (en) 2013-04-09 2016-12-27 Google Inc. Multi-mode guard for voice commands
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
US9026176B2 (en) 2013-05-12 2015-05-05 Shyh-Jye Wang Message-triggered voice command interface in portable electronic devices
EP3000241B1 (en) 2013-05-23 2019-07-17 Knowles Electronics, LLC Vad detection microphone and method of operating the same
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
CN103309618A (zh) 2013-07-02 2013-09-18 姜洪明 移动操作系统
GB2526980B (en) * 2013-07-10 2017-04-12 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
GB2553040B (en) * 2013-07-10 2018-04-18 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
US20150088525A1 (en) * 2013-09-24 2015-03-26 Tencent Technology (Shenzhen) Co., Ltd. Method and apparatus for controlling applications and operations on a terminal
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
CN103500578B (zh) * 2013-10-22 2016-05-11 上海云视科技股份有限公司 语音操控方法和装置
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9769550B2 (en) 2013-11-06 2017-09-19 Nvidia Corporation Efficient digital microphone receiver process and system
US9454975B2 (en) * 2013-11-07 2016-09-27 Nvidia Corporation Voice trigger
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
US20150221307A1 (en) * 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode
KR102179506B1 (ko) 2013-12-23 2020-11-17 삼성전자 주식회사 전자장치 및 그 제어방법
US11132173B1 (en) * 2014-02-20 2021-09-28 Amazon Technologies, Inc. Network scheduling of stimulus-based actions
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9355640B2 (en) 2014-06-04 2016-05-31 Google Inc. Invoking action responsive to co-presence determination
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9449442B2 (en) * 2014-10-23 2016-09-20 Vivint, Inc. Interface of an automation system
CN105740056B (zh) * 2014-12-08 2019-03-29 联想(北京)有限公司 信息处理方法及电子设备
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US9633661B1 (en) * 2015-02-02 2017-04-25 Amazon Technologies, Inc. Speech-responsive portable speaker
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
CN104715754A (zh) * 2015-03-05 2015-06-17 北京华丰亨通科贸有限公司 一种快速响应语音命令的方法及装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) * 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9467563B1 (en) * 2015-04-10 2016-10-11 Angel.Com Incorporated Visual interactive voice response system
WO2016161641A1 (zh) 2015-04-10 2016-10-13 华为技术有限公司 语音识别方法、语音唤醒装置、语音识别装置及终端
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10001964B2 (en) * 2015-06-08 2018-06-19 Intel Corporation Systems, methods, and devices for handling Wi-Fi and bluetooth audio
KR102296174B1 (ko) * 2015-06-26 2021-08-31 삼성전자주식회사 전자 장치 및 그의 오디오 변환 방법
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083685B2 (en) * 2015-10-13 2018-09-25 GM Global Technology Operations LLC Dynamically adding or removing functionality to speech recognition systems
CN106653010B (zh) 2015-11-03 2020-07-24 络达科技股份有限公司 电子装置及其透过语音辨识唤醒的方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10049670B2 (en) * 2016-06-06 2018-08-14 Google Llc Providing voice action discoverability example for trigger term
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
JP6659514B2 (ja) * 2016-10-12 2020-03-04 東芝映像ソリューション株式会社 電子機器及びその制御方法
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US9940930B1 (en) 2016-12-07 2018-04-10 Google Llc Securing audio data
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US10242673B2 (en) 2016-12-07 2019-03-26 Google Llc Preventing of audio attacks using an input and an output hotword detection model
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10332520B2 (en) 2017-02-13 2019-06-25 Qualcomm Incorporated Enhanced speech generation
JP6812843B2 (ja) * 2017-02-23 2021-01-13 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
KR102389996B1 (ko) * 2017-03-28 2022-04-25 삼성전자 주식회사 전자 장치 및 이를 이용한 사용자 입력을 처리하기 위한 화면 제어 방법
CN107122179A (zh) 2017-03-31 2017-09-01 阿里巴巴集团控股有限公司 语音的功能控制方法和装置
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10311870B2 (en) * 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
EP3435642A1 (en) * 2017-07-29 2019-01-30 Advanced Digital Broadcast S.A. A system and method for remote control of appliances by voice
US11282528B2 (en) * 2017-08-14 2022-03-22 Lenovo (Singapore) Pte. Ltd. Digital assistant activation based on wake word association
KR102489914B1 (ko) * 2017-09-15 2023-01-20 삼성전자주식회사 전자 장치 및 이의 제어 방법
US10235353B1 (en) * 2017-09-15 2019-03-19 Dell Products Lp Natural language translation interface for networked devices
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US11127405B1 (en) * 2018-03-14 2021-09-21 Amazon Technologies, Inc. Selective requests for authentication for voice-based launching of applications
US10877637B1 (en) 2018-03-14 2020-12-29 Amazon Technologies, Inc. Voice-based device operation mode management
US10885910B1 (en) 2018-03-14 2021-01-05 Amazon Technologies, Inc. Voice-forward graphical user interface mode management
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102563314B1 (ko) * 2018-08-30 2023-08-04 삼성전자주식회사 전자 장치 및 단축 명령어의 바로가기 생성 방법
US10861444B2 (en) * 2018-09-24 2020-12-08 Rovi Guides, Inc. Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7202853B2 (ja) * 2018-11-08 2023-01-12 シャープ株式会社 冷蔵庫
US11100925B2 (en) 2018-12-06 2021-08-24 Comcast Cable Communications, Llc Voice command trigger words
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11875231B2 (en) 2019-06-26 2024-01-16 Samsung Electronics Co., Ltd. System and method for complex task machine learning
KR20210031265A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 전자 장치 및 그 동작방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
KR20210055347A (ko) 2019-11-07 2021-05-17 엘지전자 주식회사 인공 지능 장치
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US11321048B2 (en) 2020-02-25 2022-05-03 Motorola Solutions, Inc. Method and apparatus for temporary hands-free voice interaction
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11620999B2 (en) 2020-09-18 2023-04-04 Apple Inc. Reducing device processing of unintended audio
US11652655B1 (en) * 2022-01-31 2023-05-16 Zoom Video Communications, Inc. Audio capture device selection for remote conference participants

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1054388A2 (en) * 1999-05-21 2000-11-22 Information Storage Devices, Inc. Method and apparatus for determining the state of voice controlled devices
US6212541B1 (en) * 1994-10-24 2001-04-03 Microsoft Corporation System and method for switching between software applications in multi-window operating system
CN1316863A (zh) * 2000-04-04 2001-10-10 李秀星 语音识别操作便携电话机的方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539358B1 (en) * 2000-05-24 2003-03-25 Delphi Technologies, Inc. Voice-interactive docking station for a portable computing device
KR100652645B1 (ko) * 2004-07-23 2006-12-06 엘지전자 주식회사 푸시 투 토크형 이동 통신 단말기의 음성 검출 및 인식을이용한 발언권 관리 장치와 방법
JP4317834B2 (ja) * 2005-06-01 2009-08-19 株式会社カシオ日立モバイルコミュニケーションズ 音出力装置、および、音出力制御プログラム
US20090222270A2 (en) * 2006-02-14 2009-09-03 Ivc Inc. Voice command interface device
US8204748B2 (en) * 2006-05-02 2012-06-19 Xerox Corporation System and method for providing a textual representation of an audio message to a mobile device
US8060249B2 (en) * 2006-11-22 2011-11-15 Senticare Inc. Medication dispenser with integrated monitoring system
US20080154612A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Local storage and use of search results for voice-enabled mobile communications devices
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9111538B2 (en) * 2009-09-30 2015-08-18 T-Mobile Usa, Inc. Genius button secondary commands
WO2011091402A1 (en) * 2010-01-25 2011-07-28 Justin Mason Voice electronic listening assistant
US8296142B2 (en) * 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8798995B1 (en) * 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6212541B1 (en) * 1994-10-24 2001-04-03 Microsoft Corporation System and method for switching between software applications in multi-window operating system
EP1054388A2 (en) * 1999-05-21 2000-11-22 Information Storage Devices, Inc. Method and apparatus for determining the state of voice controlled devices
CN1316863A (zh) * 2000-04-04 2001-10-10 李秀星 语音识别操作便携电话机的方法和系统

Also Published As

Publication number Publication date
US20130085755A1 (en) 2013-04-04
US20160180851A1 (en) 2016-06-23
US8452597B2 (en) 2013-05-28
CN103930945A (zh) 2014-07-16
WO2013049358A1 (en) 2013-04-04
US20140244253A1 (en) 2014-08-28
EP2761615A1 (en) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103930945B (zh) 用于移动计算设备中的连续话音识别和检测的系统和方法
US10838765B2 (en) Task execution method for voice input and electronic device supporting the same
US10832674B2 (en) Voice data processing method and electronic device supporting the same
EP3062309B1 (en) Low power detection of an activation phrase
EP3001414B1 (en) Method for executing voice command and electronic device
EP2842125B1 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
CN103310785B (zh) 使用语音识别控制电源的电子装置和方法
CN108694944B (zh) 通过使用框架生成自然语言表达的方法和设备
CN104247280A (zh) 话音控制的通信连接
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
KR20180060328A (ko) 멀티 모달 입력을 처리하는 전자 장치, 멀티 모달 입력을 처리하는 방법 및 멀티 모달 입력을 처리하는 서버
WO2014086238A1 (zh) 语音后台控制方法及移动终端
US20200349947A1 (en) Method for responding to user utterance and electronic device for supporting same
US11120792B2 (en) System for processing user utterance and controlling method thereof
KR20200016636A (ko) 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법
US11361750B2 (en) System and electronic device for generating tts model
CN104391742A (zh) 应用优化方法和装置
KR20190021088A (ko) 음성 명령을 이용한 동작을 수행하는 전자 장치 및 전자 장치의 동작 방법
JP2001096481A (ja) 情報処理装置および方法、並びにプログラム格納媒体
KR20150106567A (ko) 음성 메시지 출력 방법, 이를 위한 장치 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.