CN105723451B - 从低功率始终侦听模式到高功率语音识别模式的转换 - Google Patents

从低功率始终侦听模式到高功率语音识别模式的转换 Download PDF

Info

Publication number
CN105723451B
CN105723451B CN201380081082.0A CN201380081082A CN105723451B CN 105723451 B CN105723451 B CN 105723451B CN 201380081082 A CN201380081082 A CN 201380081082A CN 105723451 B CN105723451 B CN 105723451B
Authority
CN
China
Prior art keywords
audio
mode
processor
low
buffer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380081082.0A
Other languages
English (en)
Other versions
CN105723451A (zh
Inventor
S.夏
B.R.皮布勒
F.M.萨拉佩尔
S.达杜
P-L.博萨
D.沃雷尔
E.贾姆萨拉根
I.L.辛
R.A.尤雷加
S.纳拉塞兰
M.S.乔世
O.法利克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN105723451A publication Critical patent/CN105723451A/zh
Application granted granted Critical
Publication of CN105723451B publication Critical patent/CN105723451B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/325Power saving in peripheral device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3293Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

所公开的是用于主处理器和/或计算设备从低功能模式到其中可以完成完整词汇语音识别的高功能模式的无缝、单步且经语音触发的转换的实施例。在主处理器处于低功能模式中时由低功率音频处理器捕获第一音频样本。低功率音频处理器可以识别预定音频模式。低功率音频处理器在识别预定的音频模式时,触发主处理器以转换到高功能模式。在预定音频模式的端点之后的第一音频样本的端部可以被存储在由主处理器可访问的系统存储器中。第二音频样本被捕获并且被与第一音频样本的端部一起存储。一旦主处理器转换到高功能模式,可以执行多通道完整词汇语音识别并且可以基于所检测到的语音交互短语而执行功能。

Description

从低功率始终侦听模式到高功率语音识别模式的转换
技术领域
本文所描述的实施例一般涉及将计算设备从低功率和/或低功能状态转换到较高功率和/或较高功能状态。更特别地,所公开的实施例涉及使用低功率语音触发来无缝地发起主处理器从低功率和/或低功能状态到其中可以执行多通道语音识别的较高功率状态和/或较高功能状态的转换。
背景技术
语音识别一般地在计算设备中,并且特别地在诸如智能电话、平板电脑和膝上型计算机之类的移动计算设备中正在变得普遍。目前,发起语音识别应用通常要求用户操纵致动器(例如按动按钮)并且在用户能够说出命令(诸如“今天天气如何”)之前等待指示计算设备准备好侦听的提示(例如音频音调和/或用户接口显示麦克风)。换言之,当前语音识别是多步过程,包括由用户的发起步骤,接着是由计算设备的提示步骤之前的停顿。只有在提示步骤之后用户才能够继续进行以提供命令和/或以其它方式与计算设备的语音识别应用对接。
附图说明
图1是根据一个实施例的计算设备的示意图。
图2是根据一个实施例的数字信号处理器的示意图。
图3是根据一个实施例的计算设备的关系图。
图4A和4B是根据一个实施例的将计算设备从低功率模式转换到较高功率模式的方法的流程图。
具体实施方式
目前,为了发起计算设备上的语音识别应用,利用多步过程。例如,首先,要求用户操纵致动器(例如按动按钮)或说出触发短语以警告和/或唤醒主处理器语音识别功能,并且其次,在用户能够说出命令或以其它方式与计算设备的语音识别功能对接之前,用户必须等待计算设备提供指示计算设备准备好侦听的提示。此示例过程至少包括由用户的发起步骤,接着是由计算设备的提示步骤。在提示步骤之后,用户可以继续进行以提供命令和/或以其它方式与计算设备的语音识别功能对接。
本发明人已经认识到,语音识别的多步发起是麻烦且不自然的。用户体验受等待计算设备转换到较高功能模式并且提供提示以指示准备好施行语音识别的时间所影响。所公开的实施例提供主处理器和/或计算设备从低功能模式(其可以是低功率模式和/或有限特征模式)到高功能模式(其可以是其中可以完成单通道和/或多通道音频处理和完整词汇语音识别的较高功率模式和/或较高特征模式)的无缝、单步和语音触发的转换。所公开的实施例通过使得实现系统从低功能模式到高功能模式的单步(或“一次性(one-shot)”)无缝转换来使得实现更加自然的语音交互。
在某些实施例中,低功能模式是低功率模式。低功率模式可以包括低功率始终侦听功能。在某些这样的实施例中,低功能模式还可以是有限特征模式,其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在其它实施例中,低功能模式是有限特征模式,其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在某些实施例中,高功能模式是高(或较高)功率模式和/或较高特征模式,其中相比于在低功能模式中,主处理器的更多特征是活动的或者以其它方式可操作。高功能模式可以包括大词汇语音识别功能。
所公开的实施例可以在主处理器处于低功能模式中时通过低功率音频处理器来捕获第一音频样本。低功率音频处理器可以识别第一音频样本中的预定的音频模式(pattern)(例如唤醒短语,诸如“嗨助理”)。低功率音频处理器可以在识别到预定的音频模式时,触发主处理器转换到高功能模式。跟随预定的音频模式的端点的第一音频样本的端部可以被拷贝或以其它方式被存储在主处理器可访问的系统存储器中。后续音频样本或第二音频样本被捕获并且被与第一音频样本的端部一起存储在系统存储器中。一旦主处理器唤醒并且从低功能模式转换到高功能模式,则第一音频样本的端部和第二音频样本可以由主处理器在高功能模式中处理。高功能模式中的主处理器可以执行完整词汇语音识别以识别命令并且基于所检测的命令执行功能并且以其它方式能够实现语音交互。
图1是根据一个实施例的计算设备100的示意图。计算设备100包括主处理器102、低功率音频处理器104或其它专用硬件、一个或多个音频输入106(例如麦克风或麦克风端口)、音频输出108(例如扬声器或扬声器端口)和存储器110。计算设备100可以是移动设备,诸如智能电话、平板电脑、膝上型电脑、超极本TM、个人数字助理等。在其它实施例中,计算设备100还可以是台式计算机、多合一或可穿戴设备(例如手表)。在又一实施例中,计算设备100可以是机动车的仪表盘单元或其它处理单元。计算设备100可以被配置成使得在处于低功率和/或低功能状态中的时实现语音识别应用的无缝或一步激活。
主处理器102可以是计算设备100的中央处理单元(CPU)或应用处理器,或者可以是任何类型的处理器,诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器或执行代码的其它设备。主处理器102可以包括一个或多个处理元件或核。主处理器102具有低功能模式(例如低功率模式或状态和/或低功能模式或状态),诸如待机模式、休眠模式、或睡眠模式,其可以在例如主处理器102未被使用时节省功率和电池寿命。主处理器102还可以具有一个或多个较高功能模式(例如较高功率模式或状态和/或较高功能模式或状态),诸如操作模式或全功率模式,其中主处理器102可以执行指令以执行例如计算和/或数据处理任务。例如,主处理器102可以被激活或触发以从低功能模式醒来(或“唤醒”)并且可以能够执行大词汇语音识别。如可以被认识到的,主处理器102可以能够执行其它计算任务,诸如媒体内容回放。
低功率音频处理器104可以是第二处理器(或其它硬件),其以比主处理器102的(多个)高功能模式更少的功率进行操作。低功率音频处理器104可以是数字信号处理器。低功率音频处理器104可以检测预定的音频模式的说出并且触发主处理器102从低功能模式转换到高功能模式。低功率音频处理器104可以使得实现从低功能模式和低功率小词汇语音识别到高功能模式和完整词汇语音识别的单个步骤和/或无缝转换。
低功率音频处理器104可以配置成对通过音频输入106接收(诸如经由麦克风)的音频信号进行采样。麦克风可以是板载麦克风(例如板载计算设备100)或可以是经由音频输入端口106耦合到计算设备100的另一设备(诸如耳机)的麦克风。
低功率音频处理器104可以存储来自音频信号的音频样本。音频样本可以被存储在低功率音频处理器104的存储设备(例如缓冲器)中。例如,低功率音频处理器104可以包括紧密耦合的静态随机存取存储器(SRAM)。作为另一示例,低功率音频处理器104的存储设备可以是数据紧密耦合存储器(DCCM)。循环缓冲器(circular buffer)可以被配置在存储设备中并且可以在低功率音频处理器104对音频信号进行采样时恒定地写入和盖写有音频样本。在其它实施例中,音频样本可以被存储在低功率音频处理器104外部和/或以其它方式对主处理器102可访问的存储器110中。
一检测到噪声,低功率音频处理器104就可以发起低功率语音识别模式以分析或以其它方式处理音频样本以识别预定的音频模式。预定的音频模式可以是语音触发或者预配置的唤醒短语。例如,语音触发或唤醒短语可以是“嗨助理”。预定的音频模式可以由用户可配置。系统可以识别的预定的音频模式的数目可能是有限的,使得低功率音频处理器104仅需要执行小词汇语音识别并且不需要执行大词汇语音识别。例如,低功率音频处理器104可以能够识别预定的音频模式的小集合,诸如五个语音触发。识别此小集合的预定音频模式之一的小词汇语音识别可以利用有限量的处理和/或功率来完成。除了限制预定音频模式的数目之外或者作为对其的替换,预定的音频模式可以消耗的时间量可以例如被限制到大约两秒。可以在应用层处强加限制以确保到达硬件的音频样本可用来完成低功率语音识别。例如,当终端用户说道“嗨助理”作为唤醒短语时,音频样本的第一集合的持续时间可以被限制到两秒。
一旦检测到预定的音频模式,低功率音频处理器104就可以触发主处理器102以唤醒或者从低功能模式转换到高功能模式。低功率音频处理器104继续捕获音频样本。可以激活另外的音频输入106,诸如另外的板载麦克风。在主处理器102和/或计算设备100唤醒并且从低功能模式转换到高功能模式所花费的时段期间,可以发生预处理。预处理可以包括声学回波消除、噪声抑制等以净化音频样本并且从而增强大词汇语音识别。在预定音频模式的端点之后的第一音频样本的部分和第二音频样本可以被冲刷(flush)到系统存储器110。例如,第二音频样本和第一音频样本的端部可以被拷贝到系统存储器110中的环形缓冲器。
存储器110对主处理器102可访问。根据一个实施例,系统存储器110可以包括双数据速率同步动态随机存取存储器(DDR SDRAM)。
一旦主处理器102已经转换到高功能模式,预定音频模式被低功率音频处理器104检测到的通知就可以被主处理器接收。通知可以经由中断、过程间通信(IPC)、门铃寄存器或任何其它适当处理器到处理器通信而被递送。到用户完成说出唤醒短语和语音交互短语(例如“嗨助理,我的下一约会是什么时候
Figure DEST_PATH_IMAGE002A
”)时,可以预处理语音交互短语,主处理器102可以转换到较高功率,并且进行大词汇语音识别的应用正在解析信息以基于所说出的语音交互短语而采取行动。用户能够以无缝、自然的方式说出唤醒短语“嗨助理”和语音交互短语“我的下一约会是什么时候”而没有停顿。
在此初始语音交互短语(例如在唤醒短语之后的短语)之后,用户可以自然地停顿以等待计算设备的响应或行动。在此停顿期间,可以开始将从诸如一个或多个板载麦克风之类的经激活的另外的音频输入捕获的音频样本拷贝到存储器104。换言之,可以在初始语音交互短语之后开启多通道音频采样以避免第二样本和第一样本的端部之间的音频信号的不连续。第二样本和第一样本的端部之间的这种不连续可以抑制大词汇语音识别并且可能是不合期望的。
计算设备100的音频输出108(诸如扬声器)可以使得能够向用户呈现内容回放。主处理器可以向音频输出发送用户交互信号。计算设备100可以包括低功率音频回放应用。因此,低功率音频处理器104还可以被配置成执行声学回波消除以能够然后通过低功率语音识别来检测预定的音频模式。
如可以认识到的,前述特征可以以多个方式组合和/或可以采取不同形式。例如,在系统存储器速度增加时,由低功率音频处理器104捕获的音频样本可以直接存储到由主处理器102和低功率音频处理器104可访问的系统存储器110中的单个缓冲器。
图2是根据一个实施例的计算设备的低功率音频处理器200的示意图。低功率音频处理器200可以类似于图1的低功率音频处理器104。低功率音频处理器200可以是数字信号处理器。低功率音频处理器200可以用作固件解决方案,其在主处理器(例如中央处理单元/CPU)(例如图1的主处理器102)最初处于待机模式时能够实现低功率操作。所图示的低功率音频处理器200包括在主处理器处于待机模式时监视来自低功率音频处理器200和/或计算设备的板载麦克风220的输入音频信号的捕获模块202。语言模块204可以识别从输入音频信号捕获的样本中的预定的音频模式。触发模块206可以触发主处理器以从低功能模式转换到高功能模式。触发模块206还可以触发主处理器上的语音识别会话或应用。验证模块208可以操作成验证唤醒短语的说出的源(例如用户、发起者)。验证模块208可以因而根据给定用户来对语音交互短语进行寻址。验证模块208还可以确保仅经授权的个体可以触发计算设备上的语音识别会话。
图3是根据一个实施例的计算设备300的功能图。计算设备300执行各种功能并且可以包括各种处理器、模块和其它硬件元件以执行这些功能。例如,如所图示的计算设备300包括开关矩阵302、低功率音频处理器304、主处理器306和存储器308。计算设备300具有低功能模式和高功能模式。更具体地,计算设备300的主处理器306具有低功能模式和高功能模式。在所图示的实施例中,主处理器306的低功能模式包括低功率模式并且主处理器306的高功能模式包括高功率模式。
开关矩阵302接收音频输入的各种源并且可以向低功率音频处理器304呈现音频样本。音频输入可以被预先采样(例如已经数字化)或者开关矩阵可以提供采样功能。低功率麦克风310可以在无论何时计算设备300在操作时操作,包括当计算设备300处于低功能模式时。开关矩阵302可以提供通过低功率麦克风310接收的音频信号的样本。开关矩阵302还可以从媒体栈340(例如内容回放信号)接收可以用作回波参考的音频输入。开关矩阵302可以包括一个或多个另外的麦克风312,314,其可以在计算设备300处于低功能模式时被解激活并且可以被激活来作为计算设备300从低功能模式到高功能模式的转换的部分。
在其它实施例中,开关矩阵302可以是总线或音频路由器。在其它实施例中,低功率麦克风310可以直接链接到低功率音频处理器304。在又一些实施例中,开关矩阵302可以作为低功率音频处理器304的部分而被包括。
音频样本可以在主处理器306和/或计算设备308处于低功能模式的同时被从由麦克风310接收的音频信号捕获。如果媒体栈340和/或计算设备300处于内容回放模式(例如音频内容回放模式)中则可以应用声学回波消除324。音频样本然后可以被存储在循环缓冲器326中。在存储到循环缓冲器的样本上执行关键词检测和/或扬声器验证328(KD/SV)以识别预定的音频模式(例如由用户说出的唤醒短语)。如果在循环缓冲器326中的第一样本中识别到预定的音频模式,则可以向处于低功能模式的主处理器306上的KD/SV服务342发送通知。通知可以是中断、IPC等以触发主处理器306来转换到高功能模式和/或发起语音识别应用。
循环缓冲器中的第一音频样本的至少一部分(例如预定模式的端点之后的部分)在被拷贝到存储器308中的环形缓冲器336之前可能经历单个通道噪声抑制。端点之前的第一音频样本的部分(即预定的音频模式)可以被去掉(strip out)并且不被写入到存储器中的环形缓冲器336。在由KD/SV 328检测到预定的音频模式之后,一个或多个另外的麦克风312,314可以被激活并且计算设备和/或低功率音频处理器可以开始捕获多个通道的音频样本并且可以发生多通道噪声抑制332。还可以在多个通道上执行波束形成322。直到在预定的音频模式的检测之后发生静默时段为止,单个麦克风捕获和单个通道噪声抑制可以继续并且后续音频样本或第二音频样本可以被写入到存储器308中的环形缓冲器336。替换地,低功率音频处理器304可以继续将从单个麦克风310捕获的音频样本存储到循环缓冲器326。总之,低功率音频处理器304继续执行单个通道噪声抑制330,并且将音频样本写入到存储器308中的环形缓冲器336。多通道音频样本可以最初不被写入到存储器308中的环形缓冲器336以便避免音频信号中的不连续而同时用户继续与计算设备300的语音对接。一旦发生静默时段(例如在诸如“嗨助理,我的下一次约会是什么时候
Figure DEST_PATH_IMAGE003
”之类的唤醒短语和语音交互短语的说出之后),由多个通道捕获并且通过多通道噪声抑制332运行的音频样本可以直接被写入到存储器308中的环形缓冲器336。换言之,可以启用多麦克风捕获和多通道噪声抑制,但是不启用结果以避免用户说话期间信号中的不连续。可以在说话之间的静默时段期间启用多麦克风捕获和多通道噪声抑制的结果。
在另一实施例中,可以轻而易举地(as readily as available)激活多麦克风捕获和多通道噪声抑制的结果,并且可以执行收敛过程以解决由从单个通道移动到多通道处理所创建的任何不连续。
一旦处于高功能模式,主处理器306可以在写入到存储器308中的环形缓冲器336的音频样本上执行大词汇语音识别344。KD/SV应用程序接口(API)346可以使得语音识别应用344能够从存储器308中的环形缓冲器336接收或以其它方式访问音频样本。KD/SV API可以协调从单个通道音频处理和多通道音频处理的移动。
还可以使得计算设备300能够进入使用目前可用的方法的语音识别应用,包括多个步骤过程,其包括用户行动,接着是停顿以等待计算设备的计算设备准备接收命令或其它语音交互短语的指示。在激活时,诸如通过按钮或通过语音触发,计算设备300可以提供提示(例如经由显示屏或经由扬声器)以指示计算设备300准备接收用于语音识别的音频。将音频样本写入到存储器308中的环形缓冲器362并且语音识别应用344可以通过经由操作系统音频API 364接收或以其它方式访问音频样本来执行大词汇语音识别。这样,计算设备300可以通过目前可用的方法来使得实现语音对接和/或会话用户接口。
图4A和4B是根据一个实施例的将计算设备从低功率始终侦听模式转换到高功能模式的方法400的流程图。在计算设备的主处理器处于低功能模式时,从通过麦克风接收的音频信号捕获402音频样本。可以发生第一音频样本的预处理404。预处理404可以包括以下中的一个或多个:声学回波消除、噪声抑制和可以澄清或以其它方式改进用于语音识别的音频信号的其它滤波。音频样本可以被存储406在缓冲器中。低功率音频处理器上的低功率语音识别可以识别408第一音频样本中的预定音频模式。例如,预定音频模式可以是说话“嗨助理”。用户可以无缝并且没有停顿地继续说出语音交互短语,诸如“明天的天气如何”,其可以被部分地包括在第一音频样本中。因此,还可以识别410预定音频模式的端点。
响应于识别408预定的音频模式,在预定的音频模式的端点之后的第一缓冲器中的第一音频样本的至少部分可以被拷贝到主处理器可访问的系统存储器。例如,在预定音频模式的端点之后的第一缓冲器中的第一音频样本可以被拷贝到第二缓冲器。而且,响应于识别到408预定的音频模式,计算设备的主处理器可以被触发412以转换到高功能模式。此外,可以将计算设备的其它元件触发到较高功能模式。例如,可以激活计算设备的一个或多个另外的麦克风。
捕获414第二音频样本。第二音频样本可以从通过麦克风接收的音频信号捕获414。第二音频样本还可以从通过一个或多个另外的麦克风(其可能已经被激活)接收的一个或多个音频信号捕获414。第二音频样本可以被预处理。预处理可以包括以下中的一个或多个:声学回波消除、波束形成、噪声抑制和其它滤波。例如,可以在第二音频样本上执行单个通道噪声抑制。在另一实施例中,可以在第二音频样本上执行多通道噪声抑制。存储416第二音频样本。第二音频样本可以被存储416在例如由主处理器可访问的系统存储器中的第二缓冲器中。在其它实施例中,第二音频样本可以被存储416在第一缓冲器中,在预定音频模式的端点之后。
一旦主处理器转换到高功能模式,预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以由处于高功能模式中的主处理器处理418。例如,在预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以包括说话“明天天气如何”。主处理器可以执行大词汇语音识别以能够实现会话用户接口(CUI),使得用户可以说话并且主处理器可以识别语音交互短语,其可以包括询问和/或命令。主处理器可以执行语音识别以检测“明天天气如何
Figure DEST_PATH_IMAGE003A
”并且可以执行420基于此检测到的语音交互短语的功能。
可以识别422第一语音交互短语之后的静默时段。在用户等待来自计算设备的响应时,静默时段可以发生在第一语音交互短语之后。在静默时段期间,计算设备可以从单个通道处理切换424到多通道处理。
示例实施例
示例1. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,包括:具有低功能模式和高功能模式的主处理器;存储音频样本的缓冲器;在主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且在缓冲器中存储第一音频样本的低功率音频处理器,其中低功率音频处理器被配置成识别第一音频样本中的预定的音频模式,包括预定的音频模式的端点,并且触发主处理器转换到高功能模式,其中系统配置成,在低功率音频处理器触发主处理器时,从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储第二音频样本,并且其中主处理器被配置成,在高功能模式中,在预定音频模式的端点之后的缓冲器中的第一音频样本的至少部分上且在第二音频样本上执行语音识别处理。
示例2. 示例1的系统,还包括一个或多个板载麦克风,每个被配置成接收音频信号,其中一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。
示例3. 示例1的系统,其中第二音频样本被存储在预定音频模式的端点之后的缓冲器中。
示例4. 示例1的系统,其中缓冲器包括存储在主处理器处于低功能模式中时捕获的音频样本的第一缓冲器,并且其中系统还包括:对主处理器可访问以存储音频样本的第二缓冲器,其中第二音频样本被存储在第二缓冲器中,并且其中系统被配置成,在低功率音频处理器触发主处理器时,将在预定音频模式的端点之后的第一音频样本的至少部分拷贝到第二缓冲器。
示例5. 示例1的系统,其中低功率音频处理器包括:在主处理器处于低功能模式中时监视由板载麦克风接收的音频信号并且捕获音频信号的音频样本的捕获模块;识别所捕获的音频样本中的预定的音频模式的语言模块;以及基于预定的音频模式而触发计算设备的主处理器转换到高功能模式的触发模块。
示例6. 示例1的系统,还包括在第一音频样本上执行噪声抑制的单个通道噪声抑制模块。
示例7. 示例1的系统,还包括:
在第二音频样本上执行噪声抑制的多通道噪声抑制模块。
示例8. 示例1的系统,其中主处理器被配置成,在高功能模式中,施行语音识别处理以识别命令。
示例9. 示例8的系统,其中主处理器还被配置成基于所识别的命令而执行另外的功能。
示例10. 示例8的系统,其中主处理器还被配置成在确定命令之后识别静默时段,并且,在静默时段期间,将系统从第二音频样本的单通道处理切换到多通道处理。
示例11. 示例1的系统,还包括可操作成当主处理器处于高功能模式中时接收音频信号的多个另外的麦克风,其中一个或多个麦克风包括多个另外的麦克风,并且其中第二音频样本从通过多个另外的麦克风接收的音频信号捕获。
示例12. 示例1的系统,其中低功能模式包括低功率模式。
示例13. 示例1的系统,其中低功能模式包括低功率模式和有限特征模式。
示例14. 示例1的系统,其中低功能模式包括有限特征模式。
示例15. 示例1的系统,其中高功能模式包括较高功率模式。
示例16. 示例1的系统,其中高功能模式包括较高功率模式和较高特征模式。
示例17. 示例1的系统,其中高功能模式包括较高特征模式。
示例18. 一种将计算设备从低功能模式转换到高功能模式的方法,包括:在计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本;在第一缓冲器中存储第一音频样本;通过低功率音频处理器识别第一音频样本中的预定的音频模式,包括预定音频模式的端点;响应于识别到预定的音频模式,触发计算设备的主处理器以转换到高功能模式;从通过一个或多个麦克风接收的音频信号捕获第二音频样本;
存储第二音频样本;以及通过处于高功能模式中的主处理器处理在预定音频模式的端点之后的第一缓冲器中存储的第一音频样本的至少一部分和第二音频样本。
示例19. 示例18的方法,还包括将在预定音频模式的端点之后的第一缓冲器中的第一音频样本的至少一部分拷贝到第二缓冲器,其中存储第二音频样本包括在第二缓冲器中存储第二音频样本。
示例20. 示例18的方法,还包括在主处理器处于低功能模式中时捕获的第一音频样本上执行单个通道噪声抑制。
示例21. 示例18的方法,还包括基于预定的音频模式而激活一个或多个麦克风,其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获第二音频样本。
示例22. 示例21的方法,还包括在主处理器处于高功能模式中时捕获的第二音频样本上执行多通道噪声抑制。
示例23. 示例18的方法,其中处理第一音频样本的至少一部分和第二音频样本包括执行语音识别以确定命令。
示例24. 示例23的方法,还包括通过处于高功能模式中的主处理器执行命令。
示例25. 示例23的方法,还包括:在确定命令之后识别静默时段;在静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理。
示例26. 示例18的方法,其中低功能模式包括低功率模式。
示例27. 示例18的方法,其中低功能模式包括低功率模式和有限特征模式。
示例28. 示例18的方法,其中低功能模式包括有限特征模式。
示例29. 示例18的方法,其中高功能模式包括较高功率模式。
示例30. 示例18的方法,其中高功能模式包括较高功率模式和较高特征模式。
示例31. 示例18的方法,其中高功能模式包括较高特征模式。
示例32. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,系统被配置成执行示例18-31的任一个的方法。
示例33. 一种低功率始终侦听数字信号处理器,包括:在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且捕获音频信号的第一音频样本的捕获模块;语言模块,其识别第一音频样本中的预定音频模式,包括预定音频模式的端点;以及触发模块,以响应于语言模块识别到预定的音频模式,触发主处理器以转换到高功能模式并且发起在预定的音频模式的端点之后捕获的第一音频样本的部分上和在触发模块触发主处理器之后捕获的第二音频样本上的语音识别处理。
示例34. 示例33的低功率始终侦听数字信号处理器,还包括存储第一音频样本的第一缓冲器。
示例35. 示例34的低功率始终侦听数字信号处理器,其中第一缓冲器由主处理器可访问。
示例36. 示例33的低功率始终侦听数字信号处理器,还包括在主处理器处于低功能模式中时接收音频信号的板载麦克风。
示例37. 示例33的低功率始终侦听数字信号处理器,还包括将在预定的音频模式的端点之后捕获的第一音频样本的一部分拷贝到第二缓冲器的冲刷模块(flush module),第二缓冲器由主处理器可访问。
示例38. 一个或多个机器可读存储介质,包括存储在其上的多个指令,所述多个指令响应于被执行而导致计算设备执行权利要求18-31中的任一个的方法。
上面的描述提供了众多特定细节以用于本文所描述的实施例的透彻理解。然而,本领域技术人员将认识到,可以省略一个或多个特定细节,或者可以使用其它方法、部件或材料。在一些情况中,未详细示出或描述操作。
另外,所描述的特征、操作或特性可以以任何合适的方式被组合在一个或多个实施例中。还将容易理解的是,结合所公开的实施例描述的方法的步骤或行动的次序可以被改变,如对本领域技术人员将显然的那样。因此,附图或具体实施方式中的任何次序仅仅用于说明性目的并且不意图暗示所要求的次序,除非被指定要求次序。实施例可以包括各种步骤,其可以被包含在机器可执行指令中以由通用或专用计算机(或其它电子设备)执行。替换地,步骤可以由包括用于执行步骤的特定逻辑的硬件部件或者由硬件、软件和/或固件的组合来执行。
实施例还可以被提供为计算机程序产品,其包括具有存储在其上的可以用于对计算机(或其它电子设备)编程以执行本文所描述的过程的指令的计算机可读存储介质。计算机可读存储介质可以包括但不限于:硬驱动机、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁或光卡、固态存储器设备或适合用于存储电子指令的其它类型的介质/机器可读介质。
如本文所使用的,软件模块或部件可以包括任何类型的计算机指令或计算机可执行代码,其位于存储器设备和/或计算机可读存储介质内。软件模块可以例如包括计算机指令的一个或多个物理或逻辑块,其可以被组织为例程、程序、对象、部件、数据结构等,其执行一个或多个任务或实现特定抽象数据类型。
在某些实施例中,特定软件模块可以包括存储在存储器设备的不同位置中的不同指令,其一起实现所描述的模块的功能。事实上,模块可以包括单个指令或许多指令,并且可以在若干不同代码段之上、在不同程序之中和跨若干存储器设备分布。一些实施例可以在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,软件模块可以位于本地和/或远程存储器存储设备中。此外,在数据库记录中结合或再现在一起的数据可以在相同的存储器设备中,或者跨若干存储器设备驻留,并且可以跨网络而在数据库中的记录的字段中连接在一起。
对本领域技术人员而言将显而易见的是,可以对上面描述的实施例的细节作出许多改变而不脱离于本发明的根本原理。本发明的范围因而应当仅由下面的权利要求确定。

Claims (34)

1.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,包括:
具有低功能模式和高功能模式的主处理器;
用于存储音频样本的缓冲器;
低功率音频处理器,用于在所述主处理器处于所述低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且用于在所述缓冲器中存储所述第一音频样本,其中所述低功率音频处理器被配置成识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点,且触发所述主处理器转换到所述高功能模式,
其中所述系统被配置成,在所述低功率音频处理器触发所述主处理器时,从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储所述第二音频样本,并且
其中所述主处理器被配置成,在所述高功能模式中,在所述缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分上和在所述第二音频样本上执行语音识别处理。
2.权利要求1所述的系统,还包括一个或多个板载麦克风,每个被配置成接收音频信号,其中所述一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。
3.权利要求1所述的系统,其中在所述缓冲器中在所述预定音频模式的所述端点之后存储所述第二音频样本。
4.权利要求1所述的系统,其中所述缓冲器包括用于存储在所述主处理器处于所述低功能模式中时捕获的音频样本的第一缓冲器,并且其中所述系统还包括:
所述主处理器可访问的、用于存储音频样本的第二缓冲器,
其中所述第二音频样本被存储在所述第二缓冲器中,并且
其中所述系统被配置成,在所述低功率音频处理器触发所述主处理器时,将在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到所述第二缓冲器。
5.权利要求2所述的系统,其中所述低功率音频处理器包括:
捕获模块,用于在所述主处理器处于所述低功能模式中时监视由所述板载麦克风接收的所述音频信号并且用于捕获所述音频信号的音频样本;
语言模块,用于识别所捕获的音频样本中的所述预定音频模式;以及
触发模块,用于基于所述预定音频模式而触发所述计算设备的所述主处理器转换到所述高功能模式。
6.权利要求1所述的系统,还包括单通道噪声抑制模块,用于在所述第一音频样本上执行噪声抑制。
7.权利要求1所述的系统,还包括多通道噪声抑制模块,用于在所述第二音频样本上执行噪声抑制。
8.权利要求1所述的系统,其中所述主处理器被配置成,在所述高功能模式中,执行语音识别处理以识别命令。
9.权利要求8所述的系统,其中所述主处理器还被配置成基于识别的命令而执行另外的功能。
10.权利要求8所述的系统,其中所述主处理器还被配置成在确定所述命令之后识别静默时段,并且,在所述静默时段期间,将所述系统从第二音频样本的单通道处理切换到多通道处理。
11.权利要求1所述的系统,还包括多个另外的麦克风,可操作成当所述主处理器处于所述高功能模式中时接收音频信号,
其中所述一个或多个麦克风包括所述多个另外的麦克风,并且
其中从通过所述多个另外的麦克风接收的音频信号捕获所述第二音频样本。
12.一种用于将计算设备从低功能模式转换到高功能模式的方法,包括:
在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本;
在第一缓冲器中存储所述第一音频样本;
由低功率音频处理器识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点;
响应于识别到所述预定音频模式,触发所述计算设备的所述主处理器转换到高功能模式;
从通过一个或多个麦克风接收的音频信号捕获第二音频样本;
存储所述第二音频样本;以及
由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本。
13.权利要求12所述的方法,还包括将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器,
其中存储所述第二音频样本包括在所述第二缓冲器中存储所述第二音频样本。
14.权利要求12所述的方法,还包括在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制。
15.权利要求12所述的方法,还包括基于所述预定音频模式而激活一个或多个麦克风,其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本。
16.权利要求15所述的方法,还包括在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制。
17.权利要求12所述的方法,其中处理所述第一音频样本的所述至少一部分和所述第二音频样本包括执行语音识别以确定命令。
18.权利要求17所述的方法,还包括由处于所述高功能模式中的所述主处理器执行所述命令。
19.权利要求17所述的方法,还包括:
在确定所述命令之后识别静默时段;
在所述静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理。
20.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,所述系统被配置成执行权利要求12-19中任一项所述的方法。
21.一种低功率始终侦听数字信号处理器,包括:
捕获模块,用于在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且用于捕获所述音频信号的第一音频样本;
语言模块,用于识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点;以及
触发模块,用于响应于所述语言模块识别到所述预定音频模式,触发所述主处理器转换到高功能模式并且发起在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分上和在所述触发模块触发所述主处理器之后捕获的第二音频样本上的语音识别处理。
22.权利要求21所述的低功率始终侦听数字信号处理器,还包括第一缓冲器,用于存储所述第一音频样本。
23.权利要求22所述的低功率始终侦听数字信号处理器,其中所述第一缓冲器由所述主处理器可访问。
24.权利要求21所述的低功率始终侦听数字信号处理器,还包括板载麦克风,用于在所述主处理器处于所述低功能模式中时接收所述音频信号。
25.权利要求21所述的低功率始终侦听数字信号处理器,还包括冲刷模块,用于将在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分拷贝到第二缓冲器,所述第二缓冲器由所述主处理器可访问。
26.一种机器可读存储介质,其上存储有指令,当由计算设备执行所述指令时,使得所述计算设备执行根据权利要求12-19中任一项所述的方法。
27.一种用于将计算设备从低功能模式转换到高功能模式的装置,包括:
用于在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本的部件;
用于在第一缓冲器中存储所述第一音频样本的部件;
用于由低功率音频处理器识别所述第一音频样本中的预定音频模式、包括所述预定音频模式的端点的部件;
用于响应于识别到所述预定音频模式,触发所述计算设备的所述主处理器转换到高功能模式的部件;
用于从通过一个或多个麦克风接收的音频信号捕获第二音频样本的部件;
用于存储所述第二音频样本的部件;以及
用于由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本的部件。
28.权利要求27所述的装置,还包括用于将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器的部件,
其中所述用于存储所述第二音频样本的部件包括用于在所述第二缓冲器中存储所述第二音频样本的部件。
29.权利要求27所述的装置,还包括用于在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制的部件。
30.权利要求27所述的装置,还包括用于基于所述预定音频模式而激活一个或多个麦克风的部件,其中所述用于捕获第二音频样本的部件包括用于从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本的部件。
31.权利要求30所述的装置,还包括用于在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制的部件。
32.权利要求27所述的装置,其中所述用于处理所述第一音频样本的所述至少一部分和所述第二音频样本的部件包括用于执行语音识别以确定命令的部件。
33.权利要求32所述的装置,还包括用于由处于所述高功能模式中的所述主处理器执行所述命令的部件。
34.权利要求32所述的装置,还包括:
用于在确定所述命令之后识别静默时段的部件;
用于在所述静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理的部件。
CN201380081082.0A 2013-12-20 2013-12-20 从低功率始终侦听模式到高功率语音识别模式的转换 Expired - Fee Related CN105723451B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2013/077222 WO2015094369A1 (en) 2013-12-20 2013-12-20 Transition from low power always listening mode to high power speech recognition mode

Publications (2)

Publication Number Publication Date
CN105723451A CN105723451A (zh) 2016-06-29
CN105723451B true CN105723451B (zh) 2020-02-28

Family

ID=53403449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380081082.0A Expired - Fee Related CN105723451B (zh) 2013-12-20 2013-12-20 从低功率始终侦听模式到高功率语音识别模式的转换

Country Status (4)

Country Link
US (1) US20150221307A1 (zh)
EP (1) EP3084760A4 (zh)
CN (1) CN105723451B (zh)
WO (1) WO2015094369A1 (zh)

Families Citing this family (208)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9552037B2 (en) * 2012-04-23 2017-01-24 Google Inc. Switching a computing device from a low-power state to a high-power state
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR102070196B1 (ko) * 2012-09-20 2020-01-30 삼성전자 주식회사 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US20150032238A1 (en) * 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device for Audio Input Routing
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10192557B2 (en) * 2013-08-26 2019-01-29 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition engines
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620116B2 (en) * 2013-12-24 2017-04-11 Intel Corporation Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions
US9460735B2 (en) 2013-12-28 2016-10-04 Intel Corporation Intelligent ancillary electronic device
KR102210433B1 (ko) * 2014-01-21 2021-02-01 삼성전자주식회사 전자 장치 및 이의 음성 인식 방법
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10031000B2 (en) * 2014-05-29 2018-07-24 Apple Inc. System on a chip with always-on processor
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
JP6564058B2 (ja) * 2015-04-10 2019-08-21 華為技術有限公司Huawei Technologies Co.,Ltd. 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9990921B2 (en) * 2015-12-09 2018-06-05 Lenovo (Singapore) Pte. Ltd. User focus activated voice recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10726835B2 (en) * 2016-12-23 2020-07-28 Amazon Technologies, Inc. Voice activated modular controller
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US20180224923A1 (en) * 2017-02-08 2018-08-09 Intel Corporation Low power key phrase detection
CN108663942B (zh) * 2017-04-01 2021-12-07 青岛有屋科技有限公司 一种语音识别设备控制方法、语音识别设备和中控服务器
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN108877788B (zh) * 2017-05-08 2021-06-11 瑞昱半导体股份有限公司 具有语音唤醒功能的电子装置及其操作方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10311870B2 (en) 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10950228B1 (en) * 2017-06-28 2021-03-16 Amazon Technologies, Inc. Interactive voice controlled entertainment
US20190013025A1 (en) * 2017-07-10 2019-01-10 Google Inc. Providing an ambient assist mode for computing devices
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10887125B2 (en) * 2017-09-15 2021-01-05 Kohler Co. Bathroom speaker
US11314215B2 (en) 2017-09-15 2022-04-26 Kohler Co. Apparatus controlling bathroom appliance lighting based on user identity
US11093554B2 (en) 2017-09-15 2021-08-17 Kohler Co. Feedback for water consuming appliance
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10002259B1 (en) * 2017-11-14 2018-06-19 Xiao Ming Mai Information security/privacy in an always listening assistant device
US10867054B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening assistant device
US10872607B2 (en) 2017-11-14 2020-12-22 Thomas STACHURA Information choice and security via a decoupled router with an always listening assistant device
US10867623B2 (en) * 2017-11-14 2020-12-15 Thomas STACHURA Secure and private processing of gestures via video input
US10999733B2 (en) 2017-11-14 2021-05-04 Thomas STACHURA Information security/privacy via a decoupled security accessory to an always listening device
US11100913B2 (en) * 2017-11-14 2021-08-24 Thomas STACHURA Information security/privacy via a decoupled security cap to an always listening assistant device
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10971173B2 (en) 2017-12-08 2021-04-06 Google Llc Signal processing coordination among digital voice assistant computing devices
EP4191412A1 (en) 2017-12-08 2023-06-07 Google LLC Signal processing coordination among digital voice assistant computing devices
US10672380B2 (en) 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
KR102453656B1 (ko) 2018-01-25 2022-10-12 삼성전자주식회사 저전력 동작을 위한 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR102629385B1 (ko) * 2018-01-25 2024-01-25 삼성전자주식회사 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR102530391B1 (ko) 2018-01-25 2023-05-09 삼성전자주식회사 외부 인터럽트를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
KR102459920B1 (ko) * 2018-01-25 2022-10-27 삼성전자주식회사 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10332543B1 (en) 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10861462B2 (en) * 2018-03-12 2020-12-08 Cypress Semiconductor Corporation Dual pipeline architecture for wakeup phrase detection with speech onset detection
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10930278B2 (en) 2018-04-09 2021-02-23 Google Llc Trigger sound detection in ambient audio to provide related functionality on a user interface
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DE102018207280A1 (de) * 2018-05-09 2019-11-14 Robert Bosch Gmbh Verfahren und Vorrichtung zur luftschallakustischen Überwachung eines Außen- und/oder eines Innenraums eines Fahrzeugs, Fahrzeug sowie computerlesbares Speichermedium
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
US10892772B2 (en) * 2018-08-17 2021-01-12 Invensense, Inc. Low power always-on microphone using power reduction techniques
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CA3129378A1 (en) 2019-02-07 2020-08-13 Thomas Stachura Privacy device for smart speakers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US20210373596A1 (en) * 2019-04-02 2021-12-02 Talkgo, Inc. Voice-enabled external smart processing system with display
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN112073862B (zh) * 2019-06-10 2023-03-31 美商楼氏电子有限公司 数字处理器、麦克风组件和对关键字进行检测的方法
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
CN111369999B (zh) * 2020-03-12 2024-05-14 北京百度网讯科技有限公司 一种信号处理方法、装置以及电子设备
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
EP4002061A1 (en) * 2020-11-24 2022-05-25 Inter IKEA Systems B.V. A control device and a method for determining control data based on audio input data
TWI790647B (zh) * 2021-01-13 2023-01-21 神盾股份有限公司 語音助理系統
CN113284517B (zh) * 2021-02-03 2022-04-01 珠海市杰理科技股份有限公司 语音端点检测方法、电路、音频处理芯片和音频设备
GB2605121A (en) * 2021-02-08 2022-09-28 Prevayl Innovations Ltd An electronics module for a wearable articel, a systemm, and a method of activation of an electronics module for a wearable article
WO2024053762A1 (ko) * 2022-09-08 2024-03-14 엘지전자 주식회사 음성 인식 장치 및 그의 동작 방법
WO2024125032A1 (zh) * 2022-12-12 2024-06-20 海信视像科技股份有限公司 一种语音控制方法及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983186A (en) * 1995-08-21 1999-11-09 Seiko Epson Corporation Voice-activated interactive speech recognition device and method
CN101483683A (zh) * 2008-01-08 2009-07-15 宏达国际电子股份有限公司 手持装置及其语音识别方法
CN103019373A (zh) * 2011-11-17 2013-04-03 微软公司 用于设备激活的音频模式匹配
CN103327184A (zh) * 2013-06-17 2013-09-25 华为终端有限公司 一种功能切换方法及用户终端

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2325110B (en) * 1997-05-06 2002-10-16 Ibm Voice processing system
DE69941686D1 (de) * 1999-01-06 2010-01-07 Koninkl Philips Electronics Nv Spracheingabegerät mit aufmerksamkeitsspanne
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
US20020077830A1 (en) * 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US7219062B2 (en) * 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US8423778B2 (en) * 2007-11-21 2013-04-16 University Of North Texas Apparatus and method for transmitting secure and/or copyrighted digital video broadcasting data over internet protocol network
CN101442675B (zh) * 2008-12-31 2012-01-11 中兴通讯股份有限公司 一种多媒体播放方法
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
US9838810B2 (en) * 2012-02-27 2017-12-05 Qualcomm Technologies International, Ltd. Low power audio detection
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US20140122078A1 (en) * 2012-11-01 2014-05-01 3iLogic-Designs Private Limited Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain
CN103021411A (zh) * 2012-11-27 2013-04-03 威盛电子股份有限公司 语音控制装置和语音控制方法
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
KR20150104615A (ko) * 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9842489B2 (en) * 2013-02-14 2017-12-12 Google Llc Waking other devices for additional data
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9633669B2 (en) * 2013-09-03 2017-04-25 Amazon Technologies, Inc. Smart circular audio buffer
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US10079019B2 (en) * 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5983186A (en) * 1995-08-21 1999-11-09 Seiko Epson Corporation Voice-activated interactive speech recognition device and method
CN101483683A (zh) * 2008-01-08 2009-07-15 宏达国际电子股份有限公司 手持装置及其语音识别方法
CN103019373A (zh) * 2011-11-17 2013-04-03 微软公司 用于设备激活的音频模式匹配
CN103327184A (zh) * 2013-06-17 2013-09-25 华为终端有限公司 一种功能切换方法及用户终端

Also Published As

Publication number Publication date
EP3084760A4 (en) 2017-08-16
EP3084760A1 (en) 2016-10-26
US20150221307A1 (en) 2015-08-06
CN105723451A (zh) 2016-06-29
WO2015094369A1 (en) 2015-06-25

Similar Documents

Publication Publication Date Title
CN105723451B (zh) 从低功率始终侦听模式到高功率语音识别模式的转换
AU2019246868B2 (en) Method and system for voice activation
US10403290B2 (en) System and method for machine-mediated human-human conversation
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
US20210216273A1 (en) Mechanism for retrieval of previously captured audio
US9652017B2 (en) System and method of analyzing audio data samples associated with speech recognition
US9613626B2 (en) Audio device for recognizing key phrases and method thereof
CN107886944B (zh) 一种语音识别方法、装置、设备及存储介质
US9761116B2 (en) Low power voice trigger for finding mobile devices
CN102591455B (zh) 语音数据的选择性传输
EP2962403A1 (en) Voice-controlled communication connections
CN113841118B (zh) 多个语音助理的激活管理
US20170178627A1 (en) Environmental noise detection for dialog systems
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
US10529331B2 (en) Suppressing key phrase detection in generated audio using self-trigger detector
US9508345B1 (en) Continuous voice sensing
CN111862943A (zh) 语音识别方法和装置、电子设备和存储介质
KR20120111510A (ko) 대화형 음성 인식을 통한 로봇 제어 시스템
US20200310523A1 (en) User Request Detection and Execution
CN115171664A (zh) 语音唤醒方法、装置、智能语音设备、车辆及存储介质
KR20240094013A (ko) 호출 속성에 기초한 다수의 자동 어시스턴트 사이에서의 선택
JP2023059845A (ja) 音声起動デバイスにおける強化されたノイズ低減

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200228

Termination date: 20211220