CN105723451B - 从低功率始终侦听模式到高功率语音识别模式的转换 - Google Patents
从低功率始终侦听模式到高功率语音识别模式的转换 Download PDFInfo
- Publication number
- CN105723451B CN105723451B CN201380081082.0A CN201380081082A CN105723451B CN 105723451 B CN105723451 B CN 105723451B CN 201380081082 A CN201380081082 A CN 201380081082A CN 105723451 B CN105723451 B CN 105723451B
- Authority
- CN
- China
- Prior art keywords
- audio
- mode
- processor
- low
- buffer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007704 transition Effects 0.000 title claims abstract description 34
- 230000006870 function Effects 0.000 claims abstract description 13
- 230000005236 sound signal Effects 0.000 claims description 42
- 238000000034 method Methods 0.000 claims description 40
- 230000001629 suppression Effects 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 10
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 abstract description 18
- 230000001960 triggered effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/3293—Power saving characterised by the action undertaken by switching to a less power-consuming processor, e.g. sub-CPU
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
所公开的是用于主处理器和/或计算设备从低功能模式到其中可以完成完整词汇语音识别的高功能模式的无缝、单步且经语音触发的转换的实施例。在主处理器处于低功能模式中时由低功率音频处理器捕获第一音频样本。低功率音频处理器可以识别预定音频模式。低功率音频处理器在识别预定的音频模式时,触发主处理器以转换到高功能模式。在预定音频模式的端点之后的第一音频样本的端部可以被存储在由主处理器可访问的系统存储器中。第二音频样本被捕获并且被与第一音频样本的端部一起存储。一旦主处理器转换到高功能模式,可以执行多通道完整词汇语音识别并且可以基于所检测到的语音交互短语而执行功能。
Description
技术领域
本文所描述的实施例一般涉及将计算设备从低功率和/或低功能状态转换到较高功率和/或较高功能状态。更特别地,所公开的实施例涉及使用低功率语音触发来无缝地发起主处理器从低功率和/或低功能状态到其中可以执行多通道语音识别的较高功率状态和/或较高功能状态的转换。
背景技术
语音识别一般地在计算设备中,并且特别地在诸如智能电话、平板电脑和膝上型计算机之类的移动计算设备中正在变得普遍。目前,发起语音识别应用通常要求用户操纵致动器(例如按动按钮)并且在用户能够说出命令(诸如“今天天气如何”)之前等待指示计算设备准备好侦听的提示(例如音频音调和/或用户接口显示麦克风)。换言之,当前语音识别是多步过程,包括由用户的发起步骤,接着是由计算设备的提示步骤之前的停顿。只有在提示步骤之后用户才能够继续进行以提供命令和/或以其它方式与计算设备的语音识别应用对接。
附图说明
图1是根据一个实施例的计算设备的示意图。
图2是根据一个实施例的数字信号处理器的示意图。
图3是根据一个实施例的计算设备的关系图。
图4A和4B是根据一个实施例的将计算设备从低功率模式转换到较高功率模式的方法的流程图。
具体实施方式
目前,为了发起计算设备上的语音识别应用,利用多步过程。例如,首先,要求用户操纵致动器(例如按动按钮)或说出触发短语以警告和/或唤醒主处理器语音识别功能,并且其次,在用户能够说出命令或以其它方式与计算设备的语音识别功能对接之前,用户必须等待计算设备提供指示计算设备准备好侦听的提示。此示例过程至少包括由用户的发起步骤,接着是由计算设备的提示步骤。在提示步骤之后,用户可以继续进行以提供命令和/或以其它方式与计算设备的语音识别功能对接。
本发明人已经认识到,语音识别的多步发起是麻烦且不自然的。用户体验受等待计算设备转换到较高功能模式并且提供提示以指示准备好施行语音识别的时间所影响。所公开的实施例提供主处理器和/或计算设备从低功能模式(其可以是低功率模式和/或有限特征模式)到高功能模式(其可以是其中可以完成单通道和/或多通道音频处理和完整词汇语音识别的较高功率模式和/或较高特征模式)的无缝、单步和语音触发的转换。所公开的实施例通过使得实现系统从低功能模式到高功能模式的单步(或“一次性(one-shot)”)无缝转换来使得实现更加自然的语音交互。
在某些实施例中,低功能模式是低功率模式。低功率模式可以包括低功率始终侦听功能。在某些这样的实施例中,低功能模式还可以是有限特征模式,其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在其它实施例中,低功能模式是有限特征模式,其中主处理器的某些特征是不活动的或者以其它方式是不可用的。在某些实施例中,高功能模式是高(或较高)功率模式和/或较高特征模式,其中相比于在低功能模式中,主处理器的更多特征是活动的或者以其它方式可操作。高功能模式可以包括大词汇语音识别功能。
所公开的实施例可以在主处理器处于低功能模式中时通过低功率音频处理器来捕获第一音频样本。低功率音频处理器可以识别第一音频样本中的预定的音频模式(pattern)(例如唤醒短语,诸如“嗨助理”)。低功率音频处理器可以在识别到预定的音频模式时,触发主处理器转换到高功能模式。跟随预定的音频模式的端点的第一音频样本的端部可以被拷贝或以其它方式被存储在主处理器可访问的系统存储器中。后续音频样本或第二音频样本被捕获并且被与第一音频样本的端部一起存储在系统存储器中。一旦主处理器唤醒并且从低功能模式转换到高功能模式,则第一音频样本的端部和第二音频样本可以由主处理器在高功能模式中处理。高功能模式中的主处理器可以执行完整词汇语音识别以识别命令并且基于所检测的命令执行功能并且以其它方式能够实现语音交互。
图1是根据一个实施例的计算设备100的示意图。计算设备100包括主处理器102、低功率音频处理器104或其它专用硬件、一个或多个音频输入106(例如麦克风或麦克风端口)、音频输出108(例如扬声器或扬声器端口)和存储器110。计算设备100可以是移动设备,诸如智能电话、平板电脑、膝上型电脑、超极本TM、个人数字助理等。在其它实施例中,计算设备100还可以是台式计算机、多合一或可穿戴设备(例如手表)。在又一实施例中,计算设备100可以是机动车的仪表盘单元或其它处理单元。计算设备100可以被配置成使得在处于低功率和/或低功能状态中的时实现语音识别应用的无缝或一步激活。
主处理器102可以是计算设备100的中央处理单元(CPU)或应用处理器,或者可以是任何类型的处理器,诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器或执行代码的其它设备。主处理器102可以包括一个或多个处理元件或核。主处理器102具有低功能模式(例如低功率模式或状态和/或低功能模式或状态),诸如待机模式、休眠模式、或睡眠模式,其可以在例如主处理器102未被使用时节省功率和电池寿命。主处理器102还可以具有一个或多个较高功能模式(例如较高功率模式或状态和/或较高功能模式或状态),诸如操作模式或全功率模式,其中主处理器102可以执行指令以执行例如计算和/或数据处理任务。例如,主处理器102可以被激活或触发以从低功能模式醒来(或“唤醒”)并且可以能够执行大词汇语音识别。如可以被认识到的,主处理器102可以能够执行其它计算任务,诸如媒体内容回放。
低功率音频处理器104可以是第二处理器(或其它硬件),其以比主处理器102的(多个)高功能模式更少的功率进行操作。低功率音频处理器104可以是数字信号处理器。低功率音频处理器104可以检测预定的音频模式的说出并且触发主处理器102从低功能模式转换到高功能模式。低功率音频处理器104可以使得实现从低功能模式和低功率小词汇语音识别到高功能模式和完整词汇语音识别的单个步骤和/或无缝转换。
低功率音频处理器104可以配置成对通过音频输入106接收(诸如经由麦克风)的音频信号进行采样。麦克风可以是板载麦克风(例如板载计算设备100)或可以是经由音频输入端口106耦合到计算设备100的另一设备(诸如耳机)的麦克风。
低功率音频处理器104可以存储来自音频信号的音频样本。音频样本可以被存储在低功率音频处理器104的存储设备(例如缓冲器)中。例如,低功率音频处理器104可以包括紧密耦合的静态随机存取存储器(SRAM)。作为另一示例,低功率音频处理器104的存储设备可以是数据紧密耦合存储器(DCCM)。循环缓冲器(circular buffer)可以被配置在存储设备中并且可以在低功率音频处理器104对音频信号进行采样时恒定地写入和盖写有音频样本。在其它实施例中,音频样本可以被存储在低功率音频处理器104外部和/或以其它方式对主处理器102可访问的存储器110中。
一检测到噪声,低功率音频处理器104就可以发起低功率语音识别模式以分析或以其它方式处理音频样本以识别预定的音频模式。预定的音频模式可以是语音触发或者预配置的唤醒短语。例如,语音触发或唤醒短语可以是“嗨助理”。预定的音频模式可以由用户可配置。系统可以识别的预定的音频模式的数目可能是有限的,使得低功率音频处理器104仅需要执行小词汇语音识别并且不需要执行大词汇语音识别。例如,低功率音频处理器104可以能够识别预定的音频模式的小集合,诸如五个语音触发。识别此小集合的预定音频模式之一的小词汇语音识别可以利用有限量的处理和/或功率来完成。除了限制预定音频模式的数目之外或者作为对其的替换,预定的音频模式可以消耗的时间量可以例如被限制到大约两秒。可以在应用层处强加限制以确保到达硬件的音频样本可用来完成低功率语音识别。例如,当终端用户说道“嗨助理”作为唤醒短语时,音频样本的第一集合的持续时间可以被限制到两秒。
一旦检测到预定的音频模式,低功率音频处理器104就可以触发主处理器102以唤醒或者从低功能模式转换到高功能模式。低功率音频处理器104继续捕获音频样本。可以激活另外的音频输入106,诸如另外的板载麦克风。在主处理器102和/或计算设备100唤醒并且从低功能模式转换到高功能模式所花费的时段期间,可以发生预处理。预处理可以包括声学回波消除、噪声抑制等以净化音频样本并且从而增强大词汇语音识别。在预定音频模式的端点之后的第一音频样本的部分和第二音频样本可以被冲刷(flush)到系统存储器110。例如,第二音频样本和第一音频样本的端部可以被拷贝到系统存储器110中的环形缓冲器。
存储器110对主处理器102可访问。根据一个实施例,系统存储器110可以包括双数据速率同步动态随机存取存储器(DDR SDRAM)。
一旦主处理器102已经转换到高功能模式,预定音频模式被低功率音频处理器104检测到的通知就可以被主处理器接收。通知可以经由中断、过程间通信(IPC)、门铃寄存器或任何其它适当处理器到处理器通信而被递送。到用户完成说出唤醒短语和语音交互短语(例如“嗨助理,我的下一约会是什么时候”)时,可以预处理语音交互短语,主处理器102可以转换到较高功率,并且进行大词汇语音识别的应用正在解析信息以基于所说出的语音交互短语而采取行动。用户能够以无缝、自然的方式说出唤醒短语“嗨助理”和语音交互短语“我的下一约会是什么时候”而没有停顿。
在此初始语音交互短语(例如在唤醒短语之后的短语)之后,用户可以自然地停顿以等待计算设备的响应或行动。在此停顿期间,可以开始将从诸如一个或多个板载麦克风之类的经激活的另外的音频输入捕获的音频样本拷贝到存储器104。换言之,可以在初始语音交互短语之后开启多通道音频采样以避免第二样本和第一样本的端部之间的音频信号的不连续。第二样本和第一样本的端部之间的这种不连续可以抑制大词汇语音识别并且可能是不合期望的。
计算设备100的音频输出108(诸如扬声器)可以使得能够向用户呈现内容回放。主处理器可以向音频输出发送用户交互信号。计算设备100可以包括低功率音频回放应用。因此,低功率音频处理器104还可以被配置成执行声学回波消除以能够然后通过低功率语音识别来检测预定的音频模式。
如可以认识到的,前述特征可以以多个方式组合和/或可以采取不同形式。例如,在系统存储器速度增加时,由低功率音频处理器104捕获的音频样本可以直接存储到由主处理器102和低功率音频处理器104可访问的系统存储器110中的单个缓冲器。
图2是根据一个实施例的计算设备的低功率音频处理器200的示意图。低功率音频处理器200可以类似于图1的低功率音频处理器104。低功率音频处理器200可以是数字信号处理器。低功率音频处理器200可以用作固件解决方案,其在主处理器(例如中央处理单元/CPU)(例如图1的主处理器102)最初处于待机模式时能够实现低功率操作。所图示的低功率音频处理器200包括在主处理器处于待机模式时监视来自低功率音频处理器200和/或计算设备的板载麦克风220的输入音频信号的捕获模块202。语言模块204可以识别从输入音频信号捕获的样本中的预定的音频模式。触发模块206可以触发主处理器以从低功能模式转换到高功能模式。触发模块206还可以触发主处理器上的语音识别会话或应用。验证模块208可以操作成验证唤醒短语的说出的源(例如用户、发起者)。验证模块208可以因而根据给定用户来对语音交互短语进行寻址。验证模块208还可以确保仅经授权的个体可以触发计算设备上的语音识别会话。
图3是根据一个实施例的计算设备300的功能图。计算设备300执行各种功能并且可以包括各种处理器、模块和其它硬件元件以执行这些功能。例如,如所图示的计算设备300包括开关矩阵302、低功率音频处理器304、主处理器306和存储器308。计算设备300具有低功能模式和高功能模式。更具体地,计算设备300的主处理器306具有低功能模式和高功能模式。在所图示的实施例中,主处理器306的低功能模式包括低功率模式并且主处理器306的高功能模式包括高功率模式。
开关矩阵302接收音频输入的各种源并且可以向低功率音频处理器304呈现音频样本。音频输入可以被预先采样(例如已经数字化)或者开关矩阵可以提供采样功能。低功率麦克风310可以在无论何时计算设备300在操作时操作,包括当计算设备300处于低功能模式时。开关矩阵302可以提供通过低功率麦克风310接收的音频信号的样本。开关矩阵302还可以从媒体栈340(例如内容回放信号)接收可以用作回波参考的音频输入。开关矩阵302可以包括一个或多个另外的麦克风312,314,其可以在计算设备300处于低功能模式时被解激活并且可以被激活来作为计算设备300从低功能模式到高功能模式的转换的部分。
在其它实施例中,开关矩阵302可以是总线或音频路由器。在其它实施例中,低功率麦克风310可以直接链接到低功率音频处理器304。在又一些实施例中,开关矩阵302可以作为低功率音频处理器304的部分而被包括。
音频样本可以在主处理器306和/或计算设备308处于低功能模式的同时被从由麦克风310接收的音频信号捕获。如果媒体栈340和/或计算设备300处于内容回放模式(例如音频内容回放模式)中则可以应用声学回波消除324。音频样本然后可以被存储在循环缓冲器326中。在存储到循环缓冲器的样本上执行关键词检测和/或扬声器验证328(KD/SV)以识别预定的音频模式(例如由用户说出的唤醒短语)。如果在循环缓冲器326中的第一样本中识别到预定的音频模式,则可以向处于低功能模式的主处理器306上的KD/SV服务342发送通知。通知可以是中断、IPC等以触发主处理器306来转换到高功能模式和/或发起语音识别应用。
循环缓冲器中的第一音频样本的至少一部分(例如预定模式的端点之后的部分)在被拷贝到存储器308中的环形缓冲器336之前可能经历单个通道噪声抑制。端点之前的第一音频样本的部分(即预定的音频模式)可以被去掉(strip out)并且不被写入到存储器中的环形缓冲器336。在由KD/SV 328检测到预定的音频模式之后,一个或多个另外的麦克风312,314可以被激活并且计算设备和/或低功率音频处理器可以开始捕获多个通道的音频样本并且可以发生多通道噪声抑制332。还可以在多个通道上执行波束形成322。直到在预定的音频模式的检测之后发生静默时段为止,单个麦克风捕获和单个通道噪声抑制可以继续并且后续音频样本或第二音频样本可以被写入到存储器308中的环形缓冲器336。替换地,低功率音频处理器304可以继续将从单个麦克风310捕获的音频样本存储到循环缓冲器326。总之,低功率音频处理器304继续执行单个通道噪声抑制330,并且将音频样本写入到存储器308中的环形缓冲器336。多通道音频样本可以最初不被写入到存储器308中的环形缓冲器336以便避免音频信号中的不连续而同时用户继续与计算设备300的语音对接。一旦发生静默时段(例如在诸如“嗨助理,我的下一次约会是什么时候”之类的唤醒短语和语音交互短语的说出之后),由多个通道捕获并且通过多通道噪声抑制332运行的音频样本可以直接被写入到存储器308中的环形缓冲器336。换言之,可以启用多麦克风捕获和多通道噪声抑制,但是不启用结果以避免用户说话期间信号中的不连续。可以在说话之间的静默时段期间启用多麦克风捕获和多通道噪声抑制的结果。
在另一实施例中,可以轻而易举地(as readily as available)激活多麦克风捕获和多通道噪声抑制的结果,并且可以执行收敛过程以解决由从单个通道移动到多通道处理所创建的任何不连续。
一旦处于高功能模式,主处理器306可以在写入到存储器308中的环形缓冲器336的音频样本上执行大词汇语音识别344。KD/SV应用程序接口(API)346可以使得语音识别应用344能够从存储器308中的环形缓冲器336接收或以其它方式访问音频样本。KD/SV API可以协调从单个通道音频处理和多通道音频处理的移动。
还可以使得计算设备300能够进入使用目前可用的方法的语音识别应用,包括多个步骤过程,其包括用户行动,接着是停顿以等待计算设备的计算设备准备接收命令或其它语音交互短语的指示。在激活时,诸如通过按钮或通过语音触发,计算设备300可以提供提示(例如经由显示屏或经由扬声器)以指示计算设备300准备接收用于语音识别的音频。将音频样本写入到存储器308中的环形缓冲器362并且语音识别应用344可以通过经由操作系统音频API 364接收或以其它方式访问音频样本来执行大词汇语音识别。这样,计算设备300可以通过目前可用的方法来使得实现语音对接和/或会话用户接口。
图4A和4B是根据一个实施例的将计算设备从低功率始终侦听模式转换到高功能模式的方法400的流程图。在计算设备的主处理器处于低功能模式时,从通过麦克风接收的音频信号捕获402音频样本。可以发生第一音频样本的预处理404。预处理404可以包括以下中的一个或多个:声学回波消除、噪声抑制和可以澄清或以其它方式改进用于语音识别的音频信号的其它滤波。音频样本可以被存储406在缓冲器中。低功率音频处理器上的低功率语音识别可以识别408第一音频样本中的预定音频模式。例如,预定音频模式可以是说话“嗨助理”。用户可以无缝并且没有停顿地继续说出语音交互短语,诸如“明天的天气如何”,其可以被部分地包括在第一音频样本中。因此,还可以识别410预定音频模式的端点。
响应于识别408预定的音频模式,在预定的音频模式的端点之后的第一缓冲器中的第一音频样本的至少部分可以被拷贝到主处理器可访问的系统存储器。例如,在预定音频模式的端点之后的第一缓冲器中的第一音频样本可以被拷贝到第二缓冲器。而且,响应于识别到408预定的音频模式,计算设备的主处理器可以被触发412以转换到高功能模式。此外,可以将计算设备的其它元件触发到较高功能模式。例如,可以激活计算设备的一个或多个另外的麦克风。
捕获414第二音频样本。第二音频样本可以从通过麦克风接收的音频信号捕获414。第二音频样本还可以从通过一个或多个另外的麦克风(其可能已经被激活)接收的一个或多个音频信号捕获414。第二音频样本可以被预处理。预处理可以包括以下中的一个或多个:声学回波消除、波束形成、噪声抑制和其它滤波。例如,可以在第二音频样本上执行单个通道噪声抑制。在另一实施例中,可以在第二音频样本上执行多通道噪声抑制。存储416第二音频样本。第二音频样本可以被存储416在例如由主处理器可访问的系统存储器中的第二缓冲器中。在其它实施例中,第二音频样本可以被存储416在第一缓冲器中,在预定音频模式的端点之后。
一旦主处理器转换到高功能模式,预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以由处于高功能模式中的主处理器处理418。例如,在预定音频模式的端点之后的存储在第一缓冲器中的第一音频样本的部分和第二音频样本可以包括说话“明天天气如何”。主处理器可以执行大词汇语音识别以能够实现会话用户接口(CUI),使得用户可以说话并且主处理器可以识别语音交互短语,其可以包括询问和/或命令。主处理器可以执行语音识别以检测“明天天气如何”并且可以执行420基于此检测到的语音交互短语的功能。
可以识别422第一语音交互短语之后的静默时段。在用户等待来自计算设备的响应时,静默时段可以发生在第一语音交互短语之后。在静默时段期间,计算设备可以从单个通道处理切换424到多通道处理。
示例实施例
示例1. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,包括:具有低功能模式和高功能模式的主处理器;存储音频样本的缓冲器;在主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且在缓冲器中存储第一音频样本的低功率音频处理器,其中低功率音频处理器被配置成识别第一音频样本中的预定的音频模式,包括预定的音频模式的端点,并且触发主处理器转换到高功能模式,其中系统配置成,在低功率音频处理器触发主处理器时,从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储第二音频样本,并且其中主处理器被配置成,在高功能模式中,在预定音频模式的端点之后的缓冲器中的第一音频样本的至少部分上且在第二音频样本上执行语音识别处理。
示例2. 示例1的系统,还包括一个或多个板载麦克风,每个被配置成接收音频信号,其中一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。
示例3. 示例1的系统,其中第二音频样本被存储在预定音频模式的端点之后的缓冲器中。
示例4. 示例1的系统,其中缓冲器包括存储在主处理器处于低功能模式中时捕获的音频样本的第一缓冲器,并且其中系统还包括:对主处理器可访问以存储音频样本的第二缓冲器,其中第二音频样本被存储在第二缓冲器中,并且其中系统被配置成,在低功率音频处理器触发主处理器时,将在预定音频模式的端点之后的第一音频样本的至少部分拷贝到第二缓冲器。
示例5. 示例1的系统,其中低功率音频处理器包括:在主处理器处于低功能模式中时监视由板载麦克风接收的音频信号并且捕获音频信号的音频样本的捕获模块;识别所捕获的音频样本中的预定的音频模式的语言模块;以及基于预定的音频模式而触发计算设备的主处理器转换到高功能模式的触发模块。
示例6. 示例1的系统,还包括在第一音频样本上执行噪声抑制的单个通道噪声抑制模块。
示例7. 示例1的系统,还包括:
在第二音频样本上执行噪声抑制的多通道噪声抑制模块。
示例8. 示例1的系统,其中主处理器被配置成,在高功能模式中,施行语音识别处理以识别命令。
示例9. 示例8的系统,其中主处理器还被配置成基于所识别的命令而执行另外的功能。
示例10. 示例8的系统,其中主处理器还被配置成在确定命令之后识别静默时段,并且,在静默时段期间,将系统从第二音频样本的单通道处理切换到多通道处理。
示例11. 示例1的系统,还包括可操作成当主处理器处于高功能模式中时接收音频信号的多个另外的麦克风,其中一个或多个麦克风包括多个另外的麦克风,并且其中第二音频样本从通过多个另外的麦克风接收的音频信号捕获。
示例12. 示例1的系统,其中低功能模式包括低功率模式。
示例13. 示例1的系统,其中低功能模式包括低功率模式和有限特征模式。
示例14. 示例1的系统,其中低功能模式包括有限特征模式。
示例15. 示例1的系统,其中高功能模式包括较高功率模式。
示例16. 示例1的系统,其中高功能模式包括较高功率模式和较高特征模式。
示例17. 示例1的系统,其中高功能模式包括较高特征模式。
示例18. 一种将计算设备从低功能模式转换到高功能模式的方法,包括:在计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本;在第一缓冲器中存储第一音频样本;通过低功率音频处理器识别第一音频样本中的预定的音频模式,包括预定音频模式的端点;响应于识别到预定的音频模式,触发计算设备的主处理器以转换到高功能模式;从通过一个或多个麦克风接收的音频信号捕获第二音频样本;
存储第二音频样本;以及通过处于高功能模式中的主处理器处理在预定音频模式的端点之后的第一缓冲器中存储的第一音频样本的至少一部分和第二音频样本。
示例19. 示例18的方法,还包括将在预定音频模式的端点之后的第一缓冲器中的第一音频样本的至少一部分拷贝到第二缓冲器,其中存储第二音频样本包括在第二缓冲器中存储第二音频样本。
示例20. 示例18的方法,还包括在主处理器处于低功能模式中时捕获的第一音频样本上执行单个通道噪声抑制。
示例21. 示例18的方法,还包括基于预定的音频模式而激活一个或多个麦克风,其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获第二音频样本。
示例22. 示例21的方法,还包括在主处理器处于高功能模式中时捕获的第二音频样本上执行多通道噪声抑制。
示例23. 示例18的方法,其中处理第一音频样本的至少一部分和第二音频样本包括执行语音识别以确定命令。
示例24. 示例23的方法,还包括通过处于高功能模式中的主处理器执行命令。
示例25. 示例23的方法,还包括:在确定命令之后识别静默时段;在静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理。
示例26. 示例18的方法,其中低功能模式包括低功率模式。
示例27. 示例18的方法,其中低功能模式包括低功率模式和有限特征模式。
示例28. 示例18的方法,其中低功能模式包括有限特征模式。
示例29. 示例18的方法,其中高功能模式包括较高功率模式。
示例30. 示例18的方法,其中高功能模式包括较高功率模式和较高特征模式。
示例31. 示例18的方法,其中高功能模式包括较高特征模式。
示例32. 一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,系统被配置成执行示例18-31的任一个的方法。
示例33. 一种低功率始终侦听数字信号处理器,包括:在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且捕获音频信号的第一音频样本的捕获模块;语言模块,其识别第一音频样本中的预定音频模式,包括预定音频模式的端点;以及触发模块,以响应于语言模块识别到预定的音频模式,触发主处理器以转换到高功能模式并且发起在预定的音频模式的端点之后捕获的第一音频样本的部分上和在触发模块触发主处理器之后捕获的第二音频样本上的语音识别处理。
示例34. 示例33的低功率始终侦听数字信号处理器,还包括存储第一音频样本的第一缓冲器。
示例35. 示例34的低功率始终侦听数字信号处理器,其中第一缓冲器由主处理器可访问。
示例36. 示例33的低功率始终侦听数字信号处理器,还包括在主处理器处于低功能模式中时接收音频信号的板载麦克风。
示例37. 示例33的低功率始终侦听数字信号处理器,还包括将在预定的音频模式的端点之后捕获的第一音频样本的一部分拷贝到第二缓冲器的冲刷模块(flush module),第二缓冲器由主处理器可访问。
示例38. 一个或多个机器可读存储介质,包括存储在其上的多个指令,所述多个指令响应于被执行而导致计算设备执行权利要求18-31中的任一个的方法。
上面的描述提供了众多特定细节以用于本文所描述的实施例的透彻理解。然而,本领域技术人员将认识到,可以省略一个或多个特定细节,或者可以使用其它方法、部件或材料。在一些情况中,未详细示出或描述操作。
另外,所描述的特征、操作或特性可以以任何合适的方式被组合在一个或多个实施例中。还将容易理解的是,结合所公开的实施例描述的方法的步骤或行动的次序可以被改变,如对本领域技术人员将显然的那样。因此,附图或具体实施方式中的任何次序仅仅用于说明性目的并且不意图暗示所要求的次序,除非被指定要求次序。实施例可以包括各种步骤,其可以被包含在机器可执行指令中以由通用或专用计算机(或其它电子设备)执行。替换地,步骤可以由包括用于执行步骤的特定逻辑的硬件部件或者由硬件、软件和/或固件的组合来执行。
实施例还可以被提供为计算机程序产品,其包括具有存储在其上的可以用于对计算机(或其它电子设备)编程以执行本文所描述的过程的指令的计算机可读存储介质。计算机可读存储介质可以包括但不限于:硬驱动机、软盘、光盘、CD-ROM、DVD-ROM、ROM、RAM、EPROM、EEPROM、磁或光卡、固态存储器设备或适合用于存储电子指令的其它类型的介质/机器可读介质。
如本文所使用的,软件模块或部件可以包括任何类型的计算机指令或计算机可执行代码,其位于存储器设备和/或计算机可读存储介质内。软件模块可以例如包括计算机指令的一个或多个物理或逻辑块,其可以被组织为例程、程序、对象、部件、数据结构等,其执行一个或多个任务或实现特定抽象数据类型。
在某些实施例中,特定软件模块可以包括存储在存储器设备的不同位置中的不同指令,其一起实现所描述的模块的功能。事实上,模块可以包括单个指令或许多指令,并且可以在若干不同代码段之上、在不同程序之中和跨若干存储器设备分布。一些实施例可以在分布式计算环境中实践,其中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,软件模块可以位于本地和/或远程存储器存储设备中。此外,在数据库记录中结合或再现在一起的数据可以在相同的存储器设备中,或者跨若干存储器设备驻留,并且可以跨网络而在数据库中的记录的字段中连接在一起。
对本领域技术人员而言将显而易见的是,可以对上面描述的实施例的细节作出许多改变而不脱离于本发明的根本原理。本发明的范围因而应当仅由下面的权利要求确定。
Claims (34)
1.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,包括:
具有低功能模式和高功能模式的主处理器;
用于存储音频样本的缓冲器;
低功率音频处理器,用于在所述主处理器处于所述低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本并且用于在所述缓冲器中存储所述第一音频样本,其中所述低功率音频处理器被配置成识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点,且触发所述主处理器转换到所述高功能模式,
其中所述系统被配置成,在所述低功率音频处理器触发所述主处理器时,从通过一个或多个麦克风接收的音频信号捕获第二音频样本并且存储所述第二音频样本,并且
其中所述主处理器被配置成,在所述高功能模式中,在所述缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分上和在所述第二音频样本上执行语音识别处理。
2.权利要求1所述的系统,还包括一个或多个板载麦克风,每个被配置成接收音频信号,其中所述一个或多个板载麦克风包括所述麦克风和所述一个或多个麦克风。
3.权利要求1所述的系统,其中在所述缓冲器中在所述预定音频模式的所述端点之后存储所述第二音频样本。
4.权利要求1所述的系统,其中所述缓冲器包括用于存储在所述主处理器处于所述低功能模式中时捕获的音频样本的第一缓冲器,并且其中所述系统还包括:
所述主处理器可访问的、用于存储音频样本的第二缓冲器,
其中所述第二音频样本被存储在所述第二缓冲器中,并且
其中所述系统被配置成,在所述低功率音频处理器触发所述主处理器时,将在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到所述第二缓冲器。
5.权利要求2所述的系统,其中所述低功率音频处理器包括:
捕获模块,用于在所述主处理器处于所述低功能模式中时监视由所述板载麦克风接收的所述音频信号并且用于捕获所述音频信号的音频样本;
语言模块,用于识别所捕获的音频样本中的所述预定音频模式;以及
触发模块,用于基于所述预定音频模式而触发所述计算设备的所述主处理器转换到所述高功能模式。
6.权利要求1所述的系统,还包括单通道噪声抑制模块,用于在所述第一音频样本上执行噪声抑制。
7.权利要求1所述的系统,还包括多通道噪声抑制模块,用于在所述第二音频样本上执行噪声抑制。
8.权利要求1所述的系统,其中所述主处理器被配置成,在所述高功能模式中,执行语音识别处理以识别命令。
9.权利要求8所述的系统,其中所述主处理器还被配置成基于识别的命令而执行另外的功能。
10.权利要求8所述的系统,其中所述主处理器还被配置成在确定所述命令之后识别静默时段,并且,在所述静默时段期间,将所述系统从第二音频样本的单通道处理切换到多通道处理。
11.权利要求1所述的系统,还包括多个另外的麦克风,可操作成当所述主处理器处于所述高功能模式中时接收音频信号,
其中所述一个或多个麦克风包括所述多个另外的麦克风,并且
其中从通过所述多个另外的麦克风接收的音频信号捕获所述第二音频样本。
12.一种用于将计算设备从低功能模式转换到高功能模式的方法,包括:
在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本;
在第一缓冲器中存储所述第一音频样本;
由低功率音频处理器识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点;
响应于识别到所述预定音频模式,触发所述计算设备的所述主处理器转换到高功能模式;
从通过一个或多个麦克风接收的音频信号捕获第二音频样本;
存储所述第二音频样本;以及
由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本。
13.权利要求12所述的方法,还包括将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器,
其中存储所述第二音频样本包括在所述第二缓冲器中存储所述第二音频样本。
14.权利要求12所述的方法,还包括在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制。
15.权利要求12所述的方法,还包括基于所述预定音频模式而激活一个或多个麦克风,其中捕获第二音频样本包括从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本。
16.权利要求15所述的方法,还包括在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制。
17.权利要求12所述的方法,其中处理所述第一音频样本的所述至少一部分和所述第二音频样本包括执行语音识别以确定命令。
18.权利要求17所述的方法,还包括由处于所述高功能模式中的所述主处理器执行所述命令。
19.权利要求17所述的方法,还包括:
在确定所述命令之后识别静默时段;
在所述静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理。
20.一种从低功能始终侦听模式转换到较高功能语音识别模式的计算系统,所述系统被配置成执行权利要求12-19中任一项所述的方法。
21.一种低功率始终侦听数字信号处理器,包括:
捕获模块,用于在主处理器处于低功能模式中时监视由麦克风接收的音频信号并且用于捕获所述音频信号的第一音频样本;
语言模块,用于识别所述第一音频样本中的预定音频模式,包括所述预定音频模式的端点;以及
触发模块,用于响应于所述语言模块识别到所述预定音频模式,触发所述主处理器转换到高功能模式并且发起在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分上和在所述触发模块触发所述主处理器之后捕获的第二音频样本上的语音识别处理。
22.权利要求21所述的低功率始终侦听数字信号处理器,还包括第一缓冲器,用于存储所述第一音频样本。
23.权利要求22所述的低功率始终侦听数字信号处理器,其中所述第一缓冲器由所述主处理器可访问。
24.权利要求21所述的低功率始终侦听数字信号处理器,还包括板载麦克风,用于在所述主处理器处于所述低功能模式中时接收所述音频信号。
25.权利要求21所述的低功率始终侦听数字信号处理器,还包括冲刷模块,用于将在所述预定音频模式的所述端点之后捕获的所述第一音频样本的一部分拷贝到第二缓冲器,所述第二缓冲器由所述主处理器可访问。
26.一种机器可读存储介质,其上存储有指令,当由计算设备执行所述指令时,使得所述计算设备执行根据权利要求12-19中任一项所述的方法。
27.一种用于将计算设备从低功能模式转换到高功能模式的装置,包括:
用于在所述计算设备的主处理器处于低功能模式中时从通过麦克风接收的音频信号捕获第一音频样本的部件;
用于在第一缓冲器中存储所述第一音频样本的部件;
用于由低功率音频处理器识别所述第一音频样本中的预定音频模式、包括所述预定音频模式的端点的部件;
用于响应于识别到所述预定音频模式,触发所述计算设备的所述主处理器转换到高功能模式的部件;
用于从通过一个或多个麦克风接收的音频信号捕获第二音频样本的部件;
用于存储所述第二音频样本的部件;以及
用于由处于所述高功能模式中的所述主处理器处理在所述第一缓冲器中存储的在所述预定音频模式的所述端点之后的所述第一音频样本的至少一部分和所述第二音频样本的部件。
28.权利要求27所述的装置,还包括用于将在所述第一缓冲器中的在所述预定音频模式的所述端点之后的所述第一音频样本的所述至少一部分拷贝到第二缓冲器的部件,
其中所述用于存储所述第二音频样本的部件包括用于在所述第二缓冲器中存储所述第二音频样本的部件。
29.权利要求27所述的装置,还包括用于在所述主处理器处于所述低功能模式中时捕获的所述第一音频样本上执行单通道噪声抑制的部件。
30.权利要求27所述的装置,还包括用于基于所述预定音频模式而激活一个或多个麦克风的部件,其中所述用于捕获第二音频样本的部件包括用于从通过所激活的一个或多个麦克风接收的音频信号捕获所述第二音频样本的部件。
31.权利要求30所述的装置,还包括用于在所述主处理器处于所述高功能模式中时捕获的所述第二音频样本上执行多通道噪声抑制的部件。
32.权利要求27所述的装置,其中所述用于处理所述第一音频样本的所述至少一部分和所述第二音频样本的部件包括用于执行语音识别以确定命令的部件。
33.权利要求32所述的装置,还包括用于由处于所述高功能模式中的所述主处理器执行所述命令的部件。
34.权利要求32所述的装置,还包括:
用于在确定所述命令之后识别静默时段的部件;
用于在所述静默时段期间,从另外的音频样本的单麦克风处理切换到多麦克风处理的部件。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2013/077222 WO2015094369A1 (en) | 2013-12-20 | 2013-12-20 | Transition from low power always listening mode to high power speech recognition mode |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105723451A CN105723451A (zh) | 2016-06-29 |
CN105723451B true CN105723451B (zh) | 2020-02-28 |
Family
ID=53403449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380081082.0A Expired - Fee Related CN105723451B (zh) | 2013-12-20 | 2013-12-20 | 从低功率始终侦听模式到高功率语音识别模式的转换 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150221307A1 (zh) |
EP (1) | EP3084760A4 (zh) |
CN (1) | CN105723451B (zh) |
WO (1) | WO2015094369A1 (zh) |
Families Citing this family (208)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9552037B2 (en) * | 2012-04-23 | 2017-01-24 | Google Inc. | Switching a computing device from a low-power state to a high-power state |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR102070196B1 (ko) * | 2012-09-20 | 2020-01-30 | 삼성전자 주식회사 | 사용자 디바이스에서 상황 인식 서비스 제공 방법 및 장치 |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US20150032238A1 (en) * | 2013-07-23 | 2015-01-29 | Motorola Mobility Llc | Method and Device for Audio Input Routing |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10192557B2 (en) * | 2013-08-26 | 2019-01-29 | Samsung Electronics Co., Ltd | Electronic device and method for voice recognition using a plurality of voice recognition engines |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620116B2 (en) * | 2013-12-24 | 2017-04-11 | Intel Corporation | Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions |
US9460735B2 (en) | 2013-12-28 | 2016-10-04 | Intel Corporation | Intelligent ancillary electronic device |
KR102210433B1 (ko) * | 2014-01-21 | 2021-02-01 | 삼성전자주식회사 | 전자 장치 및 이의 음성 인식 방법 |
US9589564B2 (en) * | 2014-02-05 | 2017-03-07 | Google Inc. | Multiple speech locale-specific hotword classifiers for selection of a speech locale |
US10031000B2 (en) * | 2014-05-29 | 2018-07-24 | Apple Inc. | System on a chip with always-on processor |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
KR102208477B1 (ko) * | 2014-06-30 | 2021-01-27 | 삼성전자주식회사 | 마이크 운용 방법 및 이를 지원하는 전자 장치 |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
JP6564058B2 (ja) * | 2015-04-10 | 2019-08-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US9990921B2 (en) * | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US20180144740A1 (en) * | 2016-11-22 | 2018-05-24 | Knowles Electronics, Llc | Methods and systems for locating the end of the keyword in voice sensing |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10726835B2 (en) * | 2016-12-23 | 2020-07-28 | Amazon Technologies, Inc. | Voice activated modular controller |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US20180224923A1 (en) * | 2017-02-08 | 2018-08-09 | Intel Corporation | Low power key phrase detection |
CN108663942B (zh) * | 2017-04-01 | 2021-12-07 | 青岛有屋科技有限公司 | 一种语音识别设备控制方法、语音识别设备和中控服务器 |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN108877788B (zh) * | 2017-05-08 | 2021-06-11 | 瑞昱半导体股份有限公司 | 具有语音唤醒功能的电子装置及其操作方法 |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10311870B2 (en) | 2017-05-10 | 2019-06-04 | Ecobee Inc. | Computerized device with voice command input capability |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10950228B1 (en) * | 2017-06-28 | 2021-03-16 | Amazon Technologies, Inc. | Interactive voice controlled entertainment |
US20190013025A1 (en) * | 2017-07-10 | 2019-01-10 | Google Inc. | Providing an ambient assist mode for computing devices |
CN107360327B (zh) * | 2017-07-19 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10546583B2 (en) * | 2017-08-30 | 2020-01-28 | Amazon Technologies, Inc. | Context-based device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10887125B2 (en) * | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
US11314215B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Apparatus controlling bathroom appliance lighting based on user identity |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10002259B1 (en) * | 2017-11-14 | 2018-06-19 | Xiao Ming Mai | Information security/privacy in an always listening assistant device |
US10867054B2 (en) * | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Information security/privacy via a decoupled security accessory to an always listening assistant device |
US10872607B2 (en) | 2017-11-14 | 2020-12-22 | Thomas STACHURA | Information choice and security via a decoupled router with an always listening assistant device |
US10867623B2 (en) * | 2017-11-14 | 2020-12-15 | Thomas STACHURA | Secure and private processing of gestures via video input |
US10999733B2 (en) | 2017-11-14 | 2021-05-04 | Thomas STACHURA | Information security/privacy via a decoupled security accessory to an always listening device |
US11100913B2 (en) * | 2017-11-14 | 2021-08-24 | Thomas STACHURA | Information security/privacy via a decoupled security cap to an always listening assistant device |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10971173B2 (en) | 2017-12-08 | 2021-04-06 | Google Llc | Signal processing coordination among digital voice assistant computing devices |
EP4191412A1 (en) | 2017-12-08 | 2023-06-07 | Google LLC | Signal processing coordination among digital voice assistant computing devices |
US10672380B2 (en) | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
KR102453656B1 (ko) | 2018-01-25 | 2022-10-12 | 삼성전자주식회사 | 저전력 동작을 위한 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102629385B1 (ko) * | 2018-01-25 | 2024-01-25 | 삼성전자주식회사 | 바지-인 관련 직접 경로를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102530391B1 (ko) | 2018-01-25 | 2023-05-09 | 삼성전자주식회사 | 외부 인터럽트를 지원하는 저전력 보이스 트리거 시스템을 포함하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
KR102459920B1 (ko) * | 2018-01-25 | 2022-10-27 | 삼성전자주식회사 | 저전력 에코 제거를 지원하는 애플리케이션 프로세서, 이를 포함하는 전자 장치 및 그 동작 방법 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10332543B1 (en) | 2018-03-12 | 2019-06-25 | Cypress Semiconductor Corporation | Systems and methods for capturing noise for pattern recognition processing |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10861462B2 (en) * | 2018-03-12 | 2020-12-08 | Cypress Semiconductor Corporation | Dual pipeline architecture for wakeup phrase detection with speech onset detection |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10930278B2 (en) | 2018-04-09 | 2021-02-23 | Google Llc | Trigger sound detection in ambient audio to provide related functionality on a user interface |
CN108538305A (zh) * | 2018-04-20 | 2018-09-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DE102018207280A1 (de) * | 2018-05-09 | 2019-11-14 | Robert Bosch Gmbh | Verfahren und Vorrichtung zur luftschallakustischen Überwachung eines Außen- und/oder eines Innenraums eines Fahrzeugs, Fahrzeug sowie computerlesbares Speichermedium |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
CN109147779A (zh) * | 2018-08-14 | 2019-01-04 | 苏州思必驰信息科技有限公司 | 语音数据处理方法和装置 |
US10892772B2 (en) * | 2018-08-17 | 2021-01-12 | Invensense, Inc. | Low power always-on microphone using power reduction techniques |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
KR20200084730A (ko) * | 2019-01-03 | 2020-07-13 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CA3129378A1 (en) | 2019-02-07 | 2020-08-13 | Thomas Stachura | Privacy device for smart speakers |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US20210373596A1 (en) * | 2019-04-02 | 2021-12-02 | Talkgo, Inc. | Voice-enabled external smart processing system with display |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN112073862B (zh) * | 2019-06-10 | 2023-03-31 | 美商楼氏电子有限公司 | 数字处理器、麦克风组件和对关键字进行检测的方法 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
CN111369999B (zh) * | 2020-03-12 | 2024-05-14 | 北京百度网讯科技有限公司 | 一种信号处理方法、装置以及电子设备 |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
EP4002061A1 (en) * | 2020-11-24 | 2022-05-25 | Inter IKEA Systems B.V. | A control device and a method for determining control data based on audio input data |
TWI790647B (zh) * | 2021-01-13 | 2023-01-21 | 神盾股份有限公司 | 語音助理系統 |
CN113284517B (zh) * | 2021-02-03 | 2022-04-01 | 珠海市杰理科技股份有限公司 | 语音端点检测方法、电路、音频处理芯片和音频设备 |
GB2605121A (en) * | 2021-02-08 | 2022-09-28 | Prevayl Innovations Ltd | An electronics module for a wearable articel, a systemm, and a method of activation of an electronics module for a wearable article |
WO2024053762A1 (ko) * | 2022-09-08 | 2024-03-14 | 엘지전자 주식회사 | 음성 인식 장치 및 그의 동작 방법 |
WO2024125032A1 (zh) * | 2022-12-12 | 2024-06-20 | 海信视像科技股份有限公司 | 一种语音控制方法及终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
CN101483683A (zh) * | 2008-01-08 | 2009-07-15 | 宏达国际电子股份有限公司 | 手持装置及其语音识别方法 |
CN103019373A (zh) * | 2011-11-17 | 2013-04-03 | 微软公司 | 用于设备激活的音频模式匹配 |
CN103327184A (zh) * | 2013-06-17 | 2013-09-25 | 华为终端有限公司 | 一种功能切换方法及用户终端 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2325110B (en) * | 1997-05-06 | 2002-10-16 | Ibm | Voice processing system |
DE69941686D1 (de) * | 1999-01-06 | 2010-01-07 | Koninkl Philips Electronics Nv | Spracheingabegerät mit aufmerksamkeitsspanne |
US6785653B1 (en) * | 2000-05-01 | 2004-08-31 | Nuance Communications | Distributed voice web architecture and associated components and methods |
US20020077830A1 (en) * | 2000-12-19 | 2002-06-20 | Nokia Corporation | Method for activating context sensitive speech recognition in a terminal |
US7219062B2 (en) * | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US8423778B2 (en) * | 2007-11-21 | 2013-04-16 | University Of North Texas | Apparatus and method for transmitting secure and/or copyrighted digital video broadcasting data over internet protocol network |
CN101442675B (zh) * | 2008-12-31 | 2012-01-11 | 中兴通讯股份有限公司 | 一种多媒体播放方法 |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8452597B2 (en) * | 2011-09-30 | 2013-05-28 | Google Inc. | Systems and methods for continual speech recognition and detection in mobile computing devices |
US9838810B2 (en) * | 2012-02-27 | 2017-12-05 | Qualcomm Technologies International, Ltd. | Low power audio detection |
EP2639793B1 (en) * | 2012-03-15 | 2016-04-20 | Samsung Electronics Co., Ltd | Electronic device and method for controlling power using voice recognition |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US9646610B2 (en) * | 2012-10-30 | 2017-05-09 | Motorola Solutions, Inc. | Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition |
US20140122078A1 (en) * | 2012-11-01 | 2014-05-01 | 3iLogic-Designs Private Limited | Low Power Mechanism for Keyword Based Hands-Free Wake Up in Always ON-Domain |
CN103021411A (zh) * | 2012-11-27 | 2013-04-03 | 威盛电子股份有限公司 | 语音控制装置和语音控制方法 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR20150104615A (ko) * | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9842489B2 (en) * | 2013-02-14 | 2017-12-12 | Google Llc | Waking other devices for additional data |
US10395651B2 (en) * | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9349386B2 (en) * | 2013-03-07 | 2016-05-24 | Analog Device Global | System and method for processor wake-up based on sensor data |
EP2801974A3 (en) * | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
US9697831B2 (en) * | 2013-06-26 | 2017-07-04 | Cirrus Logic, Inc. | Speech recognition |
US9633669B2 (en) * | 2013-09-03 | 2017-04-25 | Amazon Technologies, Inc. | Smart circular audio buffer |
US9502028B2 (en) * | 2013-10-18 | 2016-11-22 | Knowles Electronics, Llc | Acoustic activity detection apparatus and method |
US10079019B2 (en) * | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
-
2013
- 2013-12-20 US US14/360,072 patent/US20150221307A1/en not_active Abandoned
- 2013-12-20 EP EP13899422.3A patent/EP3084760A4/en not_active Withdrawn
- 2013-12-20 CN CN201380081082.0A patent/CN105723451B/zh not_active Expired - Fee Related
- 2013-12-20 WO PCT/US2013/077222 patent/WO2015094369A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983186A (en) * | 1995-08-21 | 1999-11-09 | Seiko Epson Corporation | Voice-activated interactive speech recognition device and method |
CN101483683A (zh) * | 2008-01-08 | 2009-07-15 | 宏达国际电子股份有限公司 | 手持装置及其语音识别方法 |
CN103019373A (zh) * | 2011-11-17 | 2013-04-03 | 微软公司 | 用于设备激活的音频模式匹配 |
CN103327184A (zh) * | 2013-06-17 | 2013-09-25 | 华为终端有限公司 | 一种功能切换方法及用户终端 |
Also Published As
Publication number | Publication date |
---|---|
EP3084760A4 (en) | 2017-08-16 |
EP3084760A1 (en) | 2016-10-26 |
US20150221307A1 (en) | 2015-08-06 |
CN105723451A (zh) | 2016-06-29 |
WO2015094369A1 (en) | 2015-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105723451B (zh) | 从低功率始终侦听模式到高功率语音识别模式的转换 | |
AU2019246868B2 (en) | Method and system for voice activation | |
US10403290B2 (en) | System and method for machine-mediated human-human conversation | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
US20210216273A1 (en) | Mechanism for retrieval of previously captured audio | |
US9652017B2 (en) | System and method of analyzing audio data samples associated with speech recognition | |
US9613626B2 (en) | Audio device for recognizing key phrases and method thereof | |
CN107886944B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
US9761116B2 (en) | Low power voice trigger for finding mobile devices | |
CN102591455B (zh) | 语音数据的选择性传输 | |
EP2962403A1 (en) | Voice-controlled communication connections | |
CN113841118B (zh) | 多个语音助理的激活管理 | |
US20170178627A1 (en) | Environmental noise detection for dialog systems | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
US10529331B2 (en) | Suppressing key phrase detection in generated audio using self-trigger detector | |
US9508345B1 (en) | Continuous voice sensing | |
CN111862943A (zh) | 语音识别方法和装置、电子设备和存储介质 | |
KR20120111510A (ko) | 대화형 음성 인식을 통한 로봇 제어 시스템 | |
US20200310523A1 (en) | User Request Detection and Execution | |
CN115171664A (zh) | 语音唤醒方法、装置、智能语音设备、车辆及存储介质 | |
KR20240094013A (ko) | 호출 속성에 기초한 다수의 자동 어시스턴트 사이에서의 선택 | |
JP2023059845A (ja) | 音声起動デバイスにおける強化されたノイズ低減 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200228 Termination date: 20211220 |