CN104620314B - 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 - Google Patents
用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 Download PDFInfo
- Publication number
- CN104620314B CN104620314B CN201380021842.9A CN201380021842A CN104620314B CN 104620314 B CN104620314 B CN 104620314B CN 201380021842 A CN201380021842 A CN 201380021842A CN 104620314 B CN104620314 B CN 104620314B
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- processor
- processing device
- state
- recognition engine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title description 2
- 238000012545 processing Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000009434 installation Methods 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 35
- 230000004913 activation Effects 0.000 claims description 23
- 230000037007 arousal Effects 0.000 claims description 14
- 230000006698 induction Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 14
- 238000003860 storage Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000282693 Cercopithecidae Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Power Sources (AREA)
Abstract
本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发在不需要手动启动声音命令功能的情况下唤醒电子装置或使装置将额外的声音命令激活。另外,这种声音触发是动态可编程或可定制的。讲话者可对作为声音触发的特定短语进行编程或指定。一般来说,本文中的技术运行了一种声控唤醒系统,该系统在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上运行而不是在中央处理单元(CPU)上运行。语音识别管理器在电子装置上运行两个语音识别系统。CPU动态地创建用于DSP的紧凑的语音系统。这种紧凑的系统可在待机模式期间持续运行而不会过快地耗尽电池供电。
Description
技术领域
本公开涉及语音识别(speech recognition),并且更具体地,涉及提供声控(voice-activated)或声音命令(voice command)功能的语音识别。
背景技术
语音识别或自动语音识别涉及识别口语词语(spoken words)的计算机化处理。针对语音识别存在多种用途,包括语音转录、语音翻译、通过声音控制装置和软件应用程序的能力、调用路由系统、互联网的声音搜索等。语音识别系统可以可选地与口语语言理解系统(spoken language understanding system)相配对,以在与系统交互时提取待执行的含义和/或命令。
语音识别系统非常复杂并且通过将话语的声学标记(acoustic signature)与词语的声学标记相匹配来进行操作。这种匹配可以可选地与统计学语言模型相组合。因此,在语音识别处理中使用声学建模和语言建模。声学模型可创建自口语话语(spokenutterances)的录音以及相关联的转录本。然后,声学模型定义了针对相应的词语的单独声音的统计学表示。语音识别系统使用声学模型以识别声音的序列,同时使用统计学语言模型以从识别出的声音识别可能的词语序列(word sequence)。
提供声控或声音命令功能的语音识别能使讲话者通过说出各种指令来控制装置和系统。例如,讲话者可说出命令以执行特定任务或说出查询以检索特定结果。口语输入(spoken input)可遵循执行特定任务的一组严格的短语,或者口语输入可以是自然语言,该自然语言由语音识别系统的自然语言单元来解释。声音命令功能在便携装置上变得越来越流行,尤其是电池供电的便携装置,例如,手机、膝上型电脑和平板电脑。
发明内容
给定装置的声音命令模式可主动收听口语命令,或在用户手动激活声音命令模式之前关闭。例如,一些移动电话包括响应于说出的用户输入,诸如呼叫特定个人、检索电子邮件消息、播放特定歌曲等以执行任务的功能。通常,用户将按下电话上的按钮(或选择图标)以激活声音命令模式,然后说出命令,例如:“呼叫约翰斯密斯”作为响应,电话或装置将开始呼叫相应的电话号码,例如,从联系人列表或其它目录检索电话号码。
尽管这种声音命令功能比较方便,然而访问这种功能需要用户按下按钮或以其它方式导航到供选择的菜单。因此,启动声音命令模式或特征并不是一个免手动过程。此外,不应将声音命令语音识别引擎作为免手动备选方案持续运行,因为常规语音识别引擎的功率需求很大。例如,连续运行作为声音命令模式的一部分的常规语音识别程序的普通手机会在大约几个小时之内(取决于电池容量的不同)耗尽电池电源的供应。功率消耗也是有线装置或电器存在的一个问题,因为使用常规语音识别系统会对装置的效率评估产生不利影响。由此,需要一种声控“唤醒”功能,其启动移动电话或其它装置的语音识别程序,又能消耗较少的电力,从而提供有效的免手动操作功能。
因此,本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发以与手动启动声音命令功能(按下按钮)相似的方式唤醒装置或更确切地使装置激活所有/或剩余的声音命令。另外,这种声音触发是动态可编程或可定制的。例如,讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定,并可根据需要更改该声音触发短语。一般来说,本文中的技术运行声控唤醒系统,其在数字信号处理器(DSP)或电子装置的其它低功率的、辅助处理单元上操作。在DSP上运行语音识别程序会出现问题,因为常规语音识别系统相对较大。在DSP上运行唤醒特征的另一个问题是,需要提供动态可编程的唤醒特征。诸如在移动电话组装期间,在唤醒短语是可编程的同时促进了在DSP上运行唤醒系统,允许用户指定命令词语是困难的问题。
本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统,其相对大,在装置的中央处理单元(CPU)上运行;第二语音系统,其相对较小,在DSP上运行。给定的便携电子装置的CPU通常能在电子装置处于激活状态的同时进行大多数的处理。DSP通常运行在相对较低的功率上并且通常用于待机处理。例如,当电子装置被实例化为移动电话时,DSP通常负责在电话处于待机模式(CPU处于非激活状态)时收听呼入的电话呼叫。第一语音识别系统提取定制的触发短语,并且将语音模型和代码转换为相对较小的系统。该第二语音系统随后被转移至DSP,使得DSP可在CPU处于非激活状态的同时,例如当电子装置处于待机模式时运行第二语音系统。DSP使用该第二语音系统收听定制的触发短语。检测到说出的自定义触发短语时,DSP指示电子装置返回至激活状态,或其中CPU会对后续声音命令做出响应的状态。通过在DSP上运行较小的第二语音系统,电子装置可提供消耗相对较少电力的免手动声音触发唤醒特征。
一个实施例包括语音识别管理器,该语音识别管理器在电子装置上运行用于管理语音识别的语音识别处理或系统。语音识别管理器由电子装置的声控唤醒功能(即,用于配置唤醒功能的界面)接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入。该电子装置还具有除了第一处理器之外的第二处理器。语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络。语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器,例如,从CPU转移到DSP。语音识别管理器然后利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。运行该第二语音识别引擎可包括在第一语音识别引擎或第一处理器处于非激活状态的同时持续分析口语话语。响应于识别包括触发短语的特定口语话语,DSP或语音识别管理器向第一处理器发送信号,以使第一语音识别引擎返回至激活状态,从而启动控制电子装置的声音命令模式。
本文中的又一其它实施例包括用于执行上文总结的并且在下文详细公开的步骤和操作的软件程序。一个这样的实施例包括具有计算机存储介质(例如,非易失性、有形计算机可读介质;位于不同位置或相同位置的存储介质;计算机存储媒体或介质等)的计算机程序产品,计算机存储介质包括编码在其中的计算机程序逻辑,计算机程序逻辑在具有处理器和相对应存储器的计算机化装置中执行时,对处理器进行编程,以执行(或使处理器进行)本文中所公开的操作。这种布置通常被提供为软件、固件、微代码、代码数据(例如,数据结构)等的形式提供,布置或编码在计算机可读存储介质上,例如,光学介质(例如,CD-ROM)、软盘、硬盘、一个或多个ROM或RAM或PROM芯片、专用集成电路(ASIC)、场可编程门阵列(FPGA)等。软件或固件或其它这种配置可被安装至计算机化装置上,使计算机化装置实施本文中所阐述的技术。
由此,本公开的一个特定实施例涉及计算机程序产品,该计算机程序产品包括具有存储于其上的指令的一个或多个非易失性计算机存储介质,用于支持例如下列操作:由电子装置的声控唤醒功能接收配置输入,该配置输入包括触发短语,在电子装置的第一处理器上接收配置输入,电子装置具有除了第一处理器之外的第二处理器;创建与触发短语向对应的语音识别状态的网络,利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络;将该语音识别状态的网络从第一处理器转移至第二处理器;并且利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎,在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。当通过相应的计算机装置的处理器执行该指令和本文中所述的方法时,使处理器执行本文中所公开的方法。
本公开的其它实施例包括软件程序以执行上文总结并且下面详细公开的方法实施例步骤和操作中的任一个。
毫无疑问,为了明确起见,已指明了本文所述的不同步骤的讨论顺序。一般来说,这些步骤可以任何适当顺序进行。
另外,应理解的是,本文的每个系统、方法、装置等可严格实施为软件程序、软件和硬件的组合,或单独的硬件,例如,处理器内的硬件或在操作系统或软件应用内实施或通过非软件应用,例如由人进行所有或一部分操作来实施。
如上所述,本文中的技术适用于支持声音命令语音识别的软件应用程序。但是,应注意的是,本文中的实施例并不限于用于这些应用程序,本文中讨论的技术也适用于其它应用。
另外,本文中的不同特征、技术、配置等可在本发明的不同地方进行讨论,但每个概念都可互相独立执行或互相组合执行。由此,本发明可以多种不同的方式实施和查看。
应注意的是,本文中的该发明内容部分并没有指出每一个实施例和/或本公开或本发明要求的增加的新颖性方面。相反,这个发明内容仅提供了不同实施例的初步讨论和与常规技术相比的相对应的创新点。对于本发明和实施例的额外细节和/或可能视角,读者应参见下文进一步讨论的本公开的具体实施方式部分和相对应的附图。
附图说明
从下面根据在附图中示出的本文中的优选实施例的更具体的描述,上述及其它目的、特点和优点将是显而易见的,在附图中,贯穿不同的视图的相似的参考符号指代相同的部分。示图并不一定按比例绘制,而是将重点放在对实施例、原理和概念进行图解说明。
图1为用于根据本文中的实施例的支持声音触发唤醒功能的装置的系统的框图。
图2为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。
图3至图4为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。
图5为在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器的示例框图。
具体实施方式
本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发以与声音命令功能的手动启动(按下按钮)相似的方式来唤醒装置或引起装置使所有/或剩余的声音命令激活。另外,这种声音触发可动态地进行编程或可定制。例如,讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定,并可根据用户需要修改或改变这个声音触发短语。一般来说,本文中的技术运行了一种声控唤醒系统,其运行在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上而不是在中央处理单元(CPU)上运行。
尽管本文中公开的技术可以使用两个处理器的许多不同的电子装置来体现,但为了便于描述实施例,这个公开将主要参照移动电话,例如,电池供电的手机。在常规的移动电话中,通常存在两个处理器。存在主要或主CPU,其是相对强有力的。当手机被激活使用时,这个CPU操纵大多数处理,例如,电话呼叫、实用应用程序、电子邮件、游戏等。移动电话通常还包括辅助处理器,其是数字信号处理器(DSP)。DSP可以以非常低的功率起作用。DSP还可以(相对其本身)以较高功率模式运行。对于运行时间非常长的移动电话功能,这些功能通常运行在DSP上。例如,DSP是激活的移动电话的部件并且在电话处于待机模式或未被使用激活时收听呼入的电话呼叫。
本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统,其相对大,在装置的中央处理单元(CPU)上运行;以及第二语音系统,其相对较小,在DSP上运行。CPU语音系统可包括用于特定移动应用的一整套语音识别模型,例如,用于识别命令以访问联系人、电子邮件、歌曲,执行任务以及运行应用程序。这个一整套模型能够使用户能够选择针对用作语音唤醒触发的定制短语或词语。
第一/主系统接收定制的触发短语,然后使用这个触发短语以将语音模型和代码转换为相对小的系统。因此,CPU预计算了该较小的语音系统。该系统可具有两部分:(1)识别状态的网络;以及(2)声学模型信息。该识别状态的网络可由解码器使用,其搜索通过状态的序列的最佳路径。声学模型信息可包括来自语音的录音的测量。实施例可利用用于DSP唤醒特征的非常小的声学模型信息子集而良好地运行。这两部分共同组合成小系统,即,与CPU声音识别系统相比小的系统。通过非限制性示例,与主系统中可约为300千字节至2兆字节的网络相比,识别状态(由CPU编译的数据)的网络可具有近似为5千字节或10千字节的规模。因此,本技术提供了显著减小的规模。
定制的输入(定制的触发短语)可被指定为文本输入。在可替换的实施例中,该输入可以是讲话和/或作为文本的录入。音频输入可通过检验文本输入来帮助提高识别准确性。然而,应注意,针对触发短语的音频输入是不需要的。系统可基于最初仅作为文本录入的触发短语来执行唤醒功能。预计算系统然后可被转移至DSP。技术可包括在DSP上运行相对小的语音解码器。这个DSP解码器例如可具有约30千字节的代码规模(code size)。与此相反,在CPU上运行的语音解码器可具有约1-2兆字节的代码规模。例如,DSP识别器代码可仅具有在DSP上运行的几百行代码。在常规的识别器中,通常存在均相对较大的十二个模块。所有这些大的模块都可由在DSP上运行的单个模块代替。这个单个的模块可小于任何其它模块。换句话说,可创建完全专用的识别引擎来用于在DSP上使用,而不是运行普通的识别引擎。
然后,位于DSP上的识别器起到唤醒触发的作用。例如,识别器本质上确定是否说出了触发短语。如果DSP没有从接收的口语话语识别出唤醒短语,那么什么也不会发生。如果DSP识别器确定已说出了唤醒短语,那么CPU识别器变为激活的并且可开始或继续对说出的命令或查询做出响应。
存在可利用说出的短语或词语唤醒的一些装置,但这些触发词语是固定的。即,给定的触发命令被固定在电子装置中并且无法更改。这个固定的触发词语通常是在制造过程中设定的。换句话说,对于装置的使用寿命,触发词语是永久的。相反,本文中所公开的技术提供了可完全地定制或专用于用户的可配置/可更改的触发词语。本文中提供的这种定制不要求在线下载额外的代码或将装置返厂以重新配置触发命令。
在实施例中,训练模式或定制界面并不要求口语话语,而可利用文本输入以创建用于在DSP上运行的唤醒系统。尽管一些实施例还可接收用于确认文本输入的声音输入,但并不要求如此。仅从文本输入创建唤醒系统是有用的,因为预定义的声学模型可减小为基本上较小的模型,但具有与给定的触发词语类似的识别性能/准确性。因此,在一些实施例中,可从预先存在的与讲话者无关的声学模型提取被发送至DSP系统的声学模型数据。
一个特征在于,DSP声学模型不需要被适配于特定用户的声音。相反,系统可从较大模型选择针对特定触发短语所需的状态。对于给定的触发短语,存在相应数量的所需的状态ID。通过非限制性示例,如果给定的触发短语需要状态ID 2、7、48、138、455、……等,那么语音识别管理器或唤醒管理器然后将抽取这些状态ID,并对它们重新编号而被用于在较小模型中使用。这导致更小并且更加有效的模型。因此,给定词语的序列,主系统将这词语的序列转换成音素的序列和其它的常规语音表示。对于给定的短语,仅存在需要保持的少量模型状态。因此,大多数模型数据不需要被用于特定唤醒触发词语/短语。这还意味着用于语音识别的大多数代码不需要被用在诸如DSP的辅助处理单元上运行的较小的系统中。
现在参照图1,用户105正在操作电子装置137。电子装置137包括声音命令功能,该声音命令功能包括可定制的唤醒特征。用户105可以以文本的方式输入特定的触发短语。例如,用户105可键入任何短语,例如,“天才按钮”、“激活约翰的电话”、“扣押(sequester)”、“紫猴子洗碗工”等。应注意的是,如本文中所使用的术语“短语”或“触发短语”可指一个词语或多个词语。在用户105录入触发短语(用于初始设定)之后,中央处理单元110创建为了由数字信号处理器120使用的语音识别系统或状态。CPU 110可在生成用于唤醒功能的数据的同时访问声学模型112和语音识别状态114。CPU 110除了生成语音识别状态114之外还可从声学模型112(独立于讲话者的声学模型)提取或收集声学模型数据以被用作声学模型122。DSP 120然后可接收这个数据并将它存储为动态语音识别状态125。在语音识别期间,DSP 120然后可访问语音识别状态125和声学模型122。在已创建初始或新的触发短语以及附属数据之后,DSP 120然后可执行监控语音以识别是否说出了触发词语的识别程序。该唤醒功能可以在CPU 110待机时的非激活的,或至少在CPU 110上运行的声音命令功能是非激活时运行。CPU 110可保持为非激活的直至检测到触发短语。在DSP 120检测到那个触发短语被说出之后,该DSP向CPU 120发信号以返回至激活状态或可运行语音引擎以及响应于语音输入来执行任务的状态。给定的触发词语和对应的数据网络保持在DSP上直至用户期望创建新的触发短语。一旦接收到新的触发短语,系统可重复创建用于DSP 120的网络状态的过程。
现在更具体地说,当在CPU 110上接收到新的触发短语时,这个字符串可转换为音素的序列。这个序列可以已经存在或可能需要创建。对于每个音素,管理器识别相邻音素(位于每一侧的一个音素)以创建三音素(tri-phone)。然后将每个三音素转换为状态的序列。每个三音素具有用于声学状态的序列的模型。一般来说,给定的三音素模型具有两个或多个状态:开始和结束,或开始、中间和结束。结果是一组声学模型状态,其是哪些针对计分而在声学模型中查找到的。因此,将三音素映射为声学模型或声学模型状态,从而创建序列。
通过语音识别引擎对口语话语进行计分通常是一个相对的计分过程。语音识别管理器可使用识别语法。这个识别语法可对触发短语进行评价,以及对经过了一组诱发词语或短语的其它路径进行评价,使得语音识别管理器不过于频繁地进行识别(错误识别)。识别语法包括经过所有诱发词语和声学模型状态的路径。利用这个配置,管理器不需要剩余的声学模型或任何词汇模型。这个识别语法部分被编译成由DSP使用的相对紧凑的数据。
语音识别状态可被模型化为概率分布,高斯序列。当检测到口语话语时,将口语话语转换成帧,将其与概率分布相比较以得到分数。可选择诱发词语作为一组随机词语,其可与触发短语相似或完全不同。语音模型然后对口语话语以及一个或多个诱发进行评估以建立参考比较分数。如果口语话语的分数高于随机/诱发词语的分数(高出一预定量),那么管理器确定识别到了口语话语。使用寻找绝对分数的模型可以可选择地被使用,但这个技术的准确性通常较低。使用相对分数能准确识别到口语词语,同时解决了背景噪声和语音的问题。
本文中的DSP识别引擎的优点在于DSP识别引擎(在触发短语识别期间)不需要假设,将词语转换成音素的序列,将词语转换成三音素,并且将三音素转换成状态的序列。这些过程步骤是不需要的,因为DSP识别器可作用在由CPU创建的状态的序列上。这种解码器可被称为有限状态转换机(FST)。因此,FST网络是在主CPU上编译的,并且然后向下延伸以使FST解码器在DSP上运行,响应于可定制的触发短语输入动态运行的网络,从而提供定制特定短语的系统,其系统比运行于CPU上的初始系统小得多。对于DSP解码器,在一些实施例中,尽管CPU编译的网络不同时,代码可以相同。数据最初可被收集用于构建声学模型122,但在构建单个声学模型之后,语音识别管理器可根据需要建立多个不同的小的模型(网络状态125)。
在语音分析期间,DSP接收口语话语,其通过网络对其进行处理以获得分数。DSP解码器还对随机/诱发词语,例如,“狗”或“弹射器”等进行处理。如果DSP解码器无法识别用于通过网络的口语话语的路径,那么放弃该假设。如果口语话语和诱发词语使其通过网络,那么口语话语(作为触发词语)的分数应比诱发词语高得多,其分数差可指示系统已说出了触发词语,并使CPU被唤醒或再次变为激活状态。任何时间说出任何词语时,可运行诱发词语。在该唤醒模式下,DSP可对收听到的所有词语进行分析。诱发词语数量较少帮助处理运行的更快,例如,约100个诱发词语。可替换地,可将诱发短语丢弃,代替使用普通的语音模型,其在检测触发词语的准确性上属于中等。移除短语可减少存储器开销,但也会降低准确性。应注意的是,对DSP(或辅助处理单元)编程可取决于给定的电子装置的专用硬件和配置情况。例如,在移动电话中运行的语音识别管理器可具有不同于在平板电脑、台式计算机、遥控器、电器、汽车灯内操作的实施例的配置。
图5示出了在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器140的示例框图。在流程图的描述之后将对图5的计算机系统硬件情况进行更加详细的描述说明。
现在将通过图2至图4的流程图和示意图对与语音识别管理器140相关联的功能进行讨论。为了便于下文讨论,语音识别管理器140或其它适当的实体执行流程图中的步骤。
现在将对实施例进行更具体的描述。图2为示出了本文中公开的实施例的流程图。在步骤210中,语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。换句话说,用户访问唤醒定制菜单以设定特定短语(词语或一组词语),并且键入该短语,或以其它方式选择定制短语。配置输入在电子装置的第一处理器上接收(配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
在步骤220中,语音识别管理器创建与触发短语相对应的语音识别状态的网络,即,基于触发短语。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
在步骤230中,语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器,即,将语音识别状态的网络转移至在第二处理器上的或可访问第二处理器的存储器。
在步骤240中,语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。应注意的是,第一处理器或CPU可处于激活状态,但第一语音识别引擎相比而言处于非激活状态,或不对声音命令任务做出响应。因此,无论电子装置处于待机模式还是正在被使用(例如,阅读内容,查看信息等)激活,电子装置的声音命令模式都不会主动收听待运行的任务。在其它实施例中,CPU不需要完全是非激活的,而相对于诸如由与电子装置交互的用户使用激活时的功耗,可在减小的功率模式下运行。
图3至图4为示出了在本文中所公开的语音识别管理器140的附加和/或可替换的实施例和可选的功能的流程图。在步骤210中,语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入(该配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
在步骤212中,语音识别管理器经由电子装置的用户界面接收作为文本输入的触发短语。例如,用户键入希望将电子装置唤醒的短语。
在步骤213中,语音识别管理器接收确认文本输入的口语话语。在文本输入充足时,语音识别管理器还可处理文本输入的口语话语以确保准确地识别。
在步骤215中,第一处理器为中央处理单元,第二处理器为数字信号处理器。在步骤216中,当第一处理器处于激活状态时,与第一处理器相比,第二处理器使用较少的功率。通过在较低功率的处理器上运行唤醒特征,电子装置可收听触发词语,而没有过快地使电池耗尽。在步骤217中,第一处理器和第二处理器共同位于移动电话内。
在步骤220中,语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
在步骤230中,语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器。在步骤232中,语音识别管理器将语音识别状态转移至数字信号处理器。
在步骤240中,语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。第二处理器运行第二语音识别引擎,同时在第一处理器的第一语音识别引擎处于非激活状态。
在步骤242中,在第一语音识别引擎处于非激活状态时,第二语音识别引擎利用第二处理器持续分析口语话语。在识别出包括触发短语的特定口语话语之后,语音识别管理器向第一处理器发送信号以将第一语音识别引擎返回至激活状态。
在步骤243中,第一处理器对后续声音命令做出响应。
在步骤246中,第一处理器处于非激活声音命令模式中,并且在响应于识别出包括触发短语的特定口语话语之后,使电子装置从非激活声音命令模式切换至激活声音命令模式。
在步骤248中,在电子装置处于待机模式时,第二处理器运行提供声控唤醒功能的第二语音识别引擎。
在其它实施例中,可在远程服务器上创建而不是在电子装置中创建新的状态序列和较小的声学模型。在这种实施例中,电子装置可将新的触发短语传输至服务器或云。新的触发短语可经由电子装置而被录入作为文本输入。远程服务器然后创建与触发短语相对应的语音识别状态的网络,并且然后将创建的状态序列和声学模型传输至电子装置,其然后可由辅助处理器或DSP使用。
继续参照图6,以下讨论提供了指示如何执行如上所述的与语音识别管理器140相关联的功能的基本实施例。然而,应注意的是,用于执行语音识别管理器140的实际配置可随着各个应用的不同而不同。例如,计算机系统149可包括执行如本文中所描述的处理的一个或多个计算机。
在不同的实施例中,计算机系统149可以是任何类型的装置,包括但不限于手机、个人计算机系统、台式计算机、膝上型电脑、笔记本电脑或上网本、主计算机系统、手持式计算机、工作站、网络计算机、路由器、网络交换机、桥、应用服务器、存储装置、消耗电子装置,例如照相机、摄像机、机顶盒、移动装置、电子游戏机、手持式电子游戏机,或者总体来说任何类型的计算或电子装置。
示出的计算机系统149被连接至用于为用户136显示图形用户界面133的显示监视器130以利用输入装置135进行操作。贮藏库138可选地被用于存储处理之前和之后的数据文件和内容。输入装置135可包括一个或多个装置,例如,键盘、电脑鼠标、麦克风等。
如图所示,本示例的计算机系统149包括耦接存储系统141、处理器142、I/O接口144和通信接口145的互连线路143。
I/O接口144为外围装置提供了连接,例如,包括电脑鼠标、键盘、移动光标的选择工具、显示屏等的输入装置135。
根据本文中的实施例,通信接口145使计算机系统149的语音识别管理器140通过网络进行通信,并且如果需要,检索创建视图、处理内容、与用户通信等所需的任何数据。
如图所示,存储器系统141被编码具有支持上文所述和下文进一步讨论的功能的语音识别管理器140-1。根据本文中描述的不同的实施例,语音识别管理器140-1(和/或如本文中所述的其它资源)可被体现为软件代码,例如,支持处理功能的数据和/或逻辑指令。
在一个实施例的操作期间,处理器142通过利用互连线路143访问存储系统141以启动、运行、执行、解释或以其它方式执行语音识别管理器140-1的逻辑指令。语音识别管理器140-1的运行生成语音识别管理器处理140-2中的处理功能。换句话说,语音识别管理器处理140-2代表在计算机系统149中的处理器142之内或之上执行的语音识别管理器140的一个或多个部分。
应注意的是,除了执行如本文中讨论的方法操作的语音识别管理器处理140-2之外,本文中的其它实施例包括语音识别管理器140-1本身(即,未运行的或未执行的逻辑指令和/或数据)。语音识别管理器140-1可被存储在非易失性有形计算机可读存储介质中,包括诸如软盘、硬盘、光学介质等的计算机可读存储介质。根据其它实施例,语音识别管理器140-1还可被存储在存储式系统中,例如,固件、只读存储器(ROM)中,或者,如在这个示例中,存储为存储器系统141内的可执行代码。
除了这些实施例之外,还应注意的是,本文中的其它实施例包括在处理器142中的语音识别管理器140-1的运行,如语音识别管理器处理140-2。因此,本领域的技术人员应理解的是,计算机系统149可包括其它过程和/或软件和硬件组件,例如,控制硬件资源或多个处理器的分配和使用的操作系统。
本领域的技术人员还应理解的是,在达到本发明的相同目标的情况下,还可对上文所述的技术的操作进行各种变化。这些变化应涵盖在本发明的范围之内。因此,上文对本发明的实施例的说明并不是限制性的。相反,对于本发明的实施例的任何限制均呈现于权利要求中。
Claims (20)
1.一种用于管理语音识别的计算机实施方法,所述计算机实施方法包括:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,在所述电子装置的第一处理器上接收所述配置输入,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,利用所述第一处理器运行的第一语音识别引擎在所述第一处理器创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
将所述语音识别状态的网络从所述第一处理器转移至所述第二处理器;以及
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
2.根据权利要求1所述的计算机实施方法,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
3.根据权利要求2所述的计算机实施方法,其中,所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
4.根据权利要求1所述的计算机实施方法,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
5.根据权利要求1所述的计算机实施方法,其中,在所述电子装置处于待机模式的同时,所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。
6.根据权利要求1所述的计算机实施方法,其中,将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。
7.根据权利要求1所述的计算机实施方法,其中,接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。
8.根据权利要求7所述的计算机实施方法,其中,接收所述配置输入包括接收确认所述文本输入的口语话语。
9.根据权利要求1所述的计算机实施方法,其中,当所述第一处理器处于激活状态时,所述第二处理器与所述第一处理器相比使用较少的电力。
10.一种用于管理语音识别的系统,所述系统包括:
第一处理器;
第二处理器;以及
耦接至所述处理器的存储器,所述存储器存储指令,当通过所述处理器运行所述指令时使所述系统执行以下的操作:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,在所述电子装置的第一处理器上接收所述配置输入,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,利用所述第一处理器运行的第一语音识别引擎在所述第一处理器创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
将所述语音识别状态的网络从所述第一处理器转移至所述第二处理器;以及
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
11.根据权利要求10所述的系统,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
12.根据权利要求11所述的系统,其中,使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
13.根据权利要求10所述的系统,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
14.根据权利要求10所述的系统,其中,在所述电子装置处于待机模式的同时,所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。
15.根据权利要求10所述的系统,其中,将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。
16.根据权利要求10所述的系统,其中,接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。
17.一种用于管理语音识别的计算机实施方法,所述计算机实施方法包括:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,所述电子装置具有运行第一语音识别引擎的第一处理器,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
将所述配置输入传输至远程服务器计算机;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,在所述远程服务器计算机上创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
在所述电子装置上接收与所述触发短语相对应的所述语音识别状态的网络;
将所述语音识别状态的网络转移至所述第二处理器;并且
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
18.根据权利要求17所述的计算机实施方法,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
19.根据权利要求18所述的计算机实施方法,其中,使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
20.根据权利要求17所述的计算机实施方法,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/456,959 | 2012-04-26 | ||
US13/456,959 US9117449B2 (en) | 2012-04-26 | 2012-04-26 | Embedded system for construction of small footprint speech recognition with user-definable constraints |
PCT/US2013/037679 WO2013163113A1 (en) | 2012-04-26 | 2013-04-23 | Embedded system for construction of small footprint speech recognition with user-definable constraints |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104620314A CN104620314A (zh) | 2015-05-13 |
CN104620314B true CN104620314B (zh) | 2017-05-10 |
Family
ID=49478071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380021842.9A Active CN104620314B (zh) | 2012-04-26 | 2013-04-23 | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9117449B2 (zh) |
EP (1) | EP2842125B1 (zh) |
JP (1) | JP6285914B2 (zh) |
KR (1) | KR20150022786A (zh) |
CN (1) | CN104620314B (zh) |
AU (1) | AU2013252518B2 (zh) |
IN (1) | IN2014DN09942A (zh) |
WO (1) | WO2013163113A1 (zh) |
Families Citing this family (345)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
EP2639793B1 (en) * | 2012-03-15 | 2016-04-20 | Samsung Electronics Co., Ltd | Electronic device and method for controlling power using voice recognition |
CA2869530A1 (en) * | 2012-04-27 | 2013-10-31 | Aravind GANAPATHIRAJU | Negative example (anti-word) based performance improvement for speech recognition |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20130133629A (ko) * | 2012-05-29 | 2013-12-09 | 삼성전자주식회사 | 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US20140006825A1 (en) * | 2012-06-30 | 2014-01-02 | David Shenhav | Systems and methods to wake up a device from a power conservation state |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
KR101892233B1 (ko) * | 2012-08-03 | 2018-08-27 | 삼성전자주식회사 | 휴대용 단말기에서 상황인식을 이용한 알람 서비스 방법 및 장치 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US9251787B1 (en) * | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
US10304465B2 (en) * | 2012-10-30 | 2019-05-28 | Google Technology Holdings LLC | Voice control user interface for low power mode |
US9584642B2 (en) | 2013-03-12 | 2017-02-28 | Google Technology Holdings LLC | Apparatus with adaptive acoustic echo control for speakerphone mode |
US10381002B2 (en) * | 2012-10-30 | 2019-08-13 | Google Technology Holdings LLC | Voice control user interface during low-power mode |
US10373615B2 (en) * | 2012-10-30 | 2019-08-06 | Google Technology Holdings LLC | Voice control user interface during low power mode |
US8947220B2 (en) * | 2012-10-31 | 2015-02-03 | GM Global Technology Operations LLC | Speech recognition functionality in a vehicle through an extrinsic device |
US9275637B1 (en) * | 2012-11-06 | 2016-03-01 | Amazon Technologies, Inc. | Wake word evaluation |
US8972243B1 (en) * | 2012-11-20 | 2015-03-03 | Amazon Technologies, Inc. | Parse information encoding in a finite state transducer |
CN103021411A (zh) * | 2012-11-27 | 2013-04-03 | 威盛电子股份有限公司 | 语音控制装置和语音控制方法 |
US9704486B2 (en) * | 2012-12-11 | 2017-07-11 | Amazon Technologies, Inc. | Speech recognition power management |
KR101732137B1 (ko) * | 2013-01-07 | 2017-05-02 | 삼성전자주식회사 | 원격 제어 장치 및 전력 제어 방법 |
KR102112742B1 (ko) * | 2013-01-22 | 2020-05-19 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
DE102013001219B4 (de) * | 2013-01-25 | 2019-08-29 | Inodyn Newmedia Gmbh | Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10395651B2 (en) * | 2013-02-28 | 2019-08-27 | Sony Corporation | Device and method for activating with voice input |
US9361885B2 (en) | 2013-03-12 | 2016-06-07 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US11393461B2 (en) | 2013-03-12 | 2022-07-19 | Cerence Operating Company | Methods and apparatus for detecting a voice command |
US9112984B2 (en) * | 2013-03-12 | 2015-08-18 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) * | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9390716B2 (en) * | 2013-04-19 | 2016-07-12 | Panasonic Intellectual Property Corporation Of America | Control method for household electrical appliance, household electrical appliance control system, and gateway |
EP2801974A3 (en) * | 2013-05-09 | 2015-02-18 | DSP Group Ltd. | Low power activation of a voice activated device |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
US20140358535A1 (en) * | 2013-05-28 | 2014-12-04 | Samsung Electronics Co., Ltd. | Method of executing voice recognition of electronic device and electronic device using the same |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
GB2515527B (en) * | 2013-06-26 | 2016-08-31 | Cirrus Logic Int Semiconductor Ltd | Speech Recognition |
GB2553040B (en) * | 2013-07-10 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Sensor input recognition |
GB2526980B (en) * | 2013-07-10 | 2017-04-12 | Cirrus Logic Int Semiconductor Ltd | Sensor input recognition |
KR102060661B1 (ko) * | 2013-07-19 | 2020-02-11 | 삼성전자주식회사 | 통신 방법 및 이를 위한 디바이스 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
US10192557B2 (en) * | 2013-08-26 | 2019-01-29 | Samsung Electronics Co., Ltd | Electronic device and method for voice recognition using a plurality of voice recognition engines |
US10079019B2 (en) | 2013-11-12 | 2018-09-18 | Apple Inc. | Always-on audio control for mobile device |
US9373321B2 (en) * | 2013-12-02 | 2016-06-21 | Cypress Semiconductor Corporation | Generation of wake-up words |
US8768712B1 (en) * | 2013-12-04 | 2014-07-01 | Google Inc. | Initiating actions based on partial hotwords |
US20180040319A1 (en) * | 2013-12-04 | 2018-02-08 | LifeAssist Technologies Inc | Method for Implementing A Voice Controlled Notification System |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
GB2524222B (en) * | 2013-12-18 | 2018-07-18 | Cirrus Logic Int Semiconductor Ltd | Activating speech processing |
GB2523984B (en) * | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
WO2015100430A1 (en) | 2013-12-24 | 2015-07-02 | Digimarc Corporation | Methods and system for cue detection from audio input, low-power data processing and related arrangements |
US9953632B2 (en) | 2014-04-17 | 2018-04-24 | Qualcomm Incorporated | Keyword model generation for detecting user-defined keyword |
US9633547B2 (en) | 2014-05-20 | 2017-04-25 | Ooma, Inc. | Security monitoring and control |
US10553098B2 (en) | 2014-05-20 | 2020-02-04 | Ooma, Inc. | Appliance device integration with alarm systems |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
US10402453B2 (en) * | 2014-06-27 | 2019-09-03 | Nuance Communications, Inc. | Utilizing large-scale knowledge graphs to support inference at scale and explanation generation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11330100B2 (en) * | 2014-07-09 | 2022-05-10 | Ooma, Inc. | Server based intelligent personal assistant services |
US20160012827A1 (en) * | 2014-07-10 | 2016-01-14 | Cambridge Silicon Radio Limited | Smart speakerphone |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
US20160055847A1 (en) * | 2014-08-19 | 2016-02-25 | Nuance Communications, Inc. | System and method for speech validation |
US9549273B2 (en) * | 2014-08-28 | 2017-01-17 | Qualcomm Incorporated | Selective enabling of a component by a microphone circuit |
US9335966B2 (en) | 2014-09-11 | 2016-05-10 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9354687B2 (en) | 2014-09-11 | 2016-05-31 | Nuance Communications, Inc. | Methods and apparatus for unsupervised wakeup with time-correlated acoustic events |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9318107B1 (en) | 2014-10-09 | 2016-04-19 | Google Inc. | Hotword detection on multiple devices |
US9653079B2 (en) | 2015-02-12 | 2017-05-16 | Apple Inc. | Clock switching in always-on component |
KR102346302B1 (ko) * | 2015-02-16 | 2022-01-03 | 삼성전자 주식회사 | 전자 장치 및 음성 인식 기능 운용 방법 |
GB2535766B (en) | 2015-02-27 | 2019-06-12 | Imagination Tech Ltd | Low power detection of an activation phrase |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
EP3067884B1 (en) | 2015-03-13 | 2019-05-08 | Samsung Electronics Co., Ltd. | Speech recognition system and speech recognition method thereof |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
JP6564058B2 (ja) * | 2015-04-10 | 2019-08-21 | 華為技術有限公司Huawei Technologies Co.,Ltd. | 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末 |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10009286B2 (en) | 2015-05-08 | 2018-06-26 | Ooma, Inc. | Communications hub |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9448993B1 (en) | 2015-09-07 | 2016-09-20 | Voicebox Technologies Corporation | System and method of recording utterances using unmanaged crowds for natural language processing |
WO2017044415A1 (en) * | 2015-09-07 | 2017-03-16 | Voicebox Technologies Corporation | System and method for eliciting open-ended natural language responses to questions to train natural language processors |
US9401142B1 (en) | 2015-09-07 | 2016-07-26 | Voicebox Technologies Corporation | System and method for validating natural language content using crowdsourced validation jobs |
WO2017044409A1 (en) | 2015-09-07 | 2017-03-16 | Voicebox Technologies Corporation | System and method of annotating utterances based on tags assigned by unmanaged crowds |
US9519766B1 (en) | 2015-09-07 | 2016-12-13 | Voicebox Technologies Corporation | System and method of providing and validating enhanced CAPTCHAs |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US9875081B2 (en) | 2015-09-21 | 2018-01-23 | Amazon Technologies, Inc. | Device selection for providing a response |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN106570443A (zh) * | 2015-10-09 | 2017-04-19 | 芋头科技(杭州)有限公司 | 一种快速识别方法及家庭智能机器人 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9633659B1 (en) * | 2016-01-20 | 2017-04-25 | Motorola Mobility Llc | Method and apparatus for voice enrolling an electronic computing device |
EP3414759B1 (en) | 2016-02-10 | 2020-07-01 | Cerence Operating Company | Techniques for spatially selective wake-up word recognition and related systems and methods |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
US9811314B2 (en) | 2016-02-22 | 2017-11-07 | Sonos, Inc. | Metadata exchange involving a networked playback system and a networked microphone system |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US10013974B1 (en) * | 2016-02-29 | 2018-07-03 | Amazon Technologies, Inc. | Compact HCLG FST |
US9972313B2 (en) | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10510350B2 (en) * | 2016-03-30 | 2019-12-17 | Lenovo (Singapore) Pte. Ltd. | Increasing activation cue uniqueness |
EP3440669A4 (en) * | 2016-04-07 | 2019-12-11 | M.S.T. Medical Surgery Technologies Ltd. | SURGICAL CONTROL SYSTEM WITH VOICE ACTIVATION |
WO2017184169A1 (en) * | 2016-04-22 | 2017-10-26 | Hewlett-Packard Development Company, L.P. | Communications with trigger phrases |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US11600269B2 (en) | 2016-06-15 | 2023-03-07 | Cerence Operating Company | Techniques for wake-up word recognition and related systems and methods |
CN106098059B (zh) * | 2016-06-23 | 2019-06-18 | 上海交通大学 | 可定制语音唤醒方法及系统 |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US20180025731A1 (en) * | 2016-07-21 | 2018-01-25 | Andrew Lovitt | Cascading Specialized Recognition Engines Based on a Recognition Policy |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US9972320B2 (en) | 2016-08-24 | 2018-05-15 | Google Llc | Hotword detection on multiple devices |
KR102596430B1 (ko) | 2016-08-31 | 2023-10-31 | 삼성전자주식회사 | 화자 인식에 기초한 음성 인식 방법 및 장치 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP2018074366A (ja) * | 2016-10-28 | 2018-05-10 | 京セラ株式会社 | 電子機器、制御方法およびプログラム |
US11545146B2 (en) * | 2016-11-10 | 2023-01-03 | Cerence Operating Company | Techniques for language independent wake-up word detection |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
CN106601254B (zh) | 2016-12-08 | 2020-11-06 | 阿里巴巴(中国)有限公司 | 信息输入方法和装置及计算设备 |
US11238854B2 (en) * | 2016-12-14 | 2022-02-01 | Google Llc | Facilitating creation and playback of user-recorded audio |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
KR102653450B1 (ko) | 2017-01-09 | 2024-04-02 | 삼성전자주식회사 | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 |
KR20180084392A (ko) | 2017-01-17 | 2018-07-25 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
EP3574499B1 (en) * | 2017-01-26 | 2022-01-05 | Cerence Operating Company | Methods and apparatus for asr with embedded noise reduction |
WO2018182311A1 (en) * | 2017-03-28 | 2018-10-04 | Samsung Electronics Co., Ltd. | Method for operating speech recognition service, electronic device and system supporting the same |
US10121494B1 (en) * | 2017-03-30 | 2018-11-06 | Amazon Technologies, Inc. | User presence detection |
US10748531B2 (en) * | 2017-04-13 | 2020-08-18 | Harman International Industries, Incorporated | Management layer for multiple intelligent personal assistant services |
CN108806672A (zh) * | 2017-04-28 | 2018-11-13 | 辛雪峰 | 一种语音双模式的风扇控制方法 |
KR102380717B1 (ko) * | 2017-04-30 | 2022-03-31 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법 |
US10732714B2 (en) | 2017-05-08 | 2020-08-04 | Cirrus Logic, Inc. | Integrated haptic system |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770411A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10283117B2 (en) * | 2017-06-19 | 2019-05-07 | Lenovo (Singapore) Pte. Ltd. | Systems and methods for identification of response cue at peripheral device |
KR102060775B1 (ko) * | 2017-06-27 | 2019-12-30 | 삼성전자주식회사 | 음성 입력에 대응하는 동작을 수행하는 전자 장치 |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
CN107360327B (zh) * | 2017-07-19 | 2021-05-07 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置和存储介质 |
US11259121B2 (en) | 2017-07-21 | 2022-02-22 | Cirrus Logic, Inc. | Surface speaker |
US10504511B2 (en) * | 2017-07-24 | 2019-12-10 | Midea Group Co., Ltd. | Customizable wake-up voice commands |
EP3663905B1 (en) * | 2017-08-02 | 2020-12-09 | Panasonic Intellectual Property Management Co., Ltd. | Information processing device, speech recognition system, and information processing method |
TWI655624B (zh) * | 2017-08-03 | 2019-04-01 | 晨星半導體股份有限公司 | 聲控裝置及相關的聲音訊號處理方法 |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
WO2019031870A1 (ko) * | 2017-08-09 | 2019-02-14 | 엘지전자 주식회사 | 블루투스 저전력 에너지 기술을 이용하여 음성 인식 서비스를 호출하기 위한 방법 및 장치 |
US10482904B1 (en) | 2017-08-15 | 2019-11-19 | Amazon Technologies, Inc. | Context driven device arbitration |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
CN107808670B (zh) * | 2017-10-25 | 2021-05-14 | 百度在线网络技术(北京)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN107861618A (zh) * | 2017-11-10 | 2018-03-30 | 联想(北京)有限公司 | 电子设备控制方法和控制系统 |
KR102417899B1 (ko) * | 2017-11-16 | 2022-07-07 | 현대자동차주식회사 | 차량의 음성인식 시스템 및 방법 |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
CN108320733B (zh) * | 2017-12-18 | 2022-01-04 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108133703A (zh) * | 2017-12-26 | 2018-06-08 | 佛山市道静科技有限公司 | 一种手机控制系统 |
US10672380B2 (en) * | 2017-12-27 | 2020-06-02 | Intel IP Corporation | Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
KR102052634B1 (ko) * | 2018-01-15 | 2019-12-06 | 네이버 주식회사 | 호출음 인식장치 및 호출음 인식방법 |
US10455339B2 (en) | 2018-01-19 | 2019-10-22 | Cirrus Logic, Inc. | Always-on detection systems |
US10620704B2 (en) | 2018-01-19 | 2020-04-14 | Cirrus Logic, Inc. | Haptic output systems |
US20190237069A1 (en) * | 2018-01-31 | 2019-08-01 | GM Global Technology Operations LLC | Multilingual voice assistance support |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
CN108231079B (zh) * | 2018-02-01 | 2021-12-07 | 北京百度网讯科技有限公司 | 用于控制电子设备的方法、装置、设备以及计算机可读存储介质 |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN108469894A (zh) * | 2018-03-13 | 2018-08-31 | 深圳阿凡达智控有限公司 | 语音识别芯片控制方法、装置以及系统 |
US11139767B2 (en) | 2018-03-22 | 2021-10-05 | Cirrus Logic, Inc. | Methods and apparatus for driving a transducer |
US10795443B2 (en) | 2018-03-23 | 2020-10-06 | Cirrus Logic, Inc. | Methods and apparatus for driving a transducer |
US10820100B2 (en) | 2018-03-26 | 2020-10-27 | Cirrus Logic, Inc. | Methods and apparatus for limiting the excursion of a transducer |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
CN108492827B (zh) * | 2018-04-02 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 应用程序的唤醒处理方法、装置及存储介质 |
US10832537B2 (en) | 2018-04-04 | 2020-11-10 | Cirrus Logic, Inc. | Methods and apparatus for outputting a haptic signal to a haptic transducer |
US11069206B2 (en) | 2018-05-04 | 2021-07-20 | Cirrus Logic, Inc. | Methods and apparatus for outputting a haptic signal to a haptic transducer |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK180091B1 (en) * | 2018-06-03 | 2020-04-22 | Apple Inc. | ACCELERATED TASK PERFORMANCE |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US11269415B2 (en) | 2018-08-14 | 2022-03-08 | Cirrus Logic, Inc. | Haptic output systems |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
CN108986809B (zh) * | 2018-08-30 | 2020-01-03 | 广东小天才科技有限公司 | 一种便携式设备及其唤醒方法和装置 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US10811015B2 (en) * | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
CN109377989B (zh) * | 2018-09-27 | 2021-03-12 | 昆山品源知识产权运营科技有限公司 | 唤醒方法、装置、系统、设备及存储介质 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
GB201817495D0 (en) | 2018-10-26 | 2018-12-12 | Cirrus Logic Int Semiconductor Ltd | A force sensing system and method |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
CN109767763B (zh) * | 2018-12-25 | 2021-01-26 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
CA3129378A1 (en) * | 2019-02-07 | 2020-08-13 | Thomas Stachura | Privacy device for smart speakers |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11509292B2 (en) | 2019-03-29 | 2022-11-22 | Cirrus Logic, Inc. | Identifying mechanical impedance of an electromagnetic load using least-mean-squares filter |
US10992297B2 (en) | 2019-03-29 | 2021-04-27 | Cirrus Logic, Inc. | Device comprising force sensors |
US20200313529A1 (en) | 2019-03-29 | 2020-10-01 | Cirrus Logic International Semiconductor Ltd. | Methods and systems for estimating transducer parameters |
US11644370B2 (en) | 2019-03-29 | 2023-05-09 | Cirrus Logic, Inc. | Force sensing with an electromagnetic load |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US10955955B2 (en) | 2019-03-29 | 2021-03-23 | Cirrus Logic, Inc. | Controller for use in a device comprising force sensors |
US10726683B1 (en) | 2019-03-29 | 2020-07-28 | Cirrus Logic, Inc. | Identifying mechanical impedance of an electromagnetic load using a two-tone stimulus |
US10828672B2 (en) | 2019-03-29 | 2020-11-10 | Cirrus Logic, Inc. | Driver circuitry |
CN113424256B (zh) * | 2019-04-01 | 2024-06-18 | 谷歌有限责任公司 | 在可再充电设备上的播送请求和/或用户输入的自适应管理 |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11308273B2 (en) | 2019-05-14 | 2022-04-19 | International Business Machines Corporation | Prescan device activation prevention |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US10976825B2 (en) | 2019-06-07 | 2021-04-13 | Cirrus Logic, Inc. | Methods and apparatuses for controlling operation of a vibrational output system and/or operation of an input sensor system |
US11150733B2 (en) | 2019-06-07 | 2021-10-19 | Cirrus Logic, Inc. | Methods and apparatuses for providing a haptic output signal to a haptic actuator |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
CN114008569A (zh) | 2019-06-21 | 2022-02-01 | 思睿逻辑国际半导体有限公司 | 用于在装置上配置多个虚拟按钮的方法和设备 |
KR20220017007A (ko) * | 2019-07-01 | 2022-02-11 | 엘지전자 주식회사 | 음성인식 방법 및 그 장치 |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
US11408787B2 (en) | 2019-10-15 | 2022-08-09 | Cirrus Logic, Inc. | Control methods for a force sensor system |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
US11380175B2 (en) | 2019-10-24 | 2022-07-05 | Cirrus Logic, Inc. | Reproducibility of haptic waveform |
CN110838289B (zh) * | 2019-11-14 | 2023-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的唤醒词检测方法、装置、设备及介质 |
US11295741B2 (en) | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
US11545951B2 (en) | 2019-12-06 | 2023-01-03 | Cirrus Logic, Inc. | Methods and systems for detecting and managing amplifier instability |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
CN111028846B (zh) * | 2019-12-25 | 2022-08-16 | 北京梧桐车联科技有限责任公司 | 免唤醒词注册的方法和装置 |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11482222B2 (en) * | 2020-03-12 | 2022-10-25 | Motorola Solutions, Inc. | Dynamically assigning wake words |
US11662821B2 (en) | 2020-04-16 | 2023-05-30 | Cirrus Logic, Inc. | In-situ monitoring, calibration, and testing of a haptic actuator |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN111816193B (zh) * | 2020-08-12 | 2020-12-15 | 深圳市友杰智新科技有限公司 | 基于多段网络的语音唤醒方法、装置及存储介质 |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
TWI765485B (zh) * | 2020-12-21 | 2022-05-21 | 矽統科技股份有限公司 | 外接式語音喚醒裝置及其控制方法 |
CN112698872A (zh) * | 2020-12-21 | 2021-04-23 | 北京百度网讯科技有限公司 | 语音数据处理的方法、装置、设备及存储介质 |
EP4300485A4 (en) * | 2021-03-15 | 2024-02-28 | Huawei Technologies Co., Ltd. | MEDIA PROCESSING APPARATUS AND METHOD |
US11933822B2 (en) | 2021-06-16 | 2024-03-19 | Cirrus Logic Inc. | Methods and systems for in-system estimation of actuator parameters |
US11765499B2 (en) | 2021-06-22 | 2023-09-19 | Cirrus Logic Inc. | Methods and systems for managing mixed mode electromechanical actuator drive |
US11908310B2 (en) | 2021-06-22 | 2024-02-20 | Cirrus Logic Inc. | Methods and systems for detecting and managing unexpected spectral content in an amplifier system |
US11552649B1 (en) | 2021-12-03 | 2023-01-10 | Cirrus Logic, Inc. | Analog-to-digital converter-embedded fixed-phase variable gain amplifier stages for dual monitoring paths |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
CN1288224A (zh) * | 1999-09-15 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 语音识别装置和方法 |
CN1365487A (zh) * | 1999-06-24 | 2002-08-21 | 西门子公司 | 语音识别的方法和装置 |
CN1819016A (zh) * | 2005-02-07 | 2006-08-16 | 东芝泰格有限公司 | 语音处理装置 |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5097509A (en) * | 1990-03-28 | 1992-03-17 | Northern Telecom Limited | Rejection method for speech recognition |
US6092043A (en) | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5428707A (en) | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US5774859A (en) | 1995-01-03 | 1998-06-30 | Scientific-Atlanta, Inc. | Information system having a speech interface |
JP3674990B2 (ja) * | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
US5802305A (en) | 1996-05-17 | 1998-09-01 | Microsoft Corporation | System for remotely waking a sleeping computer in power down state by comparing incoming packet to the list of packets storing on network interface card |
US6195634B1 (en) * | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
DE69941686D1 (de) * | 1999-01-06 | 2010-01-07 | Koninkl Philips Electronics Nv | Spracheingabegerät mit aufmerksamkeitsspanne |
US6449496B1 (en) | 1999-02-08 | 2002-09-10 | Qualcomm Incorporated | Voice recognition user interface for telephone handsets |
US6411926B1 (en) | 1999-02-08 | 2002-06-25 | Qualcomm Incorporated | Distributed voice recognition system |
US6594630B1 (en) | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US6397186B1 (en) | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US7162426B1 (en) * | 2000-10-02 | 2007-01-09 | Xybernaut Corporation | Computer motherboard architecture with integrated DSP for continuous and command and control speech processing |
US6901270B1 (en) * | 2000-11-17 | 2005-05-31 | Symbol Technologies, Inc. | Apparatus and method for wireless communication |
US6408396B1 (en) | 2001-05-04 | 2002-06-18 | Intel Corporation | Method and apparatus for supporting wake-on voice and wake-on MIC technology |
JP2003177790A (ja) * | 2001-09-13 | 2003-06-27 | Matsushita Electric Ind Co Ltd | 端末装置、サーバ装置および音声認識方法 |
US6941265B2 (en) | 2001-12-14 | 2005-09-06 | Qualcomm Inc | Voice recognition system method and apparatus |
US6756700B2 (en) | 2002-03-13 | 2004-06-29 | Kye Systems Corp. | Sound-activated wake-up device for electronic input devices having a sleep-mode |
US6965786B2 (en) | 2002-08-13 | 2005-11-15 | Qualcomm Incorporated | Annunciators for voice and data applications in wireless communication devices |
US7114090B2 (en) | 2003-02-14 | 2006-09-26 | Intel Corporation | Computing system with operational low power states |
JP4318475B2 (ja) * | 2003-03-27 | 2009-08-26 | セコム株式会社 | 話者認証装置及び話者認証プログラム |
US7418392B1 (en) | 2003-09-25 | 2008-08-26 | Sensory, Inc. | System and method for controlling the operation of a device by voice commands |
US7451690B2 (en) * | 2005-07-20 | 2008-11-18 | Wabco Gmbh | Spring-actuated air-brake cylinder for vehicle brake systems |
KR100744301B1 (ko) | 2006-06-01 | 2007-07-30 | 삼성전자주식회사 | 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법 |
US8056070B2 (en) | 2007-01-10 | 2011-11-08 | Goller Michael D | System and method for modifying and updating a speech recognition program |
US8886545B2 (en) | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US20110054899A1 (en) | 2007-03-07 | 2011-03-03 | Phillips Michael S | Command and control utilizing content information in a mobile voice-to-speech application |
US8180641B2 (en) * | 2008-09-29 | 2012-05-15 | Microsoft Corporation | Sequential speech recognition with two unequal ASR systems |
US8285545B2 (en) | 2008-10-03 | 2012-10-09 | Volkswagen Ag | Voice command acquisition system and method |
US8181046B2 (en) | 2008-10-29 | 2012-05-15 | Sandisk Il Ltd. | Transparent self-hibernation of non-volatile memory system |
US9361879B2 (en) * | 2009-02-24 | 2016-06-07 | Nexidia Inc. | Word spotting false alarm phrases |
US8190420B2 (en) | 2009-08-04 | 2012-05-29 | Autonomy Corporation Ltd. | Automatic spoken language identification based on phoneme sequence patterns |
US8996381B2 (en) * | 2011-09-27 | 2015-03-31 | Sensory, Incorporated | Background speech recognition assistant |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US8666751B2 (en) | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
-
2012
- 2012-04-26 US US13/456,959 patent/US9117449B2/en active Active
-
2013
- 2013-04-23 CN CN201380021842.9A patent/CN104620314B/zh active Active
- 2013-04-23 IN IN9942DEN2014 patent/IN2014DN09942A/en unknown
- 2013-04-23 JP JP2015509065A patent/JP6285914B2/ja active Active
- 2013-04-23 EP EP13782252.4A patent/EP2842125B1/en active Active
- 2013-04-23 AU AU2013252518A patent/AU2013252518B2/en active Active
- 2013-04-23 KR KR1020147033285A patent/KR20150022786A/ko not_active Application Discontinuation
- 2013-04-23 WO PCT/US2013/037679 patent/WO2013163113A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
CN1365487A (zh) * | 1999-06-24 | 2002-08-21 | 西门子公司 | 语音识别的方法和装置 |
CN1288224A (zh) * | 1999-09-15 | 2001-03-21 | 德国汤姆森-布兰特有限公司 | 语音识别装置和方法 |
US7720683B1 (en) * | 2003-06-13 | 2010-05-18 | Sensory, Inc. | Method and apparatus of specifying and performing speech recognition operations |
CN1819016A (zh) * | 2005-02-07 | 2006-08-16 | 东芝泰格有限公司 | 语音处理装置 |
Also Published As
Publication number | Publication date |
---|---|
AU2013252518A1 (en) | 2014-09-11 |
AU2013252518B2 (en) | 2018-01-04 |
CN104620314A (zh) | 2015-05-13 |
WO2013163113A1 (en) | 2013-10-31 |
US9117449B2 (en) | 2015-08-25 |
IN2014DN09942A (zh) | 2015-08-14 |
JP6285914B2 (ja) | 2018-02-28 |
EP2842125B1 (en) | 2020-09-16 |
EP2842125A1 (en) | 2015-03-04 |
JP2015520409A (ja) | 2015-07-16 |
KR20150022786A (ko) | 2015-03-04 |
US20130289994A1 (en) | 2013-10-31 |
EP2842125A4 (en) | 2015-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104620314B (zh) | 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 | |
KR102543693B1 (ko) | 전자 장치 및 그의 동작 방법 | |
CN102543071B (zh) | 用于移动设备的语音识别系统和方法 | |
CN110797027B (zh) | 多识别器语音识别 | |
CN111192591B (zh) | 智能设备的唤醒方法、装置、智能音箱及存储介质 | |
CN107134279A (zh) | 一种语音唤醒方法、装置、终端和存储介质 | |
CN103095911B (zh) | 一种通过语音唤醒寻找手机的方法及系统 | |
WO2017071182A1 (zh) | 一种语音唤醒方法、装置及系统 | |
CN106558307A (zh) | 智能对话处理设备、方法和系统 | |
EP3655863A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
CN107977183A (zh) | 语音交互方法、装置及设备 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
CN105719647A (zh) | 使用说话者检验的背景语音辨识助理 | |
US20150106089A1 (en) | Name Based Initiation of Speech Recognition | |
CN107112017A (zh) | 操作语音识别功能的电子设备和方法 | |
CN106463112A (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
CN101313276A (zh) | 将语音和备选项输入形式组合到移动设备中 | |
CN105210146A (zh) | 用于控制语音激活的方法和设备 | |
CN110459222A (zh) | 语音控制方法、语音控制装置及终端设备 | |
KR102628211B1 (ko) | 전자 장치 및 그 제어 방법 | |
EP3422344B1 (en) | Electronic device for performing operation corresponding to voice input | |
US20240005918A1 (en) | System For Recognizing and Responding to Environmental Noises | |
CN107093425A (zh) | 电力系统的语音导航系统、语音识别方法和语音交互方法 | |
KR102594838B1 (ko) | 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법 | |
CN103680505A (zh) | 语音识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200922 Address after: Massachusetts, USA Patentee after: Serenes operations Address before: Massachusetts USA Patentee before: Nuance Communications, Inc. |
|
TR01 | Transfer of patent right |