CN104620314B - 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 - Google Patents

用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 Download PDF

Info

Publication number
CN104620314B
CN104620314B CN201380021842.9A CN201380021842A CN104620314B CN 104620314 B CN104620314 B CN 104620314B CN 201380021842 A CN201380021842 A CN 201380021842A CN 104620314 B CN104620314 B CN 104620314B
Authority
CN
China
Prior art keywords
speech recognition
processor
processing device
state
recognition engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380021842.9A
Other languages
English (en)
Other versions
CN104620314A (zh
Inventor
迈克尔·J·纽曼
罗伯特·罗思
威廉·D·亚历山大
穆尔布雷特 保罗·A·范
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Serenes operations
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN104620314A publication Critical patent/CN104620314A/zh
Application granted granted Critical
Publication of CN104620314B publication Critical patent/CN104620314B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Power Sources (AREA)

Abstract

本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发在不需要手动启动声音命令功能的情况下唤醒电子装置或使装置将额外的声音命令激活。另外,这种声音触发是动态可编程或可定制的。讲话者可对作为声音触发的特定短语进行编程或指定。一般来说,本文中的技术运行了一种声控唤醒系统,该系统在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上运行而不是在中央处理单元(CPU)上运行。语音识别管理器在电子装置上运行两个语音识别系统。CPU动态地创建用于DSP的紧凑的语音系统。这种紧凑的系统可在待机模式期间持续运行而不会过快地耗尽电池供电。

Description

用于具有用户可定义约束的小型语音识别的构造的嵌入式 系统
技术领域
本公开涉及语音识别(speech recognition),并且更具体地,涉及提供声控(voice-activated)或声音命令(voice command)功能的语音识别。
背景技术
语音识别或自动语音识别涉及识别口语词语(spoken words)的计算机化处理。针对语音识别存在多种用途,包括语音转录、语音翻译、通过声音控制装置和软件应用程序的能力、调用路由系统、互联网的声音搜索等。语音识别系统可以可选地与口语语言理解系统(spoken language understanding system)相配对,以在与系统交互时提取待执行的含义和/或命令。
语音识别系统非常复杂并且通过将话语的声学标记(acoustic signature)与词语的声学标记相匹配来进行操作。这种匹配可以可选地与统计学语言模型相组合。因此,在语音识别处理中使用声学建模和语言建模。声学模型可创建自口语话语(spokenutterances)的录音以及相关联的转录本。然后,声学模型定义了针对相应的词语的单独声音的统计学表示。语音识别系统使用声学模型以识别声音的序列,同时使用统计学语言模型以从识别出的声音识别可能的词语序列(word sequence)。
提供声控或声音命令功能的语音识别能使讲话者通过说出各种指令来控制装置和系统。例如,讲话者可说出命令以执行特定任务或说出查询以检索特定结果。口语输入(spoken input)可遵循执行特定任务的一组严格的短语,或者口语输入可以是自然语言,该自然语言由语音识别系统的自然语言单元来解释。声音命令功能在便携装置上变得越来越流行,尤其是电池供电的便携装置,例如,手机、膝上型电脑和平板电脑。
发明内容
给定装置的声音命令模式可主动收听口语命令,或在用户手动激活声音命令模式之前关闭。例如,一些移动电话包括响应于说出的用户输入,诸如呼叫特定个人、检索电子邮件消息、播放特定歌曲等以执行任务的功能。通常,用户将按下电话上的按钮(或选择图标)以激活声音命令模式,然后说出命令,例如:“呼叫约翰斯密斯”作为响应,电话或装置将开始呼叫相应的电话号码,例如,从联系人列表或其它目录检索电话号码。
尽管这种声音命令功能比较方便,然而访问这种功能需要用户按下按钮或以其它方式导航到供选择的菜单。因此,启动声音命令模式或特征并不是一个免手动过程。此外,不应将声音命令语音识别引擎作为免手动备选方案持续运行,因为常规语音识别引擎的功率需求很大。例如,连续运行作为声音命令模式的一部分的常规语音识别程序的普通手机会在大约几个小时之内(取决于电池容量的不同)耗尽电池电源的供应。功率消耗也是有线装置或电器存在的一个问题,因为使用常规语音识别系统会对装置的效率评估产生不利影响。由此,需要一种声控“唤醒”功能,其启动移动电话或其它装置的语音识别程序,又能消耗较少的电力,从而提供有效的免手动操作功能。
因此,本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发以与手动启动声音命令功能(按下按钮)相似的方式唤醒装置或更确切地使装置激活所有/或剩余的声音命令。另外,这种声音触发是动态可编程或可定制的。例如,讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定,并可根据需要更改该声音触发短语。一般来说,本文中的技术运行声控唤醒系统,其在数字信号处理器(DSP)或电子装置的其它低功率的、辅助处理单元上操作。在DSP上运行语音识别程序会出现问题,因为常规语音识别系统相对较大。在DSP上运行唤醒特征的另一个问题是,需要提供动态可编程的唤醒特征。诸如在移动电话组装期间,在唤醒短语是可编程的同时促进了在DSP上运行唤醒系统,允许用户指定命令词语是困难的问题。
本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统,其相对大,在装置的中央处理单元(CPU)上运行;第二语音系统,其相对较小,在DSP上运行。给定的便携电子装置的CPU通常能在电子装置处于激活状态的同时进行大多数的处理。DSP通常运行在相对较低的功率上并且通常用于待机处理。例如,当电子装置被实例化为移动电话时,DSP通常负责在电话处于待机模式(CPU处于非激活状态)时收听呼入的电话呼叫。第一语音识别系统提取定制的触发短语,并且将语音模型和代码转换为相对较小的系统。该第二语音系统随后被转移至DSP,使得DSP可在CPU处于非激活状态的同时,例如当电子装置处于待机模式时运行第二语音系统。DSP使用该第二语音系统收听定制的触发短语。检测到说出的自定义触发短语时,DSP指示电子装置返回至激活状态,或其中CPU会对后续声音命令做出响应的状态。通过在DSP上运行较小的第二语音系统,电子装置可提供消耗相对较少电力的免手动声音触发唤醒特征。
一个实施例包括语音识别管理器,该语音识别管理器在电子装置上运行用于管理语音识别的语音识别处理或系统。语音识别管理器由电子装置的声控唤醒功能(即,用于配置唤醒功能的界面)接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入。该电子装置还具有除了第一处理器之外的第二处理器。语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络。语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器,例如,从CPU转移到DSP。语音识别管理器然后利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。运行该第二语音识别引擎可包括在第一语音识别引擎或第一处理器处于非激活状态的同时持续分析口语话语。响应于识别包括触发短语的特定口语话语,DSP或语音识别管理器向第一处理器发送信号,以使第一语音识别引擎返回至激活状态,从而启动控制电子装置的声音命令模式。
本文中的又一其它实施例包括用于执行上文总结的并且在下文详细公开的步骤和操作的软件程序。一个这样的实施例包括具有计算机存储介质(例如,非易失性、有形计算机可读介质;位于不同位置或相同位置的存储介质;计算机存储媒体或介质等)的计算机程序产品,计算机存储介质包括编码在其中的计算机程序逻辑,计算机程序逻辑在具有处理器和相对应存储器的计算机化装置中执行时,对处理器进行编程,以执行(或使处理器进行)本文中所公开的操作。这种布置通常被提供为软件、固件、微代码、代码数据(例如,数据结构)等的形式提供,布置或编码在计算机可读存储介质上,例如,光学介质(例如,CD-ROM)、软盘、硬盘、一个或多个ROM或RAM或PROM芯片、专用集成电路(ASIC)、场可编程门阵列(FPGA)等。软件或固件或其它这种配置可被安装至计算机化装置上,使计算机化装置实施本文中所阐述的技术。
由此,本公开的一个特定实施例涉及计算机程序产品,该计算机程序产品包括具有存储于其上的指令的一个或多个非易失性计算机存储介质,用于支持例如下列操作:由电子装置的声控唤醒功能接收配置输入,该配置输入包括触发短语,在电子装置的第一处理器上接收配置输入,电子装置具有除了第一处理器之外的第二处理器;创建与触发短语向对应的语音识别状态的网络,利用第一处理器运行的第一语音识别引擎在第一处理器创建该语音识别状态的网络;将该语音识别状态的网络从第一处理器转移至第二处理器;并且利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎,在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。当通过相应的计算机装置的处理器执行该指令和本文中所述的方法时,使处理器执行本文中所公开的方法。
本公开的其它实施例包括软件程序以执行上文总结并且下面详细公开的方法实施例步骤和操作中的任一个。
毫无疑问,为了明确起见,已指明了本文所述的不同步骤的讨论顺序。一般来说,这些步骤可以任何适当顺序进行。
另外,应理解的是,本文的每个系统、方法、装置等可严格实施为软件程序、软件和硬件的组合,或单独的硬件,例如,处理器内的硬件或在操作系统或软件应用内实施或通过非软件应用,例如由人进行所有或一部分操作来实施。
如上所述,本文中的技术适用于支持声音命令语音识别的软件应用程序。但是,应注意的是,本文中的实施例并不限于用于这些应用程序,本文中讨论的技术也适用于其它应用。
另外,本文中的不同特征、技术、配置等可在本发明的不同地方进行讨论,但每个概念都可互相独立执行或互相组合执行。由此,本发明可以多种不同的方式实施和查看。
应注意的是,本文中的该发明内容部分并没有指出每一个实施例和/或本公开或本发明要求的增加的新颖性方面。相反,这个发明内容仅提供了不同实施例的初步讨论和与常规技术相比的相对应的创新点。对于本发明和实施例的额外细节和/或可能视角,读者应参见下文进一步讨论的本公开的具体实施方式部分和相对应的附图。
附图说明
从下面根据在附图中示出的本文中的优选实施例的更具体的描述,上述及其它目的、特点和优点将是显而易见的,在附图中,贯穿不同的视图的相似的参考符号指代相同的部分。示图并不一定按比例绘制,而是将重点放在对实施例、原理和概念进行图解说明。
图1为用于根据本文中的实施例的支持声音触发唤醒功能的装置的系统的框图。
图2为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。
图3至图4为示出了根据本文中的实施例的支持声音触发唤醒的过程的示例的流程图。
图5为在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器的示例框图。
具体实施方式
本文中公开的技术包括能够进行声音触发的系统和方法,该声音触发以与声音命令功能的手动启动(按下按钮)相似的方式来唤醒装置或引起装置使所有/或剩余的声音命令激活。另外,这种声音触发可动态地进行编程或可定制。例如,讲话者可对作为声音触发的特定短语(一个或多个词语)进行编程或指定,并可根据用户需要修改或改变这个声音触发短语。一般来说,本文中的技术运行了一种声控唤醒系统,其运行在数字信号处理器(DSP)或电子装置的其它低功率、辅助处理单元上而不是在中央处理单元(CPU)上运行。
尽管本文中公开的技术可以使用两个处理器的许多不同的电子装置来体现,但为了便于描述实施例,这个公开将主要参照移动电话,例如,电池供电的手机。在常规的移动电话中,通常存在两个处理器。存在主要或主CPU,其是相对强有力的。当手机被激活使用时,这个CPU操纵大多数处理,例如,电话呼叫、实用应用程序、电子邮件、游戏等。移动电话通常还包括辅助处理器,其是数字信号处理器(DSP)。DSP可以以非常低的功率起作用。DSP还可以(相对其本身)以较高功率模式运行。对于运行时间非常长的移动电话功能,这些功能通常运行在DSP上。例如,DSP是激活的移动电话的部件并且在电话处于待机模式或未被使用激活时收听呼入的电话呼叫。
本文中的技术包括在电子装置上运行两个语音识别系统。第一语音系统,其相对大,在装置的中央处理单元(CPU)上运行;以及第二语音系统,其相对较小,在DSP上运行。CPU语音系统可包括用于特定移动应用的一整套语音识别模型,例如,用于识别命令以访问联系人、电子邮件、歌曲,执行任务以及运行应用程序。这个一整套模型能够使用户能够选择针对用作语音唤醒触发的定制短语或词语。
第一/主系统接收定制的触发短语,然后使用这个触发短语以将语音模型和代码转换为相对小的系统。因此,CPU预计算了该较小的语音系统。该系统可具有两部分:(1)识别状态的网络;以及(2)声学模型信息。该识别状态的网络可由解码器使用,其搜索通过状态的序列的最佳路径。声学模型信息可包括来自语音的录音的测量。实施例可利用用于DSP唤醒特征的非常小的声学模型信息子集而良好地运行。这两部分共同组合成小系统,即,与CPU声音识别系统相比小的系统。通过非限制性示例,与主系统中可约为300千字节至2兆字节的网络相比,识别状态(由CPU编译的数据)的网络可具有近似为5千字节或10千字节的规模。因此,本技术提供了显著减小的规模。
定制的输入(定制的触发短语)可被指定为文本输入。在可替换的实施例中,该输入可以是讲话和/或作为文本的录入。音频输入可通过检验文本输入来帮助提高识别准确性。然而,应注意,针对触发短语的音频输入是不需要的。系统可基于最初仅作为文本录入的触发短语来执行唤醒功能。预计算系统然后可被转移至DSP。技术可包括在DSP上运行相对小的语音解码器。这个DSP解码器例如可具有约30千字节的代码规模(code size)。与此相反,在CPU上运行的语音解码器可具有约1-2兆字节的代码规模。例如,DSP识别器代码可仅具有在DSP上运行的几百行代码。在常规的识别器中,通常存在均相对较大的十二个模块。所有这些大的模块都可由在DSP上运行的单个模块代替。这个单个的模块可小于任何其它模块。换句话说,可创建完全专用的识别引擎来用于在DSP上使用,而不是运行普通的识别引擎。
然后,位于DSP上的识别器起到唤醒触发的作用。例如,识别器本质上确定是否说出了触发短语。如果DSP没有从接收的口语话语识别出唤醒短语,那么什么也不会发生。如果DSP识别器确定已说出了唤醒短语,那么CPU识别器变为激活的并且可开始或继续对说出的命令或查询做出响应。
存在可利用说出的短语或词语唤醒的一些装置,但这些触发词语是固定的。即,给定的触发命令被固定在电子装置中并且无法更改。这个固定的触发词语通常是在制造过程中设定的。换句话说,对于装置的使用寿命,触发词语是永久的。相反,本文中所公开的技术提供了可完全地定制或专用于用户的可配置/可更改的触发词语。本文中提供的这种定制不要求在线下载额外的代码或将装置返厂以重新配置触发命令。
在实施例中,训练模式或定制界面并不要求口语话语,而可利用文本输入以创建用于在DSP上运行的唤醒系统。尽管一些实施例还可接收用于确认文本输入的声音输入,但并不要求如此。仅从文本输入创建唤醒系统是有用的,因为预定义的声学模型可减小为基本上较小的模型,但具有与给定的触发词语类似的识别性能/准确性。因此,在一些实施例中,可从预先存在的与讲话者无关的声学模型提取被发送至DSP系统的声学模型数据。
一个特征在于,DSP声学模型不需要被适配于特定用户的声音。相反,系统可从较大模型选择针对特定触发短语所需的状态。对于给定的触发短语,存在相应数量的所需的状态ID。通过非限制性示例,如果给定的触发短语需要状态ID 2、7、48、138、455、……等,那么语音识别管理器或唤醒管理器然后将抽取这些状态ID,并对它们重新编号而被用于在较小模型中使用。这导致更小并且更加有效的模型。因此,给定词语的序列,主系统将这词语的序列转换成音素的序列和其它的常规语音表示。对于给定的短语,仅存在需要保持的少量模型状态。因此,大多数模型数据不需要被用于特定唤醒触发词语/短语。这还意味着用于语音识别的大多数代码不需要被用在诸如DSP的辅助处理单元上运行的较小的系统中。
现在参照图1,用户105正在操作电子装置137。电子装置137包括声音命令功能,该声音命令功能包括可定制的唤醒特征。用户105可以以文本的方式输入特定的触发短语。例如,用户105可键入任何短语,例如,“天才按钮”、“激活约翰的电话”、“扣押(sequester)”、“紫猴子洗碗工”等。应注意的是,如本文中所使用的术语“短语”或“触发短语”可指一个词语或多个词语。在用户105录入触发短语(用于初始设定)之后,中央处理单元110创建为了由数字信号处理器120使用的语音识别系统或状态。CPU 110可在生成用于唤醒功能的数据的同时访问声学模型112和语音识别状态114。CPU 110除了生成语音识别状态114之外还可从声学模型112(独立于讲话者的声学模型)提取或收集声学模型数据以被用作声学模型122。DSP 120然后可接收这个数据并将它存储为动态语音识别状态125。在语音识别期间,DSP 120然后可访问语音识别状态125和声学模型122。在已创建初始或新的触发短语以及附属数据之后,DSP 120然后可执行监控语音以识别是否说出了触发词语的识别程序。该唤醒功能可以在CPU 110待机时的非激活的,或至少在CPU 110上运行的声音命令功能是非激活时运行。CPU 110可保持为非激活的直至检测到触发短语。在DSP 120检测到那个触发短语被说出之后,该DSP向CPU 120发信号以返回至激活状态或可运行语音引擎以及响应于语音输入来执行任务的状态。给定的触发词语和对应的数据网络保持在DSP上直至用户期望创建新的触发短语。一旦接收到新的触发短语,系统可重复创建用于DSP 120的网络状态的过程。
现在更具体地说,当在CPU 110上接收到新的触发短语时,这个字符串可转换为音素的序列。这个序列可以已经存在或可能需要创建。对于每个音素,管理器识别相邻音素(位于每一侧的一个音素)以创建三音素(tri-phone)。然后将每个三音素转换为状态的序列。每个三音素具有用于声学状态的序列的模型。一般来说,给定的三音素模型具有两个或多个状态:开始和结束,或开始、中间和结束。结果是一组声学模型状态,其是哪些针对计分而在声学模型中查找到的。因此,将三音素映射为声学模型或声学模型状态,从而创建序列。
通过语音识别引擎对口语话语进行计分通常是一个相对的计分过程。语音识别管理器可使用识别语法。这个识别语法可对触发短语进行评价,以及对经过了一组诱发词语或短语的其它路径进行评价,使得语音识别管理器不过于频繁地进行识别(错误识别)。识别语法包括经过所有诱发词语和声学模型状态的路径。利用这个配置,管理器不需要剩余的声学模型或任何词汇模型。这个识别语法部分被编译成由DSP使用的相对紧凑的数据。
语音识别状态可被模型化为概率分布,高斯序列。当检测到口语话语时,将口语话语转换成帧,将其与概率分布相比较以得到分数。可选择诱发词语作为一组随机词语,其可与触发短语相似或完全不同。语音模型然后对口语话语以及一个或多个诱发进行评估以建立参考比较分数。如果口语话语的分数高于随机/诱发词语的分数(高出一预定量),那么管理器确定识别到了口语话语。使用寻找绝对分数的模型可以可选择地被使用,但这个技术的准确性通常较低。使用相对分数能准确识别到口语词语,同时解决了背景噪声和语音的问题。
本文中的DSP识别引擎的优点在于DSP识别引擎(在触发短语识别期间)不需要假设,将词语转换成音素的序列,将词语转换成三音素,并且将三音素转换成状态的序列。这些过程步骤是不需要的,因为DSP识别器可作用在由CPU创建的状态的序列上。这种解码器可被称为有限状态转换机(FST)。因此,FST网络是在主CPU上编译的,并且然后向下延伸以使FST解码器在DSP上运行,响应于可定制的触发短语输入动态运行的网络,从而提供定制特定短语的系统,其系统比运行于CPU上的初始系统小得多。对于DSP解码器,在一些实施例中,尽管CPU编译的网络不同时,代码可以相同。数据最初可被收集用于构建声学模型122,但在构建单个声学模型之后,语音识别管理器可根据需要建立多个不同的小的模型(网络状态125)。
在语音分析期间,DSP接收口语话语,其通过网络对其进行处理以获得分数。DSP解码器还对随机/诱发词语,例如,“狗”或“弹射器”等进行处理。如果DSP解码器无法识别用于通过网络的口语话语的路径,那么放弃该假设。如果口语话语和诱发词语使其通过网络,那么口语话语(作为触发词语)的分数应比诱发词语高得多,其分数差可指示系统已说出了触发词语,并使CPU被唤醒或再次变为激活状态。任何时间说出任何词语时,可运行诱发词语。在该唤醒模式下,DSP可对收听到的所有词语进行分析。诱发词语数量较少帮助处理运行的更快,例如,约100个诱发词语。可替换地,可将诱发短语丢弃,代替使用普通的语音模型,其在检测触发词语的准确性上属于中等。移除短语可减少存储器开销,但也会降低准确性。应注意的是,对DSP(或辅助处理单元)编程可取决于给定的电子装置的专用硬件和配置情况。例如,在移动电话中运行的语音识别管理器可具有不同于在平板电脑、台式计算机、遥控器、电器、汽车灯内操作的实施例的配置。
图5示出了在根据本文中的实施例的在计算机/网络环境中运行的语音识别管理器140的示例框图。在流程图的描述之后将对图5的计算机系统硬件情况进行更加详细的描述说明。
现在将通过图2至图4的流程图和示意图对与语音识别管理器140相关联的功能进行讨论。为了便于下文讨论,语音识别管理器140或其它适当的实体执行流程图中的步骤。
现在将对实施例进行更具体的描述。图2为示出了本文中公开的实施例的流程图。在步骤210中,语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。换句话说,用户访问唤醒定制菜单以设定特定短语(词语或一组词语),并且键入该短语,或以其它方式选择定制短语。配置输入在电子装置的第一处理器上接收(配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
在步骤220中,语音识别管理器创建与触发短语相对应的语音识别状态的网络,即,基于触发短语。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
在步骤230中,语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器,即,将语音识别状态的网络转移至在第二处理器上的或可访问第二处理器的存储器。
在步骤240中,语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。在第一处理器的第一语音识别引擎处于非激活状态的同时,第二处理器运行第二语音识别引擎。应注意的是,第一处理器或CPU可处于激活状态,但第一语音识别引擎相比而言处于非激活状态,或不对声音命令任务做出响应。因此,无论电子装置处于待机模式还是正在被使用(例如,阅读内容,查看信息等)激活,电子装置的声音命令模式都不会主动收听待运行的任务。在其它实施例中,CPU不需要完全是非激活的,而相对于诸如由与电子装置交互的用户使用激活时的功耗,可在减小的功率模式下运行。
图3至图4为示出了在本文中所公开的语音识别管理器140的附加和/或可替换的实施例和可选的功能的流程图。在步骤210中,语音识别管理器由电子装置的声控唤醒功能接收配置输入。配置输入包括触发短语。在电子装置的第一处理器上接收配置输入(该配置输入被发送给电子装置的第一处理器)。电子装置还具有除了第一处理器之外的第二处理器。
在步骤212中,语音识别管理器经由电子装置的用户界面接收作为文本输入的触发短语。例如,用户键入希望将电子装置唤醒的短语。
在步骤213中,语音识别管理器接收确认文本输入的口语话语。在文本输入充足时,语音识别管理器还可处理文本输入的口语话语以确保准确地识别。
在步骤215中,第一处理器为中央处理单元,第二处理器为数字信号处理器。在步骤216中,当第一处理器处于激活状态时,与第一处理器相比,第二处理器使用较少的功率。通过在较低功率的处理器上运行唤醒特征,电子装置可收听触发词语,而没有过快地使电池耗尽。在步骤217中,第一处理器和第二处理器共同位于移动电话内。
在步骤220中,语音识别管理器创建与触发短语相对应的语音识别状态的网络。利用第一处理器运行的第一语音识别引擎在第一处理器创建语音识别状态的网络。
在步骤230中,语音识别管理器将语音识别状态的网络从第一处理器转移至第二处理器。在步骤232中,语音识别管理器将语音识别状态转移至数字信号处理器。
在步骤240中,语音识别管理器利用与触发短语相对应的语音识别状态的网络在第二处理器运行第二语音识别引擎。第二处理器运行第二语音识别引擎,同时在第一处理器的第一语音识别引擎处于非激活状态。
在步骤242中,在第一语音识别引擎处于非激活状态时,第二语音识别引擎利用第二处理器持续分析口语话语。在识别出包括触发短语的特定口语话语之后,语音识别管理器向第一处理器发送信号以将第一语音识别引擎返回至激活状态。
在步骤243中,第一处理器对后续声音命令做出响应。
在步骤246中,第一处理器处于非激活声音命令模式中,并且在响应于识别出包括触发短语的特定口语话语之后,使电子装置从非激活声音命令模式切换至激活声音命令模式。
在步骤248中,在电子装置处于待机模式时,第二处理器运行提供声控唤醒功能的第二语音识别引擎。
在其它实施例中,可在远程服务器上创建而不是在电子装置中创建新的状态序列和较小的声学模型。在这种实施例中,电子装置可将新的触发短语传输至服务器或云。新的触发短语可经由电子装置而被录入作为文本输入。远程服务器然后创建与触发短语相对应的语音识别状态的网络,并且然后将创建的状态序列和声学模型传输至电子装置,其然后可由辅助处理器或DSP使用。
继续参照图6,以下讨论提供了指示如何执行如上所述的与语音识别管理器140相关联的功能的基本实施例。然而,应注意的是,用于执行语音识别管理器140的实际配置可随着各个应用的不同而不同。例如,计算机系统149可包括执行如本文中所描述的处理的一个或多个计算机。
在不同的实施例中,计算机系统149可以是任何类型的装置,包括但不限于手机、个人计算机系统、台式计算机、膝上型电脑、笔记本电脑或上网本、主计算机系统、手持式计算机、工作站、网络计算机、路由器、网络交换机、桥、应用服务器、存储装置、消耗电子装置,例如照相机、摄像机、机顶盒、移动装置、电子游戏机、手持式电子游戏机,或者总体来说任何类型的计算或电子装置。
示出的计算机系统149被连接至用于为用户136显示图形用户界面133的显示监视器130以利用输入装置135进行操作。贮藏库138可选地被用于存储处理之前和之后的数据文件和内容。输入装置135可包括一个或多个装置,例如,键盘、电脑鼠标、麦克风等。
如图所示,本示例的计算机系统149包括耦接存储系统141、处理器142、I/O接口144和通信接口145的互连线路143。
I/O接口144为外围装置提供了连接,例如,包括电脑鼠标、键盘、移动光标的选择工具、显示屏等的输入装置135。
根据本文中的实施例,通信接口145使计算机系统149的语音识别管理器140通过网络进行通信,并且如果需要,检索创建视图、处理内容、与用户通信等所需的任何数据。
如图所示,存储器系统141被编码具有支持上文所述和下文进一步讨论的功能的语音识别管理器140-1。根据本文中描述的不同的实施例,语音识别管理器140-1(和/或如本文中所述的其它资源)可被体现为软件代码,例如,支持处理功能的数据和/或逻辑指令。
在一个实施例的操作期间,处理器142通过利用互连线路143访问存储系统141以启动、运行、执行、解释或以其它方式执行语音识别管理器140-1的逻辑指令。语音识别管理器140-1的运行生成语音识别管理器处理140-2中的处理功能。换句话说,语音识别管理器处理140-2代表在计算机系统149中的处理器142之内或之上执行的语音识别管理器140的一个或多个部分。
应注意的是,除了执行如本文中讨论的方法操作的语音识别管理器处理140-2之外,本文中的其它实施例包括语音识别管理器140-1本身(即,未运行的或未执行的逻辑指令和/或数据)。语音识别管理器140-1可被存储在非易失性有形计算机可读存储介质中,包括诸如软盘、硬盘、光学介质等的计算机可读存储介质。根据其它实施例,语音识别管理器140-1还可被存储在存储式系统中,例如,固件、只读存储器(ROM)中,或者,如在这个示例中,存储为存储器系统141内的可执行代码。
除了这些实施例之外,还应注意的是,本文中的其它实施例包括在处理器142中的语音识别管理器140-1的运行,如语音识别管理器处理140-2。因此,本领域的技术人员应理解的是,计算机系统149可包括其它过程和/或软件和硬件组件,例如,控制硬件资源或多个处理器的分配和使用的操作系统。
本领域的技术人员还应理解的是,在达到本发明的相同目标的情况下,还可对上文所述的技术的操作进行各种变化。这些变化应涵盖在本发明的范围之内。因此,上文对本发明的实施例的说明并不是限制性的。相反,对于本发明的实施例的任何限制均呈现于权利要求中。

Claims (20)

1.一种用于管理语音识别的计算机实施方法,所述计算机实施方法包括:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,在所述电子装置的第一处理器上接收所述配置输入,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,利用所述第一处理器运行的第一语音识别引擎在所述第一处理器创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
将所述语音识别状态的网络从所述第一处理器转移至所述第二处理器;以及
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
2.根据权利要求1所述的计算机实施方法,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
3.根据权利要求2所述的计算机实施方法,其中,所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
4.根据权利要求1所述的计算机实施方法,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
5.根据权利要求1所述的计算机实施方法,其中,在所述电子装置处于待机模式的同时,所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。
6.根据权利要求1所述的计算机实施方法,其中,将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。
7.根据权利要求1所述的计算机实施方法,其中,接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。
8.根据权利要求7所述的计算机实施方法,其中,接收所述配置输入包括接收确认所述文本输入的口语话语。
9.根据权利要求1所述的计算机实施方法,其中,当所述第一处理器处于激活状态时,所述第二处理器与所述第一处理器相比使用较少的电力。
10.一种用于管理语音识别的系统,所述系统包括:
第一处理器;
第二处理器;以及
耦接至所述处理器的存储器,所述存储器存储指令,当通过所述处理器运行所述指令时使所述系统执行以下的操作:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,在所述电子装置的第一处理器上接收所述配置输入,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,利用所述第一处理器运行的第一语音识别引擎在所述第一处理器创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
将所述语音识别状态的网络从所述第一处理器转移至所述第二处理器;以及
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
11.根据权利要求10所述的系统,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
12.根据权利要求11所述的系统,其中,使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
13.根据权利要求10所述的系统,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
14.根据权利要求10所述的系统,其中,在所述电子装置处于待机模式的同时,所述第二处理器运行提供所述声控唤醒功能的所述第二语音识别引擎。
15.根据权利要求10所述的系统,其中,将所述语音识别状态转移至所述第二处理器包括将所述语音识别状态转移至数字信号处理器(DSP)。
16.根据权利要求10所述的系统,其中,接收所述配置输入包括经由所述电子装置的用户界面接收作为文本输入的所述触发短语。
17.一种用于管理语音识别的计算机实施方法,所述计算机实施方法包括:
由电子装置的声控唤醒功能接收配置输入,所述配置输入包括触发短语,所述电子装置具有运行第一语音识别引擎的第一处理器,所述电子装置还具有除了所述第一处理器之外的第二处理器,其中,在所述第二处理器上首先接收所述配置输入和至少一个诱发词语;
将所述配置输入传输至远程服务器计算机;
创建包括与所述触发短语相对应的语音识别状态的网络的有限状态转换机网络,在所述远程服务器计算机上创建所述语音识别状态的网络,其中,在没有应用词汇模型的情况下使用识别语法来评估所述触发短语;
在所述电子装置上接收与所述触发短语相对应的所述语音识别状态的网络;
将所述语音识别状态的网络转移至所述第二处理器;并且
利用与所述触发短语相对应的所述语音识别状态的网络在所述第二处理器运行第二语音识别引擎,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,所述第二处理器运行所述第二语音识别引擎,其中,所述第二语音识别引擎包括被配置为运行所述有限状态转换机网络的有限状态机转换机解码器,
其中,所述第一处理器是中央处理单元,并且其中,所述第二处理器是数字信号处理器,并且其中,所述第一处理器和所述第二处理器共同位于移动电话内。
18.根据权利要求17所述的计算机实施方法,其中,运行所述第二语音识别引擎包括:
在所述第一语音识别引擎处于非激活状态的同时,利用所述第二处理器持续分析口语话语;以及
响应于识别包括所述触发短语的特定口语话语,向所述第一处理器发送信号以使所述第一语音识别引擎返回至激活状态。
19.根据权利要求18所述的计算机实施方法,其中,使所述第一语音识别引擎返回至激活状态包括所述第一处理器对后续声音命令做出响应。
20.根据权利要求17所述的计算机实施方法,其中,在所述第一处理器的所述第一语音识别引擎处于非激活状态的同时,运行所述第二语音识别引擎包括所述第一处理器处于非激活声音命令模式;以及
响应于识别包括所述触发短语的特定口语话语,使所述电子装置从非激活声音命令模式切换至激活声音命令模式。
CN201380021842.9A 2012-04-26 2013-04-23 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统 Active CN104620314B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/456,959 2012-04-26
US13/456,959 US9117449B2 (en) 2012-04-26 2012-04-26 Embedded system for construction of small footprint speech recognition with user-definable constraints
PCT/US2013/037679 WO2013163113A1 (en) 2012-04-26 2013-04-23 Embedded system for construction of small footprint speech recognition with user-definable constraints

Publications (2)

Publication Number Publication Date
CN104620314A CN104620314A (zh) 2015-05-13
CN104620314B true CN104620314B (zh) 2017-05-10

Family

ID=49478071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380021842.9A Active CN104620314B (zh) 2012-04-26 2013-04-23 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统

Country Status (8)

Country Link
US (1) US9117449B2 (zh)
EP (1) EP2842125B1 (zh)
JP (1) JP6285914B2 (zh)
KR (1) KR20150022786A (zh)
CN (1) CN104620314B (zh)
AU (1) AU2013252518B2 (zh)
IN (1) IN2014DN09942A (zh)
WO (1) WO2013163113A1 (zh)

Families Citing this family (345)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
EP2639793B1 (en) * 2012-03-15 2016-04-20 Samsung Electronics Co., Ltd Electronic device and method for controlling power using voice recognition
CA2869530A1 (en) * 2012-04-27 2013-10-31 Aravind GANAPATHIRAJU Negative example (anti-word) based performance improvement for speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
KR101892233B1 (ko) * 2012-08-03 2018-08-27 삼성전자주식회사 휴대용 단말기에서 상황인식을 이용한 알람 서비스 방법 및 장치
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9251787B1 (en) * 2012-09-26 2016-02-02 Amazon Technologies, Inc. Altering audio to improve automatic speech recognition
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10381002B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US8947220B2 (en) * 2012-10-31 2015-02-03 GM Global Technology Operations LLC Speech recognition functionality in a vehicle through an extrinsic device
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US8972243B1 (en) * 2012-11-20 2015-03-03 Amazon Technologies, Inc. Parse information encoding in a finite state transducer
CN103021411A (zh) * 2012-11-27 2013-04-03 威盛电子股份有限公司 语音控制装置和语音控制方法
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10395651B2 (en) * 2013-02-28 2019-08-27 Sony Corporation Device and method for activating with voice input
US9361885B2 (en) 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
US9112984B2 (en) * 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9390716B2 (en) * 2013-04-19 2016-07-12 Panasonic Intellectual Property Corporation Of America Control method for household electrical appliance, household electrical appliance control system, and gateway
EP2801974A3 (en) * 2013-05-09 2015-02-18 DSP Group Ltd. Low power activation of a voice activated device
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US20140358535A1 (en) * 2013-05-28 2014-12-04 Samsung Electronics Co., Ltd. Method of executing voice recognition of electronic device and electronic device using the same
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
GB2515527B (en) * 2013-06-26 2016-08-31 Cirrus Logic Int Semiconductor Ltd Speech Recognition
GB2553040B (en) * 2013-07-10 2018-04-18 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
GB2526980B (en) * 2013-07-10 2017-04-12 Cirrus Logic Int Semiconductor Ltd Sensor input recognition
KR102060661B1 (ko) * 2013-07-19 2020-02-11 삼성전자주식회사 통신 방법 및 이를 위한 디바이스
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US10192557B2 (en) * 2013-08-26 2019-01-29 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition engines
US10079019B2 (en) 2013-11-12 2018-09-18 Apple Inc. Always-on audio control for mobile device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US8768712B1 (en) * 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
US20180040319A1 (en) * 2013-12-04 2018-02-08 LifeAssist Technologies Inc Method for Implementing A Voice Controlled Notification System
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
GB2524222B (en) * 2013-12-18 2018-07-18 Cirrus Logic Int Semiconductor Ltd Activating speech processing
GB2523984B (en) * 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
WO2015100430A1 (en) 2013-12-24 2015-07-02 Digimarc Corporation Methods and system for cue detection from audio input, low-power data processing and related arrangements
US9953632B2 (en) 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US10402453B2 (en) * 2014-06-27 2019-09-03 Nuance Communications, Inc. Utilizing large-scale knowledge graphs to support inference at scale and explanation generation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US20160012827A1 (en) * 2014-07-10 2016-01-14 Cambridge Silicon Radio Limited Smart speakerphone
US9263042B1 (en) 2014-07-25 2016-02-16 Google Inc. Providing pre-computed hotword models
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
US9335966B2 (en) 2014-09-11 2016-05-10 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9354687B2 (en) 2014-09-11 2016-05-31 Nuance Communications, Inc. Methods and apparatus for unsupervised wakeup with time-correlated acoustic events
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9653079B2 (en) 2015-02-12 2017-05-16 Apple Inc. Clock switching in always-on component
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
GB2535766B (en) 2015-02-27 2019-06-12 Imagination Tech Ltd Low power detection of an activation phrase
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
EP3067884B1 (en) 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Speech recognition system and speech recognition method thereof
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6564058B2 (ja) * 2015-04-10 2019-08-21 華為技術有限公司Huawei Technologies Co.,Ltd. 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9448993B1 (en) 2015-09-07 2016-09-20 Voicebox Technologies Corporation System and method of recording utterances using unmanaged crowds for natural language processing
WO2017044415A1 (en) * 2015-09-07 2017-03-16 Voicebox Technologies Corporation System and method for eliciting open-ended natural language responses to questions to train natural language processors
US9401142B1 (en) 2015-09-07 2016-07-26 Voicebox Technologies Corporation System and method for validating natural language content using crowdsourced validation jobs
WO2017044409A1 (en) 2015-09-07 2017-03-16 Voicebox Technologies Corporation System and method of annotating utterances based on tags assigned by unmanaged crowds
US9519766B1 (en) 2015-09-07 2016-12-13 Voicebox Technologies Corporation System and method of providing and validating enhanced CAPTCHAs
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN106570443A (zh) * 2015-10-09 2017-04-19 芋头科技(杭州)有限公司 一种快速识别方法及家庭智能机器人
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9633659B1 (en) * 2016-01-20 2017-04-25 Motorola Mobility Llc Method and apparatus for voice enrolling an electronic computing device
EP3414759B1 (en) 2016-02-10 2020-07-01 Cerence Operating Company Techniques for spatially selective wake-up word recognition and related systems and methods
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10013974B1 (en) * 2016-02-29 2018-07-03 Amazon Technologies, Inc. Compact HCLG FST
US9972313B2 (en) 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10510350B2 (en) * 2016-03-30 2019-12-17 Lenovo (Singapore) Pte. Ltd. Increasing activation cue uniqueness
EP3440669A4 (en) * 2016-04-07 2019-12-11 M.S.T. Medical Surgery Technologies Ltd. SURGICAL CONTROL SYSTEM WITH VOICE ACTIVATION
WO2017184169A1 (en) * 2016-04-22 2017-10-26 Hewlett-Packard Development Company, L.P. Communications with trigger phrases
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11600269B2 (en) 2016-06-15 2023-03-07 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods
CN106098059B (zh) * 2016-06-23 2019-06-18 上海交通大学 可定制语音唤醒方法及系统
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US20180025731A1 (en) * 2016-07-21 2018-01-25 Andrew Lovitt Cascading Specialized Recognition Engines Based on a Recognition Policy
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
KR102596430B1 (ko) 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US11545146B2 (en) * 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
CN106601254B (zh) 2016-12-08 2020-11-06 阿里巴巴(中国)有限公司 信息输入方法和装置及计算设备
US11238854B2 (en) * 2016-12-14 2022-02-01 Google Llc Facilitating creation and playback of user-recorded audio
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR102653450B1 (ko) 2017-01-09 2024-04-02 삼성전자주식회사 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치
KR20180084392A (ko) 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법
EP3574499B1 (en) * 2017-01-26 2022-01-05 Cerence Operating Company Methods and apparatus for asr with embedded noise reduction
WO2018182311A1 (en) * 2017-03-28 2018-10-04 Samsung Electronics Co., Ltd. Method for operating speech recognition service, electronic device and system supporting the same
US10121494B1 (en) * 2017-03-30 2018-11-06 Amazon Technologies, Inc. User presence detection
US10748531B2 (en) * 2017-04-13 2020-08-18 Harman International Industries, Incorporated Management layer for multiple intelligent personal assistant services
CN108806672A (zh) * 2017-04-28 2018-11-13 辛雪峰 一种语音双模式的风扇控制方法
KR102380717B1 (ko) * 2017-04-30 2022-03-31 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 이 전자 장치의 제어 방법
US10732714B2 (en) 2017-05-08 2020-08-04 Cirrus Logic, Inc. Integrated haptic system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10283117B2 (en) * 2017-06-19 2019-05-07 Lenovo (Singapore) Pte. Ltd. Systems and methods for identification of response cue at peripheral device
KR102060775B1 (ko) * 2017-06-27 2019-12-30 삼성전자주식회사 음성 입력에 대응하는 동작을 수행하는 전자 장치
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN107360327B (zh) * 2017-07-19 2021-05-07 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
US11259121B2 (en) 2017-07-21 2022-02-22 Cirrus Logic, Inc. Surface speaker
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
EP3663905B1 (en) * 2017-08-02 2020-12-09 Panasonic Intellectual Property Management Co., Ltd. Information processing device, speech recognition system, and information processing method
TWI655624B (zh) * 2017-08-03 2019-04-01 晨星半導體股份有限公司 聲控裝置及相關的聲音訊號處理方法
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
WO2019031870A1 (ko) * 2017-08-09 2019-02-14 엘지전자 주식회사 블루투스 저전력 에너지 기술을 이용하여 음성 인식 서비스를 호출하기 위한 방법 및 장치
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
CN107808670B (zh) * 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN107861618A (zh) * 2017-11-10 2018-03-30 联想(北京)有限公司 电子设备控制方法和控制系统
KR102417899B1 (ko) * 2017-11-16 2022-07-07 현대자동차주식회사 차량의 음성인식 시스템 및 방법
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108320733B (zh) * 2017-12-18 2022-01-04 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN108133703A (zh) * 2017-12-26 2018-06-08 佛山市道静科技有限公司 一种手机控制系统
US10672380B2 (en) * 2017-12-27 2020-06-02 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
KR102052634B1 (ko) * 2018-01-15 2019-12-06 네이버 주식회사 호출음 인식장치 및 호출음 인식방법
US10455339B2 (en) 2018-01-19 2019-10-22 Cirrus Logic, Inc. Always-on detection systems
US10620704B2 (en) 2018-01-19 2020-04-14 Cirrus Logic, Inc. Haptic output systems
US20190237069A1 (en) * 2018-01-31 2019-08-01 GM Global Technology Operations LLC Multilingual voice assistance support
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108231079B (zh) * 2018-02-01 2021-12-07 北京百度网讯科技有限公司 用于控制电子设备的方法、装置、设备以及计算机可读存储介质
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN108469894A (zh) * 2018-03-13 2018-08-31 深圳阿凡达智控有限公司 语音识别芯片控制方法、装置以及系统
US11139767B2 (en) 2018-03-22 2021-10-05 Cirrus Logic, Inc. Methods and apparatus for driving a transducer
US10795443B2 (en) 2018-03-23 2020-10-06 Cirrus Logic, Inc. Methods and apparatus for driving a transducer
US10820100B2 (en) 2018-03-26 2020-10-27 Cirrus Logic, Inc. Methods and apparatus for limiting the excursion of a transducer
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108492827B (zh) * 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
US10832537B2 (en) 2018-04-04 2020-11-10 Cirrus Logic, Inc. Methods and apparatus for outputting a haptic signal to a haptic transducer
US11069206B2 (en) 2018-05-04 2021-07-20 Cirrus Logic, Inc. Methods and apparatus for outputting a haptic signal to a haptic transducer
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180091B1 (en) * 2018-06-03 2020-04-22 Apple Inc. ACCELERATED TASK PERFORMANCE
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US11269415B2 (en) 2018-08-14 2022-03-08 Cirrus Logic, Inc. Haptic output systems
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
CN108986809B (zh) * 2018-08-30 2020-01-03 广东小天才科技有限公司 一种便携式设备及其唤醒方法和装置
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
CN109377989B (zh) * 2018-09-27 2021-03-12 昆山品源知识产权运营科技有限公司 唤醒方法、装置、系统、设备及存储介质
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
GB201817495D0 (en) 2018-10-26 2018-12-12 Cirrus Logic Int Semiconductor Ltd A force sensing system and method
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN109767763B (zh) * 2018-12-25 2021-01-26 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
CA3129378A1 (en) * 2019-02-07 2020-08-13 Thomas Stachura Privacy device for smart speakers
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11509292B2 (en) 2019-03-29 2022-11-22 Cirrus Logic, Inc. Identifying mechanical impedance of an electromagnetic load using least-mean-squares filter
US10992297B2 (en) 2019-03-29 2021-04-27 Cirrus Logic, Inc. Device comprising force sensors
US20200313529A1 (en) 2019-03-29 2020-10-01 Cirrus Logic International Semiconductor Ltd. Methods and systems for estimating transducer parameters
US11644370B2 (en) 2019-03-29 2023-05-09 Cirrus Logic, Inc. Force sensing with an electromagnetic load
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US10955955B2 (en) 2019-03-29 2021-03-23 Cirrus Logic, Inc. Controller for use in a device comprising force sensors
US10726683B1 (en) 2019-03-29 2020-07-28 Cirrus Logic, Inc. Identifying mechanical impedance of an electromagnetic load using a two-tone stimulus
US10828672B2 (en) 2019-03-29 2020-11-10 Cirrus Logic, Inc. Driver circuitry
CN113424256B (zh) * 2019-04-01 2024-06-18 谷歌有限责任公司 在可再充电设备上的播送请求和/或用户输入的自适应管理
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11308273B2 (en) 2019-05-14 2022-04-19 International Business Machines Corporation Prescan device activation prevention
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10976825B2 (en) 2019-06-07 2021-04-13 Cirrus Logic, Inc. Methods and apparatuses for controlling operation of a vibrational output system and/or operation of an input sensor system
US11150733B2 (en) 2019-06-07 2021-10-19 Cirrus Logic, Inc. Methods and apparatuses for providing a haptic output signal to a haptic actuator
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN114008569A (zh) 2019-06-21 2022-02-01 思睿逻辑国际半导体有限公司 用于在装置上配置多个虚拟按钮的方法和设备
KR20220017007A (ko) * 2019-07-01 2022-02-11 엘지전자 주식회사 음성인식 방법 및 그 장치
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11408787B2 (en) 2019-10-15 2022-08-09 Cirrus Logic, Inc. Control methods for a force sensor system
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11380175B2 (en) 2019-10-24 2022-07-05 Cirrus Logic, Inc. Reproducibility of haptic waveform
CN110838289B (zh) * 2019-11-14 2023-08-11 腾讯科技(深圳)有限公司 基于人工智能的唤醒词检测方法、装置、设备及介质
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
US11545951B2 (en) 2019-12-06 2023-01-03 Cirrus Logic, Inc. Methods and systems for detecting and managing amplifier instability
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
CN111028846B (zh) * 2019-12-25 2022-08-16 北京梧桐车联科技有限责任公司 免唤醒词注册的方法和装置
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482222B2 (en) * 2020-03-12 2022-10-25 Motorola Solutions, Inc. Dynamically assigning wake words
US11662821B2 (en) 2020-04-16 2023-05-30 Cirrus Logic, Inc. In-situ monitoring, calibration, and testing of a haptic actuator
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111816193B (zh) * 2020-08-12 2020-12-15 深圳市友杰智新科技有限公司 基于多段网络的语音唤醒方法、装置及存储介质
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
TWI765485B (zh) * 2020-12-21 2022-05-21 矽統科技股份有限公司 外接式語音喚醒裝置及其控制方法
CN112698872A (zh) * 2020-12-21 2021-04-23 北京百度网讯科技有限公司 语音数据处理的方法、装置、设备及存储介质
EP4300485A4 (en) * 2021-03-15 2024-02-28 Huawei Technologies Co., Ltd. MEDIA PROCESSING APPARATUS AND METHOD
US11933822B2 (en) 2021-06-16 2024-03-19 Cirrus Logic Inc. Methods and systems for in-system estimation of actuator parameters
US11765499B2 (en) 2021-06-22 2023-09-19 Cirrus Logic Inc. Methods and systems for managing mixed mode electromechanical actuator drive
US11908310B2 (en) 2021-06-22 2024-02-20 Cirrus Logic Inc. Methods and systems for detecting and managing unexpected spectral content in an amplifier system
US11552649B1 (en) 2021-12-03 2023-01-10 Cirrus Logic, Inc. Analog-to-digital converter-embedded fixed-phase variable gain amplifier stages for dual monitoring paths

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
CN1288224A (zh) * 1999-09-15 2001-03-21 德国汤姆森-布兰特有限公司 语音识别装置和方法
CN1365487A (zh) * 1999-06-24 2002-08-21 西门子公司 语音识别的方法和装置
CN1819016A (zh) * 2005-02-07 2006-08-16 东芝泰格有限公司 语音处理装置
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5097509A (en) * 1990-03-28 1992-03-17 Northern Telecom Limited Rejection method for speech recognition
US6092043A (en) 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5428707A (en) 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5802305A (en) 1996-05-17 1998-09-01 Microsoft Corporation System for remotely waking a sleeping computer in power down state by comparing incoming packet to the list of packets storing on network interface card
US6195634B1 (en) * 1997-12-24 2001-02-27 Nortel Networks Corporation Selection of decoys for non-vocabulary utterances rejection
DE69941686D1 (de) * 1999-01-06 2010-01-07 Koninkl Philips Electronics Nv Spracheingabegerät mit aufmerksamkeitsspanne
US6449496B1 (en) 1999-02-08 2002-09-10 Qualcomm Incorporated Voice recognition user interface for telephone handsets
US6411926B1 (en) 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
US6594630B1 (en) 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US7162426B1 (en) * 2000-10-02 2007-01-09 Xybernaut Corporation Computer motherboard architecture with integrated DSP for continuous and command and control speech processing
US6901270B1 (en) * 2000-11-17 2005-05-31 Symbol Technologies, Inc. Apparatus and method for wireless communication
US6408396B1 (en) 2001-05-04 2002-06-18 Intel Corporation Method and apparatus for supporting wake-on voice and wake-on MIC technology
JP2003177790A (ja) * 2001-09-13 2003-06-27 Matsushita Electric Ind Co Ltd 端末装置、サーバ装置および音声認識方法
US6941265B2 (en) 2001-12-14 2005-09-06 Qualcomm Inc Voice recognition system method and apparatus
US6756700B2 (en) 2002-03-13 2004-06-29 Kye Systems Corp. Sound-activated wake-up device for electronic input devices having a sleep-mode
US6965786B2 (en) 2002-08-13 2005-11-15 Qualcomm Incorporated Annunciators for voice and data applications in wireless communication devices
US7114090B2 (en) 2003-02-14 2006-09-26 Intel Corporation Computing system with operational low power states
JP4318475B2 (ja) * 2003-03-27 2009-08-26 セコム株式会社 話者認証装置及び話者認証プログラム
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
US7451690B2 (en) * 2005-07-20 2008-11-18 Wabco Gmbh Spring-actuated air-brake cylinder for vehicle brake systems
KR100744301B1 (ko) 2006-06-01 2007-07-30 삼성전자주식회사 음성 인식을 이용하여 동작 모드를 전환하는 휴대 단말기및 그 방법
US8056070B2 (en) 2007-01-10 2011-11-08 Goller Michael D System and method for modifying and updating a speech recognition program
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20110054899A1 (en) 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8285545B2 (en) 2008-10-03 2012-10-09 Volkswagen Ag Voice command acquisition system and method
US8181046B2 (en) 2008-10-29 2012-05-15 Sandisk Il Ltd. Transparent self-hibernation of non-volatile memory system
US9361879B2 (en) * 2009-02-24 2016-06-07 Nexidia Inc. Word spotting false alarm phrases
US8190420B2 (en) 2009-08-04 2012-05-29 Autonomy Corporation Ltd. Automatic spoken language identification based on phoneme sequence patterns
US8996381B2 (en) * 2011-09-27 2015-03-31 Sensory, Incorporated Background speech recognition assistant
US8768707B2 (en) * 2011-09-27 2014-07-01 Sensory Incorporated Background speech recognition assistant using speaker verification
US8666751B2 (en) 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
CN1365487A (zh) * 1999-06-24 2002-08-21 西门子公司 语音识别的方法和装置
CN1288224A (zh) * 1999-09-15 2001-03-21 德国汤姆森-布兰特有限公司 语音识别装置和方法
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
CN1819016A (zh) * 2005-02-07 2006-08-16 东芝泰格有限公司 语音处理装置

Also Published As

Publication number Publication date
AU2013252518A1 (en) 2014-09-11
AU2013252518B2 (en) 2018-01-04
CN104620314A (zh) 2015-05-13
WO2013163113A1 (en) 2013-10-31
US9117449B2 (en) 2015-08-25
IN2014DN09942A (zh) 2015-08-14
JP6285914B2 (ja) 2018-02-28
EP2842125B1 (en) 2020-09-16
EP2842125A1 (en) 2015-03-04
JP2015520409A (ja) 2015-07-16
KR20150022786A (ko) 2015-03-04
US20130289994A1 (en) 2013-10-31
EP2842125A4 (en) 2015-12-09

Similar Documents

Publication Publication Date Title
CN104620314B (zh) 用于具有用户可定义约束的小型语音识别的构造的嵌入式系统
KR102543693B1 (ko) 전자 장치 및 그의 동작 방법
CN102543071B (zh) 用于移动设备的语音识别系统和方法
CN110797027B (zh) 多识别器语音识别
CN111192591B (zh) 智能设备的唤醒方法、装置、智能音箱及存储介质
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN103095911B (zh) 一种通过语音唤醒寻找手机的方法及系统
WO2017071182A1 (zh) 一种语音唤醒方法、装置及系统
CN106558307A (zh) 智能对话处理设备、方法和系统
EP3655863A1 (en) Automatic integration of image capture and recognition in a voice-based query to understand intent
CN107977183A (zh) 语音交互方法、装置及设备
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN105719647A (zh) 使用说话者检验的背景语音辨识助理
US20150106089A1 (en) Name Based Initiation of Speech Recognition
CN107112017A (zh) 操作语音识别功能的电子设备和方法
CN106463112A (zh) 语音识别方法、语音唤醒装置、语音识别装置及终端
CN101313276A (zh) 将语音和备选项输入形式组合到移动设备中
CN105210146A (zh) 用于控制语音激活的方法和设备
CN110459222A (zh) 语音控制方法、语音控制装置及终端设备
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
EP3422344B1 (en) Electronic device for performing operation corresponding to voice input
US20240005918A1 (en) System For Recognizing and Responding to Environmental Noises
CN107093425A (zh) 电力系统的语音导航系统、语音识别方法和语音交互方法
KR102594838B1 (ko) 사용자 발화에 응답하여 통화를 포함하는 태스크를 수행하는 전자 장치 및 그 동작 방법
CN103680505A (zh) 语音识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200922

Address after: Massachusetts, USA

Patentee after: Serenes operations

Address before: Massachusetts USA

Patentee before: Nuance Communications, Inc.

TR01 Transfer of patent right