CN106233376B - 用于通过话音输入激活应用程序的方法和设备 - Google Patents

用于通过话音输入激活应用程序的方法和设备 Download PDF

Info

Publication number
CN106233376B
CN106233376B CN201580019961.XA CN201580019961A CN106233376B CN 106233376 B CN106233376 B CN 106233376B CN 201580019961 A CN201580019961 A CN 201580019961A CN 106233376 B CN106233376 B CN 106233376B
Authority
CN
China
Prior art keywords
input sound
sound stream
activation
voice
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580019961.XA
Other languages
English (en)
Other versions
CN106233376A (zh
Inventor
金泰殊
李敏秀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN106233376A publication Critical patent/CN106233376A/zh
Application granted granted Critical
Publication of CN106233376B publication Critical patent/CN106233376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Input From Keyboards Or The Like (AREA)

Abstract

本文公开一种在电子装置中执行的用于激活目标应用程序的方法。所述方法可包含接收输入声音流,所述输入声音流包含用于激活所述目标应用程序的激活关键词和指示所述目标应用程序的功能的话音命令。所述方法还可检测来自所述输入声音流的所述激活关键词。如果检测到所述激活关键词,那么包含所述话音命令的至少一部分的所述输入声音流的一部分可在缓冲存储器中缓冲。另外,响应于检测到所述激活关键词,可激活所述目标应用程序以执行所述目标应用程序的所述功能。

Description

用于通过话音输入激活应用程序的方法和设备
优先权主张
本申请案主张来自于2014年4月21日申请的题为“用于通过话音输入激活应用程序的方法和设备”的美国申请案第14/257,814号的优先权,所述申请案的内容以全文引用的方式并入本文中。
技术领域
本发明大体上涉及激活电子装置中的应用程序,且更确切地说涉及激活电子装置中用于通过存储话音输入执行功能的应用程序。
背景技术
近来,例如智能电话、平板计算机和可穿戴计算机的电子装置的使用已经在消费者当中增加。这些装置可提供多种能力,例如,数据处理与通信、语音通信、因特网浏览器、多媒体播放器、游戏机等。另外,此类电子装置可包含能够执行用于用户的各种功能的多种应用程序。
为了用户的便利,传统的电子装置常常包含话音辨识功能以辨识来自用户的话音。在此类电子装置中,用户可说出语音命令以用于执行指定功能而不是人工地浏览I/O装置,例如,触摸屏或键盘。来自用户的语音命令可随后经辨识且指定功能可在电子装置中执行。
在具有话音辨识功能的传统电子装置中,用户通常说出预定关键词以启动话音处理应用程序,所述话音处理应用程序可辨识下一语音命令并执行与语音命令相关联的功能。举例来说,用户可说出预定关键词以启动话音处理应用程序并且等待待加载的应用程序。在应用程序已经加载之后,用户可说出指定待执行的应用程序的功能(例如,因特网搜索)的语音命令。由于辨识关键词及加载应用程序所需的时间导致用户说出语音命令的延迟,在电子装置中使用串列的关键词及语音命令执行功能可对用户来说极不方便。
在一些情况下,具有话音辨识功能的电子装置可意外启动应用程序。举例来说,用户可说出关键词作为与另一人的对话或讨论的部分而不期望启动相关联的应用程序。尽管如此,电子装置可辨识由用户说出的关键词并启动应用程序。因此,用户可能需要人工地终止应用程序,由此造成用户不便。另一方面,如果用户没有注意到应用程序的启动,那么应用程序可继续在电子装置上运行。
发明内容
本发明提供用于响应于检测到激活关键词而激活目标应用程序从而执行与话音命令相关联的目标应用程序的功能的方法和设备。
根据本发明的一个方面,公开了在电子装置中执行以用于激活目标应用程序的方法。所述方法可包含接收输入声音流,所述输入声音流包含用于激活目标应用程序的激活关键词和指示目标应用程序的功能的话音命令。所述方法还可检测来自输入声音流的激活关键词。如果检测到激活关键词,那么包含话音命令的至少一部分的输入声音流的一部分可在缓冲存储器中缓冲。另外,响应于检测到激活关键词,可激活目标应用程序以执行目标应用程序的功能。本发明还描述了涉及此方法的设备、装置、系统、装置的组合和计算机可读媒体。
根据本发明的另一方面,公开了用于激活目标应用程序的电子装置。电子装置可包含声音传感器,所述声音传感器经配置以接收包含用于激活目标应用程序的激活关键词和指示目标应用程序的功能的话音命令的输入声音流。电子装置还可包含经配置以检测来自输入声音流的激活关键词并响应于检测到激活关键词而激活目标应用程序从而执行目标应用程序的功能的语音激活单元。电子装置中的缓冲存储器可经配置以在检测到激活关键词时存储包含话音命令的至少一部分的输入声音流的一部分。
附图说明
当结合附图理解时,通过参考以下详细描述将理解本发明的发明性方面的实施例。
图1说明根据本发明的一个实施例的响应于输入声音流中的激活关键词而激活语音辅助应用程序的移动装置。
图2说明根据本发明的一个实施例的经配置以在检测到输入声音流中的激活关键词后通过缓冲包含话音命令的输入声音流的一部分而激活语音辅助应用程序的电子装置的框图。
图3说明根据本发明的一个实施例的电子装置中包含用于缓冲输入声音流的多个缓冲器单元的缓冲存储器的详细框图。
图4说明根据本发明的一个实施例的电子装置中经配置以基于输入声音流的所缓冲部分验证是否激活语音辅助应用程序的语音激活单元的详细框图。
图5说明根据本发明的一个实施例的用于在检测到输入声音流中的激活关键词后通过缓冲包含话音命令的输入声音流的一部分而激活语音辅助应用程序的方法的流程图。
图6为根据本发明的一个实施例的当在输入声音流中检测到激活关键词时缓冲包含话音命令的输入声音流的一部分的时序图。
图7为说明根据本发明的一个实施例的经确定用于检测来自输入声音流的激活关键词和输入声音流中的激活关键词的结束的输入声音流的关键词分数的变化的曲线图。
图8为根据本发明的一个实施例的响应于验证是否激活语音辅助应用程序而激活语音辅助应用程序的时序图。
图9为说明根据本发明的一个实施例的经确定用于基于第一检测阈值分数加载语音辅助应用程序及基于第二检测阈值分数来验证语音辅助应用程序262的加载的输入声音流的关键词分数的变化的曲线图。
图10说明根据本发明的一个实施例的响应于检测到输入声音流中的激活关键词而激活网页浏览器应用程序的移动装置。
图11说明根据本发明的一个实施例的经配置以基于由电子装置中的验证传感器产生的传感器数据而激活网页浏览器应用程序的电子装置的框图。
图12说明根据本发明的一个实施例的用于通过检测激活关键词并基于指示电子装置的情境的传感器数据验证是否激活目标应用程序而激活目标应用程序的方法的流程图。
图13为其中根据本发明的一些实施例来实施用于在检测到激活关键词后激活目标应用程序的方法和设备的示范性电子装置的框图。
具体实施方式
现将详细参考各种实施例在附图中说明所述实施例的实例。在以下详细描述中,阐述众多具体细节以便提供对本发明的透彻理解。然而,对于所属领域的一般技术人员将显而易见的是可在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以免不必要地混淆各种实施例的各方面。
图1说明根据本发明的一个实施例的响应于输入声音流中的激活关键词而激活语音辅助应用程序130的移动装置120。最初,移动装置120可存储用于激活应用程序(例如,移动装置120中的语音辅助应用程序130)的激活关键词。在所说明的实施例中,当用户110对移动装置120说出激活关键词(例如,“开始语音辅助”)时,移动装置120可捕获输入声音流并检测输入声音流中的激活关键词。如本文所使用,术语“声音流”可指代一或多个声音信号或声音数据的序列,且可包含模拟、数字和声信号或数据。
检测到激活关键词之后,移动装置120可在移动装置120的缓冲存储器中缓冲输入声音流的一部分。举例来说,用户110可说出与语音辅助应用程序130的功能相关联的话音命令。语音辅助应用程序130可经配置以执行任何合适数目个功能,例如,执行因特网搜索,设定警报,管理日程及类似者,所述功能中的每一者可与话音命令相关联。在所说明的实施例中,用户110说出“今天天气如何”作为话音命令,且输入声音流中的话音命令的至少一部分可在缓冲存储器中缓冲。
如下文将参看图4更详细描述,在缓冲包含话音命令的至少一部分的输入声音流的部分之后,移动装置120可基于输入声音流的经缓冲部分验证是否激活语音辅助应用程序130。举例来说,移动装置120可基于输入声音流的经缓冲部分的话音特性及/或信噪比(SNR)来验证是否激活语音辅助应用程序130。如果语音辅助应用程序130的激活未基于输入声音流的经缓冲部分而验证,那么移动装置120可继续运行以接收用于检测激活关键词的下一输入声音流。
另一方面,如果语音辅助应用程序130的激活经验证,那么移动装置120可激活语音辅助应用程序130以辨识输入声音流的经缓冲部分中的话音命令。在所说明的实施例中,语音辅助应用程序130可从输入声音流的经缓冲部分辨识话音命令“今天天气如何”。在辨识话音命令之后,语音辅助应用程序130可在因特网上执行针对天气的搜索功能并为用户110显示天气信息。在一些实施例中,移动装置120可存储多个激活关键词以供用于检测来自用户的输入声音的激活关键词。在此情况下,激活关键词中的每一者可经配置以激活与移动装置120中的激活关键词相关联的应用程序。
图2说明根据本发明的一个实施例的经配置以在检测到输入声音流中的激活关键词后通过缓冲包含话音命令的输入声音流的一部分而激活语音辅助应用程序262的电子装置200的框图。如本文所使用,术语“激活关键词”可指代由说话者说出的指示用于执行移动装置120中的功能的语音辅助应用程序262的一或多个词语或声音,且术语“话音命令”可指代由说话者说出的指示可由语音辅助应用程序262执行的功能的一或多个词语或声音。电子装置200可包含声音传感器210、I/O(输入/输出)单元220、通信单元230、处理器240和存储单元260。电子装置200可为具有声音捕获和处理能力的任何合适装置,例如蜂窝式电话、智能电话(例如,移动装置120)、个人计算机、膝上型计算机、平板计算机、智能电视机、游戏装置、多媒体播放器、智能眼镜、可穿戴计算机等。
处理器240可为用于管理及操作电子装置200的应用程序处理器(AP)、中央处理单元(CPU)或微处理器单元(MPU)且可包含数字信号处理器(DSP)250。DSP 250可包含语音激活单元252和缓冲存储器254。在一个实施例中,DSP 250可为用于降低处理声音流的电力消耗的低电力处理器。在此配置中,DSP 250中的语音激活单元252可经配置以响应于输入声音流中的激活关键词而激活存储于存储单元260中的语音辅助应用程序262。根据一个实施例,语音激活单元252可激活处理器240,所述处理器240又可通过加载并启动语音辅助应用程序262而激活语音辅助应用程序262(如图2中的箭头所指示)。虽然在所说明的实施例中语音激活单元252经配置以激活语音辅助应用程序262,但其还可激活可与激活关键词相关联的电子装置200的任何功能或应用程序。
声音传感器210可经配置以接收输入声音流并将所接收的输入声音流提供到DSP250。声音传感器210可包含可用于接收、捕获、感测及/或检测声音的一或多个麦克风或其它类型的声音传感器。另外,声音传感器210可采用任何合适的软件和/或硬件以执行此类功能。
为了降低电力消耗,声音传感器210可经配置以根据占空比周期性地接收输入声音流。举例来说,声音传感器210可在10%占空比上操作以使得输入声音流在时间的10%(例如,200ms时段中的20ms)经接收。在此情形下,声音传感器210可通过确定所接收的输入声音流的部分是否超过预定阈值声音强度而检测声音。举例来说,可确定所接收的输入声音流的部分的声音强度并且将其与预定阈值声音强度进行比较。如果所接收部分的声音强度超过阈值声音强度,那么声音传感器210可停用占空比功能以继续接收输入声音流的剩余部分。另外,声音传感器210可激活DSP 250并将包含剩余部分的输入声音流的所接收部分提供到DSP 250。
当DSP 250由声音传感器210激活时,语音激活单元252可经配置以自声音传感器210连续接收输入声音流并检测所接收输入声音流中的激活关键词(例如,“开始语音辅助”)以用于激活语音辅助应用程序262。为了检测激活关键词,语音激活单元252可采用基于马尔可夫链模型(例如隐马尔可夫模型(HMM)、半马尔可夫模型(SMM)或其组合)的任何合适的关键词检测方法。
在一个实施例中,存储单元260可存储可用于激活语音辅助应用程序262并执行语音辅助应用程序262的功能的一或多个激活关键词及话音命令的多个词语。另外,存储单元260可存储关于与所述词语的多个部分相关联的多个状态的状态信息。根据一个实施例,激活关键词及话音命令的词语中的每一者可划分成多个基本声音单元(例如,音素、音位或其子单元),且所述词语中的每一者的多个部分可基于所述基本声音单元产生。所述词语中的每一者的每一部分可随后与马尔可夫链模型(例如,HMM、SMM或其组合)下的状态相关联。
存储单元260还可存储可由处理器240接入的语音辅助应用程序262。虽然在所说明的实施例中存储单元260存储语音辅助应用程序262,但其还可存储电子装置200的可由处理器240执行的任何其它应用程序或功能。存储单元260可使用任何合适的存储装置或存储器装置实施,例如,RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)。
当检测到激活关键词之后,语音激活单元252可经配置以缓冲(或临时存储)从DSP250的缓冲存储器254中的声音传感器210接收的输入声音流的一部分。缓冲存储器254可使用处理器中的任何合适的存储或存储器方案,例如,本地存储器或高速缓冲存储器。虽然在所说明的实施例中DSP 250包含缓冲存储器254,但缓冲存储器254可实施为存储单元260中的存储区域。在一些实施例中,缓冲存储器254可使用多个物理存储器区域或多个逻辑存储器区域来实施。
由于输入声音流的部分是从声音传感器210接收的,语音激活单元252可在缓冲存储器254中缓冲话音命令的至少一部分。举例来说,经缓冲部分可包含指示语音辅助应用程序262的功能的话音命令的全部或大部分(例如,“今天天气如何”)。在一些实施例中,可在缓冲存储器254中继续缓冲输入声音流的所接收部分直到检测到话音命令结束为止。
接入缓冲存储器254中的输入声音流的经缓冲部分,语音激活单元252可响应于检测到激活关键词而验证是否激活语音辅助应用程序262。举例来说,语音辅助应用程序262可基于输入声音流的经缓冲部分的声音特性验证是否激活语音辅助应用程序262。如果语音辅助应用程序262的激活经验证,那么语音激活单元252可激活处理器240,所述处理器240又可通过接入存储单元260而激活语音辅助应用程序262。
一旦语音辅助应用程序262由语音激活单元252激活,语音辅助应用程序262可通过使用基于HMM、SMM或其类似者的任何合适的话音辨识方法来辨识话音命令从而执行语音辅助功能。在一个实施例中,语音辅助应用程序262可辨识来自存储于缓冲存储器254中的输入声音流的经缓冲部分的话音命令。在一些实施例中,输入声音流的经缓冲部分可从缓冲存储器254复制到存储单元260或处理器240中的本地存储器(未展示),所述存储单元或本地存储器可由经激活语音辅助应用程序262接入以用于辨识话音命令。
在辨识来自输入声音流的经缓冲部分的话音命令之后,语音辅助应用程序262可执行与所辨识话音命令相关联的功能。举例来说,当接收到用于因特网搜索的话音命令时,语音辅助应用程序262可通过网络270经由通信单元230执行网页搜索。在此情况下,对话音命令的搜索结果可输出于I/O单元220的显示屏幕上。
图3说明根据本发明的一个实施例的包含用于缓冲输入声音流的多个缓冲器单元310和320的缓冲存储器254的详细框图。缓冲器单元310和320可实施为缓冲存储器254中的物理或逻辑存储器块。虽然在所说明的实施例中缓冲存储器254包含两个缓冲器单元310和320,但缓冲存储器254可包含任何合适数目个缓冲器单元。
如果缓冲器单元310和320是使用逻辑存储器块实施的,那么缓冲器单元310和320可共享物理存储器的预定存储器地址范围,其中可缓冲(或存储)用于缓冲器单元310和320的任何合适的信息或数据(例如,所接收输入声音流的一部分)。在此情况下,多个指针可经分配以分别指代存储地址范围中的数据的多个地址或位置。指针可经分配以用于指代针对缓冲器单元310而缓冲的信息或数据,而不同的指针可经分配以用于指代针对缓冲器单元320而缓冲的信息或数据。替代地,同一存储器地址可经分配以用于指代存储于缓冲器单元310和320中的不同数据,且可执行预定数据管理操作以存储、保持、接入及/或检索用于缓冲器单元310和320中的每一者的数据。
在接收到输入声音流时,声音传感器210可将输入声音流提供到DSP 250,所述DSP250可开始在缓冲器单元310中缓冲输入声音流。缓冲器单元310可经配置以缓冲(或临时存储)包含激活关键词的至少一部分的输入声音流以供用于检测激活关键词。语音激活单元252可从缓冲器单元310中的输入声音流的经缓冲部分检测激活关键词。在检测到激活关键词之后,DSP 250可停止在缓冲器单元310中缓冲输入声音流。
当检测到激活关键词时,DSP 250可继续从声音传感器210接收输入声音流并开始在缓冲器单元320中缓冲输入声音流。在一个实施例中,DSP 250可在缓冲器单元320中接收并缓冲(或临时存储)可包含话音命令的至少一部分的输入声音流的一部分。由于在缓冲器单元320中缓冲输入声音流,语音激活单元252可接入缓冲器单元320中的输入声音流的经缓冲部分并基于所缓冲的部分验证是否激活语音辅助应用程序262。
图4说明根据本发明的一个实施例的电子装置200的经配置以基于输入声音流的经缓冲部分而验证是否激活语音辅助应用程序262的语音激活单元252的详细框图。语音激活单元252可包含关键词检测单元410和验证单元420。如所展示,语音激活单元252可从声音传感器210接收输入声音流以用于检测激活关键词并验证是否激活语音辅助应用程序262。缓冲存储器254可缓冲输入声音流的至少一部分以供用于检测激活关键词并验证是否激活语音辅助应用程序262。如上文参考图3所描述,在一个实施例中,缓冲存储器254可包含分别用于缓冲激活关键词的至少一部分和话音命令的至少一部分的缓冲器单元310和320。
由于输入声音流在缓冲存储器254中经接收并缓冲,语音激活单元252中的关键词检测单元410可接入缓冲存储器254并通过使用基于HMM、SMM或其类似者的任何合适的关键词检测方法来检测来自输入声音流的经缓冲部分的激活关键词。在一些实施例中,由于输入声音流经接收并缓冲,关键词检测单元410可通过使用任何合适的概率模型(例如,高斯混合模型(GMM)、神经网络、支持向量机(SVM)及类似者)来确定用于输入声音流的经缓冲部分的多个关键词分数。关键词检测单元410可将关键词分数中的每一者与预定检测阈值分数相比较,并且当关键词分数中的一者超过检测阈值分数时,可从输入声音流的经缓冲部分检测激活关键词。
当检测到激活关键词时,DSP 250可继续从声音传感器210接收输入声音流并开始在缓冲存储器254中缓冲所接收的输入声音流。在此情况下,在缓冲存储器254中缓冲的输入声音流的部分可包含来自电子装置200的用户的话音命令的至少一部分。在一些实施例中,DSP 250可检测来自话音命令的经缓冲部分的话音命令的结束并终止在缓冲存储器254中缓冲输入声音流。可使用任何合适的语音活性检测(VAD)方法来检测话音命令的结束。根据一个实施例,可通过分析输入声音流的经缓冲部分的声音强度而检测话音命令的结束。举例来说,当声音强度减小到小于预定强度值时,可检测到话音命令的结束。另外地或替代地,当检测到声音强度的快速减小(例如,声音强度变化的边缘)时可检测到话音命令的结束。在检测到话音命令结束之后,DSP 250可发指令给语音激活单元252中的验证单元420以验证是否激活语音辅助应用程序262。
当检测到话音命令结束时,验证单元420可接入包含在缓冲存储器254中缓冲的话音命令的至少一部分的输入声音流的部分并基于所缓冲的部分验证是否激活语音辅助应用程序262。在一个实施例中,验证单元420可通过使用任何合适的声音分类方法(例如,基于GMM的分类器、神经网络、HMM、图形模型、SVM技术及类似者)来确定输入声音流的经缓冲部分是否包含话音。如果确定输入声音流的经缓冲部分包含话音,那么验证单元420可验证语音辅助应用程序262的激活。
在一个实施例中,验证单元420可进一步确定输入声音流的经缓冲部分中的话音是否指示激活关键词的说话者。在此情况下,可从激活关键词和输入声音流的经缓冲部分中的话音提取声音特性(例如,声音特征及/或音频指纹)。来自激活关键词的声音特性可接着与来自话音命令的声音特性相比较,且如果声音特性被确定为相同或类似,那么可验证语音辅助应用程序262的激活。
在另一实施例中,验证单元420可确定包含话音命令的部分的输入声音流的经缓冲部分的信噪比(SNR)。在此情况下,当确定经缓冲部分的SNR大于预定阈值SNR时,验证单元420可验证语音辅助应用程序262的激活。在上述实施例中,验证单元420可接入缓冲存储器254以用于验证在检测到话音命令的结束之前或之后是否激活语音辅助应用程序262。
根据一些实施例,话音命令可包含指示撤销激活关键词(例如,“取消(CANCEL)”、“别在意(NEVER MIND)”和“算了吧(FORGET IT)”)的一或多个预定词语。举例来说,靠近电子装置200的个人或用户可意外地或无意地说出激活关键词(例如,“开始语音辅助”)且靠近电子装置200的个人或用户可通过说出此类预定词语而撤销激活关键词从而避免激活语音辅助应用程序262。一或多个撤销词语也可被称作撤销命令。由于在缓冲存储器254中接收并缓冲包含一或多个撤销词语的输入声音流,验证单元420可接入包含撤销词语的经缓冲输入声音流并确定经缓冲输入声音流是否包含此类预定词语。如果确定经缓冲输入声音流包含指示撤销激活关键词的预定词语中的任一者,那么电子装置200可继续运行以接收用于检测激活关键词的下一输入声音流而不激活语音辅助应用程序262。另一方面,如果确定经缓冲输入声音流不包含此类撤销词语,那么可推断出说话者或用户有意说出激活关键词且验证单元420可验证语音辅助应用程序262的激活。
图5说明根据本发明的一个实施例的用于在检测到输入声音流中的激活关键词之后通过缓冲包含话音命令的输入声音流的一部分而激活语音辅助应用程序262的方法500的流程图。在510处,电子装置200可接收包含用于激活语音辅助应用程序262的激活关键词和指示语音辅助应用程序262的功能的话音命令的输入声音流。举例来说,激活关键词可为“开始语音辅助”且话音命令可为“今天天气如何”。
在一个实施例中,所接收的包含激活关键词的至少一部分的输入声音流的一部分可在缓冲存储器254的缓冲器单元310中缓冲。在520处,电子装置200的DSP 250中的语音激活单元252可检测来自在缓冲器单元310中缓冲的输入声音流的部分的激活关键词。在530处,如果检测到激活关键词,那么电子装置200可在缓冲存储器254的缓冲器单元320中缓冲输入声音流的一部分。在缓冲器单元320中缓冲的输入声音流的部分可包含话音命令的至少一部分。
在540处,电子装置200可激活与激活关键词相关联的语音辅助应用程序262。根据一个实施例,语音激活单元252可基于在缓冲器单元320中缓冲的输入声音流的部分验证是否激活语音辅助应用程序262。在此实施例中,当验证语音辅助应用程序262激活时,语音激活单元252可激活语音辅助应用程序262。在语音辅助应用程序262经激活后,在缓冲器单元320中缓冲的输入声音流的部分可由语音辅助应用程序262接入以用于从经缓冲部分辨识话音命令并执行与经辨识话音命令相关联的语音辅助应用程序262的功能。
图6为根据本发明的一个实施例的当在输入声音流610中检测到激活关键词620时缓冲包含话音命令630的输入声音流610的部分642、644或646的时序图600。如所展示,电子装置200可接收包含激活关键词620和话音命令630的输入声音流610。在时序图600中,可从时间T1到时间T2接收输入声音流610中的激活关键词620。因此,时间T1和时间T2可分别对应于输入声音流610中的激活关键词620的开始和结束。随后,可从时间T3到时间T4接收输入声音流610中的话音命令630。在此情形下,时间T3和时间T4可分别对应于输入声音流610中的话音命令630的开始和结束。
输入声音流610可由电子装置200中的声音传感器210接收并被提供到DSP 250以用于检测激活关键词620并验证是否激活语音辅助应用程序262。在一个实施例中,电子装置200的声音传感器210可经配置以基于占空比确定输入声音流610是否包含超过预定声音强度的声音。在此情况下,如果确定所接收输入声音流610包含超过预定声音强度的声音,那么可停用声音传感器210的占空比功能(即,100%占空比)以使得声音传感器210可连续接收输入声音流610并将其提供到DSP 250。
由于输入声音流610是从声音传感器210接收的,DSP 250可在缓冲存储器254的缓冲器单元310中缓冲所接收输入声音流610并检测来自在缓冲器单元310中缓冲的输入声音流610的激活关键词620。如上文参考图4所描述,DSP 250可通过确定在缓冲器单元310中的输入声音流610的经缓冲部分的多个关键词分数并将所述关键词分数与检测阈值分数相比较而检测激活关键词620。在时序图600中,可在接收输入声音流610中的整个激活关键词620之前的时间TD时检测来自输入声音流610的经缓冲部分的激活关键词620。在其它实施例中,可在接收到输入声音流610中的整个激活关键词620之后的时间T2时检测激活关键词620。
当检测到激活关键词620时,DSP 250可开始在缓冲存储器254的缓冲器单元320中缓冲从声音传感器210接收的输入声音流610。在一个实施例中,DSP 250可在时间TD时检测到激活关键词之后开始在缓冲器单元320中缓冲输入声音流610。DSP 250可继续在缓冲器单元320中缓冲输入声音流610直到在时间T4时检测到话音命令630的结束为止。结果,可在时间TD到时间T4的时段期间在缓冲器单元320中缓冲输入声音流610的部分642。
在另一实施例中,在时间T2时检测到语音激活关键词的结束之后,DSP 250可开始在缓冲器单元320中缓冲输入声音流610。举例来说,下文将参考图7详细地描述,DSP250可通过确定缓冲器单元310中的输入声音流610的经缓冲部分的多个关键词分数并将所述关键词分数与结束阈值分数相比较而检测激活关键词620的结束。在一些实施例中,DSP 250中的语音激活单元252可经配置以检测激活关键词620的结束。可缓冲输入声音流610直到在时间T4时检测到话音命令630的结束为止。因此,可在时间T2到时间T4的时段期间在缓冲器单元320中缓冲输入声音流610的部分644。
根据一些实施例,在时间T3时检测到话音命令630的开始之后,DSP 250可开始在缓冲器单元320中缓冲输入声音流610。在此情形下,在时间T2时检测到激活关键词620的结束之后,DSP 250可使用任何合适的VAD方法检测话音命令630的开始。举例来说,在时间T2时检测到激活关键词620的结束之后,DSP 250可在缓冲器单元310中缓冲在时间T2之后所接收的输入声音流610。由于输入声音流610在时间T2之后经缓冲,DSP250可周期性地或不定期地确定经缓冲输入声音流610的声音强度并将所述声音强度与预定阈值声音强度相比较。如果声音强度超过阈值声音强度,那么DSP 250可检测话音命令630的开始。另外或替代地,当检测到声音强度的快速增大(例如,声音强度的变化边缘)时可检测到话音命令630的结束。举例来说,当当前声音强度比前一声音强度大超过预定声音强度时可检测到此增大。在一些实施例中,DSP 250中的语音激活单元252可经配置以检测话音命令630的开始。在所说明的时序图600中,当在时间T3时检测到话音命令630的开始时,DSP 250可在从时间T3到时间T4的时段期间在缓冲器单元320中缓冲输入声音流610的部分646。
如下文将参考图8更详细地描述,虽然时序图600说明在缓冲器单元320中缓冲输入声音流610的部分642、644或646直到检测到话音命令630的结束为止,但DSP 250可在检测到话音命令630的结束之前终止在缓冲器单元320中缓冲输入声音流610。因此,在缓冲器单元320中缓冲的输入声音流610的部分642、644或646可包含话音命令630的至少一部分。当输入声音流610的部分642、644或646在缓冲器单元320中经缓冲时,语音激活单元252可基于输入声音流610的经缓冲部分642、644或646验证是否激活语音辅助应用程序262。
图7为说明根据本发明的一个实施例的经确定用于检测来自输入声音流的激活关键词和输入声音流中的激活关键词的结束的输入声音流的关键词分数的变化的曲线图。输入声音流可由电子装置200中的声音传感器210接收并提供到DSP 250。由于输入声音流是从声音传感器210接收的,DSP 250可在缓冲存储器254的缓冲器单元310中缓冲所接收的输入声音流。对于检测来自输入声音流的激活关键词和输入声音流中的激活关键词的结束,DSP 250的语音激活单元252中的关键词检测单元410可周期性地或不定期地确定在缓冲器单元310中缓冲的输入声音流的多个关键词分数。
在一个实施例中,由于输入声音流经接收并缓冲,关键词检测单元410可从经缓冲输入声音流连续提取多个声音特征(例如,音频指纹或MFCC(Mel频率倒谱系数)向量)。在此情况下,关键词分数可通过使用基于马尔可夫链模型(例如,HMM、SMM或其类似者)的任何合适的关键词检测方法来确定声音特征中的一或多者。由于输入声音流中的激活关键词的更多部分经接收并缓冲,关键词分数可增大,且当接收到激活关键词的大体上整个部分时可达到最大关键词分数。在图7中所说明的实例中,关键词分数在接收并缓冲输入声音流中的激活关键词的大体上整个部分的时间TM时达到最大关键词分数,且然后减小。
关键词分数中的每一者可与预定检测阈值分数相比较。当关键词分数中的至少一者超过检测阈值分数时,关键词检测单元410可检测激活关键词。检测阈值分数可指示用于确保检测包含于在缓冲器单元310中缓冲的输入声音流中的激活关键词的分数。在一些实施例中,可设定检测阈值分数以使得当激活关键词的一部分包含于输入声音流中时检测激活关键词。举例来说,当接收到激活关键词“开始语音辅助”时,关键词检测单元410可检测来自激活关键词的第一部分的激活关键词,例如,在缓冲器单元310中缓冲的“开始语音辅助”。在其它实施例中,可设定检测阈值分数以使得当整个激活关键词包含于输入声音流中时(例如,当接收到激活关键词的结束时)检测激活关键词分数。在图7中所说明的实例中,当接收并缓冲激活关键词的第一部分时,设定检测阈值分数以使得关键词检测单元410可在时间TD时检测激活关键词。
另外,DSP 250可检测输入声音流中的激活关键词的结束。如上文参看图6所描述,检测到激活关键词的结束之后,DSP 250可开始在缓冲存储器254的缓冲器单元320中缓冲可包含话音命令的至少一部分的输入声音流的一部分。在一个实施例中,在时间TD检测到激活关键词之后,DSP 250可继续在缓冲存储器254的缓冲器单元310中缓冲从声音传感器210接收的输入声音流。DSP 250可基于针对在缓冲器单元310中缓冲的输入声音流所确定的关键词分数中的一或多者而检测激活关键词的结束。
在一个实施例中,DSP 250可基于从在缓冲器单元310中缓冲的输入声音流的连续部分提取的声音特征而计算多个关键词分数。又,DSP 250可确定多个关键词分数中的最大关键词分数以用于检测激活关键词的结束。举例来说,DSP 250可确定待在接收到对应于最大关键词分数的输入声音流的一部分的时间之前的预定时间段时检测的激活关键词的结束。在图7中所说明的实例中,当由于针对在时间TM时接收的输入声音流的一部分而计算最大关键词分数预定时间段P流逝时,DSP 250可确定待在时间TE1检测的激活关键词的结束。
在另一实施例中,在确定最大关键词分数之后,DSP 250可通过将随后确定的关键词分数与预定结束阈值分数相比较而检测激活关键词的结束。在此情形下,当随后确定的关键词分数中的一者经确定为小于结束阈值分数时,可检测激活关键词的结束。在图7的实例中,DSP 250确定针对在时间TM时所接收的输入声音流的一部分而计算的最大关键词分数,且接着在时间TE2时检测激活关键词的结束,由此得出关键词分数小于结束阈值分数。
图8为根据本发明的一个实施例的响应于验证是否激活语音辅助应用程序262而激活语音辅助应用程序262的时序图800。与图6中的时序图600类似,电子装置200可接收包含激活关键词820和话音命令830的输入声音流810。在时序图800中,可从时间T1到时间T2接收输入声音流810中的激活关键词820。因此,时间T1和时间T2可分别对应于输入声音流810中的激活关键词820的开始和结束。随后,可从时间T3到时间T4接收输入声音流810中的话音命令830。因此,时间T3和时间T4可分别对应于输入声音流810中的话音命令830的开始和结束。
在声音传感器210接收输入声音流810并向处理器240中的DSP 250提供所接收输入声音流时,DSP 250可在缓冲存储器254的缓冲器单元310中缓冲可包含激活关键词820的至少一部分的输入声音流810的一部分。此外,DSP 250可在缓冲存储器254的缓冲器单元320中缓冲可包含话音命令830的至少一部分的输入声音流810的另一部分。当在时间T4检测到话音命令830的结束时,DSP 250可终止在缓冲器单元320中缓冲输入声音流810的部分。DSP 250中的语音激活单元252可接着基于在缓冲器单元320中缓冲的输入声音流810的部分而验证是否激活语音辅助应用程序262。如果语音辅助应用程序262的激活经验证,那么语音激活单元252可激活语音辅助应用程序262。
在一个实施例中,当DSP 250在时间T4时终止在缓冲器单元320中缓冲输入声音流810的部分且语音激活单元252基于在缓冲器单元320中缓冲的输入声音流810的部分而验证语音辅助应用程序262的激活时,语音激活单元252可激活处理器240,所述处理器又可加载语音辅助应用程序262(如图8中的箭头840所指示)。根据一些实施例,语音辅助应用程序262可最初存储于存储单元260中,例如,ROM、EEPROM或快闪存储器。又,处理器240可将所存储的语音辅助应用程序262加载到临时存储器(或工作存储器)中,例如,高速缓冲存储器或RAM,所述存储器可由处理器240快速接入。
一旦语音辅助应用程序262被加载,处理器240便启动语音辅助应用程序262以用于辨识话音命令830并执行与所辨识话音命令830相关联的语音辅助应用程序262的功能。处理器240可通过执行在加载到临时存储器中的语音辅助应用程序262中译码的一或多个指令而启动语音辅助应用程序262。另外,经启动语音辅助应用程序262的当前状态可由I/O单元220输出以用于向电子装置200的用户显示。
在另一实施例中,在时间TD时检测到激活关键词820之后,语音激活单元252可激活处理器240以开始加载语音辅助应用程序262(如图8中的箭头850所指示)。在此情形下,DSP 250可在时间T4时终止在缓冲器单元320中缓冲输入声音流810的部分且接着基于在缓冲器单元320中缓冲的输入声音流810的部分而验证是否激活经加载语音辅助应用程序262。如果语音辅助应用程序262的激活经验证,那么处理器240可在完成加载语音辅助应用程序262之后启动语音辅助应用程序262。
在上述实施例中,由处理器240的语音辅助应用程序262的加载可在时间TD检测到激活关键词820之后开始,且可在DSP 250在时间T4时终止在缓冲器单元320中缓冲输入声音流810的部分之前完成。举例来说,如图8中所展示,可在时间T4时检测到话音命令830的结束之前的时间TL时完成语音辅助应用程序262的加载。在此情况下,可在语音激活单元252基于输入声音流810的经缓冲部分验证是否激活语音辅助应用程序262之前完成语音辅助应用程序262的加载。因此,如果语音辅助应用程序262的激活经验证,那么处理器240可启动语音辅助应用程序262而不用等待加载语音辅助应用程序262。
根据一些实施例,如果在接收到话音命令830的结束之前(例如,时间TL时)由处理器240完成语音辅助应用程序262的加载,那么在完成语音辅助应用程序262的加载之后,DSP 250可终止在缓冲器单元320中缓冲输入声音流810的一部分。DSP 250终止在缓冲器单元320中缓冲输入声音流810的部分之后,处理器240可开始缓冲随后从(例如,存储单元260中的)声音传感器210接收的输入声音流810的另一部分。结果,在缓冲器单元320中缓冲的输入声音流810的部分可包含话音命令830的第一部分,且在存储单元260中缓冲的输入声音流810的部分可包含话音命令830的第一部分之后的第二部分。在缓冲器单元320和存储单元260中缓冲的输入声音流810的部分可用于由语音辅助应用程序262辨识话音命令830以用于执行与话音命令830相关联的功能。
当DSP 250终止在缓冲器单元320中缓冲输入声音流810的部分时,语音激活单元252可基于在缓冲器单元320中缓冲的包含话音命令830的第一部分的输入声音流810的部分而验证是否激活语音辅助应用程序262。如果语音辅助应用程序262的激活经验证,那么处理器240可启动语音辅助应用程序262,所述语音辅助应用程序262可接入在缓冲器单元320和存储单元260中缓冲的输入声音流810的两个部分。另外地或替代地,在缓冲器单元320中缓冲的输入声音流810的部分可经发射或复制到存储单元260,使得语音辅助应用程序262可接入来自存储单元260的话音命令830的第一和第二部分。
图9为说明根据本发明的一个实施例的经确定以用于基于第一检测阈值分数加载语音辅助应用程序262及基于第二检测阈值分数来验证语音辅助应用程序262的加载的输入声音流的关键词分数的变化的曲线图。输入声音流可由电子装置200中的声音传感器210接收并经提供到DSP 250,所述DSP 250可在缓冲存储器254的缓冲器单元310中缓冲从声音传感器210接收的输入声音流的一部分。在缓冲器单元310中缓冲的输入声音流的部分可包含激活关键词的至少一部分。DSP 250的语音激活单元252中的关键词检测单元410可从输入声音流的经缓冲部分提取多个声音特征并确定用于多个声音特征的多个关键词分数。
在所说明的实施例中,关键词检测单元410可经配置以将关键词分数中的每一者与第一检测阈值分数相比较。第一检测阈值分数可指示用于确保包含于输入声音流的经缓冲部分中的激活关键词的检测的关键词分数具有相对低可信度。如果多个关键词分数中的一者(例如,针对在图9中时间TD1时所接收的输入声音流的一部分而确定的)经确定超过第一检测阈值分数,那么可推断出激活关键词经检测来自输入声音流具有相对低可信度。检测到激活关键词之后,关键词检测单元410可激活处理器240以开始将语音辅助应用程序262从存储单元260加载到可由处理器240快速接入的临时存储器(或工作存储器)。
当加载语音辅助应用程序262时,DSP 250可继续从声音传感器210接收输入声音流并在缓冲器单元310中缓冲可包含激活关键词的至少一部分的输入声音流的一部分。当加载语音辅助应用程序262时,关键词检测单元410可基于在缓冲器单元310中缓冲的输入声音流的部分而验证语音辅助应用程序262的加载。举例来说,关键词检测单元410可确定用于输入声音流的经缓冲部分的多个关键词分数并将多个关键词分数中的每一者与第二检测阈值分数相比较。第二检测阈值分数可指示用于确保包含于输入声音流中的激活关键词的检测的关键词分数具有相对高可信度。因此,如图9的曲线图中所说明,第二检测阈值分数可设定成大于第一检测阈值分数。
如果多个关键词分数中的一者经确定超过第二检测阈值分数(例如,在图9中的时间TD2时),那么可推断出激活关键词经检测来自输入声音流且语音辅助应用程序262的加载可经验证具有相对高可信度。在此情况下,关键词检测单元410可发指令给处理器240以继续加载语音辅助应用程序262。随后,DSP 250可继续从声音传感器210接收输入声音流并在缓冲存储器254的缓冲器单元320中缓冲可包含话音命令的至少一部分的输入声音流的一部分。语音激活单元252中的验证单元420可接着基于在缓冲器单元320中缓冲的输入声音流的部分验证是否激活语音辅助应用程序262以用于以上文关于图8所描述的方式来启动语音辅助应用程序262。另一方面,如果多个关键词分数中没有一个经确定超过第二检测阈值分数,那么可推断出输入声音流不包含激活关键词。在此情况下,电子装置200可继续运行以接收用于检测激活关键词的下一输入声音流而不启动语音辅助应用程序262。
在一些实施例中,当用户说出用于激活电子装置的目标应用程序的激活关键词时,电子装置可基于由电子装置中的一或多个情境传感器产生的环境信息而验证是否激活目标应用程序。图10说明根据本发明的一个实施例的响应于检测到输入声音流中的激活关键词而激活网页浏览器应用程序1010的移动装置120。与图1的实施例类似,移动装置120可预先存储用于激活移动装置120中的网页浏览器应用程序1010的激活关键词。在所说明的实施例中,当用户110对移动装置120说出激活关键词(例如,“开始浏览器”)时,移动装置120可捕获输入声音流并检测输入声音流中的激活关键词。
移动装置120可包含各自经配置以产生指示移动装置120的情境的传感器数据的一或多个情境传感器。如本文所使用,术语电子装置的“情境”可指代其中装置位于(例如)街道、办公室、汽车、餐馆、运输设施及类似者的环境。术语“情境”还可指代装置或其用户参与的活动或情境,例如,处于黑暗环境中,在家睡觉,观看电视节目,收听音乐,在运动场踢足球,及类似者。举例来说,一或多个情境传感器可包含图像传感器1020,例如,安装在包含显示屏幕1030的移动装置120的表面上的相机,如图10中所展示。图像传感器1020可经配置以通过捕获输入图像而产生传感器数据。举例来说,当用户110时查看显示屏幕1030时,所捕获的输入图像可包含用户110的脸部的一部分(例如,用户110的眼睛)。在一些实施例中,在检测到激活关键词之后,图像传感器1020可捕获输入图像且移动装置120可在存储器单元中将所捕获的输入图像缓冲为传感器数据。
当用于激活网页浏览器应用程序1010的激活关键词经检测来自输入声音流时,移动装置120可基于由图像传感器1020产生的传感器数据而验证是否激活网页浏览器应用程序1010。举例来说,移动装置120可通过确定由图像传感器1020捕获的输入图像是否包含人(例如,用户110)的至少一个眼睛而验证是否激活网页浏览器应用程序1010。如果确定输入图像包含人的至少一个眼睛,那么移动装置120验证网页浏览器应用程序1010的激活并激活网页浏览器应用程序1010。激活之后,网页浏览器应用程序1010可显示于显示屏幕1030上,以使得用户110可查看由网页浏览器应用程序1010显示的网页。另一方面,如果经确定输入图像不包含人的任何眼睛,那么网页浏览器应用程序1010的激活不经验证且移动装置120可继续运行以接收用于检测激活关键词的下一输入声音流。
图11说明根据本发明的一个实施例的经配置以基于由电子装置1100中的情境传感器1120产生的传感器数据而激活网页浏览器应用程序1130的电子装置1100的框图。电子装置1100可包含传感器单元1110、I/O单元220、通信单元230、处理器240和存储单元260。传感器单元1110可包含声音传感器210和情境传感器1120。处理器240可包含DSP 250,所述DSP 250可包含语音激活单元252和缓冲存储器254。在所说明的实施例中,声音传感器210、I/O单元220、通信单元230、处理器240、DSP 250、语音激活单元252、缓冲存储器254和存储单元260可具有与包含于图2的电子装置200中的那些组件类似的配置或功能。另外,电子装置1100可为具有声音捕获及处理能力的任何合适的装置,例如,蜂窝式电话、智能电话(例如,移动装置120)、个人计算机、膝上型计算机、平板计算机、智能电视机、游戏装置、多媒体播放器、智能眼镜、可穿戴计算机等。
声音传感器210可接收输入声音流并将所接收的输入声音流提供到DSP 250。由于输入声音流是从声音传感器210接收的,DSP 250中的语音激活单元252可从所接收的输入声音流检测用于激活网页浏览器应用程序1130的激活关键词(例如,“开始浏览器”)。对于检测激活关键词,语音激活单元252可采用基于马尔可夫链模型(例如,HMM、SMM或其组合)的任何合适的关键词检测方法。
在一个实施例中,存储单元260可存储用于关键词检测的任何合适的信息及/或数据,例如,在马尔可夫链模型(例如,HMM、SMM或其类似者)下的激活关键词的多个状态的状态信息。存储单元260还可存储网页浏览器应用程序1130,所述网页浏览器应用程序1130可由处理器240接入。虽然在所说明的实施例中存储单元260存储网页浏览器应用程序1130,其还可存储电子装置1100的任何其它应用程序或功能,例如,相机应用程序、备忘录应用程序、日历应用程序、音乐播放器应用程序和类似者。
传感器单元1110中的情境传感器1120可包含各自经配置以产生指示电子装置1100的情境的传感器数据的一或多个传感器。举例来说,情境传感器1120可包含经配置以捕获输入图像作为传感器数据的相机传感器。相机传感器可安装在包含I/O单元220的显示屏幕的电子装置1100的表面上,使得相机传感器可捕获包含面对显示屏幕的人(例如,用户110)的一个或两个眼睛的图像。另外或替代地,情境传感器1120可包含任何其它合适的传感器,例如,照明传感器、近程传感器、位置传感器(例如,全球定位系统(GPS))、加速度计、运动传感器、接触传感器及类似者。在一些实施例中,声音传感器210可进一步经配置以通过捕获环境声音而产生指示电子装置1100的情境的传感器数据。
在检测到激活关键词之后,情境传感器1120可将传感器数据提供到DSP 250,所述DSP 250可在缓冲存储器254中缓冲传感器数据。语音激活单元252可基于经缓冲传感器数据验证是否激活网页浏览器应用程序1130。举例来说,DSP 250可从情境传感器1120的相机传感器接收作为传感器数据的输入图像。此外,语音激活单元252可基于输入图像验证是否激活网页浏览器应用程序1130。
在一个实施例中,语音激活单元252可通过确定输入图像是否包含人的至少一个眼睛而验证是否激活网页浏览器应用程序1130。如果确定输入图像包含人的至少一个眼睛,那么语音激活单元252可激活处理器240,所述处理器240又可激活网页浏览器应用程序1130。另一方面,如果确定输入图像不包含人的任何眼睛,那么网页浏览器应用程序1130的激活不经验证且电子装置1100可继续运行以接收用于检测激活关键词的下一输入声音流。
在一些实施例中,在缓冲存储器254中缓冲传感器数据并激活网页浏览器应用程序1130的操作可以如上文参考图6和图8所描述的类似的方式来执行。另外,虽然电子装置1100通过基于传感器数据(例如,由相机传感器捕获的输入图像)验证网页浏览器应用程序1130的激活而激活网页浏览器应用程序1130,但电子装置1100还可经配置以通过基于由任何其它合适的情境传感器产生的传感器数据验证是否激活应用程序而激活任何其它合适的应用程序。在一个实施例中,当基于来自情境传感器1120中的照明传感器的传感器数据验证相机应用程序的激活时,电子装置1100可激活相机应用程序。举例来说,当来自照明传感器的传感器数据指示电子装置1100的环境足够明亮以可见时,语音激活单元252可验证相机应用程序的激活。如果相机应用程序的激活经验证,那么语音激活单元252可激活处理器240以启动相机应用程序。
图12说明根据本发明的一个实施例的用于通过检测激活关键词并基于指示电子装置1100的情境的传感器数据验证是否激活目标应用程序而激活目标应用程序的方法1200的流程图。在1210处,电子装置1100可接收包含用于激活目标应用程序的激活关键词的输入声音流。举例来说,激活关键词可为“开始浏览器”且目标应用程序可为如上文参考图11所描述的网页浏览器应用程序1130。
在一个实施例中,所接收的包含激活关键词的至少一部分的输入声音流的一部分可在DSP 250中的缓冲存储器254中缓冲。在1220处,DSP 250中的语音激活单元252可检测来自在缓冲存储器254中缓冲的输入声音流的部分的激活关键词。在1230处,如果检测到激活关键词,那么电子装置1100中的一或多个情境传感器可产生指示电子装置1100的情境的传感器数据。可在缓冲存储器254中缓冲所产生的传感器数据。
在1240处,语音激活单元252可基于传感器数据验证是否激活目标应用程序。如果语音激活单元252验证目标应用程序的激活(即,在1240处为“是”),那么语音激活单元252可在1250处激活目标应用程序。另一方面,未验证目标应用程序的激活(即,在1240处为“否”),方法1200进行到1210以使得电子装置1100可接收用于检测激活关键词的下一输入声音流。
图13为其中可根据本发明的一些实施例来实施用于在检测到激活关键词之后激活目标应用程序的方法和设备的示范性电子装置1300的框图。电子装置1300的配置可以根据参考图1至12所描述的上述实施例的电子装置来实施。电子装置1300可为蜂窝式电话、智能电话、平板计算机、膝上型计算机、终端机、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等。无线通信系统可为码分多址接入(CDMA)系统、移动通信(GSM)系统的广播系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、高级LTE系统等。另外,电子装置1300可(例如)使用Wi-Fi直连或蓝牙直接与另一移动装置通信。
电子装置1300能够经由接收路径和发射路径提供双向通信。在接收路径上,由基站发射的信号被天线1312接收,并且被提供到接收器(RCVR)1314。接收器1314调节并数字化所接收信号,且将例如经调节和经数字化数字信号的样本提供到数字段以供进一步处理。在发射路径上,发射器(TMTR)1316从数字段1320接收待发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线1312发射到基站。接收器1314和发射器1316可为可支持CDMA、GSM、LTE、高级LTE等的收发器的一部分。
数字段1320包含各种处理、接口和存储器单元,例如,调制解调器处理器1322、精简指令集计算机/数字信号处理器(RISC/DSP)1324、控制器/处理器1326、内部存储器1328、广义音频/视频编码器1332、广义音频解码器1334、图形/显示处理器1336,以及外部总线接口(EBI)1338。调制解调器处理器1322可执行用于数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP 1324可执行电子装置1300的通用和专用处理。控制器/处理器1326可执行数字段1320内的各种处理和接口单元的操作。内部存储器1328可存储用于数字段1320内的各种单元的数据和/或指令。
通用音频/视频编码器1332可执行对来自音频/视频源1342、麦克风1344、图像传感器1346等的输入信号的编码。通用音频解码器1334可执行对经译码音频数据的解码,且可将输出信号提供到扬声器/头戴式耳机1348。图形/显示处理器1336可执行对可呈现到显示单元1350的图形、视频、图像和文本的处理。EBI 1338可以促进数字段1320与主存储器1352之间的数据传送。
数字段1320可用一或多个处理器、DSP、微处理器、RISC等实施。数字段1320还可制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
一般来说,本文中所描述的任何装置可表示各种类型的装置,例如无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内置调制解调器、通过无线通道通信的装置等。装置可具有各种名称,例如接入终端(AT)、接入单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中描述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
可通过各种装置实施本文中所描述的技术。举例来说,这些技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的公开内容描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚说明硬件与软件的此可互换性,上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。所述功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解译为引起对本发明的范围的偏离。
对于硬件实施方案,用以执行所述技术的处理单元可在以下各者内实施:一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机,或其组合。
因此,结合本文中的公开内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。
如果实施于软件中,那么可将功能作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含有助于将计算机程序从一处传送到另一处的任何媒体。存储媒体可以是可由计算机接入的任何可用媒体。借助于实例而非限制,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用以携载或存储呈指令或数据结构形式的所要程序代码且可由计算机接入的任何其它媒体。此外,任何连接都恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或例如红外线、无线电及微波的无线技术从网站、服务器或其它远程源发射软体,那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波的无线技术包含于媒体的定义中。如本文所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述的组合应包含于计算机可读媒体的范围内。
提供本发明的先前描述以使所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此,本发明并不既定限于本文中所描述的实例,而应符合与本文中所公开的原理及新颖特征相一致的最广泛范围。
虽然示范性实施方案是指利用在一或多个独立计算机系统的情境下的当前公开的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。此外,当前公开的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可类似地跨越多个装置影响存储。此类装置可包含PC、网络服务器和手持式装置。
虽然已以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所界定的标的物未必限于上文所描述的特定特征或动作。事实上,公开上文所描述的特定特征和动作作为实施权利要求书的实例形式。

Claims (15)

1.一种在电子装置中执行的用于激活语音辅助应用程序的方法,所述语音辅助应用程序为经配置以辨识话音命令并执行与所述话音命令相关联的功能的应用程序,所述方法包括:
接收包含用于激活所述语音辅助应用程序的激活关键词和跟随所述激活关键词之后的一部分的输入声音流,所述部分包含指示所述语音辅助应用程序的功能的话音命令的至少一部分;
检测来自所述输入声音流的所述激活关键词;
响应于检测到所述激活关键词,启动在缓冲存储器中缓冲包含跟随所述激活关键词的至少一部分的所述输入声音流的一部分;及
在启动缓冲之后,基于所述输入声音流的经缓冲部分验证是否激活所述语音辅助应用程序,且如果激活所述语音辅助应用程序经验证,激活所述语音辅助应用程序以执行所述语音辅助应用程序的所述功能。
2.根据权利要求1所述的方法,其中检测所述激活关键词包括检测来自所述输入声音流中的所述激活关键词的一部分的所述激活关键词,其中缓冲所述输入声音流的所述部分包括响应于检测到来自所述激活关键词的所述部分的所述激活关键词而缓冲所述输入声音流的所述部分。
3.根据权利要求1所述的方法,其进一步包括检测所述输入声音流中的所述激活关键词的结束,且其中缓冲所述输入声音流的所述部分包括响应于检测到所述激活关键词的所述结束而缓冲所述输入声音流的所述部分。
4.根据权利要求1所述的方法,其进一步包括检测所述输入声音流中的所述话音命令的开始,且其中缓冲所述输入声音流的所述部分包括响应于检测到所述话音命令的所述开始而缓冲所述输入声音流的所述部分。
5.根据权利要求1所述的方法,其中验证是否激活所述语音辅助应用程序包括确定所述输入声音流的所述经缓冲部分是否包含话音。
6.根据权利要求5所述的方法,其中验证是否激活所述语音辅助应用程序进一步包括确定所述输入声音流的所述经缓冲部分中的所述话音是否指示所述激活关键词的说话者。
7.根据权利要求1所述的方法,其中验证是否激活所述语音辅助应用程序包括确定所述输入声音流的所述经缓冲部分的信噪比SNR是否超过预定阈值。
8.根据权利要求1所述的方法,其中验证是否激活所述语音辅助应用程序包括确定所述输入声音流的所述经缓冲部分是否包含指示撤销所述激活关键词的预定撤销命令。
9.根据权利要求2所述的方法,其中检测所述激活关键词包括检测来自所述输入声音流中的所述激活关键词的一部分的所述激活关键词,且其中激活所述语音辅助应用程序包括:
响应于检测到来自所述激活关键词的所述部分的所述激活关键词而加载所述语音辅助应用程序;及
响应于验证所述语音辅助应用程序的激活而启动所述语音辅助应用程序。
10.根据权利要求1所述的方法,其中激活所述语音辅助应用程序包括:
辨识来自所述输入声音流的所述经缓冲部分的所述话音命令;及
响应于所述话音命令执行所述语音辅助应用程序的所述功能。
11.一种包含用于激活语音辅助应用程序的指令的非暂时性计算机可读存储媒体,所述指令使得电子装置的处理器执行前述权利要求的任一者的方法。
12.一种用于激活语音辅助应用程序的电子装置,所述语音辅助应用程序为经配置以辨识话音命令并执行与所述话音命令相关联的功能的应用程序,其包括:
用于接收包含用于激活所述语音辅助应用程序的激活关键词和指示所述语音辅助应用程序的功能的话音命令的输入声音流的装置;
用于检测来自所述输入声音流的所述激活关键词并验证是否激活所述语音辅助应用程序以执行所述语音辅助应用程序的所述功能的装置;
用于响应于检测到所述激活关键词在验证是否激活所述语音辅助应用程序之前启动存储跟随所述激活关键词的所述输入声音流的一部分的装置,所述输入声音流的所述部分包含所述话音命令的至少一部分;以及
用于在验证所述语音辅助应用程序的激活之后激活所述语音辅助应用程序的装置。
13.根据权利要求12所述的电子装置,其中用于检测所述激活关键词并激活所述语音辅助应用程序的所述装置经配置以检测来自所述输入声音流中的所述激活关键词的一部分的所述激活关键词,且其中用于存储所述输入声音流的所述部分的所述装置经配置以响应于检测到来自所述激活关键词的所述部分的所述激活关键词而存储所述输入声音流的所述部分。
14.根据权利要求12所述的电子装置,其中用于检测所述激活关键词并激活所述语音辅助应用程序的所述装置经配置以:
基于所述输入声音流的所述经存储部分验证是否激活所述语音辅助应用程序;
检测来自所述输入声音流中的所述激活关键词的一部分的所述激活关键词;
响应于检测到来自所述激活关键词的所述部分的所述激活关键词而加载所述语音辅助应用程序;及
响应于验证所述语音辅助应用程序的激活而启动所述语音辅助应用程序。
15.根据权利要求12所述的电子装置,其中用于接收的所述装置、用于检测的所述装置和用于启动的所述装置经集成到移动通信装置中。
CN201580019961.XA 2014-04-21 2015-04-02 用于通过话音输入激活应用程序的方法和设备 Active CN106233376B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/257,814 2014-04-21
US14/257,814 US10770075B2 (en) 2014-04-21 2014-04-21 Method and apparatus for activating application by speech input
PCT/US2015/024155 WO2015164047A1 (en) 2014-04-21 2015-04-02 Method and apparatus for activating application by speech input

Publications (2)

Publication Number Publication Date
CN106233376A CN106233376A (zh) 2016-12-14
CN106233376B true CN106233376B (zh) 2020-07-17

Family

ID=52988459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580019961.XA Active CN106233376B (zh) 2014-04-21 2015-04-02 用于通过话音输入激活应用程序的方法和设备

Country Status (8)

Country Link
US (1) US10770075B2 (zh)
EP (2) EP3134896B1 (zh)
JP (1) JP2017520012A (zh)
KR (1) KR20160145766A (zh)
CN (1) CN106233376B (zh)
BR (1) BR112016024417A2 (zh)
ES (1) ES2818085T3 (zh)
WO (1) WO2015164047A1 (zh)

Families Citing this family (177)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
CN104427350A (zh) * 2013-08-29 2015-03-18 中兴通讯股份有限公司 关联内容处理方法及系统
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102281178B1 (ko) * 2014-07-09 2021-07-23 삼성전자주식회사 멀티-레벨 음성 인식 방법 및 장치
US10229686B2 (en) * 2014-08-18 2019-03-12 Nuance Communications, Inc. Methods and apparatus for speech segmentation using multiple metadata
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10319184B2 (en) * 2015-04-03 2019-06-11 Cfph, Llc Aggregate tax liability in wagering
BR112017021673B1 (pt) * 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105488112B (zh) * 2015-11-20 2019-09-17 小米科技有限责任公司 信息推送方法及装置
US9946862B2 (en) * 2015-12-01 2018-04-17 Qualcomm Incorporated Electronic device generating notification based on context data in response to speech phrase from user
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10388280B2 (en) * 2016-01-27 2019-08-20 Motorola Mobility Llc Method and apparatus for managing multiple voice operation trigger phrases
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
GB2551209B (en) * 2016-06-06 2019-12-04 Cirrus Logic Int Semiconductor Ltd Voice user interface
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
AU2017100589B4 (en) * 2016-06-11 2017-08-31 Apple Inc. Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018097969A1 (en) * 2016-11-22 2018-05-31 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US20180174574A1 (en) * 2016-12-19 2018-06-21 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN108345777A (zh) * 2017-01-24 2018-07-31 中兴通讯股份有限公司 用户声音信息的识别方法及装置
CN107146611B (zh) * 2017-04-10 2020-04-17 北京猎户星空科技有限公司 一种语音响应方法、装置及智能设备
US10313782B2 (en) * 2017-05-04 2019-06-04 Apple Inc. Automatic speech recognition triggering system
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10395650B2 (en) 2017-06-05 2019-08-27 Google Llc Recorded media hotword trigger suppression
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10887123B2 (en) 2017-10-19 2021-01-05 Libre Wireless Technologies, Inc. Multiprotocol audio/voice internet-of-things devices and related system
US10531247B2 (en) * 2017-10-19 2020-01-07 Libre Wireless Technologies Inc. Internet-of-things devices and related methods for performing in-call interactions
CN107808670B (zh) 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN108010515B (zh) * 2017-11-21 2020-06-30 清华大学 一种语音端点检测和唤醒方法及装置
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
CN108231076A (zh) * 2018-01-04 2018-06-29 广州视源电子科技股份有限公司 一种语音控制方法、装置、设备及存储介质
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108305626A (zh) * 2018-01-31 2018-07-20 百度在线网络技术(北京)有限公司 应用程序的语音控制方法和装置
US10964311B2 (en) * 2018-02-23 2021-03-30 Kabushiki Kaisha Toshiba Word detection system, word detection method, and storage medium
US11765104B2 (en) * 2018-02-26 2023-09-19 Nintex Pty Ltd. Method and system for chatbot-enabled web forms and workflows
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
US20190295540A1 (en) * 2018-03-23 2019-09-26 Cirrus Logic International Semiconductor Ltd. Voice trigger validator
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108563468B (zh) * 2018-03-30 2021-09-21 深圳市冠旭电子股份有限公司 一种蓝牙音箱数据处理的方法、装置及蓝牙音箱
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
CN108492827B (zh) 2018-04-02 2019-07-30 百度在线网络技术(北京)有限公司 应用程序的唤醒处理方法、装置及存储介质
CN117392977A (zh) 2018-04-16 2024-01-12 谷歌有限责任公司 自动确定通过自动化助理接口接收的口头话语的语音识别的语言
CN116959420A (zh) 2018-04-16 2023-10-27 谷歌有限责任公司 自动地确定用于经由自动化助理接口接收的口头话语的语音辨识的语言
KR102612835B1 (ko) * 2018-04-20 2023-12-13 삼성전자주식회사 전자 장치 및 전자 장치의 기능 실행 방법
EP3564949A1 (en) * 2018-04-23 2019-11-06 Spotify AB Activation trigger processing
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
TWI679632B (zh) * 2018-05-09 2019-12-11 和碩聯合科技股份有限公司 語音偵測方法以及語音偵測裝置
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
JP2019204025A (ja) * 2018-05-24 2019-11-28 レノボ・シンガポール・プライベート・リミテッド 電子機器、制御方法、及びプログラム
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
JP2021144065A (ja) * 2018-06-12 2021-09-24 ソニーグループ株式会社 情報処理装置および情報処理方法
CN109151564B (zh) * 2018-09-03 2021-06-29 海信视像科技股份有限公司 基于麦克风的设备控制方法及装置
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3657303B1 (en) 2018-11-23 2022-05-11 Société BIC Writing instrument serving as a mechanical remote control for an electronic device
US11049496B2 (en) * 2018-11-29 2021-06-29 Microsoft Technology Licensing, Llc Audio pipeline for simultaneous keyword spotting, transcription, and real time communications
US11151993B2 (en) * 2018-12-28 2021-10-19 Baidu Usa Llc Activating voice commands of a smart display device based on a vision-based mechanism
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
CN110047487B (zh) * 2019-06-05 2022-03-18 广州小鹏汽车科技有限公司 车载语音设备的唤醒方法、装置、车辆以及机器可读介质
CN112073862B (zh) * 2019-06-10 2023-03-31 美商楼氏电子有限公司 数字处理器、麦克风组件和对关键字进行检测的方法
CN110459223B (zh) * 2019-07-05 2024-04-02 中国平安财产保险股份有限公司 数据跟踪处理方法、设备、存储介质及装置
EP3792914A3 (en) * 2019-09-12 2021-05-05 Orcam Technologies Ltd. Wearable apparatus and methods for processing audio signals
DE112019007659T5 (de) * 2019-09-24 2022-05-25 Lg Electronics Inc. Bildanzeigevorrichtung und Spracherkennungsverfahren dafür
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
WO2021147018A1 (en) * 2020-01-22 2021-07-29 Qualcomm Incorporated Electronic device activation based on ambient noise
US11587564B2 (en) 2020-04-20 2023-02-21 Rovi Guides, Inc. Enhancing signature word detection in voice assistants
CN111597947A (zh) * 2020-05-11 2020-08-28 浙江大学 一种基于电源功率因数矫正噪声的应用程序推断方法
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11778361B1 (en) * 2020-06-24 2023-10-03 Meta Platforms Technologies, Llc Headset activation validation based on audio data
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN111897601B (zh) * 2020-08-03 2023-11-24 Oppo广东移动通信有限公司 应用启动方法、装置、终端设备以及存储介质
JP7258007B2 (ja) * 2020-12-24 2023-04-14 オナー デバイス カンパニー リミテッド 音声認識方法、音声ウェイクアップ装置、音声認識装置、および端末
US11783850B1 (en) * 2021-03-30 2023-10-10 Amazon Technologies, Inc. Acoustic event detection
GB2612073A (en) * 2021-10-21 2023-04-26 Jaguar Land Rover Ltd Apparatus and method for providing a wake-up signal

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04177400A (ja) * 1990-11-13 1992-06-24 Clarion Co Ltd 音声起動方式
CN1819016A (zh) * 2005-02-07 2006-08-16 东芝泰格有限公司 语音处理装置
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
EP2337024A1 (en) * 2009-11-24 2011-06-22 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03200298A (ja) 1989-12-28 1991-09-02 Clarion Co Ltd 音声制御装置
US5873064A (en) 1996-11-08 1999-02-16 International Business Machines Corporation Multi-action voice macro method
US6340977B1 (en) * 1999-05-07 2002-01-22 Philip Lui System and method for dynamic assistance in software applications using behavior and host application models
US6397186B1 (en) 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US7027986B2 (en) 2002-01-22 2006-04-11 At&T Corp. Method and device for providing speech-to-text encoding and telephony service
EP1493993A1 (en) * 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Method and device for controlling a speech dialog system
EP1562180B1 (en) 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US20110119062A1 (en) * 2005-09-29 2011-05-19 Dohan Jewel L Voice-recognition/voice-activated vehicle signal system
US8620667B2 (en) * 2005-10-17 2013-12-31 Microsoft Corporation Flexible speech-activated command and control
CN101320559B (zh) 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8676904B2 (en) * 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR101545582B1 (ko) 2008-10-29 2015-08-19 엘지전자 주식회사 단말기 및 그 제어 방법
US10540976B2 (en) * 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8359020B2 (en) * 2010-08-06 2013-01-22 Google Inc. Automatically monitoring for voice input based on context
WO2012025784A1 (en) 2010-08-23 2012-03-01 Nokia Corporation An audio user interface apparatus and method
EP2610862B1 (en) 2011-12-30 2015-07-08 Samsung Electronics Co., Ltd. Electronic apparatus and method of controlling electronic apparatus
KR20130133629A (ko) 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US20140101608A1 (en) * 2012-10-05 2014-04-10 Google Inc. User Interfaces for Head-Mountable Devices
DE212014000045U1 (de) * 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9733821B2 (en) * 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US9575720B2 (en) * 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function
US9245527B2 (en) * 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9484025B2 (en) * 2013-10-15 2016-11-01 Toyota Jidosha Kabushiki Kaisha Configuring dynamic custom vocabulary for personalized speech recognition
US10984329B2 (en) * 2017-06-14 2021-04-20 Ademco Inc. Voice activated virtual assistant with a fused response

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04177400A (ja) * 1990-11-13 1992-06-24 Clarion Co Ltd 音声起動方式
CN1819016A (zh) * 2005-02-07 2006-08-16 东芝泰格有限公司 语音处理装置
JP2009175179A (ja) * 2008-01-21 2009-08-06 Denso Corp 音声認識装置、プログラム、及び発話信号抽出方法
EP2337024A1 (en) * 2009-11-24 2011-06-22 Honeywell International Inc. Methods and systems for utilizing voice commands onboard an aircraft

Also Published As

Publication number Publication date
EP3726526A1 (en) 2020-10-21
JP2017520012A (ja) 2017-07-20
KR20160145766A (ko) 2016-12-20
WO2015164047A1 (en) 2015-10-29
US20150302855A1 (en) 2015-10-22
CN106233376A (zh) 2016-12-14
EP3134896A1 (en) 2017-03-01
ES2818085T3 (es) 2021-04-09
US10770075B2 (en) 2020-09-08
BR112016024417A2 (pt) 2017-08-15
EP3134896B1 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
CN106233376B (zh) 用于通过话音输入激活应用程序的方法和设备
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
US20150302856A1 (en) Method and apparatus for performing function by speech input
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
CN109791763B (zh) 多设备上的热词检测
KR101868711B1 (ko) 애플리케이션들에 대한 액세스를 제어하기 위한 방법 및 장치
US9892729B2 (en) Method and apparatus for controlling voice activation
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
US9240182B2 (en) Method and apparatus for adjusting detection threshold for activating voice assistant function
US9837068B2 (en) Sound sample verification for generating sound detection model
WO2015105893A1 (en) Method and device for identifying a piece of music in an audio stream

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant