CN105190746B - 用于检测目标关键词的方法和设备 - Google Patents

用于检测目标关键词的方法和设备 Download PDF

Info

Publication number
CN105190746B
CN105190746B CN201480025202.XA CN201480025202A CN105190746B CN 105190746 B CN105190746 B CN 105190746B CN 201480025202 A CN201480025202 A CN 201480025202A CN 105190746 B CN105190746 B CN 105190746B
Authority
CN
China
Prior art keywords
state
score
keyword
sound
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201480025202.XA
Other languages
English (en)
Other versions
CN105190746A (zh
Inventor
金圣雄
李敏秀
金泰殊
真珉豪
黄奎雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN105190746A publication Critical patent/CN105190746A/zh
Application granted granted Critical
Publication of CN105190746B publication Critical patent/CN105190746B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephone Function (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种检测目标关键词以用于激活电子装置中的功能的方法。所述方法包含接收从所述目标关键词的多个部分中的一个起始的输入声音。所述输入声音可以是基于工作循环周期性地接收的。所述方法从所述输入声音中提取多个声音特征,并且获得关于与所述目标关键词的所述部分相关联的多个状态的状态信息。基于所述所提取的声音特征和所述状态信息,所述输入声音可以被检测为所述目标关键词。所述多个状态包含指示预定数目的所述多个部分的预定数目的输入状态。

Description

用于检测目标关键词的方法和设备
相关申请案的交叉参考
本申请案主张共同拥有的2013年5月7日递交的第61/820,498号美国临时专利申请案、2013年7月26日递交的第61/859,058号美国临时专利申请案,以及2013年11月22日递交的第14/087,939号美国非临时专利申请案的优先权,所述申请案中的每一个的内容以全文引用的方式明确地并入本文中。
技术领域
本发明大体上涉及音频处理,并且更确切地说涉及从电子装置的音频输入中检测目标关键词。
背景技术
近年来,例如智能电话、平板计算机和智能电视等具有声音捕获能力的电子装置的使用已经稳定地逐渐增加。此类电子装置可允许响应于话音关键词激活一或多个应用或功能。由于此类装置的用户通常在随机时间帧中使用此类话音激活特征,所以这些装置通常连续地以激活状态操作以使得能够捕获和处理此类输入声音。
连续地以激活状态操作操作此类装置通常允许在从输入声音中检测关键词中接收整个关键词。然而,在移动装置的情况下使用此类装置连续地捕获和处理输入声音以用于检测关键词通常导致增大的电力消耗或缩短的电池寿命。一些装置已经实施工作循环以在接收和处理输入声音流时减少时间。然而,如果来自用户的关键词的开始落入工作循环的非激活状态中,那么可能引起无法检测关键词,需要用户重复关键词。
另外,当不同用户说出相同的关键词以激活电子装置中的功能时,他们通常以不同速度说出关键词使得不同的时间周期可能贡献于关键词的每个部分中。为了解决根据用户的差异,一些电子装置已经针对检测关键词处理所有可能的时间周期的所有组合。然而,此类声音处理方法通常增加了计算复杂性并且需要相当大的计算资源。
发明内容
本发明提供用于检测目标关键词以激活功能或应用的方法和设备。
根据本发明的一个方面,公开了一种检测包含多个部分的目标关键词的方法以用于激活电子装置中的功能。所述方法接收从目标关键词的多个部分中的一个起始的输入声音并且从输入声音中提取多个声音特征。另外,所述方法获得描述状态网络的数据,其中状态网络包含单个起始状态、多个输入状态以及从单个起始状态到多个输入状态中的每一个的过渡。基于所提取的声音特征和状态网络,输入声音可以被检测为目标关键词。本发明还描述了涉及此方法的设备、装置、系统、构件的组合以及计算机可读媒体。
根据本发明的另一方面,用于检测目标关键词以激活功能的电子装置包含声音传感器和话音激活单元。目标关键词包含多个部分。声音传感器经配置以接收从目标关键词的多个部分中的一个起始的输入声音。话音激活单元经配置以从输入声音中提取多个声音特征、获得描述状态网络的数据,并且基于所提取的声音特征和状态网络确定输入声音是否对应于目标关键词。所述状态网络包含单个起始状态、多个输入状态以及从单个起始状态到多个输入状态中的每一个的过渡。
根据本发明的又一方面,公开了一种用于检测电子装置中的目标关键词的方法。目标关键词包含多个部分。所述方法接收输入声音并且从输入声音中提取多个声音特征。另外,所述方法获得与目标关键词的多个部分相关联的状态信息。状态信息包含用于与目标关键词的部分相关联的多个状态的多个持续时间范围。基于所提取的声音特征和状态信息,输入声音被检测为目标关键词。本发明还描述了涉及此方法的设备、装置、系统、构件的组合以及计算机可读媒体。
根据本发明的再一方面,公开了一种用于检测包含多个部分的目标关键词的电子装置。所述电子装置包含声音传感器和话音激活单元。声音传感器经配置以接收输入声音。话音激活单元经配置以从输入声音中提取多个声音特征并且获得与目标关键词的多个部分相关联的状态信息。状态信息包含用于与目标关键词的部分相关联的多个状态的多个持续时间范围。话音激活单元进一步经配置以基于所提取的声音特征和状态信息将输入声音检测为目标关键词。
附图说明
当结合附图读取时,通过参考以下详细描述将理解本发明的发明性方面的实施例。
图1说明根据本发明的一个实施例的当在输入声音中检测到目标关键词时激活话音助理应用的移动装置。
图2描绘根据本发明的一个实施例的经配置以检测输入声音流中的目标关键词以用于激活电子装置中的功能的电子装置的框图。
图3描述根据本发明的一个实施例的经配置以激活话音激活单元并且连续地提供输入声音流给话音激活单元的声音传感器和语音检测器的框图。
图4说明根据本发明的一个实施例的输入声音流的图,所述输入声音流最初基于工作循环接收并且一旦在工作循环的激活状态期间接收的部分确定为包含足够强度的且感兴趣的声音则连续地接收。
图5是根据本发明的一个实施例的经配置以接收输入声音并且检测输入声音中的目标关键词的话音激活单元的更详细的框图。
图6是根据本发明的一个实施例的用于检测输入声音中的目标关键词以用于激活话音助理单元的方法的流程图。
图7描述根据一个实施例的确定用于针对目标关键词的多个状态的多个声音特征中的每一个的一组观察分数的图。
图8示出了根据一个实施例的用于包含多个输入状态以用于检测目标关键词的马尔可夫链模型下的目标关键词的多个状态顺序的图。
图9是示出根据一个实施例的用于以与每个声音特征相关联的多个状态中的每一个结尾的每个状态顺序的最大关键词分数的图。
图10是根据本发明的一个实施例的用于确定状态顺序的关键词分数以检测输入声音中的目标关键词的方法的流程图。
图11描绘根据本发明的一个实施例的用于在确定用于目标关键词的输入状态的数目中使用的目标关键词的参考状态顺序的图。
图12是根据本发明的一个实施例的用于通过对用于目标关键词的参考输入声音进行处理确定用于目标关键词的输入状态的数目的方法的流程图。
图13是根据本发明的另一实施例的话音激活单元的框图,所述话音激活单元经配置以接收输入声音并且基于用于与目标关键词相关联的多个状态中的每一个的持续时间的预先确定的范围检测输入声音中的目标关键词。
图14示出了根据一个实施例在马尔可夫链模型下用于目标关键词的多个状态顺序的框图,所述状态顺序是基于用于与目标关键词相关联的每个状态的持续时间的范围生成的。
图15是根据一个实施例用于基于每个状态的持续时间的预先确定的范围确定最大关键词分数以检测目标关键词的方法的流程图。
图16说明无线通信系统中的移动装置的框图,在所述移动装置中可以根据本发明的一些实施例实施用于从输入声音中检测目标关键词以激活功能的方法和设备。
具体实施方式
现在将详细参考各种实施例,在附图中说明所述实施例的实例。在以下详细描述中,陈述众多具体细节以便提供对本发明的透彻理解。然而,对于所属领域的一般技术人员将是显而易见的是可在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1说明根据本发明的一个实施例的当在输入声音中检测到目标关键词时激活话音助理应用130的移动装置120。最初,移动装置120存储目标关键词以用于激活应用或功能,例如,移动装置120中的话音助理应用130。在所说明的实施例中,当用户110向移动装置120说出例如“起始助理”等目标关键词时,移动装置120捕获输入声音并且在输入声音中检测目标关键词。
在检测目标关键词之后,移动装置120激活话音助理应用130,其可以响应于来自用户110的其它命令执行额外功能。在一些实施例中,移动装置120可存储多个目标关键词以用于从用户的声音输入中检测目标关键词。目标关键词中的每一个可经配置以激活与移动装置120中的目标关键词相关联的应用或功能。
图2描绘根据本发明的一个实施例的经配置以检测输入声音流中的目标关键词以用于激活电子装置200中的功能的电子装置200的框图。如本文所用,术语“声音流”是指一或多个声音信号或声音数据的顺序。另外,术语“目标关键词”是指可用于激活电子装置200中的功能或应用的一或多个词语或声音的任何数字或模拟表示。电子装置200包含声音传感器210、I/O单元220、存储单元230、通信单元240和处理器250。电子装置200可以是配备有声音捕获和处理能力的任何合适的装置,例如,蜂窝式电话、智能电话(例如,移动装置120)、个人计算机、膝上型计算机、平板个人计算机、智能电视、游戏装置、多媒体播放器等。
处理器250包含数字信号处理器(DSP)252和话音助理单元260,并且可以是用于管理和操作电子装置200的应用程序处理器或中央处理单元(CPU)。DSP 252包含语音检测器254和话音激活单元256。在一个实施例中,DSP 252是低功率处理器以用于减少处理声音流中的电力消耗。在此配置中,DSP 252中的话音激活单元256经配置以当在输入声音流中检测到目标关键词时激活话音助理单元260。虽然在所说明的实施例中话音激活单元256经配置以激活话音助理单元260,但是它也可以激活可能与目标关键词相关联的任何功能或应用。
声音传感器210可经配置以接收输入声音流并且将它提供给DSP 252中的语音检测器254。声音传感器210可以包含可用于接收、捕获、感测和/或检测到电子装置200的声音输入的一或多个麦克风或任何其它类型的声音传感器。另外,声音传感器210可采用任何合适的软件和/或硬件以用于执行此类功能。
在一个实施例中,声音传感器210可经配置以根据工作循环周期性地接收输入声音流。在这种情况下,声音传感器210可确定输入声音流的接收到的部分是否超过阈值声音强度。当声音流的接收到的部分超过阈值强度时,声音传感器210激活语音检测器254并且将接收到的部分提供给DSP 252中的语音检测器254。替代地,无需确定接收到的部分是否超过阈值声音强度,声音传感器210可周期性地接收输入声音流的一部分并且激活语音检测器254以将接收到的部分提供给语音检测器254。
为了在检测目标关键词中使用,存储单元230在与目标关键词的多个部分相关联的多个状态上存储目标关键词和状态信息。在一个实施例中,目标关键词可被划分成声音的多个基本单元,例如,音素、音位或其子单元,并且表示目标关键词的多个部分可基于声音的基本单元生成。目标关键词的每个部分随后与马尔可夫链模型下的状态相关联,例如隐式马尔可夫模型(“HMM”)、半马尔可夫模型(“SMM”)或其组合。状态信息可以在与目标关键词相关联的状态当中包含预定数目的输入状态以及从状态中的每一个到包含其自身的下一个状态的过渡信息。存储单元230可使用任何合适的存储装置或存储器装置实施,例如,RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)。
当激活时,DSP 252中的语音检测器254接收来自声音传感器210的输入声音流的部分。在一个实施例中,语音检测器254从接收到的部分中提取多个声音特征并且通过使用任何合适的声音分类方法确定提取到的声音特征是否指示例如语音等感兴趣的声音,所述声音分类方法例如,基于高斯混合模型(GMM)的分类器、神经网络、HMM、图解模型以及支持向量机(SVM)技术。如果接收到的部分被确定为是感兴趣的声音,那么语音检测器254激活话音激活单元256并且输入声音流的接收到的部分和其余部分被提供给话音激活单元256。在一些其它实施例中,可以在DSP 252中省略语音检测器254。在这种情况下,当接收到的部分超过阈值强度时,声音传感器210激活话音激活单元256并且将输入声音流的接收到的部分和其余部分直接提供给话音激活单元256。
当激活时,话音激活单元256经配置以连续地接收输入声音流并且从输入声音流中检测目标关键词。随着接收到输入声音流,话音激活单元256可从输入声音流中依次提取多个声音特征。另外,话音激活单元256可获得包含多个状态的状态信息、预定数目的输入状态,以及用于来自存储单元230的目标关键词的过渡信息。对于每个声音特征,可通过使用例如GMM、神经网络以及SVM等任何合适的概率模型针对状态中的每一个确定观察分数。
通过过渡信息,话音激活单元256可获得在可能用于目标关键词的多个状态顺序中从每一个状态到下一个状态的过渡分数。过渡信息还可包含用于预定数目的输入状态的过渡分数以允许话音激活单元256基于与目标关键词的声音的基本单元相关联的多个输入状态检测输入声音流中的目标关键词。通过将此类多个输入状态提供到目标关键词中,话音激活单元256可通过处理在目标关键词的开始之后起始的输入声音流检测目标关键词。
在确定观察分数并且获得过渡分数之后,话音激活单元256确定用于可能的状态顺序的关键词分数。在一个实施例中,如果所确定的关键词分数当中的最大关键词分数超过预定阈值分数,那么话音激活单元256检测输入声音流为目标关键词。在检测目标关键词之后,话音激活单元256生成且发射激活信号以开启与目标关键词相关联的话音助理单元260。
话音助理单元260响应于来自话音激活单元256的激活信号被激活。一旦被激活,话音助理单元260可通过在触摸屏上输出例如“我可以帮助你吗?”等消息和/或通过I/O单元220的扬声器执行语音助理功能。作为回应,用户可说出话音命令以激活电子装置200的多种相关联的功能。举例来说,当接收到用于互联网搜索的话音命令时,话音助理单元260可识别话音命令为搜索命令并且经由通信单元240通过网络270执行网络搜索。
图3描述根据本发明的一个实施例的经配置以激活话音激活单元256并且连续地提供输入声音流给话音激活单元256的声音传感器210和语音检测器254的框图。声音传感器210包含麦克风310和声音检测器320。在一个实施例中,麦克风310和声音检测器320经配置以基于工作循环周期性地接收输入声音流。举例来说,麦克风310和声音检测器320可以10%的工作循环操作使得它们在10%(例如,200ms周期中的20ms)的时间接收输入声音流。如所说明,麦克风310可经配置以在工作循环的每个激活状态期间接收输入声音流并且将输入声音流的接收到的部分提供给声音检测器320。在此过程中,麦克风310也可以将接收到的声音流转换成数字形式。
声音检测器320可分析输入声音流的接收到的部分的信号特征并且确定接收到的部分是否超过阈值声音强度。举例来说,声音检测器320可分析接收到的部分的声音能量值或幅度值以确定接收到的部分的声音强度。如果接收到的部分确定为超过阈值声音强度的声音,那么声音检测器320可将激活信号和接收到的部分提供给语音检测器254。
当激活时,语音检测器254接收来自声音检测器320的输入声音流的部分。语音检测器254可随后通过使用例如MFCC(梅尔倒谱系数)、LPC(线性预测编码)或LSP(线谱对)方法等任何合适的信号处理方案从接收到的部分中提取一或多个声音特征。使用所提取的声音特征,语音检测器254对输入声音流的接收到的部分进行分类以确定接收到的部分是否包含语音。
在所说明的实施例中,如果输入声音流的接收到的部分被确定为超过阈值声音强度并且包含语音,那么可能停用工作循环功能以将输入声音流的其余部分其余部连续地提供给话音激活单元256(例如,使用完整工作循环或100%工作循环)。根据一个实施例,如果声音检测器320确定接收到的部分超过阈值声音强度,那么它禁用声音传感器210的工作循环功能使得麦克风310和声音检测器320可继续以激活状态操作以接收和发射输入声音流的其余部分到语音检测器254。如果语音检测器254确定在工作循环的激活状态期间接收的初始部分包含语音,那么语音检测器254将输入声音流的初始部分和其余部分提供给话音激活单元256。另一方面,如果语音检测器254确定初始部分并不包含语音,那么语音检测器254生成激活信号,所述激活信号被提供给声音传感器210以激活用于麦克风310和声音检测器320的工作循环功能。
在另一实施例中,如果声音检测器320确定接收到的部分超过阈值声音强度,那么它激活语音检测器254并且将接收到的部分提供给语音检测器254。如果语音检测器254确定接收到的部分包含语音,那么语音检测器254向麦克风310和声音检测器320提供工作循环功能的去激活信号。在接收去激活信号之后,麦克风310和声音检测器320可继续以激活状态操作以将输入声音流的其余部分接收和发射到语音检测器254,使得语音检测器254将所述部分提供给话音激活单元256。另一方面,如果语音检测器254确定在工作循环的激活状态期间接收到的初始部分并不包含语音,那么语音检测器254并不将激活信号提供给麦克风310和声音检测器320使得麦克风310和声音检测器320根据占空比功能操作。
图4说明根据本发明的一个实施例的输入声音流的图,所述输入声音流最初基于工作循环接收并且一旦在工作循环的激活状态期间接收的部分被确定为包含足够强度的且感兴趣的声音则连续地接收。如图所示,输入声音流的多个部分410、420和430是基于工作循环周期性地接收的。部分410和420并不包含足够强度的或感兴趣的声音(例如,语音)。另一方面,部分430包含超过阈值声音强度的声音并且包含语音。因此,输入声音流的部分430和其余部分440是连续地接收的并且提供给话音激活单元256以用于检测目标关键词。
在所说明的图中,一个部分(例如,部分410)与下一个部分(例如,部分420)的起始之间的周期表示工作循环周期T1。周期T2表示工作循环处于激活状态的持续时间。工作循环的非激活状态由T1-T2指示,在此时间周期期间并未接收到输入声音流。由于根据工作循环接收输入声音流,所以提供给话音激活单元256以用于检测目标关键词的输入声音流的初始部分430可对应于在目标关键词的开始部分之后的目标关键词的一部分。
图5描绘根据本发明的一个实施例的经配置以接收输入声音并且检测输入声音中的目标关键词的话音激活单元256的更详细的框图。话音激活单元256包含分段单元510、特征提取器520、分数确定单元530和关键词检测单元540。分数确定单元530包含观察分数确定单元550和最大关键词分数确定单元560。
分段单元510接收来自语音检测器254的输入声音并且将接收到的输入声音分段成相等时间周期的多个顺序帧。特征提取器520从分段单元510中依次接收帧并且从所述帧中的每一个中提取声音特征。在一个实施例中,特征提取器520可使用例如MFCC方法等任何合适的特征提取方法从所述帧中提取声音特征。举例来说,在MFCC方法的情况下,从分段帧中的每一个中计算n维向量中的分量并且所述向量被用作声音特征。
在分数确定单元530中,观察分数确定单元550从存储单元230中依次接收声音特征并且接收用于目标关键词的状态信息。根据一个实施例,用于目标关键词的状态信息可以包含与目标关键词的多个部分相关联的多个状态以及概率模型(例如,概率函数),例如提供用于所述状态中的每一个的GMM。如上文所述,目标关键词可划分成声音的多个基本单元并且表示目标关键词的多个部分可基于对应于状态的声音的基本单元生成。在一些实施例中,用于目标关键词的状态还可包含非关键词状态(例如,“填充物”状态),其不与表示目标关键词的多个部分中的任何一个相关联并且其可用作起始状态。举例来说,在目标关键词包含预定数目的状态的情况下,所述状态中的每一个对应于例如音素等声音的基本单元,非关键词状态可表示除包含于目标关键词中的那些外的声音的基本单元。
随着接收到每个声音特征,观察分数确定单元550基于从存储单元230中接收的声音特征和状态信息确定用于与目标关键词相关联的状态中的每一个的观察分数。在一个实施例中,用于所述状态中的每一个的观察分数经确定以通过根据用于相关联状态的概率模型计算概率值用于接收到的声音特征。因此计算的概率值中的每一个可用作相关联状态的观察分数。用于状态的高观察分数指示声音特征对应于针对状态的声音的基本单元的高概率。观察分数确定单元550针对接收到的声音特征中的每一个将观察分数提供给最大关键词分数确定单元560以用于针对对于目标关键词是可能的多个状态顺序确定关键词分数。
最大关键词分数确定单元560针对声音特征中的每一个接收观察分数并且从存储单元230中获得状态信息。在此配置中,状态信息可以包含用于目标关键词的多个状态,包含非关键词状态(包含单个的非关键词起始状态)、多个状态当中的预定数目的输入状态,以及从所述状态中的每一个到包含其自身的下一个状态的过渡信息。输入状态表示非关键词状态(或起始状态)可在用于目标关键词的可能的状态顺序中的每一个中过渡的第一状态。
状态信息中的过渡信息包含在用于目标关键词的可能的状态顺序中的每一个中从所述状态中的每一个到下一个状态的过渡分数。过渡分数可表示在每个可能的状态顺序中状态中的每一个过渡到下一个状态的概率值。过渡分数还包含从非关键词状态到预定数目的输入状态的过渡分数。
基于接收到的观察分数和过渡分数,最大关键词分数确定单元560针对可能的状态顺序中的每一个计算关键词分数。在这种情况下,状态序列可以从非关键词状态(即,起始状态)起始,这是因为非关键词状态在接收到输入声音之前得到分配。因此,过渡分数包含从非关键词状态到输入状态中的任一个的过渡分数,并且还包含在状态顺序中从非关键词状态到其自身的过渡分数。随着从观察分数确定单元550中接收用于每个声音特征的一组观察分数,最大关键词分数确定单元560将下一个状态添加到每个状态顺序并且以如上文所述的方式针对更新的状态顺序中的每一个确定关键词分数。
随着针对状态顺序计算一组关键词分数,最大关键词分数确定单元560在关键词分数当中选择最大关键词分数。可以计算关键词分数以通过使用例如维特比算法等任何合适的方法确定最大关键词分数。在确定最大关键词分数之后,最大关键词分数确定单元560将它提供给关键词检测单元540。在一个实施例中,仅当具有最大关键词分数的状态顺序的最后一个状态对应于用于目标关键词的声音的最后一个基本单元(例如,最后一个音素)时,将最大关键词分数提供给关键词检测单元540。
在从最大关键词分数确定单元560中接收最大关键词分数之后,关键词检测单元540基于最大关键词分数检测输入声音中的目标关键词。举例来说,关键词检测单元540可接收阈值分数以用于从存储单元230中检测目标关键词并且如果最大关键词分数大于接收到的阈值分数则检测目标关键词。在这种情况下,阈值分数可以被设置为最小关键词分数以用于在所需置信水平内检测目标关键词。
在一些实施例中,最大关键词分数确定单元560确定用于非关键词状态顺序的非关键词分数。非关键词分数可以从用于包含非关键词状态顺序的可能的状态顺序的关键词分数中获得并且提供给关键词检测单元540。关键词检测单元540基于最大关键词分数与非关键词分数之间的差异确定置信度值,并且检测输入声音中的目标关键词。在这种情况下,关键词检测单元540可从存储单元230中接收阈值置信度值并且如果置信度值大于阈值置信度值则检测目标关键词。具体来说,当输入声音包含例如噪音等可能影响关键词分数的环境声音时在目标关键词的检测中使用最大关键词分数与非关键词分数之间的差异可改进检测精确度。一旦检测到目标关键词,则关键词检测单元540生成并且提供激活信号以开启与目标关键词相关联的话音助理单元260。
图6是根据本发明的一个实施例的通过话音激活单元256执行的方法600的流程图,以用于检测输入声音中的目标关键词以用于激活话音助理单元260。目标关键词可以包含初始部分和多个随后部分。最初,在610处,话音激活单元256接收从目标关键词的随后部分中的一个中起始的输入声音。在接收到的输入声音被分段成多个帧之后,在620处,话音激活单元256通过使用例如MFCC方法等任何合适的信号处理方案从多个帧中提取多个声音特征。
随后在630处,话音激活单元256从存储单元230中获得与目标关键词的初始部分和随后的部分相关联的状态信息。如上文参考图2和5所描述,状态信息可以包含预定数目的输入状态、概率模型和过渡信息。在640处,基于所提取的声音特征和状态信息,话音激活单元256检测输入声音为目标关键词。一旦检测到目标关键词,则在650处话音激活单元256激活与目标关键词相关联的话音助理单元260。
图7说明根据一个实施例的由观察分数确定单元550生成的以用于多个声音特征F1到F5中的每一个的一组观察分数的图700,所述多个声音特征用于目标关键词的多个状态(例如,“起始助理”)。图700中所示的目标关键词的状态包含“F”、“S”、“T”、“A”、“R”、“T”等,其中状态“F”指示非关键词或填充物状态。观察分数确定单元550依次接收从每个框架中提取的声音特征。对于每个声音特征,观察分数确定单元550确定用于状态中的每一个的观察分数,例如,通过使用例如GMM等概率模型,如通过用于图700中的每个状态和声音特征的数字所指示。
在所说明的实施例中,当观察分数确定单元550接收声音特征F1、F2、F3、F4和F5中的每一个时(所述声音特征以预定时间间隔依次接收),确定用于所述状态的一组观察分数。举例来说,在声音特征F1的情况下,针对所述状态(即,状态“F”、“S”、“T”、“A”、“R”、“T”等)确定一组观察分数710。在确定用于声音特征F1的观察分数710的组之后,观察分数确定单元550可依次确定多组观察分数720到750以分别用于声音特征F2到F5。观察分数确定单元550可分别将用于声音特征F1到F5的观察分数710到750的组依次提供给最大关键词分数确定单元560以用于检测目标关键词。
图8示出了根据一个实施例的状态网络的图800,所述状态网络包含可能在马尔可夫链模型下用于目标关键词的多个状态顺序,所述状态顺序包含多个输入状态“S”、“T”、“A”和“R”以用于目标关键词的检测。在一个实施例中,可以预定输入状态的数目。在图8的所说明的实施例中,如通过图800中的一组输入状态810所指示,输入状态的预定数目是四。另外,图800以可能用于目标关键词的多个状态顺序示出了从与当前声音特征(例如,声音特征F1)相关联的当前状态中的每一个到与下一个声音特征(例如,声音特征F2)相关联的多个下一个状态的过渡线。
最初,图800中的声音特征F0指示尚未接收到输入声音。一旦接收到输入声音,则从接收到的输入声音中依次提取声音特征F1到F5。因此,非关键词状态“F”仅分配给声音特征F0并且充当用于所有状态顺序的单个起始状态。图800还示出了从用于声音特征F0的起始状态“F”到与下一个声音特征F1相关联的可能的下一个状态中的每一个的过渡线,所述可能的下一个状态即,输入状态“S”、“T”、“A”和“R”。随后在声音特征F1处,从用于声音特征F1的状态中的每一个到用于下一个声音特征F2的状态中的每一个(即,下一个状态)的过渡线针对可能的状态顺序中的每一个示出。此类过渡线可以预定用于目标关键词并且以相同方式应用于接收到的输入声音的剩余的声音特征F2、F3、F4和F5中的每一个,如图800中所示。
在此配置中,每条过渡线与一个过渡分数相关联。一些状态可能不具有到一些下一个状态的过渡线。举例来说,并未提供从用于声音特征的状态“S”到用于下一个声音特征的状态“A”、“R”和“T”的过渡线。在一个实施例中,如果不存在从当前状态到下一个状态的过渡线,那么可能不会生成从当前状态到下一个状态的状态顺序。在另一实施例中,其中并未提供从一个状态到下一个状态的过渡线,过渡分数可以设置成较大的负数(例如,-10)以确保包含此类过渡分数的状态顺序可能不具有用于检测目标关键词的最大关键词分数。
基于图800,与过渡线和没有过渡线相关联的过渡分数的示例性表可以如下提供。
表1
如表1中所示,在没有从当前状态(例如,状态“S”)到下一个状态(例如,状态“A”)的过渡线的情况下,分配-10的相关联的过渡分数。最初,由于当前状态“F”具有到输入状态“S”、“T”、“A”和“R”的四条过渡线,将0.8、0.8、0.7和0.9的过渡分数分配给从当前状态“F”到输入状态“S”、“T”、“A”和“R”的四条过渡线。通过提供多个输入状态,即使话音激活单元256接收并不从目标关键词的开始部分(即,状态“S”)起始的输入声音,也可以从此类输入声音中检测到目标关键词。
图9是示出根据一个实施例的用于以与每个声音特征相关联的多个状态中的每一个结尾的每个顺序的最大关键词分数的图900。在此图900中,目标关键词“起始助理”包含与声音的基本单元中的每一个相关联的状态。为便于说明,图900是使用作为声音的基本单元的音素(“S”、“T”、“A”、“R”、“T”等)说明的。
在此实施例中,在针对以与每个声音特征相关联的状态中的每一个结尾的可能的状态顺序确定的关键词分数当中确定最大关键词分数。在检测目标关键词中此类最大关键词分数随后被用作候选关键词分数,例如通过在候选关键词分数当中选择最大关键词分数以及比较所选定的最大关键词分数与阈值分数。另外,候选关键词分数可以用于针对以与每个下一个声音特征相关联的状态中的每一个结尾的可能的状态顺序确定最大关键词分数(即,下一个候选关键词分数)。可以基于在图6中提供的观察分数以及在表1中提供的过渡分数通过使用维特比算法确定候选关键词分数和所选定的最大关键词分数。
在图900中,在声音特征F1的情况下,所说明的状态“F”、“S”、“T”、“A”、“R”和“T”中的每一个具有始于用于声音特征F0的起始状态“F”的一个可能的状态顺序,并且用于所述状态的最大分数(即,候选分数)分别被确定为1.0、1.6、1.7、0.8、1.0和-9.9。候选关键词分数可以通过对从非关键词状态“F”到用于声音特征F1的状态中的每一个的过渡分数以及用于声音特征F1的相关联状态的观察分数求和来确定。举例来说,以此方式,用于包含于输入状态的组810中的状态“T”的候选分数1.7可以通过对从非关键词状态“F”到状态“T”的过渡分数以及用于状态“T”的观察分数求和来确定。在所说明的实例中,较大负数(例如,-10)作为过渡分数被分配到并未包含于输入状态的组810中的状态“T”,使得在声音特征F1的点处包含状态“T”的任何连续状态顺序无法具有用于检测目标关键词的最大关键词分数。
在声音特征F2的情况下,通过对用于使用于声音特征F1的状态中的每一个作为最后状态的状态顺序的候选关键词分数、从用于声音特征F1的每个状态到用于声音特征F2的状态的过渡分数以及用于声音特征F2的状态的观察分数求和,确定用于每个状态的候选关键词分数。对于与声音特征F2相关联的状态中的每一个,选择上述总和当中的最大总和作为用于使所述状态作为最后状态的可能的状态顺序的候选关键词分数。举例来说,在下文的表2中提供用于使用于声音帧F2的状态“A”作为最后状态的可能的状态顺序的关键词分数。
表2
在以上表2中,选择以上总和当中的最大关键词分数3.2作为用于具有与声音特征F2相关联的状态“A”的可能的状态顺序的候选关键词分数。以相同方式,用于其它所说明的状态(即,“F”、“S”、“T”、“R”、“T”)的候选关键词分数可以确定为1.9、2.9、2.7、2.0和1.8。如图900中所示,随后可选择用于状态“A”的候选关键词分数3.2作为用于声音特征F2的最大关键词分数。
对于剩余的声音特征F3、F4和F5中的每一个,可以与声音特征F2相同的方式计算用于使与剩余的声音特征F3、F4和F5中的每一个相关联的状态中的每一个作为最后状态的可能的状态顺序的一组候选关键词分数。在候选关键词分数当中,还可以类似方式确定用于声音特征F3、F4和F5中的每一个的最大关键词分数。用于声音特征F1到F5中的每一个的最大关键词分数可用于检测目标关键词。在图9的所说明的实例中,因此确定包含最大关键词分数的状态的状态顺序(如通过箭头和粗线的圆所指示)可能对应于目标关键词的多个顺序部分。
图10是根据本发明的一个实施例的通过话音激活单元256执行以用于检测输入声音中的目标关键词的具体方法640的流程图。最初,在1010处,观察分数确定单元550接收输入声音的多个声音特征并且确定用于与目标关键词相关联的多个状态中的每一个的观察分数。将观察分数提供给最大关键词分数确定单元560。在1020处,在可能用于目标关键词的多个状态顺序中最大关键词分数确定单元560获得预定数目的输入状态以及从所述状态中的每一个到下一个状态的过渡分数。过渡分数可以包含从非关键词状态到输入状态中的每一个的过渡分数。
在1030处,最大关键词分数确定单元560通过使用观察分数和过渡分数确定用于可能的状态顺序的关键词分数。在此过程中,最大关键词分数可以从所确定的关键词分数当中选择并且以如上文所述参考图5和9的方式提供给关键词检测单元540。随后在1040处,基于接收到的最大关键词分数在输入声音中检测到目标关键词。
图11描绘根据本发明的一个实施例的用于在确定用于目标关键词的输入状态的数目中使用的目标关键词“起始激活”的参考状态顺序1102的图。在一个实施例中,输入状态的数目的确定可以在分数确定单元530中执行。如图所示,用于目标关键词的参考输入声音在时间周期T0期间捕获而无需使用工作循环(即,基于完整工作循环),使得接收到关键词的所有部分。参考输入声音是在时间周期T0期间由用户说出的声音并且可以分段成相等时间周期的多个顺序帧。在所说明的实施例中,多个帧对应于用于目标关键词的参考状态顺序1102中的状态。对于每个帧,声音特征可以是从存储单元230中提取的并且存储在存储单元230中。
在一个实施例中,分数确定单元530从存储单元230中接收所提取的声音特征并且以如上文所述参考图5到9的方式确定用于所有可能的状态顺序的最大关键词分数。在这种情况下,从单个输入状态1104起始的整个参考状态顺序1102可以用于最大关键词分数的确定。参考状态顺序1102中的状态以及每个状态的数目可以通过回溯参考状态顺序1102来确定。在此实施例中,用于参考状态顺序1102的输入状态的数目可以是基于一段时间确定的,在所述一段时间中目标关键词的一些部分可未在T2/T1的工作循环中的非激活状态T1-T2期间被接收。举例来说,当根据工作循环接收到用户说出的输入声音时,可能未接收到与对应于非激活状态的目标关键词的多个部分相关联的多个状态1110(即,“S”、“T”、“A”、“A”和“R”)。
如图11中所示,由于用户的语音特征(例如,语音的速度),状态“A”可在状态1110中呈现两次。由于状态1110对应于包含四个初始状态“S”、“T”、“A”和“R”的工作循环的初始非激活周期T1-T2,当基于工作循环接收输入声音时输入声音可不包含多达四个初始状态。在此实例中,输入状态的数目可以被确定为是五个或更多使得即使当语音在非激活状态中起始且起始在工作循环的随后的激活状态中接收时也可以在用户说出的语音中检测到目标关键词。在这种情况下,接收到的语音的开始部分可从输入状态中的任一者处起始。
在一个实施例中,分数确定单元530可接收多个参考输入声音以用于目标关键词,所述目标关键词中的每一个是基于完整工作循环捕获的。对于参考输入声音中的每一个,分数确定单元530根据工作循环中的初始非激活周期确定输入状态,方法是以如上文相对于参考状态顺序1102所述的类似方式确定用于参考状态顺序中的多个状态的参考状态顺序和状态时间周期。可以随后对参考状态顺序中的输入状态的数目进行平均以确定输入状态,以用于从输入声音中检测目标关键词。
图12是根据本发明的一个实施例的通过话音激活单元256执行的用于通过对用于目标关键词的多个参考输入声音进行处理确定用于目标关键词的输入状态的数目的方法1200的流程图。最初,在1210处,话音激活单元256基于完整工作循环接收用于目标关键词的参考输入声音。在1220处,话音激活单元256获得与目标关键词的初始部分和多个随后部分相关联的状态信息。
在1230处,基于状态信息确定用于参考输入声音的多个参考状态顺序。在1240处,话音激活单元256通过回溯参考状态顺序确定用于参考状态顺序中的多个状态的多个状态时间周期,如参考图11所详细描述的。随后在1250处,话音激活单元256基于工作循环的状态时间周期和非激活周期确定多个输入状态。
话音激活单元256可经配置以将输入声音分段成可变持续时间的部分以检测输入声音中的目标关键词。在一些实施例中,可以预定用于与目标关键词相关联的状态中的每一个的此类持续时间的可能的范围。对于与每个状态相关联的每个持续时间,可以分配分数(例如,概率值)以用于确定最大关键词分数。
图13描述根据本发明的另一实施例的话音激活单元256的框图,所述话音激活单元经配置以接收输入声音并且基于在SMM下的持续时间的预定的范围检测输入声音中的目标关键词。话音激活单元256包含可变分段单元1310、特征提取器1320、分数确定单元1330和关键词检测单元1340。分数确定单元1330包含观察分数确定单元1350和最大关键词分数确定单元1360。
可变分段单元1310接收来自声音传感器(例如,声音传感器210)的输入声音并且将接收到的输入声音分段成具有多个持续时间的多个帧。举例来说,如果接收到30ms持续时间的输入声音,那么可以将其分段成10ms持续时间的第一帧,其在输入声音中位于从0ms到10ms处。以类似方式,输入声音可以分段成从10到20ms的10ms持续时间的第二帧,以及从20ms到30ms的10ms持续时间的第三帧、从0ms到20ms的20ms持续时间的第四帧以及从10ms到30ms的20ms持续时间的第五帧。
可变分段单元1310可将多个分段帧提供给特征提取器1320并且将作为输入声音帧(例如,在以上实例中的30ms持续时间)的整个输入声音提供给特征提取器1320。在此过程中,可变分段单元1310还将关于每个帧的持续时间和位置的帧信息提供给特征提取器1320。在接收帧和帧信息之后,特征提取器1320使用任何合适的特征提取方法从所述帧中的每一个中提取且输出声音特征。在以上实例中,特征提取器1320接收总共六个帧并且从所述帧中提取总共六个声音特征。
分数确定单元1330经配置以基于所提取的声音特征生成将提供给关键词检测单元1340的最大关键词分数。分数确定单元1330中的观察分数确定单元1350从特征提取器1320中接收声音特征和帧信息。观察分数确定单元1350还从存储单元230中接收用于目标关键词的状态信息。状态信息包含与目标关键词相关联的多个状态以及用于所述状态中的每一个的概率模型,如上文参考图5所述。
在此实施例中,状态信息进一步包含关于用于所述状态中的每一个的预定的持续时间的范围的持续时间信息。用于每个状态的持续时间的预定的范围可以设置成用于所述状态的可能的时间范围。举例来说,用户可以相对较短的持续时间说出对应于状态“S”的声音,而另一用户可能需要较长的时间说出所述声音。因此,用于状态的持续时间的预定的范围可以设置成包含用户通常在说出与状态相关联的声音中耗费的持续时间的范围。
对于与规定的持续时间相关联的每个接收的声音特征,观察分数确定单元1350可决定是否基于接收到的状态信息针对所述状态中的每一个确定观察分数。在一个实施例中,观察分数确定单元1350基于包含持续时间的帧信息确定持续时间是否在用于每个状态的持续时间的预定的范围内。如果持续时间确定为不在持续时间的预定的范围内,那么观察分数确定单元1350决定不确定观察分数。否则的话,观察分数确定单元1350着手确定观察分数。
在确定观察分数中,用于状态中的每一个的概率值可以是根据用于相关联状态的概率模型计算的。计算出的概率值可用作用于相关联状态的观察分数。观察分数确定单元1350随后将用于每个声音特征的所确定的观察分数提供给最大关键词分数确定单元1360以用于确定用于多个状态顺序的关键词分数,所述关键词分数可能用于目标关键词。
最大关键词分数确定单元1360随后接收用于声音特征中的每一个的观察分数以及包含分别与声音特征相关联的帧的持续时间和位置的帧信息。另外,最大关键词分数确定单元1360接收包含过渡分数(如上文结合图5所述)的状态信息以及包含持续时间的预定的范围的持续时间信息。在一个实施例中,过渡分数包含从非关键词状态到单个输入状态的过渡分数。替代地,过渡分数可以包含从非关键词状态到多个输入状态中的每一个的过渡分数。
对于所述状态中的每一个,持续时间信息进一步包含确定用于持续时间中的每一个的持续时间分数。用于每个状态的预定的持续时间分数可以设置成分别与状态落入持续时间中的概率值相关联。通过基于帧信息和持续时间的预定的范围使用接收到的观察分数计算过渡分数和持续时间分数,最大关键词分数确定单元1360确定用于可能的状态顺序的关键词分数。在所确定的关键词分数当中,最大关键词分数确定单元1360确定用于检测目标关键词的最大关键词分数。
最大关键词分数确定单元1360可根据持续时间受限半马尔可夫模型方案确定关键词分数。举例来说,如果可能的状态顺序中的一个包含其持续时间并不在用于状态的持续时间的预定的范围内的状态,那么最大关键词分数确定单元1360可能无法确定用于状态顺序的关键词分数同时确定用于不包含此类状态的其它状态顺序的关键词分数。在此实例中,最大关键词分数确定单元1360可通过使用例如如下的维特比算法等任何合适的方法在所确定的关键词分数当中选择最大关键词。
(等式1)
其中t表示当前输入声音的帧大小,s表示当前状态,V(t,s)表示用于将状态s作为从时间帧1到t中的一个起始的最后状态的所有可能的状态顺序的最大关键词分数,d表示状态s的持续时间,dmin(s)表示用于状态s的持续时间的预定的范围当中状态s的最小持续时间,dmax(s)表示用于状态s的持续时间的预定的范围当中状态s的最大持续时间,s'表示状态s的先前状态,T(s,s')表示从先前状态s'到当前状态s的过渡分数,O(t,d,s)表示用于从用于状态s的帧t-d+1到帧t的时间帧的观察分数,并且D(d,s)表示当状态s的持续时间是d时用于s的持续时间分数。
如在SMM方案下等式1中所示,用于目标关键词的最大关键词分数是基于用于每个状态的持续时间的受限范围计算的。通过使用持续时间的此类受限范围,最大关键词分数确定单元1360可以相对低的计算复杂性实施。另外,由于持续时间的受限范围是考虑到用户的不同说话速度预定的,所以关键词检测性能基本上并未降级。
在确定最大关键词分数之后,最大关键词分数确定单元1360将最大关键词分数提供给关键词检测单元1340。在从最大关键词分数确定单元1360中接收最大关键词分数之后,关键词检测单元1340基于最大关键词分数检测输入声音中的目标关键词。举例来说,关键词检测单元1340可使用阈值分数以用于从存储单元230中检测目标关键词,如上文参考图5所述。在检测目标关键词之后,关键词检测单元1340生成且提供激活信号(“开启信号”)以开启与目标关键词相关联的功能或应用。
在一个实施例中,为了确定用于所述状态中的每一个的持续时间的范围,分数确定单元1330可接收多个参考输入声音以用于目标关键词。对于参考输入声音中的每一个,分数确定单元1330确定参考状态顺序,并且通过回溯参考状态顺序还以如上文结合图11和12所述的类似方式确定与参考状态顺序中的状态中的每一个相关联的持续时间。因此,分数确定单元1330可基于用于所述状态的所确定的持续时间从所述参考状态顺序中确定用于每个状态的持续时间的范围(例如,通过对所确定的持续时间进行平均)。因此所确定的持续时间的范围可随后存储于存储单元230中。
图14示出了根据一个实施例在马尔可夫链模型下用于目标关键词的多个状态顺序的框图1400,所述状态顺序是基于用于与目标关键词相关联的多个状态“S”、“T”、“A”、“R”、“T”等中的每一个的持续时间的范围生成的。用于所述状态中的每一个的持续时间的范围可以是预定的以采用如上文相对于图13所述的方式受到限制。为便于说明,可假设在图1400中时间点(例如,“T1”)与下一个时间点(例如,“T2”)之间的周期是10ms并且分段声音特征具有10×N ms的持续时间,其中N是正整数并且分段声音特征的持续时间并不大于输入声音的时间周期。
在所说明的实施例中,从先前状态到当前状态的过渡线的横越次数可指示用于所述状态中的每一个的预定的范围中的持续时间。举例来说,在状态“A”的情况下在时间T4和T5处,从在时间T2处的先前状态“T”到在时间T4和T5处的当前状态“A”的过渡线分别在20ms和30ms中横越。在这种情况下,状态“A”的持续时间的预定的范围是在状态顺序中从20ms到30ms。因此,对于状态“A”,可以确定观察分数并且可以仅针对20ms或30ms的分段特征预定持续时间分数。可随后使用观察分数和预定的持续时间分数以确定关键词分数并且随后确定其中的最大关键词分数以检测目标关键词。因此,由于用于检测目标关键词的关键词分数是基于持续时间的受限范围计算的,所以用于检测目标关键词的计算时间可以在SMM方案下显著减少。
图15是根据一个实施例通过分数确定单元1330执行的方法1500的流程图,以用于基于在SMM下的持续时间的预定的范围检测输入声音中的目标关键词。最初,在1510处,分数确定单元1330接收从可变时间范围中提取的声音特征以及关于每个帧的持续时间和位置的帧信息。在1520处,分数确定单元1330接收关于多个状态和用于每个状态的概率模型的状态信息、在对于目标关键词是可能的多个状态顺序中从所述状态中的每一个到下一个状态的过渡信息,以及关于持续时间的预定的范围和确定用于持续时间中的每一个的持续时间分数的持续时间信息。
在1530处,对于声音特征中的每一个,分数确定单元1330基于每个状态的概率模型确定所述状态中的每一个的观察分数。在1540处,基于过渡信息,分数确定单元1330获得在可能的状态顺序中从所述状态中的每一个到下一个状态的过渡分数。在1550处,分数确定单元1330从持续时间信息中获得持续时间的预定的范围以及针对持续时间中的每一个确定的持续时间分数。在1560处,通过基于帧信息和持续时间的预定的范围使用接收到的观察分数、过渡分数和持续时间分数进行计算,分数确定单元1330确定针对可能的状态顺序的关键词分数并且在所确定的关键词分数当中选择最大关键词分数。
图16说明无线通信系统中的移动装置1600的框图,在所述移动装置中可以根据一些实施例实施用于从输入声音中检测目标关键词以激活功能的本发明的方法和设备。移动装置1600可以是蜂窝式电话、终端、手机、个人数字助理(PDA)、无线调制解调器、无绳电话、平板电脑等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等等。
移动装置1600能够经由接收路径和发射路径提供双向通信。在接收路径上,基站发射的信号被天线1612接收,并且被提供到接收器(RCVR)1614。接收器1614调节和数字化所接收信号,并且将经调节和数字化的信号提供到数字区段1620以用于进一步处理。在发射路径上,发射器(TMTR)从数字区段1620接收待发射的数据,处理并调节所述数据,且生成经调制信号,所述经调制信号经由天线1612发射到基站。接收器1614和发射器1616是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的一部分。
数字区段1620包含多种处理、接口和存储器单元,举例来说,例如,调制解调器处理器1622、精简指令集计算机/数字信号处理器(RISC/DSP)1624、控制器/处理器1626、内部存储器1628、广义音频编码器1632、广义音频解码器1634、图形/显示处理器1636,和/或外部总线接口(EBI)1638。调制解调器处理器1622执行对数据发射及接收的处理,例如,编码、调制、解调和解码。RISC/DSP 1624执行移动装置1600的通用和专业化处理。控制器/处理器1626控制数字区段1620内的各种处理和接口单元的操作。内部存储器1628存储用于数字区段1620内的各种单元的数据和/或指令。
一般化的音频编码器1632执行对来自音频源1642、麦克风1643等的输入信号的编码。一般化的音频解码器1634执行对经译码音频数据的解码,并且可将输出信号提供到扬声器/头戴式耳机1644。应注意一般化的音频编码器1632和一般化的音频解码器1634不一定需要与音频源、麦克风1643和扬声器/头戴式耳机1644介接,并且因此未在所述移动装置1600中示出。图形/显示处理器1636执行针对图形、视频、图像和文本的处理,其呈现给显示单元1646。EBI 1638促进数字区段1620与主存储器1648之间的数据传送。
数字区段1620通过一或多个处理器、DSP、微处理器、RISC等来实施。还可在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制造数字区段1620。
一般来说,本文中描述的任何装置指示各种类型的装置,例如,无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外置或内置调制解调器、通过无线信道通信的装置等等。装置可具有各种名称,例如,存取终端(AT)、存取单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动设备、远端台、远端设备、远程单元、用户装置、用户设备、手持式装置等。本文中描述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。

Claims (28)

1.一种用于检测目标关键词的方法,所述目标关键词包含初始部分和多个随后部分,所述方法包括:
在电子装置处基于从所述目标关键词的所述多个随后部分中的一个起始的输入声音生成输入声音流,所述输入声音流根据工作循环在时间周期期间生成;
基于所述输入声音流确定与所述输入声音相关联的声音特征;
获得描述状态网络的数据,其中所述状态网络包含起始状态、多个输入状态以及从所述起始状态到所述多个输入状态中的每一个的过渡;以及
基于所述声音特征且进一步基于所述数据确定所述输入声音是否对应于所述目标关键词。
2.根据权利要求1所述的方法,其进一步包括,响应于确定所述输入声音对应于所述目标关键词:
激活所述电子装置的话音助理;
使用所述话音助理,在所述电子装置处生成消息;以及
接收指示所述电子装置的一或多个功能的激活的用户输入。
3.根据权利要求1所述的方法,其中对应于所述多个输入状态的数据存储在所述电子装置中,通过:
接收对应于所述目标关键词的所述初始部分和所述多个随后部分的参考输入声音;
确定用于所述参考输入声音的多个参考状态顺序;
确定用于所述多个参考状态顺序中的多个状态的状态时间周期;以及
确定所述多个输入状态。
4.根据权利要求3所述的方法,其中用于所述多个参考状态顺序中的所述多个状态的所述状态时间周期是通过回溯所述多个参考状态顺序确定的。
5.根据权利要求1所述的方法,其中确定所述输入声音是否对应于所述目标关键词包括确定多个关键词分数,并且其中每个关键词分数对应于包含从所述起始状态到所述多个输入状态中的一个的过渡的对应的状态顺序。
6.根据权利要求5所述的方法,其中所述状态网络包含多个状态顺序,每个状态顺序包括状态,所述状态包含:
所述起始状态;
所述多个输入状态中的一个;以及
一或多个随后状态。
7.根据权利要求6所述的方法,其中所述多个状态顺序的每个状态顺序与隐式马尔可夫模型以及用于所述状态顺序的所述多个状态的过渡信息相关联。
8.根据权利要求6所述的方法,其中确定所述多个关键词分数包括:
基于所述状态网络确定用于所述声音特征中的每一个的所述状态中的每一个的观察分数;以及
基于所述状态网络的过渡信息获得在所述多个状态顺序中的每一个中从所述状态中的每一个到下一个状态的过渡分数,并且
其中所述多个关键词分数是基于所述观察分数和所述过渡分数确定的。
9.根据权利要求5所述的方法,其中所述多个关键词分数当中的最大关键词分数用于确定所述输入声音是否对应于所述目标关键词。
10.根据权利要求9所述的方法,其中如果所述最大关键词分数大于阈值分数,那么所述输入声音被确定为对应于所述目标关键词。
11.根据权利要求5所述的方法,其中所述状态网络包含非关键词状态顺序,并且其中确定所述多个关键词分数包括确定用于所述非关键词状态顺序的非关键词分数。
12.根据权利要求11所述的方法,其中确定所述输入声音是否对应于所述目标关键词进一步包括在所述多个关键词分数当中选择最大关键词分数,并且其中确定所述输入声音是否对应于所述目标关键词是基于所述最大关键词分数与所述非关键词分数之间的差异。
13.根据权利要求12所述的方法,其中基于所述差异确定所述输入声音是否对应于所述目标关键词包括:
基于所述差异确定置信度值;以及
如果所述置信度值大于阈值置信度值,那么确定所述输入声音对应于所述目标关键词。
14.根据权利要求1所述的方法,其进一步包括:
基于所述工作循环,提供激活信号以激活所述电子装置的声音传感器;并且
基于所述工作循环,提供去激活信号以去激活所述电子装置的所述声音传感器。
15.根据权利要求14所述的方法,其进一步包括响应于确定所述输入声音对应于所述目标关键词,提供激活信号以激活所述电子装置的话音助理。
16.根据权利要求14所述的方法,其中所述时间周期对应于与所述工作循环相关联的激活时间间隔,其中在所述激活时间间隔期间提供所述激活信号,并且其中在与所述工作循环相关联的去激活时间间隔期间提供所述去激活信号。
17.根据权利要求16所述的方法,其中所述初始部分在所述去激活时间间隔期间说出,并且其中所述多个随后部分中的所述一个在所述激活时间间隔期间说出。
18.根据权利要求1所述的方法,其中所述工作循环与所述电子装置的工作循环功能相关联,并且其进一步包括响应于确定所述初始部分并不包含语音,提供激活信号以激活所述工作循环功能。
19.根据权利要求1所述的方法,其中所述时间间隔包括一或多个有效时间间隔,其中所述目标关键词的所述多个随后部分在所述一或多个有效时间间隔期间由用户说出。
20.一种用于检测目标关键词的电子装置,所述目标关键词包含初始部分和多个随后部分,所述电子装置包括:
声音传感器,其经配置以基于从所述目标关键词的所述多个随后部分中的一个起始的输入声音生成输入声音流;所述声音传感器进一步经配置以根据工作循环在时间周期期间生成所述输入声音流;以及
话音激活单元,其经配置以基于所述输入声音流确定与所述输入声音相关联的声音特征,以获得描述状态网络的数据,并且以基于所述声音特征和所述数据确定所述输入声音是否对应于所述目标关键词,
其中所述状态网络包含起始状态、多个输入状态以及从所述起始状态到所述多个输入状态中的每一个的过渡。
21.根据权利要求20所述的电子装置,其中所述话音激活单元经配置以通过确定多个关键词分数确定所述输入声音是否对应于所述目标关键词,并且其中每个关键词分数对应于包含从所述起始状态到所述多个输入状态中的一个的过渡的对应的状态顺序。
22.根据权利要求21所述的电子装置,其中所述状态网络包含多个状态顺序,每个状态顺序包括状态,所述状态包含:
所述起始状态;
所述多个输入状态中的一个;以及
一或多个随后状态。
23.根据权利要求22所述的电子装置,其中所述话音激活单元经配置以确定所述多个关键词分数,通过:
基于所述状态网络确定用于所述声音特征中的每一个的所述状态中的每一个的观察分数;以及
基于所述状态网络的过渡信息获得在所述多个状态顺序中的每一个中从所述状态中的每一个到下一个状态的过渡分数,并且
其中所述多个关键词分数是基于所述观察分数和所述过渡分数确定的。
24.根据权利要求23所述的电子装置,其中所述多个关键词分数当中的最大关键词分数是用于确定所述输入声音是否对应于所述目标关键词的,并且其中如果所述最大关键词分数大于阈值分数,那么确定所述输入声音对应于所述目标关键词。
25.根据权利要求23所述的电子装置,其中所述状态网络包含非关键词状态顺序,并且其中确定所述多个关键词分数包括确定用于所述非关键词状态顺序的非关键词分数。
26.根据权利要求25所述的电子装置,其中所述话音激活单元经配置以确定所述输入声音是否对应于所述目标关键词,通过:
在所述多个关键词分数当中选择最大关键词分数;以及
基于所述最大关键词分数与所述非关键词分数之间的差异确定所述输入声音是否对应于所述目标关键词。
27.根据权利要求20所述的电子装置,其中所述声音传感器包含麦克风,所述麦克风经配置以记录所述输入声音以在所述时间周期期间生成所述输入声音流,并且其中所述声音传感器进一步包含声音检测器,所述声音检测器耦接到所述麦克风并且经配置以确定所述输入声音流的部分是否满足声音强度阈值。
28.根据权利要求27所述的电子装置,其进一步包括语音检测器,所述语音检测器耦接到所述声音检测器并且耦接到所述话音激活单元。
CN201480025202.XA 2013-05-07 2014-04-24 用于检测目标关键词的方法和设备 Expired - Fee Related CN105190746B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361820498P 2013-05-07 2013-05-07
US61/820,498 2013-05-07
US201361859058P 2013-07-26 2013-07-26
US61/859,058 2013-07-26
US14/087,939 2013-11-22
US14/087,939 US20140337031A1 (en) 2013-05-07 2013-11-22 Method and apparatus for detecting a target keyword
PCT/US2014/035247 WO2014182460A2 (en) 2013-05-07 2014-04-24 Method and apparatus for detecting a target keyword

Publications (2)

Publication Number Publication Date
CN105190746A CN105190746A (zh) 2015-12-23
CN105190746B true CN105190746B (zh) 2019-03-15

Family

ID=51865436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480025202.XA Expired - Fee Related CN105190746B (zh) 2013-05-07 2014-04-24 用于检测目标关键词的方法和设备

Country Status (6)

Country Link
US (1) US20140337031A1 (zh)
EP (1) EP2994910B1 (zh)
JP (1) JP6309615B2 (zh)
KR (1) KR20160007527A (zh)
CN (1) CN105190746B (zh)
WO (1) WO2014182460A2 (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
JP6585022B2 (ja) 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US10186265B1 (en) * 2016-12-06 2019-01-22 Amazon Technologies, Inc. Multi-layer keyword detection to avoid detection of keywords in output audio
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
WO2018226779A1 (en) * 2017-06-06 2018-12-13 Google Llc End of query detection
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
TWI682385B (zh) * 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN111091849B (zh) * 2020-03-03 2020-12-22 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
CN111768783B (zh) * 2020-06-30 2024-04-02 北京百度网讯科技有限公司 语音交互控制方法、装置、电子设备、存储介质和系统
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
EP1168302A2 (de) * 2000-06-21 2002-01-02 Volkswagen Aktiengesellschaft Spracherkennungssytem mit einem aktiven Bereitschaftszustand
CN101557432A (zh) * 2008-04-08 2009-10-14 Lg电子株式会社 移动终端及其菜单控制方法
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN102426836B (zh) * 2011-08-25 2013-03-20 哈尔滨工业大学 基于分位数自适应裁剪的快速关键词检出方法
US20130110521A1 (en) * 2011-11-01 2013-05-02 Qualcomm Incorporated Extraction and analysis of audio feature data

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511798A (ja) * 1990-09-07 1993-01-22 Toshiba Corp 音声認識装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
US5878164A (en) * 1994-01-21 1999-03-02 Lucent Technologies Inc. Interleaved segmental method for handwriting recognition
JP3726448B2 (ja) * 1997-03-12 2005-12-14 セイコーエプソン株式会社 認識対象音声検出方法およびその装置
JP3911865B2 (ja) * 1998-09-09 2007-05-09 セイコーエプソン株式会社 音声認識装置
JP3975400B2 (ja) * 2003-08-20 2007-09-12 ソニー株式会社 監視システム、情報処理装置および方法、記録媒体、並びにプログラム
US8214362B1 (en) * 2007-09-07 2012-07-03 Google Inc. Intelligent identification of form field elements
US8990259B2 (en) * 2011-06-24 2015-03-24 Cavium, Inc. Anchored patterns
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
EP1168302A2 (de) * 2000-06-21 2002-01-02 Volkswagen Aktiengesellschaft Spracherkennungssytem mit einem aktiven Bereitschaftszustand
CN101557432A (zh) * 2008-04-08 2009-10-14 Lg电子株式会社 移动终端及其菜单控制方法
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
CN102426836B (zh) * 2011-08-25 2013-03-20 哈尔滨工业大学 基于分位数自适应裁剪的快速关键词检出方法
US20130110521A1 (en) * 2011-11-01 2013-05-02 Qualcomm Incorporated Extraction and analysis of audio feature data

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"design and implementation of speech recognition systems(lecture notes)";Bhikasha Raj,etc.;《http://asr.cs.cmu.edu/spring2011/》;20110425;全文 *
"rejection and keyword spotting algorithms for a directory assistance city name recognition application";Chigier.b.ed;《ICASSP》;19920323;第2卷;全文 *

Also Published As

Publication number Publication date
EP2994910A2 (en) 2016-03-16
JP6309615B2 (ja) 2018-04-11
US20140337031A1 (en) 2014-11-13
KR20160007527A (ko) 2016-01-20
JP2016526178A (ja) 2016-09-01
CN105190746A (zh) 2015-12-23
WO2014182460A3 (en) 2014-12-31
EP2994910B1 (en) 2017-06-14
WO2014182460A2 (en) 2014-11-13

Similar Documents

Publication Publication Date Title
CN105190746B (zh) 用于检测目标关键词的方法和设备
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
US11430428B2 (en) Method, apparatus, and storage medium for segmenting sentences for speech recognition
TWI619114B (zh) 環境敏感之自動語音辨識的方法和系統
CN105210146B (zh) 用于控制语音激活的方法和设备
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
CN110890093B (zh) 一种基于人工智能的智能设备唤醒方法和装置
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
US9899021B1 (en) Stochastic modeling of user interactions with a detection system
CN110176226A (zh) 一种语音识别、及语音识别模型训练方法及装置
CN112185352B (zh) 语音识别方法、装置及电子设备
CN105139858B (zh) 一种信息处理方法及电子设备
CN108564948B (zh) 一种语音识别方法及电子设备
CN108962241B (zh) 位置提示方法、装置、存储介质及电子设备
CN111833866A (zh) 用于低资源设备的高准确度关键短语检测的方法和系统
JPWO2017154282A1 (ja) 音声処理装置および音声処理方法
WO2010096273A1 (en) Automatic computation streaming partition for voice recognition on multiple processors with limited memory
CN110517677A (zh) 语音处理系统、方法、设备、语音识别系统及存储介质
CN110728993A (zh) 一种变声识别方法及电子设备
JP2003241788A (ja) 音声認識装置及び音声認識システム
CN112669885B (zh) 一种音频剪辑方法、电子设备及存储介质
CN110782898B (zh) 端到端语音唤醒方法、装置及计算机设备
CN116153291A (zh) 一种语音识别方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190315

Termination date: 20200424