CN105210146A - 用于控制语音激活的方法和设备 - Google Patents
用于控制语音激活的方法和设备 Download PDFInfo
- Publication number
- CN105210146A CN105210146A CN201480025286.7A CN201480025286A CN105210146A CN 105210146 A CN105210146 A CN 105210146A CN 201480025286 A CN201480025286 A CN 201480025286A CN 105210146 A CN105210146 A CN 105210146A
- Authority
- CN
- China
- Prior art keywords
- voice activation
- sound
- deactivation
- voice
- import stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 286
- 238000000034 method Methods 0.000 title claims abstract description 96
- 230000008676 import Effects 0.000 claims description 202
- 230000009849 deactivation Effects 0.000 claims description 92
- 230000006870 function Effects 0.000 claims description 47
- 230000007420 reactivation Effects 0.000 claims description 21
- 230000008859 change Effects 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 230000001483 mobilizing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 30
- 238000010586 diagram Methods 0.000 description 20
- 238000001514 detection method Methods 0.000 description 15
- 238000012546 transfer Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3206—Monitoring of events, devices or parameters that trigger a change in power modality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/325—Power saving in peripheral device
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0251—Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity
- H04W52/0254—Power saving arrangements in terminal devices using monitoring of local events, e.g. events related to user activity detecting a user operation or a tactile contact or a motion of the device
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephone Function (AREA)
- Power Sources (AREA)
Abstract
本发明揭示一种用于在移动装置中通过目标关键字来控制语音激活的方法。所述方法包含接收输入声音流。当所述输入声音流指示话音时,激活所述语音激活单元以检测所述目标关键字,并且从所述输入声音流提取至少一个声音特征。此外,所述方法包含在所述至少一个声音特征指示非目标关键字时去激活所述语音激活单元。
Description
优先权主张
本申请案主张共同拥有的2013年5月7日提交的第61/820,526号美国临时专利申请案、2013年8月9日提交的第61/864,490号美国临时专利申请案,以及2013年11月27日提交的第14/092,527号美国非临时申请案的优先权,所述申请案中的每一者的内容以全文引用的方式明确地并入本文中。
技术领域
本发明大体上涉及语音激活,且更具体来说,涉及在移动装置中控制语音激活。
背景技术
近年来,移动装置(例如智能电话、个人数字助理(PDA)、平板计算机以及膝上型计算机)的使用已经变得分布广泛。这些装置允许用户执行多种功能,例如浏览因特网、拍摄相片或视频、打电话或进行视频通话等。另外,此类装置通常提供具有各种功能性的应用。
此外,许多此类移动装置可以包含用于捕获音频信号的一或多个麦克风。这些装置中的一些可以允许捕获且处理音频信号以用于语音激活。使用此类语音激活特征,可以通过在移动装置中输入语音关键字来激活应用。
为了充分利用此类语音激活特征,移动装置通常需要经配置以针对可能的关键字连续监视且处理环境声音。然而,语音激活特征的连续操作可能耗尽移动装置的有限功率资源。
发明内容
本发明提供用于在移动装置中控制语音激活的方法、系统和装置。在这些方法、系统和装置中,一旦接收输入声音流,就可以在输入声音流指示话音时激活语音激活单元以检测目标关键字。此外,可以从输入声音流提取至少一个声音特征,且当所述至少一个声音特征指示非目标关键字时可以去激活语音激活单元。
根据本发明的一个方面,揭示一种用于在移动装置中通过目标关键字控制语音激活的方法。在所述方法中,接收输入声音流,且当所述输入声音流指示话音时激活语音激活单元以检测目标关键字。从输入声音流提取至少一个声音特征,且当所述至少一个声音特征指示非目标关键字时去激活语音激活单元。本发明还描述了与此方法相关的装置、系统、装置的组合以及计算机可读媒体。
根据本揭示内容的另一方面,揭示一种用于通过目标关键字控制语音激活的移动装置。所述移动装置包含接收器、话音检测器、语音激活单元以及语音激活控制单元。所述接收器经配置以接收输入声音流。此外,所述话音检测器经配置以在所述输入声音流指示话音时激活语音激活单元以检测目标关键字。语音激活单元经配置以从输入声音流提取至少一个声音特征,且语音激活控制单元经配置以在所述至少一个声音特征指示非目标关键字时去激活所述语音激活单元。
附图说明
图1图示根据本发明的一个实施例的移动装置,其经配置以捕获输入声音且在于所述输入声音中检测到目标关键字时执行语音激活功能。
图2图示根据本发明的一个实施例的在会议中的用户,其中所述用户的移动装置经配置以在所述会议期间的对话不包含目标关键字时去激活语音激活单元。
图3图示根据本发明的一个实施例的移动装置的框图,所述移动装置经配置以检测在输入声音流中的目标关键字以用于激活在所述移动装置中的功能。
图4A图示根据本发明的一个实施例的DSP的框图,所述DSP经配置以从声音传感器接收激活信号和输入声音流且产生用于激活语音助理单元的激活信号。
图4B图示根据本发明的另一实施例的DSP的框图,所述DSP经配置以从声音传感器接收激活信号和输入声音流且产生用于激活语音助理单元的激活信号。
图5图示根据本发明的一个实施例的语音激活单元的更详细框图,所述语音激活单元经配置以接收输入声音流且在所述输入声音流中检测目标关键字。
图6图示根据本发明的一个实施例的输入声音流的多个置信度分数、多个当前非关键字分数、多个当前关键字分数以及多个总平均非关键字分数的示范性曲线图。
图7图示根据本发明的一个实施例的一种方法的流程图,所述方法用于基于由语音激活单元计算的关键字分数和非关键字分数去激活移动装置的语音激活单元。
图8图示根据本发明的一个实施例的一种方法的流程图,所述方法用于通过语音激活控制单元去激活语音激活单元以终止接收输入声音流和处理正被接收的输入声音流。
图9图示根据本发明的一个实施例的一种方法的流程图,所述方法用于在去激活语音激活单元以终止接收输入声音流和处理正被接收的输入声音流之后再激活所述语音激活单元。
图10图示根据本发明的一个实施例的一种方法的详细流程图,所述方法用于检测输入声音流的状态改变以在去激活的次数等于预定值时再激活语音激活单元。
图11图示根据本发明的另一实施例的一种方法的详细流程图,所述方法用于检测输入声音的状态改变以在去激活的次数等于预定值时再激活语音激活单元。
图12A图示示出根据本发明的一个实施例的来自用于确定平均非关键字分数阈值的模拟的多条线的曲线图。
图12B图示示出根据本发明的另一实施例的来自用于确定平均非关键字分数阈值的模拟的多条线的曲线图。
图13是根据本发明的一个实施例的具有无线通信能力的示范性移动装置的框图。
具体实施方式
现在将详细参考各种实施例,在附图中图示所述实施例的实例。在以下详细描述中,阐述众多具体细节以便提供对本发明的透彻理解。然而,对于所属领域的技术人员将显而易见的是,可在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1图示根据本发明的一些实施例的移动装置110,其经配置以捕获输入声音流且在于所述输入声音流中检测到目标关键字时执行语音激活功能。在所说明的实施例中,用户120可以在躺在床130上时说出目标关键字且移动装置110接收所说出的声音。响应于所说出的声音,移动装置110激活语音激活单元以在所接收的输入声音流中检测目标关键字。语音激活单元从输入声音流提取至少一个声音特征。当至少一个声音特征指示非目标关键字时,移动装置110去激活语音激活单元。
移动装置110可以时任何合适的装置,例如蜂窝式电话、智能电话、配备有声音捕获能力(例如,允许检测目标关键字以用于激活语音激活功能的麦克风)的膝上型计算机或平板计算机。例如,在入睡之前,用户120可以口头地在移动装置110中设置闹钟。在此情况下,用户120可以向移动装置110说出目标关键字“设置闹钟”,所述移动装置激活闹钟应用。移动装置110随后接收所述声音且确定所接收的声音(即,输入声音流)是否超出预定阈值声音强度。此外,当所接收的声音超出预定阈值声音强度时,移动装置110通过使用声音分类方法(例如,支持向量机技术)确定所接收的声音是否是话音。
如果移动装置110确定所接收的声音是超出预定阈值声音强度的话音,那么移动装置110激活语音激活单元以确定所接收的语音声音是否包含目标关键字,所述目标关键字可以事先存储在移动装置110的关键字数据库中。在确定所接收的声音包含目标关键字后,移动装置110激活与目标关键字相关联的闹钟应用且允许用户120将闹钟设置成所需时间。如本文中所使用,术语“声音流”是指一或多个声音信号或声音数据的序列。此外,术语“关键字”是指可以用于激活在移动装置中的功能或应用的一或多个单词或声音的任何数字或模拟表示,且可以包含呈人的话音或对话的口头形式或经记录形式的任何数目的单词。如本文中所使用,术语“语音激活”意指通过在所捕获的声音中检测预定目标关键字来激活移动装置的至少一个功能或应用。
为了允许语音激活,移动装置110可以经配置以连续监视输入声音流以用于确定所捕获的声音是否包含目标关键字,直到移动装置110从所捕获的声音检测到目标关键字。以此方式操作移动装置110通常导致增加的功率的使用,由此缩短电池寿命。因此,为了节约功率,可以通过控制语音激活来减少移动装置110的功率消耗,如下文在一些实施例中所描述。
在图1中,一旦激活移动装置110的语音激活单元,所述语音激活单元就可以活动模式继续操作,直到所述语音激活单元检测到目标关键字。在此情况下,因为用户120在睡觉,所以到移动装置110的输入声音流将不具有包含用户120的目标关键字的任何话音。因此,移动装置110经配置以自动地去激活移动装置110的语音激活单元,如下文更详细地描述。通过监视输入声音流且按需要自动地去激活语音激活单元,移动装置110可以节约功率且提高电池寿命。当移动装置110确定随后接收的声音是话音时,可以再激活去激活语音激活单元。
如上文所描述,当移动装置110确定所接收的声音是超出预定阈值声音强度的话音时,可以激活移动装置110的语音激活单元。在一些情况下,移动装置110的语音激活单元可能在没有任何语音输入的情况下由于噪声或故障而被激活。在此事件中,移动装置110经配置以检测激活且去激活语音激活单元以减少功率消耗。例如,如果在用户120如图1中所图示在睡觉时移动装置110的语音激活单元由于噪声或故障而被意外地激活,那么移动装置110可以基于随后接收的声音去激活语音激活单元。如本文中所使用,术语“激活”是指从断开状态或非活动状态(例如,空闲态)启用或开启装置或单元以允许所述装置或所述单元执行一或多个相关联功能。此外,术语“去激活”是指从激活状态(例如,“开启”状态)停用或断开装置或单元。术语“再激活”是指在装置或单元已经去激活之后启用或开启所述装置或所述单元。
图2图示根据本发明的一个实施例的在会议中的用户220,其中所述用户220的移动装置210经配置以在所述会议期间的对话不包含目标关键字时去激活语音激活单元。在所图示的情境中,移动装置210经配置以捕获输入声音流,且在于所述输入声音流中检测到目标关键字时执行语音激活功能。在一个实施例中,移动装置210经配置以通过声音传感器(例如麦克风)接收输入声音流,且确定所接收的声音是否是话音。如果移动装置210确定所接收的声音是话音,那么移动装置210激活语音激活单元以在所接收的输入声音流中检测目标关键字。
在图2的会议情境中,移动装置210可以接收会议的会话声音且确定所述对话是话音。基于所检测到的话音,随后激活移动装置210的语音激活单元以用于确定所接收的声音是否包含预定目标关键字。如果所接收的对话声音在预定时间段上不包含目标关键字,那么可以假设,随后的对话声音将不太可能包含目标关键字。因此,当移动装置210确定所接收的声音在预定时间段上不包含目标关键字时,所述移动装置可以去激活语音激活单元以终止处理包含具有相似背景的随后的声音的会话声音。
如果会议结束且不再接收会话声音,那么移动装置210可以再激活语音激活单元以检测目标关键字。例如,移动装置210可以通过监视被接收的输入声音流来检测对话结束的时间。在一个实施例中,当检测到随后的会话声音且在先前接收的会话声音和随后的会话声音之间存在预定的沉默的持续时间时,移动装置210可以再激活语音激活单元。如本文中所使用,术语“沉默”意指其中接收到在预定阈值声音强度之下的声音的状态。在另一实施例中,当检测到随后的声音是话音且在先前的声音和随后的声音之间检测到背景的改变时,移动装置210可以再激活语音激活单元。
图3描绘根据本发明的一个实施例的移动装置310的框图,所述移动装置经配置以检测在输入声音流中的目标关键字以用于激活在移动装置310中的功能。移动装置310包含声音传感器312、输入/输出(I/O)单元316、存储单元318、通信单元320以及处理器340。类似于移动装置110和210,移动装置310可以是配备有声音捕获和处理能力的任何合适的装置,例如蜂窝式电话、智能电话、个人计算机、膝上型计算机、平板计算机、智能电视、游戏装置、多媒体播放器等。
处理器340包含数字信号处理器(DSP)330和语音助理单元328,并且可以是用于管理和操作移动装置310的应用程序处理器或中央处理单元(CPU)。DSP330包含话音检测器322、语音激活单元324以及语音激活控制单元326。在一个实施例中,DSP330是用于减少在处理声音流时的功率消耗的低功率处理器。在此配置中,DSP330中的语音激活单元324经配置以在于输入声音流中检测到目标关键字时激活语音助理单元328。尽管在所说明的实施例中语音激活单元324经配置以激活语音助理单元328,但所述语音激活单元也可以激活可能与目标关键字相关联的任何功能或应用。
声音传感器312可以经配置以接收输入声音流并且将它提供给DSP330中的话音检测器322。声音传感器312可以包含一或多个麦克风或可以用于接收、捕获、感测和/或检测到移动装置310的声音输入流的任何其它类型的声音传感器。另外,声音传感器312可以采用任何合适的软件和/或硬件以用于执行此类功能。
在一个实施例中,声音传感器312可以经配置以根据占空比周期性地接收输入声音流。声音传感器312可以进一步包含声音检测器314,其用于确定输入声音流的所接收的部分是否超出预定阈值声音强度。当输入声音流的所接收的部分超出阈值声音强度时,声音传感器312的声音检测器314激活话音检测器322且将所接收的部分提供到DSP330中的话音检测器322。替代地,在不确定所接收的部分是否超过阈值声音强度的情况下,声音传感器312可以周期性地接收输入声音流的一部分且激活话音检测器322以将所接收的部分提供给话音检测器322。可以了解,声音检测器314可以独立地存在于声音传感器312的外部或可以包含于话音检测器322等其它单元中。
为了供检测目标关键字使用,存储单元318存储目标关键字和与所述目标关键字的多个部分相关联的信息。在一个实施例中,目标关键字可被划分成多个基本声音单元,例如,音素、音位或其子单元,并且表示目标关键字的多个部分可基于基本声音单元产生。在一些实施例中,目标关键字的检测可以使用时间模式识别方法来执行,所述方法包含马尔可夫链模型,例如隐马尔可夫模型(HMM)、半马尔可夫模型(SMM)或其组合。在此情况下,目标关键字的每个部分随后可以与在HMM或SMM下的状态相关联。状态信息可以包含在目标关键字的状态当中的输入状态和从所述状态中的每一者转换到包含自身的下一状态的转移信息。存储单元318可以使用任何合适的存储装置或存储器装置实施,例如,RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器、固态驱动器(SSD)或类似者。
当激活时,DSP330中的话音检测器322从声音传感器312接收输入声音流的部分。在一个实施例中,话音检测器322从所接收的部分提取多个声音特征且通过使用任何合适的声音分类方法确定提取到的声音特征是否指示例如话音等所关注的声音,所述声音分类方法例如,基于高斯混合模型(GMM)的分类器、HMM、神经网络、图解模型以及支持向量机(SVM)。如本文中所使用,术语“声音特征”是指描述或表示指定的持续时间的声音的任何信息或数据,且可以包含从所述声音提取的频率或功率分量、表示声音的分类的声音类别识别符和/或从所述声音提取的任何其它信息或数据。
如果所接收的部分被确定为是所关注的声音,那么话音检测器322激活语音激活单元324并且输入声音流的所接收的部分和其余部分被提供给语音激活单元324。在一些其它实施例中,可以在DSP330中省略话音检测器322。在此情况下,当所接收的部分超出阈值声音强度时,声音传感器312激活语音激活单元324并且将输入声音流的所接收的部分和其余部分直接提供给语音激活单元324。
当激活时,语音激活单元324经配置以连续地接收输入声音流并且从输入声音流检测目标关键字。当接收到输入声音流时,语音激活单元324可从输入声音流依次提取多个声音特征。在将HMM用于目标关键字的检测的情况下,语音激活单元324可以从存储单元318获得目标关键字的状态信息,包含多个状态、输入状态以及转移信息。对于每个声音特征,可以通过使用例如GMM、神经网络以及SVM等任何合适的概率模型针对状态中的每一者确定观察分数。依据转移信息,语音激活单元324可以获得从可能用于目标关键字的多个状态序列中的状态中的每一者到下一个状态的转移分数。
在确定观察分数并且获得转移分数之后,语音激活单元324确定用于可能的状态序列的关键字分数。在一个实施例中,如果所确定的关键字分数当中的最大关键字分数超出预定分数阈值,那么语音激活单元324将输入声音流检测为目标关键字。在检测目标关键字之后,语音激活单元324产生且发射激活信号以激活与目标关键字相关联的语音助理单元328。
语音助理单元328响应于来自语音激活单元324的激活信号被激活。一旦被激活,语音助理单元328可以通过在触摸显示器单元上输出例如“我可以帮助你吗?”等消息和/或通过I/O单元316的扬声器执行语音助理功能。作为响应,用户可以说出语音命令以激活移动装置310的各种相关联的功能。例如,当接收到用于因特网搜索的语音命令时,语音助理单元328可以识别语音命令为搜索命令并且经由通信单元320通过网络350执行网络搜索。
一旦语音激活单元324被激活,DSP330中的语音激活控制单元326就确定随后接收的输入声音流是否指示非目标关键字。如本文中所使用,术语“非目标关键字”是指除目标关键字外的所有声音且可以包含沉默、噪声以及不是目标关键字的任何单词或声音。当确定目标关键字并未包含于输入声音流中时,语音激活控制单元326可以去激活语音激活单元324。这防止语音激活单元324连续处理输入声音流,由此减少移动装置310的功率消耗。
图4A图示根据本发明的一个实施例的DSP330的框图,所述DSP330经配置以从声音传感器312接收激活信号和输入声音流且产生用于激活语音助理单元328的激活信号。如上文参考图3所描述,声音传感器312接收输入声音流,且当确定输入声音流是超出预定阈值声音强度的声音时,将激活信号(“开启”)输出到DSP330中的话音检测器322。连同激活信号,声音传感器312还可以将所接收的输入声音流提供到话音检测器322。
来自声音传感器312的激活信号激活话音检测器322以接收且处理输入声音流。在一个实施例中,话音检测器322确定所接收的输入声音流是否是话音。如果确定所接收的输入声音流是话音,那么话音检测器322产生激活信号(“开启”),所述激活信号连同输入声音流一起提供到语音激活单元324。
响应于来自话音检测器322的激活信号,开启语音激活单元324以接收且处理来自话音检测器322的输入声音流。语音激活单元324可以将输入声音流分段成多个帧且从经分段帧中的每一者提取声音特征。在特定实施例中,语音激活单元324可以确定与所提取的声音特征的非目标关键字状态相对应的第一度量值。例如,语音激活单元324可以确定与所提取的声音特征与非目标关键字相关联的似然性相对应的度量值。语音激活单元324可以将第一度量值与基于输入声音流的第二度量值比较。例如,第二度量值可以与所提取的声音特征的目标关键字状态(例如,所提取的声音特征与目标关键字相关联的似然性)相对应,或第二度量值可以与在特定时间段期间的平均非目标关键字状态相对应。语音激活单元324可以基于比较的结果确定所提取的声音特征是否指示非目标关键字。例如,如果第一度量值大于第二度量值,那么语音激活单元324可以确定所提取的声音特征指示非目标关键字。
在另一个特定实施例中,基于所提取的声音特征,语音激活单元324确定指示所接收的输入声音流包含目标关键字的概率的关键字分数和指示所接收的输入声音流不包含目标关键字的概率的非关键字分数。在一个实施例中,如果关键字分数超出预定分数阈值,那么语音激活单元324将输入声音流检测为目标关键字。在检测到目标关键字后,语音激活单元324产生且发射激活信号以激活语音助理单元328。
一旦激活语音激活单元324,所述语音激活单元就通过处理随后的输入声音流继续以活动状态操作。这可能不必要地耗尽移动装置310的功率资源,尤其是在随后的输入声音流不包含目标关键字时。在此类情况下,语音激活控制单元326用于断开语音激活单元324。
在一个实施例中,在确定关键字分数和非关键字分数之后,语音激活单元324将关键字分数和非关键字分数输出到语音激活控制单元326。基于关键字分数和非关键字分数,语音激活控制单元326确定输入声音流是否不包含目标关键字。例如,语音激活控制单元326可以确定指示在关键字分数和非关键字分数之间的差值的置信度分数,且在置信度分数小于置信度分数阈值时检测输入声音流不包含目标关键字。语音激活控制单元326还可以确定当前非关键字分数和总非关键字平均分数,且在当前非关键字分数超出总非关键字平均分数超过平均非关键字分数阈值时,检测输入声音流不包含目标关键字。如果语音激活控制单元326确定输入声音流不包含目标关键字,那么语音激活控制单元326产生且发射去激活信号(“断开”)以断开语音激活单元324。如上文所描述,语音激活控制单元326基于由语音激活单元324确定的分数控制语音激活单元324。因此,语音激活控制单元326不需要使用另外的计算资源来计算分数且语音激活控制单元326可以有效地控制语音激活单元324。
另外,当随后的输入声音流指示话音时,语音激活控制单元326发射控制信号以控制话音检测器322开启语音激活单元324。响应于控制信号,话音检测器322确定在去激活语音激活单元324之后接收的随后的输入声音流是否是话音。如果话音检测器322确定随后的输入声音流不是话音(例如,沉默),那么话音检测器322不激活语音激活单元324。因此,语音激活单元324可以保持去激活而不消耗功率。另一方面,如果话音检测器322确定随后的输入声音流是话音,那么话音检测器322可以激活语音激活单元324以用于检测在随后的输入声音流中的目标关键字。
在一个实施例中,在激活之后由语音激活单元324接收且处理的输入声音流可以是不包含目标关键字的连续对话(例如,一般的话音、一般的对话等)。在此情况下,语音激活控制单元326基于关键字分数和非关键字分数去激活语音激活单元324,如上文所描述。一旦语音激活单元324已经去激活,声音传感器312就可以接收随后的输入声音流。当随后的输入声音流指示超出阈值声音强度的声音时,声音传感器312的声音检测器314将激活信号发射到话音检测器322,如果随后的输入声音流包含话音,那么所述话音检测器可以转而将激活信号发射到语音激活单元324。
当再激活语音激活单元324时,语音激活单元324可以针对随后的输入声音流的每个声音特征计算关键字分数和非关键字分数。随后将关键字分数和非关键字分数发射到语音激活控制单元326。基于关键字和非关键字分数,语音激活控制单元326可以确定随后的输入声音流不包含目标关键字且将去激活信号发射到语音激活单元324。以此方式,语音激活单元324可以反复地激活和去激活。
如果语音激活控制单元326连续地确定输入声音流不包含目标关键字的次数超出预定计数,那么可以假设当前被接收的输入声音流不太可能包含目标关键字。根据一个实施例,语音激活控制单元326基于所产生且发射到语音激活单元324的去激活信号的数目对确定输入声音流不包含目标关键字的次数计数。如果去激活的次数大于或等于预定计数,那么语音激活控制单元326可以将控制信号发射到话音检测器322以防止语音激活单元324的激活,即使随后的输入声音流指示话音。因此,语音激活控制单元326可以去激活语音激活单元324以终止接收输入声音流且处理正被接收的输入声音流。
在语音激活单元324已经基于连续的去激活的计数而去激活之后,所述语音激活单元可以被再激活以接收且处理随后的声音流。在一个实施例中,如果话音检测器322已经结束处理在输入声音流中的前一对话且接收新的对话,那么所述话音检测器可以再激活语音激活单元324,因为存在最新接收的对话包含目标关键字的可能性。例如,当话音检测器322检测到在先前接收的对话和随后的对话之间的预定的沉默的持续时间时,所述话音检测器可以检测到前一对话结束。替代地,在声音传感器312中的声音检测器314可以经配置以检测沉默的持续时间以用于激活语音激活单元324。
在另一实施例中,在语音激活单元324基于连续的去激活的计数被去激活之后,当检测到在输入声音流的声音背景中的改变时,话音检测器322可以再激活所述语音激活单元。在背景中的改变是指在声音环境中的改变,例如从一个声音环境改变到另一个声音环境。例如,当移动装置310从汽车移动到室内时,从汽车和室内接收的环境声音通常显示可以用于识别每个环境的背景的不同声音特性。所接收的声音的背景信息可以通过采用任何合适的背景确定方法来确定。例如,可以将输入声音的声音特征与从具体背景训练出的数据库中的声音特征比较和匹配。之后,所接收的声音的背景信息可以从与数据库中的最佳匹配的声音特征相关联的背景信息确定。为了再激活语音激活单元324,话音检测器322可以检测在前一输入声音和随后的输入声音流之间在声音背景中的改变。可以了解,任何其它单元(例如,语音激活控制单元326)都可以替代话音检测器322检测在声音背景中的改变。
图4B图示根据本发明的另一实施例的DSP330的框图,所述DSP330经配置以从声音传感器312接收激活信号和输入声音流且产生用于激活语音助理单元328的激活信号。类似于图4A,来自声音传感器312的声音检测器314的激活信号激活话音检测器322以接收且处理输入声音流。如果确定所接收的输入声音流是话音,那么话音检测器322产生激活信号(“开启”),所述激活信号连同输入声音流一起提供到语音激活单元324。响应于来自话音检测器322的激活信号,语音激活单元324产生关键字分数和非关键字分数。基于由语音激活单元324确定的分数,语音激活控制单元326B控制语音激活单元324。此外,语音激活控制单元326B基于所产生且发射到语音激活单元324的去激活信号的数目对确定输入声音流不包含目标关键字的次数计数。
在此实施例中,如果去激活的次数大于或等于预定计数,那么语音激活控制单元326B可以将控制信号发射到声音传感器312的声音检测器314以去激活声音检测器314。例如,当声音检测器314从语音激活控制单元326B接收控制信号时,声音检测器314可以在预定时间段(例如,10秒)上去激活。在替代实施例中,如果语音激活单元324去激活的次数大于或等于预定计数,那么声音传感器312可以在预定时间段上去激活。
图5图示根据本发明的一个实施例的语音激活单元324的更详细框图,所述语音激活单元经配置以接收输入声音流且在所述输入声音流中检测目标关键字。语音激活单元324包含分段单元510、特征提取器520、分数确定单元530和关键字检测单元540。分数确定单元530包含观察分数确定单元550和最大关键字分数确定单元560。
分段单元510接收来自话音检测器322的输入声音流并且将所接收的输入声音流分段成相等时间周期的多个顺序帧。特征提取器520从分段单元510依次接收经分段帧并且从所述帧中的每一者提取声音特征。在一个实施例中,特征提取器520可以使用梅尔倒频谱系数(MFCC)方法等任何合适的特征提取方法从所述帧提取声音特征。例如,在MFCC方法的情况下,从经分段帧中的每一者计算n维向量中的MFCC并且将所述向量用作声音特征。
在分数确定单元530中,观察分数确定单元550从存储单元318依次接收声音特征并且接收目标关键字的状态信息。根据一个实施例,目标关键字的状态信息可以包含与目标关键字的多个部分相关联的多个状态以及概率模型(例如,概率函数),例如提供用于所述状态中的每一者的GMM。如上文所描述,目标关键字可以划分成多个基本声音单元,且表示目标关键字的多个部分可以基于所述基本声音单元产生。在一些实施例中,目标关键字的状态还可以包含非关键字状态(例如,“填充物”状态),其不与表示目标关键字的多个部分中的任一者相关联。例如,在目标关键词包含预定数目的状态(所述状态中的每一者与音素等基本声音单元相对应)的情况下,非关键字状态可以表示除包含于目标关键字中的那些基本声音单元外的基本声音单元。
当接收每个声音特征时,观察分数确定单元550基于声音特征和从存储单元318接收的状态信息确定目标关键字的每个状态的观察分数。在一个实施例中,通过根据用于相关联的状态的概率模型计算概率值来针对所接收的声音特征确定所述状态中的每一者的观察分数。概率值中的每一者可以用作相关联状态的观察分数。状态的高观察分数指示声音特征与状态的基本声音单元相对应的高概率。观察分数确定单元550将所接收的声音特征中的每一者的观察分数提供到最大关键字分数确定单元560以用于确定多个状态序列的关键字分数,所述状态序列对于目标关键字是可能的。
最大关键字分数确定单元560接收声音特征中的每一者的观察分数且从存储单元318获得状态信息。状态信息可以包含目标关键字的多个状态,包含非关键字状态、所述状态当中的输入状态、以及从状态中的每一者到包含自身的下一状态的转移信息。输入状态可以表示在目标关键字的可能的状态序列中的每一者中非关键字状态转移到的第一状态。
状态信息中的转移信息包含在目标关键字的可能的状态序列中的每一者中从所述状态中的每一者到下一状态的转移分数。转移分数可以表示在每个可能的状态序列中所述状态中的每一个转移到下一状态的概率值。转移分数还包含从非关键字状态到输入状态的转移分数。
基于所接收的观察分数和转移分数,最大关键字分数确定单元560计算可能的状态序列中的每一者的关键字分数。在此情况下,状态序列可以从非关键字状态(即,起始状态)开始,因为非关键字状态在接收到输入声音流之前得到指派。由此,转移分数包含从非关键字状态到输入状态的转移分数,并且还包含在状态序列中从非关键字状态到其自身的转移分数。以此方式,当从观察分数确定单元550接收每个声音特征的观察分数的集合时,最大关键字分数确定单元560将下一状态添加到每个状态序列且确定所更新的状态序列中的每一者的关键字分数。最大关键字分数确定单元560随后在所更新的状态序列的关键字分数当中选择最大关键字分数。在一个实施例中,可以通过使用维特比算法等任何合适的方法计算关键字分数来确定最大关键字分数。在确定最大关键字分数之后,最大关键字分数确定单元560将它提供给关键字检测单元540。
在从最大关键字分数确定单元560接收最大关键字分数后,关键字检测单元540基于最大关键字分数在输入声音流中检测目标关键字。例如,关键字检测单元540可以从存储单元318接收用于检测目标关键字的分数阈值,且如果最大关键字分数大于所接收的分数阈值,那么检测到目标关键字。在此情况下,分数阈值可以被设定为用于检测在所需置信度水平内的目标关键字的最小关键字分数。
在一些实施例中,最大关键字分数确定单元560确定非关键字状态序列的非关键字分数。可以在所确定的可能的状态序列的关键字分数当中选择非关键字分数且将其提供到关键字检测单元540。一旦检测到目标关键字,关键字检测单元540就产生并且提供激活信号以开启与目标关键字相关联的语音助理单元328。
基于关键字分数(例如,最大关键字分数)或非关键字分数,语音激活控制单元326确定输入声音流是否不包含目标关键字。在一个实施例中,语音激活控制单元326可以使用关键字分数和非关键字分数两者来改进检测准确性,尤其是当输入声音流包含可能影响关键字分数的噪声等环境声音时。在此实施例中,语音激活控制单元326可以确定指示在关键字分数和非关键字分数之间的差值的置信度分数。置信度分数指示从输入声音流检测到目标关键字的概率。如果置信度分数较高,那么它指示从输入声音流检测到目标关键字的高概率。另一方面,如果置信度分数较低,那么它指示从输入声音流检测到目标关键字的低概率。因此,如果置信度分数小于置信度分数阈值,那么语音激活控制单元326确定输入声音流不包含目标关键字。
在另一实施例中,语音激活控制单元326在确定输入声音流不包含目标关键字时可以分析在某一时间段上的输入声音流。例如,如果用户说出目标关键字“hey”,那么当接收到仅音素“he”时,语音激活控制单元326可能初始地确定所接收的声音不是目标关键字。当语音激活控制单元326随后接收音素“y”时,它可以确定所接收的声音是目标关键字。因此,为了改进在确定输入声音流是否不包含目标关键字时的准确性,语音激活控制单元326基于非关键字分数的平均值确定输入声音流是否不包含目标关键字。
语音激活控制单元326可以确定当前非关键字分数和总非关键字平均分数,且在一个实施例中确定当前非关键字分数和总非关键字平均分数之间的差值。当前非关键字分数可以是从最近提取的声音特征计算出的非关键字分数。在另一实施例中,当前非关键字分数可以是从多个最近提取的声音特征计算出的平均分数。总非关键字平均分数指示从在指定时间段上所提取的声音特征的全部计算出的平均分数,所述指定时间段可以周期性地复位。如果当前非关键字分数和总非关键字平均分数之间的差值大于平均非关键字分数阈值,那么语音激活控制单元326确定输入声音流不包含目标关键字。替代地,如果置信度分数小于置信度分数阈值且当前非关键字分数和总非关键字平均分数之间的差值大于平均非关键字分数阈值,那么语音激活控制单元326可以确定输入声音流不包含目标关键字。
图6图示根据一个实施例的输入声音流600的多个置信度分数620、多个当前非关键字分数640、多个当前关键字分数650以及多个总平均非关键字分数660的示范性曲线图616和618。所接收的输入声音流600包含多个部分602到614。如图所示,输入声音流600包含两个非关键字部分602和606、三个关键字部分604、610和614,以及两个沉默部分608和612。如本文中所使用,术语“非关键字”是指除目标关键字、沉默和噪声外的所有声音。
分数曲线图616图示输入声音流600的置信度分数620连同置信度分数阈值630,所述置信度分数阈值是恒定的(如图6中通过粗体直线指示)。如所图示,与关键字部分604、610和614相对应的一些置信度分数620中超出置信度分数阈值630。在这些情况下,语音激活控制单元326不确定输入声音流600不包含目标关键字。其它置信度分数620与非关键字部分602和606或沉默部分608和612相对应,且并未超出置信度分数阈值630。因此,语音激活控制单元326可以确定与这些分数相对应的输入声音流600不包含目标关键字。
分数曲线图618图示当前非关键字分数640(如用黑色实线指示)、当前关键字分数650(如用点线指示)、总平均非关键字分数660(如用黑色粗体实线指示)。如带圆圈部分670中所图示,当前非关键字分数640中与非关键字部分602和606或沉默部分612相对应的一些超出总平均值非关键字分数660超过平均非关键字分数阈值。在这些情况下,语音激活控制单元326可以确定输入声音流600与不包含目标关键字的这些分数相对应。
图7图示根据本发明的一个实施例的一种方法700的流程图,所述方法用于基于由语音激活单元324计算的关键字分数和非关键字分数去激活移动装置310的语音激活单元324。移动装置310在710处通过声音传感器312接收输入声音流。随后,在720处,声音传感器312的声音检测器314和话音检测器322确定输入声音流是否是超出阈值声音强度的话音。如果输入声音流是超出阈值声音强度的话音,那么在730处,话音检测器322激活语音激活单元324。然而,如果输入声音流不是超出阈值声音强度的话音,那么在710处,声音传感器312的声音检测器314和话音检测器322再次接收随后的输入声音流。
在740处,语音激活单元324可以将输入声音流分段成多个声音帧且从每个声音帧提取声音特征。在提取声音特征之后,语音激活单元324从声音特征计算关键字分数和非关键字分数且将关键字分数和非关键字分数发射到语音激活控制单元326。基于由语音激活单元324计算的关键字分数和非关键字分数,语音激活控制单元326在750处确定关键字分数和非关键字分数是否指示非目标关键字。如果语音激活控制单元326不能确定关键字分数和非关键字分数指示非目标关键字,那么语音激活单元324在760处接收随后的输入声音流。随后,语音激活单元324可以在740处计算随后的输入声音流的关键字分数和非关键字分数,直到语音激活单元324在750处检测到关键字分数和非关键字分数指示非目标关键字。如果语音激活控制单元326在750处确定关键字分数和非关键字分数指示非目标关键字(即,输入声音流指示非目标关键字),那么语音激活控制单元326在770处去激活语音激活单元324。
图8图示根据本发明的一个实施例的一种方法800的流程图,所述方法用于通过语音激活控制单元326去激活语音激活单元324以终止接收输入声音流和处理正被接收的输入声音流。可以了解,在方法800的810到840处的操作以与在方法700的740到770处的操作相同的方式执行,且因此省略其描述。在于840处去激活语音激活单元324之后,语音激活控制单元326在850处增加去激活的次数。例如,移动装置310可以具有用于存储计数值的存储单元318。计数值的初始值可以设为“0”。如果语音激活控制单元326将去激活信号发射到语音激活单元324且语音激活单元324去激活,那么语音激活控制单元326可以对计数值加“1”。
在860处,语音激活控制单元326确定去激活的次数是否等于或超出预定值。如果去激活的次数等于或超出预定值,那么在870处,语音激活控制单元326发射控制信号以控制话音检测器322以防止在随后的输入声音流指示话音时开启语音激活单元324。因此,语音激活控制单元326可以去激活语音激活单元324以终止接收输入声音流且处理正被接收的输入声音流。在将控制信号发射到话音检测器322之后,语音激活控制单元326在890处复位去激活的次数。然而,如果去激活的次数小于预定值,那么在880处,语音激活控制单元326发射控制信号以控制话音检测器322以在随后的输入声音流指示话音时开启语音激活单元324。因此,在语音激活单元324的去激活之后,如果话音检测器322从随后的输入声音流检测到话音,那么话音检测器322可以开启语音激活单元324。
图9图示根据本发明的一个实施例的一种方法900的流程图,所述方法用于在去激活语音激活单元324以终止接收输入声音流和处理正被接收的输入声音流之后再激活所述语音激活单元324。可以了解,在方法900的910到970处的操作以与在方法700的710到770处的操作相同的方式执行,且因此省略其描述。在970处已经去激活语音激活单元324之后,语音激活控制单元326在980处对去激活的次数计数。在990处,语音激活控制单元326确定去激活的次数是否等于或超出预定值。如果去激活的次数小于预定值,那么话音检测器322在910处接收随后的输入声音流。然而,如果去激活的次数等于或超出预定值,那么话音检测器322在995处确定是否检测到在所述输入声音流和随后的输入声音流之间的背景改变。如果检测到背景改变,那么话音检测器322处理随后的输入声音流以确定随后的输入声音流是否指示话音。
图10图示根据本发明的一个实施例的一种方法1000的详细流程图,所述方法用于检测输入声音流的背景改变以在去激活的次数等于或超出预定值时再激活语音激活单元324。如上文在图9中所描述,语音激活控制单元326在990处确定去激活的次数是否等于或超出预定值。如果去激活的次数不超出预定值,那么话音检测器322在910处接收随后的输入声音流。然而,如果去激活的数目等于或超出预定值,那么话音检测器322在1010处接收随后的输入声音流。在1020处,话音检测器322确定在先前接收的输入声音流和随后的输入声音流之间的沉默的持续时间。如果沉默的持续时间不大于预定时间段,那么话音检测器322重复地接收随后的输入声音流。然而,如果沉默的持续时间大于预定时间段(即,检测到输入声音的背景改变),那么话音检测器322在920处确定所接收的随后的输入声音是否是随后的输入声音流的话音。
图11图示根据本发明的另一实施例的一种方法1100的详细流程图,所述方法用于检测输入声音的背景改变以在去激活的次数等于或超出预定值时再激活语音激活单元324。如上文在图9中所描述,语音激活控制单元326在990处确定去激活的次数是否等于或超出预定值。如果去激活的次数不超出预定值,那么话音检测器322在910处接收随后的输入声音流。然而,如果去激活的数目等于或超出预定值,那么话音检测器322在1110处接收随后的输入声音流。在1120处,话音检测器322检测在所捕获的随后的输入声音流的背景中的改变。如果未检测到在背景中的改变,那么话音检测器322可以重复地接收随后的输入声音流。然而,如果检测到在背景中的改变(即,检测到输入声音的背景改变),那么话音检测器322在920处确定所接收的随后的输入声音是否是随后的输入声音流的话音。
图12A图示示出根据本发明的一个实施例的来自用于确定平均非关键字分数阈值的模拟的多条线1210a、1220a和1230a的曲线图1200a。在此实施例中,利用没有噪声的输入声音流执行模拟。曲线图1200a的x轴表示平均非关键字分数阈值,而y轴表示随平均非关键字分数阈值而变的线1210a、1220a和1230a的概率。线1210a指示当输入声音流实际上包含目标关键字时语音激活控制单元326错误地确定输入声音流不包含目标关键字的“假警报”的概率。
假警报是不希望的,因为可能需要由用户重复输入目标关键字。因此,可能需要将假警报的概率设为近零。在假警报线1210a中,当平均非关键字分数阈值大于“2”时,假警报的概率接近近零。因此,在语音激活控制单元326中的平均非关键字分数阈值可以设定成“2”的值或更大。
线1220a指示当输入声音流实际上不包含目标关键字时语音激活控制单元326错误地确定输入声音流包含目标关键字的“失误”的概率。另一方面,线1230a指示当输入声音流不包含目标关键字时由语音激活控制单元326正确地检测到非关键字的概率。如图所示,“失误”线1220a示出“失误”的概率初始地平坦近零,但在平均非关键字分数阈值值“2”之后大大增加。相反,线1230a指示正确地检测到非关键字的概率靠近概率值“1”,但当平均非关键字分数达到值“2”时开始大大减小。考虑到线1210a、1220a和1230a,平均非关键字分数阈值可以设在“2”和“3”之间以用于最优性能。
图12B图示示出根据本发明的另一实施例的来自用于确定平均非关键字分数阈值的模拟的多条线1210b、1220b和1230b的曲线图1200b。在此实施例中,利用具有噪声的输入声音流执行模拟。类似于图12A,线1210b指示当输入声音流实际上包含目标关键字时语音激活控制单元326错误地确定输入声音流不包含目标关键字的“假警报”的概率。此外,线1220b指示当输入声音流实际上不包含目标关键字时语音激活控制单元326错误地确定输入声音流包含目标关键字的“失误”的概率。另一方面,线1230b指示当输入声音流不包含目标关键字时由语音激活控制单元326正确地检测到非关键字的概率。如图所示,当平均非关键字分数阈值大于“3”时,假警报线1210b接近近零。另外,“失误”线1220b示出“失误”的概率初始地平坦近零,但在平均非关键字分数阈值值“2”之后大大增加。相反,线1230b指示正确地检测到非关键字的概率靠近概率值“1”,但当平均非关键字分数阈值达到值“2”时开始大大减小。考虑到线1210b、1220b以及1230b,平均非关键字分数阈值可以设在“3”和“4”之间以用于最优性能(即,用于减小假警报的概率)。如上文所描述,可以基于移动装置的背景信息(例如,嘈杂的背景)调整平均非关键字分数阈值。
图13是根据本发明的一个实施例的具有无线通信能力的示范性移动装置1300的框图。移动装置1300可以是蜂窝式电话、终端、手机、个人数字助理(PDA)、无线调制解调器、无绳电话等等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等等。
移动装置1300可能能够经由接收路径和发射路径提供双向通信。在接收路径上,由基站发射的信号被天线1312接收,并且被提供到接收器(RCVR)1314。接收器1314调节且数字化所接收信号,并且将经调节和数字化的信号提供到数字区段1320用于进一步处理。在发射路径上,发射器(TMTR)从数字区段1320接收待发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线1312发射到基站。接收器1314和发射器1316是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的部分。
数字区段1320包含各种处理、接口和存储器单元,例如,调制解调器处理器1322、精简指令集计算机/数字信号处理器(RISC/DSP)1324、控制器/处理器1326、内部存储器1328、广义音频编码器1332、广义音频解码器1334、图形/显示器处理器1336,和/或外部总线接口(EBI)1338等。调制解调器处理器1322执行对数据发射和接收的处理,例如,编码、调制、解调和解码。RISC/DSP1324执行无线装置1300的通用和专用处理。控制器/处理器1326控制数字区段1320内的各种处理和接口单元的操作。内部存储器1328存储用于数字区段1320内的各种单元的数据和/或指令。
广义音频编码器1332执行对来自音频源1342、麦克风1343等的输入信号的编码。广义音频解码器1334执行对经译码音频数据的解码,并且将输出信号提供到扬声器/耳机1344。应注意,广义音频编码器1332和广义音频解码器1334不一定需要与音频源、麦克风1343和扬声器/耳机1344介接,并且因此未在所述移动装置1300中示出。图形/显示器处理器1336执行针对呈现给显示器单元1346的图形、视频、图像和文本的处理。EBI1338促进在数字区段1320与主存储器1348之间的数据传送。
数字区段1320利用一或多个处理器、DSP、微处理器、RISC等来实施。还可在一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上制造数字区段1320。
一般来说,本文中描述的任何装置指示各种类型的装置,例如,无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等等。装置可以具有各种名称,例如,存取终端(AT)、存取单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动设备、远程站、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文中描述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
本文中所描述的技术通过各种装置来实施。例如,这些技术用硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清楚说明硬件与软件的此可互换性,上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。此类功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为引起本发明的范围的偏离。
对于硬件实施方案,用于执行技术的处理单元在一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机或其组合内实施。
因此,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可以实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器,或任何其它此类配置。
如果用软件实施,则可将功能作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体发射。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可以为可由计算机存取的任何可用媒体。作为举例且并不限于此,此类计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可用于携载或存储呈指令或数据结构形式的所需程序代码且可由计算机存取的任何其它媒体。此外,任何连接都恰当地称为计算机可读媒体。例如,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。
提供本发明的先前描述以使得所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此,本发明并不意图限于本文中所描述的实例,而应符合与本文中所揭示的原理及新颖特征相一致的最广泛范围。
尽管称示范性实施方案利用在一或多个独立计算机系统的背景下的当前揭示的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。此外,当前揭示的标的物的方面可以在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可类似地跨越多个装置实现存储。此类装置可以包含PC、网络服务器和手持式装置。
尽管已经以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所界定的标的物未必限于上文所描述的具体特征或动作。确切地说,揭示上文所描述的具体特征和动作作为实施权利要求书的实例形式。
Claims (30)
1.一种用于在移动装置中通过目标关键字控制语音激活的方法,所述方法包括:
接收输入声音流;
当所述输入声音流指示话音时,激活语音激活功能以检测所述目标关键字;
从所述输入声音流提取至少一个声音特征;以及
当所述至少一个声音特征指示非目标关键字时,去激活所述语音激活功能。
2.根据权利要求1所述的方法,其进一步包括:
确定与所述至少一个声音特征的非目标关键字状态相对应的第一度量值;以及
将所述第一度量值与基于所述输入声音流的第二度量值比较,其中基于所述比较的结果确定所述至少一个声音特征指示所述非目标关键字。
3.根据权利要求2所述的方法,其中所述第二度量值与所述至少一个声音特征的目标关键字状态相对应。
4.根据权利要求2所述的方法,其中所述第二度量值与在第一时间段期间的平均非目标关键字状态相关联。
5.根据权利要求1所述的方法,其进一步包括从所述至少一个声音特征确定关键字分数和非关键字分数。
6.根据权利要求5所述的方法,其中所述关键字分数和所述非关键字分数通过所述语音激活功能确定。
7.根据权利要求5所述的方法,其中去激活所述语音激活功能包含在所述非关键字分数超出所述关键字分数第一分数阈值以上时去激活所述语音激活功能。
8.根据权利要求5所述的方法,其中去激活所述语音激活功能包含基于在第一时间段上的所述非关键字分数的第一平均值和在第二时间段上的所述非关键字分数的第二平均值来去激活所述语音激活功能。
9.根据权利要求8所述的方法,其中去激活所述语音激活功能包含在所述第一平均值比所述第二平均值大第二分数阈值以上时,去激活所述语音激活功能。
10.根据权利要求9所述的方法,其进一步包括基于所述移动装置的背景信息调整所述第二分数阈值。
11.根据权利要求8所述的方法,其中所述第一时间段比所述第二时间段更短。
12.根据权利要求1所述的方法,其进一步包括:
当在去激活所述语音激活功能之后所接收的随后的输入声音流指示话音时,再激活所述语音激活功能;以及
当从所述随后的输入声音流提取的至少一个声音特征指示非目标关键字时,去激活所述语音激活功能。
13.根据权利要求12所述的方法,其进一步包括对所述语音激活功能去激活的次数计数,
其中再激活所述语音激活功能包含在所述语音激活功能去激活的所述次数小于特定数目时再激活所述语音激活功能。
14.根据权利要求13所述的方法,其进一步包括:
如果所述语音激活功能去激活的所述次数大于或等于所述特定数目,那么确定在所述所接收的输入声音流中的沉默的持续时间;以及
如果所述沉默的持续时间超出特定时间段,那么再激活所述语音激活功能。
15.根据权利要求13所述的方法,其进一步包括:
如果所述语音激活功能去激活的所述次数大于或等于所述特定数目,那么检测在所述所接收的输入声音流的背景中的改变;以及
如果检测到在所述所接收的输入声音流的所述背景中的所述改变,那么再激活所述语音激活功能。
16.根据权利要求13所述的方法,其进一步包括如果所述语音激活功能去激活的所述次数大于或等于所述特定数目,那么在特定时间段上去激活接收所述输入声音流。
17.根据权利要求13所述的方法,其中接收所述输入声音流包含确定所述输入声音流是否指示话音。
18.根据权利要求17所述的方法,其进一步包括如果所述语音激活功能去激活的所述次数大于或等于所述特定数目时,那么在特定时间段上去激活确定所述输入声音流是否指示话音。
19.根据权利要求13所述的方法,其进一步包括复位所述语音激活功能去激活的所述次数。
20.根据权利要求19所述的方法,其中复位所述语音激活功能去激活的所述次数包含在所述语音激活功能去激活的所述次数在特定时间上保持不变时,复位所述语音激活功能去激活的所述次数。
21.根据权利要求1所述的方法,其中所述语音激活功能由经配置以激活在所述移动装置中的至少一个应用的语音激活单元执行。
22.一种用于通过目标关键字控制语音激活的移动装置,所述移动装置包括:
接收器,其经配置以接收输入声音流;
话音检测器,其经配置以确定所述输入声音流是否指示话音;
语音激活单元,其经配置以在所述输入声音流指示话音时,在所述话音检测器激活所述语音激活单元以检测所述目标关键字之后从所述输入声音流提取至少一个声音特征;以及
语音激活控制单元,其经配置以在所述至少一个声音特征指示非目标关键字时去激活所述语音激活单元。
23.根据权利要求22所述的移动装置,其中所述语音激活单元进一步经配置以从所述至少一个声音特征确定关键字分数和非关键字分数。
24.根据权利要求23所述的移动装置,其中所述语音激活控制单元经配置以在所述非关键字分数超出所述关键字分数第一分数阈值以上时去激活所述语音激活单元。
25.根据权利要求23所述的移动装置,其中所述语音激活控制单元经配置以基于在第一时间段上的所述非关键字分数的第一平均值和在第二时间段上的所述非关键字分数的第二平均值来去激活所述语音激活单元。
26.一种非暂时性计算机可读存储媒体,其存储用于在移动装置中通过目标关键字控制语音激活的指令,所述指令使得处理器执行操作,所述操作包括:
接收输入声音流;
当所述输入声音流指示话音时,激活语音激活功能以检测所述目标关键字;
从所述输入声音流提取至少一个声音特征;以及
当所述至少一个声音特征指示非目标关键字时,去激活所述语音激活功能。
27.根据权利要求26所述的非暂时性计算机可读存储媒体,其中所述操作进一步包括:
确定与所述至少一个声音特征的非目标关键字状态相对应的第一度量值;以及
将所述第一度量值与基于所述输入声音流的第二度量值比较,其中基于所述比较的结果确定所述至少一个声音特征指示所述非目标关键字。
28.根据权利要求27所述的非暂时性计算机可读存储媒体,其中所述第二度量值与所述至少一个声音特征的目标关键字状态相对应。
29.一种用于通过目标关键字控制语音激活的移动装置,所述移动装置包括:
用于接收输入声音流的装置;
用于确定所述输入声音流是否指示话音的装置;
用于在所述输入声音流指示话音时在所述用于确定的装置激活用于提取的装置以检测所述目标关键字之后从所述输入声音流提取至少一个声音特征的装置;以及
用于在所述至少一个声音特征指示非目标关键字时去激活所述用于提取的装置的装置。
30.根据权利要求29所述的移动装置,其进一步包括用于从所述至少一个声音特征确定关键字分数和非关键字分数的装置。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361820526P | 2013-05-07 | 2013-05-07 | |
US61/820,526 | 2013-05-07 | ||
US201361864490P | 2013-08-09 | 2013-08-09 | |
US61/864,490 | 2013-08-09 | ||
US14/092,527 US9892729B2 (en) | 2013-05-07 | 2013-11-27 | Method and apparatus for controlling voice activation |
US14/092,527 | 2013-11-27 | ||
PCT/US2014/035241 WO2014182458A1 (en) | 2013-05-07 | 2014-04-24 | Method and apparatus for controlling voice activation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105210146A true CN105210146A (zh) | 2015-12-30 |
CN105210146B CN105210146B (zh) | 2019-03-01 |
Family
ID=51864804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480025286.7A Expired - Fee Related CN105210146B (zh) | 2013-05-07 | 2014-04-24 | 用于控制语音激活的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9892729B2 (zh) |
EP (1) | EP2994909A1 (zh) |
JP (1) | JP6301451B2 (zh) |
KR (1) | KR20160005045A (zh) |
CN (1) | CN105210146B (zh) |
WO (1) | WO2014182458A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN106210983A (zh) * | 2016-07-11 | 2016-12-07 | 歌尔股份有限公司 | 一种通过耳机实现卡拉ok功能的方法、装置及耳机 |
CN111602112A (zh) * | 2017-12-20 | 2020-08-28 | 豪倍公司 | 语音响应性入墙式装置 |
CN112106133A (zh) * | 2018-05-09 | 2020-12-18 | 罗伯特·博世有限公司 | 用于对车辆外部和/或内部空间进行空气声声学监测的方法和设备、车辆以及计算机可读存储介质 |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10469556B2 (en) | 2007-05-31 | 2019-11-05 | Ooma, Inc. | System and method for providing audio cues in operation of a VoIP service |
US9570090B2 (en) | 2015-05-26 | 2017-02-14 | Google Inc. | Dialog system with automatic reactivation of speech acquiring mode |
USRE47974E1 (en) * | 2012-11-28 | 2020-05-05 | Google Llc | Dialog system with automatic reactivation of speech acquiring mode |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US9386148B2 (en) | 2013-09-23 | 2016-07-05 | Ooma, Inc. | Identifying and filtering incoming telephone calls to enhance privacy |
KR101483669B1 (ko) * | 2013-11-20 | 2015-01-16 | 주식회사 사운들리 | 저전력 음파 수신 방법 및 이를 이용한 모바일 기기 |
US9929873B2 (en) | 2013-12-06 | 2018-03-27 | Vivint, Inc. | Voice control using multi-media rooms |
TWI544478B (zh) * | 2014-04-10 | 2016-08-01 | 拓集科技股份有限公司 | 基於聲音觸發之作業啟始方法及系統,及相關電腦程式產品 |
US10553098B2 (en) | 2014-05-20 | 2020-02-04 | Ooma, Inc. | Appliance device integration with alarm systems |
US9633547B2 (en) | 2014-05-20 | 2017-04-25 | Ooma, Inc. | Security monitoring and control |
US10769931B2 (en) | 2014-05-20 | 2020-09-08 | Ooma, Inc. | Network jamming detection and remediation |
US11330100B2 (en) | 2014-07-09 | 2022-05-10 | Ooma, Inc. | Server based intelligent personal assistant services |
CN105812506A (zh) * | 2014-12-27 | 2016-07-27 | 深圳富泰宏精密工业有限公司 | 操作方式控制系统与方法 |
US9854526B2 (en) | 2015-01-28 | 2017-12-26 | Qualcomm Incorporated | Sensor activated power reduction in voice activated mobile platform |
US10771396B2 (en) | 2015-05-08 | 2020-09-08 | Ooma, Inc. | Communications network failure detection and remediation |
US11171875B2 (en) | 2015-05-08 | 2021-11-09 | Ooma, Inc. | Systems and methods of communications network failure detection and remediation utilizing link probes |
US10911368B2 (en) | 2015-05-08 | 2021-02-02 | Ooma, Inc. | Gateway address spoofing for alternate network utilization |
US10009286B2 (en) | 2015-05-08 | 2018-06-26 | Ooma, Inc. | Communications hub |
US10504509B2 (en) | 2015-05-27 | 2019-12-10 | Google Llc | Providing suggested voice-based action queries |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
US10116796B2 (en) | 2015-10-09 | 2018-10-30 | Ooma, Inc. | Real-time communications-based internet advertising |
CN106612367A (zh) * | 2015-10-23 | 2017-05-03 | 钰太芯微电子科技(上海)有限公司 | 一种基于麦克风的语音唤醒方法及移动终端 |
US9946862B2 (en) * | 2015-12-01 | 2018-04-17 | Qualcomm Incorporated | Electronic device generating notification based on context data in response to speech phrase from user |
US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
US10743101B2 (en) | 2016-02-22 | 2020-08-11 | Sonos, Inc. | Content mixing |
US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
US10517527B2 (en) | 2016-09-16 | 2019-12-31 | Bose Corporation | Sleep quality scoring and improvement |
US11594111B2 (en) * | 2016-09-16 | 2023-02-28 | Bose Corporation | Intelligent wake-up system |
US10434279B2 (en) | 2016-09-16 | 2019-10-08 | Bose Corporation | Sleep assistance device |
US10963146B2 (en) | 2016-09-16 | 2021-03-30 | Bose Corporation | User interface for a sleep system |
US10653856B2 (en) | 2016-09-16 | 2020-05-19 | Bose Corporation | Sleep system |
US10561362B2 (en) | 2016-09-16 | 2020-02-18 | Bose Corporation | Sleep assessment using a home sleep system |
US10478590B2 (en) | 2016-09-16 | 2019-11-19 | Bose Corporation | Sleep assistance device for multiple users |
US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
US10531227B2 (en) | 2016-10-19 | 2020-01-07 | Google Llc | Time-delimited action suggestion system |
KR102591413B1 (ko) * | 2016-11-16 | 2023-10-19 | 엘지전자 주식회사 | 이동단말기 및 그 제어방법 |
US10186265B1 (en) * | 2016-12-06 | 2019-01-22 | Amazon Technologies, Inc. | Multi-layer keyword detection to avoid detection of keywords in output audio |
US10079015B1 (en) * | 2016-12-06 | 2018-09-18 | Amazon Technologies, Inc. | Multi-layer keyword detection |
WO2018118744A1 (en) * | 2016-12-19 | 2018-06-28 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US11237696B2 (en) * | 2016-12-19 | 2022-02-01 | Google Llc | Smart assist for repeated actions |
US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
CN108010515B (zh) * | 2017-11-21 | 2020-06-30 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108198548B (zh) * | 2018-01-25 | 2020-11-20 | 苏州奇梦者网络科技有限公司 | 一种语音唤醒方法及其系统 |
WO2019152722A1 (en) | 2018-01-31 | 2019-08-08 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
JP6728261B2 (ja) * | 2018-03-28 | 2020-07-22 | ソフトバンク株式会社 | 音声で操作可能な情報処理装置、制御方法及びプログラム |
CN108538298B (zh) * | 2018-04-04 | 2021-05-04 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
CN108922528B (zh) * | 2018-06-29 | 2020-10-23 | 百度在线网络技术(北京)有限公司 | 用于处理语音的方法和装置 |
KR102592769B1 (ko) | 2018-07-20 | 2023-10-24 | 삼성전자주식회사 | 전자 장치 및 그의 동작 방법 |
US11180158B1 (en) * | 2018-07-31 | 2021-11-23 | United Services Automobile Association (Usaa) | Routing or driving systems and methods based on sleep pattern information |
EP3711284A4 (en) * | 2018-08-17 | 2020-12-16 | SZ DJI Technology Co., Ltd. | PHOTOGRAPHIC CONTROL PROCEDURE AND CONTROL |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
WO2020040745A1 (en) | 2018-08-21 | 2020-02-27 | Google Llc | Dynamic and/or context-specific hot words to invoke automated assistant |
US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
WO2020051239A1 (en) * | 2018-09-04 | 2020-03-12 | Uber Technologies, Inc. | Network computer system to generate voice response communications |
US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
US10657968B1 (en) * | 2018-11-19 | 2020-05-19 | Google Llc | Controlling device output according to a determined condition of a user |
US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
US10817246B2 (en) * | 2018-12-28 | 2020-10-27 | Baidu Usa Llc | Deactivating a display of a smart display device based on a sound-based mechanism |
US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
CN112534771B (zh) * | 2019-07-17 | 2024-04-19 | 谷歌有限责任公司 | 在基于声学的数字助理应用中验证触发关键字的系统和方法 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
FR3103307B1 (fr) * | 2019-11-18 | 2021-10-15 | Sagemcom Broadband Sas | Assistant vocal économe en ressource de calcul |
US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
WO2021226515A1 (en) | 2020-05-08 | 2021-11-11 | Nuance Communications, Inc. | System and method for data augmentation for multi-microphone signal processing |
US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
US20220101827A1 (en) * | 2020-09-30 | 2022-03-31 | Qualcomm Incorporated | Target keyword selection |
US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
KR20220111574A (ko) * | 2021-02-02 | 2022-08-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
EP4220628A4 (en) | 2021-02-19 | 2024-05-22 | Samsung Electronics Co Ltd | ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER |
KR20230119317A (ko) * | 2022-02-07 | 2023-08-16 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 발화 처리 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962293A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
WO2001046946A1 (en) * | 1999-12-22 | 2001-06-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
JP2004294946A (ja) * | 2003-03-28 | 2004-10-21 | Toshiba Corp | 携帯型電子機器 |
CN101083809A (zh) * | 2006-06-01 | 2007-12-05 | 三星电子株式会社 | 使用语音识别来改变操作模式的移动终端及方法 |
CN101855521A (zh) * | 2007-11-12 | 2010-10-06 | 大众汽车有限公司 | 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口 |
CN102682771A (zh) * | 2012-04-27 | 2012-09-19 | 厦门思德电子科技有限公司 | 一种适用于云平台的多语音控制方法 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
JP3726448B2 (ja) * | 1997-03-12 | 2005-12-14 | セイコーエプソン株式会社 | 認識対象音声検出方法およびその装置 |
WO2000005709A1 (de) * | 1998-07-23 | 2000-02-03 | Siemens Aktiengesellschaft | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache |
JP4812941B2 (ja) | 1999-01-06 | 2011-11-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 注目期間を有する音声入力装置 |
JP4357867B2 (ja) * | 2003-04-25 | 2009-11-04 | パイオニア株式会社 | 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体 |
US7756709B2 (en) | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
KR100631786B1 (ko) * | 2005-02-18 | 2006-10-12 | 삼성전자주식회사 | 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치 |
JP5229217B2 (ja) | 2007-02-27 | 2013-07-03 | 日本電気株式会社 | 音声認識システム、方法およびプログラム |
JP4809454B2 (ja) * | 2009-05-17 | 2011-11-09 | 株式会社半導体理工学研究センター | 発話推定による回路起動方法及び回路起動装置 |
US8359020B2 (en) | 2010-08-06 | 2013-01-22 | Google Inc. | Automatically monitoring for voice input based on context |
JP5039214B2 (ja) | 2011-02-17 | 2012-10-03 | 株式会社東芝 | 音声認識操作装置及び音声認識操作方法 |
US9992745B2 (en) * | 2011-11-01 | 2018-06-05 | Qualcomm Incorporated | Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate |
US9142215B2 (en) * | 2012-06-15 | 2015-09-22 | Cypress Semiconductor Corporation | Power-efficient voice activation |
US9536528B2 (en) * | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
US8799959B2 (en) * | 2012-08-16 | 2014-08-05 | Hoi L. Young | User interface for entertainment systems |
US9256269B2 (en) * | 2013-02-20 | 2016-02-09 | Sony Computer Entertainment Inc. | Speech recognition system for performing analysis to a non-tactile inputs and generating confidence scores and based on the confidence scores transitioning the system from a first power state to a second power state |
US9703350B2 (en) * | 2013-03-15 | 2017-07-11 | Maxim Integrated Products, Inc. | Always-on low-power keyword spotting |
US20140337030A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Adaptive audio frame processing for keyword detection |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US9240182B2 (en) * | 2013-09-17 | 2016-01-19 | Qualcomm Incorporated | Method and apparatus for adjusting detection threshold for activating voice assistant function |
US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
-
2013
- 2013-11-27 US US14/092,527 patent/US9892729B2/en active Active
-
2014
- 2014-04-24 KR KR1020157032702A patent/KR20160005045A/ko not_active Application Discontinuation
- 2014-04-24 CN CN201480025286.7A patent/CN105210146B/zh not_active Expired - Fee Related
- 2014-04-24 EP EP14726845.2A patent/EP2994909A1/en not_active Ceased
- 2014-04-24 JP JP2016512920A patent/JP6301451B2/ja not_active Expired - Fee Related
- 2014-04-24 WO PCT/US2014/035241 patent/WO2014182458A1/en active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962293A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識対話装置および音声認識対話処理方法 |
WO2001046946A1 (en) * | 1999-12-22 | 2001-06-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
JP2004294946A (ja) * | 2003-03-28 | 2004-10-21 | Toshiba Corp | 携帯型電子機器 |
CN101083809A (zh) * | 2006-06-01 | 2007-12-05 | 三星电子株式会社 | 使用语音识别来改变操作模式的移动终端及方法 |
CN101855521A (zh) * | 2007-11-12 | 2010-10-06 | 大众汽车有限公司 | 用于信息的输入和展示的驾驶员辅助系统的多形态的用户接口 |
CN102682771A (zh) * | 2012-04-27 | 2012-09-19 | 厦门思德电子科技有限公司 | 一种适用于云平台的多语音控制方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105869637A (zh) * | 2016-05-26 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
WO2017202016A1 (zh) * | 2016-05-26 | 2017-11-30 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
CN105869637B (zh) * | 2016-05-26 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法和装置 |
US10867602B2 (en) | 2016-05-26 | 2020-12-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for waking up via speech |
CN106210983A (zh) * | 2016-07-11 | 2016-12-07 | 歌尔股份有限公司 | 一种通过耳机实现卡拉ok功能的方法、装置及耳机 |
CN111602112A (zh) * | 2017-12-20 | 2020-08-28 | 豪倍公司 | 语音响应性入墙式装置 |
CN112106133A (zh) * | 2018-05-09 | 2020-12-18 | 罗伯特·博世有限公司 | 用于对车辆外部和/或内部空间进行空气声声学监测的方法和设备、车辆以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105210146B (zh) | 2019-03-01 |
JP6301451B2 (ja) | 2018-03-28 |
US20140334645A1 (en) | 2014-11-13 |
EP2994909A1 (en) | 2016-03-16 |
KR20160005045A (ko) | 2016-01-13 |
WO2014182458A1 (en) | 2014-11-13 |
US9892729B2 (en) | 2018-02-13 |
JP2016526205A (ja) | 2016-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105210146A (zh) | 用于控制语音激活的方法和设备 | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
US10332524B2 (en) | Speech recognition wake-up of a handheld portable electronic device | |
CN107112017B (zh) | 操作语音识别功能的电子设备和方法 | |
CN106663430B (zh) | 使用用户指定关键词的说话者不相依关键词模型的关键词检测 | |
CN105009204B (zh) | 语音识别功率管理 | |
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
CN105229726B (zh) | 用于关键字检测的自适应音频帧处理 | |
US9653069B2 (en) | System and method for personalization of acoustic models for automatic speech recognition | |
US11132509B1 (en) | Utilization of natural language understanding (NLU) models | |
KR20190042918A (ko) | 전자 장치 및 그의 동작 방법 | |
CN105556920A (zh) | 用于控制对应用程序的访问的方法和设备 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
WO2012121809A1 (en) | System and method for recognizing environmental sound | |
KR20150022786A (ko) | 사용자 정의 제약 조건으로 소형 풋프린트 음성 인식을 구성하는 임베디드 시스템 | |
CN105700660A (zh) | 具有与核域不同的唤醒模块的电子设备 | |
CN111312233A (zh) | 一种语音数据的识别方法、装置及系统 | |
CN111522592A (zh) | 一种基于人工智能的智能终端唤醒方法和装置 | |
US9224388B2 (en) | Sound recognition method and system | |
CN118020100A (zh) | 语音数据的处理方法及装置 | |
CN112017670B (zh) | 一种目标账户音频的识别方法、装置、设备及介质 | |
CN110046276A (zh) | 一种语音中关键词的检索方法和装置 | |
CN111045641A (zh) | 一种电子终端及语音识别方法 | |
CN115691479A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN114093357A (zh) | 控制方法、智能终端及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190301 Termination date: 20200424 |