CN105556595B - 用于调整用于激活话音辅助功能的检测阈值的方法及设备 - Google Patents
用于调整用于激活话音辅助功能的检测阈值的方法及设备 Download PDFInfo
- Publication number
- CN105556595B CN105556595B CN201480051050.0A CN201480051050A CN105556595B CN 105556595 B CN105556595 B CN 105556595B CN 201480051050 A CN201480051050 A CN 201480051050A CN 105556595 B CN105556595 B CN 105556595B
- Authority
- CN
- China
- Prior art keywords
- mobile device
- situation
- threshold value
- input sound
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000003213 activating effect Effects 0.000 title claims abstract description 38
- 238000001514 detection method Methods 0.000 title claims description 110
- 230000001133 acceleration Effects 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 41
- 230000004044 response Effects 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 14
- 230000007958 sleep Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 57
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002187 spin decoupling employing ultra-broadband-inversion sequences generated via simulated annealing Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本发明揭示一种用于激活移动装置中的话音辅助功能的方法。所述方法包含通过声音传感器接收输入声音流及确定所述移动装置的情境。所述方法可基于所述输入声音流确定所述情境。为了确定所述情境,所述方法还可从所述移动装置中的加速度传感器、位置传感器、照度传感器、接近度传感器、时钟单元及日历单元中的至少一者获得指示所述移动装置的所述情境的数据。在此方法中,基于所述情境而调整用于激活所述话音辅助功能的阈值。所述方法基于所述经调整的阈值从所述输入声音流检测目标关键字。在检测到所述目标关键字的情况下,所述方法激活所述话音辅助功能。
Description
相关申请案的交叉参考
本申请案主张2013年9月17日申请的共同拥有的美国非临时专利申请案第14/029,131号的优先权,所述申请案的内容以全文引用的方式并入本文中。
技术领域
本发明大体上涉及用于激活移动装置中的话音辅助功能的方法。更具体来说,本发明涉及调整用于检测移动装置中的目标关键字的阈值。
背景技术
近年来,例如智能电话及平板计算机等移动装置的使用已变得普遍。此类移动装置一般允许无线网络上的话音及数据通信。通常,这些装置包含额外的特征或应用,其提供经设计以增强用户便利性的多种功能。
在此类应用或特征之间,话音辅助应用使得移动装置能够从用户接收语音命令以用于响应于所述语音命令操作各种功能或其它应用。例如,话音辅助应用可允许用户说出语音命令以调用所要的电话号码、播放音频文件、拍摄图片、搜索因特网或获得天气信息,而不需要用手物理地操作移动装置。因此,用户可选择使用语音命令在其中用户可能不希望或不可物理地操作移动装置的多种情形中控制移动装置的各种操作。
常规的话音辅助应用经常响应于用户的物理输入(例如,用手)而被激活。然而,由于使用话音辅助应用的目的中的一者可为在没有物理输入的情况下操作移动装置,所以用户可发现不方便或难以物理地激活话音辅助应用。因此,一些移动装置允许用户通过说出语音命令而激活所述话音辅助应用。
然而,此类移动装置经常错误地响应于由装置所俘获的各种输入声音而被激活或无法响应于恰当的语音命令而被激活。例如,移动装置可错误地将另一人的话语辨识为恰当的语音命令且激活话音辅助应用。另一方面,在移动装置处于响亮的环境中时,移动装置可归因于背景噪声而辨识不出恰当的语音命令且因此无法激活话音辅助应用。
发明内容
本发明提供用于通过基于阈值检测输入声音流中的目标关键字而激活话音辅助功能的方法及装置,所述阈值可根据装置的情境进行调整。
根据本发明的一个方面,揭示一种用于激活移动装置中的话音辅助功能的方法。所述方法包含通过声音及接收输入声音流且确定所述移动装置的情境。在此方法中,基于所述情境而调整用于激活所述话音辅助功能的阈值。所述方法基于所述经调整的阈值从所述输入声音流检测目标关键字。如果检测到所述目标关键字,那么所述方法激活所述话音辅助功能。本发明还描述与此方法相关的设备、装置、装置组合及计算机可读媒体。
根据本发明的另一方面,一种用于激活话音辅助功能的移动装置包含声音传感器、阈值调整单元及话音激活单元。所述声音传感器经配置以接收输入声音流。所述阈值调整单元经配置以通过确定移动装置的情境而调整用于激活话音辅助功能的阈值。所述话音激活单元经配置以在基于经调整的阈值从输入声音流检测到目标关键字的情况下激活所述话音辅助功能。
附图说明
当结合附图阅读时,通过参考以下详细描述将理解本发明的发明性方面的实施例。
图1说明根据本发明的一个实施例的在确定移动装置的情境是在车辆中时经配置以调整用于激活话音辅助功能的检测阈值的移动装置。
图2说明根据本发明的一个实施例的在用户可能将清醒时在确定移动装置的情境是在早晨的情况下经配置以调整用于激活话音辅助功能的检测阈值的移动装置。
图3说明根据本发明的一个实施例的在用户可能睡着时在确定移动装置的情境是在夜晚的情况下经配置以调整用于激活话音辅助功能的检测阈值的移动装置。
图4说明根据本发明的一个实施例的在确定移动装置的情境是在包袋中时经配置以调整用于激活话音辅助功能的检测阈值的移动装置。
图5说明根据本发明的一个实施例的在接收文本消息的情境中经配置以调整用于激活话音辅助功能的检测阈值的移动装置。
图6说明根据本发明的一个实施例的经配置以通过基于移动装置的情境调整用于检测目标关键字的阈值而从输入声音流检测目标关键字的移动装置的框图。
图7说明根据本发明的一个实施例的移动装置中的经配置以输出用于确定移动装置的情境的声音流及传感器数据的传感器单元的框图。
图8说明根据本发明的一个实施例的移动装置中的经配置以通过推断移动装置的情境而确定用于激活话音辅助功能的检测阈值的阈值调整单元的框图。
图9是根据本发明的一个实施例的在移动装置中执行的用于通过推断移动装置的情境而确定用于激活话音辅助功能的检测阈值的方法的流程图。
图10是根据本发明的一个实施例的在移动装置中执行的用于产生经调整的检测阈值且在指定时间周期之后将检测阈值复位到预定检测阈值的方法的流程图。
图11说明根据本发明的一个实施例的移动装置中的经配置以通过基于经调整的检测阈值检测输入声音流中的目标关键字而激活话音辅助功能的话音激活单元的框图。
图12是根据本发明的一个实施例的在移动装置中执行的用于基于经调整的检测阈值检测输入声音流中的目标关键字而激活话音辅助功能的方法的流程图。
图13说明根据本发明的一个实施例的无线通信系统中的移动装置的框图,其中根据移动装置的情境而调整用于基于检测阈值检测输入声音流中的目标关键字的方法及设备。
具体实施方式
现在将详细参考各种实施例,在附图中说明所述实施例的实例。在以下详细描述中,陈述众多具体细节以便提供对本发明的透彻理解。然而,对于所属领域的一般技术人员将是显而易见的是可在没有这些具体细节的情况下实践本发明。在其它情况下,未详细描述众所周知的方法、程序、系统和组件,以便不会不必要地混淆各种实施例的各方面。
图1说明根据本发明的一个实施例的在确定移动装置110的情境是在车辆130中时经配置以调整用于激活话音辅助功能的检测阈值的移动装置110。在此所说明的实施例中,移动装置110的用户120在驾驶车辆130,同时移动装置110放置在车辆130的乘客座椅上。图1的移动装置110可为配备有用于在输入声音中辨识用户的语音的语音辨识功能的智能电话。
在激活移动装置110中的话音辅助功能时,移动装置110可使用语音辨识功能响应于各种口头请求、指令、命令及来自用户120单独的类似者。例如,用户120可在已经激活话音辅助功能时说出例如“呼叫SUSAN”的指令。作为响应,移动装置110辨识所述指令且使用与所辨识的姓名相关联的电话号码呼叫Susan。移动装置110中的话音辅助功能可响应于经由移动装置110的按钮或触摸屏的输入而被激活。
在一些实施方案中,在来自用户120的输入声音中检测到目标关键字时,移动装置110存储用于激活话音辅助功能的预定目标关键字。如本文所用,术语“目标关键字”是指可用于激活移动装置110中的功能或应用的一或多个字或声音的任何数字或模拟表示。举例来说,例如“HEY话音辅助”或“开始话音辅助”等预定关键字可存储在移动装置110中以作为用于激活话音辅助功能的目标关键字。在从用户120接收输入声音时,移动装置110可通过对所接收的输入声音执行语音辨识功能而检测输入声音中的目标关键字。
移动装置110可经配置以基于检测阈值而检测目标关键字以确保所要的置信水平。在一个实施例中,移动装置110计算输入声音与目标关键字之间的类似性程度(或关键字匹配得分)且将类似性程度与检测阈值进行比较。在计算类似性程度中,可使用目标关键字的预设声音模型。如果输入声音与目标关键字(或声音模型)之间的类似性程度超过检测阈值,那么移动装置110检测输入声音中的目标关键字且激活话音辅助功能。另一方面,如果类似性程度未超过检测阈值,那么移动装置110确定未在输入声音中检测到目标关键字。
所述检测阈值影响在检测输入声音中的目标关键字中的准确度。例如,如果检测阈值过高,那么移动装置110可从包含目标关键字的输入声音检测不到目标关键字。在此情况下,移动装置110可“未命中”输入声音中的目标关键字,且导致目标关键字的增加的未命中率。另一方面,如果检测阈值过低,那么移动装置110可在不包含目标关键字的输入声音中错误地检测到目标关键字。在此情况下,移动装置可错误地激活话音辅助功能(即,“假激活”),且导致话音辅助功能的增加的假激活率。
在一些实施方案中,起初将检测阈值设定为预定值(例如,默认值)且随后基于移动装置110的情境中的改变进行调整。参看图1,移动装置110经配置以基于来自例如声音传感器、全球定位系统(GPS)及加速度计等各种传感器的情境数据而确定情境。例如,移动装置110的声音传感器可俘获包含引擎声音及道路噪声等环境交通噪声以作为输入声音。另外,GPS及加速度计可监视移动装置110的位置、速度及/或加速度。基于来自传感器的情境数据,移动装置110可将移动装置110的情境识别为在车辆中。
在确定移动装置110的情境是在车辆中时,可假设图1中的移动装置110的用户120与用手物理地操作移动装置110相比更可能使用话音辅助功能。因此,移动装置110可将检测阈值调整到低于针对正常或未识别的情境预定的默认检测阈值的值。减小的检测阈值增加检测到目标关键字的可能性(例如,减小的未命中率),从而减小用户必须用手操作移动装置110的可能性。
还可假设在一些其它情境中使用话音辅助功能的可能性较高。图2说明根据本发明的一个实施例的在确定移动装置110的情境是在早晨的情况下在用户210可能将清醒时经配置以调整用于激活话音辅助功能的检测阈值的移动装置110。移动装置110放置在用户210附近,例如放在床220附近的桌子230上,如图2中所说明。
在此实例中,用户210在早晨醒来但仍坐在床220上。在这种情况下,移动装置110中的照度传感器可产生指示移动装置110的明亮环境的情境数据。此外,移动装置110中的时钟单元还可提供当前时间(例如,7:00AM)作为情境数据。在一些实施例中,可将当前时间与由用户210在移动装置110中设定的指示他或她通常何时醒来的时间进行比较。另外,移动装置110中的声音传感器还俘获具有小强度的安静环境声音作为输入声音,其被提供为情境数据。此外,移动装置110中的GPS单元可确定移动装置110在用户210的家中,其也用作情境数据。
基于以上产生的情境数据,移动装置110可在用户210可能清醒时确定移动装置110的情境是在早晨。在这种情况下,可假设移动装置110的用户210与用手物理地操作移动装置110相比更可能使用话音辅助功能。例如,用户210可希望在坐在床220上时使用移动装置110中的话音辅助功能检查当天的天气或日程安排。因此,移动装置110可将检测阈值调整到低于默认检测阈值的值,从而导致增加检测到目标关键字的可能性(例如,减小的未命中率)。
相比而言,可假设使用话音辅助功能的可能性较低。图3说明根据本发明的一个实施例的在用户310可能睡着(即,睡眠情境)时经配置以在确定移动装置110的情境是在夜晚的情况下调整用于激活话音辅助功能的检测阈值的移动装置110。在图3中,移动装置110放置在用户310附近,例如放在床320附近的桌子330上。
在图3的实例中,用户310在夜晚在床320上睡眠。在这种情况下,移动装置110中的照度传感器可检测到移动装置110的暗环境且提供指示所述暗环境的情境数据。此外,移动装置110中的时钟单元还可提供当前时间(例如,3:00AM)作为情境数据。在一些实施方案中,可将当前时间与由用户310在移动装置110中设定的指示他或她通常何时睡觉及醒来的时间范围进行比较。另外,移动装置110中的声音传感器还可俘获具有小强度的安静环境声音作为输入声音且将其提供为情境数据。此外,移动装置110的位置可由移动装置110中的GPS单元确定且用作情境数据(例如,在用户310的家中)。
基于以上产生的情境数据,移动装置110可在用户310可能睡着时确定移动装置110的情境是在夜晚。在这种情况下,可假设移动装置110的用户310与在用户310在日间清醒时相比不大可能使用话音辅助功能。因此,移动装置110可将检测阈值调整到高于默认检测阈值的值。增加的检测阈值导致减小错误地激活话音辅助功能的可能性(例如,减小的假激活率)。
还可假设在一些其它情境中使用话音辅助功能的可能性较低。图4说明根据本发明的一个实施例的在确定移动装置110的情境是在包袋410中时经配置以调整用于激活话音辅助功能的检测阈值的移动装置110。在所说明的实例中,虽然移动装置110放在包袋410(如由虚线圆形指示)中,但其可放在例如衣服口袋、手机袋及类似者等任何其它种类的容器内。
在图4的实例中,使用各种传感器产生指示移动装置110的情境的情境数据。例如,移动装置110中的照度传感器可检测到包袋410内的移动装置110的暗环境且产生指示所述暗环境的情境数据。此外,移动装置110中的经配置以感测靠近传感器定位的物体的接近度传感器可以用于产生指示靠近移动装置110存在的物体的情境数据。在此实例中,接近度传感器可检测封闭物体的存在,例如,包袋410的内表面。另外,移动装置110的声音传感器可俘获刮擦或轻敲声音作为输入声音,其可由移动装置110与包袋410的环绕内表面之间的摩擦造成。所俘获的输入声音还用作确定移动装置110的情境的情境数据。
基于以上产生的情境数据,移动装置110可确定情境是在例如包袋410等容器中。在此情境下,可假设图4中的移动装置110的用户与在将移动装置110放在此类容器(例如,包袋410)外面时相比不大可能使用话音辅助功能。因此,移动装置110可将检测阈值调整到高于默认检测阈值的值。增加的检测阈值导致减小错误地激活话音辅助功能的可能性(例如,减小的假激活率)。
在一些实施方案中,移动装置110可检测其中移动装置110的操作状态从闲置状态改变到作用状态的情境。图5说明根据本发明的一个实施例的经配置以在接收文本消息的情境中调整用于激活话音辅助功能的检测阈值的移动装置110。起初,移动装置110可处于闲置状态中,其中应用处理器可处于非作用状态中以节约移动装置110的电力。在移动装置110在闲置状态期间从外部网络接收到文本消息时,所述应用处理器可被激活以执行消息应用且在移动装置110的显示屏510上输出发送者(即,“某人”)的通知及文本消息(即,“你好,你现在有空说话吗?”)。移动装置110的操作状态还可在移动装置110接收到电子邮件消息、多媒体消息、推送通知及类似者时从闲置状态改变到作用状态。此外,移动装置110还可响应于警报事件(例如,定时器警报)而从闲置状态改变到作用状态。
在移动装置110或所述应用处理器的操作状态从闲置状态改变到作用状态时,移动装置110的用户更可能使用话音辅助功能执行操作。在图5的实例中,所述用户可使用移动装置110通过话音辅助功能呼叫文本消息的发送者。因此,可假设使用话音辅助功能的可能性高于在移动装置110处于闲置状态时。因此,在移动装置110检测到从闲置状态到作用状态的操作状态改变时,其将检测阈值调整为低于默认检测阈值。减小的检测阈值增加检测到目标关键字的可能性(例如,减小的未命中率)。
图6说明根据本发明的一个实施例的经配置以通过基于移动装置110的情境调整用于检测目标关键字的阈值而从输入声音流检测目标关键字的移动装置110的框图。如本文所用,术语“声音流”是指一或多个声音信号或声音数据的序列。如图6中所说明,移动装置110可包含传感器单元610、I/O(输入/输出)单元620、存储单元630、通信单元640及处理器650。移动装置110可为配备有声音俘获及处理能力的任何合适的装置,例如蜂窝式电话、智能电话、膝上型计算机、平板个人计算机、游戏装置、多媒体播放器等。
处理器650可包含数字信号处理器(DSP)680、话音辅助单元688、时钟单元690及日程安排单元692,且可为用于管理及操作移动装置110的应用处理器或中央处理单元(CPU)。时钟单元690实施时钟功能、定时器功能及类似者。例如,时钟单元690可在到达变定时间时(例如,定时器警报)经由I/O单元620的显示单元及/或扬声器单元向移动装置110的用户输出当前时间或通知所述用户。另外,日程安排单元692存储及管理由用户输入的日程安排(例如,预约、事件等)。日程安排单元692可跟踪所存储的日程安排的时间且经由I/O单元620将相关联的通知提供给用户。
DSP 680可包含语音检测器682、阈值调整单元684及话音激活单元686。在一个实施例中,DSP 680是用于减小处理声音流中的电力消耗的低功率处理器。在此配置中,阈值调整单元684经配置以基于移动装置110的情境调整检测阈值。话音激活单元686经配置以在基于经调整的检测阈值在声音流中检测到目标关键字时激活话音辅助单元688。
传感器单元610可包含声音传感器660及情境传感器670。声音传感器660经配置以接收输入声音流且将输入声音流提供给DSP 680中的语音检测器682所述阈值调整单元684。在一些实施方案中,声音传感器660在所接收的输入声音流的强度比阈值声音强度大时激活DSP 680中的语音检测器682及阈值调整单元684。在激活之后,还即刻将输入声音流从声音传感器660提供给语音检测器682及阈值调整单元684。
传感器单元610中的情境传感器670可包含用于产生指示移动装置110的情境的传感器数据的多种传感器。传感器数据随后被提供给阈值调整单元684。在一个实施例中,情境传感器670还可在提供传感器数据之前激活阈值调整单元684。将在下文参看图7更详细地描述声音传感器660及情境传感器670。通信单元640、时钟单元690及日程安排单元692可经配置以向阈值调整单元684提供指示处理器650的从闲置状态到作用状态的操作状态的改变的通知,如将在下文参看图8更详细地描述。
阈值调整单元684经配置以基于所接收的输入声音流、传感器数据及/或一或多个通知(其可统称为情境数据)而确定移动装置110的情境。在确定移动装置110的情境之后,阈值调整单元684根据所述所确定的情境而调整检测阈值。例如,如果移动装置110的情境指示将可能使用话音辅助单元688(例如,在如上文参考图1、2及5所描述的情境中),那么阈值调整单元684将所述检测阈值调整为低,例如低于默认检测阈值。另一方面,如果移动装置110的情境指示不大可能使用话音辅助单元688(例如,在如上文参考图3和4所描述的情境中),那么阈值调整单元684将所述检测阈值调整为高,例如高于默认检测阈值。
在一些实施方案中,检测阈值对于不同情境可为预定的且存储在移动装置110的存储单元630中。例如,情境及相关联的检测阈值可被存储为查找表或数据库结构。在查找表的情况下,阈值调整单元684可使用所确定的情境作为索引来存取所述表以获得相关联的检测阈值。阈值调整单元684随后将所获得的检测阈值作为经调整的检测阈值提供给话音激活单元686。可使用任何合适的存储装置或存储器装置实施移动装置110中的存储单元630,例如RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦除可编程只读存储器)、快闪存储器或SSD(固态驱动器)。
为了用于检测目标关键字,存储单元630还可存储目标关键字。在一个实施例中,目标关键字可被划分成多个基本声音单元,例如,音素、音位或其子单元,并且表示目标关键字的多个部分可基于基本声音单元而产生。所述目标关键字的每一部分随后与马尔可夫链模型(例如隐式马尔可夫模型(HMM)、半马尔可夫模型(SMM)或其组合)下的状态相关联。在这种情况下,存储单元630可存储关于与目标关键字的所述多个部分相关联的多个状态的状态信息,其包含从所述状态中的每一者到下一状态(包含自身)的转变信息。
DSP 680中的语音检测器682在被激活时从声音传感器660接收输入声音流。在一个实施例中,语音检测器682从所接收的输入声音流提取多个声音特征且通过使用任何合适的声音分类方法(例如基于分类器的高斯混合模型(GMM)、人工神经网络、HMM、图解模型及支持向量机(SVM))确定所提取的声音特征是否指示所关注的声音,例如人类语音。如果确定所接收的输入声音流是所关注的声音,那么语音检测器682激活话音激活单元686且将所接收的输入声音流提供给话音激活单元686。在一些其它实施例中,可在DSP 680中忽略语音检测器682。在这种情况下,在所接收的输入声音流的强度比阈值强度更大时,声音传感器660激活话音激活单元686且将所接收的输入声音流直接提供到话音激活单元686。
如上文所描述,话音激活单元686具备来自阈值调整单元684及语音检测器682的经调整的检测阈值及输入声音流。在接收到经调整的检测阈值及输入声音流之后,话音激活单元686即刻基于检测阈值从输入声音流检测目标关键字。当接收到输入声音流时,话音激活单元686可从输入声音流连续地提取多个声音特征。另外,话音激活单元686可处理所述多个所提取的声音特征中的每一者,且从存储单元630获得包含所述多个状态的状态信息及目标关键字的转变信息。对于每一经处理的声音特征,可通过使用任何合适的概率模型(例如GMM、神经网络及SVM)确定所述状态中的每一者的观测得分。
通过转变信息,话音激活单元686可获得从可能用于目标关键字的多个状态序列中的状态中的每一者到下一个状态的转变得分。在确定观测得分且获得转变得分之后,话音激活单元686确定可能的状态序列的得分。在一个实施例中,所确定的得分当中的最大得分可用作经处理的声音特征的关键字得分。如果经处理的声音特征的关键字得分大于检测阈值(其也可被称作阈值关键字得分),那么话音激活单元686将所述输入声音流检测为目标关键字。在检测到目标关键字之后,话音激活单元686即刻产生且发射激活信号以开启与目标关键字相关联的话音辅助单元688。
响应于来自话音激活单元686的激活信号而激活话音辅助单元688。一旦被激活,话音辅助单元688可在显示单元上及/或通过I/O单元620的扬声器单元输出例如“我可以帮到你吗?”等消息。作为响应,用户可说出话音命令以激活移动装置110的各种相关联的功能。例如,在接收到因特网搜索的话音命令时,话音辅助单元688可将所述话音命令辨识为搜索命令且通过外部网络694经由通信单元640执行网络搜索。虽然所说明的实施例响应于检测到目标关键字而激活话音辅助单元688,但其还可响应于检测到相关联的目标关键字而激活任何其它应用或功能。
图7说明根据本发明的一个实施例的经配置以输出用于确定移动装置110的情境的声音流及传感器数据的传感器单元610的更详细框图。声音传感器660接收输入声音流,所述输入声音流随后被提供给DSP 680中的语音检测器682。所接收的输入声音流还被提供给DSP 680中的阈值调整单元684作为情境数据。声音传感器660可包含一或多个麦克风或可用于接收、俘获、感测及/或检测输入声音流的任何其它类型的声音传感器。另外,声音传感器660可使用任何合适的软件及/或硬件以用于执行此类功能。在一个实施例中,声音传感器660可经配置以根据工作循环周期性地接收输入声音流。
如图7中所说明,情境传感器670可包含位置传感器710、加速度计720、接近度传感器730及照度传感器740。可由GPS装置实施的位置传感器710经配置以产生与移动装置110相关联的传感器数据,例如移动装置110移动的位置、方向、速度或类似者。加速度计720产生指示移动装置110的加速度、定向及类似者的传感器数据。
接近度传感器730经配置以例如使用磁、光或电容技术检测靠近移动装置110定位的物体。虽然图7中说明一个接近度传感器730,但情境传感器670可包含任何合适数目的接近度传感器以检测移动装置110的多个位置处的物体(例如,在移动装置110的前侧、后侧、右侧及左侧)。照度传感器740是经配置以感测移动装置110的周围环境的照度条件(即,亮度)的光检测器。由位置传感器710、加速度计720、接近度传感器730及照度传感器740产生的传感器数据被提供到阈值调整单元684且用作情境数据以确定移动装置110的情境。
图8说明根据本发明的一个实施例的经配置以通过确定移动装置110的情境而调整用于激活话音辅助单元688的检测阈值的阈值调整单元684的框图。阈值调整单元684可包含情境推断单元810及阈值确定单元820。情境推断单元810确定移动装置110的情境且阈值确定单元820基于移动装置110的情境而调整检测阈值。随后将经调整的检测阈值提供到话音激活单元686以用于从输入声音流检测目标关键字。
为了确定移动装置110的情境,情境推断单元810接收来自声音传感器660的输入声音流及来自情境传感器670的传感器数据。情境推断单元810还经配置以从时钟单元690、日程安排单元692及通信单元640接收一或多个通知。此外,时钟单元690可将当前时间提供到情境推断单元810。输入声音流、传感器数据、通知及当前时间由情境推断单元810用作情境数据以确定移动装置110的情境。
如上文参看图6所描述,提供给情境推断单元810的通知可指示移动装置的状态信息,例如处理器650从闲置状态到作用状态的操作状态的改变。例如,通信单元640可在经由图6中的网络694接收到电子消息之后即刻提供此通知。所述电子消息可包含通过网络694所接收的任何消息或通知,例如电子邮件消息、文本消息、多媒体消息、推送通知及类似者。时钟单元690可经配置以在指定时间警告用户(例如,闹钟)。在到达指定时间时,时钟单元690激活处理器650且将处理器650的操作状态的改变的通知提供给情境推断单元810。另外,日程安排单元692可跟踪存储在移动装置110中的日程安排或事件的时间且在所述时间或在所述时间之前的预定时间将通知提供给情境推断单元810。
情境推断单元810分析所接收的情境数据且确定移动装置110的情境。在确定移动装置110的情境时,情境推断单元810可从输入声音、传感器数据、通知、当前时间或其任何组合推断情境。例如,可基于输入声音流及传感器数据(其可包含移动装置110的位置、速度及/或加速度)推断移动装置110的情境是在车辆中,如上文参看图1所描述。
在一些实施方案中,移动装置110的各种情境可被预先确定且根据使情境与由情境推断单元810接收的情境数据相关联的情境数据库而被存储。在情境数据库中的预定情境当中,情境推断单元810可选择对应于所接收的情境数据的情境作为移动装置110的当前情境。情境推断单元810随后产生选定情境的情境指示符且将所述情境指示符提供给阈值确定单元820。
在从情境推断单元810接收到情境指示符之后,阈值确定单元820即刻基于所接收的情境指示符而调整检测阈值。在一些实施方案中,可针对预定情境预设检测阈值的值且存储在存储单元630中。阈值确定单元820可存取存储单元630以获得与由情境指示符识别的情境相关联的检测阈值。
在一个实施例中,可基于在情境中的每一者中使用话音辅助单元688的可能性而设定检测阈值。例如,如果使用话音辅助单元688的可能性较高(例如,在如上文参考图1、2及5所描述的情境中),那么阈值调整单元684可减小检测阈值(例如,减小到低于针对正常或未识别的情境预定的默认检测阈值)。另一方面,如果使用话音辅助单元688的可能性较低(例如,在如上文参考图3和4所描述的情境中),那么阈值调整单元684可增加检测阈值(例如,增加到高于默认检测阈值)。因此,可与在移动装置110的所确定的情境中使用话音辅助单元688的可能性相关联地调整检测阈值。随后将经调整的检测阈值提供给话音激活单元686以用于检测用于激活话音辅助单元688的目标关键字。
图9是根据本发明的一个实施例的在移动装置110的阈值调整单元684中执行的用于通过推断移动装置110的情境而确定用于激活话音辅助单元688的检测阈值的方法900的流程图。阈值调整单元684中的情境推断单元810在910处接收情境数据。基于所接收的情境数据,可在920处在情境推断单元810中确定移动装置110的情境。情境推断单元810还可产生与所述所确定的情境相关联的情境指示符,所述情境指示符被提供给阈值确定单元820。
阈值确定单元820在930处根据由从情境推断单元810接收的情境指示符识别的移动装置110的情境而调整检测阈值。为了调整检测阈值,阈值确定单元820可存取存储单元630以获得与移动装置110的情境相关联的检测阈值。一旦检测阈值经调整,阈值确定单元820可在940处将经调整的检测阈值提供给话音激活单元686。经调整的检测阈值用于由话音激活单元686检测目标关键字。
在一些实施方案中,可将经调整的检测阈值复位到默认检测阈值。图10是根据本发明的一个实施例的在移动装置110的阈值调整单元684中执行的用于产生经调整的检测阈值且在指定时间周期之后将所述检测阈值复位到预定检测阈值的方法1000的流程图。以与上文关于图9所描述的相同方式,情境推断单元810在910处接收情境数据,且在920处确定移动装置110的情境。阈值确定单元820在930处基于所述情境而调整检测阈值,且在940处将经调整的检测阈值提供给话音激活单元686。
可在1010处例如通过使用处理器650中的时钟单元690设定指定时间周期的定时器。所述时间周期可预先确定。阈值调整单元684在1020处监视所述定时器且确定指定时间周期是否已流逝。或者,时钟单元690可检测指定时间周期是否已流逝且在所述时间周期已流逝时通知阈值调整单元684。如果指定时间周期已流逝,那么阈值调整单元684可在1030处将检测阈值复位到预定检测阈值(例如,默认检测阈值)。否则,如果指定时间周期尚未流逝,那么方法1000可返回到1020以确定指定时间周期是否已流逝。
图11说明根据本发明的一个实施例的经配置以通过基于经调整的检测阈值检测输入声音流中的目标关键字而激活话音辅助单元688的话音激活单元686的框图。话音激活单元686可包含特征提取器1110、关键字得分计算单元1120及关键字检测单元1130。在话音激活单元686中的关键字检测单元1130从输入声音流检测到目标关键字时,其产生激活信号以开启话音辅助单元688。
在语音检测器682确定输入声音流是人类语音时,特征提取器1110接收输入声音流且从输入声音流提取一或多个声音特征。在一些实施方案中,特征提取器1110将输入声音流分段为相等时间周期的多个连续帧。例如,输入声音流可被接收且被连续分段为10ms的若干帧。在这种情况下,特征提取器1110从所述帧中的每一者提取声音特征。在一个实施例中,特征提取器1110可使用任何合适的特征提取方法(例如MFCC(梅尔倒频谱系数)方法)从所述帧提取声音特征。举例来说,在MFCC方法的情况下,从分段帧中的每一者计算n维向量的分量并且将所述向量用作声音特征。
将所提取的声音特征从特征提取器1110提供给关键字得分计算单元1120。在接收到每一声音特征之后,关键字得分计算单元1120即刻确定所述声音特征的关键字得分。可以如上文参看图6所描述的方式确定关键字得分。将所确定的关键字得分提供给关键字检测单元1130。
关键字检测单元1130从关键字得分计算单元1120接收关键字得分。关键字检测单元1130还从阈值调整单元684接收经调整的检测阈值。随后将所接收的关键字得分与经调整的检测阈值进行比较。在关键字得分超过经调整的阈值得分时,关键字检测单元1130产生激活信号以开启话音辅助单元688。否则,关键字检测单元1130不激活话音辅助单元688。在这种情况下,关键字检测单元1130可接收由关键字得分计算单元1120针对下一所提取的声音特征确定的后续关键字得分,且确定所述后续关键字得分是否超过经调整的检测阈值。
图12是根据本发明的一个实施例的在话音激活单元686中执行的用于通过基于经调整的检测阈值检测输入声音流中的目标关键字而激活话音辅助单元688的方法1200的流程图。方法1200开始于1210且前进到1220,其中话音激活单元686中的特征提取器1110从语音检测器682接收输入声音流。特征提取器1110可在1230处从输入声音流提取声音特征。将所提取的声音特征提供给话音激活单元686中的关键字得分计算单元1120。
在一个实施例中,输入声音流被连续分段为多个帧,从所述多个帧所提取多个声音特征。在这种情况下,将所述多个声音特征连续提供给关键字得分计算单元1120。在从特征提取器1110接收到每一声音特征之后,关键字得分计算单元1120可即刻在1240处确定声音特征的关键字得分。如上文参看图6所描述,可使用任何合适的语音辨识技术(例如马尔可夫链模型)确定关键字得分。
在所说明的方法1200中,关键字检测单元1130在1250处从阈值调整单元684接收经调整的检测阈值。在一个实施例中,可在1250处接收经调整的检测阈值,而在1220处接收输入声音流,在1230处提取声音特征,或在1240处确定关键字得分。在另一实施例中,关键字检测单元1130可在特征提取器1110在1220处接收输入声音流之前或在关键字得分计算单元1120在1240处确定关键字得分之后接收经调整的检测阈值。
关键字检测单元1130可在1260处确定关键字得分是否超过所接收的检测阈值。如果在1260处确定关键字得分未超过检测阈值,那么所述方法可前进到1270以接收由特征提取器1110提取的下一声音特征且在1240处确定下一声音特征的关键字得分。另一方面,如果在1260处确定关键字得分超过检测阈值,那么关键字检测单元1130可在1280处产生且发射激活信号以开启话音辅助单元688。所述方法可随后在1290处终止。
图13说明根据本发明的一个实施例的无线通信系统中的移动装置1300的框图,其中方法及设备基于根据移动装置1300的情境而调整的检测阈值来检测输入声音流中的目标关键字。移动装置1300可以是蜂窝式电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话等等。无线通信系统可以是码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(W-CDMA)系统、长期演进(LTE)系统、LTE高级系统等等。
移动装置1300可能够经由接收路径及发射路径提供双向通信。在接收路径上,由基站发射的信号被天线1312接收且被提供给接收器(RCVR)1314。接收器1314调节并数字化所接收的信号且将经调节及数字化的信号提供到数字区段1320以用于进一步处理。在发射路径上,发射器(TMTR)从数字区段1320接收待发射的数据,处理并调节所述数据,且产生经调制信号,所述经调制信号经由天线1312发射到基站。接收器1314和发射器1316是支持CDMA、GSM、W-CDMA、LTE、LTE高级等的收发器的部分。
数字区段1320包含各种处理、接口及存储器单元,例如调制解调器处理器1322、精简指令集计算机/数字信号处理器(RISC/DSP)1324、控制器/处理器1326、内部存储器1328、通用音频编码器1332、通用音频解码器1334、图形/显示处理器1336,及外部总线接口(EBI)1338。调制解调器处理器1322执行用于数据发射及接收的处理,例如编码、调制、解调及解码。RISC/DSP 1324执行无线装置1300的一般及专门的处理。控制器/处理器1326执行数字区段1320内的各种处理及接口单元的操作。内部存储器1328存储用于数字区段1320内的各种单元的数据和/或指令。
通用音频编码器1332执行对来自音频源1342、麦克风1343等的输入信号的编码。通用音频解码器1334执行对经译码音频数据的解码且将输出信号提供给扬声器/耳机1344。应注意,不一定需要通用音频编码器1332及通用音频解码器1334以用于与音频源、麦克风1343及扬声器/耳机1344介接,且因此在移动装置1300中未展示。图形/显示处理器1336执行对呈现给显示单元1346的图形、视频、图像及文本的处理。EBI 1338促进数字区段1320与主存储器1348之间的数据的传递。
数字区段1320可用一或多个处理器、DSP、微处理器、RISC等来实施。数字区段1320还制造于一或多个专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。
一般来说,本文中描述的任何装置指示各种类型的装置,例如,无线电话、蜂窝式电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等等。装置可具有各种名称,例如,接入终端(AT)、接入单元、订户单元、移动台、客户端装置、移动单元、移动电话、移动设备、远端台、远端终端、远程单元、用户装置、用户设备、手持式装置等。本文中描述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。
本文中所描述的技术通过各种装置来实施。例如,这些技术用硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解,结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可以实施为电子硬件、计算机软件或两者的组合。为清楚地说明硬件与软件的此可互换性,上文已大体上关于其功能性描述了各种说明性组件、块、模块、电路和步骤。此类功能性是实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。熟练的技术人员可针对每一特定应用以不同方式实施所描述的功能性,但此类实施决策不应被解释为引起偏离本发明的范围。
对于硬件实施方案,用于执行技术的处理单元在一或多个ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机或其组合内实施。
因此,结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如,DSP与微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心,或任何其它此类配置。
如果实施于软件中,则可将所述功能作为一或多个指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。计算机可读媒体包含计算机存储媒体与通信媒体两者,所述通信媒体包含促进将计算机程序从一处传送到另一处的任何媒体。存储媒体可以是可由计算机存取的任何可用媒体。借助于实例且不限于此,此类计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置,或可以用于运载或存储呈指令或数据结构的形式的所要的程序代码且可由计算机存取的任何其它媒体。此外,任何连接都恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射软件,则同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术包含于媒体的定义中。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。上述各者的组合也应包含在计算机可读媒体的范围内。
提供本发明的先前描述以使得所属领域的技术人员能够制造或使用本发明。所属领域的技术人员将易于明白对本发明的各种修改,且本文中界定的一般原理在不脱离本发明的精神或范围的情况下应用于其它变体。因此,本发明并不既定限于本文中所描述的实例,而应被赋予与本文中所揭示的原理及新颖特征相一致的最广泛范围。
尽管称示范性实施方案利用在一或多个独立计算机系统的背景下的当前揭示的标的物的方面,但所述标的物不受如此限制,而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者,目前揭示的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置实施,且可以类似地跨越多个装置实现存储。此类装置可包含PC、网络服务器和手持式装置。
尽管已经以特定地针对结构特征和/或方法动作的语言来描述标的物,但应理解,所附权利要求书中所界定的标的物未必限于上文所描述的具体特征或动作。而是,以实施权利要求书的实例形式来揭示上文所描述的特定特征及动作。
Claims (50)
1.一种用于激活移动装置中的话音辅助功能的方法,所述方法包括:
通过声音传感器接收输入声音流;
基于所述输入声音流而确定所述移动装置的情境;
基于所述情境而调整用于激活所述话音辅助功能的阈值;
基于经调整的阈值从所述输入声音流检测目标关键字;及
响应于检测到所述目标关键字而激活所述话音辅助功能。
2.根据权利要求1所述的方法,其中确定所述移动装置的所述情境包括:
从所述移动装置中的加速度传感器、位置传感器、照度传感器、接近度传感器、时钟单元及日历单元中的至少一者获得指示所述移动装置的所述情境的数据;及
基于所述输入声音流和所述数据而识别所述移动装置的所述情境。
3.根据权利要求1所述的方法,其中确定所述移动装置的所述情境包括:
从所述移动装置中的加速度传感器及位置传感器中的至少一者获得指示所述移动装置的所述情境的数据;及
基于所述输入声音流及所述数据将所述移动装置的所述情境识别为在车辆中。
4.根据权利要求1所述的方法,其中确定所述移动装置的所述情境包括:
从所述移动装置中的照度传感器及接近度传感器中的至少一者获得指示所述移动装置的所述情境的数据;及
基于所述输入声音流及所述数据而将所述移动装置的所述情境识别为在容器内。
5.根据权利要求1所述的方法,其中确定所述移动装置的所述情境包括:
获得所述移动装置的状态信息;及
基于所述输入声音流和所述状态信息而识别所述移动装置的所述情境。
6.根据权利要求5所述的方法,其中所述状态信息指示所述移动装置中的处理器从闲置状态到作用状态的操作状态的改变。
7.根据权利要求6所述的方法,其中所述处理器的所述操作状态响应于接收到电子消息而从所述闲置状态改变为所述作用状态。
8.根据权利要求6所述的方法,其中所述处理器的所述操作状态响应于所述移动装置中的警报事件而从所述闲置状态改变为所述作用状态。
9.根据权利要求1所述的方法,其进一步包括在调整所述阈值之后预定时间周期流逝时将所述阈值设定为预定阈值。
10.根据权利要求1所述的方法,其中调整所述阈值包括基于在所述移动装置的所述情境下使用所述话音辅助功能的可能性而调整所述阈值。
11.根据权利要求10所述的方法,其中当所述情境指示所述移动装置处于车辆中时所述可能性为高。
12.根据权利要求10所述的方法,其中当所述情境指示睡眠情境时所述可能性为低。
13.根据权利要求1所述的方法,其中从所述输入声音流检测所述目标关键字包括:
计算所述输入声音流与所述目标关键字的声音模型之间的类似性程度;
比较所述类似性程度与所述阈值;及
响应于所述类似性程度超过所述阈值而从所述输入声音流检测所述目标关键字。
14.根据权利要求1所述的方法,其中确定所述移动装置的所述情境进一步包括基于所述移动装置的处理器的操作状态的改变来识别所述移动装置的所述情境。
15.一种用于激活话音辅助功能的移动装置,其包括:
声音传感器,其经配置以接收输入声音流;
阈值调整单元,其经配置以基于所述输入声音流而识别所述移动装置的情境以及基于所述移动装置的所述情境而调整用于激活所述话音辅助功能的阈值;及
话音激活单元,其经配置以响应于基于经调整的阈值从所述输入声音流检测到目标关键字而激活所述话音辅助功能。
16.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步包括情境确定单元,所述情境确定单元经配置以从加速度传感器、位置传感器、照度传感器、接近度传感器、时钟单元及日历单元中的至少一者获得指示所述移动装置的所述情境的数据,且基于所述输入声音流和所述数据而识别所述移动装置的所述情境。
17.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步包括情境确定单元,所述情境确定单元经配置以从所述移动装置中的加速度传感器及位置传感器中的至少一者获得指示所述移动装置的所述情境的数据,且基于所述输入声音流及所述数据将所述移动装置的所述情境识别为在车辆中。
18.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步包括情境确定单元,所述情境确定单元经配置以从所述移动装置中的照度传感器及接近度传感器中的至少一者获得指示所述移动装置的所述情境的数据,且基于所述输入声音流及所述数据而将所述移动装置的所述情境识别为在容器内。
19.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步包括情境确定单元,所述情境确定单元经配置以获得所述移动装置的状态信息且基于所述输入声音流和所述状态信息而识别所述移动装置的所述情境。
20.根据权利要求19所述的移动装置,其中所述状态信息指示所述移动装置中的处理器从闲置状态到作用状态的操作状态的改变。
21.根据权利要求20所述的移动装置,其中所述处理器的所述操作状态响应于接收到电子消息而从所述闲置状态改变为所述作用状态。
22.根据权利要求20所述的移动装置,其中所述处理器的所述操作状态响应于所述移动装置中的警报事件而从所述闲置状态改变为所述作用状态。
23.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步经配置以在调整所述阈值之后预定时间周期流逝时将所述阈值设定为预定阈值。
24.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步经配置以基于在所述移动装置的所述情境下使用所述话音辅助功能的可能性而调整所述阈值。
25.根据权利要求24所述的移动装置,其中当所述情境指示所述移动装置处于车辆中时所述可能性为高。
26.根据权利要求24所述的移动装置,其中在所述情境指示睡眠情境的情况下所述可能性为低。
27.根据权利要求15所述的移动装置,其中所述话音激活单元进一步经配置以:计算所述输入声音流与所述目标关键字的声音模型之间的类似性程度;比较所述类似性程度与所述阈值;及响应于所述类似性程度超过所述阈值而从所述输入声音流检测所述目标关键字。
28.根据权利要求15所述的移动装置,其中所述阈值调整单元进一步包括情境确定单元,所述情境确定单元经配置以基于所述移动装置的处理器的操作状态的改变来识别所述移动装置的所述情境。
29.一种用于激活话音辅助功能的移动装置,其包括:
用于接收输入声音流的装置;
用于通过基于所述输入声音流而识别所述移动装置的情境及基于所述移动装置的所述情境而调整阈值的方式来调整用于激活所述话音辅助功能的所述阈值的装置;及
用于响应于基于经调整的阈值从所述输入声音流检测到目标关键字而激活所述话音辅助功能的装置。
30.根据权利要求29所述的移动装置,其中所述用于调整所述阈值的装置进一步包括用于以下操作的装置:从所述移动装置中的加速度传感器、位置传感器、照度传感器、接近度传感器、时钟单元及日历单元中的至少一者获得指示所述移动装置的所述情境的数据,且基于所述输入声音流和所述数据而识别所述移动装置的所述情境。
31.根据权利要求29所述的移动装置,其中所述用于调整所述阈值的装置进一步包括用于以下操作的装置:从所述移动装置中的加速度传感器及位置传感器中的至少一者获得指示所述移动装置的所述情境的数据,且基于所述输入声音流及所述数据将所述移动装置的所述情境识别为在车辆中。
32.根据权利要求29所述的移动装置,其中所述用于调整所述阈值的装置进一步包括用于获得所述移动装置的状态信息且基于所述输入声音流和所述状态信息而识别所述移动装置的所述情境的装置。
33.根据权利要求32所述的移动装置,其中所述状态信息指示所述移动装置中的处理器从闲置状态到作用状态的操作状态的改变。
34.根据权利要求33所述的移动装置,其中所述处理器的所述操作状态响应于接收到电子消息而从所述闲置状态改变为所述作用状态。
35.根据权利要求33所述的移动装置,其中所述处理器的所述操作状态响应于所述移动装置中的警报事件而从所述闲置状态改变为所述作用状态。
36.根据权利要求29所述的移动装置,其中所述用于调整所述阈值的装置经配置以在调整所述阈值之后预定时间周期流逝时将所述阈值设定为预定阈值。
37.根据权利要求29所述的移动装置,其中所述用于调整所述阈值的装置经配置以基于在所述移动装置的所述情境下使用所述话音辅助功能的可能性而调整所述阈值。
38.根据权利要求37所述的移动装置,其中在所述情境指示当所述移动装置处于车辆中时所述可能性为高。
39.根据权利要求29所述的移动装置,其中识别所述移动装置的所述情境进一步包括基于所述移动装置的处理器的操作状态的改变来识别所述移动装置的所述情境。
40.一种包括用于激活移动装置中的话音辅助功能的指令的非暂时性计算机可读存储媒体,所述指令致使所述移动装置的处理器执行包括以下操作的操作:
通过声音传感器接收输入声音流;
基于所述输入声音流而确定所述移动装置的情境;
基于所述情境而调整用于激活所述话音辅助功能的阈值;
基于经调整的阈值从所述输入声音流检测目标关键字;及
响应于检测到所述目标关键字而激活所述话音辅助功能。
41.根据权利要求40所述的媒体,其中确定所述移动装置的所述情境包括:
从所述移动装置中的加速度传感器、位置传感器、照度传感器、接近度传感器、时钟单元及日历单元中的至少一者获得指示所述移动装置的所述情境的数据;及
基于所述输入声音流和所述数据而识别所述移动装置的所述情境。
42.根据权利要求40所述的媒体,其中确定所述移动装置的所述情境包括:
从所述移动装置中的加速度传感器及位置传感器中的至少一者获得指示所述移动装置的所述情境的数据;及
基于所述输入声音流及所述数据将所述移动装置的所述情境识别为在车辆中。
43.根据权利要求40所述的媒体,其中确定所述移动装置的所述情境包括:
获得所述移动装置的状态信息;及
基于所述输入声音流和所述状态信息而识别所述移动装置的所述情境。
44.根据权利要求43所述的媒体,其中所述状态信息指示所述移动装置的所述处理器从闲置状态到作用状态的操作状态的改变。
45.根据权利要求44所述的媒体,其中所述处理器的所述操作状态响应于接收到电子消息而从所述闲置状态改变为所述作用状态。
46.根据权利要求44所述的媒体,其中所述处理器的所述操作状态响应于所述移动装置中的警报事件而从所述闲置状态改变为所述作用状态。
47.根据权利要求40所述的媒体,其中所述操作进一步包括在调整所述阈值之后预定时间周期流逝时将所述阈值设定为预定阈值。
48.根据权利要求40所述的媒体,其中调整所述阈值包括基于在所述移动装置的所述情境下使用所述话音辅助功能的可能性而调整所述阈值。
49.根据权利要求48所述的媒体,其中当所述情境指示所述移动装置处于车辆中时所述可能性为高。
50.根据权利要求40所述的媒体,其中确定所述移动装置的所述情境进一步包括基于所述移动装置的处理器的操作状态的改变来识别所述移动装置的所述情境。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/029,131 | 2013-09-17 | ||
US14/029,131 US9240182B2 (en) | 2013-09-17 | 2013-09-17 | Method and apparatus for adjusting detection threshold for activating voice assistant function |
PCT/US2014/054540 WO2015041882A1 (en) | 2013-09-17 | 2014-09-08 | Method and apparatus for adjusting detection threshold for activating voice assistant function |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105556595A CN105556595A (zh) | 2016-05-04 |
CN105556595B true CN105556595B (zh) | 2019-11-01 |
Family
ID=51703378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480051050.0A Active CN105556595B (zh) | 2013-09-17 | 2014-09-08 | 用于调整用于激活话音辅助功能的检测阈值的方法及设备 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9240182B2 (zh) |
EP (2) | EP3047482B1 (zh) |
JP (1) | JP6538060B2 (zh) |
KR (1) | KR102317608B1 (zh) |
CN (1) | CN105556595B (zh) |
ES (1) | ES2817841T3 (zh) |
WO (1) | WO2015041882A1 (zh) |
Families Citing this family (119)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9772815B1 (en) | 2013-11-14 | 2017-09-26 | Knowles Electronics, Llc | Personalized operation of a mobile device using acoustic and non-acoustic information |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US20140337031A1 (en) * | 2013-05-07 | 2014-11-13 | Qualcomm Incorporated | Method and apparatus for detecting a target keyword |
US9892729B2 (en) * | 2013-05-07 | 2018-02-13 | Qualcomm Incorporated | Method and apparatus for controlling voice activation |
US9026176B2 (en) * | 2013-05-12 | 2015-05-05 | Shyh-Jye Wang | Message-triggered voice command interface in portable electronic devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US20150053779A1 (en) | 2013-08-21 | 2015-02-26 | Honeywell International Inc. | Devices and methods for interacting with an hvac controller |
US9508345B1 (en) | 2013-09-24 | 2016-11-29 | Knowles Electronics, Llc | Continuous voice sensing |
US9781106B1 (en) | 2013-11-20 | 2017-10-03 | Knowles Electronics, Llc | Method for modeling user possession of mobile device for user authentication framework |
US9953634B1 (en) | 2013-12-17 | 2018-04-24 | Knowles Electronics, Llc | Passive training for automatic speech recognition |
US9741343B1 (en) * | 2013-12-19 | 2017-08-22 | Amazon Technologies, Inc. | Voice interaction application selection |
US9899021B1 (en) * | 2013-12-20 | 2018-02-20 | Amazon Technologies, Inc. | Stochastic modeling of user interactions with a detection system |
US9500739B2 (en) | 2014-03-28 | 2016-11-22 | Knowles Electronics, Llc | Estimating and tracking multiple attributes of multiple objects from multi-sensor data |
US9437188B1 (en) | 2014-03-28 | 2016-09-06 | Knowles Electronics, Llc | Buffered reprocessing for multi-microphone automatic speech recognition assist |
WO2015149216A1 (en) * | 2014-03-31 | 2015-10-08 | Intel Corporation | Location aware power management scheme for always-on- always-listen voice recognition system |
US10770075B2 (en) * | 2014-04-21 | 2020-09-08 | Qualcomm Incorporated | Method and apparatus for activating application by speech input |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
KR102338899B1 (ko) * | 2015-01-02 | 2021-12-13 | 삼성전자주식회사 | 홈 디바이스를 제어하는 방법 및 디바이스 |
CN104657072B (zh) * | 2015-01-15 | 2018-06-12 | 小米科技有限责任公司 | 一种触发执行操作指令的方法和装置 |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
CN106469040B (zh) | 2015-08-19 | 2019-06-21 | 华为终端有限公司 | 通信方法、服务器及设备 |
CN106486127A (zh) * | 2015-08-25 | 2017-03-08 | 中兴通讯股份有限公司 | 一种语音识别参数自动调整的方法、装置及移动终端 |
CN105261368B (zh) * | 2015-08-31 | 2019-05-21 | 华为技术有限公司 | 一种语音唤醒方法及装置 |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
DE112015006887B4 (de) * | 2015-09-09 | 2020-10-08 | Mitsubishi Electric Corporation | Fahrzeug-Spracherkennungsvorrichtung und Fahrzeugausrüstung |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9946862B2 (en) * | 2015-12-01 | 2018-04-17 | Qualcomm Incorporated | Electronic device generating notification based on context data in response to speech phrase from user |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
KR102501083B1 (ko) * | 2016-02-05 | 2023-02-17 | 삼성전자 주식회사 | 음성 인식 방법 및 이를 사용하는 전자 장치 |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
KR102307976B1 (ko) * | 2016-05-10 | 2021-09-30 | 구글 엘엘씨 | 디바이스들 상의 보이스 어시스턴트에 대한 구현들 |
CN108604254B (zh) | 2016-05-13 | 2022-04-12 | 谷歌有限责任公司 | 语音控制的隐藏字幕显示 |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10102732B2 (en) * | 2016-06-28 | 2018-10-16 | Infinite Designs, LLC | Danger monitoring system |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10621992B2 (en) * | 2016-07-22 | 2020-04-14 | Lenovo (Singapore) Pte. Ltd. | Activating voice assistant based on at least one of user proximity and context |
US10291975B2 (en) * | 2016-09-06 | 2019-05-14 | Apple Inc. | Wireless ear buds |
WO2018118744A1 (en) * | 2016-12-19 | 2018-06-28 | Knowles Electronics, Llc | Methods and systems for reducing false alarms in keyword detection |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10664533B2 (en) | 2017-05-24 | 2020-05-26 | Lenovo (Singapore) Pte. Ltd. | Systems and methods to determine response cue for digital assistant based on context |
US10204624B1 (en) * | 2017-08-14 | 2019-02-12 | Lenovo (Singapore) Pte. Ltd. | False positive wake word |
EP3484176A1 (en) * | 2017-11-10 | 2019-05-15 | Nxp B.V. | Vehicle audio presentation controller |
KR102492727B1 (ko) * | 2017-12-04 | 2023-02-01 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
US10524046B2 (en) | 2017-12-06 | 2019-12-31 | Ademco Inc. | Systems and methods for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10948563B2 (en) * | 2018-03-27 | 2021-03-16 | Infineon Technologies Ag | Radar enabled location based keyword activation for voice assistants |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
JP2019204025A (ja) * | 2018-05-24 | 2019-11-28 | レノボ・シンガポール・プライベート・リミテッド | 電子機器、制御方法、及びプログラム |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
JP2019211599A (ja) * | 2018-06-04 | 2019-12-12 | 本田技研工業株式会社 | 音声認識装置、音声認識方法およびプログラム |
EP3753017B1 (en) * | 2018-06-05 | 2023-08-02 | Samsung Electronics Co., Ltd. | A voice assistant device and method thereof |
WO2019235858A1 (en) | 2018-06-05 | 2019-12-12 | Samsung Electronics Co., Ltd. | A voice assistant device and method thereof |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
KR102523982B1 (ko) | 2018-08-21 | 2023-04-20 | 구글 엘엘씨 | 자동화된 어시스턴트를 호출하기 위한 다이내믹 및/또는 컨텍스트-특정 핫 워드 |
CN110867182B (zh) * | 2018-08-28 | 2022-04-12 | 仁宝电脑工业股份有限公司 | 多语音助理的控制方法 |
TWI683306B (zh) * | 2018-08-28 | 2020-01-21 | 仁寶電腦工業股份有限公司 | 多語音助理之控制方法 |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
CN109346071A (zh) * | 2018-09-26 | 2019-02-15 | 出门问问信息科技有限公司 | 唤醒处理方法、装置及电子设备 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11562135B2 (en) | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
JP7407580B2 (ja) | 2018-12-06 | 2024-01-04 | シナプティクス インコーポレイテッド | システム、及び、方法 |
US11232788B2 (en) * | 2018-12-10 | 2022-01-25 | Amazon Technologies, Inc. | Wakeword detection |
US11321536B2 (en) * | 2019-02-13 | 2022-05-03 | Oracle International Corporation | Chatbot conducting a virtual social dialogue |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
CN110022427A (zh) * | 2019-05-22 | 2019-07-16 | 乐山师范学院 | 汽车使用智能辅助系统 |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
CN110047487B (zh) * | 2019-06-05 | 2022-03-18 | 广州小鹏汽车科技有限公司 | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 |
KR20200141860A (ko) * | 2019-06-11 | 2020-12-21 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN112104901A (zh) * | 2019-06-17 | 2020-12-18 | 深圳市同行者科技有限公司 | 一种车载设备的自销售方法及系统 |
CN110797051A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种唤醒门限设置方法、装置、智能音箱及存储介质 |
CN110942768A (zh) * | 2019-11-20 | 2020-03-31 | Oppo广东移动通信有限公司 | 设备唤醒的测试方法、装置、移动终端和存储介质 |
WO2021141330A1 (ko) * | 2020-01-06 | 2021-07-15 | 삼성전자(주) | 전자장치 및 그 제어방법 |
US11064294B1 (en) | 2020-01-10 | 2021-07-13 | Synaptics Incorporated | Multiple-source tracking and voice activity detections for planar microphone arrays |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11721338B2 (en) * | 2020-08-26 | 2023-08-08 | International Business Machines Corporation | Context-based dynamic tolerance of virtual assistant |
KR20220111574A (ko) * | 2021-02-02 | 2022-08-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
EP4220628A4 (en) | 2021-02-19 | 2024-05-22 | Samsung Electronics Co Ltd | ELECTRONIC SERVICE SUPPORT DEVICE FOR ARTIFICIAL INTELLIGENCE (AI) AGENT TALKING WITH USER |
CN113470657B (zh) * | 2021-05-18 | 2023-12-01 | 翱捷科技(深圳)有限公司 | 一种语音唤醒阈值调整方法及系统 |
US11823707B2 (en) * | 2022-01-10 | 2023-11-21 | Synaptics Incorporated | Sensitivity mode for an audio spotting system |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138094A (en) * | 1997-02-03 | 2000-10-24 | U.S. Philips Corporation | Speech recognition method and system in which said method is implemented |
CN101206857A (zh) * | 2006-12-19 | 2008-06-25 | 国际商业机器公司 | 用于修改语音处理设置的方法和系统 |
CN103198832A (zh) * | 2012-01-09 | 2013-07-10 | 三星电子株式会社 | 图像显示设备及控制图像显示设备的方法 |
CN103226949A (zh) * | 2011-09-30 | 2013-07-31 | 苹果公司 | 在虚拟助理中使用情境信息来促进命令的处理 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3079006B2 (ja) * | 1995-03-22 | 2000-08-21 | シャープ株式会社 | 音声認識制御装置 |
AU2048001A (en) * | 1999-11-23 | 2001-06-04 | Katherine Axia Keough | System and method of templating specific human voices |
JP2004294946A (ja) * | 2003-03-28 | 2004-10-21 | Toshiba Corp | 携帯型電子機器 |
EP1679867A1 (en) * | 2005-01-06 | 2006-07-12 | Orange SA | Customisation of VoiceXML Application |
JP4660299B2 (ja) * | 2005-06-29 | 2011-03-30 | 三菱電機株式会社 | 移動体用情報装置 |
US20070263805A1 (en) | 2006-05-01 | 2007-11-15 | Mcdonald Christopher F | Method to alert participant on a conference call |
JP5229217B2 (ja) | 2007-02-27 | 2013-07-03 | 日本電気株式会社 | 音声認識システム、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US20080300025A1 (en) * | 2007-05-31 | 2008-12-04 | Motorola, Inc. | Method and system to configure audio processing paths for voice recognition |
JP4973722B2 (ja) | 2009-02-03 | 2012-07-11 | 株式会社デンソー | 音声認識装置、音声認識方法、及びナビゲーション装置 |
JP2010281855A (ja) * | 2009-06-02 | 2010-12-16 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US20120264091A1 (en) * | 2009-08-17 | 2012-10-18 | Purdue Research Foundation | Method and system for training voice patterns |
US8270954B1 (en) | 2010-02-02 | 2012-09-18 | Sprint Communications Company L.P. | Concierge for portable electronic device |
JP2012216057A (ja) * | 2011-03-31 | 2012-11-08 | Toshiba Corp | 音声処理装置、及び音声処理方法 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
US9349366B2 (en) * | 2012-06-13 | 2016-05-24 | Wearsafe Labs Llc | Systems and methods for managing an emergency situation |
CN102999161B (zh) * | 2012-11-13 | 2016-03-02 | 科大讯飞股份有限公司 | 一种语音唤醒模块的实现方法及应用 |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
-
2013
- 2013-09-17 US US14/029,131 patent/US9240182B2/en active Active
-
2014
- 2014-09-08 JP JP2016542030A patent/JP6538060B2/ja active Active
- 2014-09-08 ES ES14784130T patent/ES2817841T3/es active Active
- 2014-09-08 EP EP14784130.8A patent/EP3047482B1/en active Active
- 2014-09-08 WO PCT/US2014/054540 patent/WO2015041882A1/en active Application Filing
- 2014-09-08 CN CN201480051050.0A patent/CN105556595B/zh active Active
- 2014-09-08 KR KR1020167009988A patent/KR102317608B1/ko active IP Right Grant
- 2014-09-08 EP EP20171531.5A patent/EP3754652B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138094A (en) * | 1997-02-03 | 2000-10-24 | U.S. Philips Corporation | Speech recognition method and system in which said method is implemented |
CN101206857A (zh) * | 2006-12-19 | 2008-06-25 | 国际商业机器公司 | 用于修改语音处理设置的方法和系统 |
CN103282957A (zh) * | 2010-08-06 | 2013-09-04 | 谷歌公司 | 基于上下文自动监测话音输入 |
CN103226949A (zh) * | 2011-09-30 | 2013-07-31 | 苹果公司 | 在虚拟助理中使用情境信息来促进命令的处理 |
CN103198832A (zh) * | 2012-01-09 | 2013-07-10 | 三星电子株式会社 | 图像显示设备及控制图像显示设备的方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2016536648A (ja) | 2016-11-24 |
CN105556595A (zh) | 2016-05-04 |
EP3754652B1 (en) | 2023-09-06 |
EP3047482A1 (en) | 2016-07-27 |
EP3754652A1 (en) | 2020-12-23 |
US9240182B2 (en) | 2016-01-19 |
WO2015041882A1 (en) | 2015-03-26 |
ES2817841T3 (es) | 2021-04-08 |
US20150081296A1 (en) | 2015-03-19 |
KR102317608B1 (ko) | 2021-10-25 |
JP6538060B2 (ja) | 2019-07-03 |
KR20160055915A (ko) | 2016-05-18 |
EP3754652C0 (en) | 2023-09-06 |
EP3047482B1 (en) | 2020-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105556595B (zh) | 用于调整用于激活话音辅助功能的检测阈值的方法及设备 | |
CN108735209B (zh) | 唤醒词绑定方法、智能设备及存储介质 | |
CN108711430B (zh) | 语音识别方法、智能设备及存储介质 | |
EP2881939B1 (en) | System for speech keyword detection and associated method | |
CN109427333A (zh) | 激活语音识别服务的方法和用于实现所述方法的电子装置 | |
CN108320742A (zh) | 语音交互方法、智能设备及存储介质 | |
EP2829087B1 (en) | Controlling applications in a mobile device based on the environmental context | |
CN111933112B (zh) | 唤醒语音确定方法、装置、设备及介质 | |
US20160259432A1 (en) | Electromagnetic Interference Signal Detection | |
CN111819533B (zh) | 一种触发电子设备执行功能的方法及电子设备 | |
CN106233376A (zh) | 用于通过话音输入激活应用程序的方法和设备 | |
CN110070863A (zh) | 一种语音控制方法及装置 | |
CN110349579B (zh) | 语音唤醒处理方法及装置、电子设备及存储介质 | |
US20220084529A1 (en) | Method and apparatus for awakening wearable device | |
US20200342878A1 (en) | Personalized Talking Detector For Electronic Device | |
US20210312943A1 (en) | Method and apparatus for target sound detection | |
CN105278837B (zh) | 阅读提醒方法及装置 | |
CN113742460B (zh) | 生成虚拟角色的方法及装置 | |
CN109920420A (zh) | 一种基于环境检测的语音唤醒系统 | |
CN111526244A (zh) | 一种闹钟处理方法以及电子设备 | |
CN112435441B (zh) | 睡眠检测方法和可穿戴电子设备 | |
CN114765026A (zh) | 一种语音控制方法、装置及系统 | |
CN113160802B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN117472187A (zh) | 非摄像头的智能设备唤醒及交互方法、系统、终端及介质 | |
CN116935861A (zh) | 一种用于婴儿啼哭的哭声检测方法、系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |