CN112489663A - 一种语音唤醒方法、装置、介质和设备 - Google Patents
一种语音唤醒方法、装置、介质和设备 Download PDFInfo
- Publication number
- CN112489663A CN112489663A CN202011238207.4A CN202011238207A CN112489663A CN 112489663 A CN112489663 A CN 112489663A CN 202011238207 A CN202011238207 A CN 202011238207A CN 112489663 A CN112489663 A CN 112489663A
- Authority
- CN
- China
- Prior art keywords
- awakening
- module
- audio data
- wake
- awakened
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000011156 evaluation Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000002618 waking effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Power Sources (AREA)
Abstract
本发明涉及一种语音唤醒方法、装置、介质和设备。根据本发明实施例提供的方案,可以通过两级唤醒模块来进行语音唤醒,每一级唤醒模块确定是否应唤醒智能设备的时长均不大于对应的设定值,从而可以通过负载均衡的方式,减轻每一级唤醒模块的计算量,降低每一级唤醒模块的功耗,避免计算能力不足的问题。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种语音唤醒方法、装置、介质和设备。
背景技术
语音交互是当前应用最多的智能人机交互方式。在进行语音交互时,目前常见的方式是用户根据唤醒词,语音唤醒智能设备后,再与智能设备进行语音交互。因此,语音唤醒是语音交互的重要环节。
目前常见的语音唤醒方案,是智能设备中的唤醒模块进行一次唤醒词检测。其中,唤醒模块会确定连续输入的音频数据中,是否包括指定的唤醒词对应的特征序列,如果确定包括指定的唤醒词对应的特征序列,则认为应当唤醒,此时,唤醒模块可以唤醒智能设备。
语音唤醒的重点在于提高唤醒率,降低误唤醒率。如果唤醒词检测的计算量较小,则无法有效保证提高唤醒率,降低误唤醒率。而为了提高唤醒率,降低误唤醒率,唤醒模块进行一次唤醒词检测的过程中,唤醒词检测的计算量通常会变大,此时,由于计算量的变大,会导致唤醒模块的功耗较大的问题产生。
发明内容
本发明实施例提供一种语音唤醒方法、装置、介质和设备,用于解决唤醒模块的功耗较大的问题。
本发明提供了一种语音唤醒方法,所述方法包括:
第一级唤醒模块接收连续输入的音频数据,根据所述音频数据,确定是否应唤醒智能设备,所述第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值;
若所述第一级唤醒模块确定应唤醒智能设备,则将所述音频数据发送给第二级唤醒模块;
所述第二级唤醒模块根据所述音频数据,确定是否应唤醒智能设备,所述第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值;
若所述第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备。
本发明还提供了一种语音唤醒装置,所述装置包括:
第一级唤醒模块,用于接收连续输入的音频数据,根据所述音频数据,确定是否应唤醒智能设备,所述第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值;并在确定应唤醒智能设备时,将所述音频数据发送给第二级唤醒模块;
第二级唤醒模块,用于根据所述音频数据,确定是否应唤醒智能设备,所述第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值;并在确定应唤醒智能设备时,唤醒智能设备。
本发明还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现如上所述的方法。
本发明还提供了一种语音唤醒设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现如上所述的方法步骤。
根据本发明实施例提供的方案,可以通过两级唤醒模块来进行语音唤醒,每一级唤醒模块确定是否应唤醒智能设备的时长均不大于对应的设定值,从而可以通过负载均衡的方式,减轻每一级唤醒模块的计算量,降低每一级唤醒模块的功耗,避免计算能力不足的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的语音唤醒方法的流程示意图;
图2为本发明实施例二提供的语音唤醒装置的结构示意图;
图3为本发明实施例三提供的语音唤醒设备的结构示意图。
具体实施方式
为了保证语音唤醒的准确性,现有的语音唤醒方案中,唤醒模块的计算量很大,导致功耗很大,因此,本发明实施例提供一种负载均衡的语音唤醒方案,通过设置两级唤醒模块的方式,来减少每个唤醒模块的计算量,降低功耗。
当然,在本发明实施例提供的方案的基础上,还可以进一步设置多于两级的唤醒模块,如设置三级唤醒模块等方式,来实现负载均衡的语音唤醒。
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
本发明实施例一提供一种语音唤醒方法,该方法的步骤流程可以如图1所示,包括:
步骤101、第一级唤醒模块接收音频数据。
在本步骤中,第一级唤醒模块可以接收连续输入的音频数据,以便根据接收到的连续输入的音频数据,确定是否应唤醒智能设备。
连续输入的音频数据可以理解为用户发出的语音唤醒指令,如包括唤醒词的语音唤醒指令。
步骤102、第一级唤醒模块确定是否应唤醒智能设备。
在本步骤中,第一级唤醒模块可以根据接收到的音频数据,确定是否应唤醒智能设备。
在本实施例中,第一级唤醒模块可以理解为长时间实时运行的唤醒模块。针对第一级唤醒模块,为了避免功耗较大,计算能力不足的问题,可以选择计算量较少的方法来确定是否应唤醒智能设备。且在本实施例中,可以利用计算时长来评估计算量的大小。因此,在本实施例中,可以设置第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值。
进一步的,为了进一步保证语音唤醒的准确性,还可以设置第一级唤醒模块确定是否应唤醒智能设备的时长不小于第三设定值。
需要说明的是,第一级唤醒模块根据接收到的音频数据,确定是否应唤醒智能设备所采用的方法可以为任意方法。在一种可能的实现方式中,根据接收到的音频数据,确定是否应唤醒智能设备,可以包括:
确定接收到的音频数据中是否包括指定的唤醒词对应的特征序列,或者,确定接收到的音频数据对应的声纹特征是否符合指定用户的声纹特征。
即在本实施例中,可以通过对接收到的音频数据中,指定的唤醒词的特征识别,或者对指定用户的声纹特征识别,来确定是否应唤醒智能设备。
若第一级唤醒模块确定应唤醒智能设备,则可以继续执行步骤103。
在一种可能的实现方式中,第一级唤醒模块确定是否应唤醒智能设备,可以是确定应唤醒智能设备的置信度。第一级唤醒模块确定应唤醒智能设备,可以是第一级唤醒模块确定出的应唤醒智能设备的置信度不小于对应的门限值。
步骤103、第一级唤醒模块发送音频数据。
若步骤102中,第一级唤醒模块确定应唤醒智能设备,则在本步骤中,第一级唤醒模块可以将接收到的音频数据发送给第二级唤醒模块,以便第二级唤醒模块进一步确定是否应唤醒智能设备。
在一种可能的实现方式中,为了减少第二级唤醒模块的计算量,第一级唤醒模块可以将接收到的音频数据中的至少部分音频数据发送给第二级唤醒模块。
所述至少部分音频数据可以理解为第一级唤醒模块确定出应唤醒智能设备的关键音频数据,例如,第一级唤醒模块接收到的音频数据中,指定的唤醒词对应的音频数据。
步骤104、第二级唤醒模块确定是否应唤醒智能设备。
在本步骤中,第二级唤醒模块可以根据接收到的音频数据,确定是否应唤醒智能设备。
当然,如果第一级唤醒模块将接收到的音频数据中的至少部分音频数据发送给第二级唤醒模块,那么在本步骤中,第二级唤醒模块可以根据接收到的至少部分音频数据,确定是否应唤醒智能设备。
在本实施例中,第二级唤醒模块可以理解为仅在第一级唤醒模块确定应唤醒智能设备时运行的唤醒模块。
针对第二级唤醒模块,为了避免功耗较大,计算能力不足的问题,可以选择计算量较少的方法来确定是否应唤醒智能设备。且在本实施例中,可以利用计算时长来评估计算量的大小。因此,在本实施例中,可以设置第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值。
进一步的,为了进一步保证语音唤醒的准确性,还可以设置第二级唤醒模块确定是否应唤醒智能设备的时长不小于第四设定值。
需要说明的是,第二级唤醒模块根据接收到的音频数据,确定是否应唤醒智能设备所采用的方法可以为任意方法。在一种可能的实现方式中,根据接收到的音频数据,确定是否应唤醒智能设备,可以包括:
确定接收到的音频数据中是否包括指定的唤醒词对应的特征序列,或者,确定接收到的音频数据对应的声纹特征是否符合指定用户的声纹特征。
即在本实施例中,可以通过对接收到的音频数据中,指定的唤醒词的特征识别,或者对指定用户的声纹特征识别,来确定是否应唤醒智能设备。
另外需要说明的是,在本实施例中,第二级唤醒模块的数量可以为一个,也可以为至少两个,以提高第二级唤醒模块确定是否应唤醒智能设备的准确性。
如果第二级唤醒模块的数量为至少两个,那么每一个第二级唤醒模块根据接收到的音频数据,确定是否应唤醒智能设备所采用的方法可以是不同的。在一种可能的实现方式中,每一个第二级唤醒模块根据接收到的音频数据,确定是否应唤醒智能设备时,针对的音频数据的特征不相同(例如,通过对接收到的音频数据中,指定的唤醒词的特征识别,或者对指定用户的声纹特征识别,来确定是否应唤醒智能设备)和/或使用的计算模型不相同。
需要说明的是,在本实施例中,可以根据第一级唤醒模块和第二级唤醒模块的具体配置情况,以及计算时长要求,通过调试确定第一级唤醒模块和(每个)第二级唤醒模块应用的确定是否应唤醒智能设备的方法。
例如,根据第一级唤醒模块和第二级唤醒模块的具体配置情况,以及计算时长要求,第一级唤醒模块可以进行指定的唤醒词的特征识别,并可以采用长短期记忆(LSTM)神经网络模型,针对接收到的音频数据的fbank特征,每4帧进行一次指定的唤醒词的特征识别;第二级唤醒模块也可以进行指定的唤醒词的特征识别,并可以采用相同的LSTM神经网络模型,且针对接收到的音频数据的fbank特征,也每4帧进行一次指定的唤醒词的特征识别;
这样相对于现有技术中唤醒模块进行指定的唤醒词的特征识别,其中,采用相同的LSTM神经网络模型,但是针对接收到的音频数据的fbank特征,每2帧进行一次指定的唤醒词的特征识别,可以有效达到减少每一级唤醒模块的计算量,降低每一级唤醒模块的功耗的效果。
在本步骤中,若第二级唤醒模块确定应唤醒智能设备,可以唤醒智能设备。在一种可能的实现方式中,第二级唤醒模块确定是否应唤醒智能设备,可以是确定应唤醒智能设备的置信度。
需要说明的是,如果第二级唤醒模块的数量为一个,在一种可能的实现方式中,若第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备,可以是若第二级唤醒模块确定出的应唤醒智能设备的置信度不小于对应的门限值,则唤醒智能设备。
如果第二级唤醒模块的数量为至少两个,在本实施例中,还可以判断每个第二级唤醒模块确定出的应唤醒智能设备的置信度是否满足设定条件,在确定每个第二级唤醒模块确定出的应唤醒智能设备的置信度满足设定条件时,确定应唤醒智能设备,并唤醒智能设备。
在一种可能的实现方式中,如果第二级唤醒模块的数量为至少两个,那么若第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备,可以是每个第二级唤醒模块将确定出的应唤醒智能设备的置信度发送给评价模块,若所述评价模块确定接收到的置信度满足设定条件,则唤醒智能设备。
其中,评价模块可以根据设定条件,对接收到的各个置信度进行任意形式的计算,从而判断接收到的置信度是否满足设定条件。
另外,需要说明的是,在本实施例中,还可以结合第一级唤醒模块确定出的应唤醒智能设备的置信度,以及第二级唤醒模块确定出的应唤醒智能设备的置信度,来判断是否应唤醒智能设备。
此时可以理解为除了第二级唤醒模块(若第二级唤醒模块为多个,此处可以理解为每个第二级唤醒模块)将确定出的应唤醒智能设备的置信度发送给评价模块,第一级唤醒模块也将确定出的应唤醒智能设备的置信度发送给评价模块,此时的若第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备,可以理解为,若评价模块确定接收到的第一级唤醒模块和第二级唤醒模块发送的置信度满足设定条件,则唤醒智能设备。
类似的,评价模块可以根据设定条件,对接收到的第一级唤醒模块和第二级唤醒模块发送的各个置信度进行任意形式的计算,从而判断接收到的置信度是否满足设定条件。
需要说明的是,在一种可能的实现方式中,若第二级唤醒模块或者评价模块唤醒智能设备,还可以提示用户智能设备唤醒,例如,通过语音或者指示灯提示用户智能设备唤醒。
此外需要说明的是,在本实施例中,评价模块可以与第一级唤醒模块和第二级唤醒模块共同集成在智能设备中,也可以独立于第一级唤醒模块和第二级唤醒模块,例如,第一级唤醒模块和第二级唤醒模块可以集成在智能设备中,而评价模块则可以设置在云端服务器。
根据本发明实施例一提供的方案,通过分散唤醒模块的计算量,尽可能使得各级唤醒模块的运行状态趋于稳定,达到各级唤醒模块运行稳定的效果,提升用户的语音唤醒体验。
与实施例一提供的方法对应的,提供以下的装置。
实施例二
本发明实施例二提供一种语音唤醒装置,该装置的结构可以如图2所示,包括:
第一级唤醒模块11用于接收连续输入的音频数据,根据所述音频数据,确定是否应唤醒智能设备,所述第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值;并在确定应唤醒智能设备时,将所述音频数据发送给第二级唤醒模块;第二级唤醒模块12用于根据所述音频数据,确定是否应唤醒智能设备,所述第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值;并在确定应唤醒智能设备时,唤醒智能设备。
在一种可能的实现方式中,所述第一级唤醒模块11,或者,所述第二级唤醒模块12,根据所述音频数据,确定是否应唤醒智能设备,包括:确定所述音频数据中是否包括指定的唤醒词对应的特征序列,或者,确定所述音频数据对应的声纹特征是否符合指定用户的声纹特征。
在一种可能的实现方式中,所述第一级唤醒模块11在确定应唤醒智能设备时,将所述音频数据发送给第二级唤醒模块,包括:在确定应唤醒智能设备时,将所述音频数据中的至少部分音频数据发送给第二级唤醒模块;第二级唤醒模块12根据所述音频数据,确定是否应唤醒智能设备,包括:根据所述至少部分音频数据,确定是否应唤醒智能设备。
所述第二级唤醒模块12的数量可以为一个,也可以为至少两个,在图2中,以第二级唤醒模块12的数量为多个为例进行示意。
若所述第二级唤醒模块12的数量为至少两个,则,每一个第二级唤醒模块12根据所述音频数据,确定是否应唤醒智能设备时,针对的音频数据的特征可以不相同和/或使用的计算模型可以不相同。
在一种可能的实现方式中,若所述第二级唤醒模块12的数量为至少两个,则:所述装置还包括评价模块13;
每个第二级唤醒模块12用于若确定应唤醒智能设备,则唤醒智能设备,包括:将确定出的应唤醒智能设备的置信度发送给所述评价模块;
所述评价模块13用于若确定接收到的置信度满足设定条件,则唤醒智能设备。
在另一种可能的实现方式中,所述装置还包括评价模块13;
所述第一级唤醒模块11还用于将确定出的应唤醒智能设备的置信度发送给所述评价模块;
所述第二级唤醒模块12用于若确定应唤醒智能设备,则唤醒智能设备,包括:将确定出的应唤醒智能设备的置信度发送给所述评价模块;
所述评价模块13用于若确定接收到的第一级唤醒模块和第二级唤醒模块发送的置信度满足设定条件,则唤醒智能设备。
基于同一发明构思,本发明实施例提供以下的设备和介质。
实施例三
本发明实施例三提供一种语音唤醒设备,该设备的结构可以如图3所示,包括处理器21、通信接口22、存储器23和通信总线24,其中,所述处理器21,所述通信接口22,所述存储器23通过所述通信总线24完成相互间的通信;
所述存储器23,用于存放计算机程序;
所述处理器21,用于执行所述存储器上所存储的程序时,实现本发明实施例一所述的方法步骤。
可选的,所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC,Application Specific Integrated Circuit),可以是一个或多个用于控制程序执行的集成电路,可以是使用现场可编程门阵列(FPGA,Field Programmable Gate Array)开发的硬件电路,可以是基带处理器。
可选的,所述处理器21可以包括至少一个处理核心。
可选的,所述存储器23可以包括只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。
本发明实施例四提供一种非易失性计算机存储介质,所述计算机存储介质存储有可执行程序,当可执行程序被处理器执行时,实现本发明实施例一提供的方法。
在具体的实施过程中,计算机存储介质可以包括:通用串行总线闪存盘(USB,Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。
在本发明实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性或其它的形式。
在本发明实施例中的各功能单元可以集成在一个处理单元中,或者各个单元也可以均是独立的物理模块。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备,例如可以是个人计算机,服务器,或者网络设备等,或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音唤醒方法,其特征在于,所述方法包括:
第一级唤醒模块接收连续输入的音频数据,根据所述音频数据,确定是否应唤醒智能设备,所述第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值;
若所述第一级唤醒模块确定应唤醒智能设备,则将所述音频数据发送给第二级唤醒模块;
所述第二级唤醒模块根据所述音频数据,确定是否应唤醒智能设备,所述第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值;
若所述第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备。
2.如权利要求1所述的方法,其特征在于,根据所述音频数据,确定是否应唤醒智能设备,包括:
确定所述音频数据中是否包括指定的唤醒词对应的特征序列,或者,确定所述音频数据对应的声纹特征是否符合指定用户的声纹特征。
3.如权利要求1所述的方法,其特征在于,若所述第一级唤醒模块确定应唤醒智能设备,则将所述音频数据发送给第二级唤醒模块,包括:
若所述第一级唤醒模块确定应唤醒智能设备,则将所述音频数据中的至少部分音频数据发送给第二级唤醒模块;
所述第二级唤醒模块根据所述音频数据,确定是否应唤醒智能设备,包括:
所述第二级唤醒模块根据所述至少部分音频数据,确定是否应唤醒智能设备。
4.如权利要求1所述的方法,其特征在于,所述第二级唤醒模块的数量为一个或至少两个。
5.如权利要求4所述的方法,其特征在于,若所述第二级唤醒模块的数量为至少两个,则,每一个第二级唤醒模块根据所述音频数据,确定是否应唤醒智能设备时,针对的音频数据的特征不相同和/或使用的计算模型不相同。
6.如权利要求4或5所述的方法,其特征在于,若所述第二级唤醒模块的数量为至少两个,则:若所述第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备,包括:
每个第二级唤醒模块将确定出的应唤醒智能设备的置信度发送给评价模块,若所述评价模块确定接收到的置信度满足设定条件,则唤醒智能设备。
7.如权利要求1~5任一所述的方法,其特征在于,所述方法还包括:
所述第一级唤醒模块将确定出的应唤醒智能设备的置信度发送给评价模块;
则,若所述第二级唤醒模块确定应唤醒智能设备,则唤醒智能设备,包括:
所述第二级唤醒模块将确定出的应唤醒智能设备的置信度发送给评价模块,若所述评价模块确定接收到的第一级唤醒模块和第二级唤醒模块发送的置信度满足设定条件,则唤醒智能设备。
8.一种语音唤醒装置,其特征在于,所述装置包括:
第一级唤醒模块,用于接收连续输入的音频数据,根据所述音频数据,确定是否应唤醒智能设备,所述第一级唤醒模块确定是否应唤醒智能设备的时长不大于第一设定值;并在确定应唤醒智能设备时,将所述音频数据发送给第二级唤醒模块;
第二级唤醒模块,用于根据所述音频数据,确定是否应唤醒智能设备,所述第二级唤醒模块确定是否应唤醒智能设备的时长不大于第二设定值;并在确定应唤醒智能设备时,唤醒智能设备。
9.一种非易失性计算机存储介质,其特征在于,所述计算机存储介质存储有可执行程序,该可执行程序被处理器执行实现权利要求1~7任一所述的方法。
10.一种语音唤醒设备,其特征在于,所述设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器,所述通信接口,所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存储的程序时,实现权利要求1~7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238207.4A CN112489663A (zh) | 2020-11-09 | 2020-11-09 | 一种语音唤醒方法、装置、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011238207.4A CN112489663A (zh) | 2020-11-09 | 2020-11-09 | 一种语音唤醒方法、装置、介质和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112489663A true CN112489663A (zh) | 2021-03-12 |
Family
ID=74928937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011238207.4A Pending CN112489663A (zh) | 2020-11-09 | 2020-11-09 | 一种语音唤醒方法、装置、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489663A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN111880856A (zh) * | 2020-07-31 | 2020-11-03 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
-
2020
- 2020-11-09 CN CN202011238207.4A patent/CN112489663A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036428A (zh) * | 2018-10-31 | 2018-12-18 | 广东小天才科技有限公司 | 一种语音唤醒设备、方法及计算机可读存储介质 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN110706703A (zh) * | 2019-10-16 | 2020-01-17 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、介质和设备 |
CN111880856A (zh) * | 2020-07-31 | 2020-11-03 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022206602A1 (zh) * | 2021-03-31 | 2022-10-06 | 华为技术有限公司 | 语音唤醒方法、装置、存储介质及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697207B (zh) | 时序数据的异常监控方法及系统 | |
US11783227B2 (en) | Method, apparatus, device and readable medium for transfer learning in machine learning | |
CN110658905B (zh) | 设备运行状态的预警方法、预警系统及预警装置 | |
CN110134215B (zh) | 数据处理方法、装置、电子设备及可读存储介质 | |
CN110706703A (zh) | 一种语音唤醒方法、装置、介质和设备 | |
CN113515382A (zh) | 云资源的分配方法、装置、电子设备及程序产品 | |
CN111061564A (zh) | 服务器容量调整方法、装置及电子设备 | |
CN110634468A (zh) | 语音唤醒方法、装置、设备及计算机可读存储介质 | |
CN112433813A (zh) | 一种资源调度方法、系统、设备及计算机可读存储介质 | |
CN112954707A (zh) | 基站的节能方法、装置、基站和计算机可读存储介质 | |
CN112102011A (zh) | 基于人工智能的用户等级预测方法、装置、终端及介质 | |
CN113240430A (zh) | 移动支付验证方法及装置 | |
CN112489663A (zh) | 一种语音唤醒方法、装置、介质和设备 | |
CN117154844A (zh) | 储能系统的能源供应控制方法及装置 | |
CN113470679B (zh) | 基于无监督学习的语音唤醒方法、装置、电子设备及介质 | |
CN115002126A (zh) | 一种基于边缘服务器集群的服务调度方法及装置 | |
CN110706691B (zh) | 语音验证方法及装置、电子设备和计算机可读存储介质 | |
CN104516472A (zh) | 处理器和数据处理方法 | |
CN105205723A (zh) | 一种基于社交应用的建模方法及装置 | |
US11556685B1 (en) | Time-based power analysis | |
CN108537415A (zh) | 一种在线式安全用电的配电方法、装置及系统 | |
CN112654077B (zh) | 节能方法及装置、计算机可存储介质 | |
CN112668788A (zh) | 基于深度学习的用户评分模型训练方法及相关设备 | |
CN113289346A (zh) | 任务模型训练方法、装置、电子设备及存储介质 | |
CN111340648A (zh) | 一种基于物联网的能源管控方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |