CN115171690A - 语音识别设备的控制方法、装置、设备及存储介质 - Google Patents
语音识别设备的控制方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115171690A CN115171690A CN202210784503.7A CN202210784503A CN115171690A CN 115171690 A CN115171690 A CN 115171690A CN 202210784503 A CN202210784503 A CN 202210784503A CN 115171690 A CN115171690 A CN 115171690A
- Authority
- CN
- China
- Prior art keywords
- voice
- detection mode
- target
- function
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 515
- 230000006870 function Effects 0.000 claims abstract description 316
- 230000000694 effects Effects 0.000 claims description 68
- 230000008451 emotion Effects 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 24
- 238000012544 monitoring process Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008909 emotion recognition Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000000586 desensitisation Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0209—Power saving arrangements in terminal devices
- H04W52/0225—Power saving arrangements in terminal devices using monitoring of external events, e.g. the presence of a signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本申请实施例公开了一种语音识别设备的控制方法、装置、设备及存储介质,其中,该方法包括:识别外部设备的运行状态;若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;将当前语音检测模式切换至目标语音检测模式。语音识别设备在不同语音检测模式下开启的语音检测功能不同。通过自动切换语音识别设备的语音检测模式,从而实现对语音识别设备中的语音检测功能进行自适应开启,能够节省语音识别设备的功耗。
Description
技术领域
本申请涉及语音识别及语音控制技术领域,具体涉及一种语音识别设备的控制方法、装置、设备及存储介质。
背景技术
语音识别设备通常具有语音活动检测和关键词检测等语音检测功能,利用这些语音检测功能,语音识别设备能够为用户提供与外部设备进行语音交流的语音识别服务。然而,语音识别设备在工作时的功耗较高。
发明内容
本申请实施例提供一种语音识别设备的控制方法、装置、设备及存储介质,能够降低语音识别设备的功耗。
第一方面,本申请实施例提供一种语音识别设备的控制方法,包括:
识别外部设备的运行状态;
若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;
若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;
将当前语音检测模式切换至目标语音检测模式;
其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同。
第二方面,本申请实施例还提供一种语音识别设备的控制装置,包括:
状态检测模块,用于识别外部设备的运行状态;
数据处理模块,用于若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;以及
用于若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;
模式控制模块,用于将当前语音检测模式切换至目标语音检测模式;
其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同。
第三方面,本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本申请任一实施例提供的语音识别设备的控制方法。
第四方面,本申请实施例还提供一种语音识别设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本申请任一实施例提供的语音识别设备的控制方法。
本申请实施例提供的技术方案,通过识别外部设备的运行状态,并当外部设备处于运行状态时,确定外部设备的语音识别需求,以根据语音识别需求确定语音识别设备的目标语音检测模式。或者,当外部设备处于休眠状态时,确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式。最后,将当前语音检测模式切换至目标语音检测模式,其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同。通过开启部分语音检测功能能够减小语音识别设备在运行时的功耗,且能够根据外部设备的运行状态进行自适应的语音检测模式切换,更便于用户使用。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的语音识别设备的控制方法的应用场景示意图。
图2为本申请实施例提供的语音识别设备的控制方法的流程图示意图。
图3为本申请实施例提供的语音识别需求与语音检测模式的对应关系的示意图。
图4为本申请实施例提供的已开启的语音检测功能与语音检测模式的对应关系的示意图。
图5为本申请实施例提供的语音识别设备的控制装置的结构示意图。
图6为本申请实施例提供的语音识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请的保护范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为更好地理解本申请实施例提供的控制方法,此处提供一个应用场景进行举例说明。如图1所示,图1为本申请实施例提供的一种语音识别设备的控制方法的应用场景示意图,在图1中,将左侧的耳机比作语音识别设备,其中,耳机具有的语音检测功能包括语音活动检测功能、关键词检测功能和/或声纹识别功能。将右侧的手机比作外部设备,其中,手机具有的功能包括语音处理功能和/或语音识别功能,手机的运行状态分为工作状态和休眠状态。当手机处于工作状态时,确定手机的语音识别需求,并根据该语音识别需求确定目标语音检测模式。当手机处于休眠状态时,确定语音识别设备当前已开启的语音检测功能,并根据该已开启的语音检测功能确定语音识别设备的目标语音检测模式。之后,将当前语音检测模式切换至目标语音检测模式,实现根据手机的运行状态切换耳机的语音检测模式,从而适应手机的语音识别需求。
需要说明的是,本申请实施例中的语音检测设备和外部设备是可以互换的,比如,本申请实施例中的控制方法也可用于控制外部设备,即将手机视为语音识别设备,将耳机视为外部设备,进而通过识别耳机的运行状态以确定手机的目标语音检测模式,进而控制手机的语音检测模式进行切换。
如上,本申请实施例提供的语音识别设备的控制方法的执行主体可以是本申请实施例提供的语音识别设备的控制装置,或者集成了该语音识别设备的控制装置的语音识别设备,其中该语音识别设备的控制装置可以采用硬件或者软件的方式实现。其中,语音识别设备可以是穿戴设备,该穿戴设备可为耳机、手表、智能眼镜、扬声器等,也可以是具有语音检测功能的终端设备,该终端设备可为智能手机、平板电脑、掌上电脑、笔记本电脑、等设备。而外部设备也可为穿戴设备或终端设备,其与语音识别设备可相同或不同,具体设定此处并不进行限制,在以下的实施例中则以图1应用场景中所示的耳机和手机为例对本申请方案进行阐述。
请参阅图2,图2为本申请实施例提供的语音识别设备的控制方法的流程示意图。本申请实施例提供的语音识别设备的控制方法的具体流程可以如下:
101、识别外部设备的运行状态。
示例性地,外部设备的运行状态侧重于描述外部设备的语音或音频相关功能的开启情况,其中,运行状态包括工作状态和休眠状态,工作状态描述的是外部设备和语音识别设备之间的通信开启,休眠状态描述的是外部设备和语音识别设备之间的通信断开。通过识别外部设备与语音识别设备的连接情况,即可判断外部设备的运行状态。比如,判断耳机与手机是否连接,若未连接,则说明手机处于休眠状态,若已连接,则说明手机处于工作状态。
其中,耳机和手机的之间的连接可为蓝牙连接、WIFI(无线通信技术)连接、有线连接、NFC(Near Field Communication,近场通信)连接等方式,具体可视用户使用需求而定。
而识别外部设备的运行状态的时机可为检测外部设备的运行状态是否切换,或者每隔预设时长检测外部设备当前的运行状态,或者持续检测外部设备的运行状态,具体方式可视实际情况选择。
若外部设备处于工作状态,则执行步骤102:
确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式。
当外部设备处于工作状态时,可通过判断外部设备中使用的与语音识别设备有关的应用或系统功能中的一项或多项功能是否开启,进而根据已开启的应用或系统功能确定外部设备的语音识别需求。
作为一种实施例,可通过判断语音识别设备中是否接收到与外部设备的某些应用或系统功能相关的用户语音,若是,则根据接收到的用户语音识别外部设备已开启的应用或系统功能。比如,判断耳机接收到的用户语音中是否存在“播放QQ音乐”、“微信文字输入”、“开启腾讯视频”、“解锁”等之类的关键词,若是,则将此类如QQ音乐、微信、腾讯视频、淘宝等之类的应用视为手机中已开启的应用,而该类已开启的应用所使用的语音功能还可视具体的语音话术而定。
作为另一种实施例,还可通过判断语音识别设备将音频数据传输至外部设备的哪个应用,进而将接收该音频数据的应用视为已开启的应用。比如,若耳机将接收到的用户语音转换为音频数据后,再将该音频数据传输至手机中的QQ音乐,则可判定手机当前开启的应用为QQ音乐。
当然地,上述两种确定外部设备已开启的应用或系统功能的方式可以结合实施,比如,先判断语音识别设备中的音频数据传输至外部设备的哪个应用,再识别语音识别设备接收到的音频数据中包含的该应用的具体的功能。
示例性地,当判断出外部设备已开启的应用/系统功能之后,即可根据已开启的应用/系统功能确定语音识别需求,其中,应用/系统功能指示语音识别需求。比如,当开启的应用为微信,微信与使用耳机相关的功能为文字输入、语音控制、视频通话、语音通话、语音留言、播放语音等,若开启微信文字输入功能,则说明手机的语音识别需求为将从耳机接收的音频数据转换为文字填入微信输入框中;若开启微信视频通话功能,则说明手机的语音识别需求为将从耳机接收到的音频数据传输至微信视频通话端;若开启微信语音留言功能,则说明手机的语音识别需求为将从耳机接收到的语音数据进行录音,并便于将该语音数据发送至微信聊天框;若开启微信播放语音功能,则说明手机的语音识别需求为语音输出。
在本实施例中,预先对语音识别设备设置了每一语音识别需求对应的目标语音检测模式。在确定语音识别设备的语音识别需求之后,即可根据预先设置的对应关系,确定与该语音识别需求对应的目标语音检测模式。比如,当语音识别需求如上述示例中的将音频数据转换为文字,即需要持续进行语音识别,则将第一语音检测模式确定为目标语音检测模式。再比如,当语音识别需求如上述示例中的对接收到的语音数据进行录音,即持续进行语音采集,则将第二语音检测模式确定为目标语音检测模式。
而语音识别设备在不同的语音检测模式下所开启的语音检测功能是不同的,其中,语音检测功能包括语音活动检测功能、关键词检测功能和/或声纹识别功能。语音活动检测功能用于检测空间环境中是否存在声音,关键词检测功能用于识别语音数据中的关键词,声纹识别功能用于识别语音数据中的声纹特征。
需要说明的是,本申请实施例提供的语音识别设备中可设置声纹识别功能也可不设置声纹识别功能。开启的语音检测功能不同指示的是不同语音检测模式下开启的如上语音活动检测功能、关键词检测功能和/或声纹识别功能中的一种或多种的组合不同,或者开启顺序不同。
若外部设备处于休眠状态,则执行步骤103:
确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式。
当外部设备处于休眠状态时,可检测当前已开启的语音检测功能,进而根据当前已开启的语音检测功能确定对应的目标语音检测模式。其中,预先对语音识别设备设置了已开启的语音检测功能与语音检测模式之间的对应关系。在确定语音识别设备当前已开启的语音检测功能之后,即可根据预先设置的对应关系,确定与该当前已开启的语音检测功能对应的目标语音检测模式。比如,当前已开启的语音检测功能为语音活动检测功能和关键词检测功能,则可将第四语音检测模式确定为目标语音检测模式,其中,第四语音检测模式下的声纹识别功能、语音活动检测功能和关键词检测功能均处于开启状态,也即在当前已开启的语音检测功能的基础上再开启声纹识别功能。
104、将当前语音检测模式切换至目标语音检测模式。
当通过上述步骤102或步骤103确定出目标语音检测模式之后,即可将当前语音检测模式切换至目标语音检测模式。具体地,可将当前语音检测模式中已开启的语音检测功能与目标语音检测模式中需开启的语音检测功能进行比对,对于当前语音检测模式中已开启的语音检测功能中与目标语音检测模式下需开启的语音检测功能中具有相同功能的保持不变,对于当前语音检测模式中已开启的语音检测功能中与目标语音检测模式下需开启的语音检测功能中不同的功能进行关闭。此处进行举例说明,比如,当前语音检测模式下已开启的语音检测功能包括语音活动检测功能和关键词检测功能,而目标语音检测模式下需开启的语音检测功能包括关键词检测功能,则可将语音活动检测功能关闭,而关键词检测功能的状态保持不变,即不对关键词检测功能做任何处理。
具体实施时,本申请不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
由上可知,本申请实施例提供的语音识别设备的控制方法,通过识别外部设备的运行状态,并根据运行状态采用不同的方式确定语音识别设备的目标语音检测模式,之后将当前语音检测模式切换至目标语音检测模式。其中,当外部设备处于工作状态时,通过识别外部设备的语音识别需求,并根据语音识别需求确定目标语音检测模式,此种方式能够根据外部设备的语音识别需求控制语音检测模式的切换,从而使得语音识别设备所开启的部分语音检测功能与外部设备的语音识别需求相适应,提高外部设备对语音数据的处理能力,另一方面,对于语音识别设备而言,通过开启部分语音检测功能以及关闭部分语音检测功能以适应外部设备的语音识别需求,能够降低语音识别设备中的所有语音检测功能均处于常开状态所带来的功耗。当外部设备处于休眠状态时,还可通过检测语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式,此种方式能够使得在需要开启某些语音检测功能时才进行开启操作,避免了现有技术中需要保持语音检测功能的常开状态,从而节省了语音识别设备的能耗。
根据前面实施例所描述的方法,以下将举例作进一步详细说明。
在一些实施例中,语音检测功能包括语音活动检测功能、关键词检测功能以及声纹识别功能。根据语音识别需求确定语音识别设备的目标语音检测模式,包括:
其中,可通过预先设置的语音识别需求与语音检测模式的对应关系,匹配当前语音识别需求对应的目标语音检测模式,若能够匹配到,则将匹配到的语音检测模式设定为目标语音检测模式,若不能匹配到,则不对当前语音检测模式进行切换。
如下,不同的语音识别需求对应的语音检测模式是不同的,在以下实施例中则以三种语音识别需求为例对本申请实施例提供的方案进行阐述,即以需要持续进行语音识别、需要持续进行语音采集、需要持续进行语音控制为例,当然地,还可设置更多的语音识别需求,比如为需要持续进行语音活动检测、需要持续进行关键词检测等,而此类语音识别需求可参照以下实施提供的方式进行语音检测功能的组合,进而实现不同的语音识别需求。可以理解地,凡是基于语音识别需求设定的语音检测模式均属于本申请所要求的保护范围。
请参阅图3,图3为本申请实施例提供的语音识别需求与语音检测模式的对应关系的示意图。作为一种实施例,若语音识别需求描述外部设备需要持续进行语音识别,则确定第一语音检测模式为目标语音检测模式,第一语音检测模式下语音活动检测功能和声纹识别功能均处于开启状态,关键词检测功能处于休眠状态。
其中,若检测到外部设备开启了某项关于语音识别的功能,即可确定外部设备的语音识别需求为需要持续进行语音识别,比如外部设备开启了语音转文本功能、或者开启了输入法,这些均可用于描述外部设备的语音识别需求为需要持续进行语音识别。在此种情况下,将第一语音检测模式作为目标语音检测模式。
在第一语音检测模式下,语音识别设备的语音活动检测功能和声纹识别功能是处于开启状态的,因需要持续进行语音识别则可不必开启关键词检测功能,以此通过关闭关键词检测功能实现降低语音识别设备的功耗。
再则,还通过同时开启语音活动检测功能和声纹识别功能,其中,语音活动检测功能用于采集用户语音,而声纹识别功能用于对用户语音进行声纹识别,以当用户声纹验证通过之后,才将用户语音传输至外部设备进行语音识别,此种通过验证声纹的方式能够提高进行语音识别的安全性,即仅使得声纹验证通过的用户语音传输至外部设备进行语音识别。
继续参阅图3,作为另一种实施例,若语音识别需求描述外部设备需要持续进行语音采集,则确定第二语音检测模式为目标语音检测模式,第二语音检测模式下声纹识别功能处于休眠状态,语音活动检测功能和关键词检测功能均处于开启状态。
其中,若外部设备启用了某项关于语音采集的功能,即可确定外部设备的语音识别需求为需要持续进行语音采集,其中,外部设备需要持续进行语音采集指的是通过语音识别设备采集用户语音,并传输至外部设备。比如,外部设备开启了通话功能或视频功能,进而可实现通过打电话、网络视频、网络通话等方式进行持续的语音采集。在此种情况下,将第二语音检测模式确定为目标语音检测模式。
在第二语音检测模式下,语音识别设备的语音活动检测功能和关键词检测功能是处于开启状态的,而声纹识别功能是处于休眠状态的,因需要持续进行语音采集则可不必开启声纹识别功能,以此通过关闭声纹识别功能实现降低语音识别设备的功耗。
再则,在需要持续进行语音采集的场景下,通过开启语音活动检测功能能够采集用户语音,而开启关键词检测功能能够从用户语音中检测出关键词,以根据关键词形成控制指令,以此控制外部设备的某些功能开启或关闭。或者,还可将检测出的关键词发送至外部设备,使得外部设备识别出关键词执行控制指令。
此处进行举例说明,比如,需要持续进行语音采集的场景为通话场景,通过开启的语音活动检测功能能够持续采集用户语音,而当用户通话完成后可通过说出“关闭语音通话”“退出通话”“挂断”等关键词,进而通过开启的关键词检测功能识别出关键词以控制外部设备结束通话,此种方式避免了需要用户去手动开启或关闭外部设备的某些功能,且当用户距离外部设备较远时,可通过开启关键词检测功能实现远程语音控制外部设备,方便用户使用。
继续参阅图3,作为再一种实施例,若语音识别需求描述外部设备需要持续进行语音控制,则确定第三语音检测模式为目标语音检测模式,第三语音检测模式下关键词检测功能处于开启状态,语音活动检测功能和声纹识别功能均处于休眠状态。
其中,若检测到用户语音中持续出现具有唤醒词的控制指令,则说明外部设备的语音识别需求为需要持续进行语音控制。比如,外部设备打开了某一网页,而用户说出“小欧小欧搜索优酷视频”,搜索之后用户继续说出“小欧小欧打开优酷视频”而当打开优酷视频后,用户还继续说出“小欧小欧搜索电视机庆余年”,其中,用户语音中的唤醒词即为“小欧小欧”。当判断用户多次说出唤醒词后,即可判定语音识别需求为需要持续进行语音控制。在此种情况下,将第三语音检测模式作为目标语音检测模式。
在第三语音检测模式下,语音识别设备的关键词检测功能处于开启状态,而语音活动检测功能和声纹识别功能处于休眠状态。其中,因需要持续从用户语音中识别出关键词以对外部设备进行语音控制,故而可不必开启语音活动检测功能和声纹识别功能,以此通过关闭语音活动检测功能和声纹识别功能实现降低语音识别设备的功耗。
再则,仅开启关键词检测功能还能够保证将用户语音中的关键词转换为控制指令,以控制外部设备的某些功能的开启或关闭,或者控制外部设备搜索关键词。其中,对于将关键词转换为控制指令可通过语音识别设备实施,也可通过外部设备实施,具体可视实际情况而定,此处并不进行限定。
基于上述根据语音识别需求确定目标语音检测模式的实施例,在一些实施例中,将当前语音检测模式切换至目标语音检测模式之后,还包括:
将在目标语音检测模式下通过检测的语音数据传输至外部设备。
其中,目标语音检测模式指的是上述实施例中的第一语音检测模式、第二语音检测模式和第三语音检测模式,而不同语音检测模式下所启用的语音检测功能是不同的。
比如,第一语音检测模式下是将通过语音活动检测功能采集的用户语音再通过声纹识别功能进行声纹验证,当用户语音指示的声纹与预设声纹匹配时,则将该用户语音传输至外部设备,当声纹与预设声纹不匹配时,则不会将该用户语音传输至外部设备。
第二语音检测模式下是通过语音活动检测功能采集用户语音,并通过关键词检测功能识别用户语音中的关键词,一方面,通过语音活动检测功能可将采集的用户语音传输至外部设备,另一方面可通过关键词检测功能识别用户语音中的关键词,以将关键词传输至外部设备,或将关键词转换为控制指令之后再传输至外部设备。
第三语音检测模式下是通过关键词检测功能检测用户说出的关键词,继而将关键词传输至外部设备,或者将关键词转换为控制指令之后再传输至外部设备。
如上的三种语音检测模式可描述将通过检测的语音数据传输至外部设备,其中,通过检测的语音数据以语音内容、音频信号、关键词、控制指令等方式传输至外部设备,而不同的语音数据可指示外部设备执行不同的操作。比如,当以音频信号传输时,外部设备可将接收到的音频信号进行转发,当以语音内容传输时,外部设备可对接收到的语音内容进行语音识别处理,当以关键词传输时,外部设备可将关键词转换为控制指令,并执行该控制指令;当以控制指令传输时,外部设备可直接执行该控制指令。
在一些实施例中,语音检测功能包括语音活动检测功能、关键词检测功能以及声纹识别功能。根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式,包括:
其中,可通过预先设置的已启用的语音检测功能与语音检测模式之间的对应关系,匹配当前已启用的语音检测功能对应的目标语音检测模式,若能够匹配到,则将匹配到的语音检测模式设定为目标语音检测模式,若匹配不到,则不对当前语音检测模式进行切换。
如下,若已启用的语音检测功能不同,则对应的语音检测模式是不同的,在以下实施例中则以三种已启用的语音检测功能为例对本申请实施例提供的方案进行阐述,即以已开启语音活动检测功能和关键词检测功能,或已开启语音活动检测功能,或已开启关键词检测功能为例,当然地,还可设置更多的已开启的语音检测功能,比如为开启声纹识别功能和语音活动检测功能;开启语音活动检测功能、关键词唤醒功能和声纹识别功能;开启声纹识别功能;开启关键词检测功能和声纹识别功能等,而此类不同的已开启的语音检测功能可参照以下实施例提供的方式进行语音检测功能的组合,以实现语音检测模式的切换。可以理解地,凡是基于已开启的语音检测功能设定语音检测模式的方式均属于本申请所要求的保护范围。
请参阅图4,图4为本申请实施例提供的已开启的语音检测功能与语音检测模式的对应关系的示意图。作为一种实施例,若语音活动检测功能和关键词检测功能处于开启状态,则确定第四语音检测模式为目标语音检测模式,第四语音检测模式下声纹识别功能、语音活动检测功能和关键词检测功能均处于开启状态。
其中,在外部设备处于休眠状态下,若语音识别设备中的语音活动检测功能和关键词检测功能处于开启状态,则控制声纹识别功能开启,即将当前语音检测模式切换至目标语音检测模式时,再开启的是声纹识别功能。
在第四语音检测模式下通过开启语音活动检测功能、关键词检测功能和声纹识别功能能够对用户声纹进行验证。其中,声纹识别功能能够对语音数据进行声纹识别,并将识别出的声纹与预设声纹进行匹配,若匹配成功,则通过唤醒外部设备,以将通过语音活动检测功能采集的语音数据传输至外部设备,或者将通过关键词检测功能检测出的关键词传输至外部设备。可以理解地,可当通过语音活动检测功能检测到用户语音时再唤醒声纹识别功能,可以等通过关键词唤醒功能检测到唤醒词时再唤醒声纹识别功能,具体启用声纹识别功能的顺序此处并不进行限定。
继续参阅图4,作为另一种实施例,若语音活动检测功能处于开启状态,则确定第五语音检测模式为目标语音检测模式,第五语音检测模式下语音活动检测功能、关键词检测功能均处于开启状态。
其中,在外部设备处于休眠状态下,若语音识别设备中的语音活动检测功能处于开启状态,则控制关键词检测功能开启,即将当语音检测模式切换至第五语音检测模式时,再开启的是关键词检测功能。
在第五语音检测模式下通过开启语音活动检测功能和关键词检测功能,一方面能够通过语音活动检测功能采集用户语音以传输至外部设备进行语音识别,另一方面通过关键词检测功能能够检测出用户语音中的关键词以形成控制指令,以对外部设备进行语音控制。
继续参阅图4,作为再一种实施例,若关键词检测功能处于开启状态,则确定在预设时长内通过关键词检测功能检测出唤醒词的次数,若次数未达到预设阈值,则确定第五语音检测模式为目标语音检测模式。
其中,在外部设备处于休眠状态下,若语音识别设备中的关键词检测功能处于开启状态,则可通过关键词检测功能进一步识别外部设备的语音识别需求,判断语音识别需求是否为需要持续进行语音控制,若是,则将第三语音检测模式确定为目标语音检测模式,若否,则将第五语音检测模式确定为目标语音检测模式。
继续以上述示例中的唤醒词“小欧小欧”为例,若用户在预设时长内说出该唤醒词的次数达到预设阈值,则确定外部设备的语音识别需求为需要持续进行语音控制,而若用户在预设时长内说出该唤醒词的次数未达到预设阈值,则说明并不需要对外部设备进行持续的语音控制。
在本实施例中通过识别唤醒词在预设时长内出现的次数可以分析是否需要持续进行语音控制,以当需要持续进行语音控制后可仅开启关键词检测功能执行语音控制,而当不需要持续进行语音控制后可通过开启语音活动检测功能能够采集用户语音,还可通过开启关键词唤醒功能识别用户语音中的关键词。此种方式能够有效识别用户需求,避免用户在需要持续进行语音控制时需要不断说出唤醒词,提高了语音控制的有效性和便捷性。另外,在不需要持续进行语音控制时,通过开启语音活动检测功能和关键词唤醒功能还能够满足不同的语音需求,比如实现外部设备的语音识别需求或语音控制需求等。
基于上述根据已开启的语音检测功能确定目标语音检测模式的实施例,在一些实施例中,将当前语音检测模式切换至目标语音检测模式之后,还包括:
唤醒外部设备,并将在目标语音检测模式下通过检测的语音数据传输至外部设备。
关于本实施例中将在目标语音检测模式下通过检测的语音数据传输至外部设备的具体内容可参照上述实施例中提及的内容,区别在于,本实施例中的目标语音检测模式指的是第四语音检测模式和第五语音检测模式,以及在将通过检测的语音数据传输至外部设备之前还包括唤醒外部设备的步骤。
在一些实施例中,若第四语音检测模式被确定为目标语音检测模式,将在目标语音检测模式下通过检测的语音数据传输至外部设备,包括:
对在第四语音检测模式下通过检测的语音数据进行情绪识别;
若识别出的情绪为预设情绪,则将语音数据传输至外部设备;
若识别出的情绪不为预设情绪,则对语音数据进行预设处理得到目标数据,并将目标数据传输至外部设备。
在第四语音检测模式下通过开启的声纹识别功能对语音数据进行情绪识别,其中,声纹识别功能一方面可识别用户身份,另一方面可识别语音数据中的情绪倾向,比如,情绪倾向可为正面、负面和中性等,当然地,也可以别的方式进行划分。
其中,声纹识别功能用于进行身份识别或用户进行情绪识别还可根据语音识别设备中设置的安全等级而定,比如安全等级指示为最高级,则声纹识别功能既要进行身份验证也要进行情绪识别,而若安全等级指示中级,则仅进行情绪识别,另外,若安全等级指示最低级,则仅进行身份验证。具体的实施例方式可视实际需求而定。
在本实施例中,预设情绪描述的是用户一般情况下的声音表现为高兴、兴奋、平静、幸福、满意、浪漫、困惑等情绪,而不属于预设情绪描述的是用户的声音表现为害怕、恐惧、厌恶、悲伤等情绪。当用户表现出不属于预设情绪的情绪时,说明用户可能处于遭受侵害、遭受胁迫或者遭受威胁等情景。
当语音数据指示的情绪不为预设情绪时,对语音数据进行预设处理得到目标数据,并将目标输出传输至外部设备执行语音识别、语音控制等处理方式。
在本实施例中,通过识别语音数据中的用户情绪,以当用户情绪满足预设情绪时,将该语音数据传输至外部设备,而当用户情绪不满足预设情况时,对语音数据进行加工处理得到目标数据,其中,得到的目标数据中的一部分指令是能够保障外部设备的数据安全的,以此使得用户在遭受侵害、胁迫或恐吓等情况下不能通过语音控制非法获取外部设备中的用户数据,保障了用户数据的安全。
在一些实施例中,对语音数据进行预设处理得到目标数据,并将目标数据传输至外部设备可通过如下实施例实现:
作为一种实施例,对语音数据进行脱敏处理得到目标数据,并将目标数据传输至外部设备。
其中,脱敏处理即对语音数据中的敏感数据进行变形处理,以达到保护用户隐私的目的,而敏感数据比如为身份证信息、手机密码、银行卡信息、APP账号信息等。
在本实施例中,若语音数据中包含敏感数据,则可对语音数据进行脱敏处理,而若语音数据中不包含敏感数据,则可不用对语音数据进行脱敏处理。其中,对语音数据进行脱敏处理的方式可比如为将语音数据中的敏感字词屏蔽,或者将敏感字词进行替换,比如若语音数据为“查询银行卡密码”,可进行的脱敏处理可比如为将语音数据修改为“查询****”,或者可比如为将语音数据修改为“查询公交卡卡号”等。
脱敏处理后得的目标数据传输至外部设备之后,外部设备通过识别目标数据并不会造成外部设备中存储的敏感数据泄露,以此保障了用户敏感数据的安全。
作为另一种实施例,在语音数据中添加屏蔽指令得到目标数据,并将目标数据传输至外部设备,屏蔽指令用于指示外部设备对敏感数据进行屏蔽。
此种方式并未对语音数据进行变形处理,而是在传输语音数据至外部设备的过程中还添加了屏蔽指令,语音数据和屏蔽指令在外部设备中是分开处理的。其中,屏蔽指令用于屏蔽外部设备中的敏感数据。即通过屏蔽指令预先对外部设备中的敏感数据进行屏蔽,即使语音数据中包含敏感数据也无法获取外部设备中的敏感数据,此种方式能够有效防止敏感数据泄露。
作为再一种实施例,在语音数据中添加监听指令得到目标数据,并将目标数据传输至外部设备,监听指令用于指示外部设备对其运行环境或所处的外部环境进行监听。
此种方式是通过在将语音数据传输至外部设备的过程中再将监听指令也传输至外部设备,而该语音数据和监听指令在外部设备中是被分开处理的。其中,通过监听指令能够控制外部设备的麦克风开启,以实现采集外部设备所处的外部环境中的环境音,以实现对外部环境的监听。另一方面通过监听指令还能够开启对外部设备的运行环境的监听,以实现记录外部设备中应用的运行情况,以及外部设备中产生的数据或删除的数据,或者外部设备中执行的操作等。当然地,监听指令也可同时兼具录制环境音的功能和监视外部设备的运行环境的功能。
可以理解地,该监听指令还可被替换为监视指令,其中,监视指令即用于开启外部设备的摄像头,以对外部设备所处的环境进行录像。
本实施例中通过开启监听功能录制环境音或环境视频,或者监听外部设备中的数据变动情况,能够为后续的用户维权起到重要作用,或者为正在遭受侵害或胁迫的用户提供外界帮助,比如,通过录制音频或录制视频,或记录被非法获取的敏感数据,能够帮助相关人员寻找遭受侵害或胁迫的用户,或者使得相关人员帮助用户减少因敏感数据泄露而带来的损失。
在一些实施例中,确定在预设时长内通过关键词检测功能检测出唤醒词的次数之后,方法还包括:
若次数达到预设阈值,则将当前语音检测模式切换至第三语音检测模式。
在该实施例中,通过唤醒词出现的次数判断外部设备是否需要持续进行语音控制,以当需要持续进行语音控制时,以第三语音检测模式作为目标语音检测模式,即关闭语音活动检测功能。
其中,预设时长以第一次出现唤醒词的时刻作为起算时间,预设时长可为5分钟、2分钟、1分钟等,可通过用户自定义设定,也可通过外部设备当前运行的应用而定,比如,若当前运行的是微信,可设定预设时长为20秒,若当前运行的是浏览器,可设定预设时长为5分钟。
在一些实施例中,若第三语音检测模式被确定为目标语音检测模式,将当前语音检测模式切换至目标语音检测模式之后,方法还包括:
从预设时长内采集到的语音数据中,获取最后一次识别出唤醒词之后的目标语音数据;
将目标语音数据传输至外部设备。
其中,每当通过关键词检测功能从语音数据中检测到唤醒词之后,则将该语音数据存储在存储器中,当通过唤醒词的次数触发当前语音检测模式切换至第三语音检测模式之后,可从存储器中获取最近一次存储的语音数据,即存储器中最后一次识别出唤醒词之后的语音数据,将该语音数据作为目标语音数据。而若不能通过唤醒词触发当前语音检测模式切换时,则丢弃存储器中存储的语音数据。
可以理解地,目标语音数据中是不包含唤醒词的,最后一次出现的唤醒词是用于触发将目标语音数据传输至外部设备的。
当获取到目标语音数据之后,即可将目标语音数据传输至外部设备,以通过目标语音数据对外部设备进行连续的语音控制。
示例性地,还可设置存储器的容量,以使得存储器中存储的语音数据按照时间顺序动态地增减,从而避免占用过多内存而影响语音识别设备的运行。
如上,本申请还可对语音识别设备设置默认语音检测模式,即为仅开启语音活动检测功能,或仅开启语音活动检测功能和关键词检测功能。而当通过如上任意种条件触发语音检测模式切换至目标语音检测模式之后,还可在长时间内未通过语音活动检测功能检测到用户语音时控制其恢复默认语音检测模式。
由上可知,本发明实施例提出的语音识别设备的控制方法,通过识别外部设备的运行状态,当外部设备处于工作状态时,通过识别外部设备的语音识别需求,并根据语音识别需求关闭部分语音检测功能,能够降低语音识别设备中的所有语音检测功能均处于常开状态所带来的功耗。当外部设备处于休眠状态时,根据当前已开启的语音检测功能确定需要开启的另外的语音检测功能,以满足语音检测需求。其中,声纹识别功能一方面能够实现身份验证,另一方面能够实现情绪识别,以提高对语音数据的安全性要求,再者,通过识别情绪还能够识别用户是否处于受侵害、受胁迫等情景,并在此种情景下对外部设备中的敏感数据进行屏蔽或开启监听,能够防止敏感数据泄露或能够减小用户的损失。另外,仅将在目标语音检测模式下通过检测的语音数据传输至外部设备,能够提高通过语音与外部设备进行交互的有效性。
在一实施例中还提供一种语音识别设备的控制装置200。请参阅图5,图5为本申请实施例提供的语音识别设备的控制装置200的结构示意图。其中该语音识别设备的控制装置200应用于语音识别设备,该语音识别设备的控制装置200包括:
状态检测模块201,用于识别外部设备的运行状态;
数据处理模块202,用于若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;以及
用于若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;
模式控制模块204,用于将当前语音检测模式切换至目标语音检测模式;
其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同。
在一些实施例中,语音检测功能包括语音活动检测功能、关键词检测功能以及声纹识别功能,若外部设备处于工作状态,数据处理模块202用于:
若语音识别需求描述外部设备需要持续进行语音识别,则确定第一语音检测模式为目标语音检测模式,第一语音检测模式下语音活动检测功能和声纹识别功能均处于开启状态,关键词检测功能处于休眠状态;
若语音识别需求描述外部设备需要持续进行语音采集,则确定第二语音检测模式为目标语音检测模式,第二语音检测模式下声纹识别功能处于休眠状态,语音活动检测功能和关键词检测功能均处于开启状态;
若语音识别需求描述外部设备需要持续进行语音控制,则确定第三语音检测模式为目标语音检测模式,第三语音检测模式下关键词检测功能处于开启状态,语音活动检测功能和声纹识别功能均处于休眠状态。
在一些实施例中,语音识别设备的控制装置200还包括音频接口模块205,将当前语音检测模式切换至目标语音检测模式之后,音频接口模块205用于:
将在目标语音检测模式下通过检测的语音数据传输至外部设备。
在一些实施例中,若外部设备处于休眠状态,数据处理模块202还用于:
若语音活动检测功能和关键词检测功能处于开启状态,则确定第四语音检测模式为目标语音检测模式,第四语音检测模式下声纹识别功能、语音活动检测功能和关键词检测功能均处于开启状态;
若语音活动检测功能处于开启状态,则确定第五语音检测模式为目标语音检测模式,第五语音检测模式下语音活动检测功能、关键词检测功能均处于开启状态;
若关键词检测功能处于开启状态,则确定在预设时长内通过关键词检测功能检测出唤醒词的次数,若次数未达到预设阈值,则确定第五语音检测模式为目标语音检测模式。
在一些实施例中,将当前语音检测模式切换至目标语音检测模式之后,音频接口模块205还用于:
唤醒外部设备,并将在目标语音检测模式下通过检测的语音数据传输至外部设备。
在一些实施例中,语音识别设备的控制装置200还包括声纹识别模块203,若第四语音检测模式被确定为目标语音检测模式,声纹识别模块203用于:
对在第四语音检测模式下通过检测的语音数据进行情绪识别;
音频接口模块205还用于:
若识别出的情绪为预设情绪,则将语音数据传输至外部设备;
若识别出的情绪不为预设情绪,则对语音数据进行预设处理得到目标数据,并将目标数据传输至外部设备。
在一些实施例中,音频接口模块205还用于:
对语音数据进行脱敏处理得到目标数据,并将目标数据传输至外部设备;或者,
在语音数据中添加屏蔽指令得到目标数据,并将目标数据传输至外部设备,屏蔽指令用于指示外部设备对敏感数据进行屏蔽;或者,
在语音数据中添加监听指令得到目标数据,并将目标数据传输至外部设备,监听指令用于指示外部设备对其所处的外界环境或者对其运行环境进行监听。
在一些实施例中,确定在预设时长内通过关键词检测功能检测出唤醒词的次数之后,模式控制模块204还用于:
若次数达到预设阈值,则将当前语音检测模式切换至第三语音检测模式。
在一些实施例中,若第三语音检测模式被确定为目标语音检测模式,将当前语音检测模式切换至目标语音检测模式之后,音频接口模块205还用于:
从预设时长内采集到的语音数据中,获取最后一次识别出唤醒词之后的目标语音数据;
将目标语音数据传输至外部设备。
应当说明的是,本申请实施例提供的语音识别设备的控制装置200与上文实施例中的语音识别设备的控制方法属于同一构思,通过该语音识别设备的控制装置200可以实现语音识别设备的控制方法实施例中提供的任一方法,其具体实现过程详见语音识别设备的控制方法实施例,此处不再赘述。
由上可知,本申请实施例提出的语音识别设备的控制装置200,通过识别外部设备的运行状态,当外部设备处于工作状态时,通过识别外部设备的语音识别需求,并根据语音识别需求关闭部分语音检测功能,能够降低语音识别设备中的所有语音检测功能均处于常开状态所带来的功耗。当外部设备处于休眠状态时,根据当前已开启的语音检测功能确定需要开启的另外的语音检测功能,以满足语音检测需求。其中,声纹识别功能一方面能够实现身份验证,另一方面能够实现情绪识别,以提高对语音数据的安全性要求,再者,通过识别情绪还能够识别用户是否处于受侵害、受胁迫等情景,并在此种情景下对外部设备中的敏感数据进行屏蔽或开启监听,能够防止敏感数据泄露或能够减小用户的损失。另外,仅将在目标语音检测模式下通过检测的语音数据传输至外部设备,能够提高通过语音与外部设备进行交互的有效性。
本申请实施例还提供一种语音识别设备,该语音识别设备可以是穿戴设备,该穿戴设备可为耳机、手表、智能眼镜、扬声器等,也可以是具有语音检测功能的终端设备,该终端设备可为智能手机、平板电脑、掌上电脑、笔记本电脑、等设备。如图6所示,图6为本申请实施例提供的语音识别设备的结构示意图。该语音识别设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的语音识别设备结构并不构成对语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
处理器301是语音识别设备300的控制中心,利用各种接口和线路连接整个语音识别设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行语音识别设备300的各种功能和处理数据,从而对语音识别设备300进行整体监控。
在本申请实施例中,语音识别设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存储器302中的应用程序,从而实现各种功能:
识别外部设备的运行状态;
若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;
若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;
将当前语音检测模式切换至目标语音检测模式;
其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
可选的,如图6所示,语音识别设备300还包括:语音活动检测单元303、关键词检测单元304、声纹识别单元305、射频电路306、音频接口307以及电源308。其中,处理器301分别与语音活动检测单元303、关键词检测单元304、声纹识别单元305、射频电路306、音频接口307以及电源308电性连接。本领域技术人员可以理解,图6中示出的语音识别设备结构并不构成对语音识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
语音活动检测单元303用于执行语音活动检测功能。
关键词检测单元304用于执行关键词检测功能。
声纹识别单元305用于执行声纹识别功能。
射频电路306可用于收发射频信号,以通过无线通信与网络设备或其他语音识别设备建立无线通讯,与网络设备或其他语音识别设备之间收发信号。
音频接口307可以用于通过扬声器、传声器提供用户与语音识别设备之间的音频接口。音频接口307可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频接口307接收后转换为音频数据,再将音频数据输出处理器301处理后,经射频电路306以发送给比如另一语音识别设备,或者将音频数据输出至存储器302以便进一步处理。若语音识别设备为终端,音频接口307还可能包括耳塞插孔,以提供外设耳机与语音识别设备的通信。
电源308用于给语音识别设备300的各个部件供电。可选的,电源308可以通过电源管理系统与处理器301逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源308还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管图6中未示出,语音识别设备300还可以包括WIFI模块、蓝牙模块等,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
由上可知,本实施例提供的语音识别设备,通过识别外部设备的运行状态,当外部设备处于工作状态时,通过识别外部设备的语音识别需求,并根据语音识别需求关闭部分语音检测功能,能够降低语音识别设备中的所有语音检测功能均处于常开状态所带来的功耗。当外部设备处于休眠状态时,根据当前已开启的语音检测功能确定需要开启的另外的语音检测功能,以满足语音检测需求。其中,声纹识别功能一方面能够实现身份验证,另一方面能够实现情绪识别,以提高对语音数据的安全性要求,再者,通过识别情绪还能够识别用户是否处于受侵害、受胁迫等情景,并在此种情景下对外部设备中的敏感数据进行屏蔽或开启监听,能够防止敏感数据泄露或能够减小用户的损失。另外,仅将在目标语音检测模式下通过检测的语音数据传输至外部设备,能够提高通过语音与外部设备进行交互的有效性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种语音识别设备的控制方法中的步骤。例如,该计算机程序可以执行如下步骤:
识别外部设备的运行状态;
若外部设备处于工作状态,则确定外部设备的语音识别需求,并根据语音识别需求确定语音识别设备的目标语音检测模式;
若外部设备处于休眠状态,则确定语音识别设备当前已开启的语音检测功能,并根据当前已开启的语音检测功能确定语音识别设备的目标语音检测模式;
将当前语音检测模式切换至目标语音检测模式;
其中,语音识别设备在不同语音检测模式下开启的语音检测功能不同
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种语音识别设备的控制方法中的步骤,因此,可以实现本申请实施例所提供的任一种语音识别设备的控制方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种语音识别设备的控制方法、装置、介质及语音识别设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种语音识别设备的控制方法,其特征在于,包括:
识别外部设备的运行状态;
若所述外部设备处于工作状态,则确定所述外部设备的语音识别需求,并根据所述语音识别需求确定所述语音识别设备的目标语音检测模式;
若所述外部设备处于休眠状态,则确定所述语音识别设备当前已开启的语音检测功能,并根据所述当前已开启的语音检测功能确定所述语音识别设备的目标语音检测模式;
将当前语音检测模式切换至所述目标语音检测模式;
其中,所述语音识别设备在不同语音检测模式下开启的语音检测功能不同。
2.根据权利要求1所述的方法,其特征在于,所述语音检测功能包括语音活动检测功能、关键词检测功能以及声纹识别功能,所述根据所述语音识别需求确定所述语音识别设备的目标语音检测模式,包括:
若所述语音识别需求描述所述外部设备需要持续进行语音识别,则确定第一语音检测模式为所述目标语音检测模式,所述第一语音检测模式下所述语音活动检测功能和所述声纹识别功能均处于开启状态,所述关键词检测功能处于休眠状态;
若所述语音识别需求描述所述外部设备需要持续进行语音采集,则确定第二语音检测模式为所述目标语音检测模式,所述第二语音检测模式下所述声纹识别功能处于休眠状态,所述语音活动检测功能和所述关键词检测功能均处于开启状态;
若所述语音识别需求描述所述外部设备需要持续进行语音控制,则确定第三语音检测模式为所述目标语音检测模式,所述第三语音检测模式下所述关键词检测功能处于开启状态,所述语音活动检测功能和所述声纹识别功能均处于休眠状态。
3.根据权利要求2所述的方法,其特征在于,所述将当前语音检测模式切换至所述目标语音检测模式之后,还包括:
将在所述目标语音检测模式下通过检测的语音数据传输至所述外部设备。
4.根据权利要求1所述的方法,其特征在于,所述语音检测功能包括语音活动检测功能、关键词检测功能以及声纹识别功能,所述根据所述当前已开启的语音检测功能确定所述语音识别设备的目标语音检测模式,包括:
若语音活动检测功能和关键词检测功能处于开启状态,则确定第四语音检测模式为所述目标语音检测模式,所述第四语音检测模式下所述声纹识别功能、所述语音活动检测功能和所述关键词检测功能均处于开启状态;
若语音活动检测功能处于开启状态,则确定第五语音检测模式为所述目标语音检测模式,所述第五语音检测模式下所述语音活动检测功能、所述关键词检测功能均处于开启状态;
若关键词检测功能处于开启状态,则确定在预设时长内通过所述关键词检测功能检测出唤醒词的次数,若所述次数未达到预设阈值,则确定所述第五语音检测模式为所述目标语音检测模式。
5.根据权利要求4所述的方法,其特征在于,所述将当前语音检测模式切换至所述目标语音检测模式之后,还包括:
唤醒所述外部设备,并将在所述目标语音检测模式下通过检测的语音数据传输至所述外部设备。
6.根据权利要求5所述的方法,其特征在于,若所述第四语音检测模式被确定为所述目标语音检测模式,所述将在所述目标语音检测模式下通过检测的语音数据传输至所述外部设备,包括:
对在所述第四语音检测模式下通过检测的语音数据进行情绪识别;
若识别出的情绪为预设情绪,则将所述语音数据传输至所述外部设备;
若识别出的情绪不为预设情绪,则对所述语音数据进行预设处理得到目标数据,并将所述目标数据传输至所述外部设备。
7.根据权利要求6所述的方法,其特征在于,所述对所述语音数据进行预设处理得到目标数据,并将所述目标数据传输至所述外部设备,包括:
对所述语音数据进行脱敏处理得到目标数据,并将所述目标数据传输至所述外部设备;或者,
在所述语音数据中添加屏蔽指令得到目标数据,并将所述目标数据传输至所述外部设备,所述屏蔽指令用于指示所述外部设备对敏感数据进行屏蔽;或者,
在所述语音数据中添加监听指令得到目标数据,并将所述目标数据传输至所述外部设备,所述监听指令用于指示所述外部设备对其运行环境或所处的外界环境进行监听。
8.根据权利要求4所述的方法,其特征在于,所述确定在预设时长内通过所述关键词检测功能检测出唤醒词的次数之后,所述方法还包括:
若所述次数达到所述预设阈值,则将所述当前语音检测模式切换至所述第三语音检测模式。
9.根据权利要求4所述的方法,其特征在于,若所述第三语音检测模式被确定为目标语音检测模式,所述将当前语音检测模式切换至所述目标语音检测模式之后,所述方法还包括:
从所述预设时长内采集到的语音数据中,获取最后一次识别出所述唤醒词之后的目标语音数据;
将所述目标语音数据传输至所述外部设备。
10.一种语音识别设备的控制装置,其特征在于,包括:
状态检测模块,用于识别外部设备的运行状态;
数据处理模块,用于若所述外部设备处于工作状态,则确定所述外部设备的语音识别需求,并根据所述语音识别需求确定所述语音识别设备的目标语音检测模式;以及
用于若所述外部设备处于休眠状态,则确定所述语音识别设备当前已开启的语音检测功能,并根据所述当前已开启的语音检测功能确定所述语音识别设备的目标语音检测模式;
模式控制模块,用于将当前语音检测模式切换至所述目标语音检测模式;
其中,所述语音识别设备在不同语音检测模式下开启的语音检测功能不同。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至9任一项所述的语音识别设备的控制方法。
12.一种语音识别设备,包括处理器和存储器,所述存储器存储有计算机程序,其特征在于,所述处理器通过调用所述计算机程序,用于执行如权利要求1至9任一项所述的语音识别设备的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210784503.7A CN115171690A (zh) | 2022-06-28 | 2022-06-28 | 语音识别设备的控制方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210784503.7A CN115171690A (zh) | 2022-06-28 | 2022-06-28 | 语音识别设备的控制方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115171690A true CN115171690A (zh) | 2022-10-11 |
Family
ID=83490268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210784503.7A Pending CN115171690A (zh) | 2022-06-28 | 2022-06-28 | 语音识别设备的控制方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171690A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240964A (zh) * | 2023-11-16 | 2023-12-15 | 福建博士通信息股份有限公司 | 一种通话过程中的语音识别方法 |
-
2022
- 2022-06-28 CN CN202210784503.7A patent/CN115171690A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117240964A (zh) * | 2023-11-16 | 2023-12-15 | 福建博士通信息股份有限公司 | 一种通话过程中的语音识别方法 |
CN117240964B (zh) * | 2023-11-16 | 2024-02-27 | 福建博士通信息股份有限公司 | 一种通话过程中的语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11630636B2 (en) | Changing companion communication device behavior based on status of wearable device | |
CN106463112B (zh) | 语音识别方法、语音唤醒装置、语音识别装置及终端 | |
KR20200027554A (ko) | 음성 인식 방법 및 장치, 그리고 저장 매체 | |
CN109688269B (zh) | 语音指令的过滤方法和装置 | |
CN107147792B (zh) | 一种自动配置音效的方法、装置、移动终端及存储装置 | |
CN107564523B (zh) | 一种耳机接听方法、装置以及耳机 | |
CN107919138B (zh) | 一种语音中的情绪处理方法及移动终端 | |
US20190147890A1 (en) | Audio peripheral device | |
CN109101517B (zh) | 信息处理方法、信息处理设备以及介质 | |
CN105848037A (zh) | 头戴式耳机及控制终端设备的方法 | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
CN110175016A (zh) | 启动语音助理的方法及具有语音助理的电子装置 | |
CN109151637A (zh) | 无线耳机、用于无线耳机的智能语音控制系统及方法 | |
CN109712623A (zh) | 语音控制方法、装置及计算机可读存储介质 | |
CN104216717A (zh) | 智能终端的控制方法和装置 | |
CN112230877A (zh) | 一种语音操作方法、装置、存储介质及电子设备 | |
CN108307271A (zh) | 一种智能设备的音量调节方法、装置及智能设备 | |
CN113571053A (zh) | 语音唤醒方法和设备 | |
CN115171690A (zh) | 语音识别设备的控制方法、装置、设备及存储介质 | |
CN115472156A (zh) | 语音控制方法、装置、存储介质及电子设备 | |
CN110853644B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN107371144B (zh) | 一种智能发送信息的方法及装置 | |
CN108668018B (zh) | 移动终端、音量控制方法及相关产品 | |
CN107295193B (zh) | 响铃控制方法、装置、存储介质及电子设备 | |
CN111128166B (zh) | 连续唤醒识别功能的优化方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |