CN109256134B

CN109256134B - 一种语音唤醒方法、存储介质及终端

Info

Publication number: CN109256134B
Application number: CN201811401047.3A
Authority: CN
Inventors: 皮碧虹
Original assignee: Shenzhen Tongxingzhe Technology Co ltd
Current assignee: Shenzhen Tongxingzhe Technology Co ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-11-02
Anticipated expiration: 2038-11-22
Also published as: CN109256134A

Abstract

本发明公开了一种语音唤醒方法、存储介质及终端，所述方法包括：步骤A、采集用户录音并进行预处理，之后将预处理后的录音数据进行计算识别，得到识别的结果与置信度；步骤B、判断置信度是否达到预设的可信度阈值，若达到则触发第一类唤醒，若结果存疑则进入步骤C，其中，所述结果存疑为置信度接近但未达到可信度阈值；步骤C、判断最近预定时间内是否有相同的存疑事件记录，当有时则触发第二类唤醒，并反馈给用户确认；步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作，若否，则自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习，提升语音识别唤醒率，降低语音识别的误唤醒率。

Description

一种语音唤醒方法、存储介质及终端

技术领域

本发明涉及语音唤醒技术领域，尤其涉及的是一种语音唤醒方法、存储介质及终端。

背景技术

目前市场上语音唤醒引擎的工作模式是录音收集用户录音，对录音进行计算分析，匹配搜索，当匹配到唤醒词达到一定置信度时，触发唤醒逻辑。当用户处于不同的状态和环境下时，无法对置信度做出调整，不能提升语音唤醒率和降低误唤醒率。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于提供一种语音唤醒方法、存储介质及终端，从而克服现有的语音唤醒技术，当用户处于不同的状态和环境下时，无法对置信度做出调整，不能提升语音唤醒率和降低误唤醒率的问题。

本发明解决技术问题所采用的技术方案如下：

一种语音唤醒方法，其中，包括：

步骤A、采集用户录音并进行预处理，之后将预处理后的录音数据进行计算识别，得到识别的结果与置信度；

步骤B、判断置信度是否达到预设的可信度阈值，若达到，则触发第一类唤醒，若结果存疑，则进入步骤C，其中，所述结果存疑为置信度接近但未达到可信度阈值；

步骤C、判断最近预定时间内是否有相同的存疑事件记录，当有时，则触发第二类唤醒，并反馈给用户确认；

步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作，若否，则自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。

所述的语音唤醒方法，其中，所述步骤D还包括步骤：若用户确认本次第二类唤醒是误唤醒操作，则维持可信度阈值不变。

所述的语音唤醒方法，其中，所述步骤D中，通过检测预定时间内是否有接收到触发取消唤醒的操作，判断用户是否确认本次第二类唤醒属于误唤醒操作。

所述的语音唤醒方法，其中，所述方法还包括：

步骤E、触发第一类唤醒后反馈给用户，判断用户是否确认本次第一类唤醒为误唤醒操作，若是，则自动提高可信度阈值，并学习保存当前的用户状态和对应的环境条件。

所述的语音唤醒方法，其中，所述步骤E还包括：

若用户确认本次第一类唤醒不是误唤醒操作，则维持可信度阈值不变。

所述的语音唤醒方法，其中，所述步骤C还包括：

当最近预定时间内没有相同的存疑事件记录时，则不触发唤醒，同时学习记录当前发生的存疑事件。

所述的语音唤醒方法，其中，所述步骤A中，预处理过程包括：增加有效信号的信噪比。

所述的语音唤醒方法，其中，所述步骤A中，采用基于语音引擎的语音识别算法对预处理后的录音数据进行计算识别。

一种存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序能够被执行以实现如上任一项所述的语音唤醒方法。

一种终端，其中，包括：处理器、与处理器通信连接的存储器，所述存储器存储有计算机程序，所述计算机程序用于被执行时实现如上任一项所述的语音唤醒方法；所述处理器用于调用所述存储器中的计算机程序，以实现如上任一项所述的语音唤醒方法。

有益效果：本发明所述语音唤醒方法，当最近预定时间内有与当前录音识别结果相同的存疑事件记录时，触发唤醒，并反馈给用户确认是否为误唤醒操作，若否时，自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习，提升语音识别唤醒率，降低语音识别的误唤醒率，增强设备在使用场景中的抗干扰能力及响应率，提升用户体验。

附图说明

图1是本发明较佳实施例的语音唤醒方法的流程图。

图2是本发明较佳实施例的语音唤醒方法具体实施的原理图。

图3是本发明较佳实施例的语音唤醒方法具体实施例的流程图。

图4是本发明所述终端的功能原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

请参见图1，图1为本发明较佳实施例的语音唤醒方法的流程图。参见图1所示，所述语音唤醒方法包括：

步骤S100、采集用户录音并进行预处理，之后将预处理后的录音数据进行计算识别，得到识别的结果与置信度；

步骤S200、判断置信度是否达到预设的可信度阈值，若达到，则触发第一类唤醒，若结果存疑，则进入步骤S300，其中，所述结果存疑为置信度接近但未达到可信度阈值；

步骤S300、判断最近预定时间内是否有相同的存疑事件记录，当有时，则触发第二类唤醒，并反馈给用户确认；

步骤S400、判断用户是否确认本次第二类唤醒为误唤醒操作，若否，则自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。

本发明所述语音唤醒方法，当最近预定时间内有与当前录音识别结果相同的存疑事件记录时，触发唤醒，并反馈给用户确认是否为误唤醒操作，若否时，自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习，提升语音识别唤醒率，降低语音识别的误唤醒率，增强设备在使用场景中的抗干扰能力及响应率，提升用户体验。

进一步地，本实施例中，所述步骤S100中，采集录音的设备包括不限于通讯设备的麦克风、麦克风阵列。具体实施时，参见图2所示，可以采用录音数据采集模块(M01)的形式，采集主叫说话的声音数据。所述预处理过程包括：增加有效信号的信噪比，具体包括但不限于噪声抑制(NS)、自动增益控制(AGC)、静音检测(VAD)、回音消除(AEC)、重采样、自适应滤波等。具体实施时，参见图2所示，可以采用录音数据处理模块(M02)的形式，预处理主叫的声音数据，对声音进行预处理操作。本发明优选采用基于语音引擎的语音识别算法，对预处理后的录音数据(声音信号)进行计算识别。所述语音引擎包括但不限于科大讯飞、云知声、思必驰、Nuance等语音唤醒技术，所述语音识别算法包括但不限于包括人工神经网络识别算法、统计模式识别算法等。具体实施时，参见图2所示，可以采用录音数据识别模块(M03)的形式，调用识别引擎技术，对录音数据进行匹配搜索，给出识别的结果与置信度。

进一步地，本实施例中，所述步骤S200中，判断置信度是否达到预设的可信度阈值，并判断结果是否存疑，所述结果存疑为置信度接近但未达到可信度阈值，也即是置信度处于接近但没有达到可信度阈值的预设区间内，本领域技术人员可以理解，此预设区间可以根据需要上下调整。

进一步地，本实施例中，所述步骤S400还包括：

步骤S420、若用户确认本次第二类唤醒是误唤醒操作，则维持可信度阈值不变。

进一步地，本实施例中，所述步骤S400中，通过检测预定时间内是否有接收到触发取消唤醒的操作，判断用户是否确认本次第二类唤醒属于误唤醒操作。

进一步地，本实施例中，所述语音唤醒方法，还包括：

步骤S500、触发第一类唤醒后反馈给用户，判断用户是否确认本次第一类唤醒为误唤醒操作，若是，则自动提高可信度阈值，并学习保存当前的用户状态和对应的环境条件。

进一步地，本实施例中，所述步骤S500还包括：

步骤S520、若用户确认本次第一类唤醒不是误唤醒操作，则维持可信度阈值不变。

进一步地，本实施例中，所述步骤S300还包括：当最近预定时间内没有相同的存疑事件记录时，则不触发唤醒，同时学习记录当前发生的存疑事件。其中，记录的存疑事件包括存疑时间、置信度、用户状态和对应的环境条件等，学习过程是对当前环境和人的状态做出的统筹判断。

具体实施时，一并参见图2、图3所示，本发明所述步骤S300、步骤S400和步骤S500可以以结果分析模块(M04)、结果反馈模块(M05)、以及学习模块(M06)的形式实现功能，其中，所述结果分析模块(M04)：用于分析本次识别的结果，是否触发唤醒。结果反馈模块(M05)：用于针对录音数据识别模块的处理结果，并将交互结果返回给结果学习模块。学习模块(M06)：用于学习用户状态和环境，对阈值做出调整，反馈给结果分析模块。

具体的，结果分析模块对结果的置信度进行判定，达到可信阈值时触发唤醒，认为结果可能存疑时启动学习模块，进入学习状态，当最近发生过同样的存疑记录时，认为用户已多次进行唤醒，降低可信度阈值，否则记录最近的存疑记录，并启动学习状态定时器。当学习状态超时，没有用户新的状态发生时，关闭学习学习模块，退出学习状态。当触发唤醒后，启动学习模块，进入学习模式，同时进行唤醒后的交互，启动结果反馈模块，由用户交互确认本次属于误唤醒操作(如用户取消操作或超时未对唤醒操作做出回复)，则对唤醒置信度阈值做出调整，提升唤醒置信度阈值(可能是环境噪音引发的误唤醒，则说明环境有一定的误唤醒，需要更高的置信度来降低误唤醒)；当用户交互确定本次是正常唤醒行为(用户发出了唤醒后的后续指令)，不对阈值做出调整。

本发明语音唤醒方法，能够有效提升语音唤醒率，降低误唤醒率，为了便于理解，以下以一个具体应用实施例进一步解释本发明的技术思路。基于人与人交流时的模式：假定场景A(可认为是用户)需要和B(可认为是设备)发起交流时，即为唤醒操作。有以下场景：

1)、B听到了A在喊他的名字并且非常确定(超过可信度阈值)，则直接回应A；如果A收到回应后告诉B，我刚刚没有喊你，则B学习到了，原来刚才这样喊不是在真的喊我(提高可信度阈值)；

2)、B听到了A在喊他的名字，但不是太确定，那么我再等一会，看看A是不是会再喊我；如果A又喊了我，说明刚才我没有听错，那么下次A这么喊我时我就可以直接回应(降低可信度阈值)，同时回应A。

本发明通过在不同用户场景和环境下，通过数据反馈，自主学习，优化不同环境和不同场景的置信度，能够大大提升唤醒率和降低误唤醒率。

本发明还提供了一种终端，如图4所示，所述终端包括：处理器(processor)10、存储器(memory)20、通信接口(Communications Interface)30和通信总线40；其中，

所述处理器10、存储器20、通信接口30通过所述通信总线40完成相互间的通信；

所述通信接口30用于所述终端的通信设备之间的信息传输；

所述处理器10用于调用所述存储器20中的计算机程序，以执行上述各方法实施例所提供的方法，例如包括：采集用户录音并进行预处理，之后将预处理后的录音数据进行计算识别，得到识别的结果与置信度；判断置信度是否达到预设的可信度阈值，若达到，则触发第一类唤醒，若结果存疑，则判断最近预定时间内是否有相同的存疑事件记录，当有相同的存疑事件记录时，则触发第二类唤醒，并反馈给用户确认，其中，所述结果存疑为置信度接近但未达到可信度阈值；判断用户是否确认本次第二类唤醒为误唤醒操作，若否，则自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件。

本发明还提供一种存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序能够被执行以实现所述的语音唤醒方法。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的存储介质中，该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种语音唤醒方法，其特征在于，包括：

步骤B、判断置信度是否达到预设的可信度阈值；

若达到，则触发第一类唤醒，步骤E、触发第一类唤醒后反馈给用户，判断用户是否确认本次第一类唤醒为误唤醒操作，若是，则自动提高可信度阈值，并学习保存当前的用户状态和对应的环境条件；

若结果存疑，则进入步骤C，其中，所述结果存疑为置信度接近但未达到可信度阈值；

步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作，若否，则自动降低可信度阈值，并学习保存当前的用户状态和对应的环境条件；

其中，所述步骤D还包括步骤：若用户确认本次第二类唤醒是误唤醒操作，则维持可信度阈值不变；

其中，所述步骤D中，通过检测预定时间内是否有接收到触发取消唤醒的操作，判断用户是否确认本次第二类唤醒属于误唤醒操作；

其中，所述步骤E还包括：

若用户确认本次第一类唤醒不是误唤醒操作，则维持可信度阈值不变；

其中，所述步骤C还包括：

2.根据权利要求1所述的语音唤醒方法，其特征在于，所述步骤A中，预处理过程包括：增加有效信号的信噪比。

3.根据权利要求1所述的语音唤醒方法，其特征在于，所述步骤A中，采用基于语音引擎的语音识别算法对预处理后的录音数据进行计算识别。

4.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序能够被执行以实现如权利要求1～3任一项所述的语音唤醒方法。

5.一种终端，其特征在于，包括：处理器、与处理器通信连接的存储器，所述存储器存储有计算机程序，所述计算机程序用于被执行时实现如权利要求1～3任一项所述的语音唤醒方法；所述处理器用于调用所述存储器中的计算机程序，以实现如权利要求1～3任一项所述的语音唤醒方法。