CN116386676B

CN116386676B - 语音唤醒方法、语音唤醒装置及存储介质

Info

Publication number: CN116386676B
Application number: CN202310650035.9A
Authority: CN
Inventors: 鲁勇; 刘波; 刘海平; 梁健林
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-29
Anticipated expiration: 2043-06-02
Also published as: CN116386676A

Abstract

本申请提出了一种语音唤醒方法、语音唤醒装置及存储介质。该语音唤醒方法包括：采集语音数据形成语音流；获取语音流中连续n个帧的统计参量的平均值，并作为初始门限值；从第n+1个帧开始，识别当前帧是语音帧还是静音帧；若是语音帧，则确定新门限值为初始门限值与增量值之和，增量值G_Δ满足G_Δ=x*M，x为已判定为语音帧的统计参量的长时平均值的1/P，P为预设脱离死锁状态的最大帧数，x的初始值为1，M为预设步长；若是静音帧，则采用一阶惯性滤波算法确定新门限值；根据新门限值识别当前帧后的帧是语音帧还是静音帧；在确定存在至少一语音帧时，执行语音识别操作和/或唤醒控制设备。本申请可以防止出现死锁状态，提高系统鲁棒性。

Description

语音唤醒方法、语音唤醒装置及存储介质

技术领域

本申请涉及语音唤醒（又称语音活动检测，voice activitydetection，简称VAD）技术领域，具体涉及一种语音唤醒方法、语音唤醒装置及存储介质。

背景技术

随着时代的发展，越来越多的电子设备进入人们的日常生活中，人们在享受电子设备带来便利的同时，希望电子设备能更加智能，实现无触控的交互方式。语音唤醒，即用户说出设定的语音指令，让处于休眠状态下的设备直接进入到等待指令状态。通过该技术，任何人在任何环境、任何时间对设备直接说出预设的唤醒词，就能激活设备，从而实现低功耗和无触控的交互。

语音唤醒的关键之一是对语音帧和静音帧的判定。现有技术一般采用固定门限值来判定语音帧和静音帧，具体而言，若当前帧的能量大于能量门限值，则判定该当前帧为语音帧；若当前帧的能量小于能量门限值，则判定该当前帧为静音帧。可见，固定门限值的设置较难，例如固定门限值较小，则容易导致较多静音帧被误判为语音帧，严重时会出现每一帧均被判定为语音帧，从而进入死锁状态，语音唤醒失败，这就需要CPU干预以重启语音唤醒程序。另外，固定门限值不能很好在噪声变化环境中执行语音唤醒。

发明内容

鉴于此，本申请提供一种语音唤醒方法、语音唤醒装置及存储介质，可以改善固定门限值容易导致语音帧误判及进入死锁状态的问题。

本申请提供的一种语音唤醒方法，包括：

采集语音数据形成语音流；

获取所述语音流中连续n个帧的统计参量的平均值，并作为初始门限值；

从第n+1个帧开始，识别当前帧是语音帧还是静音帧；

若所述当前帧是语音帧，则确定新门限值为所述初始门限值与增量值之和，所述增量值G_Δ满足G_Δ=x*M，x为已判定为语音帧的统计参量的长时平均值的1/P，P为预设脱离死锁状态的最大帧数，M为预设步长；

若所述当前帧是静音帧，则采用一阶惯性滤波算法确定新门限值；

根据所述新门限值识别所述当前帧后的帧是语音帧还是静音帧；

在确定存在至少一语音帧时，执行语音识别操作和/或唤醒控制设备。

可选地，识别第n+2个帧是语音帧还是静音帧，包括：

获取第n+2个帧的统计参量的值；

识别所述第n+2个帧的统计参量的值是否大于所述初始门限值；

若是，则确定所述当前帧为语音帧；

若否，则确定所述当前帧为静音帧；

根据所述新门限值识别所述当前帧后的帧是语音帧还是静音帧，包括：

获取所述当前帧后的帧的统计参量的值；

识别所述当前帧后的帧的统计参量的值是否大于新门限值；

若是，则确定所述当前帧后的帧为语音帧；

若否，则确定所述当前帧后的帧为静音帧。

可选地，所述统计参量包括能量、振幅、振动频率中的至少一项。

可选地，所述预设步长为1。

可选地，所述方法还包括：

获取所述语音数据的时间信息；

根据所述时间信息确定对应的所述预设步长。

可选地，所述根据所述时间信息确定对应的所述预设步长，包括：

所述时间信息为夜间的预设时段，则确定第一预设步长；

所述时间信息为白天的预设时段，则确定第二预设步长，且所述第二预设步长大于所述第一预设步长。

可选地，所述方法还包括：

获取所述语音数据的环境信息，包括第一环境信息和第二环境信息，所述第一环境信息的噪声大于所述第二环境信息的噪声；

所述环境信息为第一环境信息，则确定第一预设步长；

所述环境信息为第二环境信息，则确定第二预设步长，且所述第二预设步长大于所述第一预设步长。

可选地，所述环境信息包括地理位置。

本申请提供一种语音唤醒装置，包括存储器和处理器，所述存储器存储有语音唤醒程序，所述语音唤醒程序被所述处理器执行时实现如上任一项所述的语音唤醒方法。

本申请提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述的语音唤醒方法。

如上所述，本申请用于识别当前帧是语音帧还是静音帧的门限值是动态变化的，具体是在连续判定为语音帧时会逐渐增大的，即使初始门限值较小，后续也可以使得识别某一帧所使用的门限值变大，从而可以减少将噪声环境下的静音帧误判为语音帧的风险，进入死锁状态的概率低，且无需外界干预即可自动脱离死锁状态，可提高系统鲁棒性；另外，动态变化的门限值可以适用于噪声变化环境中的语音唤醒。

附图说明

图1为本申请实施例提供的一种语音唤醒方法的流程示意图；

图2为本申请实施例提供的一种语音流的分帧时序图；

图3为本申请实施例提供的一种语音唤醒装置的结构示意图。

具体实施方式

为了解决现有技术中存在的上述问题，本申请提供一种语音唤醒方法及装置、存储介质。这几个保护主题基于同一构思，解决问题的原理基本相同或相似，各保护主题的实施方式可相互参阅，重复之处不予赘述。

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图，对本申请的技术方案进行清楚地描述。显然，下文所描述实施例仅是本申请的一部分实施例，而非全部的实施例。在不冲突的情况下，下述各个实施例及其技术特征可相互组合，且亦属于本申请的技术方案。

请参阅图1，本申请实施例提供的一种语音唤醒方法，包括步骤S1至S7。

S1：采集语音数据形成语音流。

可选地，实时采集当前所处环境的语音数据，该语音数据为模拟信号，然后对该模拟信号进行模数转换，以得到数字信号。如图2所示，箭头表示时间t，按照采集时序，将数字信号的语音数据分割为多个帧。分割得到帧的方式，可参阅现有技术。

对于实时采集的语音数据，帧的数量会随着时序而增大。

S2：获取语音流中连续n个帧的统计参量的平均值，并作为初始门限值。

在一实施场景中，结合图2所示，从采集语音流的起始点得到的第1个帧开始，来获取连续n个帧。

在另一实施场景中，并非从语音流的起始点开始，而是先将语音流最开始的预设时长的语音数据滤除，选取滤除后的语音数据最开始的连续n个帧。

统计参量是可以标识帧是语音帧还是静音帧的参数类型。可选地，所述统计参量包括能量、振幅、振动频率中的至少一项。

S3：从第n+1个帧开始，识别当前帧是语音帧还是静音帧。

S4：若是语音帧，则确定新门限值为初始门限值与增量值之和，所述增量值G_Δ满足G_Δ=x*M，x为已判定为语音帧的统计参量的长时平均值的1/P，P为预设脱离死锁状态的最大帧数，M为预设步长。x为整数，例如x的初始值可以为1，应理解，初始值为1并非x的最小值为1，可视为默认值。

S5：若是静音帧，则采用一阶惯性滤波算法确定新门限值。

S6：根据新门限值识别当前帧后的帧是语音帧还是静音帧。

识别第n+1个帧是语音帧还是静音帧的方式，如下：

获取第n+1个帧的统计参量的值；

识别第n+1个帧的统计参量的值是否大于所述初始门限值；

若是，则确定当前帧为语音帧；

若否，则确定当前帧为静音帧。

识别第n+1个帧是语音帧还是静音帧的方式，还可以适应性而定，例如：识别n+2个帧与第n+1个帧的统计参量的第一差值，第n+1个帧与第n个帧的统计参量的第二差值，以及n个帧中任意两个帧的统计参量的最大值；若第一差值与第二差值之差大于该最大值，则第n+1个帧是语音帧；若第一差值与第二差值之差小于该最大值，则第n+1个帧是静音帧。

在一实施场景中，从第n+2个帧开始，根据新门限值识别帧是语音帧还是静音帧，包括：

获取帧的统计参量的值；

识别帧的统计参量的值是否大于新门限值；

若是，则确定帧为语音帧；

若否，则确定帧为静音帧。

在步骤S3和S4中，若第n+1个帧为语音帧，则已确定的语音帧的数量x为1，确定新门限值G₁为初始门限值G₀与增量值G_Δ之和，即G₁=G₀+G_Δ=G₀+1*M。以预设步长M为1，则新门限值G₁=G₀+1。

此时，识别第n+2个帧是语音帧还是静音帧，是以该新门限值G₁予以实现，具体为：获取第n+2个帧的统计参量的值；识别帧的统计参量的值是否大于新门限值G₁；若是，则确定第n+2个帧为语音帧；若否，则确定第n+2个帧为静音帧。同理，经过第n+2个帧得到的新门限值为G₂，识别第n+2个帧是语音帧还是静音帧，是以该新门限值G₂予以实现。以此类推，识别剩余各个帧是语音帧还是静音帧。

P为预设脱离死锁状态的最大帧数，可以理解为：最多P帧，语音唤醒系统必须会脱离死锁状态，例如P=4096。例如，对于在安静环境下打开风扇这一应用场景，安静环境下，统计参量的值很低，打开风扇，当前帧的统计参量的值远大于初始门限值，则当前帧会被判定为语音帧，显然这属于误判定；如果将初始门限值加上语音帧统计量的1/P，表示经过连续P帧，新门限值就会等于语音帧的平均值。此时风扇的噪声就会被判定为静音帧。

如上所述，用于识别当前帧是语音帧还是静音帧的门限值是动态变化的，具体是在连续判定为语音帧时会逐渐增大的，即使初始门限值较小，后续也可使得识别某一帧所使用的门限值变大，从而可以减少将静音帧误判为语音帧的风险，不会进入死锁状态。随着初始门限值的增大，也可以重新识别为静音帧，从而无需例如CPU等外界干预即可自动脱离死锁状态，可提高系统鲁棒性；另外，动态变化的门限值可以适用于噪声变化环境中的语音唤醒，例如在噪声逐渐变大的环境中，如果现有技术采用固定的门限值，则会一直维持于死锁状态，而本申请的门限值逐渐增大，可以降低进入死锁状态的概率。

在步骤S5中，采用一阶惯性滤波算法确定新门限值，具体地，可以采用关系式G_m=k*G_m-1+ (1-k) * G₀，来确定新门限值。其中，m为正整数，G_m表示识别当前帧是语音帧还是静音帧后确定的门限值，即新门限值，G_m-1表示识别前一帧是语音帧还是静音帧后确定的门限值，k表示滤波算法的加权系数，为已知参数。于此，即使在识别到静音帧后，本申请也会对调整门限值。

S7：在确定存在至少一语音帧时，执行语音识别操作和/或唤醒控制设备。

在一实施场景中，只要识别到一语音帧，表示识别到有效的用户语音，即可执行语音识别操作和/或唤醒控制设备。

在另一实施场景中，在识别到多个语音帧时，才表示识别到有效的用户语音，再执行语音识别操作和/或唤醒控制设备。于此，本申请实施例可以避免语音帧误识别以及由此导致的误唤醒等操作。

在前述基础上，所述预设步长M可以是固定参数，也可以是动态变化参数。下面介绍所述预设步长M的两种变化方式。

方式一

首先，获取语音数据的时间信息；例如，分割得到的各个帧对应的时间信息；然后，根据所述时间信息确定对应的预设步长。

在一实施场景中，所述时间信息可以包括白天和夜间，当然也可以根据其他时段来划分所述时间信息。当所述时间信息为夜间的预设时段，则确定第一预设步长，并根据所述第一预设步长来执行前述语音唤醒方法；当所述时间信息为白天的预设时段，则确定第二预设步长，并根据所述第一预设步长来执行前述语音唤醒方法；鉴于白天的噪声大于夜间的噪声，本申请实施例可以设置第二预设步长大于第一预设步长。

方式二

首先，获取语音数据的环境信息，然后根据所述环境信息确定对应的预设步长。以环境信息包括第一环境信息和第二环境信息，且第一环境信息的噪声大于第二环境信息的噪声为例，当所述环境信息为第一环境信息时，则确定第一预设步长，并根据所述第一预设步长来执行前述语音唤醒方法；当所述环境信息为第二环境信息时，则确定第二预设步长，并根据所述第二预设步长来执行前述语音唤醒方法。鉴于第一环境信息的噪声大于第二环境信息的噪声，本申请实施例设置第二预设步长大于所述第一预设步长。

可选地，环境信息包括地理位置，例如第一环境信息为室外，第二环境信息为室内；或者，第一环境信息为街区，第二环境信息为小区。

所述预设步长M可以动态调整，使得本申请可适用场景更广泛。

本申请实施例还提供一种语音唤醒装置，如图3所示，包括：

采集模块31用于采集语音数据形成语音流；

帧处理模块32用于获取所述语音流中连续n个帧的统计参量的平均值，并作为初始门限值；从第n+1个帧开始，识别当前帧是语音帧还是静音帧；若是语音帧，则确定新门限值为所述初始门限值与增量值之和，所述增量值G_Δ满足G_Δ=x*M，x为已判定为语音帧的统计参量的长时平均值的1/P，P为预设脱离死锁状态的最大帧数，M为预设步长；若是静音帧，则采用一阶惯性滤波算法确定新门限值；以及，根据所述新门限值识别所述当前帧后的帧是语音帧还是静音帧；

语音识别模块33用于在确定存在至少一语音帧时执行语音识别操作和/或唤醒控制设备。

所述帧处理模块32还可以用于执行前述任一实施方式的识别当前帧是语音帧还是静音帧。

本申请实施例还提供另一种语音唤醒装置，包括存储器和处理器，所述存储器存储有语音唤醒程序，所述语音唤醒程序被所述处理器执行时实现如上任一实施例所述的语音唤醒方法。

语音唤醒装置的具体表现形式，本申请实施例不予以限定，例如，语音唤醒装置可以是内置于各种电子设备中的语音唤醒器件，可以以独立模组或者器件形式进行生产、运输和销售等；语音唤醒装置也可以就是电子设备。

电子设备包括但不限于智能手机、PDA（PersonalDigital Assistant，个人数字助理或平板电脑）等具有语音唤醒功能的终端，以及佩戴于肢体或者嵌入于衣物、首饰、配件中的具有语音唤醒功能的可穿戴设备。

应理解，本申请实施例提供的语音唤醒装置为一个完整的语音唤醒装置，也具备已知对应类型的语音唤醒装置具有的结构，在此仅对语音唤醒装置中涉及语音唤醒的部件进行说明，对于其他部件不予以赘述。

本申请实施例还提供一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如上任一实施例所述的语音唤醒方法。

所述存储介质和语音唤醒装置可分别产生对应实施例的语音唤醒方法所具有的有益效果，此处不再予以赘述。

以上所述仅为本申请的部分实施例，并非因此限制本申请的专利范围，对于本领域普通技术人员而言，凡是利用本说明书及附图内容所作的等效结构变换，均同理包括在本申请的专利保护范围内。

尽管本文采用术语“第一、第二”等描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。另外，单数形式“一”、“一个”和“该”旨在也包括复数形式。术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

Claims

1.一种语音唤醒方法，其特征在于，包括：

采集语音数据形成语音流；

从第n+1个帧开始，识别当前帧是语音帧还是静音帧；

2.根据权利要求1所述的方法，其特征在于，

识别第n+1个帧是语音帧还是静音帧，包括：

获取第n+1个帧的统计参量的值；

识别所述第n+1个帧的统计参量的值是否大于所述初始门限值；

若是，则确定所述当前帧为语音帧；

若否，则确定所述当前帧为静音帧；

获取所述当前帧后的帧的统计参量的值；

识别所述当前帧后的帧的统计参量的值是否大于新门限值；

若是，则确定所述当前帧后的帧为语音帧；

若否，则确定所述当前帧后的帧为静音帧。

3.根据权利要求1所述的方法，其特征在于，所述统计参量包括能量、振幅、振动频率中的至少一项。

4.根据权利要求1或3所述的方法，其特征在于，所述预设步长为1。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述语音数据的时间信息；

根据所述时间信息确定对应的所述预设步长。

6.根据权利要求5所述的方法，其特征在于，所述根据所述时间信息确定对应的所述预设步长，包括：

所述时间信息为夜间的预设时段，则确定第一预设步长；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述环境信息为第一环境信息，则确定第一预设步长；

8.根据权利要求7所述的方法，其特征在于，所述环境信息包括地理位置。

9.一种语音唤醒装置，其特征在于，包括存储器和处理器，所述存储器存储有语音唤醒程序，所述语音唤醒程序被所述处理器执行时实现如权利要求1至8中任一项所述的语音唤醒方法。

10.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的语音唤醒方法。