CN112331186B

CN112331186B - 语音唤醒方法及装置

Info

Publication number: CN112331186B
Application number: CN202011302212.7A
Authority: CN
Inventors: 王蒙; 薛少飞
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-03-25
Anticipated expiration: 2040-11-19
Also published as: CN112331186A

Abstract

本发明公开一种语音唤醒方法及装置。在该方法中，获取音频数据；在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据；将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。由此，可以避免突变的声场环境因归一化操作而被削弱的影响，有助于提高终端设备在较嘈杂的声学环境中的唤醒率。

Description

语音唤醒方法及装置

技术领域

本发明属于语音处理技术领域，尤其涉及一种语音唤醒方法及装置。

背景技术

PCEN（Per-Channel Energy Normalization, 单通道能量归一化算法）是一种能量泛化算法，其可以对没有取对数的音频特征进行单通道能量归一化处理，能够替代特征提取部分的取对数运算，具有较强的声学自适应性。此外，通过测试结果显示，在远场测试环境下具有提升唤醒率的效果。

但是，在声音产生突变时，可能导致配置有PCEN算法的语音识别模型无法唤醒的情况，其一般是基于IIR（infinite impulse response, 无限脉冲响应）滤波器的，导致初始状态会一直对当前状态产生影响，而在声场环境突变时，特征的值会产生较大的改变，经过归一化处理后，这个改变被削弱，从而对唤醒结果产生一定影响。

举例来说，在家居环境中，有可能会出现尖锐的椅子腿摩擦地面的声音，如果用户在摩擦声之后说出唤醒词来试图唤醒设备，由于声场环境发生了巨大改变，很有可能导致设备无法唤醒。

针对上述问题，目前业界暂时并未提供较佳的解决方案。

发明内容

本发明实施例提供一种语音唤醒方法及装置，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音唤醒方法，包括：获取音频数据；在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据；将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。

第二方面，本发明实施例提供一种语音唤醒装置，包括：音频数据获取单元，被配置为获取音频数据；归一化处理单元，被配置为在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据；唤醒模型输入单元，被配置为将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。

第三方面，本发明实施例提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述方法的步骤。

本发明实施例的有益效果在于：

在对移动终端设备进行唤醒操作时，可以在滑动窗口内对所获取的音频数据进行归一化处理，以得到相应的特征数据，而不是针对音频数据整体进行归一化处理，可以避免突变的声场环境因归一化操作而被削弱的影响，有助于提高终端设备在较嘈杂的声学环境中的唤醒率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的语音唤醒方法的一示例的流程图；

图2示出了根据本发明实施例的校准滑动窗口的窗口长度的一示例的流程图；

图3示出了根据本发明实施例的语音唤醒方法的一示例的架构示意图；

图4示出了在安静环境中说话声源距离移动终端设备30cm的第一声境场景下的唤醒率特征曲线对比图；

图5示出了在正常家居环境中说话声源距离移动终端设备1m的第二声境场景下的唤醒率特征曲线对比图；

图6示出了根据本发明实施例的语音唤醒装置的一示例的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、 “系统”等等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/ 或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/ 或线程中，并且元件可以在一台计算机上本地化和/ 或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/ 或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/ 或远程过程来进行通信。

最后，还需要说明的是，在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

图1示出了根据本发明实施例的语音唤醒方法的一示例的流程图。关于本发明实施例方法的执行主体，其可以是能够配备语音唤醒功能的各种移动终端设备。

如图1所示，在步骤110中，获取音频数据。这里，音频数据可以是多个音频帧数据，也还可以是将音频帧数据经特征化处理之后而得到的特征数据。示例性地，移动终端设备可以通过麦克风来采集说话人的音频数据。

在步骤120中，在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据。

这里，滑动窗口可以表示用于对数据进行归一化处理（例如，加权平均计算）的处理单元，例如滑动窗内的音频数据参与运算。因此，各个音频数据在归一化处理的过程中是相互独立的，可以实现FIR(Finite Impulse Response, 有限脉冲响应)的滤波过程，使得指定窗长内的音频数据只会对当前状态产生影响。

在本发明实施例的一些示例中，可以基于PCEN算法对各个在所述滑动窗口内的音频数据分别进行归一化处理，以生成相应的目标特征数据。应理解的是，PCEN算法仅用作示例，并且还可以采用未于此处描述的其他类型的归一化算法进行相应的归一化处理操作。

在步骤130中，将目标特征数据提供给语音唤醒模型，以由语音唤醒模型确定是否进行相应的语音唤醒操作。

通过本发明实施例，将基于IIR的PCEN修改为基于FIR的PCEN，在归一化的过程中，将音频数据分割为分别对应多个窗口的数据，使得初始状态不会一直对当前状态和唤醒结果产生影响，只有指定窗长内的音频数据才会对当前状态产生影响。

在本发明实施例的一些示例中，可以连续采样音频帧，以得到相应的音频数据，因此可以逐帧对音频数据进行采样和相应处理操作。

如上面所描述的一样，只有指定窗长内的音频数据才会对当前的唤醒结果产生影响，因此窗长的大小可能会直接影响终端设备的语音唤醒性能。

在本发明实施例的一个示例中，可以在语音唤醒模型的训练阶段，根据语音唤醒模型的输出效果来设定相应的窗口长度。在本发明实施例的另一示例中，还可以在语音唤醒模型的测试或使用过程中，利用唤醒结果来对已设定的滑动窗口的窗口长度进行校准。

需说明的是，滑动窗口的长度类型可以是多样化的，例如滑动窗口可以是对应设定时间长度单元的时间长度窗口，另外滑动窗口还可以是对应设定帧长度的帧长度窗口。

图2示出了根据本发明实施例的校准滑动窗口的窗口长度的一示例的流程图。这里，音频数据可以是包含唤醒关键词的至少一个测试音频数据，可以由用户按照唤醒关键词提示对移动终端设备进行说话。

如图2所示，在步骤210中，获取针对各个测试音频数据的语音唤醒结果。

在步骤220中，基于所获取的各个语音唤醒结果，计算相应的测试唤醒率。

在步骤230中，当测试唤醒率低于预设的唤醒率阈值时，调整滑动窗口的窗口长度。示例性地，可以依据设定步长增大或降低窗口长度，并继续计算相应的测试唤醒率，直到能够超过相应的唤醒率阈值。

通过本发明实施例，用户可以通过对终端设备录入测试音频数据来校准滑动窗口的窗口长度，使得语音唤醒模型能够与当前声场环境相适应，保障了语音唤醒模型的唤醒率。

图3示出了根据本发明实施例的语音唤醒方法的一示例的架构示意图。

如图3所示，语音唤醒架构中存在多个滑动窗口（31、32…3n）、PCEN层310和语音唤醒模型320。在语音交互过程中，可以对音频数据进行特征化处理，例如通过fbank（filterbank，滤波器组）特征提取算法提取出相应的fbank特征向量值。之后，通过PCEN层310针对各个特征向量值进行归一化处理，并输入至语音唤醒模型320，以输出相应的语音唤醒结果。

由此，在滑动窗口内的音频所提取的音频特征，才会被送入语音唤醒模型中参与计算，实现了有限脉冲滤波过程。

具体地，PCEN算法公式如下所示：

公式（1）

另外， M( t, f )的表达式如下所示：

公式（2）

其中，E(t, f )是音频特征值，M( t, f )可以表示由E(t, f )递归而得到的待进行归一化处理的特征值，并且初始值M ₀可以取s*E ₀，s可以表示设定参数值。随后，M( t, f )与音频特征值E(t, f )共同计算PCEN(t, f )。PCEN(t, f )可以表示用于输入至语音唤醒模型320的特征数据，例如PCEN(t, f )随后被送入语音唤醒模型进行训练。

公式（3）

其中，

，如上述公式（3）所描述的一样， M( t )可以是 M _k(f )的加权平均值。

参照上述公式（2），其是类似于IIR的处理方式，使得初始值M ₀会持续地作用于M(t, f )。

当采用如本发明实施例的技术方案之后，可以对语音帧进行窗口化处理，相应地，可以将上述公式（2）进行改写：

其中，m的值可以表示用于计算当前帧M( t, f )的窗长，W可以表示可训练的参数。这里，m是可调参数值，并还可以在模型训练时进行设置。在m被确定之后，E(t, f )的大小可以确定为m*fbank特征维度，而M( t, f )与PCEN的大小与之相同。

通过公式（4）可以得知，在窗长之外的特征值可以被忽略，而不会对当前M( t, f)的值产生影响。由此，在实际使用场景中，音频数据是连续不断的输入到语音交互系统或移动终端设备中的，通过规定一个“窗长”，针对窗口之内的音频提取的特征，才会被送入系统中参与语音唤醒计算，可以有效防止较早之前的历史信息对当前音频的语音唤醒计算结果产生影响。

图4示出了在安静环境中说话声源距离移动终端设备30cm的第一声境场景下的唤醒率特征曲线对比图。图5示出了在正常家居环境中说话声源距离移动终端设备1m的第二声境场景下的唤醒率特征曲线对比图。这里，说话声声源中可以包含相应的唤醒关键词（例如“小布小布”）。

具体地，CV1可以表示于本发明实施例所提出的基于FIR的PCEN所对应的语音唤醒模型的曲线，CV2可以表示基于IIR的PCEN所对应的语音唤醒模型的曲线。通过对比可知，在“安静30cm”的第一声境场景下，两个语音唤醒模型的唤醒率特征曲线几乎重合，而在“家居1m”的第二声境场景下，基于FIR的PCEN所对应的语音唤醒模型的唤醒率会高于基于IIR的PCEN所对应的语音唤醒模型的唤醒率。

如图6所示，语音唤醒装置600包括音频数据获取单元610、归一化处理单元620和唤醒模型输入单元630。

音频数据获取单元610被配置为获取音频数据。

归一化处理单元620被配置为在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据。

唤醒模型输入单元630被配置为将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。

在本发明实施例的一些示例中，所述音频数据为包含唤醒词的至少一个测试音频数据，其中，所述装置还包括唤醒结果获取单元（未示出）、唤醒率计算单元（未示出）和窗口长度调整单元（未示出）。

唤醒结果获取单元，被配置为获取针对各个测试音频数据的语音唤醒结果。

唤醒率计算单元，被配置为基于所获取的各个语音唤醒结果，计算相应的测试唤醒率。

窗口长度调整单元，被配置为当所述测试唤醒率低于预设的唤醒率阈值时，调整所述滑动窗口的窗口长度。

在本发明实施例的一些示例中，所述归一化处理单元还被配置为基于PCEN算法对各个在所述滑动窗口内的音频数据分别进行归一化处理，以生成相应的目标特征数据。

上述本发明实施例的装置可用于执行本发明中相应的方法实施例，并相应的达到上述本发明方法实施例所达到的技术效果，这里不再赘述。

本发明实施例中可以通过硬件处理器（hardware processor）来实现相关功能模块。

另一方面，本发明实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行如上的语音唤醒方法的步骤。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明实施例所提供的方法。

本发明实施例的客户端或移动终端以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音唤醒方法，包括：

获取音频数据；

在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据；

将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。

2.根据权利要求1所述的方法，所述音频数据为包含唤醒关键词的至少一个测试音频数据，其中，在将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作之后，所述方法还包括：

获取针对各个测试音频数据的语音唤醒结果；

基于所获取的各个语音唤醒结果，计算相应的测试唤醒率；

当所述测试唤醒率低于预设的唤醒率阈值时，调整所述滑动窗口的窗口长度。

3.根据权利要求1所述的方法，其中，所述滑动窗口为时间长度窗口和/或帧长度窗口。

4.根据权利要求1所述的方法，其中，所述获取音频数据，包括：

连续采样音频帧，以得到相应的音频数据。

5.根据权利要求1所述的方法，其中，所述在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据，包括：

基于PCEN算法对各个在所述滑动窗口内的音频数据分别进行归一化处理，以生成相应的目标特征数据。

6.一种语音唤醒装置，包括：

音频数据获取单元，被配置为获取音频数据；

归一化处理单元，被配置为在滑动窗口内对所获取的音频数据进行归一化处理，以生成相应的目标特征数据；

唤醒模型输入单元，被配置为将所述目标特征数据提供给语音唤醒模型，以由所述语音唤醒模型确定是否进行相应的语音唤醒操作。

7.根据权利要求6所述的装置，所述音频数据为包含唤醒词的至少一个测试音频数据，其中，所述装置还包括：

唤醒结果获取单元，被配置为获取针对各个测试音频数据的语音唤醒结果；

唤醒率计算单元，被配置为基于所获取的各个语音唤醒结果，计算相应的测试唤醒率；

8.根据权利要求6所述的装置，其中，所述归一化处理单元还被配置为基于PCEN算法对各个在所述滑动窗口内的音频数据分别进行归一化处理，以生成相应的目标特征数据。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。