CN117558268A

CN117558268A - 语音唤醒方法、装置、电子设备及存储介质

Info

Publication number: CN117558268A
Application number: CN202311589505.1A
Authority: CN
Inventors: 朱宸都
Original assignee: Beijing Eswin Computing Technology Co Ltd
Current assignee: Beijing Eswin Computing Technology Co Ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2024-02-13

Abstract

本申请提供了一种语音唤醒方法、装置、电子设备及存储介质，方法包括：对接收的语音信息进行预处理以提取得到音频特征；将音频特征输入语音唤醒模型中进行计算；基于语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；基于语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别，并获得语音信息的状态机跳转状态；根据唤醒分数和状态机跳转状态判断语音信息是否满足唤醒条件。本申请基于单神经网络模型进行二段式的唤醒词检测，满足唤醒率的同时抑制了明显的误唤醒。

Description

语音唤醒方法、装置、电子设备及存储介质

技术领域

本申请涉及音频处理技术领域，具体涉及一种语音唤醒方法、装置、电子设备及存储介质。

背景技术

语音唤醒技术的应用领域广泛，例如机器人、手机、可穿戴设备、智能家居、车载设备等。较多的带有语音功能的设备基于语音唤醒技术建立用户和机器之间的语音交互。不同的产品预先设置不同的唤醒词，当用户需要唤醒设备时需要说出预先设定的唤醒词。

为更好地满足用户需求，设备的语音唤醒装置会持续监听特定的唤醒词。出于隐私考虑，语音唤醒装置通常需要离线工作在具有低占用空间和低功耗要求的设备上。另外误唤醒是用户难以容忍的。综上，具有一定的唤醒率且误唤醒率较低是语音唤醒最重要的指标。

发明内容

为了解决上述技术问题，本申请提供了一种语音唤醒方法、装置、电子设备及存储介质，以在满足唤醒率的同时抑制明显的误唤醒。

第一方面，提供了一种语音唤醒方法，包括：

对接收的语音信息进行预处理以提取得到音频特征；

将所述音频特征输入语音唤醒模型中进行计算；

基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；

基于所述语音唤醒模型的残差连接的输出进行唤醒词中单个音节的识别，并获得所述语音信息的状态机跳转状态；

根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件。

可选地，对接收的语音信息进行预处理以提取得到音频特征包括：

将输入的语音信息进行分帧、加窗以及梅尔谱变换以得到所述音频特征。

可选地，所述语音唤醒模型包括多层子模型，至少一层子模型包括扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层。

可选地，基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数包括：

将所述语音唤醒模型中各层子模型的跳跃连接的输出求和以获得所述语音信息对应的唤醒分数。

可选地，基于所述语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别并获得所述语音信息的状态机跳转状态包括：

将所述语音唤醒模型中最后一层子模型的残差连接的输出经过线性层做音节分类处理；

按照唤醒词中各音节的排序依次在设定时间内判断每个音节的得分是否高于第一阈值以更新状态机跳转状态，其中，若在设定时间内且唤醒词中的一个音节高于第一阈值则状态机跳转至当前音节，否则状态机跳转至初始状态。

可选地，根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件包括：

唤醒分数高于第二阈值且所述状态机跳转至唤醒词中的最后一个音节则满足唤醒条件。

第二方面，提供了一种语音唤醒装置，包括：

语音唤醒模块，被配置为采用语音唤醒模型对接收的语音信息所对应的音频特征进行计算，并得到每一帧音频特征的得分和残差连接输出；

第一检测模块，被配置为基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数；

第二检测模块，被配置为基于所述语音唤醒模型得到的残差连接的输出进行唤醒词中单个音节的识别，并获得所述语音信息的状态机跳转状态；以及

判断模块，被配置为根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件。

可选地，语音唤醒模块包括多层堆叠的子模块，至少一层子模块包括扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层。

第三方面，提供了一种电子设备，其中，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如上所述的方法的步骤。

第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如上所述的方法的步骤。

本申请提供的语音唤醒方法、装置、电子设备及存储介质，通过将音频特征输入语音唤醒模型中进行计算，以基于单神经网络模型进行二段式的唤醒词检测，可以在单模型算力的情况下实现多段式的语音唤醒检测，从而在最少计算量下减少了误唤醒。

应当说明的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1示出根据本申请实施例提供的一种语音唤醒方法的流程示意图；

图2示出根据本申请实施例提供的另一种语音唤醒方法的流程示意图；

图3示出根据本申请实施例提供的语音唤醒方法中状态机检测的示意图；

图4示出根据本申请实施例提供的语音唤醒装置的结构示意图；

图5示出根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了便于理解本申请，下面将参照相关附图对本申请进行更全面的描述。附图中给出了本申请的较佳实施例。但是，本申请可以通过不同的形式来实现，并不限于本文所描述的实施例。相反的，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。

为了满足用户的一些智能化需求，一些电子设备中通过部署语音助手以实现用户与电子设备之间的智能交互。目前语音助手通过口头唤醒词来激活，从而可以避免持续运行计算成本高很多的自动语音识别技术。近年来，为了在实际嘈杂环境中获得较好的语音唤醒能力，语音唤醒技术不断更新，从最早的模板匹配方案，到后来的HMM方案(HiddenMarkov Model，隐马尔可夫模型(一种统计模型))，以及现在流行的神经网络解决方案。

图1示出根据本申请实施例提供的一种语音唤醒方法的流程示意图。

参见图1，一种语音唤醒方法例如包括如下步骤：

步骤S110：对接收的语音信息进行预处理以提取得到音频特征。

步骤S120：将音频特征输入语音唤醒模型中进行计算。

步骤S130：基于语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数。

步骤S140：基于语音唤醒模型得到的残差连接的输出进行唤醒词中单个音节的识别，并获得语音信息的状态机跳转状态。

步骤S150：根据唤醒分数和状态机跳转状态判断语音信息是否满足唤醒条件。

上述实施例基于一个语音唤醒模型对接收的语音信息进行二段式检测，即基于一个语音唤醒模型对语音信息分别进行整句唤醒词检测和对唤醒词中单个音节的识别，以实现对语音信息的实时检测进而判断语音信息是否满足唤醒条件。并在满足唤醒条件的情况下唤醒语音助手以建立用户与电子设备之间的语音交互。

图2示出根据本申请实施例提供的另一种语音唤醒方法的流程示意图。图3示出根据本申请实施例提供的语音唤醒方法中状态机检测的示意图。

参见图2，在其他实施例中，一种语音唤醒方法例如包括如下步骤：

步骤S210：将输入的语音信息进行分帧、加窗以及梅尔谱变换以得到音频特征。示例性地，例如将电子设备的麦克风接收到的语音信息进行分帧、加窗、梅尔谱变换以得到对应的音频特征。其中，语音信息例如指人发出的声音。进一步地，例如先根据语音信息的长度、帧移、帧长将语音信息分为多个帧。其中，帧长通常根据唤醒词的长度进行设置。帧移指每次分帧时移动的距离，以第一帧信号的起始点开始移动一个帧移以开始下一帧。另外，在分帧操作时，当最后的语音信息的长度不够一帧时，可以在最后的语音信息中进行补零操作或者直接舍弃最后的语音信息。接着例如将每一帧与窗函数相乘已完成加窗造作。之后将加窗后的每一帧信号进行梅尔谱变换以得到对应的音频特征。

步骤S220：将音频特征输入语音唤醒模型中进行计算。将语音信息对应的音频特征输入预先训练好的语音唤醒模型中。其中，语音唤醒模型例如为WaveNet(原始音频的生成模型)神经网络模型。上述语音唤醒模型通过堆叠N层WaveNet子模型来实现。至少一层WaveNet子模型由扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层三个部分组成。示例性地，本实施例中的语音唤醒模型中的每层子模型由扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层三个部分组成。WaveNet子模型使用堆叠式扩大因果卷积层，使得模型满足因果性，且拥有灵活的感受野大小。感受野大小可以通过调整WaveNet子模型的层数和扩大卷积的扩大系数来确定，因此非常适合做流式的唤醒。并且这种卷积层只需要几层就能获得很大的感受野，同时可以保留输入分辨率和计算效率。另外，WaveNet子模型中的跳跃连接和残差连接层既可以有效避免梯度消失问题，又非常适合做二段式的唤醒检测。

步骤S230：将语音唤醒模型中各层子模型的跳跃连接的输出求和以获得语音信息对应的唤醒分数。进一步地，将每个WaveNet子模型中的跳跃连接输出求和并做线性变换，以得到语音信息对应的唤醒分数。上述第一线性层在训练时，损失函数例如选用maxpooling loss。

步骤S240：将语音唤醒模型中最后一层子模型的残差连接的输出经过线性层做音节分类处理；以及按照唤醒词中各音节的排序依次在设定时间内判断每个音节的得分是否高于第一阈值以更新状态机跳转状态，其中，若在设定时间内且唤醒词中的一个音节高于第一阈值则状态机跳转至当前音节，否则状态机跳转至初始状态。进一步地，将语音唤醒模型中第N层WaveNet子模型的残差连接输出再经过一个第二线性层，以唤醒词“你好米雅”为例，第二线性层的输出就是5个神经元经过softmax函数后的概率，即得到当前帧属于你(0)、好(1)、米(2)、雅(3)以及其他(4)这5类音节的得分。进一步地，对上述输出进行有限状态机的转换。

示例性地，参见图3，当识别到音节为“其他”则状态机跳转至初始状态。否则首先在设定时间内判断“音节1”的得分是否高于第一阈值，当在设定时间内“音节1”的得分高于第一阈值，则状态机就跳转到“音节1”这个状态，并接着继续在设定时间内判断“音节2”的得分是否大于第一阈值，否则状态机跳转至初始状态从头开始。当在设定时间内“音节2”的得分高于第一阈值，则状态机就跳转到“音节2”这个状态，并接着继续在设定时间内判断“音节3”的得分是否大于第一阈值，否则状态机跳转至初始状态从头开始。直至状态机跳转至“音节n”结束。

其中，本实施例中n为4。其中，第二线性层在训练时，损失函数例如选用crossentropy loss。示例性地，以唤醒词为“你好米雅”为例，首先在设定时间内判断音节1“你”的得分是否高于第一阈值，当在设定时间内音节1“你”的得分高于第一阈值，则状态机就跳转到音节1“你”这个状态，并接着继续在设定时间内判断音节2“好”的得分是否大于第一阈值，否则状态机跳转至初始状态从头开始。当在设定时间内音节2“好”的得分高于第一阈值，则状态机就跳转到音节2“好”这个状态，并接着继续在设定时间内判断音节3“米”的得分是否大于第一阈值，否则状态机跳转至初始状态从头开始。直至状态机跳转至音节4“雅”结束。

步骤S250：唤醒分数高于第二阈值且状态机跳转至唤醒词中的最后一个音节则满足唤醒条件。示例性地，当步骤S230得到的唤醒分数第二阈值且步骤S240中状态机跳转至唤醒词的音节4“雅”(最后一个音节)，则当前语音信息满足唤醒条件，语音助手被唤醒。

电子设备的离线语音唤醒算法需要在极低的算力以及功耗下实时进行，对此如何在满足可接受的唤醒率下最大程度降低误唤醒是至关重要的。本申请通过一个语音唤醒模型结构将单个模型的输出同时实现两段式检测。其中语音唤醒模型中每层子模型的跳跃连接输出结合了所有视野域的结果，非常适合整句唤醒词检测。同时语音唤醒模型中最后一层子模型的残差连接输出经过所有层的深度堆叠，也适合应用到唤醒词中单个音节的识别。本申请通过结合上述两种检测方式，可以在单模型算力的情况下实现多段式的唤醒检测，从而在最少计算量下减少误唤醒。

图4示出根据本申请实施例提供的语音唤醒装置的结构示意图。

参见图4，语音唤醒装置包括预处理模块310、语音唤醒模块320、第一检测模块330、第二检测模块340、判断模块350。预处理模块310被配置为对输入的语音信息进行分帧、加窗以及梅尔谱变换以得到音频特征。语音唤醒模块320被配置为采用语音唤醒模型对接收的语音信息所对应的音频特征进行计算，并得到每一帧音频特征的得分和残差连接的输出。其中，语音唤醒模块320包括多层堆叠的子模块321，至少一层子模块321包括扩大因果卷积层3211、PixelCNN门控单元3212、跳跃连接和残差连接层3213。第一检测模块330被配置为基于语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数。第二检测模块340被配置为基于语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别，并获得语音信息的状态机跳转状态。判断模块350被配置为根据唤醒分数和状态机跳转状态判断语音信息是否满足唤醒条件。

进一步地，语音唤醒模块320中的每层子模块321包括扩大因果卷积层3211、PixelCNN门控单元3212、跳跃连接和残差连接层3213。扩大因果卷积层3211使得语音唤醒模型满足因果性，且拥有灵活的感受野大小。感受野大小可以通过调整WaveNet子模型的层数和扩大卷积的扩大系数来确定，因此非常适合做流式的唤醒。并且这种卷积层只需要几层就能获得很大的感受野，同时可以保留输入分辨率和计算效率。PixelCNN门控单元3212用于将扩大因果卷积层3211的输出分别输入双曲正切函数tanh、S型函数sigmoid(σ)，并将两个函数的输出结果相乘。其中，函数tanh的值域为[-1，+1]，函数sigmoid(σ)的值域为[0，+1]。跳跃连接和残差连接层3213中包括1×1卷积块和求和块，1×1卷积块的输出为子模块的跳跃连接的输出，求和块的输出为子模块的残差连接的输出。

图5示出根据本申请实施例提供的电子设备的结构示意图。

本申请还提供了一种电子设备400，如图5所示，包括存储器420、处理器410及存储在存储器420上并可在处理器410上运行的程序，该程序被处理器410执行时可实现上述语音唤醒方法中各实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读的存储介质中，并由处理器进行加载和执行。为此，本申请还提供了一种存储介质，该存储介质上存储有计算机程序或指令，该计算机程序或指令被处理器执行时可实现上述语音唤醒方法中各实施例的各个过程。其中，存储介质，如U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的语音唤醒方法中的步骤，因此，可以实现本申请所提供的语音唤醒方法所能实现的有益效果，详见前面的实施例，在此不再赘述。以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

需要说明的是，本文中的数值均仅用于示例性的说明，在本申请的其它实施例中，也可以采样其它的数值来实现本方案，具体应根据实际情况进行合理设置，本申请对此不作限定。

最后应说明的是：显然，上述实施例仅仅是为清楚地说明本申请所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本申请的保护范围之中。

还应理解，本文采用的术语和表述方式只是用于描述，本说明书的一个或多个实施例并不应局限于这些术语和表述。使用这些术语和表述并不意味着排除任何示意和描述(或其中部分)的等效特征，应认识到可能存在的各种修改也应包含在权利要求范围内。其他修改、变化和替换也可能存在。相应的，权利要求应视为覆盖所有这些等效物。

Claims

1.一种语音唤醒方法，其中，包括：

对接收的语音信息进行预处理以提取得到音频特征；

将所述音频特征输入语音唤醒模型中进行计算；

2.根据权利要求1所述的方法，其中，对接收的语音信息进行预处理以提取得到音频特征包括：

3.根据权利要求1所述的方法，其中，所述语音唤醒模型包括多层子模型，至少一层子模型包括扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层。

4.根据权利要求3所述的方法，其中，基于所述语音唤醒模型得到的每一帧音频特征的得分进行整句唤醒词检测并获得唤醒分数包括：

5.根据权利要求3所述的方法，其中，基于所述语音唤醒模型得到的残差连接输出进行唤醒词中单个音节的识别并获得所述语音信息的状态机跳转状态包括：

6.根据权利要求1所述的方法，其中，根据唤醒分数和状态机跳转状态判断所述语音信息是否满足唤醒条件包括：

7.一种语音唤醒装置，其中，包括：

8.根据权利要求7所述的装置，其中，语音唤醒模块包括多层堆叠的子模块，至少一层子模块包括扩大因果卷积层、PixelCNN门控单元、跳跃连接和残差连接层。

9.一种电子设备，其中，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序，所述程序被所述处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。

10.一种存储介质，其中，所述存储介质上存储有计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。