CN116229945A

CN116229945A - 一种基于参数共享的两阶段语音唤醒方法

Info

Publication number: CN116229945A
Application number: CN202210750279.XA
Authority: CN
Inventors: 黄乐凯; 何昕
Original assignee: Shanghai Shenghan Information Technology Co ltd
Current assignee: Shanghai Shenghan Information Technology Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2023-06-06

Abstract

本发明公开了一种基于参数共享的两阶段语音唤醒方法，基于整句的自注意力模型或基于分块的流式自注意力模型，语音唤醒方法，所采用的方法是结合这两种自注意力模式。可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下，简化了训练流程和推理部分的工程实现。

Description

一种基于参数共享的两阶段语音唤醒方法

技术领域

本发明涉及语音识别技术领域，特别是一种基于参数共享的两阶段语音唤醒方法。

背景技术

随着语音识别技术的飞速发展，语音唤醒技术的应用越来越普遍。语音唤醒功能作为智能家居设备的主要功能，已经越来越多应用于家庭生活场景之中，但由于家庭语音环境的复杂情况，容易导致误触发的情况发生，这非常影响用户的实际体验。目前业界通常会采用两级唤醒的模式降低误触发。具体来说就是，第一级唤醒主要用于全天候监听，二级唤醒是在发生可能疑似唤醒的时候，利用一个更优的模型做二次打分，以此作为最终的决策。这种两级语音唤醒机制，可以非常有效地降低误触发的概率。另外，考虑到功耗问题，一级唤醒通常采用模型尺寸小延迟小的唤醒模型，二级则考虑效果更好参数更大的唤醒模型。因此一二级唤醒模型的结构通常差异较大，这就要求在训练模型阶段分别训练一二级唤醒模型。

发明内容

本发明要解决的技术问题是提供了一种基于参数共享的两阶段语音唤醒方法，可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下，简化了训练流程和推理部分的工程实现。

为了解决上诉技术问题，本发明采用如下技术方案：

上述的一种基于参数共享的两阶段语音唤醒方法，其中：基于整句的自注意力模型或基于分块的流式自注意力模型，语音唤醒方法，所采用的方法是结合这两种自注意力模式。

两个唤醒阶段(即全天候监听阶段和二次验证两个阶段)使用了同一组参数的模型，但是全天候监听阶段采用了将基于分块的在线(流式)注意力机制，二次验证阶段采用了基于整句的离线注意力机制。其中，基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。

上述的一种基于参数共享的两阶段语音唤醒方法，其中：在训练阶段，Conformer声学模型的训练采用基于hybrid CTC/Attention框架，训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数；该训练过程两种工作模式的模型参数始终是共享的，只是流式的部分限制了自注意力机制的工作范围。

上述的一种基于参数共享的两阶段语音唤醒方法，其中：推理阶段，采用流式自注意力机制逐帧计算唤醒词出现的概率，当唤醒词概率超过一定阈值时，提取循环缓存保留的短语音的声学嵌入特征，做整句的自注意力推理，得到一个新的唤醒词概率，当唤醒词概率超过一定阈值之后做最终的决策。

与现有技术相比，本发明的有益效果是：本发明公开了一种模型参数共享的两阶段语音唤醒方法，可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下，简化了训练流程和推理部分的工程实现。本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。

说明书附图

图1为Conformer声学编码结构的示意图。

图2为基于整句的自注意力机制的示意图。

图3为基于分块的自注意力机制的示意图。

图4为在线/离线混合模型的训练框架图。

图5为两阶段语音唤醒推理过程的示意图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限制本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。

本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。图1为Conformer声学编码结构示意图。其中，注意力机制是一种模拟人类视觉所特有的大脑信号处理机制，人们将这一特殊结构应用于在机器学习模型，来自动学习和计算输入数据对输出数据的贡献大小。在语音识别应用领域，注意力机制是考虑单句所有时间帧序列的声学特征对于某一帧输出特征的贡献值。这种机制需要在整句结束后才能做声学特征分析(也称离线识别)，如图2所示。考虑到实时语音识别系统的应用，我们引用了一种基于分块(Chunk-wise)的在线注意力机制，即通过限制自注意力机制范围对局部依赖信息进行建模。一个由2帧历史信息和1帧未来信息构成的分块自注意力机制，如图3所示。其中，基于整句的自注意力模型识别效果更优，但是该方法只能对完整的单句进行运算识别，不利于流式的语音应用。而基于分块的流式自注意力模型虽然满足了实际的生产需求，但由于限制了注意力视野，因此只有局部信息的贡献，在识别效果上不如整句的离线自注意力机制的方法。我们的语音唤醒方法，所采用的方法是结合这两种自注意力模式，这种二次验证的过程可以很好的弥补两种工作模式的缺陷。另外，该方法保持了这两种自注意力工作模式下，参数是完全共享的。在训练阶段，Conformer声学模型的训练采用基于hybrid CTC/Attention框架，训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数。该训练过程两种工作模式的模型参数始终是共享的，只是流式的部分限制了自注意力机制的工作范围。流程图如图4所示。

推理阶段，采用流式自注意力机制逐帧计算唤醒词出现的概率，当唤醒词概率超过一定阈值时，提取循环缓存保留的短语音(通常1.5s到2s)的声学嵌入特征，做整句的自注意力推理，得到一个新的唤醒词概率，当唤醒词概率超过一定阈值之后做最终的决策。如图5所示。

Claims

1.一种基于参数共享的两阶段语音唤醒方法，其特征在于，基于整句的自注意力模型或基于分块的流式自注意力模型，语音唤醒方法，所采用的方法是结合这两种自注意力模式；

两个唤醒阶段，即全天候监听阶段和二次验证两个阶段，使用了同一组参数的模型，全天候监听阶段采用了将基于分块的在线(流式)注意力机制，二次验证阶段采用了基于整句的离线注意力机制，其中，基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。

2.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法，其特征在于：基于整句的自注意力模型或基于分块的流式自注意力模型，语音唤醒方法，所采用的方法是结合这两种自注意力模式。

3.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法，其特征在于：在训练阶段，Conformer声学模型的训练采用基于hybrid CTC/Attention框架，训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数；该训练过程两种工作模式的模型参数始终是共享的，只是流式的部分限制了自注意力机制的工作范围。

4.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法，其特征在于：推理阶段，采用流式自注意力机制逐帧计算唤醒词出现的概率，当唤醒词概率超过一定阈值时，提取循环缓存保留的短语音的声学嵌入特征，做整句的自注意力推理，得到一个新的唤醒词概率，当唤醒词概率超过一定阈值之后做最终的决策。