CN116229945A - 一种基于参数共享的两阶段语音唤醒方法 - Google Patents

一种基于参数共享的两阶段语音唤醒方法 Download PDF

Info

Publication number
CN116229945A
CN116229945A CN202210750279.XA CN202210750279A CN116229945A CN 116229945 A CN116229945 A CN 116229945A CN 202210750279 A CN202210750279 A CN 202210750279A CN 116229945 A CN116229945 A CN 116229945A
Authority
CN
China
Prior art keywords
self
attention
wake
streaming
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210750279.XA
Other languages
English (en)
Inventor
黄乐凯
何昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shenghan Information Technology Co ltd
Original Assignee
Shanghai Shenghan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shenghan Information Technology Co ltd filed Critical Shanghai Shenghan Information Technology Co ltd
Priority to CN202210750279.XA priority Critical patent/CN116229945A/zh
Publication of CN116229945A publication Critical patent/CN116229945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于参数共享的两阶段语音唤醒方法,基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。

Description

一种基于参数共享的两阶段语音唤醒方法
技术领域
本发明涉及语音识别技术领域,特别是一种基于参数共享的两阶段语音唤醒方法。
背景技术
随着语音识别技术的飞速发展,语音唤醒技术的应用越来越普遍。语音唤醒功能作为智能家居设备的主要功能,已经越来越多应用于家庭生活场景之中,但由于家庭语音环境的复杂情况,容易导致误触发的情况发生,这非常影响用户的实际体验。目前业界通常会采用两级唤醒的模式降低误触发。具体来说就是,第一级唤醒主要用于全天候监听,二级唤醒是在发生可能疑似唤醒的时候,利用一个更优的模型做二次打分,以此作为最终的决策。这种两级语音唤醒机制,可以非常有效地降低误触发的概率。另外,考虑到功耗问题,一级唤醒通常采用模型尺寸小延迟小的唤醒模型,二级则考虑效果更好参数更大的唤醒模型。因此一二级唤醒模型的结构通常差异较大,这就要求在训练模型阶段分别训练一二级唤醒模型。
发明内容
本发明要解决的技术问题是提供了一种基于参数共享的两阶段语音唤醒方法,可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。
为了解决上诉技术问题,本发明采用如下技术方案:
上述的一种基于参数共享的两阶段语音唤醒方法,其中:基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。
两个唤醒阶段(即全天候监听阶段和二次验证两个阶段)使用了同一组参数的模型,但是全天候监听阶段采用了将基于分块的在线(流式)注意力机制,二次验证阶段采用了基于整句的离线注意力机制。其中,基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。
上述的一种基于参数共享的两阶段语音唤醒方法,其中:在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数;该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。
上述的一种基于参数共享的两阶段语音唤醒方法,其中:推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。
与现有技术相比,本发明的有益效果是:本发明公开了一种模型参数共享的两阶段语音唤醒方法,可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。
说明书附图
图1为Conformer声学编码结构的示意图。
图2为基于整句的自注意力机制的示意图。
图3为基于分块的自注意力机制的示意图。
图4为在线/离线混合模型的训练框架图。
图5为两阶段语音唤醒推理过程的示意图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。
本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。图1为Conformer声学编码结构示意图。其中,注意力机制是一种模拟人类视觉所特有的大脑信号处理机制,人们将这一特殊结构应用于在机器学习模型,来自动学习和计算输入数据对输出数据的贡献大小。在语音识别应用领域,注意力机制是考虑单句所有时间帧序列的声学特征对于某一帧输出特征的贡献值。这种机制需要在整句结束后才能做声学特征分析(也称离线识别),如图2所示。考虑到实时语音识别系统的应用,我们引用了一种基于分块(Chunk-wise)的在线注意力机制,即通过限制自注意力机制范围对局部依赖信息进行建模。一个由2帧历史信息和1帧未来信息构成的分块自注意力机制,如图3所示。其中,基于整句的自注意力模型识别效果更优,但是该方法只能对完整的单句进行运算识别,不利于流式的语音应用。而基于分块的流式自注意力模型虽然满足了实际的生产需求,但由于限制了注意力视野,因此只有局部信息的贡献,在识别效果上不如整句的离线自注意力机制的方法。我们的语音唤醒方法,所采用的方法是结合这两种自注意力模式,这种二次验证的过程可以很好的弥补两种工作模式的缺陷。另外,该方法保持了这两种自注意力工作模式下,参数是完全共享的。在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数。该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。流程图如图4所示。
推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音(通常1.5s到2s)的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。如图5所示。

Claims (4)

1.一种基于参数共享的两阶段语音唤醒方法,其特征在于,基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式;
两个唤醒阶段,即全天候监听阶段和二次验证两个阶段,使用了同一组参数的模型,全天候监听阶段采用了将基于分块的在线(流式)注意力机制,二次验证阶段采用了基于整句的离线注意力机制,其中,基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。
2.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。
3.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数;该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。
4.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。
CN202210750279.XA 2022-06-28 2022-06-28 一种基于参数共享的两阶段语音唤醒方法 Pending CN116229945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210750279.XA CN116229945A (zh) 2022-06-28 2022-06-28 一种基于参数共享的两阶段语音唤醒方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210750279.XA CN116229945A (zh) 2022-06-28 2022-06-28 一种基于参数共享的两阶段语音唤醒方法

Publications (1)

Publication Number Publication Date
CN116229945A true CN116229945A (zh) 2023-06-06

Family

ID=86571830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210750279.XA Pending CN116229945A (zh) 2022-06-28 2022-06-28 一种基于参数共享的两阶段语音唤醒方法

Country Status (1)

Country Link
CN (1) CN116229945A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275484A (zh) * 2023-11-17 2023-12-22 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117275484A (zh) * 2023-11-17 2023-12-22 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质
CN117275484B (zh) * 2023-11-17 2024-02-20 深圳市友杰智新科技有限公司 命令词识别方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
WO2018059405A1 (zh) 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
TWI576825B (zh) 一種機器人系統的聲音識別系統及方法
CN105096939A (zh) 语音唤醒方法和装置
CN112838946B (zh) 基于通信网故障智能感知与预警模型的构建方法
CN105469065A (zh) 一种基于递归神经网络的离散情感识别方法
Huahu et al. Application of speech emotion recognition in intelligent household robot
CN105427869A (zh) 一种基于深度学习的会话情感自动分析方法
CN109243446A (zh) 一种基于rnn网络的语音唤醒方法
CN108133705A (zh) 基于对偶学习的语音识别与语音合成模型训练方法
WO2017206725A1 (zh) 一种智能冰箱、服务器及语言控制系统和方法
CN111667818A (zh) 一种训练唤醒模型的方法及装置
CN113674746B (zh) 人机交互方法、装置、设备以及存储介质
US11194378B2 (en) Information processing method and electronic device
CN116229945A (zh) 一种基于参数共享的两阶段语音唤醒方法
CN111161714A (zh) 一种语音信息处理方法、电子设备及存储介质
WO2023098459A1 (zh) 语音唤醒方法、装置、电子设备及可读存储介质
CN111179944B (zh) 语音唤醒及年龄检测方法、装置及计算机可读存储介质
CN112652306A (zh) 语音唤醒方法、装置、计算机设备和存储介质
CN113782009A (zh) 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统
CN113674742A (zh) 人机交互方法、装置、设备以及存储介质
CN105609103A (zh) 一种语音即时识别系统
CN112207811B (zh) 一种机器人控制方法、装置、机器人及存储介质
CN111223489A (zh) 一种基于Attention注意力机制的特定关键词识别方法及系统
Zhu et al. Speech-oriented sparse attention denoising for voice user interface toward industry 5.0
CN117713377A (zh) 调度自动化主站智能语音联调系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination