CN116229945A - 一种基于参数共享的两阶段语音唤醒方法 - Google Patents
一种基于参数共享的两阶段语音唤醒方法 Download PDFInfo
- Publication number
- CN116229945A CN116229945A CN202210750279.XA CN202210750279A CN116229945A CN 116229945 A CN116229945 A CN 116229945A CN 202210750279 A CN202210750279 A CN 202210750279A CN 116229945 A CN116229945 A CN 116229945A
- Authority
- CN
- China
- Prior art keywords
- self
- attention
- wake
- streaming
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012795 verification Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于参数共享的两阶段语音唤醒方法,基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。
Description
技术领域
本发明涉及语音识别技术领域,特别是一种基于参数共享的两阶段语音唤醒方法。
背景技术
随着语音识别技术的飞速发展,语音唤醒技术的应用越来越普遍。语音唤醒功能作为智能家居设备的主要功能,已经越来越多应用于家庭生活场景之中,但由于家庭语音环境的复杂情况,容易导致误触发的情况发生,这非常影响用户的实际体验。目前业界通常会采用两级唤醒的模式降低误触发。具体来说就是,第一级唤醒主要用于全天候监听,二级唤醒是在发生可能疑似唤醒的时候,利用一个更优的模型做二次打分,以此作为最终的决策。这种两级语音唤醒机制,可以非常有效地降低误触发的概率。另外,考虑到功耗问题,一级唤醒通常采用模型尺寸小延迟小的唤醒模型,二级则考虑效果更好参数更大的唤醒模型。因此一二级唤醒模型的结构通常差异较大,这就要求在训练模型阶段分别训练一二级唤醒模型。
发明内容
本发明要解决的技术问题是提供了一种基于参数共享的两阶段语音唤醒方法,可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。
为了解决上诉技术问题,本发明采用如下技术方案:
上述的一种基于参数共享的两阶段语音唤醒方法,其中:基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。
两个唤醒阶段(即全天候监听阶段和二次验证两个阶段)使用了同一组参数的模型,但是全天候监听阶段采用了将基于分块的在线(流式)注意力机制,二次验证阶段采用了基于整句的离线注意力机制。其中,基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。
上述的一种基于参数共享的两阶段语音唤醒方法,其中:在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数;该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。
上述的一种基于参数共享的两阶段语音唤醒方法,其中:推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。
与现有技术相比,本发明的有益效果是:本发明公开了一种模型参数共享的两阶段语音唤醒方法,可以一次性训练一个包含两阶段唤醒的语音模型。该方法在满足高唤醒率低误触率要求的前提下,简化了训练流程和推理部分的工程实现。本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。
说明书附图
图1为Conformer声学编码结构的示意图。
图2为基于整句的自注意力机制的示意图。
图3为基于分块的自注意力机制的示意图。
图4为在线/离线混合模型的训练框架图。
图5为两阶段语音唤醒推理过程的示意图。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限制本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。
本发明所采用使用的声学模型是基于自注意力机制(self-attention)的Conformer模型。图1为Conformer声学编码结构示意图。其中,注意力机制是一种模拟人类视觉所特有的大脑信号处理机制,人们将这一特殊结构应用于在机器学习模型,来自动学习和计算输入数据对输出数据的贡献大小。在语音识别应用领域,注意力机制是考虑单句所有时间帧序列的声学特征对于某一帧输出特征的贡献值。这种机制需要在整句结束后才能做声学特征分析(也称离线识别),如图2所示。考虑到实时语音识别系统的应用,我们引用了一种基于分块(Chunk-wise)的在线注意力机制,即通过限制自注意力机制范围对局部依赖信息进行建模。一个由2帧历史信息和1帧未来信息构成的分块自注意力机制,如图3所示。其中,基于整句的自注意力模型识别效果更优,但是该方法只能对完整的单句进行运算识别,不利于流式的语音应用。而基于分块的流式自注意力模型虽然满足了实际的生产需求,但由于限制了注意力视野,因此只有局部信息的贡献,在识别效果上不如整句的离线自注意力机制的方法。我们的语音唤醒方法,所采用的方法是结合这两种自注意力模式,这种二次验证的过程可以很好的弥补两种工作模式的缺陷。另外,该方法保持了这两种自注意力工作模式下,参数是完全共享的。在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数。该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。流程图如图4所示。
推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音(通常1.5s到2s)的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。如图5所示。
Claims (4)
1.一种基于参数共享的两阶段语音唤醒方法,其特征在于,基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式;
两个唤醒阶段,即全天候监听阶段和二次验证两个阶段,使用了同一组参数的模型,全天候监听阶段采用了将基于分块的在线(流式)注意力机制,二次验证阶段采用了基于整句的离线注意力机制,其中,基于分块的在线(流式)注意力机制是通过限制自注意力机制范围对局部依赖信息进行建模。
2.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:基于整句的自注意力模型或基于分块的流式自注意力模型,语音唤醒方法,所采用的方法是结合这两种自注意力模式。
3.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:在训练阶段,Conformer声学模型的训练采用基于hybrid CTC/Attention框架,训练时按一定比例选择基于流式或离线自注意力模式来更新模型参数;该训练过程两种工作模式的模型参数始终是共享的,只是流式的部分限制了自注意力机制的工作范围。
4.如权利要求1所述的一种基于参数共享的两阶段语音唤醒方法,其特征在于:推理阶段,采用流式自注意力机制逐帧计算唤醒词出现的概率,当唤醒词概率超过一定阈值时,提取循环缓存保留的短语音的声学嵌入特征,做整句的自注意力推理,得到一个新的唤醒词概率,当唤醒词概率超过一定阈值之后做最终的决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210750279.XA CN116229945A (zh) | 2022-06-28 | 2022-06-28 | 一种基于参数共享的两阶段语音唤醒方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210750279.XA CN116229945A (zh) | 2022-06-28 | 2022-06-28 | 一种基于参数共享的两阶段语音唤醒方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229945A true CN116229945A (zh) | 2023-06-06 |
Family
ID=86571830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210750279.XA Pending CN116229945A (zh) | 2022-06-28 | 2022-06-28 | 一种基于参数共享的两阶段语音唤醒方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229945A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275484A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市友杰智新科技有限公司 | 命令词识别方法、装置、设备和介质 |
-
2022
- 2022-06-28 CN CN202210750279.XA patent/CN116229945A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117275484A (zh) * | 2023-11-17 | 2023-12-22 | 深圳市友杰智新科技有限公司 | 命令词识别方法、装置、设备和介质 |
CN117275484B (zh) * | 2023-11-17 | 2024-02-20 | 深圳市友杰智新科技有限公司 | 命令词识别方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018059405A1 (zh) | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 | |
TWI576825B (zh) | 一種機器人系統的聲音識別系統及方法 | |
CN105096939A (zh) | 语音唤醒方法和装置 | |
CN112838946B (zh) | 基于通信网故障智能感知与预警模型的构建方法 | |
CN105469065A (zh) | 一种基于递归神经网络的离散情感识别方法 | |
Huahu et al. | Application of speech emotion recognition in intelligent household robot | |
CN105427869A (zh) | 一种基于深度学习的会话情感自动分析方法 | |
CN109243446A (zh) | 一种基于rnn网络的语音唤醒方法 | |
CN108133705A (zh) | 基于对偶学习的语音识别与语音合成模型训练方法 | |
WO2017206725A1 (zh) | 一种智能冰箱、服务器及语言控制系统和方法 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN113674746B (zh) | 人机交互方法、装置、设备以及存储介质 | |
US11194378B2 (en) | Information processing method and electronic device | |
CN116229945A (zh) | 一种基于参数共享的两阶段语音唤醒方法 | |
CN111161714A (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
WO2023098459A1 (zh) | 语音唤醒方法、装置、电子设备及可读存储介质 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
CN112652306A (zh) | 语音唤醒方法、装置、计算机设备和存储介质 | |
CN113782009A (zh) | 一种基于Savitzky-Golay滤波器平滑方法的语音唤醒系统 | |
CN113674742A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN105609103A (zh) | 一种语音即时识别系统 | |
CN112207811B (zh) | 一种机器人控制方法、装置、机器人及存储介质 | |
CN111223489A (zh) | 一种基于Attention注意力机制的特定关键词识别方法及系统 | |
Zhu et al. | Speech-oriented sparse attention denoising for voice user interface toward industry 5.0 | |
CN117713377A (zh) | 调度自动化主站智能语音联调系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |