CN111933114A - 语音唤醒混合模型的训练方法、使用方法和相关设备 - Google Patents
语音唤醒混合模型的训练方法、使用方法和相关设备 Download PDFInfo
- Publication number
- CN111933114A CN111933114A CN202011068831.4A CN202011068831A CN111933114A CN 111933114 A CN111933114 A CN 111933114A CN 202011068831 A CN202011068831 A CN 202011068831A CN 111933114 A CN111933114 A CN 111933114A
- Authority
- CN
- China
- Prior art keywords
- awakening
- loss function
- clean
- sample
- wake
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012549 training Methods 0.000 title claims abstract description 71
- 230000006870 function Effects 0.000 claims abstract description 183
- 238000000926 separation method Methods 0.000 claims abstract description 121
- 238000001514 detection method Methods 0.000 claims abstract description 63
- 230000009466 transformation Effects 0.000 claims abstract description 39
- 238000001228 spectrum Methods 0.000 claims description 64
- 230000000875 corresponding effect Effects 0.000 claims description 30
- 238000007781 pre-processing Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 11
- 238000005457 optimization Methods 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000002618 waking effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请提供了一种语音唤醒混合模型的训练方法、使用方法和相关设备,模型训练时,通过语音分离网络、特征变换网络和唤醒词检测网络混合学习训练得到语音唤醒混合模型。模型在使用时,将待识别音频输入语音唤醒混合模型内,直接得到唤醒概率。在唤醒概率大于阈值时,判定从待识别音频中识别到唤醒词。本申请在模型训练过程中,通过语音分离网络得到的第一损失函数、唤醒词检测网络得到的第二损失函数加权得到综合损失函数,并据此反向传播,学习得到语音分离网络、特征变换网络和唤醒词检测网络各自的权值参数。同时,本申请将上述各个网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,有效提高唤醒率。
Description
技术领域
本申请涉及语音唤醒技术领域,特别涉及一种语音唤醒混合模型的训练方法、使用方法和相关设备。
背景技术
现有的语音唤醒技术中,有基于传统GMM-HMM(高斯混合模型-隐马尔可夫模型)的方法,利用单音素或者三音素作为HMM(隐马尔可夫模型)隐藏状态,在得到声音序列信号后,通过解码得到最优的状态序列,来判断语音信号中是否有目标关键词,该方法实现复杂,同时需要样本有详细标注信息,数据获取成本高,且效果并不理想,对集外词拒识差;另外一些基于DNN(深度神经网络)的端到端方法,实现流程较简单,效果比传统方法好,但是模型一般比较大,无法在端侧设备上部署,而模型较小时,对不完整的唤醒词误唤醒率较高,在噪声环境下的唤醒率低。
发明内容
本申请的主要目的为提供一种语音唤醒混合模型的训练方法、使用方法和相关设备,旨在解决现有语音唤醒技术的复杂度较高、唤醒率低的弊端。
为实现上述目的,本申请提供了一种语音唤醒混合模型的训练方法,包括:
获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
根据所述第一损失函数和第二损失函数计算得到综合损失函数;
使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
进一步的,所述获取预处理样本集的步骤,包括:
获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本集。
进一步的,所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出的步骤,包括:
对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
进一步的,所述干净唤醒样本包含唤醒词,所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数的步骤,包括:
使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
进一步的,所述根据所述第一损失函数和第二损失函数计算得到综合损失函数的步骤,包括:
将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
本申请还提供了一种语音唤醒混合模型的使用方法,所述语音唤醒混合模型为上述任一项所述的训练方法得到的语音唤醒混合模型,所述使用方法包括:
获取待识别音频;
将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
判断所述唤醒概率是否大于阈值;
若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
进一步的,所述判定从所述待识别音频中识别到唤醒词的步骤之后,包括:
输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本申请还提供了一种语音唤醒混合模型的训练装置,包括:
第一获取模块,用于获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
第一处理模块,用于将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
提取模块,用于使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
第二处理模块,用于将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
计算模块,用于根据所述第一损失函数和第二损失函数计算得到综合损失函数;
训练模块,用于使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
进一步的,所述第一获取模块,包括:
获取单元,用于获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
扩充单元,用于对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
综合单元,用于综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本集。
进一步的,所述第一处理模块,包括:
变换单元,用于对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
处理单元,用于将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
进一步的,所述干净唤醒样本包含唤醒词,所述第二处理模块,包括:
对齐单元,用于使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
设置单元,用于在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
计算单元,用于将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
进一步的,所述计算模块,包括:
计算单元,用于将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
本申请还提供了一种语音唤醒混合模型的使用装置,所述语音唤醒混合模型为上述任一项所述的训练方法得到的语音唤醒混合模型,所述使用装置包括:
第二获取模块,用于获取待识别音频;
输入模块,用于将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
判断模块,用于判断所述唤醒概率是否大于阈值;
判定模块,用于若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
进一步的,所述识别装置,还包括:
输出模块,用于输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种语音唤醒混合模型的训练方法、使用方法和相关设备,模型训练时,首先对干净唤醒样本集进行预处理,得到预处理样本集。将预处理干净唤醒样本集中各样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出。再使用特征变换网络对分离输出进行特征提取,得到声学特征。系统将声学特征和干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数,并根据第一损失函数和第二损失函数计算得到综合损失函数。最后使用综合损失函数进行反向传播,分别训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,以完成语音唤醒混合模型的训练。模型在使用时,将待识别音频输入语音唤醒混合模型内,直接得到唤醒概率。在唤醒概率大于阈值时,则判定从待识别音频中识别到唤醒词。本申请在模型训练过程中,所使用的的分离网络仅仅使用包含有唤醒词内容的样本进行训练,训练后的网络只识别唤醒词内容,非唤醒词内容、包括其它的说话语音都将被抑制,该分离网络能大大降低后一级唤醒网络的性能要求,使后一级能设计体积更小的唤醒网路。同时,本申请将语音分离网络以及唤醒词检测网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,有效提高唤醒率。
附图说明
图1是本申请一实施例中语音唤醒混合模型的训练方法步骤示意图;
图2是本申请一实施例中语音唤醒混合模型的使用方法步骤示意图;
图3是本申请一实施例中语音唤醒混合模型的训练装置整体结构框图;
图4是本申请一实施例中语音唤醒混合模型的使用装置整体结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种语音唤醒混合模型的训练方法,包括:
S1:获取获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
S2:将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
S3:使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
S4:将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
S5:根据所述第一损失函数和第二损失函数计算得到综合损失函数;
S6:使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
本实施例中,开发人员将收集的干净唤醒样本集(干净唤醒样本集包含多个干净唤醒样本)输入到系统内,其中,干净唤醒样本为包含有唤醒词内容的音频片段,干净唤醒样本为干净样本,即不包含噪声。系统在接收到干净唤醒样本后,对干净唤醒样本集进行预处理,实现对样本数量的扩充,得到预处理样本集。具体地,系统通过对各干净样本进行随机信噪比加噪加混响进行扩充,比如一个干净样本音频,加噪声混合,生成一条新的样本音频,这样就有2条样本音频了,其中,新的样本音频为带噪正样本,原来的干净样本集加上带噪样本集组成预处理样本集。系统对各个干净唤醒样本和各个带噪样本分别进行短时傅里叶变换,从而得到各个干净唤醒样本的干净log功率谱和各个带噪样本的带噪log功率谱。系统将各个干净log功率谱和带噪log功率谱输入语音分离网络,得到第一损失函数和分离输出。其中,第一损失函数是表征语音分离网络的输出结果和正确结果之间的差距,而分离输出是经过降噪、分离后的音频信号。系统将分离输出输入到特征变换网络中进行特征提取,根据自身的学习结果从分离输出中提取得到对应的声学特征。本实施例中的特征变换网络为线性变换网络,从前一级网络输出自动学习到最有利的声学特征。线性变换方式为:,其中X为变换网络输入特征,W为权值矩阵,b为偏置向量,W和b为待学习参数。系统使用VAD(语音活动检测)和GMM-HMM将干净唤醒样本中的语音帧和对应的标签进行对齐,并在对齐后的干净唤醒样本中,将唤醒词结束后的预设帧(比如结束后的T帧,T的值由开发人员设定,其取值不做限制)的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签。系统将声学特征和帧标签输入唤醒词检测网络,计算得到第二损失函数。系统根据第一损失函数和第二损失函数,进行加权计算得到综合函数。最后使用综合损失函数进行反向传播(深度学习的一种梯度下降训练方法),通过学习训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,实现对语音分离网络、特征变换网络和唤醒词检测网络的模型参数的更新,至此完成整个语音唤醒混合模型的训练。本实施例中,在模型训练时,所使用的的分离网络仅使用包含有唤醒词内容的样本进行训练,训练后的网络只识别唤醒词内容,非唤醒词内容、包括其它的说话语音都将被抑制,该分离网络能大大降低后一级唤醒网络的性能要求,使后一级能设计体积更小的唤醒网路,大幅度降低模型的复杂度,使其能够满足在端侧设备上部署。同时,将语音分离网络以及唤醒词检测网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,能够大幅度提高对唤醒词的识别率,从而提高唤醒率。
进一步的,所述获取预处理样本集的步骤,包括:
S101:获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
S102:对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
S103:综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本。
本实施例中,为了扩充样本,系统对干净唤醒样本集中的干净样本进行随机信噪比加噪和/或加混响进行扩充,比如一个干净样本音频,加噪声混合,生成一条新的样本音频,这样就有2条样本音频了,其中,新的样本音频为带噪正样本,原来的所有干净样本加上带噪样本组成预处理样本集。
进一步的,所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出的步骤,包括:
S201:对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
S202:将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
本实施例中,系统对预处理样本集中的各个干净唤醒样本和带噪样本分别进行短时傅里叶变换,得到各个干净唤醒样本分别对应的干净log功率谱和各个带噪样本分别对应的带噪log功率谱。然后,将所有的干净log功率谱和带噪log功率谱输入语音分离网络,得到第一损失函数和分离输出。其中,语音分离网络为一个RNN网络,输入大小维度为(batchsize, N, feature_size),其中batchsize为批处理大小,训练时为一个较大的值,推理测试时为1;N为一个样本的帧数,同样训练的时候为一个变化的数值,推理测试时为1,保证实际使用的时候为帧流式输入;feature_size为输入特征大小,如本实施例中使用161维向量。语音分离网络的输出为抑制非唤醒词以外声音的增强语音(即唤醒词的增强语音),维度大小同样为(batchsize, N, feature_size)。
进一步的,所述干净唤醒样本包含唤醒词,所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数的步骤,包括:
S401:使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
S402:在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
S403:将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
本实施例中,系统使用VAD和GMM-HMM将干净唤醒样本中的语音帧和对应的标签进行对齐,并在对齐后的干净唤醒样本中,将唤醒词结束后的预设帧(比如结束后的T帧,T的值由开发人员设定,其取值不做限制)的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签。其中,VAD/GMM-HMM对齐是获得音素标签,标签设置则是获取0/1标签。系统使用VAD加上GMM-HMM联合打分的方法计算帧标签,将唤醒词结束后的T帧标签设置为1,其它位置的帧标签设置为0。该方法避免了传统音素标注的繁重操作,只要求在唤醒词结束后出现标签1,其余位置都为0,大大降低了对GMM-HMM/VAD自身的准确度要求。同时,相比较端到端方法里的单一标签,本方法依旧保留了关键词在语音段中的位置信息,可以保证设计出逐帧流式输入的分离和唤醒网络,能有效提升网络训练的收敛速度,显著降低实际使用的误唤醒情况。系统将声学特征和帧标签输入唤醒词检测网络,计算得到第二损失函数。本实施例中,为了保证整体模型的复杂度以及联合优化效果,唤醒词检测网络与语音分离模型的网络类型一致,同样为一个RNN网络,唤醒词检测网络与语音分离模型的RNN网络最优层数以及隐藏单元等参数通过在数据集上进行网格搜索得到。
进一步的,所述根据所述第一损失函数和第二损失函数计算得到综合损失函数的步骤,包括:
S501:将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
本实施例中,系统将第一损失函数和第二损失函数代入预设公式中进行加权计算,从而得到语音分离网络和唤醒词检测网络两者的综合损失函数。其中,预设公式为:,S1为第一损失函数,S2为第二损失函数,S3为综合损失函数,Z1为第一权重,Z2为第二权重。本实施例计算得到的综合损失函数用于反向传播,从而学习训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,以提高训练后的语音唤醒混合模型对唤醒词的识别率,提高应用时在噪声环境下的唤醒率。
参照图2,本申请一实施例中还提供了一种语音唤醒混合模型的使用方法,所述语音唤醒混合模型为上述任一项所述的训练方法得到的语音唤醒混合模型,所述使用方法包括:
A1:获取待识别音频;
A2:将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
A3:判断所述唤醒概率是否大于阈值;
A4:若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
本实施例中,上述训练所得的语音唤醒混合模型在应用时,系统获取到用户输入的待识别音频后,将待识别音频输入语音唤醒混合模型内。待识别音频经短时傅里叶变换提取得到对应的待识别log功率谱,待识别log功率谱依次送入语音分离网络、特征变换网络和唤醒词检测网络,计算得到唤醒输出,该唤醒输出即为唤醒概率,具体为一个一维概率值,表示截止到当前帧(即从待识别音频中)检测到唤醒词的概率值。系统内设置有阈值,在得到唤醒概率后,将唤醒概率与阈值进行比较,判断两者之间的大小关系。如果唤醒概率小于阈值,则判定当前次没有从待识别音频中识别到唤醒词。如果唤醒概率大于阈值,则系统判定从待识别音频中识别到唤醒词。本实施例中,通过使用上述的语音唤醒混合模型来识别待识别音频中的唤醒词,能够在噪声环境下实现对唤醒词的识别,大幅度提高了部署有语音唤醒混合模型的系统的唤醒率。
进一步的,所述判定从所述待识别音频中识别到唤醒词的步骤之后,包括:
A5:输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本实施例中,系统在判定从待识别音频中识别到唤醒词后,输出唤醒信息,并根据唤醒信息执行对应的动作。比如,当前部署有语音唤醒混合模型是应用于智能家电系统,在从用户所发出的语音指令(即待识别音频)中识别到唤醒次后,会根据唤醒词开启相应的家电设备,比如空调、音箱等。
本实施例提供的一种语音唤醒混合模型的训练方法和使用方法,模型训练时,首先对干净唤醒样本集进行预处理,得到预处理样本集。将预处理干净唤醒样本集中各样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出。再使用特征变换网络对分离输出进行特征提取,得到声学特征。系统将声学特征和干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数,并根据第一损失函数和第二损失函数计算得到综合损失函数。最后使用综合损失函数进行反向传播,分别训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,以完成语音唤醒混合模型的训练。模型在使用时,将待识别音频输入语音唤醒混合模型内,直接得到唤醒概率。在唤醒概率大于阈值时,则判定从待识别音频中识别到唤醒词。本申请在模型训练过程中,所使用的的分离网络仅仅使用包含有唤醒词内容的样本进行训练,训练后的网络只识别唤醒词内容,非唤醒词内容、包括其它的说话语音都将被抑制,该分离网络能大大降低后一级唤醒网络的性能要求,使后一级能设计体积更小的唤醒网路。同时,本申请将语音分离网络以及唤醒词检测网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,有效提高唤醒率。
参照图3,本申请一实施例中还提供了一种语音唤醒混合模型的训练装置,包括:
第一获取模块Z1,用于获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
第一处理模块Z2,用于将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
提取模块Z3,用于使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
第二处理模块Z4,用于将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
计算模块Z5,用于根据所述第一损失函数和第二损失函数计算得到综合损失函数;
训练模块Z6,用于使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
本实施例中,开发人员将收集的干净唤醒样本集(干净唤醒样本集包含多个干净唤醒样本)输入到系统内,其中,干净唤醒样本为包含有唤醒词内容的音频片段,干净唤醒样本为干净样本,即不包含噪声。系统在接收到干净唤醒样本后,对干净唤醒样本集进行预处理,实现对样本数量的扩充,得到预处理样本集。具体地,系统通过对各干净样本进行随机信噪比加噪加混响进行扩充,比如一个干净样本音频,加噪声混合,生成一条新的样本音频,这样就有2条样本音频了,其中,新的样本音频为带噪正样本,原来的干净样本集加上带噪样本集组成预处理样本集。系统对各个干净唤醒样本和各个带噪样本分别进行短时傅里叶变换,从而得到各个干净唤醒样本的干净log功率谱和各个带噪样本的带噪log功率谱。系统将各个干净log功率谱和带噪log功率谱输入语音分离网络,得到第一损失函数和分离输出。其中,第一损失函数是表征语音分离网络的输出结果和正确结果之间的差距,而分离输出是经过降噪、分离后的音频信号。系统将分离输出输入到特征变换网络中进行特征提取,根据自身的学习结果从分离输出中提取得到对应的声学特征。本实施例中的特征变换网络为线性变换网络,从前一级网络输出自动学习到最有利的声学特征。线性变换方式为:,其中X为变换网络输入特征,W为权值矩阵,b为偏置向量,W和b为待学习参数。系统使用VAD(语音活动检测)和GMM-HMM将干净唤醒样本中的语音帧和对应的标签进行对齐,并在对齐后的干净唤醒样本中,将唤醒词结束后的预设帧(比如结束后的T帧,T的值由开发人员设定,其取值不做限制)的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签。系统将声学特征和帧标签输入唤醒词检测网络,计算得到第二损失函数。系统根据第一损失函数和第二损失函数,进行加权计算得到综合函数。最后使用综合损失函数进行反向传播(深度学习的一种梯度下降训练方法),通过学习训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,实现对语音分离网络、特征变换网络和唤醒词检测网络的模型参数的更新,至此完成整个语音唤醒混合模型的训练。本实施例中,在模型训练时,所使用的的分离网络仅使用包含有唤醒词内容的样本进行训练,训练后的网络只识别唤醒词内容,非唤醒词内容、包括其它的说话语音都将被抑制,该分离网络能大大降低后一级唤醒网络的性能要求,使后一级能设计体积更小的唤醒网路,大幅度降低模型的复杂度,使其能够满足在端侧设备上部署。同时,将语音分离网络以及唤醒词检测网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,能够大幅度提高对唤醒词的识别率,从而提高唤醒率。
进一步的,所述第一获取模块Z1,包括:
获取单元,用于获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
扩充单元,用于对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
综合单元,用于综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本集。
本实施例中,为了扩充样本,系统对干净唤醒样本集中的干净样本进行随机信噪比加噪和/或加混响进行扩充,比如一个干净样本音频,加噪声混合,生成一条新的样本音频,这样就有2条样本音频了,其中,新的样本音频为带噪正样本,原来的所有干净样本加上带噪样本组成预处理样本集。
进一步的,所述第一处理模块Z2,包括:
变换单元,用于对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
处理单元,用于将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
本实施例中,系统对预处理样本集中的各个干净唤醒样本和带噪样本分别进行短时傅里叶变换,得到各个干净唤醒样本分别对应的干净log功率谱和各个带噪样本分别对应的带噪log功率谱。然后,将所有的干净log功率谱和带噪log功率谱输入语音分离网络,得到第一损失函数和分离输出。其中,语音分离网络为一个RNN网络,输入大小维度为(batchsize, N, feature_size),其中batchsize为批处理大小,训练时为一个较大的值,推理测试时为1;N为一个样本的帧数,同样训练的时候为一个变化的数值,推理测试时为1,保证实际使用的时候为帧流式输入;feature_size为输入特征大小,如本实施例中使用161维向量。语音分离网络的输出为抑制非唤醒词以外声音的增强语音(即唤醒词的增强语音),维度大小同样为(batchsize, N, feature_size)。
进一步的,所述干净唤醒样本包含唤醒词,所述第二处理模块Z4,包括:
对齐单元,用于使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
设置单元,用于在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
计算单元,用于将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
本实施例中,系统使用VAD和GMM-HMM将干净唤醒样本中的语音帧和对应的标签进行对齐,并在对齐后的干净唤醒样本中,将唤醒词结束后的预设帧(比如结束后的T帧,T的值由开发人员设定,其取值不做限制)的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签。系统使用VAD加上GMM-HMM联合打分的方法计算帧标签,将唤醒词结束后的T帧标签设置为1,其它位置的帧标签设置为0。其中,VAD/GMM-HMM对齐是获得音素标签,标签设置则是获取0/1标签。该方法避免了传统音素标注的繁重操作,只要求在唤醒词结束后出现标签1,其余位置都为0,大大降低了对GMM-HMM/VAD自身的准确度要求。同时,相比较端到端方法里的单一标签,本方法依旧保留了关键词在语音段中的位置信息,可以保证设计出逐帧流式输入的分离和唤醒网络,能有效提升网络训练的收敛速度,显著降低实际使用的误唤醒情况。系统将声学特征和帧标签输入唤醒词检测网络,计算得到第二损失函数。本实施例中,为了保证整体模型的复杂度以及联合优化效果,唤醒词检测网络与语音分离模型的网络类型一致,同样为一个RNN网络,唤醒词检测网络与语音分离模型的RNN网络最优层数以及隐藏单元等参数通过在数据集上进行网格搜索得到。
进一步的,所述计算模块Z5,包括:
计算单元,用于将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
本实施例中,系统将第一损失函数和第二损失函数代入预设公式中进行加权计算,从而得到语音分离网络和唤醒词检测网络两者的综合损失函数。其中,预设公式为:,S1为第一损失函数,S2为第二损失函数,S3为综合损失函数,Z1为第一权重,Z2为第二权重。本实施例计算得到的综合损失函数用于反向传播,从而学习训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,以提高训练后的语音唤醒混合模型对唤醒词的识别率,提高应用时在噪声环境下的唤醒率。
参照图4,本申请一实施例中还提供了一种语音唤醒混合模型的使用装置,所述语音唤醒混合模型为上述任一项所述的训练方法得到的语音唤醒混合模型,所述使用装置包括:
第二获取模块B1,用于获取待识别音频;
输入模块B2,用于将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
判断模块B3,用于判断所述唤醒概率是否大于阈值;
判定模块B4,用于若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
本实施例中,上述训练所得的语音唤醒混合模型在应用时,系统获取到用户输入的待识别音频后,将待识别音频输入语音唤醒混合模型内。待识别音频经短时傅里叶变换提取得到对应的待识别log功率谱,待识别log功率谱依次送入语音分离网络、特征变换网络和唤醒词检测网络,计算得到唤醒输出,该唤醒输出即为唤醒概率,具体为一个一维概率值,表示截止到当前帧(即从待识别音频中)检测到唤醒词的概率值。系统内设置有阈值,在得到唤醒概率后,将唤醒概率与阈值进行比较,判断两者之间的大小关系。如果唤醒概率小于阈值,则判定当前次没有从待识别音频中识别到唤醒词。如果唤醒概率大于阈值,则系统判定从待识别音频中识别到唤醒词。本实施例中,通过使用上述的语音唤醒混合模型来识别待识别音频中的唤醒词,能够在噪声环境下实现对唤醒词的识别,大幅度提高了部署有语音唤醒混合模型的系统的唤醒率。
进一步的,所述识别装置,还包括:
输出模块B5,用于输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本实施例中,系统在判定从待识别音频中识别到唤醒词后,输出唤醒信息,并根据唤醒信息执行对应的动作。比如,当前部署有语音唤醒混合模型是应用于智能家电系统,在从用户所发出的语音指令(即待识别音频)中识别到唤醒次后,会根据唤醒词开启相应的家电设备,比如空调、音箱等。
本实施例提供的一种语音唤醒混合模型的训练装置和使用装置,模型训练时,首先对干净唤醒样本集进行预处理,得到预处理样本集。将预处理干净唤醒样本集中各样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出。再使用特征变换网络对分离输出进行特征提取,得到声学特征。系统将声学特征和干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数,并根据第一损失函数和第二损失函数计算得到综合损失函数。最后使用综合损失函数进行反向传播,分别训练得到语音分离网络、特征变换网络和唤醒词检测网络的权值参数,以完成语音唤醒混合模型的训练。模型在使用时,将待识别音频输入语音唤醒混合模型内,直接得到唤醒概率。在唤醒概率大于阈值时,则判定从待识别音频中识别到唤醒词。本申请在模型训练过程中,所使用的的分离网络仅仅使用包含有唤醒词内容的样本进行训练,训练后的网络只识别唤醒词内容,非唤醒词内容、包括其它的说话语音都将被抑制,该分离网络能大大降低后一级唤醒网络的性能要求,使后一级能设计体积更小的唤醒网路。同时,本申请将语音分离网络以及唤醒词检测网络统一到一个框架中,用联合优化的方法,使模型能同时学习到最优的分离和唤醒网络参数,有效提高唤醒率。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设公式等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音唤醒混合模型的训练方法和使用方法。
其中,上述处理器执行上述语音唤醒混合模型的训练方法的步骤:
S1:获取获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
S2:将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
S3:使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
S4:将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
S5:根据所述第一损失函数和第二损失函数计算得到综合损失函数;
S6:使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
进一步的,所述获取预处理样本集的步骤,包括:
S101:获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
S102:对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
S103:综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本。
进一步的,所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出的步骤,包括:
S201:对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
S202:将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
进一步的,所述干净唤醒样本包含唤醒词,所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数的步骤,包括:
S401:使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
S402:在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
S403:将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
进一步的,所述根据所述第一损失函数和第二损失函数计算得到综合损失函数的步骤,包括:
S501:将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
上述处理器执行上述语音唤醒混合模型的使用方法的步骤:
A1:获取待识别音频;
A2:将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
A3:判断所述唤醒概率是否大于阈值;
A4:若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
进一步的,所述判定从所述待识别音频中识别到唤醒词的步骤之后,包括:
A5:输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种语音唤醒混合模型的训练方法和使用方法,其中,所述训练方法具体为:
S1:获取获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
S2:将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
S3:使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
S4:将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
S5:根据所述第一损失函数和第二损失函数计算得到综合损失函数;
S6:使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
进一步的,所述获取预处理样本集的步骤,包括:
S101:获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
S102:对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
S103:综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本。
进一步的,所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出的步骤,包括:
S201:对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
S202:将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
进一步的,所述干净唤醒样本包含唤醒词,所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数的步骤,包括:
S401:使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
S402:在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
S403:将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
进一步的,所述根据所述第一损失函数和第二损失函数计算得到综合损失函数的步骤,包括:
S501:将所述第一损失函数和所述第二损失函数代入预设公式中,加权计算得到所述综合损失函数,其中,所述预设公式为:,S1为所述第一损失函数,S2为所述第二损失函数,S3为所述综合损失函数,Z1为第一权重,Z2为第二权重。
所述使用方法具体为:
A1:获取待识别音频;
A2:将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
A3:判断所述唤醒概率是否大于阈值;
A4:若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
进一步的,所述判定从所述待识别音频中识别到唤醒词的步骤之后,包括:
A5:输出唤醒信息,并根据所述唤醒信息执行对应的动作。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音唤醒混合模型的训练方法,其特征在于,包括:
获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
根据所述第一损失函数和第二损失函数计算得到综合损失函数;
使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
2.根据权利要求1所述的语音唤醒混合模型的训练方法,其特征在于,所述获取预处理样本集的步骤,包括:
获取干净唤醒样本集,所述干净唤醒样本集包含多个所述干净唤醒样本;
对各所述干净唤醒样本进行随机信噪比加噪和/或加混响,得到多个带噪样本;
综合所述干净唤醒样本和所述带噪样本,得到所述预处理样本集。
3.根据权利要求2所述的语音唤醒混合模型的训练方法,其特征在于,所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出的步骤,包括:
对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换,得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱;
将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络,得到所述第一损失函数和所述分离输出。
4.根据权利要求1所述的语音唤醒混合模型的训练方法,其特征在于,所述干净唤醒样本包含唤醒词,所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数的步骤,包括:
使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐;
在对齐后的所述干净唤醒样本中,将所述唤醒词结束后的预设帧的标签设置为1,其余帧的标签设置为0,得到所述干净唤醒样本的帧标签;
将所述声学特征和所述帧标签输入唤醒词检测网络,计算得到第二损失函数。
6.一种语音唤醒混合模型的使用方法,其特征在于,所述语音唤醒混合模型为所述权利要求1至5中任一所述的训练方法得到的语音唤醒混合模型,所述使用方法包括:
获取待识别音频;
将所述待识别音频输入所述语音唤醒混合模型内,得到唤醒概率;
判断所述唤醒概率是否大于阈值;
若所述唤醒概率大于阈值,则判定从所述待识别音频中识别到唤醒词。
7.根据权利要求6所述的语音唤醒混合模型的使用方法,其特征在于,所述判定从所述待识别音频中识别到唤醒词的步骤之后,包括:
输出唤醒信息,并根据所述唤醒信息执行对应的动作。
8.一种语音唤醒混合模型的训练装置,其特征在于,包括:
第一获取模块,用于获取预处理样本集,所述预处理样本集包含多个干净唤醒样本和带噪样本;
第一处理模块,用于将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络,得到第一损失函数和分离输出;
提取模块,用于使用特征变换网络对所述分离输出进行特征提取,得到声学特征;
第二处理模块,用于将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络,得到第二损失函数;
计算模块,用于根据所述第一损失函数和第二损失函数计算得到综合损失函数;
训练模块,用于使用所述综合损失函数进行反向传播,分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数,以完成所述语音唤醒混合模型的训练。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011068831.4A CN111933114B (zh) | 2020-10-09 | 2020-10-09 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011068831.4A CN111933114B (zh) | 2020-10-09 | 2020-10-09 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111933114A true CN111933114A (zh) | 2020-11-13 |
CN111933114B CN111933114B (zh) | 2021-02-02 |
Family
ID=73334309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011068831.4A Active CN111933114B (zh) | 2020-10-09 | 2020-10-09 | 语音唤醒混合模型的训练方法、使用方法和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933114B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735482A (zh) * | 2020-12-04 | 2021-04-30 | 珠海亿智电子科技有限公司 | 基于联合深度神经网络的端点检测方法及系统 |
CN112967718A (zh) * | 2021-04-02 | 2021-06-15 | 江苏吉祥星智能科技有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN112992170A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN113035176A (zh) * | 2021-03-09 | 2021-06-25 | 北京声智科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113450771A (zh) * | 2021-07-15 | 2021-09-28 | 维沃移动通信有限公司 | 唤醒方法、模型训练方法和装置 |
JP2022028846A (ja) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
CN114360522A (zh) * | 2022-03-09 | 2022-04-15 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 |
CN114512136A (zh) * | 2022-03-18 | 2022-05-17 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
CN109887511A (zh) * | 2019-04-24 | 2019-06-14 | 武汉水象电子科技有限公司 | 一种基于级联dnn的语音唤醒优化方法 |
CN110364143A (zh) * | 2019-08-14 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置及其智能电子设备 |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111599371A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 语音增加方法、系统、装置及存储介质 |
CN111653276A (zh) * | 2020-06-22 | 2020-09-11 | 四川长虹电器股份有限公司 | 一种语音唤醒系统及方法 |
-
2020
- 2020-10-09 CN CN202011068831.4A patent/CN111933114B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
CN107767863A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
US10614827B1 (en) * | 2017-02-21 | 2020-04-07 | Oben, Inc. | System and method for speech enhancement using dynamic noise profile estimation |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN109887511A (zh) * | 2019-04-24 | 2019-06-14 | 武汉水象电子科技有限公司 | 一种基于级联dnn的语音唤醒优化方法 |
CN110364143A (zh) * | 2019-08-14 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音唤醒方法、装置及其智能电子设备 |
CN111261146A (zh) * | 2020-01-16 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 语音识别及模型训练方法、装置和计算机可读存储介质 |
CN111599371A (zh) * | 2020-05-19 | 2020-08-28 | 苏州奇梦者网络科技有限公司 | 语音增加方法、系统、装置及存储介质 |
CN111653276A (zh) * | 2020-06-22 | 2020-09-11 | 四川长虹电器股份有限公司 | 一种语音唤醒系统及方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022028846A (ja) * | 2018-07-13 | 2022-02-16 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
JP7263492B2 (ja) | 2018-07-13 | 2023-04-24 | グーグル エルエルシー | エンドツーエンドストリーミングキーワードスポッティング |
CN112735482A (zh) * | 2020-12-04 | 2021-04-30 | 珠海亿智电子科技有限公司 | 基于联合深度神经网络的端点检测方法及系统 |
CN112735482B (zh) * | 2020-12-04 | 2024-02-13 | 珠海亿智电子科技有限公司 | 基于联合深度神经网络的端点检测方法及系统 |
CN112992170B (zh) * | 2021-01-29 | 2022-10-28 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN112992170A (zh) * | 2021-01-29 | 2021-06-18 | 青岛海尔科技有限公司 | 模型训练方法及装置、存储介质及电子装置 |
CN113035176A (zh) * | 2021-03-09 | 2021-06-25 | 北京声智科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN113035176B (zh) * | 2021-03-09 | 2023-03-10 | 北京声智科技有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN112967718A (zh) * | 2021-04-02 | 2021-06-15 | 江苏吉祥星智能科技有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN112967718B (zh) * | 2021-04-02 | 2024-04-12 | 深圳吉祥星科技股份有限公司 | 基于声音的投影仪控制方法、装置、设备及存储介质 |
CN113192537A (zh) * | 2021-04-27 | 2021-07-30 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113192537B (zh) * | 2021-04-27 | 2024-04-09 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113450771A (zh) * | 2021-07-15 | 2021-09-28 | 维沃移动通信有限公司 | 唤醒方法、模型训练方法和装置 |
CN114283793A (zh) * | 2021-12-24 | 2022-04-05 | 北京达佳互联信息技术有限公司 | 一种语音唤醒方法、装置、电子设备、介质及程序产品 |
CN114360522B (zh) * | 2022-03-09 | 2022-08-02 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 |
CN114360522A (zh) * | 2022-03-09 | 2022-04-15 | 深圳市友杰智新科技有限公司 | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 |
CN114512136A (zh) * | 2022-03-18 | 2022-05-17 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
CN114512136B (zh) * | 2022-03-18 | 2023-09-26 | 北京百度网讯科技有限公司 | 模型训练、音频处理方法、装置、设备、存储介质及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN111933114B (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933114B (zh) | 语音唤醒混合模型的训练方法、使用方法和相关设备 | |
US11062699B2 (en) | Speech recognition with trained GMM-HMM and LSTM models | |
CN110718223B (zh) | 用于语音交互控制的方法、装置、设备和介质 | |
US20210233511A1 (en) | Multi-type acoustic feature integration method and system based on deep neural networks | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
CN102280106A (zh) | 用于移动通信终端的语音网络搜索方法及其装置 | |
CN110349597B (zh) | 一种语音检测方法及装置 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
EP3640934A1 (en) | Speech recognition method and apparatus | |
CN112233651B (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN114333799B (zh) | 相近音误识别的检测方法、装置和计算机设备 | |
CN114360521B (zh) | 语音识别模型的训练方法、语音误识别的检测方法及设备 | |
CN112767921A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN114360522B (zh) | 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备 | |
CN112509560A (zh) | 一种基于缓存语言模型的语音识别自适应方法和系统 | |
CN113838462B (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN113571045B (zh) | 一种闽南语语音识别方法、系统、设备及介质 | |
CN112634870B (zh) | 关键词检测方法、装置、设备和存储介质 | |
US10929601B1 (en) | Question answering for a multi-modal system | |
CN113990296B (zh) | 语音声学模型的训练方法、后处理方法和相关设备 | |
CN113705671A (zh) | 一种基于文本相关信息感知的说话人识别方法与系统 | |
CN102237082A (zh) | 语音识别系统的自适应方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |