CN108538285B - 一种基于多任务神经网络的多样例关键词检测方法 - Google Patents
一种基于多任务神经网络的多样例关键词检测方法 Download PDFInfo
- Publication number
- CN108538285B CN108538285B CN201810180347.7A CN201810180347A CN108538285B CN 108538285 B CN108538285 B CN 108538285B CN 201810180347 A CN201810180347 A CN 201810180347A CN 108538285 B CN108538285 B CN 108538285B
- Authority
- CN
- China
- Prior art keywords
- bottleeck
- training
- keyword
- state
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Complex Calculations (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
Description
技术领域
本发明属于语音信号处理技术领域,特别涉及一种基于多任务神经网络的多样例关键词检测方法。
背景技术
语音关键词检测技术作为处理海量音频数据的人工智能技术之一,为人们快速从海量语音数据中检索出预先定义的关键词提供了解决方案。当前,根据关键词检索对象的不同,关键词检测可以分为两类:基于文本的关键词检测,关键词以文本形式给出;基于样例的关键词检测,关键词以语音片段(样例)的形式给出。在算法方面,文本关键词检测的主流技术基于LVCSR(大词汇量连续语音识别)和文本匹配;样例关键词检测的主流技术则基于DTW(动态时间规整)模板匹配。实际的应用场景中,在处理资源匮乏的语言或使用范围狭小的方言,甚至语种未知的情况下,基于文本的方法难以取得良好的效果。在此低资源条件下,基于样例的方法更为适用,但当每个关键词的样例数目增加到几十量级时,模板匹配方法带来的性能提升有限。
发明内容
本发明的目的是提出一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);
步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank,)特征;
步骤3:利用bottleneck-DNN提取目标数据集的瓶颈bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务深度神经网络(DNN)声学模型训练。
步骤6:利用步骤5中训练的多任务深度神经网络(DNN)声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。
所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该层与其他隐层相比节点数较少,该层激活函数为线性,其余隐层激活函数为S形(sigmoid)函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征。
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到的具体步骤如下:
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上oi11,oi21,oi32,…,oitNk,其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果。
所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s2,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数。
所述步骤6中,解码网络采用自由循环结构。
本发明的有益效果是,多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
说明书附图
图1是基于多任务神经网络的多样例关键词检测的流程图。
具体实施方式
本发明提出了一种基于多任务神经网络的多样例关键词检测方法,下面结合附图,对优选实施例作详细说明。
图1所示是基于多任务神经网络的多样例关键词检测的流程图。
图1中所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络(bottleneck-DNN)。所述多语言数据集为中英文混合数据集,对该数据集音频提取40维fbank特征及其一、二阶差分(通常一阶差分是计算当前时刻的后一时刻与前一时刻的差值,二阶差分是将一阶差分结果作为当前序列,计算当前时刻的后一时刻与前一时刻的差值),做前后5帧扩展训练bottleneck-DNN,该DNN隐含层数设置为6,隐含层神经元节点数设为1024,bottleneck层节点数设为256。
步骤2:对目标数据集音频逐帧提取fbank特征。设帧长为25ms,帧移为10ms,提取其40维fbank特征及其一、二阶差分。
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征。将步骤2中获得的fbank特征做均值方差归一化和前后5帧扩展输入步骤1训练好的DNN,其bottleneck层的输出即为bottleneck特征。
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词分别训练一个HMM模型并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型。所述帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到,具体步骤如下:
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型。
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数。
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止。否则,返回步骤403进行下一次迭代。
步骤407:输出对齐的结果。
步骤5:设计主任务A和辅助任务B,利用bottleneck特征进行多任务DNN声学模型训练。主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务B则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};也可在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;也可将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定主要任务为A,辅助任务为B。
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ。所述预训练为采用对比散度(CD)算法训练一系列受限波尔兹曼机(RBM),再将其堆叠起来成为深度置信网络(DBN)。
步骤503:定义任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,对于目标类别其值为1,否则为0;为DNN的输出概率,由任务A输出层的softmax函数得到;1≤t≤T,T为特征的帧数。相应地,定义任务B的目标函数为A、B任务分别拥有独立的输出层,但共享网络中所有的隐层单元。
步骤6:利用步骤5中训练的模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。多任务DNN前馈可获得对应于多个输出层的多组后验概率分数,所述维特比解码只针对属于主任务A的分数应用,解码网络为自由循环结构,相比LVCSR解码器结构更为简单。
Claims (3)
1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络bottleneck-DNN;
步骤2:对目标数据集音频逐帧提取频带过滤fbank特征;
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型HMM,并获取关键词的bottleneck特征的帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数;
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;
步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果;
所述步骤6中,解码网络采用自由循环结构。
2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为sigmoid函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类;多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180347.7A CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180347.7A CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108538285A CN108538285A (zh) | 2018-09-14 |
CN108538285B true CN108538285B (zh) | 2021-05-04 |
Family
ID=63486586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810180347.7A Active CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108538285B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712609B (zh) * | 2019-01-08 | 2021-03-30 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN110322871A (zh) * | 2019-05-30 | 2019-10-11 | 清华大学 | 一种基于声学表征矢量的样例关键词检索方法 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110738987B (zh) * | 2019-10-18 | 2022-02-15 | 清华大学 | 一种基于统一表征的关键词检索方法 |
CN111079938B (zh) * | 2019-11-28 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111105788B (zh) * | 2019-12-20 | 2023-03-24 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
CN114627874A (zh) | 2021-06-15 | 2022-06-14 | 宿迁硅基智能科技有限公司 | 文本对齐方法、存储介质、电子装置 |
CN113314119B (zh) * | 2021-07-27 | 2021-12-03 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN114360521B (zh) * | 2022-03-09 | 2022-08-19 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、语音误识别的检测方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
-
2018
- 2018-03-05 CN CN201810180347.7A patent/CN108538285B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Non-Patent Citations (3)
Title |
---|
"Hybrid deep neural network--hidden markov model (dnn-hmm) based speech emotion recognition";L Li等;《2013 Humaine Association Conference on Affective Computing and Intelligent Interaction》;20131231;全文 * |
"Multi-Task Feature Learning for Low-Resource Query-by-Example Spoken Term Detection";Hongjie Chen等;《 IEEE Journal of Selected Topics in Signal Processing》;20171231;第1卷(第8期);全文 * |
"基于语音样例查询的关键词识别方法研究";刘学;《中国优秀硕士论文全文数据库》;20161231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108538285A (zh) | 2018-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108538285B (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
US10460721B2 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
US9460711B1 (en) | Multilingual, acoustic deep neural networks | |
TWI530940B (zh) | 聲學模型訓練方法和裝置 | |
US8972253B2 (en) | Deep belief network for large vocabulary continuous speech recognition | |
US9177550B2 (en) | Conservatively adapting a deep neural network in a recognition system | |
US7689419B2 (en) | Updating hidden conditional random field model parameters after processing individual training samples | |
US20160260428A1 (en) | Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model | |
Fohr et al. | New paradigm in speech recognition: deep neural networks | |
CN101149922A (zh) | 语音识别装置和语音识别方法 | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
Chen et al. | Sequence discriminative training for deep learning based acoustic keyword spotting | |
Becerra et al. | Training deep neural networks with non-uniform frame-level cost function for automatic speech recognition | |
Regmi et al. | Nepali speech recognition using rnn-ctc model | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP3920749B2 (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
JP6158105B2 (ja) | 言語モデル作成装置、音声認識装置、その方法及びプログラム | |
Becerra et al. | A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish | |
Prabhavalkar et al. | Discriminative spoken term detection with limited data. | |
Savitha | Deep recurrent neural network based audio speech recognition system | |
GAVAT et al. | New trends in machine learning for speech recognition | |
Khorram et al. | Soft context clustering for F0 modeling in HMM-based speech synthesis | |
JPH10254477A (ja) | 音素境界検出装置及び音声認識装置 | |
JP4571921B2 (ja) | 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体 | |
Yadav et al. | Deep triphone embedding improves phoneme recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |