CN108538285B - 一种基于多任务神经网络的多样例关键词检测方法 - Google Patents

一种基于多任务神经网络的多样例关键词检测方法 Download PDF

Info

Publication number
CN108538285B
CN108538285B CN201810180347.7A CN201810180347A CN108538285B CN 108538285 B CN108538285 B CN 108538285B CN 201810180347 A CN201810180347 A CN 201810180347A CN 108538285 B CN108538285 B CN 108538285B
Authority
CN
China
Prior art keywords
bottleeck
training
keyword
state
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810180347.7A
Other languages
English (en)
Other versions
CN108538285A (zh
Inventor
张卫强
杨建斌
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201810180347.7A priority Critical patent/CN108538285B/zh
Publication of CN108538285A publication Critical patent/CN108538285A/zh
Application granted granted Critical
Publication of CN108538285B publication Critical patent/CN108538285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。

Description

一种基于多任务神经网络的多样例关键词检测方法
技术领域
本发明属于语音信号处理技术领域,特别涉及一种基于多任务神经网络的多样例关键词检测方法。
背景技术
语音关键词检测技术作为处理海量音频数据的人工智能技术之一,为人们快速从海量语音数据中检索出预先定义的关键词提供了解决方案。当前,根据关键词检索对象的不同,关键词检测可以分为两类:基于文本的关键词检测,关键词以文本形式给出;基于样例的关键词检测,关键词以语音片段(样例)的形式给出。在算法方面,文本关键词检测的主流技术基于LVCSR(大词汇量连续语音识别)和文本匹配;样例关键词检测的主流技术则基于DTW(动态时间规整)模板匹配。实际的应用场景中,在处理资源匮乏的语言或使用范围狭小的方言,甚至语种未知的情况下,基于文本的方法难以取得良好的效果。在此低资源条件下,基于样例的方法更为适用,但当每个关键词的样例数目增加到几十量级时,模板匹配方法带来的性能提升有限。
发明内容
本发明的目的是提出一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);
步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank,)特征;
步骤3:利用bottleneck-DNN提取目标数据集的瓶颈bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务深度神经网络(DNN)声学模型训练。
步骤6:利用步骤5中训练的多任务深度神经网络(DNN)声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。
所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该层与其他隐层相比节点数较少,该层激活函数为线性,其余隐层激活函数为S形(sigmoid)函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征。
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到的具体步骤如下:
步骤401:统计第k个关键词的平均帧数
Figure BDA0001588600120000021
根据时长信息确定每个关键词的状态数目
Figure BDA0001588600120000022
其中τ为每个状态持续的帧数,可取为10;
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上oi11,oi21,oi32,…,oitNk,其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果。
所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s2,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义任务A的目标函数为交叉熵函数
Figure BDA0001588600120000049
其中
Figure BDA0001588600120000041
为目标概率,在{0,1}之间取值,
Figure BDA0001588600120000042
为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为
Figure BDA0001588600120000043
其中
Figure BDA0001588600120000044
为目标概率,在{0,1}之间取值,
Figure BDA0001588600120000045
为DNN的输出概率,1≤t≤T,T为特征的帧数。
步骤504:DNN前馈计算
Figure BDA0001588600120000046
Figure BDA0001588600120000047
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为
Figure BDA0001588600120000048
其中λ为与辅助任务B绑定的权重。
所述步骤6中,解码网络采用自由循环结构。
本发明的有益效果是,多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
说明书附图
图1是基于多任务神经网络的多样例关键词检测的流程图。
具体实施方式
本发明提出了一种基于多任务神经网络的多样例关键词检测方法,下面结合附图,对优选实施例作详细说明。
图1所示是基于多任务神经网络的多样例关键词检测的流程图。
图1中所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络(bottleneck-DNN)。所述多语言数据集为中英文混合数据集,对该数据集音频提取40维fbank特征及其一、二阶差分(通常一阶差分是计算当前时刻的后一时刻与前一时刻的差值,二阶差分是将一阶差分结果作为当前序列,计算当前时刻的后一时刻与前一时刻的差值),做前后5帧扩展训练bottleneck-DNN,该DNN隐含层数设置为6,隐含层神经元节点数设为1024,bottleneck层节点数设为256。
步骤2:对目标数据集音频逐帧提取fbank特征。设帧长为25ms,帧移为10ms,提取其40维fbank特征及其一、二阶差分。
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征。将步骤2中获得的fbank特征做均值方差归一化和前后5帧扩展输入步骤1训练好的DNN,其bottleneck层的输出即为bottleneck特征。
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词分别训练一个HMM模型并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型。所述帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到,具体步骤如下:
步骤401:统计第k个关键词的平均帧数
Figure BDA0001588600120000051
根据时长信息确定每个关键词的状态数目
Figure BDA0001588600120000052
其中τ为每个状态持续的帧数,可取为10.
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上
Figure BDA0001588600120000053
其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型。
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数。
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止。否则,返回步骤403进行下一次迭代。
步骤407:输出对齐的结果。
步骤5:设计主任务A和辅助任务B,利用bottleneck特征进行多任务DNN声学模型训练。主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务B则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};也可在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;也可将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定主要任务为A,辅助任务为B。
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ。所述预训练为采用对比散度(CD)算法训练一系列受限波尔兹曼机(RBM),再将其堆叠起来成为深度置信网络(DBN)。
步骤503:定义任务A的目标函数为交叉熵函数
Figure BDA0001588600120000061
其中
Figure BDA0001588600120000062
为目标概率,在{0,1}之间取值,对于目标类别其值为1,否则为0;
Figure BDA0001588600120000063
为DNN的输出概率,由任务A输出层的softmax函数得到;1≤t≤T,T为特征的帧数。相应地,定义任务B的目标函数为
Figure BDA0001588600120000071
A、B任务分别拥有独立的输出层,但共享网络中所有的隐层单元。
步骤504:DNN前馈计算
Figure BDA0001588600120000072
Figure BDA0001588600120000073
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为
Figure BDA0001588600120000074
其中λ为与辅助任务B绑定的权重。
步骤6:利用步骤5中训练的模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。多任务DNN前馈可获得对应于多个输出层的多组后验概率分数,所述维特比解码只针对属于主任务A的分数应用,解码网络为自由循环结构,相比LVCSR解码器结构更为简单。

Claims (3)

1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络bottleneck-DNN;
步骤2:对目标数据集音频逐帧提取频带过滤fbank特征;
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型HMM,并获取关键词的bottleneck特征的帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:
步骤401:统计第k个关键词的平均帧数
Figure FDA0002989092040000011
根据时长信息确定每个关键词的状态数目
Figure FDA0002989092040000012
其中τ为每个状态持续的帧数,取为10;
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上
Figure FDA0002989092040000013
其中oimn表示该关键词的第i个样例的第m帧分配到状态n上;
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数;
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;
步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果;
所述步骤6中,解码网络采用自由循环结构。
2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为sigmoid函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类;多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数
Figure FDA0002989092040000031
其中
Figure FDA0002989092040000032
为目标概率,在{0,1}之间取值,
Figure FDA0002989092040000033
为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为
Figure FDA0002989092040000034
其中
Figure FDA0002989092040000035
为目标概率,在{0,1}之间取值,
Figure FDA0002989092040000036
为DNN的输出概率,1≤t≤T,T为特征的帧数;
步骤504:DNN前馈计算
Figure FDA0002989092040000037
Figure FDA0002989092040000038
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为
Figure FDA0002989092040000039
其中λ为与辅助任务B绑定的权重。
CN201810180347.7A 2018-03-05 2018-03-05 一种基于多任务神经网络的多样例关键词检测方法 Active CN108538285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810180347.7A CN108538285B (zh) 2018-03-05 2018-03-05 一种基于多任务神经网络的多样例关键词检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810180347.7A CN108538285B (zh) 2018-03-05 2018-03-05 一种基于多任务神经网络的多样例关键词检测方法

Publications (2)

Publication Number Publication Date
CN108538285A CN108538285A (zh) 2018-09-14
CN108538285B true CN108538285B (zh) 2021-05-04

Family

ID=63486586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810180347.7A Active CN108538285B (zh) 2018-03-05 2018-03-05 一种基于多任务神经网络的多样例关键词检测方法

Country Status (1)

Country Link
CN (1) CN108538285B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109712609B (zh) * 2019-01-08 2021-03-30 华南理工大学 一种解决关键词识别样本不均衡的方法
CN110322871A (zh) * 2019-05-30 2019-10-11 清华大学 一种基于声学表征矢量的样例关键词检索方法
CN110648659B (zh) * 2019-09-24 2022-07-01 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110610700B (zh) * 2019-10-16 2022-01-14 科大讯飞股份有限公司 解码网络构建方法、语音识别方法、装置、设备及存储介质
CN110738987B (zh) * 2019-10-18 2022-02-15 清华大学 一种基于统一表征的关键词检索方法
CN111079938B (zh) * 2019-11-28 2020-11-03 百度在线网络技术(北京)有限公司 问答阅读理解模型获取方法、装置、电子设备及存储介质
CN111105788B (zh) * 2019-12-20 2023-03-24 北京三快在线科技有限公司 敏感词分数检测方法、装置、电子设备及存储介质
CN114627874A (zh) 2021-06-15 2022-06-14 宿迁硅基智能科技有限公司 文本对齐方法、存储介质、电子装置
CN113314119B (zh) * 2021-07-27 2021-12-03 深圳百昱达科技有限公司 语音识别智能家居控制方法及装置
CN114360521B (zh) * 2022-03-09 2022-08-19 深圳市友杰智新科技有限公司 语音识别模型的训练方法、语音误识别的检测方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150161994A1 (en) * 2013-12-05 2015-06-11 Nuance Communications, Inc. Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation
US9159321B2 (en) * 2012-02-27 2015-10-13 Hong Kong Baptist University Lip-password based speaker verification system
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159321B2 (en) * 2012-02-27 2015-10-13 Hong Kong Baptist University Lip-password based speaker verification system
US20150161994A1 (en) * 2013-12-05 2015-06-11 Nuance Communications, Inc. Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN106875942A (zh) * 2016-12-28 2017-06-20 中国科学院自动化研究所 基于口音瓶颈特征的声学模型自适应方法
CN106952644A (zh) * 2017-02-24 2017-07-14 华南理工大学 一种基于瓶颈特征的复杂音频分割聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Hybrid deep neural network--hidden markov model (dnn-hmm) based speech emotion recognition";L Li等;《2013 Humaine Association Conference on Affective Computing and Intelligent Interaction》;20131231;全文 *
"Multi-Task Feature Learning for Low-Resource Query-by-Example Spoken Term Detection";Hongjie Chen等;《 IEEE Journal of Selected Topics in Signal Processing》;20171231;第1卷(第8期);全文 *
"基于语音样例查询的关键词识别方法研究";刘学;《中国优秀硕士论文全文数据库》;20161231;全文 *

Also Published As

Publication number Publication date
CN108538285A (zh) 2018-09-14

Similar Documents

Publication Publication Date Title
CN108538285B (zh) 一种基于多任务神经网络的多样例关键词检测方法
US10460721B2 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
US9460711B1 (en) Multilingual, acoustic deep neural networks
TWI530940B (zh) 聲學模型訓練方法和裝置
US8972253B2 (en) Deep belief network for large vocabulary continuous speech recognition
US9177550B2 (en) Conservatively adapting a deep neural network in a recognition system
US7689419B2 (en) Updating hidden conditional random field model parameters after processing individual training samples
US20160260428A1 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
Fohr et al. New paradigm in speech recognition: deep neural networks
CN101149922A (zh) 语音识别装置和语音识别方法
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
Chen et al. Sequence discriminative training for deep learning based acoustic keyword spotting
Becerra et al. Training deep neural networks with non-uniform frame-level cost function for automatic speech recognition
Regmi et al. Nepali speech recognition using rnn-ctc model
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
JP3920749B2 (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
Prabhavalkar et al. Discriminative spoken term detection with limited data.
Savitha Deep recurrent neural network based audio speech recognition system
GAVAT et al. New trends in machine learning for speech recognition
Khorram et al. Soft context clustering for F0 modeling in HMM-based speech synthesis
JPH10254477A (ja) 音素境界検出装置及び音声認識装置
JP4571921B2 (ja) 音響モデル適応化装置、音響モデル適応化方法、音響モデル適応化プログラム及びその記録媒体
Yadav et al. Deep triphone embedding improves phoneme recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant