CN108538285A - 一种基于多任务神经网络的多样例关键词检测方法 - Google Patents
一种基于多任务神经网络的多样例关键词检测方法 Download PDFInfo
- Publication number
- CN108538285A CN108538285A CN201810180347.7A CN201810180347A CN108538285A CN 108538285 A CN108538285 A CN 108538285A CN 201810180347 A CN201810180347 A CN 201810180347A CN 108538285 A CN108538285 A CN 108538285A
- Authority
- CN
- China
- Prior art keywords
- keyword
- bottleneck
- state
- neural network
- dnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000027455 binding Effects 0.000 claims description 3
- 238000009739 binding Methods 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了属于语音信号处理技术领域的一种基于多任务神经网络的多样例关键词检测方法。方法具体包括以下步骤:在多语言的数据集上训练瓶颈深度神经网络、对目标数据集音频逐帧提取fbank特征和提取目标数据集的bottleneck特征、使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个HMM模型,并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;利用bottleneck特征进行多任务DNN声学模型训练;获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。本发明的多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
Description
技术领域
本发明属于语音信号处理技术领域,特别涉及一种基于多任务神经网络的多样例关键词检测方法。
背景技术
语音关键词检测技术作为处理海量音频数据的人工智能技术之一,为人们快速从海量语音数据中检索出预先定义的关键词提供了解决方案。当前,根据关键词检索对象的不同,关键词检测可以分为两类:基于文本的关键词检测,关键词以文本形式给出;基于样例的关键词检测,关键词以语音片段(样例)的形式给出。在算法方面,文本关键词检测的主流技术基于LVCSR(大词汇量连续语音识别)和文本匹配;样例关键词检测的主流技术则基于DTW(动态时间规整)模板匹配。实际的应用场景中,在处理资源匮乏的语言或使用范围狭小的方言,甚至语种未知的情况下,基于文本的方法难以取得良好的效果。在此低资源条件下,基于样例的方法更为适用,但当每个关键词的样例数目增加到几十量级时,模板匹配方法带来的性能提升有限。
发明内容
本发明的目的是提出一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);
步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank,)特征;
步骤3:利用bottleneck-DNN提取目标数据集的瓶颈bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务深度神经网络(DNN)声学模型训练。
步骤6:利用步骤5中训练的多任务深度神经网络(DNN)声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。
所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该层与其他隐层相比节点数较少,该层激活函数为线性,其余隐层激活函数为S形(sigmoid)函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征。
所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到的具体步骤如下:
步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,可取为10;
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上oi11,oi21,oi32,…,oitNk,其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果。
所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s2,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数。
步骤504:DNN前馈计算与
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为其中λ为与辅助任务B绑定的权重。
所述步骤6中,解码网络采用自由循环结构。
本发明的有益效果是,多任务技术可以有效改善低资源条件,使得多样例关键词检测性能明显提升。
说明书附图
图1是基于多任务神经网络的多样例关键词检测的流程图。
具体实施方式
本发明提出了一种基于多任务神经网络的多样例关键词检测方法,下面结合附图,对优选实施例作详细说明。
图1所示是基于多任务神经网络的多样例关键词检测的流程图。
图1中所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈深度神经网络(bottleneck-DNN)。所述多语言数据集为中英文混合数据集,对该数据集音频提取40维fbank特征及其一、二阶差分(通常一阶差分是计算当前时刻的后一时刻与前一时刻的差值,二阶差分是将一阶差分结果作为当前序列,计算当前时刻的后一时刻与前一时刻的差值),做前后5帧扩展训练bottleneck-DNN,该DNN隐含层数设置为6,隐含层神经元节点数设为1024,bottleneck层节点数设为256。
步骤2:对目标数据集音频逐帧提取fbank特征。设帧长为25ms,帧移为10ms,提取其40维fbank特征及其一、二阶差分。
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征。将步骤2中获得的fbank特征做均值方差归一化和前后5帧扩展输入步骤1训练好的DNN,其bottleneck层的输出即为bottleneck特征。
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词分别训练一个HMM模型并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型。所述帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到,具体步骤如下:
步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,可取为10.
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型。
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数。
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止。否则,返回步骤403进行下一次迭代。
步骤407:输出对齐的结果。
步骤5:设计主任务A和辅助任务B,利用bottleneck特征进行多任务DNN声学模型训练。主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务B则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};也可在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;也可将辅助任务设置为对特征所属的说话人进行分类。多任务DNN训练的具体方法如下:
步骤501:设定主要任务为A,辅助任务为B。
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ。所述预训练为采用对比散度(CD)算法训练一系列受限波尔兹曼机(RBM),再将其堆叠起来成为深度置信网络(DBN)。
步骤503:定义任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,对于目标类别其值为1,否则为0;为DNN的输出概率,由任务A输出层的softmax函数得到;1≤t≤T,T为特征的帧数。相应地,定义任务B的目标函数为A、B任务分别拥有独立的输出层,但共享网络中所有的隐层单元。
步骤504:DNN前馈计算与
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为其中λ为与辅助任务B绑定的权重。
步骤6:利用步骤5中训练的模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。多任务DNN前馈可获得对应于多个输出层的多组后验概率分数,所述维特比解码只针对属于主任务A的分数应用,解码网络为自由循环结构,相比LVCSR解码器结构更为简单。
Claims (6)
1.一种基于多任务神经网络的多样例关键词检测方法,其特征在于,所述方法具体包括以下步骤:
步骤1:在多语言的数据集上训练瓶颈(bottleneck)深度神经网络(DNN);
步骤2:对目标数据集音频逐帧提取频带过滤fbank(Filter-bank)特征;
步骤3:利用bottleneck-DNN提取目标数据集的bottleneck特征;
步骤4:使用训练集,利用关键词的bottleneck特征为每一个关键词,分别训练一个隐马尔科夫模型(HMM),并获取其帧级别状态标签,利用所有非关键词的bottleneck特征训练一个填充词模型;
步骤5:设计主任务和辅助任务,利用bottleneck特征进行多任务DNN声学模型训练;
步骤6:利用步骤5中训练的多任务深度神经网络声学模型获取测试集音频的声学分数,应用维特比解码得到关键词检测结果。
2.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤1中,DNN包含多个隐层,其中的一个隐层称为bottleneck层,该隐层与其他隐层相比节点数少;该bottleneck层激活函数为线性,其余隐层激活函数为S形(sigmoid)函数;在多语言数据集上进行训练时,采用混合音素集方法或多任务学习方法。
3.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤3中,将fbank特征进行前后5帧扩展输入bottleneck-DNN,以利用上下文信息,bottleneck层的输出即为bottleneck特征。
4.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤4中,关键词HMM包含多个隐状态,其帧级别状态标签采用基于GMM-HMM的EM算法强制对齐得到;填充词模型只有1个状态,其帧级别状态标签直接得到;其中帧级别状态标签是采用基于GMM-HMM的EM算法强制对齐得到的,具体步骤如下:
步骤401:统计第k个关键词的平均帧数根据时长信息确定每个关键词的状态数目其中τ为每个状态持续的帧数,可取为10;
步骤402:将第i个训练样例的特征oi=(oi1,oi2,...,oit)平均分配到对应的Nk个状态上其中oimn表示该关键词的第i个样例的第m帧分配到状态n上。
步骤403:使用所有样例的属于第n个状态的训练特征,更新其GMM模型;
步骤404:使用上一步得到的GMM模型,对样例在状态单元上重新对齐,得到似然分数;
步骤405:判断似然分数变化是否小于阈值,或迭代次数是否到达指定次数。
步骤406:如果似然分数变化小于阈值或者迭代次数达到指定次数,迭代截止;否则,返回步骤403进行下一次迭代;
步骤407:输出对齐的结果。
5.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤5中,主任务设定为对关键词HMM状态和填充词状态进行预测,辅助任务则有多种选择:对关键词状态和填充词状态的上下文进行预测,即假设某N帧M维特征的状态标签为{s1,s2,...,sN-1,sN},其中s1~sN为每一帧的标签,各为一个M维的向量,则辅助任务标签为{s1,s1,...,sN-2,sN-1}和{s2,s3,...,sN,sN};或在辅助任务中对关键词进行整体建模,即直接将每个关键词以单状态形式对应到神经网络的输出;或将辅助任务设置为对特征所属的说话人进行分类;多任务DNN训练的具体方法如下:
步骤501:设定对关键词HMM状态和填充词状态进行预测为主任务A,辅助任务为B;
步骤502:采用训练数据的bottleneck特征,利用无监督的预训练初始化神经网络参数θ;
步骤503:定义主任务A的目标函数为交叉熵函数其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数;相应地,定义辅助任务B的目标函数为其中为目标概率,在{0,1}之间取值,为DNN的输出概率,1≤t≤T,T为特征的帧数。
步骤504:DNN前馈计算与
步骤505:联合优化FA(θ)与FB(θ)更新DNN参数,具体优化目标函数为其中λ为与辅助任务B绑定的权重。
6.根据权利要求1所述基于多任务神经网络的多样例关键词检测方法,其特征在于,所述步骤6中,解码网络采用自由循环结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180347.7A CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810180347.7A CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108538285A true CN108538285A (zh) | 2018-09-14 |
CN108538285B CN108538285B (zh) | 2021-05-04 |
Family
ID=63486586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810180347.7A Active CN108538285B (zh) | 2018-03-05 | 2018-03-05 | 一种基于多任务神经网络的多样例关键词检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108538285B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN110322871A (zh) * | 2019-05-30 | 2019-10-11 | 清华大学 | 一种基于声学表征矢量的样例关键词检索方法 |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110738987A (zh) * | 2019-10-18 | 2020-01-31 | 清华大学 | 一种基于统一表征的关键词检索方法 |
CN111079938A (zh) * | 2019-11-28 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111105788A (zh) * | 2019-12-20 | 2020-05-05 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
WO2021057038A1 (zh) * | 2019-09-24 | 2021-04-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN113314119A (zh) * | 2021-07-27 | 2021-08-27 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113314124A (zh) * | 2021-06-15 | 2021-08-27 | 宿迁硅基智能科技有限公司 | 文本输出方法及系统、存储介质、电子装置 |
CN114360521A (zh) * | 2022-03-09 | 2022-04-15 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、语音误识别的检测方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
-
2018
- 2018-03-05 CN CN201810180347.7A patent/CN108538285B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9159321B2 (en) * | 2012-02-27 | 2015-10-13 | Hong Kong Baptist University | Lip-password based speaker verification system |
US20150161994A1 (en) * | 2013-12-05 | 2015-06-11 | Nuance Communications, Inc. | Method and Apparatus for Speech Recognition Using Neural Networks with Speaker Adaptation |
CN105679316A (zh) * | 2015-12-29 | 2016-06-15 | 深圳微服机器人科技有限公司 | 一种基于深度神经网络的语音关键词识别方法及装置 |
CN106875942A (zh) * | 2016-12-28 | 2017-06-20 | 中国科学院自动化研究所 | 基于口音瓶颈特征的声学模型自适应方法 |
CN106952644A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于瓶颈特征的复杂音频分割聚类方法 |
Non-Patent Citations (3)
Title |
---|
HONGJIE CHEN等: ""Multi-Task Feature Learning for Low-Resource Query-by-Example Spoken Term Detection"", 《 IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING》 * |
L LI等: ""Hybrid deep neural network--hidden markov model (dnn-hmm) based speech emotion recognition"", 《2013 HUMAINE ASSOCIATION CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION》 * |
刘学: ""基于语音样例查询的关键词识别方法研究"", 《中国优秀硕士论文全文数据库》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109712609A (zh) * | 2019-01-08 | 2019-05-03 | 华南理工大学 | 一种解决关键词识别样本不均衡的方法 |
CN110322871A (zh) * | 2019-05-30 | 2019-10-11 | 清华大学 | 一种基于声学表征矢量的样例关键词检索方法 |
WO2021057038A1 (zh) * | 2019-09-24 | 2021-04-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110610700A (zh) * | 2019-10-16 | 2019-12-24 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110610700B (zh) * | 2019-10-16 | 2022-01-14 | 科大讯飞股份有限公司 | 解码网络构建方法、语音识别方法、装置、设备及存储介质 |
CN110738987A (zh) * | 2019-10-18 | 2020-01-31 | 清华大学 | 一种基于统一表征的关键词检索方法 |
CN110738987B (zh) * | 2019-10-18 | 2022-02-15 | 清华大学 | 一种基于统一表征的关键词检索方法 |
CN111079938A (zh) * | 2019-11-28 | 2020-04-28 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111079938B (zh) * | 2019-11-28 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 问答阅读理解模型获取方法、装置、电子设备及存储介质 |
CN111105788A (zh) * | 2019-12-20 | 2020-05-05 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
CN111105788B (zh) * | 2019-12-20 | 2023-03-24 | 北京三快在线科技有限公司 | 敏感词分数检测方法、装置、电子设备及存储介质 |
CN113314124A (zh) * | 2021-06-15 | 2021-08-27 | 宿迁硅基智能科技有限公司 | 文本输出方法及系统、存储介质、电子装置 |
US11651139B2 (en) | 2021-06-15 | 2023-05-16 | Nanjing Silicon Intelligence Technology Co., Ltd. | Text output method and system, storage medium, and electronic device |
CN113314119A (zh) * | 2021-07-27 | 2021-08-27 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN113314119B (zh) * | 2021-07-27 | 2021-12-03 | 深圳百昱达科技有限公司 | 语音识别智能家居控制方法及装置 |
CN114360521A (zh) * | 2022-03-09 | 2022-04-15 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、语音误识别的检测方法及设备 |
CN114360521B (zh) * | 2022-03-09 | 2022-08-19 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、语音误识别的检测方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108538285B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108538285A (zh) | 一种基于多任务神经网络的多样例关键词检测方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
US10460721B2 (en) | Dialogue act estimation method, dialogue act estimation apparatus, and storage medium | |
Schuller et al. | Speech emotion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
Chen et al. | Unsupervised Bottleneck Features for Low-Resource Query-by-Example Spoken Term Detection. | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
Bhosale et al. | End-to-End Spoken Language Understanding: Bootstrapping in Low Resource Scenarios. | |
CN109741735A (zh) | 一种建模方法、声学模型的获取方法和装置 | |
Chen et al. | Distilled binary neural network for monaural speech separation | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN111916066A (zh) | 基于随机森林的语音声调识别方法及系统 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN114678030A (zh) | 基于深度残差网络和注意力机制的声纹识别方法及装置 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
Calık et al. | An ensemble-based framework for mispronunciation detection of Arabic phonemes | |
CN111833851B (zh) | 一种自动学习优化声学模型的方法 | |
CN114121018A (zh) | 语音文档分类方法、系统、设备及存储介质 | |
GAVAT et al. | New trends in machine learning for speech recognition | |
US20240104311A1 (en) | Hybrid language translation on mobile devices | |
WO2024060066A1 (zh) | 一种文本识别方法、模型及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |