CN112233655B - 一种提高语音命令词识别性能的神经网络训练方法 - Google Patents
一种提高语音命令词识别性能的神经网络训练方法 Download PDFInfo
- Publication number
- CN112233655B CN112233655B CN202011042026.4A CN202011042026A CN112233655B CN 112233655 B CN112233655 B CN 112233655B CN 202011042026 A CN202011042026 A CN 202011042026A CN 112233655 B CN112233655 B CN 112233655B
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- command word
- loss function
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000012795 verification Methods 0.000 claims abstract description 12
- 238000012360 testing method Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 35
- 238000000926 separation method Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 10
- 238000004088 simulation Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000002360 preparation method Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101150043051 HAO2 gene Proteins 0.000 description 1
- 101100506221 Nitrosomonas europaea (strain ATCC 19718 / CIP 103999 / KCTC 2705 / NBRC 14298) hao3 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种提高语音命令词识别性能的神经网络训练方法,本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标;本发明提供的一种提高语音命令词识别性能的神经网络训练方法,训练过程中,定期根据中间神经网络模型在验证集上测试结果,动态调整不同命令词对权重的贡献,从而使命令词识别结果的相对均衡;通过在命令词识别标签中加入字边界标签,进一步提高命令词的识别率,降低误触的发生。
Description
技术领域
本发明涉及语音命令词识别的技术领域,进一步说,尤其涉及一种提高语音命令词识别性能的神经网络训练方法。
背景技术
伴随着人工智能语音识别技术的快速发展,语音命令作为一种自然快捷的控制手段,越来越多的被用于家用电器,智能车载,智能机器人及其他适合远距离控制的场合。对于特定的电器设备,控制命令词具有数目相对较多(十几条到上百条不等)、领域相关、各命令词间长度、发音不均衡等特点。同时,在实际项目应用中,客户对命令词的识别率、准确度、误触率等要求也越来越高。本发明提供一种提高语音命令词识别性能的神经网络训练方法,本发明的主要目的为,通过一系列训练方法,提高项目中命令词的识别率和准确度,同时使误触发生几率控制在可接受范围。
经检索,申请号为201910838469.5、名称为语音识别方法及装置、神经网络训练方法及装置的专利,其解决的技术问题是可以提升在复杂干扰声条件下的语音识别性能,提升用户体验;同时,第一子网络和第三子网络可以方便的整合第三方算法,具有更高灵活性。采用的技术方案是:实现语音识别的神经网络训练方法,所述神经网络包括第一至第三子网络;所述方法包括:获取样本数据,所述样本数据包括混合语音频谱及其标注音素;通过所述第一子网络从混合语音频谱中提取目标语音频谱;通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;通过所述第三子网络,基于所述中间过渡表征进行音素识别;根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。
上述技术方案以及其具体所解决的技术问题均不同于本申请方案。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种提高语音命令词识别性能的神经网络训练方法,通过调整CTC/CE联合训练Loss比例,取得最佳音素识别效果,其中,具体技术方案为:
本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标:
1)预训练基础神经网络模型:
训练方法采用音素覆盖全面的通用数据集作为预训练数据集,训练方法采用不要求输出标签强制对齐CTC损失函数作为命令词训练的最终优化目标;
2)命令词训练前的数据准备;
在语音命令词训练项目确立后,采集真人录制的近远场命令词数据,或者采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充;对采集到的近场数据,进行房间脉冲相应模拟,噪声模拟,音量模拟增强变换;在准备验证集时,依照实际应用场景,采集各个命令词的等比例测试样例;
3)命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练;
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预;正常训练时,损失函数的定义为:
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值;
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk;
,k为命令词类别;
某命令词识别差,则增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度,对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1);
c.降低误触。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:c.降低误触,方法为,在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触,截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用较小的学习率对神经网络模型进行调整训练。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:c.降低误触,方法为,调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签之间插入分隔标签<WB>;然后,针对修改过的标注,对神经网络模型进行调整训练;通过增加字间分隔标签,使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音特定的音频段。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:
1)步骤中,CTC训练结果会与实际音素发生位置有时间上的偏差,为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息,其中,CE损失函数:
y*是真实的逐帧标签
CTC损失函数:
∏(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合,π是该集合中的一条路径;
LossTotal=LossCTC+α*LossCE,α∈[0,1]
如α=0,即为标准的CTC损失函数。
本发明相对于现有技术具有如下有益效果:
现有技术中,命令词识别率和误触率是判定神经网络模型训练结果的重要指标,直接关系到用户在使用产品时的体验感受。随着产品复杂性的提升,控制命令词数目也随之增多。通常训练结果往往会由于各命令词间长度、发音、数据量不均衡等音素,造成其识别率不均衡,使客户感觉某些命令词特别差。同时,频繁发生的误触,会给终端用户造成很多困扰。本申请方案中,预训练基础神经网络模型时,通过调整CTC/CE联合训练Loss比例,取得最佳音素识别效果;训练时动态拼接训练语料,随机生成连续的命令词音频及标注,提高神经网络模型对实际应用中对连续命令词的识别;训练过程中,定期根据中间神经网络模型在验证集上测试结果,动态调整不同命令词对权重的贡献,从而使命令词识别结果的相对均衡;通过在命令词识别标签中加入字边界标签,进一步提高命令词的识别率,降低误触的发生。
附图说明
图1为语音命令词识别神经网络模型训练的基本流程示意图。
图2为采用CTC Loss作为最终优化目标训练的示意图。
图3为命令词训练前的数据准备示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
语音命令词识别神经网络模型训练的基本流程如下图1所示。
本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签。训练采用CTC Loss作为最终优化目标。
具体实施过程如下:
1、预训练基础神经网络模型:
针对各项目的计算能力、性能要求确定神经网络模型结构后,先对该基础神经网络模型进行预训练,以取得更好的初始化参数。
通常,命令词只包含音素集中的一部分发音。为保证训练结果中各音素的均衡性,本训练方法采用音素覆盖全面的通用数据集作为预训练数据集。
对于各项目命令词数据,如对音频数据做逐帧音素标注及校对检查,需要花费大量时间、人力成本。因此,本训练方法采用不要求输出标签强制对齐CTC损失函数作为命令词训练的最终优化目标。但CTC训练结果会与实际音素发生位置有时间上的偏差。为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息。其中,CE损失函数:
y*是真实的逐帧标签
CTC损失函数:
∏(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合。π是该集合中的一条路径。
CTC+CE联合损失函数:
LossTotal=LossCTC+a*LossCE,a∈[0,1]
如α=0,即为标准的CTC损失函数。
具体训练过程如图2所示。
2、命令词训练前的数据准备,如图3所示。
在语音命令词训练项目确立后,尽可能采集真人录制的近远场命令词数据。在没有条件收集更多实际数据的情况下,可采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充。
对采集到的近场数据,可进行房间脉冲相应模拟,噪声模拟,音量模拟等增强变换,丰富语音数据的真实性和多样性,使其更接近实际使用时的远场环境,从而达到更好的训练效果。
在准备验证集时,需要依照实际应用场景,采集各个命令词的等比例测试样例。保证验证集尽量真实的反映神经网络模型在真实测试例上的识别效果,也用于后期命令词识别均衡性的调整训练。
3、命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练。
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预。正常训练时,损失函数的定义为:
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值。
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk。
,k为命令词类别。
如某命令词识别差,则适当增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度。对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1)。
c.降低误触
在训练进行到一定阶段,随着神经网络模型学习的深入,对噪声背景下的识别率会提高,同时也会引起误触率的增加。
本训练方法采取两种方式对此情况进行调整。
方法一
在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触。截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用较小的学习率对神经网络模型进行调整训练。
该方法维持已有训练样例的音素标注不变,简单易行,不需要改变主要训练流程及后期解码过程。通过使用独立的模糊音素标签,使神经网络模型能够更明确区分命令词发音音素与具有类似特征的背景噪声的差别,能有效压制各种环境下的误触发生几率。
方法二
调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签(声母、韵母)之间插入分隔标签(<WB>)。然后,针对修改过的标注,对神经网络模型进行调整训练。例如,对于命令词“你好小明”,原有标注为:
NII2HAO3XIAO3MING2
在增加了字间分隔标签后,标注为:
<WB>NII2<WB>HAO3<WB>XIAO3<WB>MING2<WB>
通过增加字间分隔标签,可以使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音特定的音频段。
在实际解码过程中,仍然只关注命令词标注音素,而忽略字间分隔标签,即忽略掉模糊不清的发音对命令词识别的贡献,使命令词和背景噪声最终解码信心值差距更大,更容易通过阈值进行区分,从而有效提高识别率,同时降低误触的发生。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。
Claims (4)
1.一种提高语音命令词识别性能的神经网络训练方法,其特征在于:本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC/CE Loss作为最终优化目标:
1)预训练基础神经网络模型:
训练方法采用音素覆盖全面的通用数据集作为预训练数据集,训练方法采用不要求输出标签强制对齐CTC/CE损失函数作为命令词训练的最终优化目标;
2)命令词训练前的数据准备;
在语音命令词训练项目确立后,采集真人录制的近远场命令词数据,或者采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充;对采集到的近场数据,进行房间脉冲相应模拟,噪声模拟,音量模拟增强变换;在准备验证集时,依照实际应用场景,采集各个命令词的等比例测试样例;
3)命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练;
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预;正常训练时,损失函数的定义为:
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值;
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk;
,k为命令词类别;
某命令词识别差,则增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度,对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1);
c.降低误触。
2.如权利要求1所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:c.降低误触,方法为,在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触,截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用学习率对神经网络模型进行调整训练。
3.如权利要求1所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:c.降低误触,方法为,调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签之间插入分隔标签<WB>;然后,针对修改过的标注,对神经网络模型进行调整训练;通过增加字间分隔标签,使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音的音频段。
4.如权利要求1-3中任一项所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:
1)步骤中,CTC训练结果会与实际音素发生位置有时间上的偏差,为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息,其中,CE损失函数:
y*是真实的逐帧标签
CTC损失函数:
Π(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合,π是该集合中的一条路径;
CTC+CE联合损失函数:
LossTotal=LossCTC+α*LossCE,α∈[0,1]
如α=0,即为标准的CTC损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042026.4A CN112233655B (zh) | 2020-09-28 | 2020-09-28 | 一种提高语音命令词识别性能的神经网络训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011042026.4A CN112233655B (zh) | 2020-09-28 | 2020-09-28 | 一种提高语音命令词识别性能的神经网络训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112233655A CN112233655A (zh) | 2021-01-15 |
CN112233655B true CN112233655B (zh) | 2024-07-16 |
Family
ID=74119429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011042026.4A Active CN112233655B (zh) | 2020-09-28 | 2020-09-28 | 一种提高语音命令词识别性能的神经网络训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112233655B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992107B (zh) * | 2021-03-25 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 训练声学转换模型的方法、终端及存储介质 |
CN113221951B (zh) * | 2021-04-13 | 2023-02-17 | 天津大学 | 一种基于时域注意力池化网络的动图分类方法及装置 |
CN113870844A (zh) * | 2021-09-01 | 2021-12-31 | 深圳市友杰智新科技有限公司 | 语音识别模型的训练方法、装置和计算机设备 |
CN118212931A (zh) * | 2024-03-15 | 2024-06-18 | 青岛润恒益科技有限公司 | 一种音频降噪模型的智能训练方法及系统 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10332509B2 (en) * | 2015-11-25 | 2019-06-25 | Baidu USA, LLC | End-to-end speech recognition |
CN108269568B (zh) * | 2017-01-03 | 2021-07-30 | 中国科学院声学研究所 | 一种基于ctc的声学模型训练方法 |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10373610B2 (en) * | 2017-02-24 | 2019-08-06 | Baidu Usa Llc | Systems and methods for automatic unit selection and target decomposition for sequence labelling |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10714076B2 (en) * | 2017-07-10 | 2020-07-14 | Sony Interactive Entertainment Inc. | Initialization of CTC speech recognition with standard HMM |
CN108449247B (zh) * | 2018-05-23 | 2024-06-04 | 上海声瀚信息科技有限公司 | 基于语音交互的家庭电器联网系统 |
CN108580322A (zh) * | 2018-05-23 | 2018-09-28 | 上海声瀚信息科技有限公司 | 一种智能语音分拣系统 |
US11004443B2 (en) * | 2018-08-30 | 2021-05-11 | Tencent America LLC | Multistage curriculum training framework for acoustic-to-word speech recognition |
CN110517666B (zh) * | 2019-01-29 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 音频识别方法、系统、机器设备和计算机可读介质 |
CN110246487B (zh) * | 2019-06-13 | 2021-06-22 | 思必驰科技股份有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN110648659B (zh) * | 2019-09-24 | 2022-07-01 | 上海依图信息技术有限公司 | 基于多任务模型的语音识别与关键词检测装置和方法 |
CN110648668A (zh) * | 2019-09-24 | 2020-01-03 | 上海依图信息技术有限公司 | 关键词检测装置和方法 |
CN110634476B (zh) * | 2019-10-09 | 2022-06-14 | 深圳大学 | 一种快速搭建鲁棒性声学模型的方法及系统 |
CN110992959A (zh) * | 2019-12-06 | 2020-04-10 | 北京市科学技术情报研究所 | 一种语音识别方法及系统 |
CN111414915B (zh) * | 2020-02-21 | 2024-03-26 | 华为技术有限公司 | 一种文字识别方法以及相关设备 |
CN111653275B (zh) * | 2020-04-02 | 2022-06-03 | 武汉大学 | 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法 |
-
2020
- 2020-09-28 CN CN202011042026.4A patent/CN112233655B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112233655A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112233655B (zh) | 一种提高语音命令词识别性能的神经网络训练方法 | |
CN110400579B (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
US6442519B1 (en) | Speaker model adaptation via network of similar users | |
CN108962229B (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN105788592A (zh) | 一种音频分类方法及装置 | |
CN106340297A (zh) | 一种基于云计算与置信度计算的语音识别方法与系统 | |
CN110111797A (zh) | 基于高斯超矢量和深度神经网络的说话人识别方法 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN111899766B (zh) | 基于深度特征与声学特征寻优融合的语音情感识别方法 | |
CN111027675B (zh) | 一种多媒体播放设置自动调节方法及系统 | |
CN118486297B (zh) | 一种基于语音情感识别的响应方法及智能语音助手系统 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
CN117354591A (zh) | 一种语音交互式有线电视视频推荐方法 | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
CN118173092A (zh) | 一种基于ai语音交互的在线客服平台 | |
CN110910898A (zh) | 一种语音信息处理的方法和装置 | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN111402919B (zh) | 一种基于多尺度多视图的戏曲唱腔风格识别方法 | |
CN117219046A (zh) | 一种交互语音情感控制方法及系统 | |
CN110807370B (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN112185357A (zh) | 一种同时识别人声和非人声的装置及方法 | |
CN114879845A (zh) | 一种基于眼动仪的图片标签语音标注方法及系统 | |
CN113689885A (zh) | 基于语音信号处理的智能辅助引导系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |