CN112233655A - 一种提高语音命令词识别性能的神经网络训练方法 - Google Patents

一种提高语音命令词识别性能的神经网络训练方法 Download PDF

Info

Publication number
CN112233655A
CN112233655A CN202011042026.4A CN202011042026A CN112233655A CN 112233655 A CN112233655 A CN 112233655A CN 202011042026 A CN202011042026 A CN 202011042026A CN 112233655 A CN112233655 A CN 112233655A
Authority
CN
China
Prior art keywords
training
neural network
command word
recognition
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011042026.4A
Other languages
English (en)
Other versions
CN112233655B (zh
Inventor
宋昱
蔡洪斌
黄乐凯
叶剑豪
何昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shenghan Information Technology Co ltd
Original Assignee
Shanghai Shenghan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shenghan Information Technology Co ltd filed Critical Shanghai Shenghan Information Technology Co ltd
Priority to CN202011042026.4A priority Critical patent/CN112233655B/zh
Publication of CN112233655A publication Critical patent/CN112233655A/zh
Application granted granted Critical
Publication of CN112233655B publication Critical patent/CN112233655B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种提高语音命令词识别性能的神经网络训练方法,本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标;本发明提供的一种提高语音命令词识别性能的神经网络训练方法,训练过程中,定期根据中间神经网络模型在验证集上测试结果,动态调整不同命令词对权重的贡献,从而使命令词识别结果的相对均衡;通过在命令词识别标签中加入字边界标签,进一步提高命令词的识别率,降低误触的发生。

Description

一种提高语音命令词识别性能的神经网络训练方法
技术领域
本发明涉及语音命令词识别的技术领域,进一步说,尤其涉及一种提高语音命令词识别性能的神经网络训练方法。
背景技术
伴随着人工智能语音识别技术的快速发展,语音命令作为一种自然快捷的控制手段,越来越多的被用于家用电器,智能车载,智能机器人及其他适合远距离控制的场合。对于特定的电器设备,控制命令词具有数目相对较多(十几条到上百条不等)、领域相关、各命令词间长度、发音不均衡等特点。同时,在实际项目应用中,客户对命令词的识别率、准确度、误触率等要求也越来越高。本发明提供一种提高语音命令词识别性能的神经网络训练方法,本发明的主要目的为,通过一系列训练方法,提高项目中命令词的识别率和准确度,同时使误触发生几率控制在可接受范围。
经检索,申请号为201910838469.5、名称为语音识别方法及装置、神经网络训练方法及装置的专利,其解决的技术问题是可以提升在复杂干扰声条件下的语音识别性能,提升用户体验;同时,第一子网络和第三子网络可以方便的整合第三方算法,具有更高灵活性。采用的技术方案是:实现语音识别的神经网络训练方法,所述神经网络包括第一至第三子网络;所述方法包括:获取样本数据,所述样本数据包括混合语音频谱及其标注音素;通过所述第一子网络从混合语音频谱中提取目标语音频谱;通过所述第二子网络对所述目标语音频谱进行适应性转换以得到中间过渡表征;通过所述第三子网络,基于所述中间过渡表征进行音素识别;根据所述音素识别的结果以及所述标注音素,对所述第一子网络、第二子网络以及第三子网络的参数进行更新。
上述技术方案以及其具体所解决的技术问题均不同于本申请方案。
发明内容
本发明为解决上述技术问题而采用的技术方案是提供一种提高语音命令词识别性能的神经网络训练方法,通过调整CTC/CE联合训练Loss比例,取得最佳音素识别效果,其中,具体技术方案为:
本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标:
1)预训练基础神经网络模型:
训练方法采用音素覆盖全面的通用数据集作为预训练数据集,训练方法采用不要求输出标签强制对齐CTC损失函数作为命令词训练的最终优化目标;
2)命令词训练前的数据准备;
在语音命令词训练项目确立后,采集真人录制的近远场命令词数据,或者采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充;对采集到的近场数据,进行房间脉冲相应模拟,噪声模拟,音量模拟增强变换;在准备验证集时,依照实际应用场景,采集各个命令词的等比例测试样例;
3)命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练;
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预;正常训练时,损失函数的定义为:
Figure BDA0002706922870000031
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值;
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk
Figure BDA0002706922870000032
,k为命令词类别;
某命令词识别差,则增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度,对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1);
c.降低误触。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:c.降低误触,方法为,在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触,截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用较小的学习率对神经网络模型进行调整训练。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:c.降低误触,方法为,调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签之间插入分隔标签<WB>;然后,针对修改过的标注,对神经网络模型进行调整训练;通过增加字间分隔标签,使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音特定的音频段。
上述的一种提高语音命令词识别性能的神经网络训练方法,其中:
1)步骤中,CTC训练结果会与实际音素发生位置有时间上的偏差,为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息,其中,CE损失函数:
Figure BDA0002706922870000041
y*是真实的逐帧标签
CTC损失函数:
Figure BDA0002706922870000042
∏(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合,π是该集合中的一条路径;
LossTotal=LossCTC+α*LossCE,α∈[0,1]
如α=0,即为标准的CTC损失函数。
本发明相对于现有技术具有如下有益效果:
现有技术中,命令词识别率和误触率是判定神经网络模型训练结果的重要指标,直接关系到用户在使用产品时的体验感受。随着产品复杂性的提升,控制命令词数目也随之增多。通常训练结果往往会由于各命令词间长度、发音、数据量不均衡等音素,造成其识别率不均衡,使客户感觉某些命令词特别差。同时,频繁发生的误触,会给终端用户造成很多困扰。本申请方案中,预训练基础神经网络模型时,通过调整CTC/CE联合训练Loss比例,取得最佳音素识别效果;训练时动态拼接训练语料,随机生成连续的命令词音频及标注,提高神经网络模型对实际应用中对连续命令词的识别;训练过程中,定期根据中间神经网络模型在验证集上测试结果,动态调整不同命令词对权重的贡献,从而使命令词识别结果的相对均衡;通过在命令词识别标签中加入字边界标签,进一步提高命令词的识别率,降低误触的发生。
附图说明
图1为语音命令词识别神经网络模型训练的基本流程示意图。
图2为采用CTC Loss作为最终优化目标训练的示意图。
图3为命令词训练前的数据准备示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
语音命令词识别神经网络模型训练的基本流程如下图1所示。
本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签。训练采用CTC Loss作为最终优化目标。
具体实施过程如下:
1、预训练基础神经网络模型:
针对各项目的计算能力、性能要求确定神经网络模型结构后,先对该基础神经网络模型进行预训练,以取得更好的初始化参数。
通常,命令词只包含音素集中的一部分发音。为保证训练结果中各音素的均衡性,本训练方法采用音素覆盖全面的通用数据集作为预训练数据集。
对于各项目命令词数据,如对音频数据做逐帧音素标注及校对检查,需要花费大量时间、人力成本。因此,本训练方法采用不要求输出标签强制对齐CTC损失函数作为命令词训练的最终优化目标。但CTC训练结果会与实际音素发生位置有时间上的偏差。为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息。其中,CE损失函数:
Figure BDA0002706922870000051
y*是真实的逐帧标签
CTC损失函数:
Figure BDA0002706922870000061
∏(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合。π是该集合中的一条路径。
CTC+CE联合损失函数:
LossTotal=LossCTC+a*LossCE,a∈[0,1]
如α=0,即为标准的CTC损失函数。
具体训练过程如图2所示。
2、命令词训练前的数据准备,如图3所示。
在语音命令词训练项目确立后,尽可能采集真人录制的近远场命令词数据。在没有条件收集更多实际数据的情况下,可采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充。
对采集到的近场数据,可进行房间脉冲相应模拟,噪声模拟,音量模拟等增强变换,丰富语音数据的真实性和多样性,使其更接近实际使用时的远场环境,从而达到更好的训练效果。
在准备验证集时,需要依照实际应用场景,采集各个命令词的等比例测试样例。保证验证集尽量真实的反映神经网络模型在真实测试例上的识别效果,也用于后期命令词识别均衡性的调整训练。
3、命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练。
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预。正常训练时,损失函数的定义为:
Figure BDA0002706922870000071
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值。
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk
Figure BDA0002706922870000072
,k为命令词类别。
如某命令词识别差,则适当增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度。对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1)。
c.降低误触
在训练进行到一定阶段,随着神经网络模型学习的深入,对噪声背景下的识别率会提高,同时也会引起误触率的增加。
本训练方法采取两种方式对此情况进行调整。
方法一
在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触。截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用较小的学习率对神经网络模型进行调整训练。
该方法维持已有训练样例的音素标注不变,简单易行,不需要改变主要训练流程及后期解码过程。通过使用独立的模糊音素标签,使神经网络模型能够更明确区分命令词发音音素与具有类似特征的背景噪声的差别,能有效压制各种环境下的误触发生几率。
方法二
调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签(声母、韵母)之间插入分隔标签(<WB>)。然后,针对修改过的标注,对神经网络模型进行调整训练。例如,对于命令词“你好小明”,原有标注为:
NII2HAO3XIAO3MING2
在增加了字间分隔标签后,标注为:
<WB>NII2<WB>HAO3<WB>XIAO3<WB>MING2<WB>
通过增加字间分隔标签,可以使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音特定的音频段。
在实际解码过程中,仍然只关注命令词标注音素,而忽略字间分隔标签,即忽略掉模糊不清的发音对命令词识别的贡献,使命令词和背景噪声最终解码信心值差距更大,更容易通过阈值进行区分,从而有效提高识别率,同时降低误触的发生。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (4)

1.一种提高语音命令词识别性能的神经网络训练方法,其特征在于:本训练方法的目标神经网络采用的输入为从原始音频中提取的N维特征值,输出为M维音素标签,训练采用CTC Loss作为最终优化目标:
1)预训练基础神经网络模型:
训练方法采用音素覆盖全面的通用数据集作为预训练数据集,训练方法采用不要求输出标签强制对齐CTC损失函数作为命令词训练的最终优化目标;
2)命令词训练前的数据准备;
在语音命令词训练项目确立后,采集真人录制的近远场命令词数据,或者采用语音合成、语音转换等技术,模拟生成包含语气、音色、音调、韵律变化的多人命令词音频数据作为补充;对采集到的近场数据,进行房间脉冲相应模拟,噪声模拟,音量模拟增强变换;在准备验证集时,依照实际应用场景,采集各个命令词的等比例测试样例;
3)命令词训练过程:
a.迭代训练
在整个训练过程中,每经过S步网络参数调整后,运行测试流程,验证神经网络当前状态在验证集上的识别效果,直至识别率、误触皆满足交付指标时停止训练;
b.动态调整损失函数
当发现命令词在验证集上的识别效果出现严重不均衡时,需要启用动态损失函数调整策略进行干预;正常训练时,损失函数的定义为:
Figure FDA0002706922860000011
N为每批量训练中样本的数目,lossn为第n个样本产生的损失函数值;
动态调整损失函数时,根据各命令词的识别准确度更新其在Loss调整中的权重比例αk
Figure FDA0002706922860000012
k为命令词类别;
某命令词识别差,则增加该命令词权重(αk>1),从而增加该命令词相关参数的调整幅度,对于其他不需要特别调整的命令词,则相应保持或减小权重(αk<=1);
c.降低误触。
2.如权利要求1所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:c.降低误触,方法为,在神经网络模型识别率达到一定水平之后,运行此神经网络模型,检测背景噪音中的误触,截取背景噪音中引发误触时间点附近的音频,作为具有独立模糊音素标签的反例加入训练集,用较小的学习率对神经网络模型进行调整训练。
3.如权利要求1所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:c.降低误触,方法为,调整训练集中样例的标注方式,在准备训练数据时,在每个字的音素标签之间插入分隔标签<WB>;然后,针对修改过的标注,对神经网络模型进行调整训练;通过增加字间分隔标签,使神经网络模型在学习过程中,进一步将字间不确定的发音归类到字间分隔标签,从而使各命令词音素的识别更集中于有相应发音特定的音频段。
4.如权利要求1-3中任一项所述的一种提高语音命令词识别性能的神经网络训练方法,其特征在于:
1)步骤中,CTC训练结果会与实际音素发生位置有时间上的偏差,为减少此偏差,本训练方法在模型预训练阶段,采用CTC损失函数为主,辅助以适量逐帧对齐的CE损失函数进行调整,使神经网络模型更精确地学习到音素对齐信息,其中,CE损失函数:
Figure FDA0002706922860000021
y*是真实的逐帧标签
CTC损失函数:
Figure FDA0002706922860000022
∏(y*)是在真实标注基础上扩展出的,包括BLANK标签的,所有可能出现的与输入音频逐帧对齐的标签的集合,π是该集合中的一条路径;
CTC+CE联合损失函数:
LossTotal=LossCTC+α*LossCE,α∈[0,1].
如α=0,即为标准的CTC损失函数。
CN202011042026.4A 2020-09-28 2020-09-28 一种提高语音命令词识别性能的神经网络训练方法 Active CN112233655B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011042026.4A CN112233655B (zh) 2020-09-28 2020-09-28 一种提高语音命令词识别性能的神经网络训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011042026.4A CN112233655B (zh) 2020-09-28 2020-09-28 一种提高语音命令词识别性能的神经网络训练方法

Publications (2)

Publication Number Publication Date
CN112233655A true CN112233655A (zh) 2021-01-15
CN112233655B CN112233655B (zh) 2024-07-16

Family

ID=74119429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011042026.4A Active CN112233655B (zh) 2020-09-28 2020-09-28 一种提高语音命令词识别性能的神经网络训练方法

Country Status (1)

Country Link
CN (1) CN112233655B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992107A (zh) * 2021-03-25 2021-06-18 腾讯音乐娱乐科技(深圳)有限公司 训练声学转换模型的方法、终端及存储介质
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113870844A (zh) * 2021-09-01 2021-12-31 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN118212931A (zh) * 2024-03-15 2024-06-18 青岛润恒益科技有限公司 一种音频降噪模型的智能训练方法及系统

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148431A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc End-to-end speech recognition
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN108449247A (zh) * 2018-05-23 2018-08-24 上海声瀚信息科技有限公司 基于语音交互的家庭电器联网系统
US20180247639A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling
US20180247636A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
CN108580322A (zh) * 2018-05-23 2018-09-28 上海声瀚信息科技有限公司 一种智能语音分拣系统
US20190013015A1 (en) * 2017-07-10 2019-01-10 Sony Interactive Entertainment Inc. Initialization of ctc speech recognition with standard hmm
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
CN110648668A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 关键词检测装置和方法
CN110648659A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
US20200013390A1 (en) * 2017-06-29 2020-01-09 Alibaba Group Holding Limited Speech wakeup method, apparatus, and electronic device
WO2020046445A1 (en) * 2018-08-30 2020-03-05 Chengzhu Yu A multistage curriculum training framework for acoustic-to-word speech recognition
CN110992959A (zh) * 2019-12-06 2020-04-10 北京市科学技术情报研究所 一种语音识别方法及系统
CN111414915A (zh) * 2020-02-21 2020-07-14 华为技术有限公司 一种文字识别方法以及相关设备
CN111653275A (zh) * 2020-04-02 2020-09-11 武汉大学 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170148431A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc End-to-end speech recognition
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
US20180247636A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for real-time neural text-to-speech
US20180247639A1 (en) * 2017-02-24 2018-08-30 Baidu Usa Llc Systems and methods for automatic unit selection and target decomposition for sequence labelling
US20200013390A1 (en) * 2017-06-29 2020-01-09 Alibaba Group Holding Limited Speech wakeup method, apparatus, and electronic device
US20190013015A1 (en) * 2017-07-10 2019-01-10 Sony Interactive Entertainment Inc. Initialization of ctc speech recognition with standard hmm
CN108449247A (zh) * 2018-05-23 2018-08-24 上海声瀚信息科技有限公司 基于语音交互的家庭电器联网系统
CN108580322A (zh) * 2018-05-23 2018-09-28 上海声瀚信息科技有限公司 一种智能语音分拣系统
WO2020046445A1 (en) * 2018-08-30 2020-03-05 Chengzhu Yu A multistage curriculum training framework for acoustic-to-word speech recognition
CN110517666A (zh) * 2019-01-29 2019-11-29 腾讯科技(深圳)有限公司 音频识别方法、系统、机器设备和计算机可读介质
WO2020156153A1 (zh) * 2019-01-29 2020-08-06 腾讯科技(深圳)有限公司 音频识别方法、系统和机器设备
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及系统
CN110648659A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 基于多任务模型的语音识别与关键词检测装置和方法
CN110648668A (zh) * 2019-09-24 2020-01-03 上海依图信息技术有限公司 关键词检测装置和方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及系统
CN110992959A (zh) * 2019-12-06 2020-04-10 北京市科学技术情报研究所 一种语音识别方法及系统
CN111414915A (zh) * 2020-02-21 2020-07-14 华为技术有限公司 一种文字识别方法以及相关设备
CN111653275A (zh) * 2020-04-02 2020-09-11 武汉大学 基于lstm-ctc尾部卷积的语音识别模型的构建方法及装置、语音识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘正琼;丁力;凌琳;李学飞;周文霞;: "基于字符编码与卷积神经网络的汉字识别", 电子测量与仪器学报, no. 02 *
吴雨茜;王俊丽;杨丽;余淼淼;: "代价敏感深度学习方法研究综述", 计算机科学, no. 05 *
戴礼荣;张仕良;黄智颖;: "基于深度学习的语音识别技术现状与展望", 数据采集与处理, no. 02 *
王建新;王子亚;田萱;: "基于深度学习的自然场景文本检测与识别综述", 软件学报, no. 05 *
秦晨光;王海;任杰;郑杰;袁璐;赵子鑫;: "基于多任务学习的方言语种识别", 计算机研究与发展, no. 12 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112992107A (zh) * 2021-03-25 2021-06-18 腾讯音乐娱乐科技(深圳)有限公司 训练声学转换模型的方法、终端及存储介质
CN112992107B (zh) * 2021-03-25 2024-06-11 腾讯音乐娱乐科技(深圳)有限公司 训练声学转换模型的方法、终端及存储介质
CN113221951A (zh) * 2021-04-13 2021-08-06 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113221951B (zh) * 2021-04-13 2023-02-17 天津大学 一种基于时域注意力池化网络的动图分类方法及装置
CN113870844A (zh) * 2021-09-01 2021-12-31 深圳市友杰智新科技有限公司 语音识别模型的训练方法、装置和计算机设备
CN118212931A (zh) * 2024-03-15 2024-06-18 青岛润恒益科技有限公司 一种音频降噪模型的智能训练方法及系统

Also Published As

Publication number Publication date
CN112233655B (zh) 2024-07-16

Similar Documents

Publication Publication Date Title
WO2020182153A1 (zh) 基于自适应语种进行语音识别的方法及相关装置
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN112233655A (zh) 一种提高语音命令词识别性能的神经网络训练方法
CN107993665B (zh) 多人会话场景中发言人角色确定方法、智能会议方法及系统
CN107452379B (zh) 一种方言语言的识别方法及虚拟现实教学方法和系统
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及系统
CN110111797A (zh) 基于高斯超矢量和深度神经网络的说话人识别方法
CN109147763A (zh) 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
CN108962229A (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN111402928A (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN109493846A (zh) 一种英语口音识别系统
CN118193702A (zh) 用于英语教学的智能化人机交互系统及方法
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
Jin et al. Speech separation and emotion recognition for multi-speaker scenarios
CN114254096A (zh) 一种基于交互机器人对话的多模态情感预测方法及系统
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
CN110807370B (zh) 一种基于多模态的会议发言人身份无感确认方法
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant