CN111833851B - 一种自动学习优化声学模型的方法 - Google Patents

一种自动学习优化声学模型的方法 Download PDF

Info

Publication number
CN111833851B
CN111833851B CN202010551382.2A CN202010551382A CN111833851B CN 111833851 B CN111833851 B CN 111833851B CN 202010551382 A CN202010551382 A CN 202010551382A CN 111833851 B CN111833851 B CN 111833851B
Authority
CN
China
Prior art keywords
data
acoustic model
training
test
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010551382.2A
Other languages
English (en)
Other versions
CN111833851A (zh
Inventor
唐海江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yunjia Cloud Calculating Co ltd
Original Assignee
Hangzhou Yunjia Cloud Calculating Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yunjia Cloud Calculating Co ltd filed Critical Hangzhou Yunjia Cloud Calculating Co ltd
Priority to CN202010551382.2A priority Critical patent/CN111833851B/zh
Publication of CN111833851A publication Critical patent/CN111833851A/zh
Application granted granted Critical
Publication of CN111833851B publication Critical patent/CN111833851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种自动学习优化声学模型的方法。为了克服现有技术优化声学模型的过程繁琐耗时,成本大且准入门槛高的问题;本发明包括以下步骤:S1:从数据库中将部分标注数据选入测试池中,将剩余部分筛选入训练池;S2:将训练池中的数据分批训练,以识别率最高的声学模型进行循环迭代训练,利用已有数据完成最优声学模型;S3:利用测试池对完成的最优声学模型进行测试,测试结果录入数据库,并生成测试报告。本方案通过语音增强等手段扩充标注数据,减少人工标注成本,为提高语音识别结果的准确率提供关键基础。自动训练、测试完成循环迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。

Description

一种自动学习优化声学模型的方法
技术领域
本发明涉及一种计算机领域,尤其涉及一种自动学习优化声学模型的方法。
背景技术
语音识别技术就是让智能设备听懂人类的语音。它是一门涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多学科交叉的科学。这项技术可以提供比如自动客服、自动语音翻译、命令控制、语音验证码等多项应用。近年来,随着人工智能的兴起,语音识别技术在理论和应用方面都取得大突破,开始从实验室走向市场,已逐渐走进我们的日常生活。现在语音识别己用于许多领域,主要包括语音识别听写器、语音寻呼和答疑平台、自主广告平台,智能客服等。
语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,系统能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。目前,模式匹配原理已经被应用于大多数语音识别系统中。
语音识别算法目前虽已日趋完善,但语音识别系统的性能受多方面影响,如口语化,方言,短词,语速,音量,噪声等。在不同的应用场景中,往往遇到各种各样的问题影响引擎的最终识别结果。
传统的机器学习方法在优化声学模型时,首先需要收集大量数据,然后对数据进行标注、提取特征、选择特征,然后根据所选特征训练模型、对模型进行测试评估,最后部署到应用上,以解决基础声学模型的口音识别问题。
例如,一种在中国专利文献上公开的“一种优化语音识别声学模型的方法及系统”,其公告号CN103165129B,包括:A1、采用语音识别声学模型对输入的语音段进行识别得到识别结果,以及获取所述输入的语音段的标注脚本;A2、将所述识别结果和标注脚本进行比对,获取被识别错误的语音段;A3、以所述被识别错误的语音段及其标注脚本更新语音识别声学模型的训练数据;A4、以更新后的训练数据对所述语音识别声学模型进行重训练。
该方法的声学优化过程需要大量的标注语料,耗费大量的人力和时间;优化声学模型的过程繁琐耗时,且准入门槛高。
发明内容
本发明主要解决现有技术优化声学模型的过程繁琐耗时,成本大且准入门槛高的问题;提供一种自动学习优化声学模型的方法,自动训练、自动测试和迭代优化,降低声学模型优化过程的耗时和成本,降低准入门槛。
本发明的上述技术问题主要是通过下述技术方案得以解决的:
本发明包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池;
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告;
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
本方案自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。
作为优选,所述的步骤S1包括以下步骤:
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池;
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池;
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据。
本方案中识别率的阈值为80%,将识别率高的识别音频的识别结果作为标注数据扩充进入训练池,减少人工标注的成本,节省人力,提高效率。
作为优选,所述的非线性回归算法为:
Figure BDA0002541884520000021
其中,Y为音频数据的预测识别准确率;X1为音频数据识别结果的困惑度;X2为音频数据的音频实时测试速度;ε为服从均值为零,方差为σ2分布的随机误差;βi,βij为待估参数;i,j为自然数下标。
采用非线性回归算法预测音频数据的识别率,筛选音频数据进入训练池,提高通过训练池得到的声学模型的识别率。
作为优选,所述的待估参数βi,βij通过极大然似估计;对于给定的X和待估参数βi,βij,Y的密度函数为:
Figure BDA0002541884520000022
n个观测值的对数然似函数为:
Figure BDA0002541884520000031
最大化上述函数得到待估参数βi,βij的估计值:
Figure BDA0002541884520000032
Figure BDA0002541884520000033
为待估参数βi,βij的估计值。
待估参数βi,βij的估计值
Figure BDA0002541884520000034
即为非线性回归算法中的待估参数βi,βij
作为优选,所述的语音增强包括音量增强和语音去噪以及语音转换。先将音频数据进行音量增强和语音去噪,提高音频数据的质量,提高语音识别的准确率。再将质量提高后的音频数据进行语音转换,丰富训练池中的语料,通过语音转化解决声学模型识别口音的问题。
作为优选,所述的步骤S2和步骤S3包括以下步骤:
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型;
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试;
S23:将识别率测试结果录入数据库,并生成测试报告;
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代;
S32:利用已有数据完成最优识别率的声学模型的训练学习。
以本次识别率最高的声学模型作为下一次训练学习基础,依次循环迭代,以识别率为判断基础自动训练、自动迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。
作为优选,将对所述的最优声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告。生成报告以及句错误率分布图和引擎测试实时率分布图,给开发者一个直观的反馈,方便进行之后的优化。
作为优选,所述的提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权音频的实时测试速度,并提取每个测试音频的句错误率;以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频的实时测试速度为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。提取重要信息,对数据库进行反馈以及给开发者直观的反馈,方便之后的声学模型的优化。
作为优选,用于完成所述自动学习优化声学模型方法的系统采用docker封装。系统采用docker封装,将自学习代码与数据库代码打包成镜像,方便系统更新升级;再把配置文件、训练包、数据等外部文件挂载到docker内部,降低docker存储量,并编写docker系统封装代码,实现系统的一键启动、停止、删除和重启,方便操作。
本发明的有益效果是:
1.通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。
2.语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提供了提高语音识别结果准确率的基础。
3.自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。
附图说明
图1是本发明的一种自动学习优化声学模型的方法流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
本实施例的一种自动学习优化声学模型的方法,如图1所示,包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池。
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池。
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池。在本实施例中,阈值为80%。
非线性回归算法为:
Figure BDA0002541884520000041
其中,Y为音频数据的预测识别准确率;X1为音频数据识别结果的PPL,即困惑度;X2为音频数据的RTF,即音频的实时测试速度;ε为服从均值为零,方差为σ2分布的随机误差;βi,βij为待估参数;i,j为自然数下标。
待估参数βi,βij通过极大然似估计;对于给定的X和待估参数βi,βij,Y的密度函数为:
Figure BDA0002541884520000051
n个观测值的对数然似函数为:
Figure BDA0002541884520000052
最大化上述函数得到待估参数βi,βij的估计值:
Figure BDA0002541884520000053
Figure BDA0002541884520000054
为待估参数βi,βij的估计值。
待估参数βi,βij的估计值
Figure BDA0002541884520000055
即为非线性回归算法中的待估参数βi,βij
采用非线性回归算法预测音频数据的识别率,筛选音频数据进入训练池,提高通过训练池得到的声学模型的识别率。
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据。
语音增强包括音量增强和语音去噪以及语音转换。先通过音量增强、语音去噪改善音频质量,随后对优化后的音频进行语音转换来扩充数据。
音量增强通过自适应音量增强算法实现。
首先预设音频的强度阈值,包括最低值和最高值,一般为5000-30000smpl,其中,smpl为最大允许电平。之后对原音频进行分帧,并以每十帧为一段。对每段音频进行音量检测,若某段音频声音强度低于最低值,对其进行增强处理,反之,减弱其声音强度。
语音去噪包括提取各语音帧的声学特征;利用干净语音的与噪声语音的样本对渐进式双输出神经网络模型进行训练,利用训练后的渐进式双输出神经网络模型估计各语音帧的理想软掩蔽,并进行声学特征的增强处理;如果应用到人耳,则利用增强后的声学特征对波形进行重构,得到可主观测听的波形;如果应用到语音识别系统,则将估计到的理想软掩蔽应用到输入语音的声学特征上上,得到掩蔽后的声学特征,然后对波形进行重构得到增强后的语音。
语音转换分为指向性声音转换和非指向性声音转换,在保持原说话人的语调、语速等特征不变的前提下,将原音频中说话人的声音转换为另外指定人的声音,或随机转换为其他人声音。其中,指向性声音转换采用CycleGAN算法,对说话人声音进行风格转移,从而达到对两个人的声音风格进行转换的目的。而非指向性声音转换,是通过调整音频的基频和共振峰,在保持说话人语速不变、内容不变的情况下改变说话人声音。
通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。
语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提高了语音识别结果的准确率。
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告。
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型。
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试。
S23:将识别率测试结果录入数据库,并生成测试报告。
将对最优声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告。提取重要信息反馈给数据库,便于之后的声学模型优化。
提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权RTF,即音频的实时测试速度,并提取每个测试音频的句错误率。
以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频RTF为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。
生成报告以及句错误率分布图和引擎测试实时率分布图,给开发者一个直观的反馈,方便进行之后的声学模型优化。
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代。
S32:利用已有数据完成最优识别率的声学模型的训练学习。
以本次识别率最高的声学模型作为下一次训练学习基础,依次循环迭代,以识别率为判断基础自动训练、自动迭代,降低声学模型优化过程的耗时和成本,降低准入门槛。
用于完成自动学习优化声学模型方法的系统采用docker封装。系统采用docker封装,将自学习代码与数据库代码打包成镜像,方便系统更新升级;再把配置文件、训练包、数据等外部文件挂载到docker内部,降低docker存储量,并编写docker系统封装代码,实现系统的一键启动、停止、删除和重启,方便操作。
本发明通过语音增强扩充标注数据以及通过非线性回归预测识别音频的识别率来挑选数据,以此扩充训练数据,减少人工标注成本。语音增强算法通过音量增强、语音去噪及语音转换等多种方法来抑制背景噪声,改善音频质量,以及减少口音对语音识别结果的影响,从而提供了提高语音识别结果的准确率的基础。自动训练、自动测试,每次训练生成一个声学模型便会测试该模型的整体识别率,下一次训练以之前已经训练好的模型中识别率最高的模型为基础模型开始训练,如此循环迭代,自动学习,降低声学模型优化过程的耗时和成本,降低准入门槛。

Claims (7)

1.一种自动学习优化声学模型的方法,其特征在于,包括以下步骤:
S1:从数据库中将部分标注数据选入测试池中,将剩余部分标注数据和未标注数据筛选入训练池;
S11:从数据库中随机挑选标注数据选入测试池,剩余的标注数据经过语音增强后选入训练池;
S12:对数据库中未标注数据通过非线性回归算法进行识别率的预测,并将识别率高于阈值的数据放入训练池;
S13:以识别结果充当标注数据,并通过语音增强扩充训练池数据;
S2:将训练池中的数据分批训练,使用测试池中的数据对每次训练产生的声学模型进行识别率测试,将识别率测试结果录入数据库,并生成测试报告;
S3:以识别率最高的声学模型为基础进行循环迭代训练,利用已有数据完成最优声学模型。
2.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,所述的非线性回归算法为:
Figure 819866DEST_PATH_IMAGE002
其中,Y为音频数据的预测识别准确率;
Figure DEST_PATH_IMAGE003
为音频数据识别结果的困惑度;
Figure 81215DEST_PATH_IMAGE004
为音频 数据的音频实时测试速度;
Figure DEST_PATH_IMAGE005
为服从均值为零,方差为
Figure 205159DEST_PATH_IMAGE006
分布的随机误差;
Figure DEST_PATH_IMAGE007
为待估 参数;i,j为自然数下标。
3.根据权利要求2所述的一种自动学习优化声学模型的方法,其特征在于,所述的待估 参数
Figure 738384DEST_PATH_IMAGE007
通过极大然似估计;对于给定的X和待估参数
Figure 693702DEST_PATH_IMAGE007
,Y的密度函数为:
Figure DEST_PATH_IMAGE009
n个观测值的对数然似函数为:
Figure DEST_PATH_IMAGE011
最大化上述函数得到待估参数
Figure 63635DEST_PATH_IMAGE007
的估计值:
Figure DEST_PATH_IMAGE013
Figure 236445DEST_PATH_IMAGE014
为待估参数
Figure 638608DEST_PATH_IMAGE007
的估计值。
4.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,所述的语音增强包括音量增强和语音去噪以及语音转换。
5.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,所述的步骤S2和步骤S3包括以下步骤:
S21:对训练池中的数据进行分批训练,每次训练产生一个声学模型;
S22:利用测试池中的数据对每个声学模型进行整体识别率的测试;
S23:将识别率测试结果录入数据库,并生成测试报告;
S31:比较声学模型的识别率,以识别率最高的声学模型作为基础开始下次训练,并循环迭代;
S32:利用已有数据完成最优识别率的声学模型的训练学习。
6.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,将对所述的声学模型的测试结果录入数据库,并提取重要测试信息,绘制句错误率分布图和引擎测试实时率分布图,自动生成markdown文件测试报告;
所述的提取重要测试信息包括提取测试时间、测试所用模型、测试音频的总字错误率和测试音频总的加权音频的实时测试速度,并提取每个测试音频的句错误率;以音频句错误率为横轴,音频个数占比为纵轴,绘制音频的句错误率分布图;以音频的实时测试速度为横轴,以音频个数占比为纵轴,绘制音频的引擎测试实时率分布图。
7.根据权利要求1所述的一种自动学习优化声学模型的方法,其特征在于,用于完成所述自动学习优化声学模型方法的系统采用docker封装。
CN202010551382.2A 2020-06-16 2020-06-16 一种自动学习优化声学模型的方法 Active CN111833851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010551382.2A CN111833851B (zh) 2020-06-16 2020-06-16 一种自动学习优化声学模型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010551382.2A CN111833851B (zh) 2020-06-16 2020-06-16 一种自动学习优化声学模型的方法

Publications (2)

Publication Number Publication Date
CN111833851A CN111833851A (zh) 2020-10-27
CN111833851B true CN111833851B (zh) 2021-03-16

Family

ID=72898886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010551382.2A Active CN111833851B (zh) 2020-06-16 2020-06-16 一种自动学习优化声学模型的方法

Country Status (1)

Country Link
CN (1) CN111833851B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784997B (zh) * 2021-01-22 2023-11-10 北京百度网讯科技有限公司 标注复核方法、装置、设备、存储介质以及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN109033921A (zh) * 2017-06-08 2018-12-18 北京君正集成电路股份有限公司 一种识别模型的训练方法和装置
CN109816043A (zh) * 2019-02-02 2019-05-28 拉扎斯网络科技(上海)有限公司 用户识别模型的确定方法、装置、电子设备及存储介质
CN110648671A (zh) * 2019-08-21 2020-01-03 广州国音智能科技有限公司 声纹模型重建方法、终端、装置及可读存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
US20190065462A1 (en) * 2017-08-31 2019-02-28 EMR.AI Inc. Automated medical report formatting system
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108492821B (zh) * 2018-03-27 2021-10-22 华南理工大学 一种减弱语音识别中说话人影响的方法
US20190362737A1 (en) * 2018-05-25 2019-11-28 i2x GmbH Modifying voice data of a conversation to achieve a desired outcome
CN110428842A (zh) * 2019-08-13 2019-11-08 广州国音智能科技有限公司 语音模型训练方法、装置、设备及计算机可读存储介质
CN111145730B (zh) * 2019-12-30 2022-05-06 思必驰科技股份有限公司 语音识别模型的优化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143327A (zh) * 2013-07-10 2014-11-12 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN109033921A (zh) * 2017-06-08 2018-12-18 北京君正集成电路股份有限公司 一种识别模型的训练方法和装置
CN108932950A (zh) * 2018-05-18 2018-12-04 华南师范大学 一种基于标签扩增与多频谱图融合的声音场景识别方法
CN109816043A (zh) * 2019-02-02 2019-05-28 拉扎斯网络科技(上海)有限公司 用户识别模型的确定方法、装置、电子设备及存储介质
CN110648671A (zh) * 2019-08-21 2020-01-03 广州国音智能科技有限公司 声纹模型重建方法、终端、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition;Hasim Sak, Andrew Senior, Kanishka Rao, Francoise Beaufays;《arXiv》;20150724;第1-5页 *
低数据资源条件下基于优化的数据选择策略的无监督语音识别声学建模;钱彦旻,刘加;《清华大学学报(自然科学版)》;20131231;第53卷(第7期);第1001-1010页 *

Also Published As

Publication number Publication date
CN111833851A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
US6868380B2 (en) Speech recognition system and method for generating phonotic estimates
CN108962229B (zh) 一种基于单通道、无监督式的目标说话人语音提取方法
CN108538285B (zh) 一种基于多任务神经网络的多样例关键词检测方法
JP2002014692A (ja) 音響モデル作成装置及びその方法
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
JP2016143043A (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN110634476B (zh) 一种快速搭建鲁棒性声学模型的方法及系统
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
CN112735482A (zh) 基于联合深度神经网络的端点检测方法及系统
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN112074903A (zh) 用于口语中的声调识别的系统和方法
Vignolo et al. Feature optimisation for stress recognition in speech
CN112331207A (zh) 服务内容监控方法、装置、电子设备和存储介质
CN111833851B (zh) 一种自动学习优化声学模型的方法
CN111241820A (zh) 不良用语识别方法、装置、电子装置及存储介质
Rabiee et al. Persian accents identification using an adaptive neural network
CN113889099A (zh) 一种语音识别方法及系统
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
JP7469698B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN111402887A (zh) 一种语音转义文字的方法及装置
CN111833869B (zh) 一种应用于城市大脑的语音交互方法及系统
CN112233668B (zh) 一种基于神经网络的语音指令及身份识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant