CN106803422B - 一种基于长短时记忆网络的语言模型重估方法 - Google Patents

一种基于长短时记忆网络的语言模型重估方法 Download PDF

Info

Publication number
CN106803422B
CN106803422B CN201510844693.7A CN201510844693A CN106803422B CN 106803422 B CN106803422 B CN 106803422B CN 201510844693 A CN201510844693 A CN 201510844693A CN 106803422 B CN106803422 B CN 106803422B
Authority
CN
China
Prior art keywords
language model
information
language
grammar
optimal candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510844693.7A
Other languages
English (en)
Other versions
CN106803422A (zh
Inventor
张鹏远
左玲云
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510844693.7A priority Critical patent/CN106803422B/zh
Publication of CN106803422A publication Critical patent/CN106803422A/zh
Application granted granted Critical
Publication of CN106803422B publication Critical patent/CN106803422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。

Description

一种基于长短时记忆网络的语言模型重估方法
技术领域
本发明涉及语音识别领域,是一种利用长短时记忆网络语言模型对识别结果进行重估,从而提升语音识别性能的方法。
背景技术
语言模型即用数学的方式描述语言学中词与词之间的约束现象,在语音识别领域起着显著的作用,尤其是在面向电话交谈的语音识别系统中,口语化的语言模型往往可以大幅度提高系统性能。然而,语言模型具有领域性和时效性,现实生活中电话交谈风格的语料是有限的,真实的语音质量多种多样,内容包罗万象,因此语音识别率通常很低。为了提升语音识别系统的性能,一般会增加后处理阶段,即:第一遍解码不仅输出最优首选,而且还输出其他得分较高的候选,这些候选一般可以用M候选列表或者词图表示。后处理阶段利用复杂的模型对M候选列表或者词图进行重新打分,然后选出最优识别结果。
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于分布式假设条件,神经网络语言模型可以通过投影矩阵将离散的词表示映射到连续空间,形成相应的词矢量特征,并可以把词义相近的词聚集在一起。这是因为,词法或者词义等相似的词语矢量特征在连续空间表现出良好的聚类性。最典型的神经网络语言模型是加拿大蒙特利尔大学教授Bengio提出的前向神经网络语言模型(Feed Forward Neutral NetworkLanguage Model,FNNLM)、美国学者Mikolov提出的递归神经网络语言模型(RecurrentNeutral Network Language Model,RNNLM)以及德国学者Sundermeyer最新提出的基于长短时记忆(long-short term memory,LSTM)网络的神经网络语言模型。前向神经网络语言模型虽然可以对词进行连续空间表达,对历史信息起到一定的聚类作用,但是只能考虑有限个历史词信息;递归神经网络语言模型理论上可以考虑无限个历史词信息,但是随着新词的不断引入,这种神经网络语言模型存在着记忆衰退严重的问题;而LSTM神经网络语言模型可以对历史句子信息起到良好的记忆功能。神经网络语言模型因其过高的计算复杂度很少直接应用在解码阶段。它们通常应用在搜索空间较小的重估阶段。
在语音识别系统中,使用高元语言模型进行重估效果不明显,用前向神经网络语言模型和递归神经网络语言模型进行M候选重估,性能提升也是有限的。因为这几种语言模型都不能对历史信息起到良好的记忆功能。而基于LSTM结构的神经网络语言模型因其良好的记忆功能,在语音识别系统(尤其是电话交谈语音识别系统)中对引入历史句子信息的M最优候选结果进行重估性能有明显提升。
发明内容
本发明的目的在于,为了克服上述缺陷,本发明提供一种基于长短时记忆网络的语言模型重估方法及系统。
为了实现上述目的,本发明提供了一种基于长短时记忆网络的语言模型重估方法,所述方法包含:
步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;
步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果,用一遍解码的识别结果作为历史句子信息,生成引入历史句子信息的M个最优的候选结果;;
步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;
步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对引入历史句子信息的M个最优候选结果用LSTM神经网络语言模型进行重评估;
步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
可选的,上述步骤100)具体为:首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;然后,从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征,得到预处理后的信号。
可选的,上述步骤101)具体为:
步骤101-1)当N取值为3时,用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
上述步骤102)具体为:在获得的M个最优候选结果中引入一遍解码的识别结果作为历史句子信息,得到引入历史句子信息后的最优候选文本。
上述步骤103)进一步包含:步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练第一四元文法语言模型,用通用语料训练第二四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型。步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个候选结果进行重评估。
上述步骤104)进一步包含:步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型;步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息后的最优候选文本进行重评估。
上述步骤105)进一步包含:将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果。
此外,本发明还提供了一种基于长短时记忆网络的语言模型重估系统,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于将第一解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;生成引入历史句子信息的M个最优的候选结果;
重估模块,用于采用用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;和
融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
上述预处理模块进一步包含:语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;特征提取和规整子模块,用于从音频片段中提取基频、PLP和HLDA特征,进而用于后续解码阶段。
上述第一解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
为了获得更好的重估效果,本发明提出了在电话交谈语音识别任务中,引入历史句子信息的LSTM神经网络语言模型重估。
综上所述,本发明提供的具体方法为:输入待识别的语言信息;用N元文法语言模型进行一遍解码,然后从中选取M个最优的候选结果;在获得的M候选结果中引入一遍解码的识别结果作为历史句子信息;用高元文法语言模型对选取的M候选结果进行重评估;用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M候选结果进行重评估:针对电话交谈语料上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M最优候选结果用LSTM神经网络语言模型进行重评估;5.将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为最终识别结果。
与现有技术相比,本发明的优点:电话交谈风格的语料本身具有一定的上下文相关性,而LSTM神经网络语言模型可以对历史信息起到良好的记忆功能,学习能力更强,通过LSTM神经网络语言模型对引入历史句子信息的M候选进行重估的方法来提高电话交谈语音识别任务的性能。
附图说明
图1本发明提供的基于LSTM结构的神经网络语言模型;
图2本发明提供的语音识别方法的流程图。
具体实施方式
下面结合附图和优选实施例对本发明进行详细说明。
本实验所用数据集如下:
训练集:采用的训练数据包括语言数据联盟LDC(Linguistic Data Consortium)
提供的汉语文本语料:Call-Home、Call-Friend以及Call-HKUST;自采的自然口语对话数据,统称为CTS(Conversational Telephone Speech)语料。另一部分训练数据为网上自行下载的文本语料,统称为通用语料。
开发集:自采的电话信道数据集。
测试集:2005年国家863高科技计划提供的数据集(86305)以及香港大学2004年采集的电话自然口语对话的部分数据(LDC)。
1.训练阶段
1)用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值得到插值后的三元文法语言模型,并以相同的方式训练相应的插值后的四元文法语言模型。
2)用CTS语料训练前向神经网络语言模型、递归神经网络语言模型以及基于LSTM结构的神经网络语言模型(如图1所示),经过参数调优,训练各类神经网络语言模型时所用词典分类数为500,迭代次数均为15次。
2.解码阶段
1)一遍解码:用插值得到的三元文法语言模型进行一遍解码,得到一遍识别结果,并选取10个最优候选结果用于后续重估。
2)引入历史句子信息:在获得的10个最优候选结果中引入一遍解码的识别结果作为历史句子信息(考虑5句话历史信息),得到引入历史句子信息后的最优候选文本。
3)高元文法语言模型重估:用插值得到的四元文法语言模型对10个最优候选结果进行重评估。
4)神经网络语言模型重估:用LSTM神经网络语言模型对引入历史句子信息的10个最优候选结果进行重评估。
5)得分融合:通过在开发集上进行融合系数调优,将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果;
此外,本发明还提供了一种基于长短时记忆网络的语言模型重估系统,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一遍解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于将第一遍解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;生成引入历史句子信息的M个最优的候选结果;
重估模块,用于采用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
所述预处理模块进一步包含:
语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;
特征提取和规整子模块,用于从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,进而用于后续解码阶段。
所述第一遍解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
本发明提出了基于LSTM结构的神经网络语言模型对引入历史句子信息的M候选结果进行重估,并与之前的高元文法语言模型重估以及其他神经网络语言模型重估,在电话语音识别系统中进行了系统的对比,具体结果如下:
Figure GDA0002245994220000071
其中FFNNLM(41200-L300),表示前向神经网络语言模型考虑了一句话中前4个词的历史信息,投影层和隐藏层均包含300个结构单元;RNNLM(R600)表示只包含隐藏层的递归神经网络语言模型,隐藏层包含600个结构单元;RNNLM(i300-R300)包含投影层和隐藏层的递归神经网络语言模型,投影层和隐藏层均包含300个结构单元;LSTM(i300-m300)表示引入LSTM结构的神经网络语言模型,投影层包含300个结构单元,隐藏层包含300个LSTM结构单元;Ppl表示相应的神经网络语言模型在测试集上的困惑度;WER表示字错误率。实验中,用神经网络进行重估时,考虑历史句子信息数为5句。各个隐层单元数以及考虑历史句子信息数等参数均由参数调优得到。
FFNNLM可以把词映射到连续空间,对词义相近的词起到聚类作用,通过实验可以看出,这种神经网络语言模型比N元文法语言模型学习能力更强。实验中,首先,用FFNNLM与4-Gram进行插值重估,与基线进行对比。因FFNNLM良好的自学习能力,重估性能明显提升。但是FFNNLM只能考虑有限个词的历史信息,因此引入了理论上可以考虑所有历史词信息的RNNLM。接着,对比了只含有隐藏层的RNNLM以及包含投影层和隐藏层的RNNLM,包含两个隐层的RNNLM性能更优,说明深层的神经网络学习能力更强。然后,对比了含有相同隐层数的FFNNLM和RNNLM,RNNLM因引入了自循环,它对历史信息的记忆性更强,重估效果比FFNNLM更优。但是RNNLM随着新词的不断引入存在记忆衰退严重的问题,因此引入了具有良好记忆功能的LSTM神级网络语言模型。最后,对比了含有相同隐层数的RNNLM和引入LSTM的神经网络语言模型。与RNNLM相比,LSTM结构可以对历史句子信息起到良好的记忆功能,在面向电话交谈任务中学习能力比RNNLM更强,重估效果更优。
综上所述,在电话交谈语音识别任务中,引入LSTM结构的神经网络语言模型性能最优。本实验中,用LSTM神经网络语言模型模型对引入历史句子信息的10个最优候选结果进行重评估,并与用4元文法语言模型进行重评估的结果进行融合,最终WER相对降低百分之三左右。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于长短时记忆网络的语言模型重估方法,所述方法包含:
步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;
步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果,用一遍解码的识别结果作为历史句子信息,生成引入历史句子信息的M个最优的候选结果;
步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;
步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的识别结果作为历史句子信息,对引入历史句子信息的M个最优候选结果用LSTM神经网络语言模型进行重评估;
步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
2.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤100)具体为:
首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;
然后,从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征,得到预处理后的信号。
3.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤101)具体为:
步骤101-1)当N取值为3时,用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
4.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤103)进一步包含:
步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练第一四元文法语言模型,用通用语料训练第二四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型;
步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个最优候选结果进行重评估。
5.根据权利要求4所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤104)进一步包含:
步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型;
步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息的最优候选文本进行重评估。
6.根据权利要求4或5所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤105)进一步包含:
将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果。
7.一种基于长短时记忆网络的语言模型重估系统,其特征在于,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一遍解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于将第一遍解码模块输出的信息中的一遍解码的识别结果作为历史句子信息;生成引入历史句子信息的M个最优的候选结果;
重估模块,用于采用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
8.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统,其特征在于,所述预处理模块进一步包含:
语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;
特征提取和规整子模块,用于从音频片段中提取基频、感知线性预测系数和异方差线性判别分析特征,进而用于后续解码阶段。
9.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统,其特征在于,所述第一遍解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练第一三元文法语言模型,用通用语料训练第二三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
CN201510844693.7A 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法 Active CN106803422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510844693.7A CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510844693.7A CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Publications (2)

Publication Number Publication Date
CN106803422A CN106803422A (zh) 2017-06-06
CN106803422B true CN106803422B (zh) 2020-05-12

Family

ID=58976925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510844693.7A Active CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Country Status (1)

Country Link
CN (1) CN106803422B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109427330B (zh) * 2017-09-05 2023-04-07 中国科学院声学研究所 一种基于统计语言模型得分规整的语音识别方法及系统
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108415898B (zh) * 2018-01-19 2021-09-24 思必驰科技股份有限公司 深度学习语言模型的词图重打分方法和系统
CN108711422B (zh) * 2018-05-14 2023-04-07 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110858480B (zh) * 2018-08-15 2022-05-17 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
US10848855B2 (en) * 2018-08-17 2020-11-24 Htc Corporation Method, electronic device and recording medium for compensating in-ear audio signal
CN110895926A (zh) * 2018-09-12 2020-03-20 普天信息技术有限公司 一种语音识别方法及装置
CN111627452B (zh) * 2019-02-28 2023-05-23 百度在线网络技术(北京)有限公司 一种语音解码方法、装置和终端设备
CN112447165A (zh) * 2019-08-15 2021-03-05 阿里巴巴集团控股有限公司 信息处理、模型训练和模型构建方法、电子设备、智能音箱
CN113302683B (zh) * 2019-12-24 2023-08-04 深圳市优必选科技股份有限公司 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111524517B (zh) * 2020-06-24 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN112908305B (zh) * 2021-01-30 2023-03-21 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN102543081A (zh) * 2010-12-22 2012-07-04 财团法人工业技术研究院 可调控式韵律重估测系统与方法及计算机程序产品
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
KR20130011574A (ko) * 2011-07-22 2013-01-30 한국전자통신연구원 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7953279B2 (en) * 2007-06-28 2011-05-31 Microsoft Corporation Combining online and offline recognizers in a handwriting recognition system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543081A (zh) * 2010-12-22 2012-07-04 财团法人工业技术研究院 可调控式韵律重估测系统与方法及计算机程序产品
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
KR20130011574A (ko) * 2011-07-22 2013-01-30 한국전자통신연구원 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
From Feedforward to Recurrent LSTM Neural;Martin Sundermeyer等;《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》;20150531;第23卷(第3期);第517-529页 *
Paraphrastic language models and combination with neural network language models;X.Liu等;《2013 IEEE International Conference on Acoustics, Speech and Signal Processing》;20130526;第8421-8425页 *

Also Published As

Publication number Publication date
CN106803422A (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN106803422B (zh) 一种基于长短时记忆网络的语言模型重估方法
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
CN108510983B (zh) 用于序列标注的自动单元选择和目标分解的系统和方法
EP3355303A1 (en) Speech recognition method and apparatus
KR102313028B1 (ko) 음성 인식 시스템 및 방법
EP4018437B1 (en) Optimizing a keyword spotting system
CN113168828A (zh) 基于合成数据训练的会话代理管线
CN112927682B (zh) 一种基于深度神经网络声学模型的语音识别方法及系统
CN110634469B (zh) 基于人工智能的语音信号处理方法、装置及存储介质
CN106297773A (zh) 一种神经网络声学模型训练方法
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN110019741A (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
Sakamoto et al. StarGAN-VC+ ASR: Stargan-based non-parallel voice conversion regularized by automatic speech recognition
EP4024393A2 (en) Training a speech recognition model
Ziedan et al. A unified approach for arabic language dialect detection
Chen et al. End-to-end recognition of streaming Japanese speech using CTC and local attention
CN114969195A (zh) 对话内容挖掘方法和对话内容评估模型的生成方法
CN114722797A (zh) 一种基于语法导向网络的多模态评价对象情感分类方法
Ng et al. Groupwise learning for ASR k-best list reranking in spoken language translation
CN114783409A (zh) 语音合成模型的训练方法、语音合成方法及装置
Seki et al. Diversity-based core-set selection for text-to-speech with linguistic and acoustic features
Ilyes et al. Statistical parametric speech synthesis for Arabic language using ANN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant