CN106803422A - 一种基于长短时记忆网络的语言模型重估方法 - Google Patents

一种基于长短时记忆网络的语言模型重估方法 Download PDF

Info

Publication number
CN106803422A
CN106803422A CN201510844693.7A CN201510844693A CN106803422A CN 106803422 A CN106803422 A CN 106803422A CN 201510844693 A CN201510844693 A CN 201510844693A CN 106803422 A CN106803422 A CN 106803422A
Authority
CN
China
Prior art keywords
language model
language
result
reevaluating
syntax
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510844693.7A
Other languages
English (en)
Other versions
CN106803422B (zh
Inventor
张鹏远
左玲云
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510844693.7A priority Critical patent/CN106803422B/zh
Publication of CN106803422A publication Critical patent/CN106803422A/zh
Application granted granted Critical
Publication of CN106803422B publication Critical patent/CN106803422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于长短时记忆网络的语言模型重估方法及系统,所述方法包含:步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。

Description

一种基于长短时记忆网络的语言模型重估方法
技术领域
本发明涉及语音识别领域,是一种利用长短时记忆网络语言模型对识别结果进行重估,从而提升语音识别性能的方法。
背景技术
语言模型即用数学的方式描述语言学中词与词之间的约束现象,在语音识别领域起着显著的作用,尤其是在面向电话交谈的语音识别系统中,口语化的语言模型往往可以大幅度提高系统性能。然而,语言模型具有领域性和时效性,现实生活中电话交谈风格的语料是有限的,真实的语音质量多种多样,内容包罗万象,因此语音识别率通常很低。为了提升语音识别系统的性能,一般会增加后处理阶段,即:第一遍解码不仅输出最优首选,而且还输出其他得分较高的候选,这些候选一般可以用M候选列表或者词图表示。后处理阶段利用复杂的模型对M候选列表或者词图进行重新打分,然后选出最优识别结果。
近年来,神经网络语言模型的研究越来越受到学术界的广泛关注。基于分布式假设条件,神经网络语言模型可以通过投影矩阵将离散的词表示映射到连续空间,形成相应的词矢量特征,并可以把词义相近的词聚集在一起。这是因为,词法或者词义等相似的词语矢量特征在连续空间表现出良好的聚类性。最典型的神经网络语言模型是加拿大蒙特利尔大学教授Bengio提出的前向神经网络语言模型(FeedForward Neutral Network Language Model,FNNLM)、美国学者Mikolov提出的递归神经网络语言模型(Recurrent Neutral Network Language Model,RNNLM)以及德国学者Sundermeyer最新提出的基于长短时记忆(long-short term memory,LSTM)网络的神经网络语言模型。前向神经网络语言模型虽然可以对词进行连续空间表达,对历史信息起到一定的聚类作用,但是只能考虑有限个历史词信息;递归神经网络语言模型理论上可以考虑无限个历史词信息,但是随着新词的不断引入,这种神经网络语言模型存在着记忆衰退严重的问题;而LSTM神经网络语言模型可以对历史句子信息起到良好的记忆功能。神经网络语言模型因其过高的计算复杂度很少直接应用在解码阶段。它们通常应用在搜索空间较小的重估阶段。
在语音识别系统中,使用高元语言模型进行重估效果不明显,用前向神经网络语言模型和递归神经网络语言模型进行M候选重估,性能提升也是有限的。因为这几种语言模型都不能对历史信息起到良好的记忆功能。而基于LSTM结构的神经网络语言模型因其良好的记忆功能,在语音识别系统(尤其是电话交谈语音识别系统)中对引入历史句子信息的M最优候选结果进行重估性能有明显提升。
发明内容
本发明的目的在于,为了克服上述缺陷,本发明提供一种基于长短时记忆网络的语言模型重估方法及系统。
为了实现上述目的,本发明提供了一种基于长短时记忆网络的语言模型重估方法,所述方法包含:
步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;
步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;
步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;
步骤104)用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;
步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
可选的,上述步骤100)具体为:首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;然后,从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,得到预处理后的信号。
可选的,上述步骤101)具体为:
步骤101-1)当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
上述步骤102)具体为:在获得的M个最优候选结果中引入一遍解码的识别结果作为历史句子信息,得到引入历史句子信息后的最优候选文本。
上述步骤103)进一步包含:步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练四元文法语言模型,用通用语料训练四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型。步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个候选结果进行重评估。
上述步骤104)进一步包含:步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型;步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息后的最优候选文本进行重评估。
上述步骤105)进一步包含:将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果。
此外,本发明还提供了一种基于长短时记忆网络的语言模型重估系统,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于对第一解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;
重估模块,用于采用用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;和
融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
上述预处理模块进一步包含:语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;特征提取和规整子模块,用于从音频片段中提取基频、PLP和HLDA特征,进而用于后续解码阶段。
上述第一解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
为了获得更好的重估效果,本发明提出了在电话交谈语音识别任务中,引入历史句子信息的LSTM神经网络语言模型重估。
综上所述,本发明提供的具体方法为:输入待识别的语言信息;用N元文法语言模型进行一遍解码,然后从中选取M个最优的候选结果;在获得的M候选结果中引入一遍解码的识别结果作为历史句子信息;用高元文法语言模型对选取的M候选结果进行重评估;用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M候选结果进行重评估:针对电话交谈语料上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M最优候选结果用LSTM神经网络语言模型进行重评估;5.将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为最终识别结果。
与现有技术相比,本发明的优点:电话交谈风格的语料本身具有一定的上下文相关性,而LSTM神经网络语言模型可以对历史信息起到良好的记忆功能,学习能力更强,通过LSTM神经网络语言模型对引入历史句子信息的M候选进行重估的方法来提高电话交谈语音识别任务的性能。
附图说明
图1本发明提供的基于LSTM结构的神经网络语言模型;
图2本发明提供的语音识别方法的流程图。
具体实施方式
下面结合附图和优选实施例对本发明进行详细说明。
本实验所用数据集如下:
训练集:采用的训练数据包括语言数据联盟LDC(Linguistic Data Consortium)提供的汉语文本语料:Call-Home、Call-Friend以及Call-HKUST;自采的自然口语对话数据,统称为CTS(Conversational Telephone Speech)语料。另一部分训练数据为网上自行下载的文本语料,统称为通用语料。
开发集:自采的电话信道数据集。
测试集:2005年国家863高科技计划提供的数据集(86305)以及香港大学2004年采集的电话自然口语对话的部分数据(LDC)。
1.训练阶段
1)用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值得到插值后的三元文法语言模型,并以相同的方式训练相应的插值后的四元文法语言模型。
2)用CTS语料训练前向神经网络语言模型、递归神经网络语言模型以及基于LSTM结构的神经网络语言模型(如图1所示),经过参数调优,训练各类神经网络语言模型时所用词典分类数为500,迭代次数均为15次。
2.解码阶段
1)一遍解码:用插值得到的三元文法语言模型进行一遍解码,得到一遍识别结果,并选取10个最优候选结果用于后续重估。
2)引入历史句子信息:在获得的10个最优候选结果中引入一遍解码的识别结果作为历史句子信息(考虑5句话历史信息),得到引入历史句子信息后的最优候选文本。
3)高元文法语言模型重估:用插值得到的四元文法语言模型对10个最优候选结果进行重评估。
4)神经网络语言模型重估:用LSTM神经网络语言模型对引入历史句子信息的10个最优候选结果进行重评估。
5)得分融合:通过在开发集上进行融合系数调优,将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果;
此外,本发明还提供了一种基于长短时记忆网络的语言模型重估系统,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一遍解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于对第一遍解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;
重估模块,用于采用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
和融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
所述预处理模块进一步包含:
语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;
特征提取和规整子模块,用于从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,进而用于后续解码阶段。
所述第一遍解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
本发明提出了基于LSTM结构的神经网络语言模型对引入历史句子信息的M候选结果进行重估,并与之前的高元文法语言模型重估以及其他神经网络语言模型重估,在电话语音识别系统中进行了系统的对比,具体结果如下:
其中FFNNLM(41200-L300),表示前向神经网络语言模型考虑了一句话中前4个词的历史信息,投影层和隐藏层均包含300个结构单元;RNNLM(R600)表示只包含隐藏层的递归神经网络语言模型,隐藏层包含600个结构单元;RNNLM(i300-R300)包含投影层和隐藏层的递归神经网络语言模型,投影层和隐藏层均包含300个结构单元;LSTM(i300-m300)表示引入LSTM结构的神经网络语言模型,投影层包含300个结构单元,隐藏层包含300个LSTM结构单元;Ppl表示相应的神经网络语言模型在测试集上的困惑度;WER表示字错误率。实验中,用神经网络进行重估时,考虑历史句子信息数为5句。各个隐层单元数以及考虑历史句子信息数等参数均由参数调优得到。
FFNNLM可以把词映射到连续空间,对词义相近的词起到聚类作用,通过实验可以看出,这种神经网络语言模型比N元文法语言模型学习能力更强。实验中,首先,用FFNNLM与4-Gram进行插值重估,与基线进行对比。因FFNNLM良好的自学习能力,重估性能明显提升。但是FFNNLM只能考虑有限个词的历史信息,因此引入了理论上可以考虑所有历史词信息的RNNLM。接着,对比了只含有隐藏层的RNNLM以及包含投影层和隐藏层的RNNLM,包含两个隐层的RNNLM性能更优,说明深层的神经网络学习能力更强。然后,对比了含有相同隐层数的FFNNLM和RNNLM,RNNLM因引入了自循环,它对历史信息的记忆性更强,重估效果比FFNNLM更优。但是RNNLM随着新词的不断引入存在记忆衰退严重的问题,因此引入了具有良好记忆功能的LSTM神级网络语言模型。最后,对比了含有相同隐层数的RNNLM和引入LSTM的神经网络语言模型。与RNNLM相比,LSTM结构可以对历史句子信息起到良好的记忆功能,在面向电话交谈任务中学习能力比RNNLM更强,重估效果更优。
综上所述,在电话交谈语音识别任务中,引入LSTM结构的神经网络语言模型性能最优。本实验中,用LSTM神经网络语言模型模型对引入历史句子信息的10个最优候选结果进行重评估,并与用4元文法语言模型进行重评估的结果进行融合,最终WER相对降低百分之三左右。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种基于长短时记忆网络的语言模型重估方法,所述方法包含:
步骤100)输入待识别的语言信息,并对输入的待识别的语言信息进行预处理;
步骤101)用N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
步骤102)在获得的M个最优的候选结果中引入一遍解码的识别结果作为历史句子信息;
步骤103)用高元文法语言模型对选取的M个最优的候选结果进行重评估;
步骤104)用基于长短时记忆网络结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
其中,针对电话交谈语料的上下文相关的特性,在进行重估时,用一遍解码的结果作为历史句子信息,对选取的M个最优候选结果用LSTM神经网络语言模型进行重评估;
步骤105)将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
2.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤100)具体为:
首先,将输入的语言信息切分为若干具有同一声学性质的音频片段;
然后,从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,得到预处理后的信号。
3.根据权利要求1所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤101)具体为:
步骤101-1)当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
步骤101-2)用插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
4.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤103)进一步包含:
步骤103-1)当高元文法语言模型的N取值为4时,用CTS语料训练四元文法语言模型,用通用语料训练四元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的四元文法语言模型;
步骤103-2)用插值得到的四元文法语言模型对一遍解码得到的M个最优候选结果进行重评估。
5.根据权利要求3所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤104)进一步包含:
步骤104-1)用CTS语料训练基于LSTM结构的神经网络语言模型;
步骤104-2)用训练后的LSTM神经网络语言模型对得到的引入历史句子信息后的最优候选文本进行重评估。
6.根据权利要求4或5所述的基于长短时记忆网络的语言模型重估方法,其特在于,所述步骤105)进一步包含:
将四元文法语言模型重评估的结果与神经网络语言模型重评估的结果以(0.5,0.5)的比例进行融合,选出最优的结果作为最终的识别结果。
7.一种基于长短时记忆网络的语言模型重估系统,其特征在于,所述系统包含:
预处理模块,用于接收待识别的语音,并对输入的语言信息进行预处理操作;
第一遍解码模块,用于根据N元文法语言模型对预处理后的信息进行一遍解码,然后从中选取M个最优的候选结果;
历史信息添加模块,用于对第一遍解码模块输出的信息中引入一遍解码的识别结果作为历史句子信息;
重估模块,用于采用高元文法语言模型对选取的M个最优的候选结果进行重评估;还采用基于LSTM结构的神经网络训练语言模型对引入历史句子信息的M个最优的候选结果进行重评估;
和融合处理模块,用于将用高元文法语言模型进行重评估的结果与用LSTM神经网络语言模型重评估的结果进行融合,选出最优结果,作为待识别的语言信息的最终识别结果。
8.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统,其特征在于,所述预处理模块进一步包含:
语音分段子模块,用于将输入的语言信息切分为若干具有同一声学性质的音频片段;
特征提取和规整子模块,用于从音频片段中提取基频、感知线性预测系数(PLP)和异方差线性判别分析(HLDA)等特征,进而用于后续解码阶段。
9.根据权利要求7所述的基于长短时记忆网络的语言模型重估系统,其特征在于,所述第一遍解码模块进一步包含:
三元文法语言获取子模块,用于当N取值为3时,用CTS语料训练三元文法语言模型,用通用语料训练三元文法语言模型,然后将这两种模型在开发集上进行插值调优得到插值后的三元文法语言模型;
解码子模块,用于基于插值得到的三元文法语言模型对待识别的语言信息进行一遍解码,得到一遍识别结果,并选M个最优候选结果用于后续重估。
CN201510844693.7A 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法 Active CN106803422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510844693.7A CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510844693.7A CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Publications (2)

Publication Number Publication Date
CN106803422A true CN106803422A (zh) 2017-06-06
CN106803422B CN106803422B (zh) 2020-05-12

Family

ID=58976925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510844693.7A Active CN106803422B (zh) 2015-11-26 2015-11-26 一种基于长短时记忆网络的语言模型重估方法

Country Status (1)

Country Link
CN (1) CN106803422B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN108415898A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 深度学习语言模型的词图重打分方法和系统
CN108711422A (zh) * 2018-05-14 2018-10-26 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN109427330A (zh) * 2017-09-05 2019-03-05 中国科学院声学研究所 一种基于统计语言模型得分规整的语音识别方法及系统
WO2019080248A1 (zh) * 2017-10-23 2019-05-02 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110837353A (zh) * 2018-08-17 2020-02-25 宏达国际电子股份有限公司 补偿耳内音频信号的方法、电子装置及记录介质
CN110858480A (zh) * 2018-08-15 2020-03-03 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
CN110895926A (zh) * 2018-09-12 2020-03-20 普天信息技术有限公司 一种语音识别方法及装置
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111524517A (zh) * 2020-06-24 2020-08-11 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN111627452A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 一种语音解码方法、装置和终端设备
CN112447165A (zh) * 2019-08-15 2021-03-05 阿里巴巴集团控股有限公司 信息处理、模型训练和模型构建方法、电子设备、智能音箱
CN112908305A (zh) * 2021-01-30 2021-06-04 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备
WO2021127987A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质
CN111258991B (zh) * 2020-01-08 2023-11-07 北京小米松果电子有限公司 一种数据处理方法、装置及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
CN102543081A (zh) * 2010-12-22 2012-07-04 财团法人工业技术研究院 可调控式韵律重估测系统与方法及计算机程序产品
US20120183223A1 (en) * 2007-06-28 2012-07-19 Microsoft Corporation Combining online and offline recognizers in a handwriting recognition system
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
KR20130011574A (ko) * 2011-07-22 2013-01-30 한국전자통신연구원 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120183223A1 (en) * 2007-06-28 2012-07-19 Microsoft Corporation Combining online and offline recognizers in a handwriting recognition system
CN102543081A (zh) * 2010-12-22 2012-07-04 财团法人工业技术研究院 可调控式韵律重估测系统与方法及计算机程序产品
CN102270212A (zh) * 2011-04-07 2011-12-07 浙江工商大学 一种基于隐半马尔可夫模型的用户兴趣特征提取方法
KR20130011574A (ko) * 2011-07-22 2013-01-30 한국전자통신연구원 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법
CN102623010A (zh) * 2012-02-29 2012-08-01 北京百度网讯科技有限公司 一种建立语言模型的方法、语音识别的方法及其装置
CN103474062A (zh) * 2012-08-06 2013-12-25 苏州沃通信息科技有限公司 一种语音识别方法
JP2014149490A (ja) * 2013-02-04 2014-08-21 Nippon Hoso Kyokai <Nhk> 音声認識誤り修正装置及びそのプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARTIN SUNDERMEYER等: "From Feedforward to Recurrent LSTM Neural", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
X.LIU等: "Paraphrastic language models and combination with neural network language models", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633842B (zh) * 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107633842A (zh) * 2017-06-12 2018-01-26 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN109427330A (zh) * 2017-09-05 2019-03-05 中国科学院声学研究所 一种基于统计语言模型得分规整的语音识别方法及系统
WO2019080248A1 (zh) * 2017-10-23 2019-05-02 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108415898B (zh) * 2018-01-19 2021-09-24 思必驰科技股份有限公司 深度学习语言模型的词图重打分方法和系统
CN108415898A (zh) * 2018-01-19 2018-08-17 苏州思必驰信息科技有限公司 深度学习语言模型的词图重打分方法和系统
CN108711422A (zh) * 2018-05-14 2018-10-26 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
WO2019218818A1 (zh) * 2018-05-14 2019-11-21 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN108711422B (zh) * 2018-05-14 2023-04-07 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
CN110858480A (zh) * 2018-08-15 2020-03-03 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
CN110858480B (zh) * 2018-08-15 2022-05-17 中国科学院声学研究所 一种基于n元文法神经网络语言模型的语音识别方法
CN110837353B (zh) * 2018-08-17 2023-03-31 宏达国际电子股份有限公司 补偿耳内音频信号的方法、电子装置及记录介质
CN110837353A (zh) * 2018-08-17 2020-02-25 宏达国际电子股份有限公司 补偿耳内音频信号的方法、电子装置及记录介质
CN110895926A (zh) * 2018-09-12 2020-03-20 普天信息技术有限公司 一种语音识别方法及装置
CN111627452A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 一种语音解码方法、装置和终端设备
CN111627452B (zh) * 2019-02-28 2023-05-23 百度在线网络技术(北京)有限公司 一种语音解码方法、装置和终端设备
CN112447165A (zh) * 2019-08-15 2021-03-05 阿里巴巴集团控股有限公司 信息处理、模型训练和模型构建方法、电子设备、智能音箱
WO2021127987A1 (zh) * 2019-12-24 2021-07-01 深圳市优必选科技股份有限公司 多音字预测方法及消歧方法、装置、设备及计算机可读存储介质
CN111258991B (zh) * 2020-01-08 2023-11-07 北京小米松果电子有限公司 一种数据处理方法、装置及存储介质
CN111241810A (zh) * 2020-01-16 2020-06-05 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111241810B (zh) * 2020-01-16 2023-08-01 百度在线网络技术(北京)有限公司 标点预测方法及装置
CN111524517A (zh) * 2020-06-24 2020-08-11 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN111524517B (zh) * 2020-06-24 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN112908305A (zh) * 2021-01-30 2021-06-04 云知声智能科技股份有限公司 一种提升语音识别准确性的方法和设备

Also Published As

Publication number Publication date
CN106803422B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN106803422A (zh) 一种基于长短时记忆网络的语言模型重估方法
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN113439301B (zh) 用于机器学习的方法和系统
Shan et al. Investigating end-to-end speech recognition for mandarin-english code-switching
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
CN105304080B (zh) 语音合成装置及方法
US8818926B2 (en) Method for personalizing chat bots
CN104021784B (zh) 基于大语料库的语音合成方法和装置
CN110827801A (zh) 一种基于人工智能的自动语音识别方法及系统
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN112017645B (zh) 一种语音识别方法及装置
CN110134968A (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN106297826A (zh) 语音情感辨识系统及方法
CN106297773A (zh) 一种神经网络声学模型训练方法
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111816169A (zh) 中英语种混杂语音识别模型训练方法和装置
CN114911932A (zh) 基于主题语义增强的异构图结构多会话者情感分析方法
CN106653002A (zh) 一种文字直播方法及平台
CN112151020B (zh) 语音识别方法、装置、电子设备及存储介质
CN110895936B (zh) 基于家用电器的语音处理方法和装置
CN103035244A (zh) 一种可实时反馈用户朗读进度的语音跟踪方法
CN117524202A (zh) 一种ip电话语音数据检索方法及系统
CN116959464A (zh) 音频生成网络的训练方法、音频生成方法以及装置
CN108717854A (zh) 基于优化gfcc特征参数的说话人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant