CN106856092B - 基于前向神经网络语言模型的汉语语音关键词检索方法 - Google Patents

基于前向神经网络语言模型的汉语语音关键词检索方法 Download PDF

Info

Publication number
CN106856092B
CN106856092B CN201510906166.4A CN201510906166A CN106856092B CN 106856092 B CN106856092 B CN 106856092B CN 201510906166 A CN201510906166 A CN 201510906166A CN 106856092 B CN106856092 B CN 106856092B
Authority
CN
China
Prior art keywords
word
neural network
words
layer
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510906166.4A
Other languages
English (en)
Other versions
CN106856092A (zh
Inventor
张鹏远
王旭阳
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510906166.4A priority Critical patent/CN106856092B/zh
Publication of CN106856092A publication Critical patent/CN106856092A/zh
Application granted granted Critical
Publication of CN106856092B publication Critical patent/CN106856092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,更新各转换矩阵直至前向神经网络模型训练完毕;步骤2)利用前向神经网络模型计算输入词历史的目标词概率;步骤3)将目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在逆序索引中检索关键词,返回命中关键词及其出现的时间。

Description

基于前向神经网络语言模型的汉语语音关键词检索方法
技术领域
本发明属于语音识别领域,具体地说,涉及基于前向神经网络语言模型的汉语语音关键词检索方法。
背景技术
在语音关键词检索系统中,最为常用的语言模型是N元文法语言模型。但是,即便在N为较小的值,如3或4时,N元文法语言模型也面临着严重的数据稀疏的问题。因此,很多平滑算法用于缓解这一问题。然而,该模型对未出现在训练集中的数据的估计依旧与训练充分的数据有较大差距,从而导致这些非常见词及其周围的常见词无法被正确识别,进而影响了关键词检索的性能。前向神经网络语言模型(Feed Forward Neural networklanguage model,FFNNLM)通过将词典中的每个词映射到连续空间中,因此可以对未出现在训练集中的数据提供更好的预测概率。但由于其计算复杂度很高,往往用于识别的后处理模块。前向神经网络语言模型的计算复杂度大部分集中于输出层,这是因为在建模过程中,在输出层需要通过对每个节点计算以做概率规整,而其大小为识别词典的大小,往往在104数量级;而隐藏层大小一般要小一到两个数量级。因此,输出层的计算量占据了计算量中的大部分。但是,由于在后处理时搜索空间已经被限制,所以使用前向神经网络语言模型重估的效果是次优的。近年来,若干降低输出层计算复杂度的方法被提出,主要有:
(1)调整输出层结构以降低计算复杂度,如采用shortlist形式或将输出层表示为树的形式;
(2)通过基于熵的剪枝算法将前向神经网络语言模型转为N元文法语言模型;
(3)修改训练算法以估计规整因子,在预测时将该值固定为常数,如采用方差正则化(variance regularization)或noise-contrastive estimation(NCE)准则。
然而,上述方法均存在一定的不足。采用shortlist的形式,即只在输出层保留在训练集中最高频的若干词汇,其他词使用N元文法的语言模型估计,这种做法虽然在一定程度上降低了输出层的计算复杂度,但损害了模型的泛化性;而将输出层表示为树的方法的性能很大程度上依赖于树的构造。将FFNNLM转为N元文法模型虽然可以近似的在一遍解码过程中使用FFNNLM,但在转换过程中也会有一定的性能损失。使用方差正则化的训练准则降低了模型预测时的计算复杂度,但相比于NCE准则,在训练过程中并无法加速FFNNLM的训练速度。
发明内容
本发明的目的在于克服目前降低输出层计算复杂度的方法存在的上述缺陷,通过修改前向神经网络语言模型的训练准则,在训练和预测过程中避免对输出层做概率规整,从而降低前向神经网络语言模型的计算复杂度,使其应用于一遍解码,进而提升语音关键词的检索性能。
为了实现上述目的,本发明提供了基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:
步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据训练的目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,将误差通过网络回传,更新各转换矩阵,直至前向神经网络模型训练完毕;
步骤2)利用步骤1)得到的前向神经网络模型计算输入词历史的目标词概率;
步骤3)将前向神经网络语言模型计算得到的目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在检索阶段,根据关键词列表在逆序索引中检索关键词,返回命中关键词及其出现的时间。
上述技术方案中,所述步骤1)具体包括:
步骤101)输入N个训练样本时,同时输入一个基于训练样本的目标词统计得到的一元概率;
所述训练样本包括输入样本和目标词;其中N个输入样本为:ui(1≤i≤N),每个ui由n-1个词历史vij(1≤j≤n-1)组成,ui=(vi1,vi2,…vi,n-1);表示形式采用“N中选一”的编码模式;所述目标词为wi(1≤i≤N);
步骤102)将输入层的输入样本通过映射层矩阵映射到连续空间,串接在一起后作为第一个隐藏层的输入;然后将词向量继续向前传播,直至最后一个隐藏层;
步骤103)根据NCE准则,将步骤101)的一元概率生成若干噪声词;并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,根据训练的目标函数计算各层之间的转换矩阵;
步骤104)计算输出层的输出与目标词的误差,将误差通过网络回传,更新各转换矩阵,直至神经网络训练完毕。
上述技术方案中,所述步骤103)的具体实现过程为:
对于每个目标词wi,加入概率分布为q(wi)的k个噪声样本wij,q(wi)采用Unigram的概率;引入变量C,那么一个词是由神经网络预测得到(C=1),还是由噪声样本得到(C=0),其概率如下式所示:
其中:
其中,D′是最后一个隐藏层到输出层的变换矩阵,b是偏置向量,Z(u)为规整因子,Z(u)在训练和预测过程中均设为1;
训练的目标函数J定义为最大化logP(C|w,u)的期望,即:
通过求最大化的J,求得各层之间的转换矩阵。
上述技术方案中,所述步骤2)具体包括:
步骤201)将包含n-1个词历史v0j(1≤j≤n-1)的向量u0输入上述训练完成的前向神经网络模型中;
步骤202)计算映射层上的不同词历史传至第一个隐藏层时的结果:CjDv0j(1≤j≤n-1),D为映射层的矩阵;保存计算结果;
步骤203)根据不同的词历史v0j,在内存中查找上述已经计算好的词向量CjDv0j,经过若干个隐藏层传至输出层;
步骤204)在输出层计算目标词的概率:
P(w|u0)=p(w|u0)=exp(D'h2+b) (8)。
本发明的优点在于:
1、本发明的方法通过在神经网络的训练过程中引入噪声分布以避免对输出层每个节点进行处理;同时在训练和预测过程中,将规整因子置为常数,从而提高了训练和预测的速度,也使得将之应用于一遍解码成为了可能;
2、运用本发明的方法训练的前向神经网络语言模型,可为后续的解码提供质量更好的词图,从而提升语音关键词检索的性能。
附图说明
图1为本发明的基于前向神经网络语言模型的汉语语音关键词检索方法的流程图;
图2为本发明的前向神经网络语言模型的拓扑结构图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步地描述。
如图1所示,基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:
步骤1)利用训练样本采用NCE准则对前向神经网络语言模型进行训练;具体包括:
步骤101)输入N个训练样本时,同时输入一个基于训练样本的目标词统计得到的一元概率;
如图2所示,本实施例的前向神经网络语言模型包括输入层、映射层,两层隐藏层和输出层;
所述训练样本包括输入样本和目标词;其中N个输入样本为:ui(1≤i≤N),每个ui由n-1个词历史vij(1≤j≤n-1)组成,ui=(vi1,vi2,…vi,n-1);表示形式采用“N中选一”的编码模式;所述目标词为wi(1≤i≤N)。
步骤102)将输入层的输入数据通过映射层矩阵映射到连续空间,串接在一起后作为第一个隐藏层的输入;然后将词向量继续向前传播,直至第二个隐藏层;
在前向传输过程中,每个训练样本ui的词历史通过映射层矩阵(其中,|v|为词典的个数,d为第一个映射层的节点个数)映射到连续空间,串接在一起后作为第一个隐藏层的输入,第一个隐藏层的输出h1计算如下式所示:
其中(l为第一个隐层的节点个数)是位置相关的由映射层到隐藏层的变换矩阵,Dvij可以通过查表得到,激活函数采用rectified linear units,计算如下式所示:
φ(x)=max(0,x) (2)
第二个隐藏层的输出计算如下:
h2=φ(Mh1) (3)
其中(m为第二个隐层的节点个数)为连接两个隐藏层的变换矩阵。
步骤103)根据NCE准则,将步骤101)的一元概率生成若干噪声词;并将第二个隐藏层的激活输出传至目标词和这些噪声词所在节点处,根据训练的目标函数计算各层之间的转换矩阵;
NCE(noise-contrastive estimation)训练准则假设:对于每个目标词wi,加入概率分布为q(wi)的k个噪声样本wij,q(wi)采用Unigram的概率;引入变量C,那么一个词是由神经网络预测得到(C=1),还是由噪声样本得到(C=0),其概率如下式所示:
其中:
其中,是由第二个隐藏层到输出层的变换矩阵,b是偏置向量,Z(u)为规整因子,Z(u)在训练和预测过程中均设为1;
训练的目标函数J定义为最大化logP(C|w,u)的期望,即:
通过求最大化的J,求得各层之间的转换矩阵。
NCE训练准则通过引入噪声分布来避免计算(6)中的规整因子Z(u);这样在训练过程均可以带来倍的提速。
步骤104)计算输出层的输出与目标词的误差,将误差通过网络回传,更新各转换矩阵,直至神经网络训练完毕。
步骤2)利用步骤1)得到的前向神经网络模型对语音关键词进行检索;具体包括:
步骤202)计算映射层上的不同词历史传至第一个隐藏层时的结果:CjDv0j(1≤j≤n-1),D为映射层的矩阵;保存计算结果;
步骤203)根据不同的词历史v0j,在内存中查找上述已经计算好的词向量CjDv0j,经过若干个隐藏层传至输出层;
步骤204)在输出层计算目标词的概率:
P(w|u0)=p(w|u0)=exp(D'h2+b) (8)
如果采用传统的计算公式(6),对每个预测词来说,模型的计算复杂度为:o(n-1)×d×l×m+m×|v|。而通过公式(8)可以将计算复杂度降低到:o(d×m+m)。
步骤3)将前向神经网络语言模型计算得到的目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在检索阶段,根据关键词列表在逆序索引中检索关键词,返回命中关键词及其出现的时间。
下面结合实施例分析本发明的方法的性能。
本发明实验数据为真实的汉语电话交谈的录音,测试集时长共5小时。在测试集中一共选择了141个关键词,其中100个集内词,共出现697次;集外词共41个,共出现268次。测试语音为采样率8000HZ、单声道、16bit的语音数据。实验中前向神经网络语言模型的映射层和两个隐藏层的规模均为256,输出层为全词典大小,共43514个节点;基于NCE准则训练的神经网络的噪声采样个数为100。语言模型的训练集为电话交谈领域的语料,共有1020万个词。
基线系统的语言模型采用基于modified Kneser-Ney折扣平滑算法的三元文法。测试结果见表1:
表1
可以看出,通过将神经网络应用于一遍解码中,可以更好地将神经网络的优势发挥出来,相比于用于重估,ATWV指标在集内词和集外词均有2%的绝对提升;F1值在集外词上提升更为明显,绝对提升3.39%。这说明,通过在一遍解码中引入神经网络语言模型,不仅可以提高高精度区域的检索性能,同时也提升了整个系统的召回率,这为后续采用更为复杂的置信度估计算法提升系统性能提供了可能。而将神经网络用于重估阶段,相对于只使用三元文法,在ATWV指标上集外词的检索性能有所提升,在集内词上并无明显改善;而F1值上使用神经网络语言模型对检索性能几乎没有影响。这是因为经过基于三元文法语言模型解码产生的词图已经限制了搜索范围,神经网络语言模型对集外词的语言模型概率起到了平滑作用,但在集内词上与三元文法语言模型的效果相当。
此外,实验还比较了基于交叉熵准则和基于NCE准则的训练和预测的速度,如表2和表3所示:
表2
训练准则 训练时间/迭代
交叉熵 16.315小时
NCE 1.205小时
可以看到,通过使用基于NCE准则训练的神经网络语言模型,其训练速度是传统的基于交叉熵准则模型的10倍以上。在上面的实验中已经证明,基于这两种准则训练的模型性能相当,因此使用NCE准则训练的模型可以在保证性能不下降的同时达到速度的显著提升;表3为预测过程中的处理速度:
表3
模型 每秒处理词数
基于交叉熵准则的前向神经网络语言模型 0.04×10<sup>3</sup>
基于NCE准则的前向神经网络语言模型 5.44×10<sup>3</sup>
+提前计算输入词向量与隐藏层的乘积 14.678×10<sup>3</sup>
可以看到,使用NCE准则训练的神经网络语言模型后,在计算语言模型概率时可以加速100倍以上;而在提前计算输入词向量与隐藏层乘积后,又可以获得将近3倍的速度提升。

Claims (4)

1.基于前向神经网络语言模型的汉语语音关键词检索方法,所述方法包括:
步骤1)将包含历史词的输入样本和目标词输入前向神经网络模型,对于每个目标词wi,加入概率分布为q(wi)的若干个噪声词,并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,由此根据训练的目标函数计算各层之间的转换矩阵;计算输出层的输出与目标词的误差,将误差通过网络回传,更新各转换矩阵,直至前向神经网络模型训练完毕;
步骤2)利用步骤1)得到的前向神经网络模型计算输入词历史的目标词概率;
步骤3)将前向神经网络语言模型计算得到的目标词概率用于解码器中,通过解码器对语音解码得到多候选识别结果的词图,再将词图转为混淆网络并生成逆序索引;在检索阶段,根据关键词列表在逆序索引中检索关键词,返回命中关键词及其出现的时间。
2.根据权利要求1所述的基于前向神经网络语言模型的汉语语音关键词检索方法,所述步骤1)具体包括:
步骤101)输入N个训练样本时,同时输入一个基于训练样本的目标词统计得到的一元概率;
所述训练样本包括输入样本和目标词;其中N个输入样本为:ui,每个ui由n-1个词历史vij组成,ui=(vi1,vi2,…vi,n-1);表示形式采用“N中选一”的编码模式;所述目标词为wi;其中,1≤i≤N,1≤j≤n-1;
步骤102)将输入层的输入样本通过映射层矩阵映射到连续空间,串接在一起后作为第一个隐藏层的输入;然后将词向量继续向前传播,直至最后一个隐藏层;
步骤103)根据噪声对比估计方法,将步骤101)的一元概率生成若干噪声词;并将最后一个隐藏层的激活输出传至目标词和这些噪声词所在节点处,根据训练的目标函数计算各层之间的转换矩阵;
步骤104)计算输出层的输出与目标词的误差,将误差通过网络回传,更新各转换矩阵,直至神经网络训练完毕。
3.根据权利要求2所述的基于前向神经网络语言模型的汉语语音关键词检索方法,其特征在于,所述步骤103)的具体实现过程为:
对于每个目标词wi,加入概率分布为q(wi)的k个噪声样本wij,q(wi)采用Unigram的概率;引入变量C,那么一个词是由神经网络预测得到,还是由噪声样本得到,其概率如下式所示:
其中:
其中,D′是最后一个隐藏层到输出层的变换矩阵,b是偏置向量,Z(u)为规整因子,Z(u)在训练和预测过程中均设为1;h2为第二个隐藏层的输出;
训练的目标函数J定义为最大化logP(C|w,u)的期望,即:
通过求最大化的J,求得各层之间的转换矩阵。
4.根据权利要求3所述的基于前向神经网络语言模型的汉语语音关键词检索方法,其特征在于,所述步骤2)具体包括:
步骤201)将包含n-1个词历史v0j的向量u0输入上述训练完成的前向神经网络模型中;其中,1≤j≤n-1
步骤202)计算映射层上的不同词历史传至第一个隐藏层时的结果:CjDv0j,D为映射层的矩阵;保存计算结果;
步骤203)根据不同的词历史v0j,在内存中查找上述已经计算好的词向量CjDv0j,经过若干个隐藏层传至输出层;
步骤204)在输出层计算目标词的概率:
P(w|u0)=exp(D′h2+b) (8)。
CN201510906166.4A 2015-12-09 2015-12-09 基于前向神经网络语言模型的汉语语音关键词检索方法 Active CN106856092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510906166.4A CN106856092B (zh) 2015-12-09 2015-12-09 基于前向神经网络语言模型的汉语语音关键词检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510906166.4A CN106856092B (zh) 2015-12-09 2015-12-09 基于前向神经网络语言模型的汉语语音关键词检索方法

Publications (2)

Publication Number Publication Date
CN106856092A CN106856092A (zh) 2017-06-16
CN106856092B true CN106856092B (zh) 2019-11-15

Family

ID=59132034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510906166.4A Active CN106856092B (zh) 2015-12-09 2015-12-09 基于前向神经网络语言模型的汉语语音关键词检索方法

Country Status (1)

Country Link
CN (1) CN106856092B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679225B (zh) * 2017-10-20 2021-03-09 哈尔滨工业大学 一种基于关键词的回复生成方法
CN108415898B (zh) * 2018-01-19 2021-09-24 思必驰科技股份有限公司 深度学习语言模型的词图重打分方法和系统
CN110070855B (zh) * 2018-01-23 2021-07-23 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别系统及方法
CN110444193B (zh) * 2018-01-31 2021-12-14 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN109192224B (zh) * 2018-09-14 2021-08-17 科大讯飞股份有限公司 一种语音评测方法、装置、设备及可读存储介质
CN110164431B (zh) * 2018-11-15 2023-01-06 腾讯科技(深圳)有限公司 一种音频数据处理方法及装置、存储介质
CN110222578B (zh) * 2019-05-08 2022-12-27 腾讯科技(深圳)有限公司 对抗测试看图说话系统的方法和装置
CN110489760B (zh) * 2019-09-17 2023-09-22 达观数据有限公司 基于深度神经网络文本自动校对方法及装置
CN110808032B (zh) * 2019-09-20 2023-12-22 平安科技(深圳)有限公司 一种语音识别方法、装置、计算机设备及存储介质
CN111667057B (zh) * 2020-06-05 2023-10-20 北京百度网讯科技有限公司 用于搜索模型结构的方法和装置
CN113643706B (zh) * 2021-07-14 2023-09-26 深圳市声扬科技有限公司 语音识别方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104376842A (zh) * 2013-08-12 2015-02-25 清华大学 神经网络语言模型的训练方法、装置以及语音识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AUPR208000A0 (en) * 2000-12-15 2001-01-11 80-20 Software Pty Limited Method of document searching

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971678A (zh) * 2013-01-29 2014-08-06 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN104376842A (zh) * 2013-08-12 2015-02-25 清华大学 神经网络语言模型的训练方法、装置以及语音识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Optimization or Neural Network Language Models for keyword search";Gandhe A. etc.;《ICASSP 2014》;20141231;全文 *
"基于混淆网络的汉语语音检索技术研究";黄湘松;《中国博士学位论文全文数据库信息科技辑》;20110715(第7期);全文 *
"汉语语言集外词检索算法的改进研究";王旭阳;《网络新媒体技术》;20140731;第3卷(第4期);全文 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107506426A (zh) * 2017-08-18 2017-12-22 四川长虹电器股份有限公司 一种智能电视自动智能应答机器人的实现方法

Also Published As

Publication number Publication date
CN106856092A (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN106856092B (zh) 基于前向神经网络语言模型的汉语语音关键词检索方法
Hannun et al. Sequence-to-sequence speech recognition with time-depth separable convolutions
Saon et al. The IBM 2015 English conversational telephone speech recognition system
CN108701452B (zh) 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置及记录介质
Abdel-Hamid et al. Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code
US9406299B2 (en) Differential acoustic model representation and linear transform-based adaptation for efficient user profile update techniques in automatic speech recognition
Arısoy et al. Converting neural network language models into back-off language models for efficient decoding in automatic speech recognition
US9653093B1 (en) Generative modeling of speech using neural networks
EP4018437B1 (en) Optimizing a keyword spotting system
JP6506074B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法及びプログラム
Tanaka et al. Neural Error Corrective Language Models for Automatic Speech Recognition.
Deena et al. Recurrent neural network language model adaptation for multi-genre broadcast speech recognition and alignment
Padmanabhan et al. Large-vocabulary speech recognition algorithms
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
CN110569505A (zh) 一种文本输入方法及装置
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
Meng et al. Minimum word error rate training with language model fusion for end-to-end speech recognition
US20180061395A1 (en) Apparatus and method for training a neural network auxiliary model, speech recognition apparatus and method
JPH08211889A (ja) 木構造を用いたパターン適応化方式
Bacchiani et al. Design of a speech recognition system based on acoustically derived segmental units
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
CN113380232A (zh) 基于约束的结构化稀疏注意力机制的端到端语音识别方法及存储介质
Al-Rababah et al. Automatic detection technique for speech recognition based on neural networks inter-disciplinary
JPH0895592A (ja) パターン認識方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant