CN112349288A - 基于拼音约束联合学习的汉语语音识别方法 - Google Patents
基于拼音约束联合学习的汉语语音识别方法 Download PDFInfo
- Publication number
- CN112349288A CN112349288A CN202010988154.1A CN202010988154A CN112349288A CN 112349288 A CN112349288 A CN 112349288A CN 202010988154 A CN202010988154 A CN 202010988154A CN 112349288 A CN112349288 A CN 112349288A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- chinese
- speech recognition
- encoder
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 13
- 230000006698 induction Effects 0.000 claims abstract description 5
- 238000012549 training Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 2
- 125000004122 cyclic group Chemical group 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 abstract 1
- 210000005266 circulating tumour cell Anatomy 0.000 description 13
- 239000010410 layer Substances 0.000 description 8
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及基于拼音约束联合学习的汉语语音识别方法,属于自然语言处理技术领域。本发明首先从公开中文语料集中收集与语音、文本对应的拼音文本,其次通过共享编码器对语音特征编码,再以拼音语音识别为辅助任务,然后,在解码过程中利用拼音作为解码约束,基于共享编码器将拼音语音识别语汉语语音识别联合学习,引入一种更接近语音的归纳偏置,增强编码器对汉语语音的表达能力。本发明提出的基于拼音约束联合学习的汉语语音识别方法,对汉语的识别降低了词错率,为后续在汉语语音识别过程中融入拼音以及使用拼音纠错等工作提供强有力的支撑;缓解了端到端的模型对汉字的识别难以收敛的问题。
Description
技术领域
本发明涉及基于拼音约束联合学习的汉语语音识别方法,属于自然语言处理技术领域
背景技术
在自动语音识别领域,当前的语音识别模型在英语、法语等表音文字中已经取得很好的效果。然而,汉语是一种典型的表意文字,汉字与语音没有直接的对应关系,但拼音作为汉字读音的标注符号,与汉字存在相互转换的内在联系。将语音特征识别为音节(拼音)单元、再通过一个转换模型将拼音变换为汉字的级联方法存在错误传播,为了避免这种问题,汉字-拼音识别模型在训练时使用拼音帮助对汉字的识别,但是这种方法识别效果不佳,对此,基于音节(包含1400个拼音)的贪婪级联解码器模型,取得相对较好的效果。在汉语语音识别中,引入拼音作为对汉字解码的约束,能够促使模型学习更好的语音特征。因此,提出基于拼音约束联合学习的汉语语音识别方法,在汉语语音识别中引入拼音语音识别任务作为辅助任务联合训练,共同学习,相互促进。
发明内容
本发明提供了基于拼音约束联合学习的汉语语音识别方法,以用于在汉语语音识别总引入拼音作为对汉字解码的约束,能够促使模型学习更好的语音特征,缓解了当前系统对汉字识别难以收敛的问题。
本发明的技术方案是:基于拼音约束联合学习的汉语语音识别方法,首先从公开中文语料集data_aishell中收集与语音、文本对应的拼音文本,其次通过共享编码器对语音特征编码,再以拼音语音识别为辅助任务,然后,在解码过程中利用拼音作为解码约束,基于共享编码器将拼音语音识别语汉语语音识别联合学习,引入一种更接近语音的归纳偏置,增强编码器对汉语语音的表达能力。所述基于拼音约束联合学习的汉语语音识别方法具体步骤如下:
Step1、收集与语音、汉字文本相对应的拼音文本;在公开训练语料data_aishell上,收集与语音、汉字文本相对应的拼音文本,从而得到语音、汉语文本、拼音文本训练集、测试集和验证集。
Step2、共享编码器;共享编码器采用4层的卷积网络和5层的双向LSTM,双向LSTM每个方向有512个隐状态单元,在模型训练时,能同时感知到拼音、汉字的监督信号、从而引入一种更接近汉语语音的归纳偏置。
Step3、拼音语音识别;在解码过程中,拼音语音识别解码器基于共享编码器的输出状态,以前一时刻的输出和当前时刻的上下文向量作为当前时刻的输入进行解码,输出拼音。
Step4、基于拼音约束联合学习的汉字识别;以拼音语音识别为辅助任务,汉语语音识别为主要任务,拼音语音识别和汉语语音识别分别有一个解码器,训练时,模型的交叉熵是两个解码器分别计算损失后正则求和;反向传播时,编码器的参数被两个任务同时更新,两个任务共同促进的效果。
其中,模型共享一个编码器,编码器采用双向长短期记忆网络(Long Short TermMemory networks,LSTM)。共享编码器将语音信号特征x=(x1,x2,...,xT)作为输入,使用VGG对x抽取特征转为高纬的隐表征,输出为h=(h1,h2,...,hL)。这里T表示语音特征的帧索引,L为对语音特征下采样后的帧索引(L≤T)。编码器的编码过程表示为:
x=(x1,x2,...,xT)
拼音语音识别模型采用当前流行的基于注意力机制的编码器-解码器框架,编码过程如上所述。其中,解码器采用单向LSTM,以共享编码器的输出h作为输入,基于当前时刻t以前的输出标签序列,得到每一个t时刻预测拼音p标签ypt的概率分布:
ypt=LSTM(h,yp(1:t-1))
对于每一时间步t,基于所有的输入语音特征h和注意力机制权重at,l产生文本向量ct:
这里的at,l通过softmax层计算:
et,l=ωTtanh(Wst-1+Vhl+Uft,l+b)
ft=F*at-1
这里,训练参数有ω、W、V、U和F,γ是模型的锐化因子,*表示一维卷积,ft通过*与卷积参数F计算得出。
解码器使用ct、前一时刻的输出标签yp(t-1)和隐状态st-1生成当前时刻的隐状态st和预测拼音标签ypt:
st=LSTM(st-1,yt-1,ct)
ypt~Generate(st,ct)
这里LSTM代表单向循环神经网络,Generate代表前馈网络。
结合以上公式,拼音语音识别的损失函数可以通过以下公式计算:
Lp(h,yp)=-lnP(yp|h)
这里拼音序列yp=(yp1,yp2,...ypt),其中t≤T。
基于拼音约束联合学习的汉字识别,以拼音语音识别为辅助任务,汉语语音识别为主要任务,拼音语音识别和汉语语音识别分别有一个解码器,基于共享编码器的输出h,汉字解码器同样以h作为输入,结合当前时刻t以前的输出标签序列,通过简单的前馈网络和一个softmax激活函数,得到每一个时刻t预测汉字c标签yct的概率分布P(yc|h),基于P(yc|h),汉字语音识别交差损失熵可以通过以下公式计算:
LC(x,yc)=-lnP(yc|h)
这里汉字序列yc=(yc1,yc2,...yct)。
在多任务学习框架下,本文模型的交叉熵通过拼音解码器和汉字解码分别计算损失后的正则求和联合训练。拼音语音识别作为辅助任务帮助模型对汉语的识别能力,与此同时,汉语语音识别促进模型对拼音监督信号的感知。反向传播时,通过共享编码器,能同时感知拼音和汉字的监督信号,编码器的参数被拼音语音识别和汉字语音识别同时更新,基于拼音语音识别联合学习的汉字识别交叉熵损失函数表示为
Lhybrid(h,y)=λL(h,yp)+(1-λ)L(h,yc)
这里λ为模型可微调的超参数:λ∈(0,1)。
考虑CTC具有使模型快速收敛的优势,且不需要对输入序列和输出序列做一一标注和对齐。通常情况下,CTC与RNN结合,RNN作为编码器,对语音特征序列x抽取特征,编码器过程如上所述。CTC假设输出汉语标签之间条件独立,标签之间允许插入空白表示(-),求不同时刻可能出现的标签路径π=(π1,π2,...,πT)的概率p(π/x),通过基于所有可能标签路径序列π∈Φ(y')的概率p(π/x)分布,从而求得CTC负对数似然函数LCTC。本文模型结合CTC,损失函数表示为:
L(h,yc)=(1-λ1)Lhybrid(h,y)+λ1LCTC
这里λ1为模型可微调的超参数:λ1∈(0,1)
本发明的有益效果是:
1、本发明所述方法通过一个共享编码器,将拼音语音识别与汉语语音识别联合学习,有效的提高对汉字的识别效果,通过对比实验分析,结果表明本发明的方法均优于其他模型。
附图说明
图1为本发明中的总的流程图;
具体实施方式
实施例1:如图1所示,基于拼音约束联合学习的汉语语音识别方法,所述基于拼音约束联合学习的汉语语音识别方法的具体步骤如下:
Step1、收集与语音、汉字文本相对应的拼音文本;在公开训练语料data_aishell上,收集与语音、汉字文本相对应的拼音文本,从而得到语音、汉语文本、拼音文本训练集、测试集和验证集;
Step2、共享编码器;共享编码器采用4层的卷积网络和5层的双向LSTM,双向LSTM每个方向有512个隐状态单元,在模型训练时,能同时感知到拼音、汉字的监督信号、从而引入一种更接近汉语语音的归纳偏置。
Step3、拼音语音识别;在解码过程中,拼音语音识别解码器基于共享编码器的输出状态,以前一时刻的输出和当前时刻的上下文向量作为当前时刻的输入进行解码,输出拼音。
Step4、基于拼音约束联合学习的汉字识别;以拼音语音识别为辅助任务,汉语语音识别为主要任务,拼音语音识别和汉语语音识别分别有一个解码器,训练时,模型的交叉熵是两个解码器分别计算损失后正则求和;反向传播时,编码器的参数被两个任务同时更新,两个任务共同促进的效果。
其中,模型共享一个编码器,编码器采用双向长短期记忆网络(Long Short TermMemory networks,LSTM)。共享编码器将语音信号特征x=(x1,x2,...,xT)作为输入,使用VGG对x抽取特征转为高纬的隐表征,输出为h=(h1,h2,...,hL)。这里T表示语音特征的帧索引,L为对语音特征下采样后的帧索引(L≤T)。编码器的编码过程表示为:
x=(x1,x2,...,xT)
拼音语音识别模型采用当前流行的基于注意力机制的编码器-解码器框架,编码过程如上所述。其中,解码器采用单向LSTM,以共享编码器的输出h作为输入,基于当前时刻t以前的输出标签序列,得到每一个t时刻预测拼音p标签ypt的概率分布:
ypt=LSTM(h,yp(1:t-1))
对于每一时间步t,基于所有的输入语音特征h和注意力机制权重at,l产生文本向量ct:
这里的at,l通过softmax层计算:
et,l=ωTtanh(Wst-1+Vhl+Uft,l+b)
ft=F*at-1
这里,训练参数有ω、W、V、U和F,γ是模型的锐化因子,*表示一维卷积,ft通过*与卷积参数F计算得出。
解码器使用ct、前一时刻的输出标签yp(t-1)和隐状态st-1生成当前时刻的隐状态st和预测拼音标签ypt:
st=LSTM(st-1,yt-1,ct)
ypt~Generate(st,ct)
这里LSTM代表单向循环神经网络,Generate代表前馈网络。
结合以上公式,拼音语音识别的损失函数可以通过以下公式计算:
Lp(h,yp)=-lnP(yp|h)
这里拼音序列yp=(yp1,yp2,...ypt),其中t≤T。
基于拼音约束联合学习的汉字识别,以拼音语音识别为辅助任务,汉语语音识别为主要任务,拼音语音识别和汉语语音识别分别有一个解码器,基于共享编码器的输出h,汉字解码器同样以h作为输入,结合当前时刻t以前的输出标签序列,通过简单的前馈网络和一个softmax激活函数,得到每一个时刻t预测汉字c标签yct的概率分布P(yc|h),基于P(yc|h),汉字语音识别交差损失熵可以通过以下公式计算:
LC(x,yc)=-lnP(yc|h)
这里汉字序列yc=(yc1,yc2,...yct)。
在多任务学习框架下,本文模型的交叉熵通过拼音解码器和汉字解码分别计算损失后的正则求和联合训练。拼音语音识别作为辅助任务帮助模型对汉语的识别能力,与此同时,汉语语音识别促进模型对拼音监督信号的感知。反向传播时,通过共享编码器,能同时感知拼音和汉字的监督信号,编码器的参数被拼音语音识别和汉字语音识别同时更新,基于拼音语音识别联合学习的汉字识别交叉熵损失函数表示为Lhybrid(h,y)=λL(h,yp)+(1-λ)L(h,yc)
这里λ为模型可微调的超参数:λ∈(0,1)。
考虑CTC具有使模型快速收敛的优势,且不需要对输入序列和输出序列做一一标注和对齐。通常情况下,CTC与RNN结合,RNN作为编码器,对语音特征序列x抽取特征,编码器过程如上所述。CTC假设输出汉语标签之间条件独立,标签之间允许插入空白表示(-),求不同时刻可能出现的标签路径π=(π1,π2,...,πT)的概率p(π/x),通过基于所有可能标签路径序列π∈Φ(y')的概率p(π/x)分布,从而求得CTC负对数似然函数LCTC。本文模型结合CTC,损失函数表示为:
L(h,yc)=(1-λ1)Lhybrid(h,y)+λ1LCTC
这里λ1为模型可微调的超参数:λ1∈(0,1)
其中,在模型参数设置时,设置的参数如下所示:
对于未登录字,使用特殊字符“UNK代替”,超参数λ,λ1均设置为0.2时模型效果最好,dropout设为0.25。模型采用Adadelta算法进行优化,batch_size设置为16,共享编码器采用4层的卷积网络和5层的双向LSTM,双向LSTM每个方向有512个隐状态单元,两个解码器均是一个单层的有512个隐状态单元的LSTM,Attention机制使用location-awareattention。在词嵌入层,每个字表征为256纬的向量。拼音的字表大小为1214,汉语的字表大小为4500。
本发明使用词错误率作为模型的评价指标,词错误率简称WER(Word ErrorRate),将模型预测的输出序列与监督信号序列进行比较,计算WER的公式:
这里S、D、I表示替换、删除和插入的字数,N为监督信号字序列的总字数,词错误率越低,说明方法越有有效。
为了验证本发明的有效性,实验中,将混合S2S+CTC语音识别系统、中文语音识别级联系统以及本发明进行比较。如表1所示。
表1本文模型对比基线模型的实验结果
从表1中可以看出:本文模型对比基线模型S2S+CTC在验证集上的WER值减少2.5个百分点,在测试集上的WER值减少2.24个百分点,说明了在当前的汉语语音识别中引入拼音语音识别作为辅助任务联合训练,增强了模型对汉字的表达能力,提高了模型的识别效果;对比级联系统,本文模型的识别效果在验证集上提高1.31个百分点,在测试集上提高1.05个百分点,说明了在对汉字的识别中引入拼音语音识别任务,本文的方法避免了级联系统导致的错误传播问题,很好地利用了拼音语音识别任务的优势,取得比级联系统更好的识别效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述方法包括:
Step1、收集与语音、汉字文本相对应的拼音文本;
Step2、通过共享编码器对语音特征编码;
Step3、拼音语音识别:在解码过程中利用拼音作为解码约束;
Step4、基于共享编码器将拼音语音识别语汉语语音识别联合学习进行汉字识别。
2.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、在公开中文训练集中,收集与语音、汉语文本对应的拼音文本时,采用汉字转换拼音模型Pinyin2Hanzi进行转换,再根据音频索引编写处理语料小程序,得到语音、汉语文本、拼音文本两两对应的平行语料。
3.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step2的具体步骤为:
Step2.1、共享编码器采用4层的卷积网络和5层的双向LSTM,双向LSTM每个方向有512个隐状态单元,在模型训练时,能同时感知到拼音、汉字的监督信号、从而引入一种更接近汉语语音的归纳偏置。
4.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、在解码过程中,拼音语音识别解码器基于共享编码器的输出状态,以上一时刻的输出和当前时刻的上下文向量作为当前时刻的输入进行解码,输出拼音。
5.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、在多任务学习框架下,以拼音语音识别为辅助任务,以汉语语音识别为主要任务,共享一个编码器,拼音语音识别和汉语语音识别分别有一个解码器,训练时,模型的交叉熵是两个解码器分别计算损失后正则求和;反向传播时,编码器的参数被两个任务同时更新,两个任务共同促进的效果。
6.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step2中,共享一个编码器,编码器采用双向长短期记忆网络LSTM,共享编码器将语音信号特征x=(x1,x2,...,xT)作为输入,使用VGG对x抽取特征转为高纬的隐表征,输出为h=(h1,h2,...,hL),这里T表示语音特征的帧索引,L为对语音特征下采样后的帧索引(L≤T),编码器的编码过程表示为:
x=(x1,x2,...,xT)
拼音语音识别模型采用当前流行的基于注意力机制的编码器-解码器框架,编码过程如上所述,其中,解码器采用单向LSTM,以共享编码器的输出h作为输入,基于当前时刻t以前的输出标签序列,得到每一个t时刻预测拼音p标签ypt的概率分布:
ypt=LSTM(h,yp(1:t-1))
解码器使用ct、前一时刻的输出标签yp(t-1)和隐状态st-1生成当前时刻的隐状态st和预测拼音标签ypt:
st=LSTM(st-1,yt-1,ct)
ypt~Generate(st,ct)
这里LSTM代表单向循环神经网络,Generate代表前馈网络;
结合以上公式,拼音语音识别的损失函数可以通过以下公式计算:
Lp(h,yp)=-ln P(yp|h)
这里拼音序列yp=(yp1,yp2,...ypt),其中t≤T。
7.根据权利要求1所述的基于拼音约束联合学习的汉语语音识别方法,其特征在于:所述步骤Step4中:
基于拼音约束联合学习的汉字识别,以拼音语音识别为辅助任务,汉语语音识别为主要任务,拼音语音识别和汉语语音识别分别有一个解码器,基于共享编码器的输出h,汉字解码器同样以h作为输入,结合当前时刻t以前的输出标签序列,通过简单的前馈网络和一个softmax激活函数,得到每一个时刻t预测汉字c标签yct的概率分布P(yc|h),基于P(yc|h),汉字语音识别交差损失熵可以通过以下公式计算:
LC(x,yc)=-ln P(yc|h)
这里汉字序列yc=(yc1,yc2,...yct)。
在多任务学习框架下,本文模型的交叉熵通过拼音解码器和汉字解码分别计算损失后的正则求和联合训练。拼音语音识别作为辅助任务帮助模型对汉语的识别能力,与此同时,汉语语音识别促进模型对拼音监督信号的感知。反向传播时,通过共享编码器,能同时感知拼音和汉字的监督信号,编码器的参数被拼音语音识别和汉字语音识别同时更新,基于拼音语音识别联合学习的汉字识别交叉熵损失函数表示为
Lhybrid(h,y)=λL(h,yp)+(1-λ)L(h,yc)
这里λ为模型可微调的超参数:λ∈(0,1);
考虑CTC具有使模型快速收敛的优势,且不需要对输入序列和输出序列做一一标注和对齐,通常情况下,CTC与RNN结合,RNN作为编码器,对语音特征序列x抽取特征,CTC假设输出汉语标签之间条件独立,标签之间允许插入空白表示(-),求不同时刻可能出现的标签路径π=(π1,π2,...,πT)的概率p(π/x),通过基于所有可能标签路径序列π∈Φ(y')的概率p(π/x)分布,从而求得CTC负对数似然函数LCTC,模型结合CTC,损失函数表示为:
L(h,yc)=(1-λ1)Lhybrid(h,y)+λ1LCTC
这里λ1为模型可微调的超参数:λ1∈(0,1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010988154.1A CN112349288A (zh) | 2020-09-18 | 2020-09-18 | 基于拼音约束联合学习的汉语语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010988154.1A CN112349288A (zh) | 2020-09-18 | 2020-09-18 | 基于拼音约束联合学习的汉语语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112349288A true CN112349288A (zh) | 2021-02-09 |
Family
ID=74357937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010988154.1A Pending CN112349288A (zh) | 2020-09-18 | 2020-09-18 | 基于拼音约束联合学习的汉语语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112349288A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967737A (zh) * | 2021-04-07 | 2021-06-15 | 广州伟宏智能科技有限公司 | 一种对话文本的深度学习情感识别方法 |
CN113539273A (zh) * | 2021-09-16 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、计算机设备和存储介质 |
CN116013278A (zh) * | 2023-01-06 | 2023-04-25 | 杭州健海科技有限公司 | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556100A (zh) * | 2019-09-10 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 端到端语音识别模型的训练方法及系统 |
CN110751945A (zh) * | 2019-10-17 | 2020-02-04 | 成都三零凯天通信实业有限公司 | 一种端到端的语音识别方法 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111402861A (zh) * | 2020-03-25 | 2020-07-10 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
-
2020
- 2020-09-18 CN CN202010988154.1A patent/CN112349288A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556100A (zh) * | 2019-09-10 | 2019-12-10 | 苏州思必驰信息科技有限公司 | 端到端语音识别模型的训练方法及系统 |
CN110751945A (zh) * | 2019-10-17 | 2020-02-04 | 成都三零凯天通信实业有限公司 | 一种端到端的语音识别方法 |
CN110992941A (zh) * | 2019-10-22 | 2020-04-10 | 国网天津静海供电有限公司 | 一种基于语谱图的电网调度语音识别方法及装置 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN111145718A (zh) * | 2019-12-30 | 2020-05-12 | 中国科学院声学研究所 | 一种基于自注意力机制的中文普通话字音转换方法 |
CN111402861A (zh) * | 2020-03-25 | 2020-07-10 | 苏州思必驰信息科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
SHUBHAM TOSHNIWAL ETAL: "Multitask Learning with Low-Level Auxiliary Tasks for Encoder-Decoder Based Speech Recognition", 《 ARXIV》, pages 1 - 6 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967737A (zh) * | 2021-04-07 | 2021-06-15 | 广州伟宏智能科技有限公司 | 一种对话文本的深度学习情感识别方法 |
CN113539273A (zh) * | 2021-09-16 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、计算机设备和存储介质 |
CN116013278A (zh) * | 2023-01-06 | 2023-04-25 | 杭州健海科技有限公司 | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 |
CN116013278B (zh) * | 2023-01-06 | 2023-08-08 | 杭州健海科技有限公司 | 基于拼音对齐算法的语音识别多模型结果合并方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112349288A (zh) | 基于拼音约束联合学习的汉语语音识别方法 | |
Kim et al. | Improved training for online end-to-end speech recognition systems | |
CN107729329A (zh) | 一种基于词向量连接技术的神经机器翻译方法及装置 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
Zhang et al. | Investigation of Transformer Based Spelling Correction Model for CTC-Based End-to-End Mandarin Speech Recognition. | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN107463928A (zh) | 基于ocr和双向lstm的文字序列纠错算法、系统及其设备 | |
CN114781377B (zh) | 非对齐文本的纠错模型、训练及纠错方法 | |
Zhang et al. | Automatic spelling correction with transformer for ctc-based end-to-end speech recognition | |
Ueno et al. | Data augmentation for asr using tts via a discrete representation | |
Zhao et al. | Improved prosody from learned f0 codebook representations for vq-vae speech waveform reconstruction | |
Li et al. | Efficient domain adaptation for speech foundation models | |
CN116486794A (zh) | 一种中英混合语音识别方法 | |
Cabrera et al. | Language model fusion for streaming end to end speech recognition | |
CN112417125B (zh) | 基于深度强化学习的开放域对话回复方法及系统 | |
KR102352987B1 (ko) | 음향 특성 벡터를 이용한 콜미 서비스의 음성 합성 장치 및 방법 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
Park et al. | Korean grapheme unit-based speech recognition using attention-ctc ensemble network | |
CN115719072A (zh) | 一种基于掩码机制的篇章级神经机器翻译方法及系统 | |
CN115795008A (zh) | 口语对话状态追踪模型训练方法及口语对话状态追踪方法 | |
CN115116433A (zh) | 一种基于音素嵌入的语音识别方法 | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
CN114548406A (zh) | 预训练字符模型及字音转换神经网络模型 | |
CN114065773A (zh) | 多轮问答系统历史上下文语义表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |