CN112967720B - 少量重口音数据下的端到端语音转文本模型优化方法 - Google Patents
少量重口音数据下的端到端语音转文本模型优化方法 Download PDFInfo
- Publication number
- CN112967720B CN112967720B CN202110129725.0A CN202110129725A CN112967720B CN 112967720 B CN112967720 B CN 112967720B CN 202110129725 A CN202110129725 A CN 202110129725A CN 112967720 B CN112967720 B CN 112967720B
- Authority
- CN
- China
- Prior art keywords
- model
- accent
- voice
- small amount
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005457 optimization Methods 0.000 title claims abstract description 21
- 241001672694 Citrus reticulata Species 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000001537 neural effect Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000013518 transcription Methods 0.000 claims description 6
- 230000035897 transcription Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000008014 freezing Effects 0.000 claims description 5
- 238000007710 freezing Methods 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 abstract description 3
- 238000010276 construction Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS;这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;与已有的端到端模型相比,本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。
Description
技术领域
本发明涉及人工智能技术领域,具体为少量重口音数据下的端到端语音转文本模型优化方法。
背景技术
近年来,大词汇量连续语音识别(Large Vocabulary Continuous SpeechRecognition,LVCSR)随着深度学习的引入,取得了明显的识别性能突破。因此,深度语音识别方法也成为了语音识别领域热门的研究方法。在深度学习的影响下,基于深度神经网络和隐马尔可夫模型(Deep Neural Network-Hidden Markov Mode1,DNN-HMM)混合的语音识别方法显著增强了模型对音素状态的建模能力,大幅提升了语音识别的准确率。
随着深度序列建模技术的发展,端到端建模方法逐步成为了语音识别领域的研究热点。端到端的语音识别模型在简化语音识别流程的同时,在语音识别准确率上已经能够与基于混合模型的方法相媲美。然而,在语音识别的声学模型训练建模中,模型参数的学习往往需要非常多的有标注的语音数据,而资源较少的重口音语音识别通常是在资源稀少的情况下进行声学模型建模,由于有标注的语音数据比较匮乏,导致重口音场景下的语音识别效果较差,因此如何提升端到端模型在少量重口音语音数据下的建模能力成为了重要的研究课题;
尽管基于HMM系统的语音识别准确率能够达到相当高的水平,但是其繁琐的训练过程使该方法的易用性受到了很大限制。随着神经网络方法的快速发展,多数研究人员的研究方向由混合HMM模型转向了基于端到端的语音识别方法。现有的端到端语音识别系统主要包括基于连接时序分类(Connectionist Temporal Classification,CTC)模型的方法、基于循环神经网络的截断模型(Recurrent Neural Networks Transducer,RNN-T)方法以及基于注意力机制的序列到序列的模型(Sequence-to-Sequence,Seq2Seq)方法三类。语音问题实际上可以理解为从语音序列到文本序列的序列转换问题,其难点在于输入序列长度远大于输出序列长度,模型往往需要学习语音和文本的对齐关系。
发明内容
本发明的目的可以通过以下技术方案实现:少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。
优选的,所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;其中,编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。
优选的,常用大规模普通话语音识别模型的训练;首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。
优选的,少量重口音语音数据下的模型优化;针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
优选的,少量重口音数据下的模型训练;首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;最后,训练得到少量重口音数据下的端到端语音转文本模型。
优选的,重口音场景下的语音解码。首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤:
S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率。对于解码器输出的中间层语义特征H=(h1,h2,…,hu,…,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1)\*MERGEFORMAT(11)
P(yi|x,y<i)=MLP(si,ci)\*MERGEFORMAT(12);
S2,常用大规模标准普通话语音模型训练。本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调。通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率。与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的。此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索。因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码。同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
优选的,所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008;
本发明的有益效果:
1、本发明提出的方法仅需少量(50小时)重口音标注数据就可对已有端到端语音转文本模型进行优化,从而缓解现有技术重口音语音识别效果差的问题;
2、本发明直接将输入的声学特征序列映射到文本结果序列,不需要进一步处理即可实现语音转写;
3、本发明仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,能够将已有的普通话语音特征知识迁移到重口语音模型中,从而提升重口音场景下的语音识别准确率;
4、与基于混合隐马尔可夫模型的语音识别方法相比,少量重口音数据下的端到端语音转文本模型能够将多个模块联合组成一个网络进行端到端模型训练。合并多个模块的好处在于,无需分步设计多个模块即可实现各种中间状态之间的映射。联合优化使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化目标,从而寻求全局最优结果;
5、模型直接将输入的声学特征序列映射到文本结果序列,不需要进一步处理即可实现语音转写。这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;
6、与已有的端到端模型相比,本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;
7、该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。
附图说明
下面结合附图对本发明作进一步的说明。
图1少量重口音数据下的端到端语音转文本模型优化方法流程示意图;
图2端到端语音转文本模型结构示意图;
图3少量重口音语音模型优化方法。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供技术方案:少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。
所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;其中,编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。
常用大规模普通话语音识别模型的训练;首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。
少量重口音语音数据下的模型优化;针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
少量重口音数据下的模型训练;首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;最后,训练得到少量重口音数据下的端到端语音转文本模型。
重口音场景下的语音解码。首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤:
S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,...,hn,...,hN);
fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率。对于解码器输出的中间层语义特征H=(h1,h2,…,hu,…,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1)\*MERGEFORMAT(11)
P(yi|x,y<i)=MLP(si,ci)\*MERGEFORMAT(12);
S2,常用大规模标准普通话语音模型训练。本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调。通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率。与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的。此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索。因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码。同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008;
该技术流程示意图如图1所示。首先,针对现有的大量普通话语料构建端到端语音转文本模型;其次,使用大规模普通话语料对构建的端到端模型进行训练,得到通用语音识别模型;然后,使用标注的少量的重口音语音数据对通用语音识别模型进行优化,通过微调模型参数,使其适应重口音语音数据的特征分布,从而得到针对重口音语音识别的端到端模型;最后,使用得到的重口音模型进行语音识别推理,能够显著提升重口音语音转文本的转写准确率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
Claims (1)
1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤:
S1,端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectional Long-Short Term Memory,pBLSTM)构成;对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf) (1)
in=σ(Wixn+Uihn-1+bi) (2)
on=σ(Woxn+Uohn-1+bo) (3)
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率;对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1) (11)
P(yi|x,y<i)=MLP(si,ci) (12);
S2,常用大规模标准普通话语音模型训练;本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调;通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率;与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的;此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索;因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码;同时,为了引入语音模型对解码结果进行校正,引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定;实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129725.0A CN112967720B (zh) | 2021-01-29 | 2021-01-29 | 少量重口音数据下的端到端语音转文本模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110129725.0A CN112967720B (zh) | 2021-01-29 | 2021-01-29 | 少量重口音数据下的端到端语音转文本模型优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112967720A CN112967720A (zh) | 2021-06-15 |
CN112967720B true CN112967720B (zh) | 2022-12-30 |
Family
ID=76272624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110129725.0A Active CN112967720B (zh) | 2021-01-29 | 2021-01-29 | 少量重口音数据下的端到端语音转文本模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112967720B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539244B (zh) * | 2021-07-22 | 2023-10-03 | 广州虎牙科技有限公司 | 端到端语音识别模型训练方法、语音识别方法及相关装置 |
CN113611289B (zh) * | 2021-08-06 | 2024-06-18 | 上海汽车集团股份有限公司 | 一种语音识别方法和装置 |
CN113851116A (zh) * | 2021-09-18 | 2021-12-28 | 国网智能科技股份有限公司 | 一种巡检场景下的电力设备语音识别方法及系统 |
CN115223549A (zh) * | 2022-07-09 | 2022-10-21 | 昆明理工大学 | 一种越南语语音识别语料构建方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172218B (zh) * | 2016-12-05 | 2021-01-12 | 中国移动通信有限公司研究院 | 一种语音建模方法及装置 |
CN110070855B (zh) * | 2018-01-23 | 2021-07-23 | 中国科学院声学研究所 | 一种基于迁移神经网络声学模型的语音识别系统及方法 |
US11145293B2 (en) * | 2018-07-20 | 2021-10-12 | Google Llc | Speech recognition with sequence-to-sequence models |
CN111179916B (zh) * | 2019-12-31 | 2023-10-13 | 广州市百果园信息技术有限公司 | 重打分模型训练方法、语音识别方法及相关装置 |
CN112259079A (zh) * | 2020-10-19 | 2021-01-22 | 北京有竹居网络技术有限公司 | 语音识别的方法、装置、设备和计算机可读介质 |
-
2021
- 2021-01-29 CN CN202110129725.0A patent/CN112967720B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112967720A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112967720B (zh) | 少量重口音数据下的端到端语音转文本模型优化方法 | |
Nakatani | Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
CN107464559B (zh) | 基于汉语韵律结构和重音的联合预测模型构建方法及系统 | |
CN111739508B (zh) | 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统 | |
CN107154260B (zh) | 一种领域自适应语音识别方法和装置 | |
WO2021155699A1 (zh) | 面向中文长文本自动摘要的全局编码方法 | |
CN113516968B (zh) | 一种端到端长时语音识别方法 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110457661B (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN111145729A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
Lee et al. | Joint learning of phonetic units and word pronunciations for ASR | |
Kadyan et al. | Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system | |
Zhang et al. | A speech recognition acoustic model based on LSTM-CTC | |
CN113539268A (zh) | 一种端到端语音转文本罕见词优化方法 | |
Li et al. | Integrating source-channel and attention-based sequence-to-sequence models for speech recognition | |
Cabrera et al. | Language model fusion for streaming end to end speech recognition | |
CN114863948A (zh) | 基于CTCAttention架构的参考文本相关发音错误检测模型 | |
Wang et al. | Synthesizing spoken descriptions of images | |
US20230317059A1 (en) | Alignment Prediction to Inject Text into Automatic Speech Recognition Training | |
Bai et al. | Integrating knowledge into end-to-end speech recognition from external text-only data | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
Sim et al. | Minimum phone error training of precision matrix models | |
Lu et al. | Implementation of embedded unspecific continuous English speech recognition based on HMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |