CN112967720B - 少量重口音数据下的端到端语音转文本模型优化方法 - Google Patents

少量重口音数据下的端到端语音转文本模型优化方法 Download PDF

Info

Publication number
CN112967720B
CN112967720B CN202110129725.0A CN202110129725A CN112967720B CN 112967720 B CN112967720 B CN 112967720B CN 202110129725 A CN202110129725 A CN 202110129725A CN 112967720 B CN112967720 B CN 112967720B
Authority
CN
China
Prior art keywords
model
accent
voice
small amount
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110129725.0A
Other languages
English (en)
Other versions
CN112967720A (zh
Inventor
赵雨嫣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Digang Science And Technology Co ltd
Original Assignee
Nanjing Digang Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Digang Science And Technology Co ltd filed Critical Nanjing Digang Science And Technology Co ltd
Priority to CN202110129725.0A priority Critical patent/CN112967720B/zh
Publication of CN112967720A publication Critical patent/CN112967720A/zh
Application granted granted Critical
Publication of CN112967720B publication Critical patent/CN112967720B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS;这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;与已有的端到端模型相比,本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。

Description

少量重口音数据下的端到端语音转文本模型优化方法
技术领域
本发明涉及人工智能技术领域,具体为少量重口音数据下的端到端语音转文本模型优化方法。
背景技术
近年来,大词汇量连续语音识别(Large Vocabulary Continuous SpeechRecognition,LVCSR)随着深度学习的引入,取得了明显的识别性能突破。因此,深度语音识别方法也成为了语音识别领域热门的研究方法。在深度学习的影响下,基于深度神经网络和隐马尔可夫模型(Deep Neural Network-Hidden Markov Mode1,DNN-HMM)混合的语音识别方法显著增强了模型对音素状态的建模能力,大幅提升了语音识别的准确率。
随着深度序列建模技术的发展,端到端建模方法逐步成为了语音识别领域的研究热点。端到端的语音识别模型在简化语音识别流程的同时,在语音识别准确率上已经能够与基于混合模型的方法相媲美。然而,在语音识别的声学模型训练建模中,模型参数的学习往往需要非常多的有标注的语音数据,而资源较少的重口音语音识别通常是在资源稀少的情况下进行声学模型建模,由于有标注的语音数据比较匮乏,导致重口音场景下的语音识别效果较差,因此如何提升端到端模型在少量重口音语音数据下的建模能力成为了重要的研究课题;
尽管基于HMM系统的语音识别准确率能够达到相当高的水平,但是其繁琐的训练过程使该方法的易用性受到了很大限制。随着神经网络方法的快速发展,多数研究人员的研究方向由混合HMM模型转向了基于端到端的语音识别方法。现有的端到端语音识别系统主要包括基于连接时序分类(Connectionist Temporal Classification,CTC)模型的方法、基于循环神经网络的截断模型(Recurrent Neural Networks Transducer,RNN-T)方法以及基于注意力机制的序列到序列的模型(Sequence-to-Sequence,Seq2Seq)方法三类。语音问题实际上可以理解为从语音序列到文本序列的序列转换问题,其难点在于输入序列长度远大于输出序列长度,模型往往需要学习语音和文本的对齐关系。
发明内容
本发明的目的可以通过以下技术方案实现:少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。
优选的,所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;其中,编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。
优选的,常用大规模普通话语音识别模型的训练;首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。
优选的,少量重口音语音数据下的模型优化;针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
优选的,少量重口音数据下的模型训练;首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;最后,训练得到少量重口音数据下的端到端语音转文本模型。
优选的,重口音场景下的语音解码。首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤:
S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)
Figure BDA0002924712050000031
Figure BDA0002924712050000032
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;
Figure BDA0002924712050000047
为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
Figure BDA0002924712050000041
同时使用非线性激活可以得到最终的隐向量
Figure BDA0002924712050000042
N个时间步的输出序列共同组成上下文相关的高层语义特征
Figure BDA0002924712050000043
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
Figure BDA0002924712050000044
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率。对于解码器输出的中间层语义特征H=(h1,h2,…,hu,…,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
Figure BDA0002924712050000045
Figure BDA0002924712050000046
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
Figure BDA0002924712050000051
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1)\*MERGEFORMAT(11)
P(yi|x,y<i)=MLP(si,ci)\*MERGEFORMAT(12);
S2,常用大规模标准普通话语音模型训练。本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
Figure BDA0002924712050000052
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure BDA0002924712050000053
表示第i个时间步之前时间步字符的真实标记;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调。通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率。与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
Figure BDA0002924712050000054
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的。此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索。因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码。同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
Figure BDA0002924712050000061
优选的,所述BLSTM的隐向量表征分别来自正向和反向LSTM(使用
Figure BDA0002924712050000062
Figure BDA0002924712050000063
表示),每层LSTM的隐藏层节点数为512;所述MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率。
优选的,所述exp为以自然常数e为底的指数函数,φ、
Figure BDA0002924712050000064
为带有可训练参数的全连接神经网络。
优选的,所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008;
所述θa、θd分别为LAS的注意力模块、解码器模块的模型参数;
Figure BDA0002924712050000065
表示第i个时间步之前时间步字符的真实标记。
本发明的有益效果:
1、本发明提出的方法仅需少量(50小时)重口音标注数据就可对已有端到端语音转文本模型进行优化,从而缓解现有技术重口音语音识别效果差的问题;
2、本发明直接将输入的声学特征序列映射到文本结果序列,不需要进一步处理即可实现语音转写;
3、本发明仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,能够将已有的普通话语音特征知识迁移到重口语音模型中,从而提升重口音场景下的语音识别准确率;
4、与基于混合隐马尔可夫模型的语音识别方法相比,少量重口音数据下的端到端语音转文本模型能够将多个模块联合组成一个网络进行端到端模型训练。合并多个模块的好处在于,无需分步设计多个模块即可实现各种中间状态之间的映射。联合优化使端到端模型可以使用与最终评估标准高度相关的函数作为全局优化目标,从而寻求全局最优结果;
5、模型直接将输入的声学特征序列映射到文本结果序列,不需要进一步处理即可实现语音转写。这些优点使其能够大大简化语音识别模型的构建和训练,并提升语音识别准确率;
6、与已有的端到端模型相比,本发明所提出的少量重口音数据下的端到端语音转文本模型优化方法仅需要标注少量的重口音语音数据即可完成重口音场景下的模型训练,该发明将已有的普通话语音特征知识迁移到重口语音模型中,能够显著提升重口音场景下的语音识别准确率;
7、该模型能够利用现有的大规模普通话语音语料,能够有效降低重口音语音语料的获取和标注的成本。
附图说明
下面结合附图对本发明作进一步的说明。
图1少量重口音数据下的端到端语音转文本模型优化方法流程示意图;
图2端到端语音转文本模型结构示意图;
图3少量重口音语音模型优化方法。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3,本发明提供技术方案:少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤,所述端到端语音识别模型LAS的构建;根据少量重口音数据的声学特点,设计并构造基于注意力机制的序列到序列的端到端声学模型LAS。
所构建的端到端声学模型主要由编码器模块、注意力模块和解码器模块三部分构成;其中,编码器模块用于学习和挖掘语音特征序列的上下文关联信息,从原始特征中提取高层信息,增强特征的区分度和表征能力;注意力模块用于学习编码器模块和解码器模块之间的关联度;解码器模块对输入的高层语义特征进行解码,再结合激活函数计算得到序列每个位置上各个音素出现的后验概率。
常用大规模普通话语音识别模型的训练;首先,使用已有的已标注的大规模普通话语料对权利要求1中所构建的端到端语音识别模型进行训练,得到普通话数据下的通用端到端语音识别模型。
少量重口音语音数据下的模型优化;针对标准普通话语音数据下训练得到的通用语音识别模型,使用少量重口音语音数据对其进行优化。
少量重口音数据下的模型训练;首先,冻结编码器模块的模型参数,即固定编码器模块在普通话语料下训练得到的模型参数;其次,使用少量重口音数据对注意力模块和解码器模块进行优化,即使用少量重口音语音数据对模型注意力模块和解码器模块参数进行微调,使其适应重口音语音特征的空间分布;最后,训练得到少量重口音数据下的端到端语音转文本模型。
重口音场景下的语音解码。首先,使用束搜索解码技术对重口音语音识别模型进行解码搜索,得到声学模型分数;然后,使用已有的大规模语言模型对搜索得到的解码路径进行语言模型分数计算;最后,使用语言模型分数对声学模型分数进行重打分,得到解码搜索最终的分数,由该分数计算得到重口音语音对应的解码文本。
少量重口音数据下的端到端语音转文本模型优化方法,包括以下步骤:
S1,所述端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramid Bidirectional Long-Short Term Memory,pBLSTM)构成。对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,...,hn,...,hN);
fn=σ(Wfxn+Ufhn-1+bf)\*MERGEFORMAT(1)
in=σ(Wixn+Uihn-1+bi)\*MERGEFORMAT(2)
on=σ(Woxn+Uohn-1+bo)\*MERGEFORMAT(3)
Figure BDA0002924712050000092
Figure BDA0002924712050000093
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;
Figure BDA0002924712050000094
为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
Figure BDA0002924712050000091
同时使用非线性激活可以得到最终的隐向量
Figure BDA0002924712050000101
N个时间步的输出序列共同组成上下文相关的高层语义特征
Figure BDA0002924712050000102
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
Figure BDA0002924712050000103
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率。对于解码器输出的中间层语义特征H=(h1,h2,…,hu,…,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
Figure BDA0002924712050000104
Figure BDA0002924712050000105
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
Figure BDA0002924712050000106
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1)\*MERGEFORMAT(11)
P(yi|x,y<i)=MLP(si,ci)\*MERGEFORMAT(12);
S2,常用大规模标准普通话语音模型训练。本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
Figure BDA0002924712050000111
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure BDA0002924712050000112
表示第i个时间步之前时间步字符的真实标记;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调。通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率。与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
Figure BDA0002924712050000113
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的。此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索。因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码。同时,为了引入语音模型对解码结果进行校正,该技术中引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
Figure BDA0002924712050000114
所述BLSTM的隐向量表征分别来自正向和反向LSTM(使用
Figure BDA0002924712050000115
Figure BDA0002924712050000116
表示),每层LSTM的隐藏层节点数为512;所述MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率。
所述exp为以自然常数e为底的指数函数,φ、
Figure BDA0002924712050000117
为带有可训练参数的全连接神经网络。
所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定。实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008;
所述θa、θd分别为LAS的注意力模块、解码器模块的模型参数;
Figure BDA0002924712050000121
表示第i个时间步之前时间步字符的真实标记。
该技术流程示意图如图1所示。首先,针对现有的大量普通话语料构建端到端语音转文本模型;其次,使用大规模普通话语料对构建的端到端模型进行训练,得到通用语音识别模型;然后,使用标注的少量的重口音语音数据对通用语音识别模型进行优化,通过微调模型参数,使其适应重口音语音数据的特征分布,从而得到针对重口音语音识别的端到端模型;最后,使用得到的重口音模型进行语音识别推理,能够显著提升重口音语音转文本的转写准确率。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

Claims (1)

1.少量重口音数据下的端到端语音转文本模型优化方法,其特征在于,包括以下步骤:
S1,端到端声学模型LAS结构主要由编码器网络、注意力层和解码器网络构成;
编码器由一层包含512个神经节点的BLSTM和3层金字塔双向长短时记忆网络(pyramidBidirectional Long-Short Term Memory,pBLSTM)构成;对于输入的声学特征序列X=[x1,x2,...,xn,...,xN],xn为声学特征第n个位置的特征向量,将该特征序列作为长短时记忆网络层(Long-Short Term Memory,LSTM)的输入特征,通过公式(1)~(5)可计算得到LSTM对应的输出序列h=(h1,h2,…,hn,…,hN);
fn=σ(Wfxn+Ufhn-1+bf) (1)
in=σ(Wixn+Uihn-1+bi) (2)
on=σ(Woxn+Uohn-1+bo) (3)
Figure FDA0003804293990000011
Figure FDA0003804293990000012
其中,fn,in,on和cn分别表示输入门、遗忘门、输出门和记忆单元第n步的激活向量,σ是Sigmoid激活函数,Wf和Uf、Wi和Ui、Wo和Uo、Wc和Uc分别是输入门、遗忘门、输出门和记忆单元的权重矩阵;bf、bi、bo、bc分别是输入门、遗忘门、输出门和记忆单元的偏置向量;xn为第n个时间步的输入特征;hn-1为第n-1个时间步的输出特征;tanh是激活函数;
Figure FDA0003804293990000013
为哈达玛(Hadamard)积运算符号;
在LAS的编码器中,使用双向长短时记忆网络(Bidirectional Long-Short TermMemory,BLSTM)对输入的序列特征X进行时序关系建模,其形式化表示如公式(6)所示;
Figure FDA0003804293990000021
同时使用非线性激活可以得到最终的隐向量
Figure FDA0003804293990000022
N个时间步的输出序列共同组成上下文相关的高层语义特征
Figure FDA0003804293990000023
在BLSTM层之后堆叠了三层pBLSTM层,pBLSTM层的计算方式如公式(7)所示;
Figure FDA0003804293990000024
所述BLSTM的隐向量表征分别来自正向和反向LSTM使用
Figure FDA0003804293990000025
Figure FDA0003804293990000026
表示,每层LSTM的隐藏层节点数为512;MLP为带有Softmax激活函数的全连接神经网络,其输出是建模单元的后验概率;
由于每个时间步的输出特征对于语音转文本任务来说并不都是同等重要的;因此,引入上下文依赖的注意力机制可以使模型专注于序列中上下文相关语义显著特征的学习,从而提升模型推理的准确率;对于解码器输出的中间层语义特征H=(h1,h2,...,hu,...,hU),注意力层首先计算序列中第i个时间步输出特征H对应的权重αi,u,计算方式如公式(8)~(9)所示;
Figure FDA0003804293990000027
Figure FDA0003804293990000028
所述exp为以自然常数e为底的指数函数,φ、
Figure FDA0003804293990000029
为带有可训练参数的全连接神经网络;
上下文依赖的语义特征ci是输入序列的加权之和,是对一段语音整体语义的表征,其加权求和的方法如公式(10)所示;
Figure FDA00038042939900000210
解码器网络由两层各包含512个神经节点的单向LSTM网络构成,其形式化表示如公式(11)~(12)所示;
si=LSTM(si-1,yi-1,ci-1) (11)
P(yi|x,y<i)=MLP(si,ci) (12);
S2,常用大规模标准普通话语音模型训练;本发明构建的LAS模型的编码器、注意力层和解码器可以进行端到端联合训练,其目标函数如公式(13)所示;
Figure FDA0003804293990000031
其中,θe、θa、θd分别为LAS的编码器模块、注意力模块、解码器模块的模型参数;
Figure FDA0003804293990000032
表示第i个时间步之前时间步字符的真实标记;
S3,少量重口音模型优化;在获得大规模普通话语音识别模型后,使用少量重口音语音数据对其进行优化;首先,冻结模型中编码器模块的参数;然后,使用少量的重口音语音数据对注意力模块和解码器模块进行微调;通过少量的重口音数据即可完成模型对重口音语音特征的适应,从而能够有效提升端到端语音模型对重口音语音的转写准确率;与所述步骤S2相同,重口音模型优化同样采用端到端的优化方式,其形式化表示如公式(14)所示;
Figure FDA0003804293990000033
S4,重口音模型解码和重打分;由于基于贪心的解码策略每次都在当前位置直接取最优路径,不能保证生成整个序列的概率是最优的;此外,在实际的应用中,词表一般都很大,在有限的搜索时间内无法完成所有可能路径的解码搜索;因此,在实际的应用中,一般采用束搜索(Beam Search)的方法进行语音解码;同时,为了引入语音模型对解码结果进行校正,引入了语言模型对搜索出的路径进行重打分,其形式化表达如公式(15)所示;
Figure FDA0003804293990000041
所述|y|c表示字符个数;logPLM(y)表示语言模型分数;λ表示语言模型分数权重,可由验证集确定;实际应用中的解码搜索采用Beam数为32的束搜索,语言模型分数权重λ为0.008。
CN202110129725.0A 2021-01-29 2021-01-29 少量重口音数据下的端到端语音转文本模型优化方法 Active CN112967720B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110129725.0A CN112967720B (zh) 2021-01-29 2021-01-29 少量重口音数据下的端到端语音转文本模型优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110129725.0A CN112967720B (zh) 2021-01-29 2021-01-29 少量重口音数据下的端到端语音转文本模型优化方法

Publications (2)

Publication Number Publication Date
CN112967720A CN112967720A (zh) 2021-06-15
CN112967720B true CN112967720B (zh) 2022-12-30

Family

ID=76272624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110129725.0A Active CN112967720B (zh) 2021-01-29 2021-01-29 少量重口音数据下的端到端语音转文本模型优化方法

Country Status (1)

Country Link
CN (1) CN112967720B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539244B (zh) * 2021-07-22 2023-10-03 广州虎牙科技有限公司 端到端语音识别模型训练方法、语音识别方法及相关装置
CN113611289B (zh) * 2021-08-06 2024-06-18 上海汽车集团股份有限公司 一种语音识别方法和装置
CN113851116A (zh) * 2021-09-18 2021-12-28 国网智能科技股份有限公司 一种巡检场景下的电力设备语音识别方法及系统
CN115223549A (zh) * 2022-07-09 2022-10-21 昆明理工大学 一种越南语语音识别语料构建方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172218B (zh) * 2016-12-05 2021-01-12 中国移动通信有限公司研究院 一种语音建模方法及装置
CN110070855B (zh) * 2018-01-23 2021-07-23 中国科学院声学研究所 一种基于迁移神经网络声学模型的语音识别系统及方法
US11145293B2 (en) * 2018-07-20 2021-10-12 Google Llc Speech recognition with sequence-to-sequence models
CN111179916B (zh) * 2019-12-31 2023-10-13 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置
CN112259079A (zh) * 2020-10-19 2021-01-22 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和计算机可读介质

Also Published As

Publication number Publication date
CN112967720A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
Nakatani Improving transformer-based end-to-end speech recognition with connectionist temporal classification and language model integration
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110782870B (zh) 语音合成方法、装置、电子设备及存储介质
CN107464559B (zh) 基于汉语韵律结构和重音的联合预测模型构建方法及系统
CN111739508B (zh) 一种基于dnn-hmm双模态对齐网络的端到端语音合成方法及系统
CN107154260B (zh) 一种领域自适应语音识别方法和装置
WO2021155699A1 (zh) 面向中文长文本自动摘要的全局编码方法
CN113516968B (zh) 一种端到端长时语音识别方法
CN111199727A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN111145729A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Lee et al. Joint learning of phonetic units and word pronunciations for ASR
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
Zhang et al. A speech recognition acoustic model based on LSTM-CTC
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Li et al. Integrating source-channel and attention-based sequence-to-sequence models for speech recognition
Cabrera et al. Language model fusion for streaming end to end speech recognition
CN114863948A (zh) 基于CTCAttention架构的参考文本相关发音错误检测模型
Wang et al. Synthesizing spoken descriptions of images
US20230317059A1 (en) Alignment Prediction to Inject Text into Automatic Speech Recognition Training
Bai et al. Integrating knowledge into end-to-end speech recognition from external text-only data
CN114333762B (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
Sim et al. Minimum phone error training of precision matrix models
Lu et al. Implementation of embedded unspecific continuous English speech recognition based on HMM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant