CN111199727B - 语音识别模型训练方法、系统、移动终端及存储介质 - Google Patents
语音识别模型训练方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111199727B CN111199727B CN202010020641.9A CN202010020641A CN111199727B CN 111199727 B CN111199727 B CN 111199727B CN 202010020641 A CN202010020641 A CN 202010020641A CN 111199727 B CN111199727 B CN 111199727B
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- recognition model
- output
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 14
- 230000006403 short-term memory Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 11
- 241000590419 Polygonia interrogationis Species 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 8
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质,该方法包括:获取样本语音及样本语音对应的样本文本,并对样本语音进行特征提取,以得到语音特征;将语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,根据特征向量和样本文本进行语音识别模型中解码器的解码,以得到概率向量;根据概率向量和样本文本进行损失计算,以得到模型总损失;在语音识别模型中将模型总损失进行传播,同时控制编码线和解码器进行参数更新,直至语音识别模型收敛。本发明无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用序列到序列的架构方式,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。
背景技术
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提升,因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别模型训练方法,端到端语音识别模型训练方法简化了语音识别的流程,将大量工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。
现有的语音识别模型训练过程中,首先用隐马尔科夫模型对声学建模单元进行建模,例如音素、音节等,然后用高斯混合模型对每一帧语音和隐马尔科夫模型的状态之间的对应关系进行建模,得到音素序列,通过发音词典将音素序列组合成词,最后通过语言模型将词组合成句子,但现有的语音识别模型训练过程效率低下且耗时较长。
发明内容
本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质,旨在解决现有的语音识别模型训练方法训练效率低下且耗时长的问题。
本发明实施例是这样实现的,一种语音识别模型训练方法,所述方法包括:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛。
更进一步的,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行加噪和加混响处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
更进一步的,所述将所述语音特征输入至语音识别模型中的编码器进行编码的步骤包括:
将所述语音特征输入至所述编码器中的双向长短期记忆网络进行计算;
将所述记忆网络的计算结果输入至金字塔型记忆网络进行计算,以得到所述概率向量。
更进一步的,所述解码器为两层的长短期记忆网络以及一层全连接网络,所述根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码的步骤包括:
根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量。
更进一步的,所述根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码的步骤之前,所述方法包括:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
更进一步的,所述根据所述概率向量和所述样本文本进行损失计算的步骤包括:
将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
本发明实施例的另一目的在于提供一种语音识别模型训练系统,所述系统包括:
特征提取模块,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
特征编码解码模块,用于将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
损失计算模块,用于根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
参数更新模块,用于在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛。
更进一步的,所述解码器为两层的长短期记忆网络以及一层全连接网络,所述特征编码解码模块还用于:
根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。
本发明实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用序列到序列的架构方式,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
附图说明
图1是本发明第一实施例提供的语音识别模型训练方法的流程图;
图2是本发明第二实施例提供的语音识别模型训练方法的流程图;
图3是图2中长短期记忆网络之间的网络结构示意图;
图4是本发明第三实施例提供的语音识别模型训练系统的结构示意图;
图5是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S10,获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
其中,该样本语音为语音识别模型待识别的语种,例如粤语或闽南语等语种,该样本文本中采用普通话的表达方式,且该样本语音与样本文本之间采用一一对应的关系;
具体的,该步骤中,通过该样本语音和样本文本的获取,以对应构建数据集,并随机选取该数据集中20%的数据作为测试集,优选的,该语音特征采用80维的fbank特征,帧长为25ms,帧移为10ms;
步骤S20,将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量;
其中,通过将该语音特征输入编码器中双向长短期记忆网络(BLSTM)中进行编码,具体的,由于语音特征相对于字符粒度较细,即多条特征才对应一个字符,为了抽取更加抽象的特征,同时加快模型收敛,降低计算复杂度,在BLSTM后,接入3层金字塔型BLSTM(PBLSTM),即PBLSTM中每个神经元的输入有两个,一个是上一层中上一时间步神经元的输出和上一层中当前时间步神经元的输出沿时间方向经过拼接得到的,另一个是当前层上一时间步神经元的输出,经过3层PBLSTM后,时间分辨率变成原来的1/8。将编码部分的输出记为h=(h1,...,hU),其中U<=T;
步骤S30,根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
其中,所述解码器为两层的长短期记忆网络(LSTM)以及一层全连接网络,其中两层LSTM中间加入注意力机制,将样本文本或者从上一个时间步的输出中随机采样作为第一层LSTM的输入的一部分,这里采用可以采用计划采样(Schduled Sampling)的策略来决定输入是样本文本还是上一时间步的输出的采样,即在训练初始阶段,模型的输出是不可靠的,这时,采用正确的样本文本作为输入,随着模型不断训练,模型的输出越来越接近正确样本文本,这时,可以将上一时间步的输出进行采样作为当前时间的输入。因为在训练阶段,正确的样本文本是已知的,而在测试阶段正确的样本文本是未知的,只能采用上一时间步的输出作为输入,如果在整个训练阶段都采用样本文本作为输入而完全忽视上一时间步的输出的话,会导致测试阶段和训练阶段的输入不一致,因为上一时间步的输出的采样可能是错误的,从而导致最终训练出来的模型性能较差。而如果在整个训练过程中都将上一时间步的输出随机采样作为当前时间的输入的话,一方面没能利用正确样本文本的信息,更为严重的是,随着不断训练,之前的不可靠的输出会被推翻,从而导致后面所有的输出都无效,最终导致模型无法收敛;
步骤S40,根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
步骤S50,在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛;
其中,通过采用随机梯度下降法将所述模型总损失进行传播;
优选的,所述直至所述语音识别模型收敛的步骤之后,所述方法还包括对所述语音识别模型进行测试,具体的步骤包括:
收集普通话文本语料作为语言模型训练语料,将文本语料输入到RNN语言模型中进行语言模型训练;
将测试语音进行特征提取后输入到模型中,提取更抽象的特征h,并将h作为自注意力机制(Attention)输入的一部分;
其中,为了便于将语言模型集成进模型,同时避免贪婪搜索每次只选择概率最大的字符作为输出字符可能造成最终的字符序列的得分并不是最高,也即输出的字符序列并不是最优的识别结果的弊端,采用集束搜索(beam search)的方式进行解码,beam的值选择32,即对每次输出的概率向量,和语言模型的概率值进行插值,选择其中概率值最大的32个字符,然后将这32个字符的独热编码经过标签平滑分别作为下一时间步解码器第一层LSTM的输入,得到32个概率向量,分别将这32个概率向量和语言模型进行插值,重新选择32个概率值最大的32个字符,转换为对应的独热编码,经过标签平滑,作为下一时间步解码器第一层LSTM的输入,以此类推,直到输出<EOS>,该条字符序列结束,表示其中一条识别结果识别结束;
计算所有字符序列的概率乘积,根据需要,选择其中概率乘积最大的字符序列作为最终的识别结果。
本实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用序列到序列的架构方式,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率,通过采用金字塔型BLSTM结构,不仅可以抽取出更加抽象的特征,同时能降低计算的复杂度,加速模型收敛,在训练阶段采用计划采样的方式,大大降低了训练和测试时输入不一致造成的影响,使得模型训练难度降低,同时也提升了模型的识别效果,采用注意力机制,可以使模型不过分专注于样本文本,同时将声学特性也考虑在内,降低了模型过拟合的情况,在测试时采用集束搜索的方式,不仅避免了贪心搜索每次只取概率最大的字符作为输出字符所带来的弊端,同时也能和单独训练的语言模型进行集成,使得模型的识别性能更好。
实施例二
请参阅图2,是本发明第二实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S11,获取样本语音及所述样本语音对应的样本文本,对所述样本语音进行加噪和加混响处理,并对处理后的所述样本语音进行特征提取;
其中,通过对所述样本语音进行加噪和加混响处理的设计,使得能有效的扩充数据,且提高了语音识别模型的鲁棒性,使得模型能适应更多复杂的环境;
具体的,该步骤中,该语音特征采用80维的fbank特征,帧长为25ms,帧移为10ms;
步骤S21,将所述样本语音中的语音根据语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
其中,将每条语音根据特征条数进行分组,将每一组中最大的条数作为该组语音的长度,假设某一组语音长度为T,则该组中的一条语音可表示为x=(x1,…,xT),其中xi为80维的特征向量;
步骤S31,将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度;
其中,该步骤S31的有益效果包括:第一、使得同一组的语音长度相同,因此可以进行批量训练,加速训练过程;第二、减轻了将所有语音长度设为同一个值造成的有些短语音补0过多的负面影响;第三、如果不进行补0进行对齐,只能按条进行训练,训练速度过慢;
具体的,该步骤中,通过将提取的特征根据特征长度进行分组,将每一组进行对齐,然后按组进行批量训练的设计,不仅加快了训练过程,同时也避免了将所有语音进行对齐或者不进行对齐所造成的负面影响;
步骤S41,将所述语音特征输入至所述编码器中的双向长短期记忆网络进行计算;
步骤S51,将所述记忆网络的计算结果输入至金字塔型记忆网络进行计算,以得到所述概率向量,以得到特征向量;
本实施例中,所述解码器为两层的长短期记忆网络以及一层全连接网络;
步骤S61,根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
优选的,本实施例中,所述根据所述特征向量和所述样本文本进行所述语音识别模型中解码器(Decoder)的解码的步骤之前(即在步骤S61的步骤之前),所述方法包括:
步骤S601,根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
具体的,该步骤中,选择汉语中使用频率最高的4000字作为字符集;
步骤S602,删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
步骤S603,将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
具体的,该步骤中,将不在字符集中的汉字用<UNK>表示,将保留的标点符号转换为中文形式,将全角转换为半角;
步骤S604,在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
具体的,该步骤中,在每句话首尾分别添加<BOS>和<EOS>,表示一句话的开头和结尾,因为神经网络训练和测试需要根据输入的字符来决定字符的输出和结束;
步骤S605,将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
其中,该步骤中,将字符集中的4000个汉字、数字0-9、逗号、句号、问号、<UNK>以及<BOS>、<EOS>组成最终的字典,并进行独热编码,即每个字符都用一个4016维的向量来表示,其中只有该字符对应位置上的元素为1,其他元素都为0,该步骤是因为神经网络的输入维度要求是固定的;
步骤S606,将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理;
具体的,该步骤中,将样本文本和文本语料中的汉字用每个汉字对应的独热编码来表示,一句转写文本记为y=(<BOS>,y1,...,ys,<EOS>),其中yi为除<BOS>和<EOS>以外的4014个字符中的一个,这里为了防止模型对训练数据过度自信(overconfidence),采用标签平滑(Label Smoothing)策略,即对于转写文本中的每一个字,设定一个接近于0的非负小数ε,独热编码中对应1的元素改用1-ε来表示,其他元素则通过ε的均匀分布来表示;
步骤S71,将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
其中,通过将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入的设计,以使下一时间步拥有了之前所有的信息;
步骤S81,将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
其中,加入注意力机制的目的是使模型不会过分记住输入的转写文本,而是有选择性地将声学发音特征也考虑在内;
步骤S91,将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
具体的,请参阅图3,其中,上一时间步LSTM的输出为si-1,编码器的输出为h,将步骤S81中输出结果ci-1作为当前时间步的第三个输入,并将Attention的输出和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
步骤S101,将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量;
其中,通过softmax函数将输出转换为0-1之间的概率值,输出概率的维度为4016;
步骤S111,将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失;
步骤S121,在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛;
具体的,本实施例中,数据处理部分采用shell,python以及sox工具实现,特征提取部分采用Kaldi语音识别工具箱实现,端到端深度神经网络采用TensorFlow实现,具体实施方式如下:
1)采用高保真麦克风、安卓手机、苹果手机进行语音数据采集,然后通过sox处理成采样率为16kHz,采样精度为16-bits,单声道的语音;
2)通过采集多个场景的噪声语音,然后通过编写python脚本对原始语音进行加噪和加混响处理,同时保留原始语音;
3)通过收集新闻、小说等文本,并通过编写python脚本对文本进行规范化等处理;
4)使用Kaldi对语音进行特征提取;
5)使用TensorFlow r1.14搭建端到端深度神经网络,并进行训练和测试。初始学习率为0.2,并通过指数衰减方式逐步减小。采用adam方式进行优化。编码器部分采用3层PBLSTM,每层采用512个节点(一个方向256个节点),解码器部分采用2层单向LSTM,每层采用512个节点。通过采用单块NVIDIA GTX1080Ti GPU进行加速训练;
6)语言模型采用TensorFlow r1.14进行训练,采用BPTT进行参数更新,采用梯度裁剪方式防止梯度爆炸;
7)所有流程通过编写shell脚本串接起来。
本实施例中,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用序列到序列的架构方式,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率,通过采用金字塔型BLSTM结构,不仅可以抽取出更加抽象的特征,同时能降低计算的复杂度,加速模型收敛,在训练阶段采用计划采样的方式,大大降低了训练和测试时输入不一致造成的影响,使得模型训练难度降低,同时也提升了模型的识别效果,采用注意力机制,可以使模型不过分专注于样本文本,同时将声学特性也考虑在内,降低了模型过拟合的情况,优选的,本实施例中输出样本文本是普通话表达习惯,应用领域更广,数据采集难度相对较低,因为转写文本是普通话表达习惯,因此可以利用普通话大量可用的文本语料进行语言模型训练,从而提升识别效果,尤其对于低频词的识别效果大大改善,输出文本直接包含常用标点符号,增加了可读性,输出字符之间没有条件独立性假设,更加符合序列特性。
实施例三
请参阅图4,是本发明第三实施例提供的语音识别模型训练系统100的结构示意图,包括:特征提取模块10、特征编码解码模块11、损失计算模块12和参数更新模块13,其中:
特征提取模块10,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征。
其中,所述特征提取模块10还用于:对所述样本语音进行加噪和加混响处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
进一步地,所述特征提取模块10还用于:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
特征编码解码模块11,用于将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量。
其中,所述特征编码解码模块11还用于:将所述语音特征输入至所述编码器中的双向长短期记忆网络进行计算;
将所述记忆网络的计算结果输入至金字塔型记忆网络进行计算,以得到所述概率向量。
损失计算模块12,用于根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失。
其中,所述损失计算模块12还用于:将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
参数更新模块13,用于在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛。
优选的,所述解码器为两层的长短期记忆网络以及一层全连接网络,所述特征编码解码模块11还用于:
根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量。
本实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用序列到序列的架构方式,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
实施例四
请参阅图5,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别模型训练方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码线和所述解码器进行参数更新,直至所述语音识别模型收敛。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图4中示出的组成结构并不构成对本发明的语音识别模型训练系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的语音识别模型训练方法亦采用图4中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别模型训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音识别模型训练系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码器和所述解码器进行参数更新,直至所述语音识别模型收敛。
2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行加噪和加混响处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
3.如权利要求1所述的语音识别模型训练方法,其特征在于,所述将所述语音特征输入至语音识别模型中的编码器进行编码的步骤包括:
将所述语音特征输入至所述编码器中的双向长短期记忆网络进行计算;
将所述记忆网络的计算结果输入至金字塔型记忆网络进行计算,以得到所述概率向量。
4.如权利要求1所述的语音识别模型训练方法,其特征在于,所述解码器为两层的长短期记忆网络以及一层全连接网络,所述根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码的步骤包括:
根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量。
5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码的步骤之前,所述方法包括:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
6.如权利要求5所述的语音识别模型训练方法,其特征在于,所述根据所述概率向量和所述样本文本进行损失计算的步骤包括:
将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
7.一种语音识别模型训练系统,其特征在于,所述系统包括:
特征提取模块,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
特征编码解码模块,用于将所述语音特征输入至语音识别模型中的编码器进行编码,以得到特征向量,并根据所述特征向量和所述样本文本进行所述语音识别模型中解码器的解码,以得到概率向量;
损失计算模块,用于根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
参数更新模块,用于在所述语音识别模型中将所述模型总损失进行传播,并同时控制所述编码器和所述解码器进行参数更新,直至所述语音识别模型收敛。
8.如权利要求7所述的语音识别模型训练系统,其特征在于,所述解码器为两层的长短期记忆网络以及一层全连接网络,所述特征编码解码模块还用于:
根据计划采样策略对所述样本文本或上一时间步的所述概率向量的输出结果进行随机采样,以得到采样结果;
将所述采样结果作为第一层长短期记忆网络的输入,并将上一时间步长短期记忆网络的输出作为当前时间步的第二个输入;
将前一时间步的输出和所述编码器的输出执行注意力机制,并将输出结果作为所述当前时间步的第三个输入;
将所述输出结果和第二层长短期记忆网络的上一时间步的输出作为第二层当前时间步的输入;
将第二层长短期记忆网络的输出输入到所述全连接网络中,并通过softmax函数将输出转换为概率值,以得到所述概率向量。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别模型训练方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020641.9A CN111199727B (zh) | 2020-01-09 | 2020-01-09 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010020641.9A CN111199727B (zh) | 2020-01-09 | 2020-01-09 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111199727A CN111199727A (zh) | 2020-05-26 |
CN111199727B true CN111199727B (zh) | 2022-12-06 |
Family
ID=70747658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010020641.9A Active CN111199727B (zh) | 2020-01-09 | 2020-01-09 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111199727B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749550B (zh) * | 2020-07-14 | 2023-02-03 | 腾讯科技(深圳)有限公司 | 数据存储方法、装置、计算机设备及存储介质 |
CN111681646A (zh) * | 2020-07-17 | 2020-09-18 | 成都三零凯天通信实业有限公司 | 端到端架构的通用场景中文普通话语音识别方法 |
CN112017638A (zh) * | 2020-09-08 | 2020-12-01 | 北京奇艺世纪科技有限公司 | 语音语义识别模型构建方法、语义识别方法、装置及设备 |
CN112037798B (zh) * | 2020-09-18 | 2022-03-01 | 中科极限元(杭州)智能科技股份有限公司 | 基于触发式非自回归模型的语音识别方法及系统 |
CN112233664B (zh) * | 2020-10-15 | 2021-11-09 | 北京百度网讯科技有限公司 | 语义预测网络的训练方法、装置、设备以及存储介质 |
CN112786005B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN112633479A (zh) * | 2020-12-30 | 2021-04-09 | 北京捷通华声科技股份有限公司 | 一种目标数据的预测方法和装置 |
CN112767917B (zh) * | 2020-12-31 | 2022-05-17 | 科大讯飞股份有限公司 | 语音识别方法、装置及存储介质 |
CN113221884B (zh) * | 2021-05-13 | 2022-09-06 | 中国科学技术大学 | 一种基于低频字存储记忆的文本识别方法及系统 |
CN113313022B (zh) * | 2021-05-27 | 2023-11-10 | 北京百度网讯科技有限公司 | 文字识别模型的训练方法和识别图像中文字的方法 |
CN113436620B (zh) * | 2021-06-30 | 2022-08-30 | 北京有竹居网络技术有限公司 | 语音识别模型的训练方法、语音识别方法、装置、介质及设备 |
CN113362811B (zh) * | 2021-06-30 | 2023-03-24 | 北京有竹居网络技术有限公司 | 语音识别模型的训练方法、语音识别方法和装置 |
EP4338157A1 (en) * | 2021-06-30 | 2024-03-20 | Google LLC | Injecting text in self-supervised speech pre-training |
CN115547334A (zh) * | 2022-10-17 | 2022-12-30 | 上海城建职业学院 | 小学作文语音识别文本纠错系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101356613B1 (ko) * | 2009-08-21 | 2014-02-06 | 에스케이텔레콤 주식회사 | 적응적 움직임 벡터 해상도를 이용한 영상 부호화/복호화 방법 및 장치 |
CN108509413A (zh) * | 2018-03-08 | 2018-09-07 | 平安科技(深圳)有限公司 | 文摘自动提取方法、装置、计算机设备及存储介质 |
CN109492202B (zh) * | 2018-11-12 | 2022-12-27 | 浙江大学山东工业技术研究院 | 一种基于拼音的编码与解码模型的中文纠错方法 |
CN110246487B (zh) * | 2019-06-13 | 2021-06-22 | 思必驰科技股份有限公司 | 用于单通道的语音识别模型的优化方法及系统 |
CN110459208B (zh) * | 2019-09-09 | 2022-01-11 | 中科极限元(杭州)智能科技股份有限公司 | 一种基于知识迁移的序列到序列语音识别模型训练方法 |
-
2020
- 2020-01-09 CN CN202010020641.9A patent/CN111199727B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111199727A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111199727B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111145728B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN108170686B (zh) | 文本翻译方法及装置 | |
CN111783477B (zh) | 一种语音翻译方法及系统 | |
CN110569505B (zh) | 一种文本输入方法及装置 | |
CN110852040B (zh) | 一种标点预测模型训练方法及文本标点确定方法 | |
CN111767718A (zh) | 一种基于弱化语法错误特征表示的中文语法错误更正方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN115965009A (zh) | 文本纠错模型的训练与文本纠错方法、设备 | |
CN113870835A (zh) | 基于人工智能的语音合成方法、装置、设备及存储介质 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN116312539A (zh) | 基于大模型的中文对话轮次纠正方法及系统 | |
CN115240712A (zh) | 一种基于多模态的情感分类方法、装置、设备及存储介质 | |
Deng et al. | History utterance embedding transformer lm for speech recognition | |
CN115374784A (zh) | 一种多模态信息选择性融合的中文命名实体识别方法 | |
CN115270771A (zh) | 细粒度自适应字音预测任务辅助的中文拼写纠错方法 | |
CN112183086B (zh) | 基于意群标注的英语发音连读标记模型 | |
CN115240713A (zh) | 基于多模态特征和对比学习的语音情感识别方法及装置 | |
CN113096646B (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN115050351A (zh) | 生成时间戳的方法、装置及计算机设备 | |
CN114519104A (zh) | 动作标签标注方法及装置 | |
Liu et al. | Chinese syllable-to-character conversion with recurrent neural network based supervised sequence labelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |