CN111179917B - 语音识别模型训练方法、系统、移动终端及存储介质 - Google Patents
语音识别模型训练方法、系统、移动终端及存储介质 Download PDFInfo
- Publication number
- CN111179917B CN111179917B CN202010050873.9A CN202010050873A CN111179917B CN 111179917 B CN111179917 B CN 111179917B CN 202010050873 A CN202010050873 A CN 202010050873A CN 111179917 B CN111179917 B CN 111179917B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- acoustic
- triphone
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 178
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 31
- 230000009466 transformation Effects 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012795 verification Methods 0.000 claims description 23
- 238000013518 transcription Methods 0.000 claims description 18
- 230000035897 transcription Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 18
- 238000013461 design Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质,该方法包括:获取文本语料及转写文本进行语言模型训练;根据训练集中的声学特征训练单音素声学模型,对声学特征进行差分处理,得到差分特征,根据差分特征对训练集进行三音素模型训练;根据三音素声学模型对音素进行对齐,对声学特征进行向量变换,得到特征向量;根据特征向量训练三音素声学模型,根据三音素声学模型训练链模型;控制链模型、语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。本发明通过训练链模型的设计,提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。
背景技术
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提升,因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别模型训练方法,端到端语音识别模型训练方法简化了语音识别的流程,将大量工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。
语音识别包括传统的基于声学模型、语言模型和发音词典的三段式结构以及端到端的结构,现有的语音识别模型中,声学模型采用的是生成式的GMM-HMM结构,语言模型采用N元文法,通过维特比算法或者带权有限状态转换器(WFST)进行解码,得到识别结果,但由于GMM-HMM结构是一种生成式模型,进而导致语音识别模型整体的识别效果有限。
发明内容
本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质,旨在解决现有的语音识别模型训练过程中,由于采用生成式的GMM-HMM结构所导致的整体模型识别效果有限的问题。
本发明实施例是这样实现的,一种语音识别模型训练方法,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
更进一步的,所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前,所述方法还包括:
获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
更进一步的,所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后,所述方法还包括:
控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
更进一步的,所述方法还包括:
获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码,以得到识别词格,所述识别词格中存储有多个候选序列;
根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果。
更进一步的,所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
更进一步的,所述根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的步骤之后,所述方法还包括:
根据所述单音素声学模型对音素进行对齐。
本发明实施例的另一目的在于提供一种语音识别模型训练系统,所述系统包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
声学模型训练模块,用于根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
向量变换模块,用于根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
链模型训练模块,用于根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
模型测试模块,用于控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
更进一步的,所述语音识别模型训练系统还包括:
数据集划分模块,用于获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。
本发明实施例,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整体的训练效率。
附图说明
图1是本发明第一实施例提供的语音识别模型训练方法的流程图;
图2是本发明第二实施例提供的语音识别模型训练方法的流程图;
图3是本发明第三实施例提供的语音识别模型训练系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S10,获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
其中,该文本语料为语音识别模型待识别的语种,例如粤语或闽南语等语种,该转写文本中采用普通话的表达方式,且该文本语料与转写文本之间采用一一对应的关系;
步骤S20,根据所述训练集中的声学特征训练单音素声学模型,并对所述声学特征进行差分处理,以得到差分特征;
其中,该声学特征可以采用80维的fbank特征,帧长为25ms,帧移为10ms,具体的,该步骤中,通过对所述声学特征进行一阶差分和二阶差分,以对应得到该差分特征;
优选的,该步骤中,在进行该单音素声学模型训练之前,该步骤还包括:
对所述声学特征进行筛选,并根据筛选结果获取所述声学特征中的3000条特征进行所述单音素声学模型的训练;
步骤S30,根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
其中,当完成该三音素声学模型的训练时,控制该三音素声学模型、语言模型以及发音词典对验证集和测试集进行解码,以判断该三音素声学模型和语言模型是否达到训练要求;
优选的,当判断到该三音素声学模型和语言模型的测试结果未达到训练要求时,对该三音素声学模型和语言模型进行参数调整;
步骤S40,根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
其中,通过控制所述三音素声学模型对音素进行声韵母对齐的设计,有效的方便了后续链模型(chain模型)的训练;
步骤S50,根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
其中,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象;
步骤S60,控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格;
本实施例,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整体的训练效率。
实施例二
请参阅图2,是本发明第二实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S11,获取数据集,对所述数据集进行划分,以得到所述训练集、所述测试集和验证集,对所述文本语料进行语音过滤,并对所述转写文本进行文本优化;
其中,随机选取该数据集中20%的数据作为测试集和验证集,80%的数据作为训练集;
具体的,该步骤中,所述对所述文本语料进行语音过滤,并对所述转写文本进行文本优化的步骤包括:
删除所述转写文本和所述文本语料中的特殊字符,以保留文字、数字、逗号、句号和问号,并将所述转写文本和所述文本语料中的感叹号转换为句号;
将所述转写文本和所述文本语料中的全角转化为半角,并将英文形式的标点符号转换为对应的中文形式;
进一步的,该步骤中,还可以通过识别该文本语料中的静音语音和背景语音,以进行静音语音和背景语音的删除,有效的对该文本语料起到了语音过滤的效果,提高了后续语言模型训练的准确性;
步骤S21,获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
其中,获取到该文本语料之后,可以对该文本语料进行加噪和加混响处理,以使能有效的扩充数据,且提高了语言模型的鲁棒性,使得模型能适应更多复杂的环境;
步骤S31,根据所述训练集中的声学特征训练单音素声学模型,控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;
具体的,该步骤中,所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练;
步骤S41,根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新;
其中,通过根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的设计,有效的提高了所述音素声学模型和所述语言模型识别的准确性,进而保障了语音识别模型整体的识别效率;
步骤S51,根据所述单音素声学模型对音素进行对齐,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
步骤S61,根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
其中,通过控制所述三音素声学模型对音素进行声韵母对齐的设计,有效的方便了后续链模型的训练;
步骤S71,根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
其中,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象;
步骤S81,控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格;
其中,该合格条件中的判断条件可以根据需求进行设置,例如该判断条件可以为判断该测试解码结果中的测试准确率是否大于准确率阈值,当判断到该测试准确率大于该准确率阈值时,则判定针对该语音识别模型的训练合格;
步骤S91,获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码,以得到识别词格;
其中,所述识别词格中存储有多个候选序列;
步骤S101,根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果;
其中,通过用该语言模型进行重打分的设计,有效的提升了模型的识别效果;
本实施例中,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整体的训练效率。
实施例三
请参阅图4,是本发明第三实施例提供的语音识别模型训练系统100的结构示意图,包括:语言模型训练模块10、声学模型训练模块11、向量变换模块12、链模型训练模块13和模型测试模块14,其中:
语言模型训练模块10,用于获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练。
声学模型训练模块11,用于根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型。
其中,所述声学模型训练模块11还用于:控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
优选的,所述声学模型训练模块11还用于:获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;根据获取到的所述声学特征进行所述单音素声学模型的训练。
更进一步的,所述声学模型训练模块11还用于:根据所述单音素声学模型对音素进行对齐。
向量变换模块12,用于根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量。
链模型训练模块13,用于根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型。
模型测试模块14,用于控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
此外,本实施例中,所述语音识别模型训练系统100还包括:
数据集划分模块15,用于获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
语音识别模块16,用于获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码,以得到识别词格,所述识别词格中存储有多个候选序列;根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果。
本实施例,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整体的训练效率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别模型训练方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的语音识别模型训练系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的语音识别模型训练方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别模型训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音识别模型训练系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格;
所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前,所述方法还包括:获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;对所述文本语料进行语音过滤,并对所述转写文本进行文本优化;
所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后,所述方法还包括:控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新;
根据所述单音素声学模型对音素进行对齐。
2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述方法还包括:
获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码,以得到识别词格,所述识别词格中存储有多个候选序列;
根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果。
3.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
4.一种语音识别模型训练系统,其特征在于,所述系统包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
声学模型训练模块,用于根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
向量变换模块,用于根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
链模型训练模块,用于根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
模型测试模块,用于控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格;
数据集划分模块,用于获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;对所述文本语料进行语音过滤,并对所述转写文本进行文本优化;
所述声学模型训练模块还用于:控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新;
所述声学模型训练模块还用于:根据所述单音素声学模型对音素进行对齐。
5.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至3任一项所述的语音识别模型训练方法。
6.一种存储介质,其特征在于,其存储有权利要求5所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至3任一项所述的语音识别模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010050873.9A CN111179917B (zh) | 2020-01-17 | 2020-01-17 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010050873.9A CN111179917B (zh) | 2020-01-17 | 2020-01-17 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179917A CN111179917A (zh) | 2020-05-19 |
CN111179917B true CN111179917B (zh) | 2023-01-03 |
Family
ID=70654645
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010050873.9A Active CN111179917B (zh) | 2020-01-17 | 2020-01-17 | 语音识别模型训练方法、系统、移动终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179917B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111933116B (zh) * | 2020-06-22 | 2023-02-14 | 厦门快商通科技股份有限公司 | 语音识别模型训练方法、系统、移动终端及存储介质 |
CN111933125B (zh) * | 2020-09-15 | 2021-02-02 | 深圳市友杰智新科技有限公司 | 联合模型的语音识别方法、装置和计算机设备 |
CN112420050B (zh) * | 2020-11-18 | 2021-06-18 | 北京帝派智能科技有限公司 | 一种语音识别方法、装置和电子设备 |
CN112988965B (zh) * | 2021-03-01 | 2022-03-08 | 腾讯科技(深圳)有限公司 | 文本数据处理方法、装置、存储介质及计算机设备 |
CN113096647B (zh) * | 2021-04-08 | 2022-11-01 | 北京声智科技有限公司 | 语音模型训练方法、装置和电子设备 |
CN113870840A (zh) * | 2021-09-27 | 2021-12-31 | 京东科技信息技术有限公司 | 语音识别方法、装置及相关设备 |
CN114078475B (zh) * | 2021-11-08 | 2023-07-25 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233481A1 (en) * | 2006-04-03 | 2007-10-04 | Texas Instruments Inc. | System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique |
-
2020
- 2020-01-17 CN CN202010050873.9A patent/CN111179917B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559879A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种识别系统中声学特征提取方法及装置 |
CN105869624A (zh) * | 2016-03-29 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 数字语音识别中语音解码网络的构建方法及装置 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN110211588A (zh) * | 2019-06-03 | 2019-09-06 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
Donggan speech recognition based on deep neural network;Haiyan Xu, etc;<ITAIC2019>;20190805;354-358 * |
Also Published As
Publication number | Publication date |
---|---|
CN111179917A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111179917B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
US10249294B2 (en) | Speech recognition system and method | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
KR102167719B1 (ko) | 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
CN107408384A (zh) | 部署的端对端语音识别 | |
WO1996023298A2 (en) | System amd method for generating and using context dependent sub-syllable models to recognize a tonal language | |
CN112542170A (zh) | 对话系统、对话处理方法和电子装置 | |
KR20180028893A (ko) | 음성 인식 시스템 및 방법 | |
CN112074903A (zh) | 用于口语中的声调识别的系统和方法 | |
CN110415725A (zh) | 使用第一语言数据评估第二语言发音质量的方法及系统 | |
KR102167157B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN110390948B (zh) | 一种快速语音识别的方法及系统 | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
CN114627896A (zh) | 语音评测方法、装置、设备及存储介质 | |
KR20150001191A (ko) | 연속어 음성 인식 장치 및 방법 | |
CN113744727A (zh) | 模型训练方法、系统、终端设备及存储介质 | |
CN117351948A (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
Lin et al. | Learning methods in multilingual speech recognition | |
KR102300303B1 (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
CN114400006A (zh) | 语音识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |