CN111179917A - 语音识别模型训练方法、系统、移动终端及存储介质 - Google Patents

语音识别模型训练方法、系统、移动终端及存储介质 Download PDF

Info

Publication number
CN111179917A
CN111179917A CN202010050873.9A CN202010050873A CN111179917A CN 111179917 A CN111179917 A CN 111179917A CN 202010050873 A CN202010050873 A CN 202010050873A CN 111179917 A CN111179917 A CN 111179917A
Authority
CN
China
Prior art keywords
model
training
acoustic
speech recognition
triphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010050873.9A
Other languages
English (en)
Other versions
CN111179917B (zh
Inventor
徐敏
肖龙源
李稀敏
蔡振华
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010050873.9A priority Critical patent/CN111179917B/zh
Publication of CN111179917A publication Critical patent/CN111179917A/zh
Application granted granted Critical
Publication of CN111179917B publication Critical patent/CN111179917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Abstract

本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质,该方法包括:获取文本语料及转写文本进行语言模型训练;根据训练集中的声学特征训练单音素声学模型,对声学特征进行差分处理,得到差分特征,根据差分特征对训练集进行三音素模型训练;根据三音素声学模型对音素进行对齐,对声学特征进行向量变换,得到特征向量;根据特征向量训练三音素声学模型,根据三音素声学模型训练链模型;控制链模型、语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。本发明通过训练链模型的设计,提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别效果低的现象。

Description

语音识别模型训练方法、系统、移动终端及存储介质
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别模型训练方法、系 统、移动终端及存储介质。
背景技术
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、 语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单 独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提 升,因此搭建一个完整的语音识别模型训练系统是个耗时极长、难度极高的工 作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的 研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别 模型训练方法,端到端语音识别模型训练方法简化了语音识别的流程,将大量 工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。
语音识别包括传统的基于声学模型、语言模型和发音词典的三段式结构以 及端到端的结构,现有的语音识别模型中,声学模型采用的是生成式的GMM-HMM 结构,语言模型采用N元文法,通过维特比算法或者带权有限状态转换器(WFST) 进行解码,得到识别结果,但由于GMM-HMM结构是一种生成式模型,进而导致 语音识别模型整体的识别效果有限。
发明内容
本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终 端及存储介质,旨在解决现有的语音识别模型训练过程中,由于采用生成式的GMM-HMM结构所导致的整体模型识别效果有限的问题。
本发明实施例是这样实现的,一种语音识别模型训练方法,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文 本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行 差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模 型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换, 得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型 训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解 码结果满足合格条件时,判定语音识别模型训练合格。
更进一步的,所述分别对所述文本语料和所述转写文本进行语言模型训练 的步骤之前,所述方法还包括:
获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集 和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
更进一步的,所述根据所述训练集中的声学特征训练单音素声学模型的步 骤之后,所述方法还包括:
控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进 行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所 述单音素声学模型和所述语言模型进行参数更新。
更进一步的,所述方法还包括:
获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所 述待识别语音进行解码,以得到识别词格,所述识别词格中存储有多个候选序 列;
根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所 述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果。
更进一步的,所述根据所述训练集中的声学特征训练单音素声学模型的步 骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行 排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声 学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
更进一步的,所述根据所述模型调整参数对所述单音素声学模型和所述语 言模型进行参数更新的步骤之后,所述方法还包括:
根据所述单音素声学模型对音素进行对齐。
本发明实施例的另一目的在于提供一种语音识别模型训练系统,所述系统 包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转 写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
声学模型训练模块,用于根据所述训练集中的声学特征训练单音素声学模 型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对 所述训练集进行三音素模型训练,得到三音素声学模型;
向量变换模块,用于根据三音素声学模型对音素进行对齐,并对所述声学 特征进行向量变换,得到特征向量;
链模型训练模块,用于根据所述特征向量训练所述三音素声学模型,并根 据所述三音素声学模型训练链模型;
模型测试模块,用于控制所述链模型、所述语言模型和发音词典对测试集 进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
更进一步的,所述语音识别模型训练系统还包括:
数据集划分模块,用于获取数据集,并对所述数据集进行划分,以得到所 述训练集、所述测试集和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理 器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使 所述移动终端执行上述的语音识别模型训练方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终 端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别 模型训练方法的步骤。
本发明实施例,通过根据所述三音素声学模型训练链模型的设计,有效的 提高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导 致的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计, 降低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模 型整体的训练效率。
附图说明
图1是本发明第一实施例提供的语音识别模型训练方法的流程图;
图2是本发明第二实施例提供的语音识别模型训练方法的流程图;
图3是本发明第三实施例提供的语音识别模型训练系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音识别模型训练方法的流程图, 包括步骤:
步骤S10,获取文本语料及训练集中所述文本语料对应的转写文本,并分 别对所述文本语料和所述转写文本进行语言模型训练;
其中,该文本语料为语音识别模型待识别的语种,例如粤语或闽南语等语 种,该转写文本中采用普通话的表达方式,且该文本语料与转写文本之间采用 一一对应的关系;
步骤S20,根据所述训练集中的声学特征训练单音素声学模型,并对所述 声学特征进行差分处理,以得到差分特征;
其中,该声学特征可以采用80维的fbank特征,帧长为25ms,帧移为10ms, 具体的,该步骤中,通过对所述声学特征进行一阶差分和二阶差分,以对应得 到该差分特征;
优选的,该步骤中,在进行该单音素声学模型训练之前,该步骤还包括:
对所述声学特征进行筛选,并根据筛选结果获取所述声学特征中的3000 条特征进行所述单音素声学模型的训练;
步骤S30,根据所述差分特征对所述训练集进行三音素模型训练,得到三 音素声学模型;
其中,当完成该三音素声学模型的训练时,控制该三音素声学模型、语言 模型以及发音词典对验证集和测试集进行解码,以判断该三音素声学模型和语 言模型是否达到训练要求;
优选的,当判断到该三音素声学模型和语言模型的测试结果未达到训练要 求时,对该三音素声学模型和语言模型进行参数调整;
步骤S40,根据三音素声学模型对音素进行对齐,并对所述声学特征进行 向量变换,得到特征向量;
其中,通过控制所述三音素声学模型对音素进行声韵母对齐的设计,有效 的方便了后续链模型(chain模型)的训练;
步骤S50,根据所述特征向量训练所述三音素声学模型,并根据所述三音 素声学模型训练链模型;
其中,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语 音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别 效果低的现象;
步骤S60,控制所述链模型、所述语言模型和发音词典对测试集进行解码, 当测试解码结果满足合格条件时,判定语音识别模型训练合格;
本实施例,通过根据所述三音素声学模型训练链模型的设计,有效的提高 了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的 识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低 了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整 体的训练效率。
实施例二
请参阅图2,是本发明第二实施例提供的语音识别模型训练方法的流程图, 包括步骤:
步骤S11,获取数据集,对所述数据集进行划分,以得到所述训练集、所 述测试集和验证集,对所述文本语料进行语音过滤,并对所述转写文本进行文 本优化;
其中,随机选取该数据集中20%的数据作为测试集和验证集,80%的数据 作为训练集;
具体的,该步骤中,所述对所述文本语料进行语音过滤,并对所述转写文 本进行文本优化的步骤包括:
删除所述转写文本和所述文本语料中的特殊字符,以保留文字、数字、逗 号、句号和问号,并将所述转写文本和所述文本语料中的感叹号转换为句号;
将所述转写文本和所述文本语料中的全角转化为半角,并将英文形式的标 点符号转换为对应的中文形式;
进一步的,该步骤中,还可以通过识别该文本语料中的静音语音和背景语 音,以进行静音语音和背景语音的删除,有效的对该文本语料起到了语音过滤 的效果,提高了后续语言模型训练的准确性;
步骤S21,获取文本语料及训练集中所述文本语料对应的转写文本,并分 别对所述文本语料和所述转写文本进行语言模型训练;
其中,获取到该文本语料之后,可以对该文本语料进行加噪和加混响处理, 以使能有效的扩充数据,且提高了语言模型的鲁棒性,使得模型能适应更多复 杂的环境;
步骤S31,根据所述训练集中的声学特征训练单音素声学模型,控制所述 单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得 到验证解码结果;
具体的,该步骤中,所述根据所述训练集中的声学特征训练单音素声学模 型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行 排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声 学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练;
步骤S41,根据所述验证解码结果查询模型调整参数,并根据所述模型调 整参数对所述单音素声学模型和所述语言模型进行参数更新;
其中,通过根据所述模型调整参数对所述单音素声学模型和所述语言模型 进行参数更新的设计,有效的提高了所述音素声学模型和所述语言模型识别的 准确性,进而保障了语音识别模型整体的识别效率;
步骤S51,根据所述单音素声学模型对音素进行对齐,对所述声学特征进 行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素 模型训练,得到三音素声学模型;
步骤S61,根据三音素声学模型对音素进行对齐,并对所述声学特征进行 向量变换,得到特征向量;
其中,通过控制所述三音素声学模型对音素进行声韵母对齐的设计,有效 的方便了后续链模型的训练;
步骤S71,根据所述特征向量训练所述三音素声学模型,并根据所述三音 素声学模型训练链模型;
其中,通过根据所述三音素声学模型训练链模型的设计,有效的提高了语 音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的识别 效果低的现象;
步骤S81,控制所述链模型、所述语言模型和发音词典对测试集进行解码, 当测试解码结果满足合格条件时,判定语音识别模型训练合格;
其中,该合格条件中的判断条件可以根据需求进行设置,例如该判断条件 可以为判断该测试解码结果中的测试准确率是否大于准确率阈值,当判断到该 测试准确率大于该准确率阈值时,则判定针对该语音识别模型的训练合格;
步骤S91,获取待识别语音,并根据所述链模型、所述语言模型和所述发 音词典对所述待识别语音进行解码,以得到识别词格;
其中,所述识别词格中存储有多个候选序列;
步骤S101,根据所述语言模型对所述识别词格进行重打分,以得到识别得 分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识 别结果;
其中,通过用该语言模型进行重打分的设计,有效的提升了模型的识别效 果;
本实施例中,通过根据所述三音素声学模型训练链模型的设计,有效的提 高了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致 的识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降 低了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型 整体的训练效率。
实施例三
请参阅图4,是本发明第三实施例提供的语音识别模型训练系统100的结 构示意图,包括:语言模型训练模块10、声学模型训练模块11、向量变换模块 12、链模型训练模块13和模型测试模块14,其中:
语言模型训练模块10,用于获取文本语料及训练集中所述文本语料对应的 转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练。
声学模型训练模块11,用于根据所述训练集中的声学特征训练单音素声学 模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征 对所述训练集进行三音素模型训练,得到三音素声学模型。
其中,所述声学模型训练模块11还用于:控制所述单音素声学模型、所述 语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;根据 所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素 声学模型和所述语言模型进行参数更新。
优选的,所述声学模型训练模块11还用于:获取所述声学特征的使用频率, 并根据所述使用频率对所述声学特征进行排序;获取本地预存储的特征数量值, 并根据所述特征数量值对排序后的所述声学特征进行获取;根据获取到的所述 声学特征进行所述单音素声学模型的训练。
更进一步的,所述声学模型训练模块11还用于:根据所述单音素声学模型 对音素进行对齐。
向量变换模块12,用于根据三音素声学模型对音素进行对齐,并对所述声 学特征进行向量变换,得到特征向量。
链模型训练模块13,用于根据所述特征向量训练所述三音素声学模型,并 根据所述三音素声学模型训练链模型。
模型测试模块14,用于控制所述链模型、所述语言模型和发音词典对测试 集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
此外,本实施例中,所述语音识别模型训练系统100还包括:
数据集划分模块15,用于获取数据集,并对所述数据集进行划分,以得到 所述训练集、所述测试集和验证集;对所述文本语料进行语音过滤,并对所述 转写文本进行文本优化。
语音识别模块16,用于获取待识别语音,并根据所述链模型、所述语言模 型和所述发音词典对所述待识别语音进行解码,以得到识别词格,所述识别词 格中存储有多个候选序列;根据所述语言模型对所述识别词格进行重打分,以 得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以 得到语音识别结果。
本实施例,通过根据所述三音素声学模型训练链模型的设计,有效的提高 了语音识别模型整体的识别效果,防止了由于采用生成式的声学模型所导致的 识别效果低的现象,且通过利用音素对齐的结果进行链模型训练的设计,降低 了链模型的训练难度,提高了链模型的训练效率,进而提高了语音识别模型整 体的训练效率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及 处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序 以使所述移动终端101执行上述的语音识别模型训练方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用 的计算机程序,该程序在执行时,包括如下步骤:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文 本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行 差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模 型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换, 得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型 训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解 码结果满足合格条件时,判定语音识别模型训练合格。所述的存储介质,如: ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述 各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述 功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同 的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功 能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬 件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模 块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的语 音识别模型训练系统的限定,可以包括比图示更多或更少的部件,或者组合某 些部件,或者不同的部件布置,而图1-2中的语音识别模型训练方法亦采用图 3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实 现。本发明所称的单元、模块等是指一种能够被所述目标语音识别模型训练系 统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序, 其均可存储于所述目标语音识别模型训练系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明 的保护范围之内。

Claims (10)

1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述分别对所述文本语料和所述转写文本进行语言模型训练的步骤之前,所述方法还包括:
获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
3.如权利要求2所述的语音识别模型训练方法,其特征在于,所述根据所述训练集中的声学特征训练单音素声学模型的步骤之后,所述方法还包括:
控制所述单音素声学模型、所述语言模型和所述发音词典对所述验证集进行解码,以得到验证解码结果;
根据所述验证解码结果查询模型调整参数,并根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新。
4.如权利要求1所述的语音识别模型训练方法,其特征在于,所述方法还包括:
获取待识别语音,并根据所述链模型、所述语言模型和所述发音词典对所述待识别语音进行解码,以得到识别词格,所述识别词格中存储有多个候选序列;
根据所述语言模型对所述识别词格进行重打分,以得到识别得分,并将所述识别得分中最大值对应的所述候选序列进行输出,以得到语音识别结果。
5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述训练集中的声学特征训练单音素声学模型的步骤包括:
获取所述声学特征的使用频率,并根据所述使用频率对所述声学特征进行排序;
获取本地预存储的特征数量值,并根据所述特征数量值对排序后的所述声学特征进行获取;
根据获取到的所述声学特征进行所述单音素声学模型的训练。
6.如权利要求4所述的语音识别模型训练方法,其特征在于,所述根据所述模型调整参数对所述单音素声学模型和所述语言模型进行参数更新的步骤之后,所述方法还包括:
根据所述单音素声学模型对音素进行对齐。
7.一种语音识别模型训练系统,其特征在于,所述系统包括:
语言模型训练模块,用于获取文本语料及训练集中所述文本语料对应的转写文本,并分别对所述文本语料和所述转写文本进行语言模型训练;
声学模型训练模块,用于根据所述训练集中的声学特征训练单音素声学模型,对所述声学特征进行差分处理,以得到差分特征,并根据所述差分特征对所述训练集进行三音素模型训练,得到三音素声学模型;
向量变换模块,用于根据三音素声学模型对音素进行对齐,并对所述声学特征进行向量变换,得到特征向量;
链模型训练模块,用于根据所述特征向量训练所述三音素声学模型,并根据所述三音素声学模型训练链模型;
模型测试模块,用于控制所述链模型、所述语言模型和发音词典对测试集进行解码,当测试解码结果满足合格条件时,判定语音识别模型训练合格。
8.如权利要求7所述的语音识别模型训练系统,其特征在于,所述语音识别模型训练系统还包括:
数据集划分模块,用于获取数据集,并对所述数据集进行划分,以得到所述训练集、所述测试集和验证集;
对所述文本语料进行语音过滤,并对所述转写文本进行文本优化。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别模型训练方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别模型训练方法的步骤。
CN202010050873.9A 2020-01-17 2020-01-17 语音识别模型训练方法、系统、移动终端及存储介质 Active CN111179917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010050873.9A CN111179917B (zh) 2020-01-17 2020-01-17 语音识别模型训练方法、系统、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010050873.9A CN111179917B (zh) 2020-01-17 2020-01-17 语音识别模型训练方法、系统、移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN111179917A true CN111179917A (zh) 2020-05-19
CN111179917B CN111179917B (zh) 2023-01-03

Family

ID=70654645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010050873.9A Active CN111179917B (zh) 2020-01-17 2020-01-17 语音识别模型训练方法、系统、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN111179917B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933125A (zh) * 2020-09-15 2020-11-13 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112988965A (zh) * 2021-03-01 2021-06-18 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN113096647A (zh) * 2021-04-08 2021-07-09 北京声智科技有限公司 语音模型训练方法、装置和电子设备
CN114078475A (zh) * 2021-11-08 2022-02-22 北京百度网讯科技有限公司 语音识别和更新方法、装置、设备和存储介质
WO2022105472A1 (zh) * 2020-11-18 2022-05-27 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233481A1 (en) * 2006-04-03 2007-10-04 Texas Instruments Inc. System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique
CN103559879A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种识别系统中声学特征提取方法及装置
CN105869624A (zh) * 2016-03-29 2016-08-17 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN109243429A (zh) * 2018-11-21 2019-01-18 苏州奇梦者网络科技有限公司 一种语音建模方法及装置
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233481A1 (en) * 2006-04-03 2007-10-04 Texas Instruments Inc. System and method for developing high accuracy acoustic models based on an implicit phone-set determination-based state-tying technique
CN103559879A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 语种识别系统中声学特征提取方法及装置
CN105869624A (zh) * 2016-03-29 2016-08-17 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN109243429A (zh) * 2018-11-21 2019-01-18 苏州奇梦者网络科技有限公司 一种语音建模方法及装置
CN110211588A (zh) * 2019-06-03 2019-09-06 北京达佳互联信息技术有限公司 语音识别方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAIYAN XU, ETC: "Donggan speech recognition based on deep neural network", <ITAIC2019> *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN111933125A (zh) * 2020-09-15 2020-11-13 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
CN111933125B (zh) * 2020-09-15 2021-02-02 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
WO2022105472A1 (zh) * 2020-11-18 2022-05-27 北京帝派智能科技有限公司 一种语音识别方法、装置和电子设备
CN112988965A (zh) * 2021-03-01 2021-06-18 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN112988965B (zh) * 2021-03-01 2022-03-08 腾讯科技(深圳)有限公司 文本数据处理方法、装置、存储介质及计算机设备
CN113096647A (zh) * 2021-04-08 2021-07-09 北京声智科技有限公司 语音模型训练方法、装置和电子设备
CN114078475A (zh) * 2021-11-08 2022-02-22 北京百度网讯科技有限公司 语音识别和更新方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN111179917B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN111179917B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US10249294B2 (en) Speech recognition system and method
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
US11514891B2 (en) Named entity recognition method, named entity recognition equipment and medium
US8494853B1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
CN104143327B (zh) 一种声学模型训练方法和装置
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
CN111477216A (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
KR20000031935A (ko) 음성인식시스템에서의 발음사전 자동생성 방법
Gemello et al. Adaptation of hybrid ANN/HMM models using linear hidden transformations and conservative training
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112542170A (zh) 对话系统、对话处理方法和电子装置
KR20180028893A (ko) 음성 인식 시스템 및 방법
CN112074903A (zh) 用于口语中的声调识别的系统和方法
Chung et al. Automatic acquisition of names using speak and spell mode in spoken dialogue systems
Marasek et al. System for automatic transcription of sessions of the Polish senate
CN111933116A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Ashihara et al. SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge?
Lin et al. Learning methods in multilingual speech recognition
CN113744727A (zh) 模型训练方法、系统、终端设备及存储介质
KR100736496B1 (ko) 연속 음성인식기의 성능 개선 방법
CN113096650B (zh) 一种基于先验概率的声学解码方法
CN113035247B (zh) 一种音频文本对齐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant