CN111145728A - 语音识别模型训练方法、系统、移动终端及存储介质 - Google Patents

语音识别模型训练方法、系统、移动终端及存储介质 Download PDF

Info

Publication number
CN111145728A
CN111145728A CN201911231249.2A CN201911231249A CN111145728A CN 111145728 A CN111145728 A CN 111145728A CN 201911231249 A CN201911231249 A CN 201911231249A CN 111145728 A CN111145728 A CN 111145728A
Authority
CN
China
Prior art keywords
voice
sample
text
vector
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911231249.2A
Other languages
English (en)
Other versions
CN111145728B (zh
Inventor
徐敏
肖龙源
李稀敏
蔡振华
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN201911231249.2A priority Critical patent/CN111145728B/zh
Publication of CN111145728A publication Critical patent/CN111145728A/zh
Application granted granted Critical
Publication of CN111145728B publication Critical patent/CN111145728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种语音识别模型训练方法、系统、移动终端及存储介质,该方法包括:获取样本语音及样本文本,对样本语音进行特征提取,以得到语音特征;分别对语音特征和样本文本进行向量变换,根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;对文本矩阵进行归一化处理,以得到概率向量,根据概率向量和样本文本进行损失计算,以得到模型总损失;在语音识别模型中将模型总损失进行传播,同时对语音识别模型进行参数更新,直至语音识别模型收敛。本发明无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用端到端架构,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。

Description

语音识别模型训练方法、系统、移动终端及存储介质
技术领域
本发明属于语音识别技术领域,尤其涉及一种语音识别模型训练方法、系统、移动终端及存储介质。
背景技术
语音识别研究已有几十年的历史,语音识别技术主要包括声学模型建模、语言模型建模、发音词典构建以及解码四个部分,每一部分都可以成为一个单独的研究方向,并且相对于图像和文本,语音数据的采集和标注难度也大大提升,因此搭建一个完整的语音识别系统是个耗时极长、难度极高的工作,这极大阻碍了语音识别技术的发展。随着人工智能技术尤其是深度学习的研究和发展,一些基于端到端的语音识别算法被提出来,相较于传统语音识别方法,端到端语音识别方法简化了语音识别的流程,将大量工作交给了深度神经网络去学习和推理,因此在近些年得到了广泛关注。
现有的语音识别模型训练过程中,首先用隐马尔科夫模型对声学建模单元进行建模,例如音素、音节等,然后用高斯混合模型对每一帧语音和隐马尔科夫模型的状态之间的对应关系进行建模,得到音素序列,通过发音词典将音素序列组合成词,最后通过语言模型将词组合成句子,但现有的语音识别模型训练过程效率低下且耗时较长。
发明内容
本发明实施例的目的在于提供一种语音识别模型训练方法、系统、移动终端及存储介质,旨在解决现有的语音识别模型训练方法训练效率低下且耗时长的问题。
本发明实施例是这样实现的,一种语音识别模型训练方法,所述方法包括:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。
更进一步的,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
更进一步的,所述分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算的步骤包括:
将所述语音特征和所述样本文本通过线性变换将维度转换为所述语音识别模型的模型维度,以得到语音向量和文本向量;
分别将所述语音向量和所述文本向量与位置编码向量进行求和,以得到语音求和向量和文本求和向量;
将所述语音求和向量输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述语音编码结果;
将所述文本求和向量输入带掩码的多头自注意机制中进行运算,将运算结果输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述文本矩阵。
更进一步的,所述对所述文本矩阵进行归一化处理的步骤包括:
将所述文本矩阵输入到所述语音识别模型的线性变换层,以使将维度转换为字符长度;
通过softmax函数将所述线性变换层的输出转换为概率值,以得到所述概率向量。
更进一步的,所述根据所述概率向量和所述样本文本进行损失计算的步骤之前,所述方法包括:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
更进一步的,所述根据所述概率向量和所述样本文本进行损失计算的步骤包括:
将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
本发明实施例的另一目的在于提供一种语音识别模型训练系统,所述系统包括:
特征提取模块,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
向量变换模块,用于分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
归一处理模块,用于对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
参数更新模块,用于在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。
更进一步的,所述特征提取模块还用于:
对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
本发明实施例的另一目的在于提供一种移动终端,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行上述的语音识别模型训练方法。
本发明实施例的另一目的在于提供一种存储介质,其存储有上述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现上述的语音识别模型训练方法的步骤。
本发明实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用端到端架构,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
附图说明
图1是本发明第一实施例提供的语音识别模型训练方法的流程图;
图2是本发明第二实施例提供的语音识别模型训练方法的流程图;
图3是本发明第三实施例提供的语音识别模型训练系统的结构示意图;
图4是本发明第四实施例提供的移动终端的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
请参阅图1,是本发明第一实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S10,获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
其中,该样本语音为语音识别模型待识别的语种,例如粤语或闽南语等语种,该样本文本中采用普通话的表达方式,且该样本语音与样本文本之间采用一一对应的关系;
具体的,该步骤中,通过该样本语音和样本文本的获取,以对应构建数据集,并随机选取该数据集中20%的数据作为测试集,优选的,该语音特征采用80维的fbank特征,帧长为25ms,帧移为10ms;
步骤S20,分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
其中,通过将语音特征和样本文本通过线性变换将维度转换为该语音识别模型中编码部分输出向量的维度dmodel,具体的,该维度设为512,这样做的目的是为了使后续矩阵运算更方便,同时也可使用短路连接的方式进行数据处理;具体的,该步骤中,通过对语音特征进行编码计算的设计,以使将语音特征转换为更加抽象的特征;
步骤S30,对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
其中,通过将文本矩阵的维度转换为字符长度,即4016维,并通过softmax函数将输出转换为概率值,以得到所述概率向量,该概率向量中概率值最大的元素对应的汉字就是当前时间步的识别结果;
步骤S40,在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛;
本实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用端到端架构,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
实施例二
请参阅图2,是本发明第二实施例提供的语音识别模型训练方法的流程图,包括步骤:
步骤S11,获取样本语音及所述样本语音对应的样本文本,对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取,以得到语音特征;
其中,通过对所述样本语音进行加噪、加混响和速度扰动处理的设计,使得能有效的扩充数据,且提高了语音识别模型的鲁棒性,使得模型能适应更多复杂的环境;
具体的,该步骤中,该语音特征采用80维的fbank特征,帧长为25ms,帧移为10ms;
步骤S21,将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
其中,将每条语音根据特征条数进行分组,将每一组中最大的条数作为该组语音的长度,假设某一组语音长度为T,则该组中的一条语音可表示为x=(x1,…,xT),其中xi为80维的特征向量;
步骤S31,将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度;
其中,该步骤S31的有益效果包括:第一、使得同一组的语音长度相同,因此可以进行批量训练,加速训练过程;第二、减轻了将所有语音长度设为同一个值造成的有些短语音补0过多的负面影响;第三、如果不进行补0进行对齐,只能按条进行训练,训练速度过慢;
步骤S41,将所述语音特征和所述样本文本通过线性变换将维度转换为所述语音识别模型的模型维度,以得到语音向量和文本向量;
其中,将语音特征通过线性变换将维度转换为语音识别模型中编码部分输出向量的维度dmodel,将样本文本或者从上一个时间步的输出中随机采样作为语音识别模型中解码器的输入进行线性变换并将维度转换为模型的维度dmodel
具体的,该步骤中,将样本文本或者从上一个时间步的输出中随机采样作为语音识别模型中解码器的输入,这里采用一种叫做计划采样(Schduled Sampling)的策略来决定输入是样本文本还是上一时间步的输出的采样,即在训练初始阶段,模型的输出是不可靠的,这时,采用正确的样本文本作为输入,随着模型不断训练,模型的输出越来越接近正确样本文本,这时,可以将上一时间步的输出进行采样作为当前时间的输入。因为在训练阶段,正确的样本文本是已知的,而在测试阶段正确的样本文本是未知的,只能采用上一时间步的输出作为输入,如果在整个训练阶段都采用样本文本作为输入而完全忽视上一时间步的输出的话,会导致测试阶段和训练阶段的输入不一致,因为上一时间步的输出的采样可能是错误的,从而导致最终训练出来的模型性能较差。而如果在整个训练过程中都将上一时间步的输出随机采样作为当前时间的输入的话,一方面没能利用正确样本文本的信息,更为严重的是,随着不断训练,之前的不可靠的输出会被推翻,从而导致后面所有的输出都无效,最终导致模型无法收敛;
步骤S51,分别将所述语音向量和所述文本向量与位置编码向量进行求和,以得到语音求和向量和文本求和向量;
其中,位置编码向量的计算方式如下:
Figure BDA0002303601500000081
由于模型没有序列先后顺序的概念,所以需要位置编码向量来代表位置信息,又因为之后进行的所有运算都是矩阵乘法运算,因此这里的求和实际上可以看作一个代表位置的独热编码向量和输入向量进行拼接,然后进行矩阵分块乘法运算,所以这里的求和是合理的;
步骤S61,将所述语音求和向量输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述语音编码结果;
其中,所述将所述语音求和向量输入至多头自注意机制中进行运算的步骤包括:
首先将语音求和向量分别乘以三个矩阵得到K、V、Q三个矩阵,假设head数目为h,这里设为8,那么对于第i个Attention,其计算如下:
Figure BDA0002303601500000082
其中dk为矩阵K的列。因为输入是不定长的,输入越长Q和K相乘得到的值越大,为了消除这种影响,除以
Figure BDA0002303601500000083
进行规整;
将所有Attention的输出进行拼接得到多头自注意机制的输出:
MultiHead(Q,K,V)=Concat(head1,...,headh)
这里采用多头自注意机制是因为不同的Attention关注的点是不同的;
优选的,所述将运算结果逐位置全连接前馈神经网络进行计算,以得到所述语音编码结果的步骤包括:
逐位置全连接前馈神经网络,计算如下:
FFN(x)=max(0,xW1+b1)W2+b2
每一部分的输出都和该部分输入进行短路求和,并经过层规范化作为下一部分的输入,采用短路连接的目的是缓解梯度消失问题,并加速收敛,因为梯度可以通过短路连接更直接传递到前一层,经过层规范化可以将参数分布限制在均值为0,方差为1的高斯分布,使得模型训练更加稳定;
将步骤S61的操作执行8次,将最后的输出作为编码部分的输出,优选的,和深度神经网络类似,通过叠加层数,可以得到更加抽象的特征;
步骤S71,将所述文本求和向量输入带掩码的多头自注意机制中进行运算,将运算结果输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述文本矩阵;
其中,带掩码的多头自注意机制和多头自注意机制不同的是,因为当前时间点的输出不可能Attention到未来时间点的转写结果,因此,这里限制只能Attention到当前时间点之前的转写结果,其他操作和编码部分多头自注意机制计算相同,多头自注意机制和编码部分自注意机制不同的是,输入的K和V矩阵是通过编码部分的输出通过和矩阵相乘得到的,从而可以将声学特性利用到解码部分中,Q矩阵仍然是上一部分的输出通过和矩阵相乘得到的,逐位置全连接前馈神经网络和编码部分计算相同,每一部分的输出都和该部分输入进行短路求和,并经过层规范化作为下一部分的输入,优选的,将步骤S71的操作执行4次,和深度神经网络类似,通过叠加层数,可以得到更加抽象的特征;
步骤S81,将所述文本矩阵输入到所述语音识别模型的线性变换层,以使将维度转换为字符长度;
步骤S91,通过softmax函数将所述线性变换层的输出转换为概率值,以得到所述概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
优选的,该步骤中,所述根据所述概率向量和所述样本文本进行损失计算的步骤之前,所述方法包括:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理,其中,将样本文本中的汉字用每个汉字对应的独热编码来表示,一句样本文本记为y=(<BOS>,y1,...,ys,<EOS>),其中y i为除<BOS>和<EOS>以外的4014个字符中的一个,这里为了防止模型对训练数据过度自信(overconfidence),采用标签平滑(Label Smoothing)策略,即对于样本文本中的每一个字,设定一个接近于0的非负小数ε,独热编码中对应1的元素改用1-ε来表示,其他元素则通过ε的均匀分布来表示;
具体的,该步骤中,通过将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失;
步骤S101,在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛;
其中,通过将所有时间步输出的概率向量和对应的正确的样本文本的独热编码求交叉熵损失函数,并求和作为总的损失,然后通过随机梯度下降法进行后向传播,同时更新编码器和解码器的所有参数,直到模型收敛;
此外,本实施例中,当完成针对语音识别模型的训练后,所述方法还包括对所述语音识别模型进行模型测试,模型测试的具体步骤为:
将测试语音进行特征提取后输入到编码部分中,提取更抽象的特征,并将该输出和矩阵相乘得到K和V矩阵作为解码部分Multi-Head Attention输入的一部分;
将上一时间步解码部分的输出作为当前时间步解码部分的输入,通过计算得到当前时间步的输出;
为了避免贪婪搜索每次只选择概率最大的字符作为输出字符可能造成最终的字符序列的得分并不是最高,也即输出的字符序列并不是最优的识别结果的弊端,采用集束搜索(beam search)的方式进行解码,beam的值选择32,即对每次输出的概率向量,选择其中概率值最大的32个字符,然后将这32个字符的独热编码经过标签平滑分别作为下一时间步解码器的输入,重新选择32个概率值最大的32个字符,转换为对应的独热编码,经过标签平滑,作为下一时间步解码器的输入,以此类推,直到输出<EOS>,该条字符序列结束,表示其中一条识别结果识别结束;
计算所有字符序列的概率乘积,根据需要,选择其中概率乘积最大的字符序列作为最终的识别结果。
本实施例,通过对原始语音数据进行加噪和加混响,不仅扩充了数据集,同时使得模型能适应更多复杂的环境,通过将提取的特征根据特征长度进行分组,将每一组进行对齐,然后按组进行批量训练,不仅加快了训练过程,同时也避免了将所有语音进行对齐或者不进行对齐所造成的负面影响,采用多头自注意机制,不仅可以通过矩阵运算加速,而且对于任意长距离的依赖关系都可以进行保持,对每一部分的输出都和该部分输入进行短路求和,并经过层规范化作为下一部分的输入,不仅可以缓解梯度消失问题,加速收敛,而且经过层规范化可以将参数分布限制在均值为0,方差为1的高斯分布,使得模型训练更加稳定,在训练阶段采用计划采样的方式,大大降低了训练和测试时输入不一致造成的影响,使得模型训练难度降低,同时也提升了模型的识别效果,在测试时采用集束搜索的方式,避免了贪心搜索每次只取概率最大的字符作为输出字符所带来的弊端,优选的,本实施例无需构建闽南语发音词典,降低了人力成本和时间成本,输出样本文本是普通话表达习惯,应用领域更广,数据采集难度相对较低,输出文本直接包含常用标点符号,增加了可读性,输出字符之间没有条件独立性假设,更加符合序列特性,模型采用端到端架构,所有参数同时进行更新,避免了单独优化声学模型、语言模型所带来的弊端,简化了整个识别流程,采用无循环结构的多头自注意机制,所有运算都可以并行进行,使得模型训练时间大大缩短。
此外,需要说明的是,本实施例中数据处理部分采用shell,python以及sox工具实现,特征提取部分采用Kaldi语音识别工具箱实现,端到端深度神经网络采用TensorFlow实现,具体实施方式如下:
1)采用高保真麦克风、安卓手机、苹果手机进行语音数据采集,然后通过sox处理成采样率为16kHz,采样精度为16-bits,单声道的语音;
2)通过采集多个场景的噪声语音,然后通过编写python脚本对原始语音进行加噪、加混响和速度扰动处理,同时保留原始语音;
3)通过编写python脚本对文本进行规范化等处理;
4)使用Kaldi对语音进行特征提取;
5)使用TensorFlow r1.14搭建Transformer端到端深度神经网络,并进行训练和测试。初始学习率为0.2,并通过指数衰减方式逐步减小。采用adam方式进行优化。通过采用单块NVIDIA GTX1080Ti GPU进行加速训练;
6)所有流程通过编写shell脚本串接起来。
实施例三
请参阅图3,是本发明第三实施例提供的语音识别模型训练系统100的结构示意图,包括特征提取模块10、向量变换模块11、归一处理模块12和参数更新模块13,其中:
特征提取模块10,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征。
向量变换模块11,用于分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵。
归一处理模块12,用于对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失。
参数更新模块13,用于在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。
优选的,所述特征提取模块10还用于:
对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
进一步地,所述向量变换模块11还用于:
将所述语音特征和所述样本文本通过线性变换将维度转换为所述语音识别模型的模型维度,以得到语音向量和文本向量;
分别将所述语音向量和所述文本向量与位置编码向量进行求和,以得到语音求和向量和文本求和向量;
将所述语音求和向量输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述语音编码结果;
将所述文本求和向量输入带掩码的多头自注意机制中进行运算,将运算结果输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述文本矩阵。
本实施例中,所述归一化处理模块12还用于:
将所述文本矩阵输入到所述语音识别模型的线性变换层,以使将维度转换为字符长度;
通过softmax函数将所述线性变换层的输出转换为概率值,以得到所述概率向量。
更进一步的,所述向量变换模块11还用于:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
更进一步的,所述归一化处理模块12还用于:
将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
本实施例,无需进行发音词典的构建,降低了人力成本和模型训练的时间,通过采用端到端架构,使得所有参数同时进行更新,提高了模型训练效率和后续语音识别的效率。
实施例四
请参阅图4,是本发明第四实施例提供的移动终端101,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端101执行上述的语音识别模型训练方法。
本实施例还提供了一种存储介质,其上存储有上述移动终端101中所使用的计算机程序,该程序在执行时,包括如下步骤:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。所述的存储介质,如:ROM/RAM、磁碟、光盘等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元或模块完成,即将存储装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。
本领域技术人员可以理解,图3中示出的组成结构并不构成对本发明的语音识别模型训练系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,而图1-2中的语音识别模型训练方法亦采用图3中所示的更多或更少的部件,或者组合某些部件,或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标语音识别模型训练系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序,其均可存储于所述目标语音识别模型训练系统的存储设备(图未示)内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音识别模型训练方法,其特征在于,所述方法包括:
获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。
2.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述样本语音进行特征提取的步骤包括:
对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
3.如权利要求1所述的语音识别模型训练方法,其特征在于,所述分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算的步骤包括:
将所述语音特征和所述样本文本通过线性变换将维度转换为所述语音识别模型的模型维度,以得到语音向量和文本向量;
分别将所述语音向量和所述文本向量与位置编码向量进行求和,以得到语音求和向量和文本求和向量;
将所述语音求和向量输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述语音编码结果;
将所述文本求和向量输入带掩码的多头自注意机制中进行运算,将运算结果输入至多头自注意机制中进行运算,并将运算结果逐位置全连接前馈神经网络进行计算,以得到所述文本矩阵。
4.如权利要求1所述的语音识别模型训练方法,其特征在于,所述对所述文本矩阵进行归一化处理的步骤包括:
将所述文本矩阵输入到所述语音识别模型的线性变换层,以使将维度转换为字符长度;
通过softmax函数将所述线性变换层的输出转换为概率值,以得到所述概率向量。
5.如权利要求1所述的语音识别模型训练方法,其特征在于,所述根据所述概率向量和所述样本文本进行损失计算的步骤之前,所述方法包括:
根据使用频率将本地字库中的文字进行排序,并将前预设位数的文字设置为字符集;
删除所述样本文本中的特殊字符,以保留文字、数字、逗号、句号和问号;
将未在所述字符集中的文字用第一预设标识替换,并将保留的标点符号转换为中文形式,将全角转换为半角;
在每个语句的首尾分别对应添加第二预设标识和第三预设标识,以表示一句话的开头和结尾;
将所述字符集中的文字、数字、逗号、句号、问号、所述第一预设标识、第二预设标识和第三预设标识组成字典,并进行独热编码,以得到编码字典;
将所述样本文本中的文字与所述编码字典进行匹配,以得到样本编码,并对所述样本编码进行标签平滑处理。
6.如权利要求5所述的语音识别模型训练方法,其特征在于,所述根据所述概率向量和所述样本文本进行损失计算的步骤包括:
将所有时间步输出的所述概率向量和对应所述样本文本的所述样本编码求交叉熵损失函数,并求和计算以得到所述模型总损失。
7.一种语音识别模型训练系统,其特征在于,所述系统包括:
特征提取模块,用于获取样本语音及所述样本语音对应的样本文本,并对所述样本语音进行特征提取,以得到语音特征;
向量变换模块,用于分别对所述语音特征和所述样本文本进行向量变换,并根据向量变换结果对应进行编码计算和矩阵计算,以得到语音编码结果和文本矩阵;
归一处理模块,用于对所述文本矩阵进行归一化处理,以得到概率向量,并根据所述概率向量和所述样本文本进行损失计算,以得到模型总损失;
参数更新模块,用于在语音识别模型中将所述模型总损失进行传播,并同时对所述语音识别模型进行参数更新,直至所述语音识别模型收敛。
8.如权利要求7所述的语音识别模型训练系统,其特征在于,所述特征提取模块还用于:
对所述样本语音进行加噪、加混响和速度扰动处理,并对处理后的所述样本语音进行特征提取;
将所述样本语音中的语音根据所述语音特征的特征条数进行分组,并将每一组中最大的所述特征条数设置为目标语音长度;
将所述样本语音中语音对应的所述语音特征通过补0方式达到对应所述目标语音长度。
9.一种移动终端,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至6任一项所述的语音识别模型训练方法。
10.一种存储介质,其特征在于,其存储有权利要求9所述的移动终端中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别模型训练方法的步骤。
CN201911231249.2A 2019-12-05 2019-12-05 语音识别模型训练方法、系统、移动终端及存储介质 Active CN111145728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911231249.2A CN111145728B (zh) 2019-12-05 2019-12-05 语音识别模型训练方法、系统、移动终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911231249.2A CN111145728B (zh) 2019-12-05 2019-12-05 语音识别模型训练方法、系统、移动终端及存储介质

Publications (2)

Publication Number Publication Date
CN111145728A true CN111145728A (zh) 2020-05-12
CN111145728B CN111145728B (zh) 2022-10-28

Family

ID=70517542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911231249.2A Active CN111145728B (zh) 2019-12-05 2019-12-05 语音识别模型训练方法、系统、移动终端及存储介质

Country Status (1)

Country Link
CN (1) CN111145728B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111696526A (zh) * 2020-06-22 2020-09-22 北京达佳互联信息技术有限公司 语音识别模型的生成方法、语音识别方法、装置
CN111783477A (zh) * 2020-05-13 2020-10-16 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111933115A (zh) * 2020-10-12 2020-11-13 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN112115997A (zh) * 2020-09-11 2020-12-22 苏州浪潮智能科技有限公司 一种物体识别模型的训练方法、系统及装置
CN112259100A (zh) * 2020-09-15 2021-01-22 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN112509555A (zh) * 2020-11-25 2021-03-16 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN113223502A (zh) * 2021-04-28 2021-08-06 平安科技(深圳)有限公司 语音识别系统优化方法、装置、设备及可读存储介质
CN113362218A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113628614A (zh) * 2021-07-09 2021-11-09 西北工业大学 一种自组织麦克风语音识别的逐层通道选择方法
CN113901455A (zh) * 2021-10-13 2022-01-07 北京天融信网络安全技术有限公司 一种异常操作行为检测方法、装置、设备及介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
CN114120321A (zh) * 2021-12-01 2022-03-01 北京比特易湃信息技术有限公司 基于多字典样本加权的文本识别方法
CN114155832A (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 基于深度学习的语音识别方法、装置、设备及介质
WO2022143768A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 语音识别方法及装置
CN114818738A (zh) * 2022-03-01 2022-07-29 达而观信息科技(上海)有限公司 一种客服热线用户意图轨迹识别的方法及系统
CN115547334A (zh) * 2022-10-17 2022-12-30 上海城建职业学院 小学作文语音识别文本纠错系统及方法
CN116682420A (zh) * 2022-12-30 2023-09-01 荣耀终端有限公司 语音识别方法、电子设备及可读介质
US20230386470A1 (en) * 2021-01-06 2023-11-30 Boe Technology Group Co., Ltd. Speech instruction recognition method, electronic device, and non-transient computer readable storage medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN109949796A (zh) * 2019-02-28 2019-06-28 天津大学 一种基于藏文部件的端到端架构拉萨方言语音识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007015489A1 (ja) * 2005-08-01 2007-02-08 Kyushu Institute Of Technology 音声検索装置及び音声検索方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN109949796A (zh) * 2019-02-28 2019-06-28 天津大学 一种基于藏文部件的端到端架构拉萨方言语音识别方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783477B (zh) * 2020-05-13 2023-08-22 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111783477A (zh) * 2020-05-13 2020-10-16 厦门快商通科技股份有限公司 一种语音翻译方法及系统
CN111681659A (zh) * 2020-06-08 2020-09-18 北京高因科技有限公司 一种应用于便携式设备的自动语音识别系统及其工作方法
CN111696526A (zh) * 2020-06-22 2020-09-22 北京达佳互联信息技术有限公司 语音识别模型的生成方法、语音识别方法、装置
CN112115997A (zh) * 2020-09-11 2020-12-22 苏州浪潮智能科技有限公司 一种物体识别模型的训练方法、系统及装置
CN112115997B (zh) * 2020-09-11 2022-12-02 苏州浪潮智能科技有限公司 一种物体识别模型的训练方法、系统及装置
CN112259100A (zh) * 2020-09-15 2021-01-22 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN112259100B (zh) * 2020-09-15 2024-04-09 科大讯飞华南人工智能研究院(广州)有限公司 语音识别方法及相关模型的训练方法和相关设备、装置
CN111933115A (zh) * 2020-10-12 2020-11-13 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
WO2022078146A1 (zh) * 2020-10-12 2022-04-21 腾讯科技(深圳)有限公司 语音识别方法、装置、设备以及存储介质
CN112509555A (zh) * 2020-11-25 2021-03-16 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
CN112509555B (zh) * 2020-11-25 2023-05-23 平安科技(深圳)有限公司 方言语音识别方法、装置、介质及电子设备
WO2022143768A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 语音识别方法及装置
US20230386470A1 (en) * 2021-01-06 2023-11-30 Boe Technology Group Co., Ltd. Speech instruction recognition method, electronic device, and non-transient computer readable storage medium
CN113223502A (zh) * 2021-04-28 2021-08-06 平安科技(深圳)有限公司 语音识别系统优化方法、装置、设备及可读存储介质
CN113223502B (zh) * 2021-04-28 2024-01-30 平安科技(深圳)有限公司 语音识别系统优化方法、装置、设备及可读存储介质
CN113362218A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113628614A (zh) * 2021-07-09 2021-11-09 西北工业大学 一种自组织麦克风语音识别的逐层通道选择方法
CN113901455A (zh) * 2021-10-13 2022-01-07 北京天融信网络安全技术有限公司 一种异常操作行为检测方法、装置、设备及介质
CN114051154A (zh) * 2021-11-05 2022-02-15 新华智云科技有限公司 一种新闻视频拆条方法和系统
CN114155832A (zh) * 2021-11-12 2022-03-08 深圳市北科瑞声科技股份有限公司 基于深度学习的语音识别方法、装置、设备及介质
CN114120321B (zh) * 2021-12-01 2024-07-23 北京比特易湃信息技术有限公司 基于多字典样本加权的文本识别方法
CN114120321A (zh) * 2021-12-01 2022-03-01 北京比特易湃信息技术有限公司 基于多字典样本加权的文本识别方法
CN114818738A (zh) * 2022-03-01 2022-07-29 达而观信息科技(上海)有限公司 一种客服热线用户意图轨迹识别的方法及系统
CN114818738B (zh) * 2022-03-01 2024-08-02 达观数据有限公司 一种客服热线用户意图轨迹识别的方法及系统
CN115547334A (zh) * 2022-10-17 2022-12-30 上海城建职业学院 小学作文语音识别文本纠错系统及方法
CN116682420A (zh) * 2022-12-30 2023-09-01 荣耀终端有限公司 语音识别方法、电子设备及可读介质
CN116682420B (zh) * 2022-12-30 2024-04-05 荣耀终端有限公司 语音识别方法、电子设备及可读介质

Also Published As

Publication number Publication date
CN111145728B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN111145728B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111199727B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Yolchuyeva et al. Transformer based grapheme-to-phoneme conversion
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
CN111783477B (zh) 一种语音翻译方法及系统
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN111341293B (zh) 一种文本语音的前端转换方法、装置、设备和存储介质
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
CN113870835A (zh) 基于人工智能的语音合成方法、装置、设备及存储介质
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN116341651A (zh) 实体识别模型训练方法、装置、电子设备及存储介质
CN113268989B (zh) 多音字处理方法及装置
CN112883726A (zh) 基于音节切分和词切分联合学习的多任务泰语分词方法
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN113160801B (zh) 语音识别方法、装置以及计算机可读存储介质
Deng et al. History utterance embedding transformer lm for speech recognition
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN112183086B (zh) 基于意群标注的英语发音连读标记模型
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN113763939A (zh) 基于端到端模型的混合语音识别系统及方法
CN113257240A (zh) 一种基于对抗训练的端到端的语音识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant