CN114743545B - 方言种类预测模型的训练方法、设备及存储介质 - Google Patents
方言种类预测模型的训练方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114743545B CN114743545B CN202210666185.4A CN202210666185A CN114743545B CN 114743545 B CN114743545 B CN 114743545B CN 202210666185 A CN202210666185 A CN 202210666185A CN 114743545 B CN114743545 B CN 114743545B
- Authority
- CN
- China
- Prior art keywords
- dialect
- model
- training
- loss function
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims abstract description 121
- 239000013598 vector Substances 0.000 claims abstract description 91
- 238000012545 processing Methods 0.000 claims description 23
- 238000002156 mixing Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 11
- 101100161752 Mus musculus Acot11 gene Proteins 0.000 claims description 10
- 238000013518 transcription Methods 0.000 claims description 10
- 230000035897 transcription Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供方言种类预测模型的训练方法、设备及存储介质,方法包括:将自监督训练数据和语音识别训练数据输入编码器模型,得到自监督数据向量和第一语音数据向量;根据编码器模型以及语音识别模型的损失函数构造第一阶段混合损失函数,以训练编码器模型以及语音识别模型;将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型得到方言数据向量以及第二语音数据向量;根据语音识别模型以及方言种类预测模型的损失函数构造第二阶段混合损失函数,以训练语音识别模型以及方言种类预测模型。该方法通过半监督的方式快速对前述的三种模型进行联合训练,且在输入数量有限的标注数据的前提下训练得到精准度较高的方言种类预测模型。
Description
技术领域
本发明涉及语音识别领域,更具体地,涉及方言种类预测模型的训练方法、设备及存储介质。
背景技术
语音交互是人类最直接和便捷的沟通方式之一,可以在短时间内传递丰富信息内容,满足人们对信息表达和交互的需要。在一般非正式场合中,人们沟通交流倾向于使用其熟悉的本地方言。让机器能够自动区分不同种类的方言,可以为后续的方言ASR奠定技术基础,在地域文化保护、跨区域交流、国家安全监管等方面都有重要意义。国内方言种类繁多、发音差异较大,数据收集和标注的成本相对普通话而言要高得多,且目前的语音识别模型的识别准确率较低,需要依赖大量的标注数据,当标注数据不足时,其识别准确率和泛化能力严重劣化,且数据标注的过程需要耗费大量的人力和时间成本,因此需要构建一种能够高效、准确判别不同方言的方法。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供方言种类预测模型的训练方法、设备及存储介质,用于解决现有技术中对方言识别的准确率较低且严重依赖标注数据的问题。
本发明采用的技术方案包括:
本发明提供一种方言种类预测模型的训练方法,包括:获取语音数据,对所述语音数据进行预处理,将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;将自监督训练数据和语音识别训练数据输入编码器模型,以使编码器模型分别编码得到自监督数据向量和第一语音数据向量;根据自监督数据向量构造所述编码器模型的自监督损失函数;根据所述语音识别模型的输出构造语音识别模型的损失函数;根据所述编码器模型的自监督损失函数,以及所述语音识别模型的损失函数构造第一阶段混合损失函数;将第一语音数据向量输入语音识别模型,并利用所述第一阶段混合损失函数训练所述编码器模型以及所述语音识别模型,直至所述第一阶段混合损失函数的函数值不再降低;将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,以使编码器模型对其编码得到方言数据向量以及第二语音数据向量;根据所述方言种类预测模型的输出构造方言种类预测模型的损失函数;根据所述语音识别模型的损失函数,以及所述方言种类预测模型的损失函数构造第二阶段混合损失函数;将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,并利用所述第二阶段混合损失函数训练所述语音识别模型以及所述方言种类预测模型,直至所述第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
本发明提供的方言种类预测模型的训练方法,通过第一阶段的预训练对编码器模型进行自监督训练,以及结合编码器模型的自监督损失函数以及语音识别模型的损失函数构造第一阶段混合损失函数,以半监督联合学习的方式共同训练编码器模型以及语音识别模型,最大限度地利用无标注的数据提高编码器模型的收敛速度。训练后的编码器模型具备较强的提取音频特征的能力,将其编码的方言数据向量以及第二语音数据向输入方言种类预测模型以及训练后的语音识别模型,结合语音识别模型的损失函数以及方言种类预测模型的损失函数构造第二阶段混合损失函数,以共同训练语音识别模型和方言种类预测模型,同样是最大限度利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度,训练后的方言种类预测模型作为语音识别模型的前置处理模块,其有效提取方言语言特征,能够对方言种类进行精准预测,从而提高后续语音识别模型对方言语音识别的准确率。
进一步,所述第二阶段混合损失函数为;其中,所述为第二阶段混合损失函数,所述为适应性权重衰减因子,所述为所述方言种类预测模型的损失函数,所述为所述语音识别模型的损失函数;所述适应性权重衰减因子通过式子确定;其中,所述为超参数,所述为训练最大迭代次数,所述为训练当前迭代次数。
本发明在构建第二阶段混合损失函数时引入适应性权重衰减因子,使其在损失函数中随迭代次数的变化作适应性更新,在训练前期,第二阶段混合损失函数的权重侧重于语音识别模型,则前期训练侧重于语音识别模型的训练,提高模型的音频特征抽取能力,而随着适应性权重衰减因子不断增大,后期训练侧重于方言种类预测模型的训练,重点提高方言种类识别的性能。
进一步,所述语音识别模型的损失函数为;其中,所述为语音识别模型的损失函数,所述为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签;所述为所有有效CTC路径的集合,且,所述表示单条CTC路径长度,所述与所述分别表示第一语音数据向量和其对应的真实转写标签序列,所述为CTC路径的映射关系。
进一步,所述方言种类预测模型的损失函数为;其中,所述为方言种类预测模型,所述为预先设定的训练批次的数据大小,所述为方言数据向量的真实方言种类标签,所述为所述方言种类预测模型在接收到方言数据向量后输出对应所述方言数据向量的方言种类标签。
进一步,所述编码器模型包括若干个首尾串联的注意力模块,每个注意力模块基于式子对所输入的数据进行编码,并将编码后的数据向量输出至下一个注意力模块,由串联的最后一个注意力模块输出最终编码后的数据向量;其中,表示第n个注意力模块的注意力机制变换,所述Q、K、V分别为注意力机制中的查询、键和值,d为嵌入层维度;所述为V的转置矩阵;每个注意力模块输出的编码后的数据向量为;所述为编码后的数据向量,所述表示非线性激活函数,所述为注意力机制变换,所述表示当前注意力模块的输入。
进一步,对所述语音数据进行预处理,具体包括:将所述语音数据的采样率匹配预先设定的目的采样率;对已匹配采样率的语音数据进行回声和噪声处理;对回声和噪声处理后的语音数据进行静音切除处理;对静音切除处理后的语音数据进行频谱特征转换处理。
对训练数据进行预处理,有利于提高后续模型训练时的数据匹配率、模型训练的效果以及提高计算和收敛速度。
与现有技术相比,本发明的有益效果为:
本发明提供的方言种类预测模型的训练方法中,第一阶段的预训练同时对编码器模型以及语音识别模型进行训练,使编码器模型以半监督的方式快速获取到语音特征的提取能力,加快了其收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码,更好地提取其中的语音特征,并同时对语音识别模型以及方言种类识别模型进行训练,直至第二阶段混合损失函数的函数值不再降低,训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型,准确地预测语音数据的方言种类,有利于提高对方言语音识别的准确性,且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型,方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果。
附图说明
图1为本发明实施例1提供的方法的整体流程示意图。
图2为本发明实施例1提供的方法的步骤S110~S210的流程示意图。
图3为本发明实施例1提供的方法的步骤S111~S114的流程示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
本实施例提供一种方言种类预测模型的训练方法,采取两个阶段训练的方式训练得到方言种类预测模型,训练得到的方言种类预测模型尤其适用于通信场景的方言识别。其中,如图1所示,整体训练中需要分阶段训练三个模型,分别是编码器模型、语音识别模型以及方言种类预测模型。
结合图1、2所示,该方法包括以下步骤:
S110、获取语音数据,对语音数据进行预处理;
在本步骤中,预处理是为了优化数据,例如对数据去噪、将数据调整为模型兼容的数据类型等等。具体地,如图3所示,预处理包括以下步骤:
S111、将语音数据的采样率匹配预先设定的目的采样率;
本步骤可由图1中的重采样模块执行,不同应用场景下,语音数据的采样率不相同,以通信场景的音频数据作为示例,由于通信场景音频多数为8kHz采样率,当训练模型时使用语料的采样率为16kHz,需要对原始音频信号进行采样率重采样,将原采样率转换到目的采样率。
更具体地,应先计算根据原采样率与目的采样率相比的系数,确定重采样后音频的采样点数,之后选取适用的插值方程计算重采样点的数值,并输出对应目标采样率的音频信号
S112、对已匹配采样率的语音数据进行回声和噪声处理;
本步骤可由图1中的噪声回声去除模块执行,该步骤用于中的回声和噪声处理用于去除噪音与回声,有助于提高后续模块的识别准确率。具体地,可采用AEC抵消器和非线性滤波器对语音数据进行回声和噪声处理。
S113、对经过回声和噪声处理后的语音数据进行静音切除处理;
本步骤可由图1中的静音切除模块执行,该步骤中的静音切除处理是指将音频数据中的无效静音部分切除,减少后续模块不必要的计算量。
具体地,静音切除处理可采用混合高斯模型处理,首先对降噪后的音频进行VAD处理,再采用混合高斯模型估计语音数据中语音和非语音的似然概率,并迭代更新后验概率与高斯模型直至收敛,之后根据实际情况设定静音分离阈值,将语音数据中的静音部分切除。
S114、对静音切除处理后的语音数据进行频谱特征转换处理;
本步骤可由图1中的频谱特征转换模块执行,具体地,本步骤用于将时域上的语音数据转换到频域上进行分析,即对上一步得到的有效语音数据进行预加重,平衡信号频谱。之后对语音数据进行分帧,将其按固定长度切分为多个帧信号。对每个帧信号进行加窗处理,让帧两端平滑衰减以获得更高质量的频谱。对每帧加窗后的信号进行短时傅里叶变换,将信号从时域转换到频域。在经过变换后的能量谱上应用Mel滤波器组,得到语音信号对应的FBank特征,完成对语音数据的频谱特征转换处理。
S120、将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;
本步骤可由图1中的训练数据处理模块执行。在本步骤中,由于本实施例提供的训练方法需涉及到三个模型的训练,因此需要准备分别输入三个模型的语音数据。
其中,自监督训练数据用于编码器模型的自监督训练,具体地,自监督训练数据可以是在一段语音数据中,按5%的比例随机选取多个帧信号,将其初始化为零向量。按照序列长度对处理后的数据进行排序拼接,再按照批次大小裁切,从而得到对应的自监督训练数据。
语音识别训练数据用于语音识别模型的训练,具体地,可使用Tokenizer将语音数据对应的转写文本转换为整型数据,之后按照序列长度将语音信号与转写数据进行排序拼接,再按照批次大小裁切,从而得到对应的语音识别训练数据。
方言种类判别训练数据用于方言种类预测模型的训练,具体地,可按照序列长度将语音信号与对应方言种类标签进行排序拼接,再按照批次大小裁切,从而得到对应的方言种类判别训练数据。
S130、将自监督训练数据和语音识别训练数据输入编码器模型;
在本步骤执行之前,应先加载整体神经网络结构至计算机显存中并初始化神经网络参数。在本步骤中,将自监督训练数据和语音识别训练输入编码器模型后,编码器模型将两者分别编码得到自监督数据向量和第一语音数据向量,并将第一语音数据向量输入语音识别模型,语音识别模型会对每一个输入的第一语音数据向量输出对应的转写标签。
S140、根据自监督数据向量构造编码器模型的自监督损失函数;
S150、根据语音识别模型的输出构造语音识别模型的损失函数;
其中,为语音识别模型的损失函数,为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签;为所有有效CTC路径的集合,且,表示单条CTC路径长度,与分别表示第一语音数据向量和其对应的真实转写标签序列,为CTC路径的映射关系。
S160、根据编码器模型的自监督损失函数,以及语音识别模型的损失函数构造第一阶段混合损失函数;
第一阶段混合损失函数由自监督损失函数和语言识别模型的损失函数组成,用于在后续步骤中共同训练编码器模型以及语音识别模型。
S170、将第一语音数据向量输入语音识别模型,并利用第一阶段混合损失函数训练编码器模型以及语音识别模型,直至第一阶段混合损失函数的函数值不再降低;
在第一阶段预训练的过程中,需重复执行步骤S130以将自监督训练数据以及语音识别训练数据输入编码器模型,由编码器模型分别进行编码并得到自监督数据向量以及第一语音数据向量,并将第一语音数据向量输入语音识别模型,语音识别模型输出第一语音数据向量对应的语音转写标签,每一次输入新的第一语音数据向量以及输出自监督数据向量时,第一阶段混合损失函数的函数值会重新计算并更新,且每一次迭代计算的过程会不断更新网络结构参数,直至第一阶段混合损失函数的函数值不再降低表示训练完成。
第一阶段预训练完成后,加载第一阶段预训练得到的神经网络参数。
利用第一阶段混合损失函数对编码器模型以及语音识别模型进行预训练,能够最大限度地利用了无标注的数据进行半监督的联合学习,得到预训练后的编码器模型以及语音识别模型,与语音识别模型同时进行训练也加快了编码器模型的收敛速度。
S180、将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型;
在本步骤中,将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,训练后的编码器模型对其进行编码得到方言数据向量以及第二语音数据向量,方言种类预测模型会对每一个输入的方言数据向量输出对应的方言种类标签,语音识别模型会对每一个输入的第二语音数据向量输出对应的转写标签。
完成训练的编码器模型具备了语音特征抽取能力,在对方言种类判别训练数据以及语音识别训练数据进行编码时,能够得到更精准表征方言种类特征的方言数据向量以及第二语音数据向量,并将其输入方言种类预测模型以及语音识别模型进行下一步的训练。
S190、根据方言种类预测模型的输出构造方言种类预测模型的损失函数;
S200、根据语音识别模型的损失函数,以及方言种类预测模型的损失函数构造第二阶段混合损失函数;
训练最大迭代次数是指在训练模型过程中迭代计算次数的最大值,当达到训练最大迭代次数时,无论模型性能是否达标都停止训练过程。
从适应性权重衰减因子的计算式子可看出,随着迭代次数的增加,适应性权重衰减因子的值会越大,表示在训练前期,第二阶段混合损失函数的函数值主要由语音识别模型的损失函数的函数值决定,在训练前期主要用于训练语音识别模型的语音特征提取能力,但在训练后期,第二阶段混合损失函数的函数值主要由方言种类预测模型的损失函数的函数值决定,在训练后期用于训练方言种类预测模型的方言种类识别能力。
S210、将方言数据向量以及第二语音数据向量输入方言种类预测模型以及训练后的语音识别模型,并利用第二阶段混合损失函数训练语音识别模型以及方言种类预测模型,直至第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
在第二阶段联合训练的过程中,需重复执行步骤S180以将方言种类判别训练数据以及语音识别训练数据输入编码器模型,由编码器模型编码后得到方言数据向量以及第二语音数据向量,并将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,方言种类预测模型输出方言数据向量对应的方言种类标签,语音识别模型输出第二语音数据向量对应的转写标签,每一次输入新的第二语音数据向量以及方言数据向量时,第二阶段混合损失函数的函数值会重新计算并更新,且每一次迭代计算的过程会不断更新网络结构参数,直至第二阶段混合损失函数的函数值不再降低表示训练完成。
利用第二阶段混合损失函数同时训练语音识别模型以及方言种类预测模型,能够更高效利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度,在训练完成后,语音识别模型可以去除,训练后的方言种类预测模型可用于精准预测语音数据中的方言种类,并作为其他语音识别模型的前置处理模块,以提高语音识别模型对方言语音识别的准确率。
本实施例提供的方言种类预测模型的训练方法,通过第一阶段的预训练同时对编码器模型以及语音识别模型进行训练,使编码器模型以半监督的方式在数量有限的无标注数据输入的情况快速获取到语音特征的提取能力,且加快收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码,以更好地提取其中的语音特征,编码得到的方言数据向量以及第二语音数据向量输入方言种类预测模型和语音识别模型进行预测,分别得到方言种类标签以及转写标签,直至第二阶段混合损失函数的函数值不再降低。在第二阶段的联合训练过程中,利用适应性权重衰减因子,使训练前后期关注不同的模型,并在训练后期侧重关注方言种类预测模型。在第二阶段训练完成并去除语音识别模型后,训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型,准确地预测语音数据的方言种类,有利于提高对方言语音识别的准确性,且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型,方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果,降低了数据标注所带来的人力和时间成本。
实施例2
本实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1提供的方言种类预测模型的训练方法。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1提供的方言种类预测模型的训练方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种方言种类预测模型的训练方法,其特征在于,包括:
获取语音数据,对所述语音数据进行预处理,将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;
将自监督训练数据和语音识别训练数据输入编码器模型,以使编码器模型分别编码得到自监督数据向量和第一语音数据向量;
根据自监督数据向量构造所述编码器模型的自监督损失函数;
根据语音识别模型的输出构造语音识别模型的损失函数;
根据所述编码器模型的自监督损失函数,以及所述语音识别模型的损失函数构造第一阶段混合损失函数;
将第一语音数据向量输入语音识别模型,并利用所述第一阶段混合损失函数训练所述编码器模型以及所述语音识别模型,直至所述第一阶段混合损失函数的函数值不再降低;
将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,以使编码器模型对其编码得到方言数据向量以及第二语音数据向量;
根据所述方言种类预测模型的输出构造方言种类预测模型的损失函数;
根据所述语音识别模型的损失函数,以及所述方言种类预测模型的损失函数构造第二阶段混合损失函数;
将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,并利用所述第二阶段混合损失函数训练所述语音识别模型以及所述方言种类预测模型,直至所述第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
8.根据权利要求1~6任一项所述的方言种类预测模型的训练方法,其特征在于,
对所述语音数据进行预处理,具体包括:
将所述语音数据的采样率匹配预先设定的目的采样率;
对已匹配采样率的语音数据进行回声和噪声处理;
对回声和噪声处理后的语音数据进行静音切除处理;
对静音切除处理后的语音数据进行频谱特征转换处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8任一项所述方言种类预测模型的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8任一项所述方言种类预测模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210666185.4A CN114743545B (zh) | 2022-06-14 | 2022-06-14 | 方言种类预测模型的训练方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210666185.4A CN114743545B (zh) | 2022-06-14 | 2022-06-14 | 方言种类预测模型的训练方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114743545A CN114743545A (zh) | 2022-07-12 |
CN114743545B true CN114743545B (zh) | 2022-09-02 |
Family
ID=82286937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210666185.4A Active CN114743545B (zh) | 2022-06-14 | 2022-06-14 | 方言种类预测模型的训练方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114743545B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133270B (zh) * | 2023-09-06 | 2024-07-26 | 联通(广东)产业互联网有限公司 | 语音合成方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN113823262A (zh) * | 2021-11-16 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN113889090A (zh) * | 2021-09-29 | 2022-01-04 | 北京中科智加科技有限公司 | 一种基于多任务学习的多语种识别模型的构建和训练方法 |
CN114490950A (zh) * | 2022-04-07 | 2022-05-13 | 联通(广东)产业互联网有限公司 | 编码器模型的训练方法及存储介质、相似度预测方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11238845B2 (en) * | 2018-11-21 | 2022-02-01 | Google Llc | Multi-dialect and multilingual speech recognition |
-
2022
- 2022-06-14 CN CN202210666185.4A patent/CN114743545B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN113889090A (zh) * | 2021-09-29 | 2022-01-04 | 北京中科智加科技有限公司 | 一种基于多任务学习的多语种识别模型的构建和训练方法 |
CN113823262A (zh) * | 2021-11-16 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114490950A (zh) * | 2022-04-07 | 2022-05-13 | 联通(广东)产业互联网有限公司 | 编码器模型的训练方法及存储介质、相似度预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114743545A (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108806667B (zh) | 基于神经网络的语音与情绪的同步识别方法 | |
CN110827801B (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN109410917B (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN109671442B (zh) | 基于STARGAN和x向量的多对多说话人转换方法 | |
WO2018227780A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
CN110189749A (zh) | 语音关键词自动识别方法 | |
CN111339278B (zh) | 训练话术生成模型、生成应答话术的方法和装置 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
CN113436612B (zh) | 基于语音数据的意图识别方法、装置、设备及存储介质 | |
CN114360557B (zh) | 语音音色转换方法、模型训练方法、装置、设备和介质 | |
CN113450761B (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
Ghule et al. | Feature extraction techniques for speech recognition: A review | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN114530141A (zh) | 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN114743545B (zh) | 方言种类预测模型的训练方法、设备及存储介质 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
CN113611285A (zh) | 基于层叠双向时序池化的语种识别方法 | |
CN113327585A (zh) | 一种基于深度神经网络的自动语音识别方法 | |
Zhao et al. | Research on voice cloning with a few samples |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |