CN114743545B - 方言种类预测模型的训练方法、设备及存储介质 - Google Patents

方言种类预测模型的训练方法、设备及存储介质 Download PDF

Info

Publication number
CN114743545B
CN114743545B CN202210666185.4A CN202210666185A CN114743545B CN 114743545 B CN114743545 B CN 114743545B CN 202210666185 A CN202210666185 A CN 202210666185A CN 114743545 B CN114743545 B CN 114743545B
Authority
CN
China
Prior art keywords
dialect
model
training
loss function
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210666185.4A
Other languages
English (en)
Other versions
CN114743545A (zh
Inventor
赵文博
肖清
许程冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unicom Guangdong Industrial Internet Co Ltd
Original Assignee
China Unicom Guangdong Industrial Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unicom Guangdong Industrial Internet Co Ltd filed Critical China Unicom Guangdong Industrial Internet Co Ltd
Priority to CN202210666185.4A priority Critical patent/CN114743545B/zh
Publication of CN114743545A publication Critical patent/CN114743545A/zh
Application granted granted Critical
Publication of CN114743545B publication Critical patent/CN114743545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供方言种类预测模型的训练方法、设备及存储介质,方法包括:将自监督训练数据和语音识别训练数据输入编码器模型,得到自监督数据向量和第一语音数据向量;根据编码器模型以及语音识别模型的损失函数构造第一阶段混合损失函数,以训练编码器模型以及语音识别模型;将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型得到方言数据向量以及第二语音数据向量;根据语音识别模型以及方言种类预测模型的损失函数构造第二阶段混合损失函数,以训练语音识别模型以及方言种类预测模型。该方法通过半监督的方式快速对前述的三种模型进行联合训练,且在输入数量有限的标注数据的前提下训练得到精准度较高的方言种类预测模型。

Description

方言种类预测模型的训练方法、设备及存储介质
技术领域
本发明涉及语音识别领域,更具体地,涉及方言种类预测模型的训练方法、设备及存储介质。
背景技术
语音交互是人类最直接和便捷的沟通方式之一,可以在短时间内传递丰富信息内容,满足人们对信息表达和交互的需要。在一般非正式场合中,人们沟通交流倾向于使用其熟悉的本地方言。让机器能够自动区分不同种类的方言,可以为后续的方言ASR奠定技术基础,在地域文化保护、跨区域交流、国家安全监管等方面都有重要意义。国内方言种类繁多、发音差异较大,数据收集和标注的成本相对普通话而言要高得多,且目前的语音识别模型的识别准确率较低,需要依赖大量的标注数据,当标注数据不足时,其识别准确率和泛化能力严重劣化,且数据标注的过程需要耗费大量的人力和时间成本,因此需要构建一种能够高效、准确判别不同方言的方法。
发明内容
本发明旨在克服上述现有技术的至少一种缺陷,提供方言种类预测模型的训练方法、设备及存储介质,用于解决现有技术中对方言识别的准确率较低且严重依赖标注数据的问题。
本发明采用的技术方案包括:
本发明提供一种方言种类预测模型的训练方法,包括:获取语音数据,对所述语音数据进行预处理,将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;将自监督训练数据和语音识别训练数据输入编码器模型,以使编码器模型分别编码得到自监督数据向量和第一语音数据向量;根据自监督数据向量构造所述编码器模型的自监督损失函数;根据所述语音识别模型的输出构造语音识别模型的损失函数;根据所述编码器模型的自监督损失函数,以及所述语音识别模型的损失函数构造第一阶段混合损失函数;将第一语音数据向量输入语音识别模型,并利用所述第一阶段混合损失函数训练所述编码器模型以及所述语音识别模型,直至所述第一阶段混合损失函数的函数值不再降低;将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,以使编码器模型对其编码得到方言数据向量以及第二语音数据向量;根据所述方言种类预测模型的输出构造方言种类预测模型的损失函数;根据所述语音识别模型的损失函数,以及所述方言种类预测模型的损失函数构造第二阶段混合损失函数;将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,并利用所述第二阶段混合损失函数训练所述语音识别模型以及所述方言种类预测模型,直至所述第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
本发明提供的方言种类预测模型的训练方法,通过第一阶段的预训练对编码器模型进行自监督训练,以及结合编码器模型的自监督损失函数以及语音识别模型的损失函数构造第一阶段混合损失函数,以半监督联合学习的方式共同训练编码器模型以及语音识别模型,最大限度地利用无标注的数据提高编码器模型的收敛速度。训练后的编码器模型具备较强的提取音频特征的能力,将其编码的方言数据向量以及第二语音数据向输入方言种类预测模型以及训练后的语音识别模型,结合语音识别模型的损失函数以及方言种类预测模型的损失函数构造第二阶段混合损失函数,以共同训练语音识别模型和方言种类预测模型,同样是最大限度利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度,训练后的方言种类预测模型作为语音识别模型的前置处理模块,其有效提取方言语言特征,能够对方言种类进行精准预测,从而提高后续语音识别模型对方言语音识别的准确率。
进一步,所述第二阶段混合损失函数为
Figure 818583DEST_PATH_IMAGE001
;其中,所述
Figure 411238DEST_PATH_IMAGE002
为第二阶段混合损失函数,所述
Figure 961168DEST_PATH_IMAGE003
为适应性权重衰减因子,所述
Figure 498329DEST_PATH_IMAGE004
为所述方言种类预测模型的损失函数,所述
Figure 791907DEST_PATH_IMAGE005
为所述语音识别模型的损失函数;所述适应性权重衰减因子通过式子
Figure 973489DEST_PATH_IMAGE006
确定;其中,所述
Figure 694321DEST_PATH_IMAGE007
为超参数,所述
Figure 859723DEST_PATH_IMAGE008
为训练最大迭代次数,所述
Figure 566779DEST_PATH_IMAGE009
为训练当前迭代次数。
本发明在构建第二阶段混合损失函数时引入适应性权重衰减因子,使其在损失函数中随迭代次数的变化作适应性更新,在训练前期,第二阶段混合损失函数的权重侧重于语音识别模型,则前期训练侧重于语音识别模型的训练,提高模型的音频特征抽取能力,而随着适应性权重衰减因子不断增大,后期训练侧重于方言种类预测模型的训练,重点提高方言种类识别的性能。
进一步,所述语音识别模型的损失函数为
Figure 868447DEST_PATH_IMAGE010
;其中,所述
Figure 494600DEST_PATH_IMAGE011
为语音识别模型的损失函数,所述
Figure 881719DEST_PATH_IMAGE012
为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签;所述
Figure 517100DEST_PATH_IMAGE013
为所有有效CTC路径的集合,且
Figure 75207DEST_PATH_IMAGE014
,所述
Figure 137841DEST_PATH_IMAGE015
表示单条CTC路径长度,所述
Figure 746677DEST_PATH_IMAGE016
与所述
Figure 920169DEST_PATH_IMAGE017
分别表示第一语音数据向量和其对应的真实转写标签序列,所述
Figure 196429DEST_PATH_IMAGE018
为CTC路径的映射关系。
进一步,所述方言种类预测模型的损失函数为
Figure 164385DEST_PATH_IMAGE019
;其中,所述
Figure 401463DEST_PATH_IMAGE004
为方言种类预测模型,所述
Figure 378646DEST_PATH_IMAGE020
为预先设定的训练批次的数据大小,所述
Figure 774992DEST_PATH_IMAGE021
为方言数据向量的真实方言种类标签,所述
Figure 179429DEST_PATH_IMAGE022
为所述方言种类预测模型在接收到方言数据向量后输出对应所述方言数据向量的方言种类标签。
进一步,所述自监督损失函数为
Figure 497278DEST_PATH_IMAGE023
;其中,所述
Figure 402786DEST_PATH_IMAGE024
为自监督损失函数,所述
Figure 653639DEST_PATH_IMAGE025
表示任意两个向量之间的相似度,所述
Figure 228976DEST_PATH_IMAGE026
为衰减因子参数;所述任意两个向量之间的相似度通过式子
Figure 34121DEST_PATH_IMAGE027
确定,所述
Figure 353107DEST_PATH_IMAGE028
Figure 333833DEST_PATH_IMAGE029
为任意两个向量。
进一步,所述第一阶段混合损失函数为
Figure 80072DEST_PATH_IMAGE030
;其中,所述
Figure 903671DEST_PATH_IMAGE031
为第一阶段混合损失函数,所述
Figure 495190DEST_PATH_IMAGE032
为所述自监督损失函数,所述
Figure 720635DEST_PATH_IMAGE033
为语言识别模型的损失函数;所述
Figure 762409DEST_PATH_IMAGE034
为用于调整
Figure 807725DEST_PATH_IMAGE032
Figure 468514DEST_PATH_IMAGE033
之间权重的超参数,所述
Figure 282886DEST_PATH_IMAGE015
表示单条CTC路径长度。
进一步,所述编码器模型包括若干个首尾串联的注意力模块,每个注意力模块基于式子
Figure 370928DEST_PATH_IMAGE035
对所输入的数据进行编码,并将编码后的数据向量输出至下一个注意力模块,由串联的最后一个注意力模块输出最终编码后的数据向量;其中,
Figure 778906DEST_PATH_IMAGE036
表示第n个注意力模块的注意力机制变换,所述Q、K、V分别为注意力机制中的查询、键和值,d为嵌入层维度;所述
Figure 243386DEST_PATH_IMAGE037
V的转置矩阵;每个注意力模块输出的编码后的数据向量为
Figure 912265DEST_PATH_IMAGE038
;所述
Figure 171208DEST_PATH_IMAGE039
为编码后的数据向量,所述
Figure 191116DEST_PATH_IMAGE040
表示非线性激活函数,所述
Figure 583920DEST_PATH_IMAGE041
为注意力机制变换,所述
Figure 372885DEST_PATH_IMAGE042
表示当前注意力模块的输入。
进一步,对所述语音数据进行预处理,具体包括:将所述语音数据的采样率匹配预先设定的目的采样率;对已匹配采样率的语音数据进行回声和噪声处理;对回声和噪声处理后的语音数据进行静音切除处理;对静音切除处理后的语音数据进行频谱特征转换处理。
对训练数据进行预处理,有利于提高后续模型训练时的数据匹配率、模型训练的效果以及提高计算和收敛速度。
与现有技术相比,本发明的有益效果为:
本发明提供的方言种类预测模型的训练方法中,第一阶段的预训练同时对编码器模型以及语音识别模型进行训练,使编码器模型以半监督的方式快速获取到语音特征的提取能力,加快了其收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码,更好地提取其中的语音特征,并同时对语音识别模型以及方言种类识别模型进行训练,直至第二阶段混合损失函数的函数值不再降低,训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型,准确地预测语音数据的方言种类,有利于提高对方言语音识别的准确性,且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型,方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果。
附图说明
图1为本发明实施例1提供的方法的整体流程示意图。
图2为本发明实施例1提供的方法的步骤S110~S210的流程示意图。
图3为本发明实施例1提供的方法的步骤S111~S114的流程示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
本实施例提供一种方言种类预测模型的训练方法,采取两个阶段训练的方式训练得到方言种类预测模型,训练得到的方言种类预测模型尤其适用于通信场景的方言识别。其中,如图1所示,整体训练中需要分阶段训练三个模型,分别是编码器模型、语音识别模型以及方言种类预测模型。
结合图1、2所示,该方法包括以下步骤:
S110、获取语音数据,对语音数据进行预处理;
在本步骤中,预处理是为了优化数据,例如对数据去噪、将数据调整为模型兼容的数据类型等等。具体地,如图3所示,预处理包括以下步骤:
S111、将语音数据的采样率匹配预先设定的目的采样率;
本步骤可由图1中的重采样模块执行,不同应用场景下,语音数据的采样率不相同,以通信场景的音频数据作为示例,由于通信场景音频多数为8kHz采样率,当训练模型时使用语料的采样率为16kHz,需要对原始音频信号进行采样率重采样,将原采样率转换到目的采样率。
更具体地,应先计算根据原采样率与目的采样率相比的系数,确定重采样后音频的采样点数,之后选取适用的插值方程计算重采样点的数值,并输出对应目标采样率的音频信号
S112、对已匹配采样率的语音数据进行回声和噪声处理;
本步骤可由图1中的噪声回声去除模块执行,该步骤用于中的回声和噪声处理用于去除噪音与回声,有助于提高后续模块的识别准确率。具体地,可采用AEC抵消器和非线性滤波器对语音数据进行回声和噪声处理。
S113、对经过回声和噪声处理后的语音数据进行静音切除处理;
本步骤可由图1中的静音切除模块执行,该步骤中的静音切除处理是指将音频数据中的无效静音部分切除,减少后续模块不必要的计算量。
具体地,静音切除处理可采用混合高斯模型处理,首先对降噪后的音频进行VAD处理,再采用混合高斯模型估计语音数据中语音和非语音的似然概率,并迭代更新后验概率与高斯模型直至收敛,之后根据实际情况设定静音分离阈值,将语音数据中的静音部分切除。
S114、对静音切除处理后的语音数据进行频谱特征转换处理;
本步骤可由图1中的频谱特征转换模块执行,具体地,本步骤用于将时域上的语音数据转换到频域上进行分析,即对上一步得到的有效语音数据进行预加重,平衡信号频谱。之后对语音数据进行分帧,将其按固定长度切分为多个帧信号。对每个帧信号进行加窗处理,让帧两端平滑衰减以获得更高质量的频谱。对每帧加窗后的信号进行短时傅里叶变换,将信号从时域转换到频域。在经过变换后的能量谱上应用Mel滤波器组,得到语音信号对应的FBank特征,完成对语音数据的频谱特征转换处理。
S120、将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;
本步骤可由图1中的训练数据处理模块执行。在本步骤中,由于本实施例提供的训练方法需涉及到三个模型的训练,因此需要准备分别输入三个模型的语音数据。
其中,自监督训练数据用于编码器模型的自监督训练,具体地,自监督训练数据可以是在一段语音数据中,按5%的比例随机选取多个帧信号,将其初始化为零向量。按照序列长度对处理后的数据进行排序拼接,再按照批次大小裁切,从而得到对应的自监督训练数据。
语音识别训练数据用于语音识别模型的训练,具体地,可使用Tokenizer将语音数据对应的转写文本转换为整型数据,之后按照序列长度将语音信号与转写数据进行排序拼接,再按照批次大小裁切,从而得到对应的语音识别训练数据。
方言种类判别训练数据用于方言种类预测模型的训练,具体地,可按照序列长度将语音信号与对应方言种类标签进行排序拼接,再按照批次大小裁切,从而得到对应的方言种类判别训练数据。
S130、将自监督训练数据和语音识别训练数据输入编码器模型;
在本步骤执行之前,应先加载整体神经网络结构至计算机显存中并初始化神经网络参数。在本步骤中,将自监督训练数据和语音识别训练输入编码器模型后,编码器模型将两者分别编码得到自监督数据向量和第一语音数据向量,并将第一语音数据向量输入语音识别模型,语音识别模型会对每一个输入的第一语音数据向量输出对应的转写标签。
具体地,编码器模型包括若干个首尾串联的注意力模块,每个注意力模块基于式子
Figure 537150DEST_PATH_IMAGE035
对所输入的数据进行编码,并将编码后的数据向量输出至下一个注意力模块,由串联的最后一个注意力模块输出最终编码后的数据向量。
其中,
Figure 44354DEST_PATH_IMAGE043
表示第n个注意力模块的注意力机制变换,Q、K、V分别为注意力机制中的查询、键和值,d为嵌入层维度;
Figure 850636DEST_PATH_IMAGE037
V的转置矩阵。
每个注意力模块输出的编码后的数据向量为
Figure 369474DEST_PATH_IMAGE038
其中,
Figure 970219DEST_PATH_IMAGE044
为编码后的数据向量,
Figure 699141DEST_PATH_IMAGE045
表示非线性激活函数,
Figure 309114DEST_PATH_IMAGE041
为注意力机制变换,
Figure 807091DEST_PATH_IMAGE042
表示当前注意力模块的输入。
S140、根据自监督数据向量构造编码器模型的自监督损失函数;
在本步骤中,自监督损失函数为
Figure 578738DEST_PATH_IMAGE046
其中,
Figure 919590DEST_PATH_IMAGE024
为自监督损失函数,
Figure 67674DEST_PATH_IMAGE025
表示任意两个向量之间的相似度,
Figure 685737DEST_PATH_IMAGE047
为衰减因子参数;任意两个向量之间的相似度通过式子
Figure 893865DEST_PATH_IMAGE048
确定,
Figure 331799DEST_PATH_IMAGE028
Figure 158941DEST_PATH_IMAGE049
为任意两个向量。
S150、根据语音识别模型的输出构造语音识别模型的损失函数;
在本步骤中,语音识别模型的损失函数为
Figure 631511DEST_PATH_IMAGE050
其中,
Figure 10539DEST_PATH_IMAGE005
为语音识别模型的损失函数,
Figure 935770DEST_PATH_IMAGE012
为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签;
Figure 425657DEST_PATH_IMAGE013
为所有有效CTC路径的集合,且
Figure 142946DEST_PATH_IMAGE051
Figure 427297DEST_PATH_IMAGE015
表示单条CTC路径长度,
Figure 839824DEST_PATH_IMAGE016
Figure 133402DEST_PATH_IMAGE017
分别表示第一语音数据向量和其对应的真实转写标签序列,
Figure 580564DEST_PATH_IMAGE018
为CTC路径的映射关系。
S160、根据编码器模型的自监督损失函数,以及语音识别模型的损失函数构造第一阶段混合损失函数;
在本步骤中,第一阶段混合损失函数为
Figure 176762DEST_PATH_IMAGE030
其中,
Figure 76584DEST_PATH_IMAGE031
为第一阶段混合损失函数,
Figure 642695DEST_PATH_IMAGE032
为所述自监督损失函数,
Figure 209943DEST_PATH_IMAGE052
为语言识别模型的损失函数;
Figure 101675DEST_PATH_IMAGE034
为用于调整
Figure 223215DEST_PATH_IMAGE032
Figure 983229DEST_PATH_IMAGE033
之间权重的超参数,
Figure 404983DEST_PATH_IMAGE015
表示单条CTC路径长度。
第一阶段混合损失函数由自监督损失函数和语言识别模型的损失函数组成,用于在后续步骤中共同训练编码器模型以及语音识别模型。
S170、将第一语音数据向量输入语音识别模型,并利用第一阶段混合损失函数训练编码器模型以及语音识别模型,直至第一阶段混合损失函数的函数值不再降低;
在第一阶段预训练的过程中,需重复执行步骤S130以将自监督训练数据以及语音识别训练数据输入编码器模型,由编码器模型分别进行编码并得到自监督数据向量以及第一语音数据向量,并将第一语音数据向量输入语音识别模型,语音识别模型输出第一语音数据向量对应的语音转写标签,每一次输入新的第一语音数据向量以及输出自监督数据向量时,第一阶段混合损失函数的函数值会重新计算并更新,且每一次迭代计算的过程会不断更新网络结构参数,直至第一阶段混合损失函数的函数值不再降低表示训练完成。
第一阶段预训练完成后,加载第一阶段预训练得到的神经网络参数。
利用第一阶段混合损失函数对编码器模型以及语音识别模型进行预训练,能够最大限度地利用了无标注的数据进行半监督的联合学习,得到预训练后的编码器模型以及语音识别模型,与语音识别模型同时进行训练也加快了编码器模型的收敛速度。
S180、将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型;
在本步骤中,将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,训练后的编码器模型对其进行编码得到方言数据向量以及第二语音数据向量,方言种类预测模型会对每一个输入的方言数据向量输出对应的方言种类标签,语音识别模型会对每一个输入的第二语音数据向量输出对应的转写标签。
完成训练的编码器模型具备了语音特征抽取能力,在对方言种类判别训练数据以及语音识别训练数据进行编码时,能够得到更精准表征方言种类特征的方言数据向量以及第二语音数据向量,并将其输入方言种类预测模型以及语音识别模型进行下一步的训练。
S190、根据方言种类预测模型的输出构造方言种类预测模型的损失函数;
在本步骤中,方言种类预测模型的损失函数为
Figure 467617DEST_PATH_IMAGE019
其中,
Figure 342032DEST_PATH_IMAGE004
为方言种类预测模型,
Figure 249946DEST_PATH_IMAGE020
为预先设定的训练批次的数据大小,
Figure 401572DEST_PATH_IMAGE021
为方言数据向量的真实方言种类标签,
Figure 635108DEST_PATH_IMAGE022
为方言种类预测模型在接收到方言数据向量后输出对应方言数据向量的方言种类标签。
S200、根据语音识别模型的损失函数,以及方言种类预测模型的损失函数构造第二阶段混合损失函数;
在本步骤中,第二阶段混合损失函数为
Figure 996819DEST_PATH_IMAGE001
其中,
Figure 708423DEST_PATH_IMAGE002
为第二阶段混合损失函数,
Figure 839190DEST_PATH_IMAGE003
为适应性权重衰减因子,
Figure 368260DEST_PATH_IMAGE004
为所述方言种类预测模型的损失函数,
Figure 217268DEST_PATH_IMAGE005
为语音识别模型的损失函数。
适应性权重衰减因子通过式子
Figure 732563DEST_PATH_IMAGE053
确定。
其中,
Figure 717836DEST_PATH_IMAGE007
为超参数,
Figure 293174DEST_PATH_IMAGE054
为训练最大迭代次数,
Figure 504844DEST_PATH_IMAGE009
为训练当前迭代次数。
训练最大迭代次数是指在训练模型过程中迭代计算次数的最大值,当达到训练最大迭代次数时,无论模型性能是否达标都停止训练过程。
从适应性权重衰减因子的计算式子可看出,随着迭代次数的增加,适应性权重衰减因子
Figure 558250DEST_PATH_IMAGE056
的值会越大,表示在训练前期,第二阶段混合损失函数的函数值主要由语音识别模型的损失函数的函数值决定,在训练前期主要用于训练语音识别模型的语音特征提取能力,但在训练后期,第二阶段混合损失函数的函数值主要由方言种类预测模型的损失函数的函数值决定,在训练后期用于训练方言种类预测模型的方言种类识别能力。
S210、将方言数据向量以及第二语音数据向量输入方言种类预测模型以及训练后的语音识别模型,并利用第二阶段混合损失函数训练语音识别模型以及方言种类预测模型,直至第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
在第二阶段联合训练的过程中,需重复执行步骤S180以将方言种类判别训练数据以及语音识别训练数据输入编码器模型,由编码器模型编码后得到方言数据向量以及第二语音数据向量,并将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,方言种类预测模型输出方言数据向量对应的方言种类标签,语音识别模型输出第二语音数据向量对应的转写标签,每一次输入新的第二语音数据向量以及方言数据向量时,第二阶段混合损失函数的函数值会重新计算并更新,且每一次迭代计算的过程会不断更新网络结构参数,直至第二阶段混合损失函数的函数值不再降低表示训练完成。
利用第二阶段混合损失函数同时训练语音识别模型以及方言种类预测模型,能够更高效利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度,在训练完成后,语音识别模型可以去除,训练后的方言种类预测模型可用于精准预测语音数据中的方言种类,并作为其他语音识别模型的前置处理模块,以提高语音识别模型对方言语音识别的准确率。
本实施例提供的方言种类预测模型的训练方法,通过第一阶段的预训练同时对编码器模型以及语音识别模型进行训练,使编码器模型以半监督的方式在数量有限的无标注数据输入的情况快速获取到语音特征的提取能力,且加快收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码,以更好地提取其中的语音特征,编码得到的方言数据向量以及第二语音数据向量输入方言种类预测模型和语音识别模型进行预测,分别得到方言种类标签以及转写标签,直至第二阶段混合损失函数的函数值不再降低。在第二阶段的联合训练过程中,利用适应性权重衰减因子,使训练前后期关注不同的模型,并在训练后期侧重关注方言种类预测模型。在第二阶段训练完成并去除语音识别模型后,训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型,准确地预测语音数据的方言种类,有利于提高对方言语音识别的准确性,且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型,方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果,降低了数据标注所带来的人力和时间成本。
实施例2
本实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1提供的方言种类预测模型的训练方法。
本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1提供的方言种类预测模型的训练方法。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种方言种类预测模型的训练方法,其特征在于,包括:
获取语音数据,对所述语音数据进行预处理,将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据;
将自监督训练数据和语音识别训练数据输入编码器模型,以使编码器模型分别编码得到自监督数据向量和第一语音数据向量;
根据自监督数据向量构造所述编码器模型的自监督损失函数;
根据语音识别模型的输出构造语音识别模型的损失函数;
根据所述编码器模型的自监督损失函数,以及所述语音识别模型的损失函数构造第一阶段混合损失函数;
将第一语音数据向量输入语音识别模型,并利用所述第一阶段混合损失函数训练所述编码器模型以及所述语音识别模型,直至所述第一阶段混合损失函数的函数值不再降低;
将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型,以使编码器模型对其编码得到方言数据向量以及第二语音数据向量;
根据所述方言种类预测模型的输出构造方言种类预测模型的损失函数;
根据所述语音识别模型的损失函数,以及所述方言种类预测模型的损失函数构造第二阶段混合损失函数;
将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型,并利用所述第二阶段混合损失函数训练所述语音识别模型以及所述方言种类预测模型,直至所述第二阶段混合损失函数的函数值不再降低,得到训练后的方言种类预测模型。
2.根据权利要求1所述的方言种类预测模型的训练方法,其特征在于,
所述第二阶段混合损失函数为
Figure 735067DEST_PATH_IMAGE001
其中,所述
Figure 393276DEST_PATH_IMAGE002
为第二阶段混合损失函数,所述
Figure 910058DEST_PATH_IMAGE003
为适应性权重衰减因子,所述
Figure 442933DEST_PATH_IMAGE004
为所述方言种类预测模型的损失函数,所述
Figure 921747DEST_PATH_IMAGE005
为所述语音识别模型的损失函数;
所述适应性权重衰减因子通过式子
Figure 965621DEST_PATH_IMAGE006
确定;
其中,所述
Figure 37658DEST_PATH_IMAGE007
为超参数,所述
Figure 553434DEST_PATH_IMAGE008
为训练最大迭代次数,所述
Figure 607103DEST_PATH_IMAGE009
为训练当前迭代次数。
3.根据权利要求2所述的方言种类预测模型的训练方法,其特征在于,
所述语音识别模型的损失函数为
Figure 380850DEST_PATH_IMAGE010
其中,所述
Figure 488702DEST_PATH_IMAGE005
为语音识别模型的损失函数,所述
Figure 859817DEST_PATH_IMAGE011
为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签;所述
Figure 976897DEST_PATH_IMAGE012
为所有有效CTC路径的集合,且
Figure 489305DEST_PATH_IMAGE013
,所述
Figure 549675DEST_PATH_IMAGE014
表示单条CTC路径长度,所述
Figure 20802DEST_PATH_IMAGE015
与所述
Figure 797698DEST_PATH_IMAGE016
分别表示第一语音数据向量和其对应的真实转写标签序列,所述
Figure 194306DEST_PATH_IMAGE017
为CTC路径的映射关系。
4.根据权利要求2所述的方言种类预测模型的训练方法,其特征在于,
所述方言种类预测模型的损失函数为
Figure 519327DEST_PATH_IMAGE018
其中,所述
Figure 989668DEST_PATH_IMAGE004
为方言种类预测模型,所述
Figure 432238DEST_PATH_IMAGE019
为预先设定的训练批次的数据大小,所述
Figure 287281DEST_PATH_IMAGE020
为方言数据向量的真实方言种类标签,所述
Figure 913697DEST_PATH_IMAGE021
为所述方言种类预测模型在接收到方言数据向量后输出对应所述方言数据向量的方言种类标签。
5.根据权利要求3所述的方言种类预测模型的训练方法,其特征在于,
所述自监督损失函数为
Figure 736247DEST_PATH_IMAGE022
其中,所述
Figure 837443DEST_PATH_IMAGE023
为自监督损失函数,所述
Figure 419429DEST_PATH_IMAGE024
表示任意两个向量之间的相似度,所述
Figure 351832DEST_PATH_IMAGE025
为衰减因子参数;所述任意两个向量之间的相似度通过式子
Figure 778790DEST_PATH_IMAGE026
确定,所述
Figure 454841DEST_PATH_IMAGE027
Figure 403250DEST_PATH_IMAGE028
为任意两个向量。
6.根据权利要求5所述的方言种类预测模型的训练方法,其特征在于,
所述第一阶段混合损失函数为
Figure 755822DEST_PATH_IMAGE029
其中,所述
Figure 919344DEST_PATH_IMAGE030
为第一阶段混合损失函数;所述
Figure 258140DEST_PATH_IMAGE031
为用于调整
Figure 202001DEST_PATH_IMAGE032
Figure 740047DEST_PATH_IMAGE033
之间权重的超参数。
7.根据权利要求1~6任一项所述的方言种类预测模型的训练方法,其特征在于,
所述编码器模型包括若干个首尾串联的注意力模块,每个注意力模块基于式子
Figure 775218DEST_PATH_IMAGE034
对所输入的数据进行编码,并将编码后的数据向量输出至下一个注意力模块,由串联的最后一个注意力模块输出最终编码后的数据向量;
其中,
Figure 923565DEST_PATH_IMAGE035
表示第n个注意力模块的注意力机制变换,所述Q、K、V分别为注意力机制中的查询、键和值,d为嵌入层维度;所述
Figure 974130DEST_PATH_IMAGE036
V的转置矩阵;
每个注意力模块输出的编码后的数据向量为
Figure 278291DEST_PATH_IMAGE037
所述
Figure 665672DEST_PATH_IMAGE038
为编码后的数据向量,所述
Figure 969440DEST_PATH_IMAGE039
表示非线性激活函数,所述
Figure 2075DEST_PATH_IMAGE040
为注意力机制变换,所述
Figure 477138DEST_PATH_IMAGE041
表示当前注意力模块的输入。
8.根据权利要求1~6任一项所述的方言种类预测模型的训练方法,其特征在于,
对所述语音数据进行预处理,具体包括:
将所述语音数据的采样率匹配预先设定的目的采样率;
对已匹配采样率的语音数据进行回声和噪声处理;
对回声和噪声处理后的语音数据进行静音切除处理;
对静音切除处理后的语音数据进行频谱特征转换处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~8任一项所述方言种类预测模型的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~8任一项所述方言种类预测模型的训练方法。
CN202210666185.4A 2022-06-14 2022-06-14 方言种类预测模型的训练方法、设备及存储介质 Active CN114743545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210666185.4A CN114743545B (zh) 2022-06-14 2022-06-14 方言种类预测模型的训练方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210666185.4A CN114743545B (zh) 2022-06-14 2022-06-14 方言种类预测模型的训练方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114743545A CN114743545A (zh) 2022-07-12
CN114743545B true CN114743545B (zh) 2022-09-02

Family

ID=82286937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210666185.4A Active CN114743545B (zh) 2022-06-14 2022-06-14 方言种类预测模型的训练方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114743545B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117133270B (zh) * 2023-09-06 2024-07-26 联通(广东)产业互联网有限公司 语音合成方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829058A (zh) * 2019-01-17 2019-05-31 西北大学 一种基于多任务学习提高方言识别准确率的分类识别方法
CN111816159A (zh) * 2020-07-24 2020-10-23 腾讯科技(深圳)有限公司 一种语种识别方法以及相关装置
CN113823262A (zh) * 2021-11-16 2021-12-21 腾讯科技(深圳)有限公司 一种语音识别方法、装置、电子设备和存储介质
CN113889090A (zh) * 2021-09-29 2022-01-04 北京中科智加科技有限公司 一种基于多任务学习的多语种识别模型的构建和训练方法
CN114490950A (zh) * 2022-04-07 2022-05-13 联通(广东)产业互联网有限公司 编码器模型的训练方法及存储介质、相似度预测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11238845B2 (en) * 2018-11-21 2022-02-01 Google Llc Multi-dialect and multilingual speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829058A (zh) * 2019-01-17 2019-05-31 西北大学 一种基于多任务学习提高方言识别准确率的分类识别方法
CN111816159A (zh) * 2020-07-24 2020-10-23 腾讯科技(深圳)有限公司 一种语种识别方法以及相关装置
CN113889090A (zh) * 2021-09-29 2022-01-04 北京中科智加科技有限公司 一种基于多任务学习的多语种识别模型的构建和训练方法
CN113823262A (zh) * 2021-11-16 2021-12-21 腾讯科技(深圳)有限公司 一种语音识别方法、装置、电子设备和存储介质
CN114490950A (zh) * 2022-04-07 2022-05-13 联通(广东)产业互联网有限公司 编码器模型的训练方法及存储介质、相似度预测方法及系统

Also Published As

Publication number Publication date
CN114743545A (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及系统
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN109671442B (zh) 基于STARGAN和x向量的多对多说话人转换方法
WO2018227780A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN110189749A (zh) 语音关键词自动识别方法
CN111339278B (zh) 训练话术生成模型、生成应答话术的方法和装置
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
CN114360557B (zh) 语音音色转换方法、模型训练方法、装置、设备和介质
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
Ghule et al. Feature extraction techniques for speech recognition: A review
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN111081219A (zh) 一种端到端的语音意图识别方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN114743545B (zh) 方言种类预测模型的训练方法、设备及存储介质
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN117041430B (zh) 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置
CN113611285A (zh) 基于层叠双向时序池化的语种识别方法
CN113327585A (zh) 一种基于深度神经网络的自动语音识别方法
Zhao et al. Research on voice cloning with a few samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant