CN110853617B

CN110853617B - 一种模型训练的方法、语种识别的方法、装置及设备

Info

Publication number: CN110853617B
Application number: CN201911136295.4A
Authority: CN
Inventors: 高骥; 张姗姗; 黄申; 巫海维; 蔡炜城; 李明
Original assignee: Duke Kunshan University; Tencent Technology Shenzhen Co Ltd
Current assignee: Duke Kunshan University; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2022-03-01
Anticipated expiration: 2039-11-19
Also published as: CN110853617A

Abstract

本申请公开了一种模型训练的方法，包括：获取音频样本集合以及随机音频样本集合；通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合；通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合；基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果；基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签；采用目标损失函数对待训练网络模型进行训练，得到目标网络模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现低资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

Description

一种模型训练的方法、语种识别的方法、装置及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练的方法、语种识别的方法、装置及设备。

背景技术

随着现代社会信息的全球化，语种识别成为语音识别技术研究热点之一。语种识别技术能够制造一种模仿人的思维对语音进行语种辨识的机器，从语音信号中提取出各语种的差异信息，并以此为依据判断所属语种。

对歌曲语种的识别属于语音信息处理中的语种识别范畴。目前，对歌曲语种进行识别的方法为，将歌曲直接输入至语音识别的通用引擎中，该通用引擎从歌曲的语音学特征中对歌曲的语种进行分类识别。

然而，对于一些比较小众的语种而言，这类语种的歌曲数据往往较难获取，因此，在训练语音识别模型的过程中，由于缺乏歌曲数据的资源，而导致模型训练的效果较差，从而降低了语种识别的准确度和可靠性。

发明内容

本申请实施例提供了一种模型训练的方法、语种识别的方法、装置及设备，可以实现低资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

基于音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

基于随机音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果；

基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签；

基于预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型，其中，目标网络模型包括音频生成模型以及语种识别模型，音频生成模型包括生成器。

本申请第二方面提供一种模型训练的方法，包括：

基于音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

基于随机音频样本集合，通过待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练音频生成模型获取判别结果；

基于第二音频声学特征集合，通过待训练音频生成模型获取音频数据集合，其中，音频数据集合包括至少一个音频数据；

基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，音频生成模型包括生成器。

本申请第三方面提供一种模型训练装置，包括：

获取模块，用于获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

获取模块，还用于基于音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

获取模块，还用于基于随机音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

获取模块，还用于基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果；

获取模块，还用于基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签；

训练模块，用于基于获取模块获取的预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型，其中，目标网络模型包括音频生成模型以及语种识别模型，音频生成模型包括生成器。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

获取模块，具体用于获取音频样本集合以及待合成音频样本集合，其中，待合成音频样本集合包括至少一个待合成音频样本；

根据待合成音频样本集合以及白噪声集合，生成随机音频样本集合，其中，白噪声集合包括至少一个白噪声。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

获取模块，具体用于获取待处理音频样本集合以及待合成音频样本集合，其中，待处理音频样本集合包括至少一个待处理音频样本，待合成音频样本集合包括至少一个待合成音频样本；

根据待处理音频样本集合获取音频样本集合，其中，音频样本与待处理音频样本具有对应关系，且音频样本属于声学特征向量；

根据待合成音频样本集合以及白噪声集合，生成随机音频样本集合，其中，白噪声集合包括至少一个白噪声特征向量，随机音频样本与待合成音频样本具有对应关系，且随机音频样本属于声学特征向量。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

训练模块，具体用于基于判别结果、第一音频声学特征集合以及第二音频声学特征集合，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，第一损失函数属于目标损失函数；

基于预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型，其中，第二损失函数属于目标损失函数。

本申请第四方面提供一种模型训练装置，包括：

获取模块，还用于基于音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

获取模块，还用于基于随机音频样本集合，通过待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

获取模块，还用于基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练音频生成模型获取判别结果；

获取模块，还用于基于第二音频声学特征集合，通过待训练音频生成模型获取音频数据集合，其中，音频数据集合包括至少一个音频数据；

训练模块，用于基于获取模块获取的音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，音频生成模型包括生成器。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

获取模块，还用于训练模块基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型之后，基于音频数据集合，通过待训练语种识别模型获取预测语种标签；

训练模块，还用于基于获取模块获取的预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

获取模块，具体用于基于随机音频样本集合中的随机音频样本，通过待训练生成器的卷积神经网络获取音频深度特征，其中，待训练生成器属于待训练音频生成模型；

基于音频深度特征，通过待训练生成器的逆卷积神经网络获取第二音频声学特征。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

获取模块，具体用于基于第一音频声学特征集合中的第一音频声学特征以及第二音频声学特征集合中的第二音频声学特征，通过待训练判别器获取判别结果，其中，待训练判别器属于待训练音频生成模型。

在一种可能的设计中，在本申请实施例的第四方面的第六种实现方式中，

获取模块，具体用于基于第二音频声学特征集合中的第二音频声学特征，通过待训练声码器获取音频数据，其中，待训练声码器属于待训练音频生成模型。

本申请第五方面提供一种语种识别的方法，包括：

获取待识别音频数据；

根据待识别音频数据生成音频频域特征；

基于音频频域特征，通过语种识别模型获取语种分布概率，其中，语种识别模型为采用上述第一方面中任一项方法训练得到的，或，语种识别模型为采用上述第二方面中任一项方法训练得到的；

根据语种分布概率生成待识别音频数据所对应的语种识别结果。

本申请第六方面提供一种语种识别装置，包括：

获取模块，用于获取待识别音频数据；

生成模块，用于根据获取模块获取的待识别音频数据生成音频频域特征；

获取模块，还用于基于生成模块生成的音频频域特征，通过语种识别模型获取语种分布概率，其中，语种识别模型为采用上述第一方面中任一项方法训练得到的，或，语种识别模型为采用上述第二方面中任一项方法训练得到的；

生成模块，还用于根据获取模块获取的语种分布概率生成待识别音频数据所对应的语种识别结果。

本申请第六方面提供一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括执行如上述第一方面中任一项的方法，或，执行如上述第二方面中任一项的方法，或，执行如上述第五方面中任一项的方法；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请的第七方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先获取音频样本集合以及随机音频样本集合，然后基于音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，再基于随机音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合，基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果，接下来基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签，最后基于预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型。通过上述方式，对于一些小众语种的歌曲而言，在难以获取到该语种的歌曲的情况下，由训练得到的音频生成模型基于一些随机信息生成该语种所对应的歌曲样本，从而实现低资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

附图说明

图1为本申请实施例中歌曲语种分类功能的一个界面示意图；

图2为本申请实施例中歌曲语种识别功能的一个界面示意图；

图3为本申请实施例中语种识别系统的一个架构示意图；

图4为本申请实施例中模型训练的方法一个实施例示意图；

图5为本申请实施例中基于模型联合训练的一个实施例示意图；

图6为本申请实施例中基于模型联合训练的另一个实施例示意图；

图7为本申请实施例中模型训练的方法一个实施例示意图；

图8为本申请实施例中基于音频生成模型训练的一个实施例示意图；

图9为本申请实施例中基于音频生成模型训练的另一个实施例示意图；

图10为本申请实施例中语种识别的方法一个实施例示意图；

图11为本申请实施例中语种识别模型的一个结构示意图；

图12为本申请实施例中语种识别方法的一个处理流程示意图；

图13为本申请实施例中语种识别的方法一个整体流程示意图；

图14为本申请实施例中模型训练装置的一个实施例示意图；

图15为本申请实施例中模型训练装置的一个实施例示意图；

图16为本申请实施例中语种识别装置的一个实施例示意图；

图17为本申请实施例中终端设备的一个结构示意图；

图18为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的方法可以基于人工智能(Artificial Intelligence，AI)的语音技术(Speech Technology)来实现语种识别，并且可以基于人工智能机器学习(Machine Learning，ML)来实现模型训练。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术(VoiceprintRecognition)等。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中，语音成为未来最被看好的人机交互方式之一。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

应理解，本申请提供的语种识别方法具体可以应用于音乐类应用的歌曲语种识别场景，音乐类应用是指具有音乐推荐功能的播放器，同时可以支持在线音乐和本地音乐的播放，在音乐类应用中通常设置有专业的分类，分类包含但不仅限于主题分类(如网络歌曲、情歌以及儿歌等)、场景分类(如婚礼、校园以及运动等)、心情分类(如伤感、快乐以及甜蜜等)、年代分类(如80年代、90年代以及00年代等)和流派分类(如流行、说唱以及摇滚等)，其中，语种分类能够帮助用户更快且更准确地找到大量不同语种的歌曲。

可选地，下面将以歌曲语种分类功能为例进行介绍，为了便于介绍，请参阅图1，图1为本申请实施例中歌曲语种分类功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前支持的小语种分类，例如柬埔寨语、越南语、朝鲜语、缅甸语、乌尔都语、老挝语、阿拉伯语、波斯语以及匈牙利语，当用户选择其中一个小语种的分类时，即可触发该分类所对应的模块，如“阿拉伯语”，由此进入“阿拉伯语”分类下的歌曲列表。由于歌曲数量庞大，因此，在对歌曲进行语种分类的过程中，通过本申请提供的语种识别模型实现歌曲的语种分类，即在后台获取大量的歌曲，对每个歌曲进行预处理，然后将预处理后的歌曲输入至语种识别模型，从而得到每个歌曲的语种识别结果，如“阿拉伯语”。至此，完成歌曲语种的分类。

可选地，下面将以歌曲语种识别功能为例进行介绍，为了便于介绍，请参阅图2，图2为本申请实施例中歌曲语种识别功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前播放歌曲的语种类型，如当前播放歌曲“ABCDE”，当用户想了解这首歌曲的语种时，可以触发界面中的“语种识别”模块。此时，可通过本申请提供的语种识别模型实现歌曲的语种分类，即对歌曲“ABCDE”进行预处理，然后将预处理后的歌曲输入至语种识别模型，得到歌曲“ABCDE”的语种识别结果，如“越南语”，至此，完成对歌曲语种的识别。

为了便于理解，本申请提出了一种语种识别的方法，该方法应用于图3所示的语种识别系统，请参阅图3，图3为本申请实施例中语种识别系统的一个架构示意图，如图所示，首先需要训练得到音频生成模型以及语种识别模型，由于小语种的歌曲可能非常少，因此，在训练的过程中，针对某个语种歌曲数量非常少的情况下，采用音频生成模型生成大量该语种歌曲数据，或者生成大量该语种歌曲数据所对应的声学特征。其中，音频生成模型具体可以是对抗生成网络，即利用对抗生成网络中的生成器生成歌曲数据或者歌曲数据所对应的声学特征，利用对抗生成网络中的判别器对生成器生成的歌曲数据或者歌曲数据所对应的声学特征进行判别，利用对抗学习的方式更新参数，从而使得生成器能够生成更加逼真的歌曲数据或者歌曲数据所对应的声学特征。利用生成的歌曲数据或者歌曲数据所对应的声学特征进行训练，得到可以用于音频数据识别的语种识别模型。

本申请使用语种识别模型对音频数据进行识别。识别的音频数据可以是一首完整的歌曲、一段歌曲、戏曲、音乐短片(Music Video，MV)以及其他类型的音频，此处不做限定。在识别的过程中，可以分为两种实现方式，分别为在线处理和离线处理。下面将分别进行说明：在线处理时，语种识别模型存储于服务器，客户端收集待识别音频数据之后，将待识别音频数据传输至服务器，由服务器采用语种识别模型对待识别音频数据进行语种识别，得到语种识别结果。离线处理时，语种识别模型存储于终端设备本地，客户端收集待识别音频数据之后，将输入至本地存储的语种识别模型对待识别音频数据进行语种识别，得到语种识别结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，下面将以模型联合训练的方式对本申请中模型训练的方法进行介绍，请参阅图4，本申请实施例中模型训练的方法一个实施例包括：

101、获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

本实施例中，模型训练装置首先获取音频样本集合以及随机音频样本集合，模型训练装置可以部署于终端设备，也可以部署于服务器，此处不做限定。音频样本集合包括至少一个音频样本，其中，音频样本是指某一个语种所对应的歌曲，且音频样本具有已标注的真实语种标签，比如“柬埔寨语”、“越南语”或者“缅甸语”等，此处不做限定。在确定某一个语种之后，模型训练装置就可以训练该语种所对应的音频生成模型。

随机音频样本集合包括至少一个随机音频样本，其中，随机音频样本可以是随机输入的样本，例如一段语音或者一段歌曲。需要说明的是，音频样本和随机音频样本可以均为音频数据，也可以均为声学特征。

102、基于音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

本实施例中，模型训练装置将音频样本集合输入至待训练网络模型中的待训练音频生成模型，由该待训练音频生成模型提取第一音频声学特征集合，第一音频声学特征集合包括至少一个第一音频声学特征，且每个第一音频声学特征对应一个音频样本。具体地，第一音频声学特征是由待训练音频生成模型中的特征向量生成模块所提取的。

103、基于随机音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

本实施例中，模型训练装置将随机音频样本集合输入至待训练网络模型中的待训练音频生成模型，由该待训练音频生成模型生成第二音频声学特征集合，第二音频声学特征集合包括至少一个第二音频声学特征，且每个第二音频声学特征对应一个随机音频样本。具体地，第二音频声学特征是由待训练音频生成模型中的生成器(generator)所生成的。

104、基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果；

本实施例中，模型训练装置在得到第一音频声学特征集合以及第二音频声学特征集合之后，将第一音频声学特征集合以及第二音频声学特征集合都输入至待训练网络模型中的待训练音频生成模型，由该待训练音频生成模型输出判断结果。具体地，在待训练音频生成模型中包括判别器(discriminator)，对于生成器生成的第二音频声学特征而言，可以由判别器来判断该第二音频声学特征是真的还是假的，即得到判别结果，其中，判别结果可以为一个标签，例如，标签1表示判别结果为真，标签0表示判别结果为假。

判别的方式为，判断第二音频声学特征是来自于第一音频声学特征集合，还是由生成器生成的，当判别器难以判断第二音频声学特征的来源时，表示生成器已训练完成。

105、基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签；

本实施例中，在联合训练的过程中，模型训练装置可以直接将待训练音频生成模型输出的第二音频声学特征集合作为待训练语种识别模型的输入，由待训练语种识别模型输入对应的预测语种标签，即每个第二音频声学特征对应一个预测语种标签。

106、基于预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型，其中，目标网络模型包括音频生成模型以及语种识别模型，音频生成模型包括生成器。

本实施例中，模型训练装置结合预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，对待训练网络模型进行训练，这里的待训练网络模型包括待训练音频生成模型以及待训练语种识别模型，即联合训练待训练音频生成模型以及待训练语种识别模型。在达到迭代次数的情况下，或者，在目标损失函数收敛的情况下，得到音频生成模型以及语种识别模型。其中，音频生成模型包括生成器，采用生成器可以生成音频数据或者音频数据所对应的声学特征。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，获取音频样本集合以及随机音频样本集合，可以包括：

获取音频样本集合以及待合成音频样本集合，其中，待合成音频样本集合包括至少一个待合成音频样本；

本实施例中，介绍了一种基于音频数据进行模型训练的方式，首先需要获取音频样本集合以及随机音频样本集合，由于音频样本集合中各个音频样本的获取方式，以及随机音频样本集合中各个随机音频样本的获取方式类似，故此处仅以获取一个音频样本以及一个随机音频样本为例进行说明。

为了便于说明，请参阅图5，图5为本申请实施例中基于模型联合训练的一个实施例示意图，如图所示，获取音频样本，该音频样本可以是英文歌曲。获取待合成音频样本，该待合成音频样本可以是任意一段声音，此外，还需要获取一段白噪声，白噪声是随机起伏噪声的统称，它的幅度遵从高斯分布，而功率谱类似于白色光谱，均匀分布于整个频率轴。将白噪声和该待合成音频样本共同作为随机音频样本。

将音频样本输入至待训练音频生成模型中的特征向量生成模块，特征向量生成模块需要考虑语言的发音和韵律，以及与音乐相关的音色、音调和音符等信息，通过特征向量生成模块输出的第一音频声学特征。对随机音频样本进行预处理，得到帧级别特征向量，将帧级别特征向量输入至待训练音频生成模型中待训练的生成器，由待训练的生成器输出第二音频声学特征。基于此，由待训练音频生成模型中待训练的判别器判别音频声学特征是否为人造或合成的，从而对真实的音频声学特征和合成的音频声学特征进行分类。

生成器目的是生成可以欺骗判别器的音频声学特征，判别器的目的是判别生成器输出的音频声学特征，通过对抗学习，能够使生成器的输出结果更加贴近真实的音频声学特征。将待训练生成器输出的第二音频声学特征输入至待训练的语种识别模型，从而得到预测语种标签，基于音频样本所对应的真实语种标签以及预测语种标签，训练得到的语种识别模型。

可选地，在待训练音频生成模型还包括待训练的声码器，声码器能够对第二音频声学特征进行解码，并将第二音频声学特征转换成时域波形信号，其中，该第二音频声学特征即为语音相关的频谱信息，该第二音频声学特征包含但不仅限于梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)、谐波频谱包络以及非周期包络。声码器的选择包含但不仅限于WORLD声码器以及WaveNet声码器等。

其次，本申请实施例中，提供了一种基于音频数据进行模型训练的方式，即获取音频样本集合以及待合成音频样本集合，音频样本和待合成音频样本均为音频数据，将待合成音频样本和白噪声一起作为随机音频样本输入至待训练音频生成模型中进行训练。通过上述方式，直接利用音频数据作为模型的输入，无需提前提取音频数据的声学特征，从而简化训练的流程。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，获取音频样本集合以及随机音频样本集合，可以包括：

获取待处理音频样本集合以及待合成音频样本集合，其中，待处理音频样本集合包括至少一个待处理音频样本，待合成音频样本集合包括至少一个待合成音频样本；

本实施例中，介绍了一种基于音频特征进行模型训练的方式，首先需要获取待处理音频样本集合以及待合成音频样本集合，由于待处理音频样本集合中各个待处理音频样本的获取方式，以及待合成音频样本集合中各个待合成音频样本的获取方式类似，故此处仅以获取一个音频样本以及一个随机音频样本为例进行说明。

为了便于说明，请参阅图6，图6为本申请实施例中基于模型联合训练的另一个实施例示意图，如图所示，获取待处理音频样本，该待处理音频样本可以是英文歌曲，将待处理音频样本输入至声学特征提取模块，由该声学特征提取模块输出音频样本，具体地，该音频样本属于声学特征向量。获取待合成音频样本，该待合成音频样本可以是任意一段声音，此外，还需要获取一段白噪声，白噪声是随机起伏噪声的统称，它的幅度遵从高斯分布，而功率谱类似于白色光谱，均匀分布于整个频率轴。将白噪声输入至声学特征提取模块，由该声学特征提取模块输出白噪声特征向量，并将待合成音频样本输入至声学特征提取模块，由该声学特征提取模块输出待合成音频样本的特征向量，将待合成音频样本的特征向量以及白噪声特征向量共同作为随机音频样本。类似地，模型训练的过程可参阅图4对应的第一个实施例，此处不做赘述。

其次，本申请实施例中，提供了一种基于音频特征进行模型训练的方式，即获取待处理音频样本集合以及待合成音频样本集合，然后根据待处理音频样本集合获取音频样本集合，最后根据待合成音频样本集合以及白噪声集合，生成随机音频样本集合，其中，音频样本和随机音频样本均属于声学特征向量。通过上述方式，可以利用声学特征向量作为模型的输入，通过声学特征向量能够更好地表征音频数据，从而提升模型训练的可靠性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，基于预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型，可以包括：

基于判别结果、第一音频声学特征集合以及第二音频声学特征集合，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，第一损失函数属于目标损失函数；

本实施例中，介绍了一种联合训练音频生成模型和语种识别模型的方式。目标损失函数包括第一损失函数以及第二损失函数，具体地，第一损失函数用于对待训练音频生成模型进行训练，第二损失函数用于对待训练语种识别模型进行训练，请参阅如下计算方式：

L＝aL1+bL2；

其中，L表示目标损失函数，L1表示第一损失函数，a表示第一权重系数，L2表示第二损失函数，b表示第二权重系数。

第一损失函数的计算方式如下：

其中，E表示期望值计算，D()表示判别器的输出，G()表示生成器的输出，x表示第一音频声学特征，z表示第二音频声学特征。

第二损失函数的计算方式如下：

其中，N表示样本的总数量，i表示第i个音频样本，x_i表示第i个音频样本所对应的真实语种标签，

表示第i个音频样本所对应的预测语种标签。

可选地，第二损失函数可以采用回归损失函数进行计算，如采用平均平方误差(mean-square error，MSE)进行计算预测语种标签与真实语种标签的损失值，对于有正样本和负样本的情况，还可以采用三重损失函数(Triplet loss)或者对比损失函数(Contrastive loss)进行计算。

当目标损失函数收敛时，模型训练装置即可得到音频生成模型以及语种识别模型。可选地，设置训练次数上限，假设训练次数上线为十万次，那么在达到十万次的训练次数时，模型训练装置即可采用第十万次训练模型的模型参数作为最终的模型参数。

再次，本申请实施例中，提供了一种联合训练音频生成模型和语种识别模型的方式，在联合训练的过程中，分别基于判别结果、第一音频声学特征集合以及第二音频声学特征集合，训练得到音频生成模型，以及基于预测语种标签以及真实语种标签，训练得到语种识别模型。通过上述方式，能够利用不同的损失函数联合训练得到目标网络模型，即分别获取对应的音频生成模型以及语种识别模型，为方案的实现提供了可行的依据，从而提升模型训练的可行性和可操作性。

结合上述介绍，下面将以模型分开训练的方式对本申请中模型训练的方法进行介绍，请参阅图7，本申请实施例中模型训练的方法一个实施例包括：

201、获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

202、基于音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

本实施例中，模型训练装置将音频样本集合输入至待训练音频生成模型，由该待训练音频生成模型提取第一音频声学特征集合，第一音频声学特征集合包括至少一个第一音频声学特征，且每个第一音频声学特征对应一个音频样本。具体地，第一音频声学特征是由待训练音频生成模型中的特征向量生成模块所提取的。

203、基于随机音频样本集合，通过待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

本实施例中，模型训练装置将随机音频样本集合输入至待训练音频生成模型，由该待训练音频生成模型生成第二音频声学特征集合，第二音频声学特征集合包括至少一个第二音频声学特征，且每个第二音频声学特征对应一个随机音频样本。具体地，第二音频声学特征是由待训练音频生成模型中的生成器所生成的。

204、基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练音频生成模型获取判别结果；

本实施例中，模型训练装置在得到第一音频声学特征集合以及第二音频声学特征集合之后，将第一音频声学特征集合以及第二音频声学特征集合都输入至待训练音频生成模型，由该待训练音频生成模型输出判断结果。具体地，在待训练音频生成模型中包括判别器，对于生成器生成的第二音频声学特征而言，可以由判别器来判断该第二音频声学特征是真的还是假的，即得到判别结果，其中，判别结果可以为一个标签，例如，标签1表示判别结果为真，标签0表示判别结果为假。

205、基于第二音频声学特征集合，通过待训练音频生成模型获取音频数据集合，其中，音频数据集合包括至少一个音频数据；

本实施例中，模型训练装置将第二音频声学特征集合输入至待训练音频生成模型，由该待训练音频生成模型输出音频数据集合，其中，音频数据集合包括至少一个音频数据，一个第二音频声学特征对应一个音频数据。

206、基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，音频生成模型包括生成器。

本实施例中，模型训练装置结合音频数据集合、音频样本集合以及判别结果，对待训练音频生成模型进行训练。在达到迭代次数的情况下，或者，在第一损失函数收敛的情况下，得到音频生成模型。其中，音频生成模型包括生成器，采用生成器可以生成音频数据。

具体地，第一损失函数用于对待训练音频生成模型进行训练，第一损失函数的计算方式如下：

当第一损失函数收敛时，模型训练装置即可得到音频生成模型。可选地，设置训练次数上限，假设训练次数上线为十万次，那么在达到十万次的训练次数时，模型训练装置即可采用第十万次训练模型的模型参数作为最终的模型参数。

可以理解的是，音频生成模型的损失由生成器的损失和判别器的损失按权重叠加获得，网络通过统一的损失函数进行整体参数的学习调整。最终，给定相应的身份信息、音乐的音调信息、语言音素信息以及随机白噪声信息中的至少一个，生成器就能够生成一个的歌曲片段，这个随机的歌曲片段可以作为后续语种识别模型的训练数据。

本申请实施例中，提供了一种模型训练的方法，首先获取音频样本集合以及随机音频样本集合，然后通过待训练音频生成模型获取第一音频声学特征集合，并通过待训练音频生成模型获取第二音频声学特征集合，再通过待训练音频生成模型获取判别结果，通过待训练音频生成模型获取音频数据集合，最后基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型。通过上述方式，对于一些小众语种的歌曲而言，在难以获取到该语种的歌曲的情况下，由训练得到的音频生成模型基于一些随机信息生成该语种所对应的歌曲样本，从而实现低资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型之后，还可以包括：

基于音频数据集合，通过待训练语种识别模型获取预测语种标签；

基于预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型。

本实施例中，本实施例中，介绍了一种训练语种识别模型的方式，将音频数据集合输入至待训练语种识别模型，从而得到每个音频数据所对应的预测语种标签，再基于预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型。具体地，第二损失函数用于对待训练语种识别模型进行训练，第二损失函数的计算方式如下：

表示第i个音频样本所对应的预测语种标签。

需要说明的是，第二损失函数可以采用回归损失函数进行计算，如采用平均平方误差进行计算预测语种标签与真实语种标签的损失值，对于有正样本和负样本的情况，还可以采用三重损失函数或者对比损失函数进行计算。

当第二损失函数收敛时，模型训练装置即可得到语种识别模型。可选地，设置训练次数上限，假设训练次数上线为十万次，那么在达到十万次的训练次数时，模型训练装置即可采用第十万次训练模型的模型参数作为最终的模型参数。

其次，本申请实施例中，提供了一种训练语种识别模型的方法，即基于音频数据集合，通过待训练语种识别模型获取预测语种标签，然后基于预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型。通过上述方式，能够利用不同的损失函数联合训练得到音频生成模型以及语种识别模型，为方案的实现提供了可行的依据，从而提升模型训练的可行性和可操作性。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，获取音频样本集合以及随机音频样本集合，可以包括：

为了便于说明，请参阅图8，图8为本申请实施例中基于音频生成模型训练的一个实施例示意图，如图所示，获取音频样本，该音频样本可以是英文歌曲。获取待合成音频样本，该待合成音频样本可以是任意一段声音，此外，还需要获取一段白噪声，白噪声是随机起伏噪声的统称，它的幅度遵从高斯分布，而功率谱类似于白色光谱，均匀分布于整个频率轴。将白噪声和该待合成音频样本共同作为随机音频样本。

在待训练音频生成模型还包括待训练的声码器，声码器能够对第二音频声学特征进行解码，并将第二音频声学特征转换成时域波形信号，其中，该第二音频声学特征即为语音相关的频谱信息，该第二音频声学特征包含但不仅限于MFCC、谐波频谱包络以及非周期包络。声码器的选择包含但不仅限于WORLD声码器以及WaveNet声码器等。

生成器目的是生成可以欺骗判别器的音频数据(如歌曲)，判别器的目的是判别生成器输出的音频数据，通过对抗学习，能够使生成器的输出结果更加贴近真实的音频数据。将待训练生成器输出的音频数据经预处理之后，再输入至待训练的语种识别模型，从而得到预测语种标签，基于音频样本所对应的真实语种标签以及预测语种标签，训练得到的语种识别模型。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，获取音频样本集合以及随机音频样本集合，可以包括：

为了便于说明，请参阅图9，图9为本申请实施例中基于音频生成模型训练的另一个实施例示意图，如图所示，获取待处理音频样本，该待处理音频样本可以是英文歌曲，将待处理音频样本输入至声学特征提取模块，由该声学特征提取模块输出音频样本，具体地，该音频样本属于声学特征向量。获取待合成音频样本，该待合成音频样本可以是任意一段声音，此外，还需要获取一段白噪声，白噪声是随机起伏噪声的统称，它的幅度遵从高斯分布，而功率谱类似于白色光谱，均匀分布于整个频率轴。将白噪声输入至声学特征提取模块，由该声学特征提取模块输出白噪声特征向量，并将待合成音频样本输入至声学特征提取模块，由该声学特征提取模块输出待合成音频样本的特征向量，将待合成音频样本的特征向量以及白噪声特征向量共同作为随机音频样本。类似地，模型训练的过程可参阅图7对应的第二个实施例，此处不做赘述。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第四个可选实施例中，基于随机音频样本集合，通过待训练音频生成模型获取第二音频声学特征集合，可以包括：

基于随机音频样本集合中的随机音频样本，通过待训练生成器的卷积神经网络获取音频深度特征，其中，待训练生成器属于待训练音频生成模型；

本实施例中，介绍了一种基于生成器生成第二音频声学特征的方式，由于随机音频样本集合中各个随机音频样本的处理方式类似，故此处仅以一个随机音频样本为例进行说明。

具体地，生成器的作用是通过给定的帧级别特征向量，生成对应的帧级别声学特征。对于对抗生成网络来说，除了特征向量提供的基本状态信息之外，还需要输入随机白噪声。生成器的网络结构由卷积神经网络和逆卷积神经网络级联构成的，对随机音频样本进行预处理，得到帧级别特征向量，将帧级别特征向量输入至待训练生成器中的卷积神经网络，经过卷积神经网络中的多层卷积后降低维度，提取到音频深度特征，再通过逆卷积神经网络中的多层逆卷积合成第二音频声学特征。需要说明的是，第二音频声学特征的种类可以由声码器来决定。

再次，本申请实施例中，提供了一种基于生成器生成第二音频声学特征的方式，通过上述方式，能够训练得到生成器，从而提升方案的可行性和可操作性。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第五个可选实施例中，基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练音频生成模型获取判别结果，可以包括：

基于第一音频声学特征集合中的第一音频声学特征以及第二音频声学特征集合中的第二音频声学特征，通过待训练判别器获取判别结果，其中，待训练判别器属于待训练音频生成模型。

本实施例中，介绍了一种基于判别器生成判别结果的方式，由于第一音频声学特征集合中各个第一音频声学特征，以及第二音频声学特征集合中各个第二音频声学特征的处理方式类似，故此处仅以获取一个第一音频声学特征和一个第二音频声学特征为例进行说明。

具体地，判别器的作用是判别音频数据或者音频声学特征是否为人造的或者合成的，对真实的音频数据(或者音频声学特征)和合成的音频数据(或者音频声学特征)进行分类。判别器模型通常采用多层的卷积神经网络结构，最后连接上全连接(full connection，FC)层，对音频数据(或者音频声学特征)和合成的音频数据(或者音频声学特征)进行判别。其中，第一音频声学特征即为真实的音频声学特征，第二音频声学特征即为合成的音频声学特征，将两者输入至待训练的判别器中得到判别结果。生成器目的是生成可以欺骗判别器的特征，判别器的目的是判别生成器的输出特征，通过这种对抗学习，能够使生成器的输出结果更加贴近真实的音频数据(或者音频声学特征)。

再次，本申请实施例中，提供了一种基于判别器生成判别结果的方式，通过上述方式，能够训练得到判别器，从而提升方案的可行性和可操作性。

可选地，在上述图7对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第六个可选实施例中，基于第二音频声学特征集合，通过待训练音频生成模型获取音频数据集合，可以包括：

基于第二音频声学特征集合中的第二音频声学特征，通过待训练声码器获取音频数据，其中，待训练声码器属于待训练音频生成模型。

本实施例中，介绍了一种基于声码器生成音频数据的方式，由于对第二音频声学特征集合中各个第二音频声学特征的处理方式类似，故此处仅以获取一个第二音频声学特征为例进行说明。

具体地，声码器的作用是对音频的相关频谱信息进行解码，最终转换成时域波形信号。将第二音频声学特征输入至待训练声码器即可获取音频数据，类似地，在对待训练音频生成模型进行训练的过程中也会训练待训练声码器，最后得到声码器。

再次，本申请实施例中，提供了一种基于声码器生成音频数据的方式，通过上述方式，能够训练得到声码器，从而提升方案的可行性和可操作性。

结合上述介绍，下面将对本申请中语种识别的方法进行介绍，请参阅图10，本申请实施例中语种识别的方法一个实施例包括：

301、获取待识别音频数据；

本实施例中，语种识别装置获取识别音频数据，该语种识别装置可以部署于终端设备，也可以部署于服务器，此处不做限定。可以理解的是，待识别音频数据包含但不仅限于动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，mp3)格式、动态图像专家组(Moving Picture Experts Group，MPEG)格式、音频交换文件格式(Audio Interchange File Format，AIFF)以及微软音频(Windows Media Audio，WMA)格式，此处不做限定。

302、根据待识别音频数据生成音频频域特征；

本实施例中，语种识别装置对待识别音频数据进行预处理，将待识别音频数据转换成序列的特征向量，即得到音频频域特征。通过待识别音频数据的预处理，可以使音频信号更均匀且平滑，为信号参数提取提供优质的参数，从而提高语音处理质量。待识别音频数据的预处理过程主要包括，对待识别音频数据进行预加重、分帧、加窗、频率域转换以及特征提取等。

具体地，本实施例中，介绍了一种生成音频频域特征的方法，语种识别装置需要对待识别音频数据进行预处理，得到音频频域特征。待识别音频数据的预处理过程主要包括，对待识别音频数据进行预加重、分帧、加窗、频率域转换以及特征提取等，下面将进行具体说明。

具体地，预加重是指对待识别音频数据的高频部分加以提升，通常可以采用数字滤波器实现预加重。由于待识别音频数据具有时变特征，但是在一个短时间范围内(如10(millisecond，ms)至30ms)的特性基本保持稳定，因此，可以将待识别音频数据分段来分析其特征，可以将待识别音频数据分为P个音频数据帧。可以理解的是，本申请中的一帧长度可以为20ms至25ms，此处仅为一个示意，在实际应用中还可以取其他的值，此处不做限定。

在对待识别音频数据进行分帧处理之后，还可以进行加窗处理。窗的目的是可以认为是对抽样附近的语音波形加以强调，而对波形的其余部分加以减弱。对待识别音频数据的各个短段进行处理，就是对各个分段进行变换，例如采用三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)等。

频率域转换具体是将时间域上的待识别音频数据转换到频率域上。由于待识别音频数据是不同频率在同一时间的叠加而成的，因此，在时间域上难以体现出不同频率之间的差异，音频分析的时候都需要将时间域的待识别音频数据转换到频率域上进行分析。频率域转换的方式包含但不仅限于快速傅里叶变换(fast Fourier transform，FFT)以及离散傅里叶变换(DiscreteFourier Transform，DFT)。

将待识别音频数据从时域转换到频域后，即可得到音频频域数据，于是需要提取音频频域数据的特征，得到音频频域特征。音频频域特征包括声学特征和音素判别特征。声学特征包含但不仅限于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、滤波器组(Filter Bank，FBank)特征以及线性预测系数(Linear PredictionCoefficient，LPC)特征。音素判别特征是由音素识别器生成的，音素识别器的作用是对P个音频数据帧的音素类别进行识别，音素判别特征包含但不仅限于瓶颈特征以及音素后验概率(Phone Posterior Probability，PPP)特征。

303、基于音频频域特征，通过语种识别模型获取语种分布概率；

本实施例中，语种识别装置在获取到音频频域特征之后，可以将音频频域特征输入至语种识别模型，由该语种识别模型输出待识别音频数据所对应的语种分布概率。

需要说明的是，该语种识别模型的训练方式如上述图4对应的各个实施例所描述的，即对第一语音数据样本集合中的第一待训练语音样本进行语音谱变换，从而得到第二语音数据样本，然后将第二语音数据样本集合中的第二语音数据样本与伴奏数据样本集合中的伴奏数据样本进行叠加，从而生成音频数据样本集合，基于该音频数据样本集合训练得到语种识别模型。具体请参阅图4或者图7所对应的各个实施例，此处不做赘述。

为了便于介绍，请参阅图11，图11为本申请实施例中语种识别模型的一个结构示意图，如图所示，具体地，音频频域特征为将待识别音频数据转换成序列的特征向量，音频频域特征包括声学特征以及音素判别特征中的至少一种。声学特征由语音通过频谱分帧、时频转换以及滤波等操作后生成的，声学特征包含但不仅限于MFCC特征和Fbank特征等。音素判别特征由音素识别器生成，音素识别器用于对当前帧的音素类别进行识别，音素判别特征包含但不仅限于瓶颈特征以及PPP特征等。

在对待识别音频数据进行预处理，得到音频频域特征之后，将音频频域特征输入至语种识别模型的深度卷积神经网络中，由深度卷积神经网络输出音频深度特征。再将音频深度特征输入至池化层，由池化层输出目标特征向量。最后将目标特征向量输入至全连接层分类器，由全连接层分类器输出语种分布概率。池化层包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。

可以理解的是，在实际应用中，还可以采用高斯混合模型(Gaussian mixturemodel，GMM)、高斯混合模型-通用背景模型(Gaussian mixture model-universalbackground model，GMM-UBM)、i-向量(i-vector)加上后端补偿、x-vector加上后端补偿以及端到端神经网络等方式获取语种分布概率，进而得到语种识别结果。

304、根据语种分布概率生成待识别音频数据所对应的语种识别结果。

本实施例中，语种识别装置将待识别音频数据输入至语种识别模型，由语种识别模型输出语种识别结果，语种识别结果可以是“柬埔寨语”、“菲律宾语”或者其他的语种类别，此处不做限定。具体地，语种识别模型可以输出一个语种分布概率，假设有3个分类，分类1为“柬埔寨语”，分类2为“菲律宾语”，分类3为“老挝语”，若语种分布概率为(0.1,0.2,0.7)，即表示语种识别结果有10％的概率为“柬埔寨语”，有20％的概率为“菲律宾语”，有70％的概率为“老挝语”，于是可以将“老挝语”确定为待识别音频数据的语种识别结果。为了便于理解，请参阅图12，图12为本申请实施例中语种识别方法的一个处理流程示意图，如图所示，假设待识别音频数据为歌曲A，对歌曲A进行预处理，得到歌曲A的音频频域特征，然后将歌曲A的音频频域特征输入至语种识别结果，语种识别模型，由此输出语种识别结果可以是歌曲A为“菲律宾语”语种的歌曲。

本申请实施例中，提供了一种语种识别的方法，首先获取待识别音频数据，然后根据待识别音频数据生成音频频域特征，再基于音频频域特征，通过语种识别模型获取语种分布概率，最后根据语种分布概率生成待识别音频数据所对应的语种识别结果。通过上述方式，语种识别模型能够对小语种的歌曲进行语种识别，该语种识别模型可以在低资源条件下建训练，提升模型训练效果，进而增强了语种识别可靠性，提升了歌曲语种识别的准确度。

本申请提出了一种语种识别的方法，为了便于理解，请参阅图13，图13为本申请实施例中语种识别的方法一个整体流程示意图，图13为本申请实施例中语种识别的方法一个整体流程示意图，整个流程分为两个部分，第一部分是基于对抗生成网络的音频生成模型，该部分在训练阶段中，利用少量的音频样本(某个语种的歌曲)经过对抗学习，得到可以生成歌曲或歌曲声学特征的生成器。由此，利用少量歌曲训练得到音频生成模型，再利用音频生成模型生成大量的歌曲样本或歌曲声学特征样本，进而训练得到语种识别模型。在应用阶段(测试阶段)，利用训练好的语种识别模型对输入的测试歌曲进行识别，从而得到语种识别结果。

下面对本申请中的模型训练装置进行详细描述，请参阅图14，图14为本申请实施例中模型训练装置一个实施例示意图，模型训练装置40包括：

获取模块401，用于获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

获取模块401，还用于基于音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

获取模块401，还用于基于随机音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

获取模块401，还用于基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练网络模型中的待训练音频生成模型获取判别结果；

获取模块401，还用于基于第二音频声学特征集合，通过待训练网络模型中的待训练语种识别模型获取预测语种标签；

训练模块402，用于基于获取模块获取的预测语种标签、真实语种标签、第一音频声学特征集合、第二音频声学特征集合以及判别结果，采用目标损失函数对待训练网络模型进行训练，得到目标网络模型，其中，目标网络模型包括音频生成模型以及语种识别模型，音频生成模型包括生成器。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置40的另一实施例中，

获取模块401，具体用于获取音频样本集合以及待合成音频样本集合，其中，待合成音频样本集合包括至少一个待合成音频样本；

获取模块401，具体用于获取待处理音频样本集合以及待合成音频样本集合，其中，待处理音频样本集合包括至少一个待处理音频样本，待合成音频样本集合包括至少一个待合成音频样本；

训练模块402，具体用于基于判别结果、第一音频声学特征集合以及第二音频声学特征集合，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，第一损失函数属于目标损失函数；

下面对本申请中的模型训练装置进行详细描述，请参阅图15，图15为本申请实施例中模型训练装置一个实施例示意图，模型训练装置50包括：

获取模块501，用于获取音频样本集合以及随机音频样本集合，其中，音频样本集合包括至少一个音频样本，随机音频样本集合包括至少一个随机音频样本，音频样本集合对应于真实语种标签；

获取模块501，还用于基于音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，第一音频声学特征集合包括至少一个第一音频声学特征，第一音频声学特征与音频样本具有对应关系；

获取模块501，还用于基于随机音频样本集合，通过待训练音频生成模型获取第二音频声学特征集合，其中，第二音频声学特征集合包括至少一个第二音频声学特征，第二音频声学特征与随机音频样本具有对应关系；

获取模块501，还用于基于第一音频声学特征集合以及第二音频声学特征集合，通过待训练音频生成模型获取判别结果；

获取模块501，还用于基于第二音频声学特征集合，通过待训练音频生成模型获取音频数据集合，其中，音频数据集合包括至少一个音频数据；

训练模块502，用于基于获取模块501获取的音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型，其中，音频生成模型包括生成器。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的模型训练装置50的另一实施例中，

获取模块501，还用于训练模块基于音频数据集合、音频样本集合以及判别结果，采用第一损失函数对待训练音频生成模型进行训练，得到音频生成模型之后，基于音频数据集合，通过待训练语种识别模型获取预测语种标签；

训练模块502，还用于基于获取模块501获取的预测语种标签以及真实语种标签，采用第二损失函数对待训练语种识别模型进行训练，得到语种识别模型。

获取模块501，具体用于获取音频样本集合以及待合成音频样本集合，其中，待合成音频样本集合包括至少一个待合成音频样本；

获取模块501，具体用于获取待处理音频样本集合以及待合成音频样本集合，其中，待处理音频样本集合包括至少一个待处理音频样本，待合成音频样本集合包括至少一个待合成音频样本；

获取模块501，具体用于基于随机音频样本集合中的随机音频样本，通过待训练生成器的卷积神经网络获取音频深度特征，其中，待训练生成器属于待训练音频生成模型；

获取模块501，具体用于基于第一音频声学特征集合中的第一音频声学特征以及第二音频声学特征集合中的第二音频声学特征，通过待训练判别器获取判别结果，其中，待训练判别器属于待训练音频生成模型。

获取模块501，具体用于基于第二音频声学特征集合中的第二音频声学特征，通过待训练声码器获取音频数据，其中，待训练声码器属于待训练音频生成模型。

下面对本申请中的语种识别装置进行详细描述，请参阅图16，图16为本申请实施例中语种识别装置一个实施例示意图，语种识别装置60包括：

获取模块601，用于获取待识别音频数据；

生成模块602，用于根据获取模块601获取的待识别音频数据生成音频频域特征；

获取模块601，还用于基于生成模块602生成的音频频域特征，通过语种识别模型获取语种分布概率；

生成模块602，还用于根据获取模块601获取的语种分布概率生成待识别音频数据所对应的语种识别结果。

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为终端设备，如图17所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图17示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图17，手机包括：射频(Radio Frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图17中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图17对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图17中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图17示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；可选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，可选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器780还具有以下功能：

获取待识别音频数据；

根据待识别音频数据生成音频频域特征；

基于音频频域特征，通过语种识别模型获取语种分布概率；

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为服务器。

图18是本发明实施例提供的一种服务器结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图18所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 822还具有以下功能：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

获取音频样本集合以及随机音频样本集合，其中，所述音频样本集合包括至少一个音频样本，所述随机音频样本集合包括至少一个随机音频样本，所述音频样本集合对应于真实语种标签；

基于所述音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，所述第一音频声学特征集合包括至少一个第一音频声学特征，所述第一音频声学特征与音频样本具有对应关系；

基于所述随机音频样本集合，通过所述待训练网络模型中的所述待训练音频生成模型获取第二音频声学特征集合，其中，所述第二音频声学特征集合包括至少一个第二音频声学特征，所述第二音频声学特征与随机音频样本具有对应关系；

基于所述第一音频声学特征集合以及所述第二音频声学特征集合，通过所述待训练网络模型中的所述待训练音频生成模型获取判别结果；

基于所述第二音频声学特征集合，通过所述待训练网络模型中的待训练语种识别模型获取预测语种标签；

基于所述预测语种标签、所述真实语种标签、所述第一音频声学特征集合、所述第二音频声学特征集合以及所述判别结果，采用目标损失函数对所述待训练网络模型进行训练，得到目标网络模型，其中，所述目标网络模型包括音频生成模型以及语种识别模型，所述音频生成模型包括生成器。

2.根据权利要求1所述的方法，其特征在于，所述获取音频样本集合以及随机音频样本集合，包括：

获取所述音频样本集合以及待合成音频样本集合，其中，所述待合成音频样本集合包括至少一个待合成音频样本；

根据所述待合成音频样本集合以及白噪声集合，生成所述随机音频样本集合，其中，所述白噪声集合包括至少一个白噪声。

3.根据权利要求1所述的方法，其特征在于，所述获取音频样本集合以及随机音频样本集合，包括：

获取待处理音频样本集合以及待合成音频样本集合，其中，所述待处理音频样本集合包括至少一个待处理音频样本，所述待合成音频样本集合包括至少一个待合成音频样本；

根据所述待处理音频样本集合获取音频样本集合，其中，所述音频样本与所述待处理音频样本具有对应关系，且所述音频样本属于声学特征向量；

根据所述待合成音频样本集合以及白噪声集合，生成所述随机音频样本集合，其中，所述白噪声集合包括至少一个白噪声特征向量，所述随机音频样本与所述待合成音频样本具有对应关系，且所述随机音频样本属于声学特征向量。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述预测语种标签、所述真实语种标签、所述第一音频声学特征集合、所述第二音频声学特征集合以及所述判别结果，采用目标损失函数对所述待训练网络模型进行训练，得到目标网络模型，包括：

基于所述判别结果、所述第一音频声学特征集合以及所述第二音频声学特征集合，采用第一损失函数对所述待训练音频生成模型进行训练，得到所述音频生成模型，其中，所述第一损失函数属于所述目标损失函数；

基于所述预测语种标签以及所述真实语种标签，采用第二损失函数对所述待训练语种识别模型进行训练，得到所述语种识别模型，其中，所述第二损失函数属于所述目标损失函数。

5.一种模型训练的方法，其特征在于，包括：

基于所述音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，所述第一音频声学特征集合包括至少一个第一音频声学特征，所述第一音频声学特征与音频样本具有对应关系；

基于所述随机音频样本集合，通过所述待训练音频生成模型获取第二音频声学特征集合，其中，所述第二音频声学特征集合包括至少一个第二音频声学特征，所述第二音频声学特征与随机音频样本具有对应关系；

基于所述第一音频声学特征集合以及所述第二音频声学特征集合，通过所述待训练音频生成模型获取判别结果；

基于所述第二音频声学特征集合，通过所述待训练音频生成模型获取音频数据集合，其中，所述音频数据集合包括至少一个音频数据；

基于所述音频数据集合、所述音频样本集合以及所述判别结果，采用第一损失函数对所述待训练音频生成模型进行训练，得到音频生成模型，其中，所述音频生成模型包括生成器。

6.根据权利要求5所述的方法，其特征在于，所述基于所述音频数据集合、所述音频样本集合以及所述判别结果，采用第一损失函数对所述待训练音频生成模型进行训练，得到音频生成模型之后，所述方法还包括：

基于所述音频数据集合，通过待训练语种识别模型获取预测语种标签；

基于所述预测语种标签以及所述真实语种标签，采用第二损失函数对所述待训练语种识别模型进行训练，得到语种识别模型。

7.根据权利要求5所述的方法，其特征在于，所述获取音频样本集合以及随机音频样本集合，包括：

8.根据权利要求5所述的方法，其特征在于，所述获取音频样本集合以及随机音频样本集合，包括：

9.根据权利要求5至8中任一项所述的方法，其特征在于，所述基于所述随机音频样本集合，通过所述待训练音频生成模型获取第二音频声学特征集合，包括：

基于所述随机音频样本集合中的所述随机音频样本，通过待训练生成器的卷积神经网络获取音频深度特征，其中，所述待训练生成器属于所述待训练音频生成模型；

基于所述音频深度特征，通过所述待训练生成器的逆卷积神经网络获取所述第二音频声学特征。

10.根据权利要求5至8中任一项所述的方法，其特征在于，所述基于所述第一音频声学特征集合以及所述第二音频声学特征集合，通过所述待训练音频生成模型获取判别结果，包括：

基于所述第一音频声学特征集合中的所述第一音频声学特征以及所述第二音频声学特征集合中的第二音频声学特征，通过待训练判别器获取判别结果，其中，所述待训练判别器属于所述待训练音频生成模型。

11.根据权利要求5至8中任一项所述的方法，其特征在于，所述基于所述第二音频声学特征集合，通过所述待训练音频生成模型获取音频数据集合，包括：

基于所述第二音频声学特征集合中的所述第二音频声学特征，通过待训练声码器获取所述音频数据，其中，所述待训练声码器属于所述待训练音频生成模型。

12.一种语种识别的方法，其特征在于，包括：

获取待识别音频数据；

根据所述待识别音频数据生成音频频域特征；

基于所述音频频域特征，通过语种识别模型获取语种分布概率，其中，所述语种识别模型为采用上述权利要求1至4中任一项方法训练得到的，或，所述语种识别模型为采用上述权利要求5至11中任一项方法训练得到的；

根据所述语种分布概率生成所述待识别音频数据所对应的语种识别结果。

13.一种模型训练装置，其特征在于，包括：

获取模块，用于获取音频样本集合以及随机音频样本集合，其中，所述音频样本集合包括至少一个音频样本，所述随机音频样本集合包括至少一个随机音频样本，所述音频样本集合对应于真实语种标签；

所述获取模块，还用于基于所述音频样本集合，通过待训练网络模型中的待训练音频生成模型获取第一音频声学特征集合，其中，所述第一音频声学特征集合包括至少一个第一音频声学特征，所述第一音频声学特征与音频样本具有对应关系；

所述获取模块，还用于基于所述随机音频样本集合，通过所述待训练网络模型中的所述待训练音频生成模型获取第二音频声学特征集合，其中，所述第二音频声学特征集合包括至少一个第二音频声学特征，所述第二音频声学特征与随机音频样本具有对应关系；

所述获取模块，还用于基于所述第一音频声学特征集合以及所述第二音频声学特征集合，通过所述待训练网络模型中的所述待训练音频生成模型获取判别结果；

所述获取模块，还用于基于所述第二音频声学特征集合，通过所述待训练网络模型中的待训练语种识别模型获取预测语种标签；

训练模块，用于基于所述获取模块获取的所述预测语种标签、所述真实语种标签、所述第一音频声学特征集合、所述第二音频声学特征集合以及所述判别结果，采用目标损失函数对所述待训练网络模型进行训练，得到目标网络模型，其中，所述目标网络模型包括音频生成模型以及语种识别模型，所述音频生成模型包括生成器。

14.一种模型训练装置，其特征在于，包括：

所述获取模块，还用于基于所述音频样本集合，通过待训练音频生成模型获取第一音频声学特征集合，其中，所述第一音频声学特征集合包括至少一个第一音频声学特征，所述第一音频声学特征与音频样本具有对应关系；

所述获取模块，还用于基于所述随机音频样本集合，通过所述待训练音频生成模型获取第二音频声学特征集合，其中，所述第二音频声学特征集合包括至少一个第二音频声学特征，所述第二音频声学特征与随机音频样本具有对应关系；

所述获取模块，还用于基于所述第一音频声学特征集合以及所述第二音频声学特征集合，通过所述待训练音频生成模型获取判别结果；

所述获取模块，还用于基于所述第二音频声学特征集合，通过所述待训练音频生成模型获取音频数据集合，其中，所述音频数据集合包括至少一个音频数据；

训练模块，用于基于所述获取模块获取的所述音频数据集合、所述音频样本集合以及所述判别结果，采用第一损失函数对所述待训练音频生成模型进行训练，得到音频生成模型，其中，所述音频生成模型包括生成器。

15.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至4中任一项所述的方法，或，执行如上述权利要求5至11中任一项所述的方法，或，执行如上述权利要求12所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。