CN110838286A

CN110838286A - 一种模型训练的方法、语种识别的方法、装置及设备

Info

Publication number: CN110838286A
Application number: CN201911137419.0A
Authority: CN
Inventors: 高骥; 黄申; 张姗姗; 巫海维; 蔡炜城; 李明
Original assignee: Duke University Of Kunshan; Tencent Technology Shenzhen Co Ltd
Current assignee: Duke University Of Kunshan; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-02-25
Anticipated expiration: 2039-11-19
Also published as: CN110838286B

Abstract

本申请公开了一种模型训练的方法，包括：获取第一语音数据样本集合，第一语音数据样本具有已标注的真实语种标签；根据第一语音数据样本集合生成第二语音数据样本集合，第二语音数据样本为第一语音数据样本经过基频随机变换后得到的；根据第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合；基于音频数据样本集合，通过待训练语种识别模型获取预测语种标签；基于真实语种标签以及预测语种标签，采用损失函数对待训练语种识别模型进行训练，得到语种识别模型。本申请还公开了一种语种识别的方法及装置。本申请可以实现零资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

Description

一种模型训练的方法、语种识别的方法、装置及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种模型训练的方法、语种识别的方法、装置及设备。

背景技术

随着现代社会信息的全球化，语种识别成为语音识别技术研究热点之一。语种识别技术能够制造一种模仿人的思维对语音进行语种辨识的机器，从语音信号中提取出各语种的差异信息，并以此为依据判断所属语种。

对歌曲语种的识别属于语音信息处理中的语种识别范畴。目前，对歌曲语种进行识别的方法为，将歌曲直接输入至语音识别的通用引擎中，该通用引擎从歌曲的语音学特征中对歌曲的语种进行分类识别。

然而，对于一些比较小众的语种而言，这类语种的歌曲数据往往较难获取，因此，在训练语音识别模型的过程中，由于缺乏歌曲数据的资源，而导致模型训练的效果较差，从而降低了语种识别的准确度和可靠性。

发明内容

本申请实施例提供了一种模型训练的方法、语种识别的方法、装置及设备，可以实现零资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

有鉴于此，本申请第一方面提供一种模型训练的方法，包括：

获取第一语音数据样本集合，其中，所述第一语音数据样本集合包括至少一个第一语音数据样本，所述第一语音数据样本具有已标注的真实语种标签；

根据所述第一语音数据样本集合生成第二语音数据样本集合，其中，所述第二语音数据样本集合包括至少一个第二语音数据样本，所述第二语音数据样本为所述第一语音数据样本经过基频随机变换后得到的；

根据所述第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，其中，所述音频数据样本集合包括至少一个音频数据样本；

基于所述音频数据样本集合，通过待训练语种识别模型获取预测语种标签；

基于所述真实语种标签以及所述预测语种标签，采用损失函数对所述待训练语种识别模型进行训练，得到语种识别模型。

本申请第二方面提供一种语种识别的方法，包括：

获取待识别音频数据；

根据所述待识别音频数据生成音频频域特征；

基于所述音频频域特征，通过语种识别模型获取语种分布概率，其中，所述语种识别模型为采用上述第一方面中任一项方法训练得到的；

根据所述语种分布概率生成所述待识别音频数据所对应的语种识别结果。

本申请第三方面提供一种模型训练装置，包括：

获取模块，用于获取第一语音数据样本集合，其中，所述第一语音数据样本集合包括至少一个第一语音数据样本，所述第一语音数据样本具有已标注的真实语种标签；

生成模块，用于根据所述获取模块获取的所述第一语音数据样本集合生成第二语音数据样本集合，其中，所述第二语音数据样本集合包括至少一个第二语音数据样本，所述第二语音数据样本为所述第一语音数据样本经过基频随机变换后得到的；

所述生成模块，还用于根据所述第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，其中，所述音频数据样本集合包括至少一个音频数据样本；

所述获取模块，还用于基于所述生成模块生成的所述音频数据样本集合，通过待训练语种识别模型获取预测语种标签；

训练模块，用于基于所述真实语种标签以及所述获取模块获取的所述预测语种标签，采用损失函数对所述待训练语种识别模型进行训练，得到语种识别模型。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述生成模块，具体用于对所述第一语音数据样本集合中的N个第一语音数据样本进行基频的随机变换，得到所述第二语音数据样本集合，其中，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

所述生成模块，具体用于基于所述第一语音数据样本集合，通过语音变换模型获取所述第二语音数据样本集合，其中，所述第一语音数据样本集合包括N个第一语音数据样本，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述生成模块，具体用于将所述第二语音数据样本集合中的N个第二语音数据样本集与所述伴奏数据样本集合中的M个伴奏数据样本进行组合，得到所述音频数据样本集合，其中，所述音频数据样本集合包括Q个音频数据样本，所述N为大于或等于1的整数，所述M为大于或等于1的整数，所述Q为大于或等于1，且小于或等于(N*M)的整数。

本申请第四方面提供一种语种识别装置，包括：

获取模块，用于获取待识别音频数据；

生成模块，用于根据所述获取模块获取的所述待识别音频数据生成音频频域特征；

所述获取模块，还用于基于所述生成模块生成的所述音频频域特征，通过语种识别模型获取语种分布概率，其中，所述语种识别模型为采用上述第一方面中任一项方法训练得到的；

所述生成模块，还用于根据所述获取模块获取的所述语种分布概率生成所述待识别音频数据所对应的语种识别结果。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述生成模块，具体用于对所述待识别音频数据进行分帧处理，得到P个音频数据帧，其中，所述待识别音频数据属于音频时域信号，所述P为大于或等于1的整数；

根据所述P个音频数据帧生成声学特征，其中，所述声学特征属于频域特征；

根据所述P个音频数据帧生成音素判别特征；

根据所述声学特征以及所述音素判别特征，生成所述音频频域特征。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过所述语种识别模型获取音频深度特征；

基于所述音频深度特征，通过所述语种识别模型获取目标特征向量；

基于所述目标特征向量，通过所述语种识别模型获取所述语种分布概率。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过所述语种识别模型所包括的残差神经网络获取所述音频深度特征；

或，

基于所述音频频域特征，通过所述语种识别模型所包括的密集卷积网络获取所述音频深度特征。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

所述获取模块，具体用于基于所述音频深度特征，通过所述语种识别模型所包括的池化层获取所述目标特征向量，其中，所述池化层包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

所述获取模块，具体用于基于所述目标特征向量，通过所述语种识别模型所包括的全连接层获取语种分布矩阵；

基于所述语种分布矩阵量，通过所述语种识别模型所包括的激活层获取所述语种分布概率。

本申请第五方面提供一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述第一方面中任一项所述的方法，或，执行如上述第二方面中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请的第六方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种模型训练的方法，首先获取第一语音数据样本集合，第一语音数据样本具有已标注的真实语种标签，然后根据第一语音数据样本集合生成第二语音数据样本集合，第二语音数据样本为第一语音数据样本经过基频随机变换后得到的，再根据第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，基于音频数据样本集合，通过待训练语种识别模型获取预测语种标签，根据真实语种标签以及预测语种标签确定损失函数，最后基于损失函数训练待训练语种识别模型，得到语种识别模型。通过上述方式，对于一些小众语种的歌曲而言，在难以获取到该语种的歌曲的情况下，可以对小众语种的语音数据样本进行基频随机变换，模拟得到该小众语种的清唱样本，结合伴奏数据样本生成用于模型训练的音频数据样本，从而实现零资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

附图说明

图1为本申请实施例中歌曲语种分类功能的一个界面示意图；

图2为本申请实施例中歌曲语种识别功能的一个界面示意图；

图3为本申请实施例中语种识别系统的一个架构示意图；

图4为本申请实施例中模型训练的方法一个实施例示意图；

图5为本申请实施例中训练语种识别模型的一个实施例示意图；

图6为本申请实施例中基于语种识别模型训练方法的一个处理流程示意图；

图7为本申请实施例中基于谱变换获取音频数据样本的一个实施例示意图；

图8为本申请实施例中基于谱变换获取音频数据样本的另一个实施例示意图；

图9为本申请实施例中生成音频数据样本的一个实施例示意图；

图10为本申请实施例中语种识别的方法一个实施例示意图；

图11为本申请实施例中语种识别方法的一个处理流程示意图；

图12为本申请实施例中语种识别模型的一个结构示意图；

图13为本申请实施例中语种识别的方法一个整体流程示意图；

图14为本申请实施例中模型训练装置的一个实施例示意图；

图15为本申请实施例中语种识别装置的一个实施例示意图；

图16为本申请实施例中终端设备的一个结构示意图；

图17为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的方法可以基于人工智能(Artificial Intelligence，AI)的语音技术(Speech Technology)来实现语种识别，并且可以基于人工智能机器学习(Machine Learning，ML)来实现模型训练。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术(VoiceprintRecognition)等。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中，语音成为未来最被看好的人机交互方式之一。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

应理解，本申请提供的语种识别方法具体可以应用于音乐类应用的歌曲语种识别场景，音乐类应用是指具有音乐推荐功能的播放器，同时可以支持在线音乐和本地音乐的播放，在音乐类应用中通常设置有专业的分类，分类包含但不仅限于主题分类(如网络歌曲、情歌以及儿歌等)、场景分类(如婚礼、校园以及运动等)、心情分类(如伤感、快乐以及甜蜜等)、年代分类(如80年代、90年代以及00年代等)和流派分类(如流行、说唱以及摇滚等)，其中，语种分类能够帮助用户更快且更准确地找到大量不同语种的歌曲。

可选地，下面将以歌曲语种分类功能为例进行介绍，为了便于介绍，请参阅图1，图1为本申请实施例中歌曲语种分类功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前支持的小语种分类，例如柬埔寨语、越南语、朝鲜语、缅甸语、乌尔都语、老挝语、阿拉伯语、波斯语以及匈牙利语，当用户选择其中一个小语种的分类时，即可触发该分类所对应的模块，如“阿拉伯语”，由此进入“阿拉伯语”分类下的歌曲列表。由于歌曲数量庞大，因此，在对歌曲进行语种分类的过程中，通过本申请提供的语种识别模型实现歌曲的语种分类，即在后台获取大量的歌曲，对每个歌曲进行预处理，然后将预处理后的歌曲输入至语种识别模型，从而得到每个歌曲的语种识别结果，如“阿拉伯语”。至此，完成歌曲语种的分类。

可选地，下面将以歌曲语种识别功能为例进行介绍，为了便于介绍，请参阅图2，图2为本申请实施例中歌曲语种识别功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前播放歌曲的语种类型，如当前播放歌曲“ABCDE”，当用户想了解这首歌曲的语种时，可以触发界面中的“语种识别”模块。此时，可通过本申请提供的语种识别模型实现歌曲的语种分类，即对歌曲“ABCDE”进行预处理，然后将预处理后的歌曲输入至语种识别模型，得到歌曲“ABCDE”的语种识别结果，如“越南语”，至此，完成对歌曲语种的识别。

为了便于理解，本申请提出了一种语种识别的方法，该方法应用于图3所示的语种识别系统，请参阅图3，图3为本申请实施例中语种识别系统的一个架构示意图，如图所示，首先需要训练得到语种识别模型，由于小语种的歌曲可能非常少，甚至没有该语种的歌曲，因此，在训练的过程中，需要采用语音谱变换技术处理语音数据样本，再与伴奏数据样本叠加合成，生成音频数据样本(如歌曲数据)。指定语种的音频数据样本难以收集，但是指定语种的说话语音数据样本收集与标注难度都非常低，所以可以利用指定语种的人说话语音数据样本进行一定技术处理，生成指定语种的音频数据样本(如歌曲数据)。人说话的语音数据样本音调较为平缓，且韵律变化不明显，因此，需要将语音数据样本进行基频的随机变换，模拟生成人声清唱的语音数据样本，再将人声清唱的语音数据样本与伴奏数据样本(即背景音乐)的纯音乐数据进行混合叠加，生成指定语种的音频数据样本(如歌曲数据)。

本申请使用语种识别模型对音频数据进行识别。识别的音频数据可以是一首完整的歌曲、一段歌曲、戏曲、音乐短片(Music Video，MV)以及其他类型的音频，此处不做限定。在识别的过程中，可以分为两种实现方式，分别为在线处理和离线处理。下面将分别进行说明：在线处理时，语种识别模型存储于服务器，客户端收集待识别音频数据之后，将待识别音频数据传输至服务器，由服务器采用语种识别模型对待识别音频数据进行语种识别，得到语种识别结果。离线处理时，语种识别模型存储于终端设备本地，客户端收集待识别音频数据之后，将输入至本地存储的语种识别模型对待识别音频数据进行语种识别，得到语种识别结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，下面将对本申请中模型训练的方法进行介绍，请参阅图4，本申请实施例中模型训练的方法一个实施例包括：

101、获取第一语音数据样本集合，其中，第一语音数据样本集合包括至少一个第一语音数据样本，第一语音数据样本具有已标注的真实语种标签；

本实施例中，模型训练装置获取第一语音数据样本集合，模型训练装置可以部署于终端设备，也可以部署于服务器，此处不做限定。第一语音数据样本集合包括至少一个第一语音数据样本，其中，第一语音数据样本可以是较为平缓的说话语音。需要说明的是，这里的第一语音数据样本通常为小语种的说话语音，这类说话语音较易获取，然而该小语种所对应的音频(如歌曲数据)难以获取。第一语音数据样本具有已标注的真实语种标签，比如“柬埔寨语”、“越南语”或者“缅甸语”等，此处不做限定。

102、根据第一语音数据样本集合生成第二语音数据样本集合，其中，第二语音数据样本集合包括至少一个第二语音数据样本，第二语音数据样本为第一语音数据样本经过基频随机变换后得到的；

本实施例中，模型训练装置对第一语音数据样本集合中的第一待训练语音样本进行语音谱变换，从而得到第二语音数据样本，语音谱变换可以理解为对语音数据进行基频的随机变换。第二语音数据样本是模拟生成的人声清唱数据，这些第二语音数据样本构成第二语音数据样本集合。语音谱变换是指在语音谱特征上进行频率域变换。

103、根据第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，其中，音频数据样本集合包括至少一个音频数据样本；

本实施例中，模型训练装置将第二语音数据样本集合中的第二语音数据样本与伴奏数据样本集合中的伴奏数据样本进行叠加，从而生成音频数据样本集合，该音频数据样本集合包括至少一个音频数据样本。具体地，假设第一语音数据样本是一段3分钟的柬埔寨语说话语音(即第一语音数据样本)，经过语音谱变换之后得到一段3分钟的柬埔寨语的模拟人生清唱(即第二语音数据样本)，再将这段3分钟的模拟人生清唱与一段3分钟的伴奏数据样本进行叠加，从而得到一段3分钟的音频数据样本。可以理解的是，上述例子仅为一个示意，在实际应用中，还可以融合得到其他时间长度的音频数据样本，且音频数据样本的时间长度可以与第二语音数据样本不一致，此处不做限定。

104、基于音频数据样本集合，通过待训练语种识别模型获取预测语种标签；

本实施例中，模型训练装置将音频数据样本集合输入至待训练语种识别模型，由待训练语种识别模型输出音频数据样本集合中各个音频数据样本所对应的预测语种标签。为了便于理解，请参阅图5，图5为本申请实施例中训练语种识别模型的一个实施例示意图，如图所示，音频数据样本集合通常包括多个音频数据样本，每个音频数据样本是由第二语音数据样本和伴奏数据样本叠加而成的，将每个音频数据样本输入至待训练语种识别模型，由待训练语种识别模型分别输出每个音频数据样本所对应的预测语种标签。

105、基于真实语种标签以及预测语种标签，采用损失函数对待训练语种识别模型进行训练，得到语种识别模型。

本实施例中，模型训练装置将预测得到的预测语种标签与已标注的真实语种标签进行比对，具体可以采用回归损失函数进行计算，如采用平均平方误差(mean-squareerror，MSE)进行计算预测语种标签与真实语种标签的损失值：

其中，L表示MSE损失函数，N表示音频数据样本集合中音频数据样本的数量，i表示第i个音频数据样本，y_i表示第i个音频数据样本所对应的真实语种标签，

表示第i个音频数据样本所对应的预测语种标签。

可选地，对于有正样本和负样本的情况，还可以采用三重损失函数(Tripletloss)或者对比损失函数(Contrastive loss)进行计算。

具体地，当损失函数收敛时，模型训练装置即可采用当前待训练语种识别模型的模型参数作为最终使用的模型参数，从而得到语种识别模型。可选地，设置训练次数上限，假设训练次数上线为十万次，那么在达到十万次的训练次数时，模型训练装置即可采用第十万次训练模型的模型参数作为语种识别模型的模型参数。

为了便于理解，请参阅图6，图6为本申请实施例中基于语种识别模型训练方法的一个处理流程示意图，如图所示，以一个音频数据样本为例进行说明，首先将第一语音数据样本进行语音谱变换，得到第二语音数据样本，然后将第二语音数据样本与伴奏数据样本进行叠加，得到音频数据样本，再将该音频数据样本输入至待训练的语种识别模型，由该待训练的语种识别模型输出预测语种标签，最后基于预测语种标签和真实语种标签对待训练的语种识别模型进行训练，从而得到语种识别模型。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，根据第一语音数据样本集合生成第二语音数据样本集合，可以包括：

对第一语音数据样本集合中的N个第一语音数据样本进行基频的随机变换，得到第二语音数据样本集合，其中，第二语音数据样本集合包括N个第二语音数据样本，第二语音数据样本与第一语音数据样本具有对应的关系，N为大于或等于1的整数。

本实施例中，介绍了一种获取第二语音数据样本的方法，在训练时需要将平滑的第一语音数据样本变换为模拟清唱的第二语音数据样本。频率域变换的目的是由于人们通过声带的震动发出声音，这种声带震动的频率称为基音频率，相应的周期称为基音周期。基音周期是语音信号处理中描述激励源的重要参数之一。在语音中，基音周期的变化成为声调。在人们日常讲话中，声调的变化是较为平缓的。而在歌曲中，人们随着伴奏唱出的歌词通常有着较大的声调变化，且相同字词在唱歌与讲话中也存在一定差异。

由于小语种的歌曲数据很少，甚至没有这类语种的歌曲数据，但是小语种的语音数据方便获取，且数据量较大，但是语音数据与清唱数据又存在声调等方面的差异，因此，需要将语音数据通过语音谱变换生成音频数据。

为了便于介绍，请参阅图7，图7为本申请实施例中基于谱变换获取音频数据样本的一个实施例示意图，如图所示，具体地，针对零资源(即没有多语种歌曲数据)的情况下，可以先获取第一语音数据样本(如柬埔寨语的说话语音)，然后采用语音谱变换技术处理第一语音数据样本，得到第二语音数据样本(如柬埔寨语的清唱语音)，语音谱变换技术是指在维持说话人语言内容不变的情况下,将源说话人声音的个性特征进行转化,使得变换后的语音更贴近目标人语音。假设第一语音数据样本集合中包括N个第一语音数据样本，对每个第一语音数据样本经过基频的随机变换后得到第二语音数据样本，由此得到N个第二语音数据样本。将N个第二语音数据样本与M个伴奏数据样本(比如“晴天”这首歌曲的伴奏)进行叠加组合，合成音频数据样本。

可以理解的是，语音谱变换技术包含但不仅限于矢量量化、高斯混合、线性多变量回归以及神经网络模型。

人说话的语音数据音调较为平缓，且韵律变化不明显，可以将语音数据进行基频的随机变换，模拟生成人声清唱的数据，再将这部分数据与背景音乐的纯音乐数据进行混合叠加，生成指定语种的歌曲数据。

需要说明的是，说话语音由于音调变化较为平缓、且有一定规律性，而清唱数据的音调变化较为剧烈，从生理角度，人清唱时候就是将语音的音调按照歌曲的形式增加音调变化，而其发音的文字内容等没发生变化，从信号的角度讲，可以简单的理解为语音的基频变化平稳、清唱的基频变化较为剧烈，而其他谐波分量未发生较大变化，我们将语音数据的基频进行随机变换，就模拟了人清唱的过程，整个信号的其他内容没有改变，只对音调进行了随机变化。

其次，本申请实施例中，提供了一种获取第二语音数据样本的方法，即对第一语音数据样本集合中的N个第一语音数据样本进行基频的随机变换，得到第二语音数据样本集合。通过上述方式，可以直接对第一语音数据样本进行基频的随机变换，形成人声清唱的模拟数据，再将人声清唱的模拟数据与伴奏数据进行叠加，即可模拟得到歌曲数据，从而提升方案的可行性和可操作性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第二个可选实施例中，根据第一语音数据样本集合生成第二语音数据样本集合，可以包括：

基于第一语音数据样本集合，通过语音变换模型获取第二语音数据样本集合，其中，第一语音数据样本集合包括N个第一语音数据样本，第二语音数据样本集合包括N个第二语音数据样本，第二语音数据样本与第一语音数据样本具有对应的关系，N为大于或等于1的整数。

本实施例中，介绍了另一种获取第二语音数据样本的方法，在训练时需要将平滑的第一语音数据样本通过语音变换模型变换为模拟清唱的第二语音数据样本。频率域变换的目的是由于人们通过声带的震动发出声音，这种声带震动的频率称为基音频率，相应的周期称为基音周期。基音周期是语音信号处理中描述激励源的重要参数之一。在语音中，基音周期的变化成为声调。在人们日常讲话中，声调的变化是较为平缓的。而在歌曲中，人们随着伴奏唱出的歌词通常有着较大的声调变化，且相同字词在唱歌与讲话中也存在一定差异。由于小语种的歌曲数据很少，甚至没有这类语种的歌曲数据，但是小语种的语音数据方便获取，且数据量较大，但是语音数据与清唱数据又存在声调等方面的差异，因此，需要将语音数据通过语音谱变换生成音频数据。

为了便于介绍，请参阅图8，图8为本申请实施例中基于谱变换获取音频数据样本的另一个实施例示意图，如图所示，具体地，针对零资源(即没有多语种歌曲数据)的情况下，可以先获取第一语音数据样本(如柬埔寨语的说话语音)，然后将第一语音数据样本输入至语音变换模型，由语音变换模型输出对应的第二语音数据样本(如柬埔寨语的清唱语音)，假设第一语音数据样本集合中包括N个第一语音数据样本，对每个第一语音数据样本经过基频的随机变换后得到第二语音数据样本，由此得到N个第二语音数据样本。将N个第二语音数据样本与M个伴奏数据样本(比如“晴天”这首歌曲的伴奏)进行叠加组合，合成音频数据样本。

可以理解的是，语音变换模型可以是径向基函数(Radial Basis Function，RBF)神经网络，该径向基函数神经网络的核函数参数通常采纳K均值聚类进行训练，RBF神经网络训练简洁且学习收敛速度快。RBF神经网络通常包含3层结构，即只有一个隐藏层，输入层是由至少一个感知单元组成，表示信源节点输入，输入层仅起到输入数据的作用。隐藏层含有至少一个径向基神经元，将低维非线性可分的输入映射到高维线性可分的空间，隐藏层节点的激活函数对输入局部响应，当输入靠近基函数中央范围时，隐藏层节点将产生较大的输出。输出层含有至少一个线性神经元，最终的输出是隐藏层神经元输出的线性加权和。

其次，本申请实施例中，提供了另一种获取第二语音数据样本的方法，即基于第一语音数据样本集合，通过语音变换模型获取第二语音数据样本集合。通过上述方式，由网络模型实现基频的随机变换，形成人声清唱的模拟数据，再将人声清唱的模拟数据与伴奏数据进行叠加，即可模拟得到歌曲数据，从而提升方案的可行性和可操作性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第三个可选实施例中，根据第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，可以包括：

将第二语音数据样本集合中的N个第二语音数据样本集与伴奏数据样本集合中的M个伴奏数据样本进行组合，得到音频数据样本集合，其中，音频数据样本集合包括Q个音频数据样本，N为大于或等于1的整数，M为大于或等于1的整数，Q为大于或等于1，且小于或等于(N*M)的整数。

本实施例中，介绍了一种生成音频数据样本的方法，在获取到第二语音数据样本集合和伴奏数据样本集合之后，可以生成音频数据样本集合。假设第二语音数据样本集合包括N个第二语音数据样本，伴奏数据样本集合包括M个伴奏数据样本，将N个第二语音数据样本和M个伴奏数据样本进行随机组合，最多可以得到(N*M)种组合，即最多可以得到(N*M)个音频数据样本。

为了便于理解，请参阅图9，图9为本申请实施例中生成音频数据样本的一个实施例示意图，如图所示，具体地，假设第二语音数据样本集合包括3个第二语音数据样本，分别为柬埔寨语的语种数据样本、菲律宾语的语种数据样本以及老挝语的语种数据样本，伴奏数据样本集合包括4个伴奏数据样本，分别为伴奏数据样本A、伴奏数据样本B、伴奏数据样本C和伴奏数据样本D，将第二语音数据样本与伴奏数据样本进行随机组合，可以得到Q个音频数据样本，Q小于或等于12。请参阅表1，表1为音频数据样本的一个组合方式示意。

表1

第二语音数据样本集合	伴奏数据样本集合	音频数据样本集合
			柬埔寨语的语种数据样本	伴奏数据样本A	音频数据样本1
柬埔寨语的语种数据样本	伴奏数据样本B	音频数据样本2
			柬埔寨语的语种数据样本	伴奏数据样本C	音频数据样本3
柬埔寨语的语种数据样本	伴奏数据样本D	音频数据样本4
			菲律宾语的语种数据样本	伴奏数据样本A	音频数据样本5
菲律宾语的语种数据样本	伴奏数据样本B	音频数据样本6
			菲律宾语的语种数据样本	伴奏数据样本C	音频数据样本7
菲律宾语的语种数据样本	伴奏数据样本D	音频数据样本8
			老挝语的语种数据样本	伴奏数据样本A	音频数据样本9
老挝语的语种数据样本	伴奏数据样本B	音频数据样本10
			老挝语的语种数据样本	伴奏数据样本C	音频数据样本11
老挝语的语种数据样本	伴奏数据样本D	音频数据样本12

基于图9和表1可知，将N个第二语音数据样本和M个伴奏数据样本进行随机组合，最多可以得到(N*M)个音频数据样本。

再次，本申请实施例中，提供了一种生成音频数据样本的方法，将第二语音数据样本集合中的N个第二语音数据样本集与伴奏数据样本集合中的M个伴奏数据样本进行组合，得到音频数据样本集合，通过上述方式，能够随机组合成音频数据样本，且最多可以组合得到(N*M)个音频数据样本，从而使得音频数据样本集合中的音频数据样本更加多元化，进而提升模型训练的可靠性和准确度。

结合上述介绍，下面将对本申请中语种识别的方法进行介绍，请参阅图10，本申请实施例中语种识别的方法一个实施例包括：

201、获取待识别音频数据；

本实施例中，语种识别装置获取识别音频数据，该语种识别装置可以部署于终端设备，也可以部署于服务器，此处不做限定。可以理解的是，待识别音频数据包含但不仅限于动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，mp3)格式、动态图像专家组(Moving Picture Experts Group，MPEG)格式、音频交换文件格式(Audio Interchange File Format，AIFF)以及微软音频(Windows Media Audio，WMA)格式，此处不做限定。

202、根据待识别音频数据生成音频频域特征；

本实施例中，语种识别装置对待识别音频数据进行预处理，将待识别音频数据转换成序列的特征向量，即得到音频频域特征。通过待识别音频数据的预处理，可以使音频信号更均匀且平滑，为信号参数提取提供优质的参数，从而提高语音处理质量。待识别音频数据的预处理过程主要包括，对待识别音频数据进行预加重、分帧、加窗、频率域转换以及特征提取等。

203、基于音频频域特征，通过语种识别模型获取语种分布概率；

本实施例中，语种识别装置在获取到音频频域特征之后，可以将音频频域特征输入至语种识别模型，由该语种识别模型输出待识别音频数据所对应的语种分布概率。

需要说明的是，该语种识别模型的训练方式如上述图4对应的各个实施例所描述的，即对第一语音数据样本集合中的第一待训练语音样本进行语音谱变换，从而得到第二语音数据样本，然后将第二语音数据样本集合中的第二语音数据样本与伴奏数据样本集合中的伴奏数据样本进行叠加，从而生成音频数据样本集合，基于该音频数据样本集合训练得到语种识别模型。具体请参阅图4所对应的各个实施例，此处不做赘述。

204、根据语种分布概率生成待识别音频数据所对应的语种识别结果。

本实施例中，语种识别装置将待识别音频数据输入至语种识别模型，由语种识别模型输出语种识别结果，语种识别结果可以是“柬埔寨语”、“菲律宾语”或者其他的语种类别，此处不做限定。具体地，语种识别模型可以输出一个语种分布概率，假设有3个分类，分类1为“柬埔寨语”，分类2为“菲律宾语”，分类3为“老挝语”，若语种分布概率为(0.1,0.2,0.7)，即表示语种识别结果有10％的概率为“柬埔寨语”，有20％的概率为“菲律宾语”，有70％的概率为“老挝语”，于是可以将“老挝语”确定为待识别音频数据的语种识别结果。

为了便于理解，请参阅图11，图11为本申请实施例中语种识别方法的一个处理流程示意图，如图所示，假设待识别音频数据为歌曲A，对歌曲A进行预处理，得到歌曲A的音频频域特征，然后将歌曲A的音频频域特征输入至语种识别结果，语种识别模型，由此输出语种识别结果可以是歌曲A为“菲律宾语”语种的歌曲。

本申请实施例中，提供了一种语种识别的方法，首先获取待识别音频数据，然后根据待识别音频数据生成音频频域特征，再基于音频频域特征，通过语种识别模型获取语种分布概率，最后根据语种分布概率生成待识别音频数据所对应的语种识别结果。通过上述方式，语种识别模型能够对小语种的歌曲进行语种识别，该语种识别模型可以在零资源条件下建训练，提升模型训练效果，进而增强了语种识别可靠性，提升了歌曲语种识别的准确度。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第一个可选实施例中，根据待识别音频数据生成音频频域特征，可以包括：

对待识别音频数据进行分帧处理，得到P个音频数据帧，其中，待识别音频数据属于音频时域信号，P为大于或等于1的整数；

根据P个音频数据帧生成声学特征，其中，声学特征属于频域特征；

根据P个音频数据帧生成音素判别特征；

根据声学特征以及音素判别特征，生成音频频域特征。

本实施例中，介绍了一种生成音频频域特征的方法，语种识别装置需要对待识别音频数据进行预处理，得到音频频域特征。待识别音频数据的预处理过程主要包括，对待识别音频数据进行预加重、分帧、加窗、频率域转换以及特征提取等，下面将进行具体说明。

具体地，预加重是指对待识别音频数据的高频部分加以提升，通常可以采用数字滤波器实现预加重。由于待识别音频数据具有时变特征，但是在一个短时间范围内(如10(millisecond，ms)至30ms)的特性基本保持稳定，因此，可以将待识别音频数据分段来分析其特征，可以将待识别音频数据分为P个音频数据帧。可以理解的是，本申请中的一帧长度可以为20ms至25ms，此处仅为一个示意，在实际应用中还可以取其他的值，此处不做限定。

在对待识别音频数据进行分帧处理之后，还可以进行加窗处理。窗的目的是可以认为是对抽样附近的语音波形加以强调，而对波形的其余部分加以减弱。对待识别音频数据的各个短段进行处理，就是对各个分段进行变换，例如采用三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)等。

频率域转换具体是将时间域上的待识别音频数据转换到频率域上。由于待识别音频数据是不同频率在同一时间的叠加而成的，因此，在时间域上难以体现出不同频率之间的差异，音频分析的时候都需要将时间域的待识别音频数据转换到频率域上进行分析。频率域转换的方式包含但不仅限于快速傅里叶变换(fast Fourier transform，FFT)以及离散傅里叶变换(DiscreteFourier Transform，DFT)。

将待识别音频数据从时域转换到频域后，即可得到音频频域数据，于是需要提取音频频域数据的特征，得到音频频域特征。音频频域特征包括声学特征和音素判别特征。声学特征包含但不仅限于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、滤波器组(Filter Bank，FBank)特征以及线性预测系数(Linear PredictionCoefficient，LPC)特征。音素判别特征是由音素识别器生成的，音素识别器的作用是对P个音频数据帧的音素类别进行识别，音素判别特征包含但不仅限于瓶颈特征以及音素后验概率(Phone Posterior Probability，PPP)特征。

其次，本申请实施例中，提供了一种生成音频频域特征的方法，即先对待识别音频数据进行分帧处理，得到P个音频数据帧，然后根据P个音频数据帧生成声学特征，并且根据P个音频数据帧生成音素判别特征，最后根据声学特征以及音素判别特征，生成音频频域特征。通过上述方式，对待识别音频数据进进行预处理以得到音频频域特征，经过预处理之后的待识别音频数据可以使音频信号更均匀且平滑，从而为信号参数提取提供优质的参数，由此提高语音处理质量。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第二个可选实施例中，基于音频频域特征，通过语种识别模型获取语种分布概率，可以包括：

基于音频频域特征，通过语种识别模型获取音频深度特征；

基于音频深度特征，通过语种识别模型获取目标特征向量；

基于目标特征向量，通过语种识别模型获取语种分布概率。

本实施例中，介绍了一种获取待识别语音数据的方法，语种识别装置在对待识别语音数据进行预处理之后得到音频频域特征，然后可以将音频频域特征输入至语种识别模型，由语种识别模型输出语种分布概率。

为了便于介绍，请参阅图12，图12为本申请实施例中语种识别模型的一个结构示意图，如图所示，具体地，音频频域特征将待识别音频数据转换成序列的特征向量，音频频域特征包括声学特征以及音素判别特征中的至少一种。声学特征由语音通过频谱分帧、时频转换以及滤波等操作后生成的，声学特征包含但不仅限于MFCC特征和Fbank特征等。音素判别特征由音素识别器生成，音素识别器用于对当前帧的音素类别进行识别，音素判别特征包含但不仅限于瓶颈特征以及PPP特征等。

为了便于介绍，请参阅图12，图12为本申请实施例中语种识别模型的一个结构示意图，如图所示，首先对待识别音频数据进行预处理，得到音频频域特征，然后将音频频域特征输入至语种识别模型的深度卷积神经网络中，由深度卷积神经网络输出音频深度特征。再将音频深度特征输入至池化层，由池化层输出目标特征向量。最后将目标特征向量输入至全连接层分类器，由全连接层分类器输出语种分布概率。

可以理解的是，在实际应用中，还可以采用高斯混合模型(Gaussian mixturemodel，GMM)、高斯混合模型-通用背景模型(Gaussian mixture model-universalbackground model，GMM-UBM)、i-向量(i-vector)加上后端补偿、x-vector加上后端补偿以及端到端神经网络等方式获取语种分布概率，进而得到语种识别结果。

再次，本申请实施例中，提供了一种利用语种识别模型获取语种分布概率的方法，首先基于音频频域特征，通过语种识别模型获取音频深度特征，然后基于音频深度特征，通过语种识别模型获取目标特征向量，最后基于目标特征向量，通过语种识别模型获取语种分布概率。通过上述方式，可以采用语种识别模型输出待识别音频数据所对应的语种分布概率，基于语种分布概率生成相应的语种识别结果，由此提升模型预测的可靠性。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第三个可选实施例中，基于音频频域特征，通过语种识别模型获取音频深度特征，可以包括：

基于音频频域特征，通过语种识别模型所包括的残差神经网络获取音频深度特征；

或，

基于音频频域特征，通过语种识别模型所包括的密集卷积网络获取音频深度特征。

本实施例中，介绍了两种通过语种识别模型获取音频深度特征的方法，语种识别模型包括卷积深度特征提取模块，时序池化模块和分类识别模块，其中，卷积深度特征提取模块可以包括深度卷积神经网络(Deep Convolutional Neural Network，Deep-CNN)，卷积深度特征提取模块用于提取帧特征中的深度信息，卷积网络结构能够在训练过程中，学习对应模型的参数，提取原始帧级别特征中的深层次特征。时序池化模块可以包括池化层，池化层的类型包含但不仅限于全局平均池化(Global average Pooling，GAP)、最大值池化(max pooling)以及最小值池化(min pooling)。分类识别模块可以包括全连接层分类器，利用全连接层分类器将固定维度的深度特征(如目标特征向量)映射为识别语种的不同类别，在经过最后激活函数之后，能够输出对应语种的后验概率，即得到语种分布概率。

下面将介绍提取音频深度特征的方式两种方式：

方式一，通过残差神经网络(Residual Network，ResNet)的结构获取音频深度特征；

传统的卷积层或全连接层在信息传递时，会存在信息丢失和损耗等问题。残差神经网络在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入与输出差别的那一部分，简化学习目标和难度。在残差神经网络中，提出了恒等映射(identity mapping)来促进梯度传播，同时使用使用元素级的加法。残差网络的特点是容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

方式二，通过密集卷积网络(DenseNet)的结构获取音频深度特征；

在密集卷积网络结构中，将每一层的输出都导入后面的所有层，与残差神经网络的相加不同的是，密集卷积网络结构使用的是连结结构。这样的结构可以减少网络参数，避免残差神经网络中可能出现的某些层被选择性丢弃，或者信息阻塞等问题。在密集卷积网络中，每个层从前面的所有层获得额外的输入，并将自己的特征映射传递到后续的所有层，使用级联方式，每一层都在接受来自前几层的“集体知识(collective knowledge)”。

密集卷积网络具有这样几个有点，如减轻了消失梯度，加强了特征的传递，更有效地利用了特征，一定程度上较少了参数数量。

进一步地，本申请实施例中，提供了两种通过语种识别模型获取音频深度特征的方法，一种方法是基于音频频域特征，通过语种识别模型所包括的残差神经网络获取音频深度特征，另一种方法是基于音频频域特征，通过语种识别模型所包括的密集卷积网络获取音频深度特征。通过上述方式，可以利用残差神经网络或者密集卷积网络提取音频深度特征，利用音频深度特征能够更好地表达待识别音频数据的特征，从而提升语种识别的准确性。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第四个可选实施例中，基于音频深度特征，通过语种识别模型获取目标特征向量，可以包括：

基于音频深度特征，通过语种识别模型所包括的池化层获取目标特征向量，其中，池化层包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。

本实施例中，介绍了一种通过池化层获取目标特征向量的方法，时序池化模块用于对与时序相关的卷积深度特征(如音频深度特征)进行整合和统计，最终输出固定维度的特征向量(如目标特征向量)。这个特征向量能够考虑整体的输入信息，将不同时长的语音转化成固定长度的特征，方便接下来对实际场景中不定长的语音进行统一的分类识别工作。该固定维度的特征向量是表征输入语种信息的特征向量，通常情况下深度神经网络池化后的定长特征向量不具有传统人为设定特征的固定含义(如MFCC的维度表征滤波器个数等)，而该特征向量维度一般会影响识别准确率、识别速度和计算量等指标。通过时序池化模块中的池化层可以得到目标特征向量。

池化层可以包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。其中，以全局平均池化层为例，假设音频深度特征为10个特征图，那么全局平均池化就是将每一张特征图计算所有像素点的均值，输出一个数据值，这样10个特征图就输出10个数据点，这些数据点构成1*10的目标特征向量。

以最大值池化层为例，假设音频深度特征为10个特征图，那么最大值池化就是将每一张特征图计算所有像素点的最大值，输出一个数据值，这样10个特征图就输出10个数据点，这些数据点构成1*10的目标特征向量。

以最小值池化层为例，假设音频深度特征为10个特征图，那么最大值池化就是将每一张特征图计算所有像素点的最小值，输出一个数据值，这样10个特征图就输出10个数据点，这些数据点构成1*10的目标特征向量。

进一步地，本申请实施例中，提供了一种通过池化层获取目标特征向量的方法，即基于音频深度特征，通过语种识别模型所包括的池化层获取目标特征向量。通过上述方式，能够将不同时间长度的待识别音频数据处理成固定维度的目标特征向量，由于特征向量的维度往往会影响识别准确率、识别速度以及计算量等指标，因此，固定维度的目标特征向量能够防止因待识别音频数据不定长而导致识别准确率降低的情况，从而提升语种识别的可靠性和准确度。

可选地，在上述图10对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第五个可选实施例中，基于目标特征向量，通过语种识别模型获取语种分布概率，可以包括：

基于目标特征向量，通过语种识别模型所包括的全连接层获取语种分布矩阵；

基于语种分布矩阵量，通过语种识别模型所包括的激活层获取语种分布概率。

本实施例中，介绍了一种通过全连接层和激活层获取语种分布概率的方法，在语种识别装置得到固定维度的目标特征向量之后，将该目标特征向量输入至全连接层分类器，由全连接层分类器进行前向计算，其中，全连接层分类器可以包括全连接层和激活层。通过全连接层输出语种分布矩阵，激活层通过激活函数将语种分布矩阵映射为语种分布概率。

在经过池化层之后连接至少一个全连接层，全连接层中的每个神经元与其前一层的所有神经元进行全连接，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息。为了提升语种识别模型的性能，全连接层每个神经元的激活函数一般采用修正线性单元(The Rectified Linear Unit，ReLU)函数，最后一层全连接层的输出值被传递给一个输出，可以采用softmax逻辑回归(softmax regression)进行分类。

激活函数能够提高模型鲁棒性以及非线性表达能力，并且缓解梯度消失问题，更有利于训练和加速模型收敛。可以理解的是，在实际应用中，激活层采用的激活函数包含但不仅限于Sigmoid函数、双曲正切(Tanh)函数以及ReLU函数。其中，Sigmoid函数也称为S型生长曲线，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0至1之间。Tanh是双曲函数中的一个，是由基本双曲函数双曲正弦和双曲余弦推导而来的。Relu函数用于隐层神经元输出。

进一步地，本申请实施例中，提供了一种通过全连接层和激活层获取语种分布概率的方法，即先基于目标特征向量，通过语种识别模型所包括的全连接层获取语种分布矩阵，然后基于语种分布矩阵量，通过语种识别模型所包括的激活层获取语种分布概率。通过上述方式，能够利用全连接层和激活层输出所需的语种分布概率，实现将非线性特性引入到语种识别模型中，是将语种识别模型中一个节点的输入信号转换成一个输出信号，由此保证了方案的可行性和可操作性。

本申请提出了一种语种识别的方法，为了便于理解，请参阅图13，图13为本申请实施例中语种识别的方法一个整体流程示意图，图13为本申请实施例中语种识别的方法一个整体流程示意图，整个流程分为两个部分，第一部分是基于语音谱变换的歌曲生成模块，该部分在训练阶段中，利用大量语音数据(人说话的语音)经过语音谱变换后得到人声清唱数据，利用人声清唱数据与纯伴奏音乐数据生成歌曲。如果对大量不同语种的语音数据进行谱变换后，则可以得到不同语种的人声清唱数据，进而生成多语种歌曲。由此，利用大量歌曲训练得到语种识别模型。在应用阶段(测试阶段)，利用训练好的语种识别模型对输入的测试歌曲进行识别，从而得到语种识别结果。

下面对本申请中的模型训练装置进行详细描述，请参阅图14，图14为本申请实施例中模型训练装置一个实施例示意图，模型训练装置30包括：

获取模块301，用于获取第一语音数据样本集合，其中，所述第一语音数据样本集合包括至少一个第一语音数据样本，所述第一语音数据样本具有已标注的真实语种标签；

生成模块302，用于根据所述获取模块301获取的所述第一语音数据样本集合生成第二语音数据样本集合，其中，所述第二语音数据样本集合包括至少一个第二语音数据样本，所述第二语音数据样本为所述第一语音数据样本经过基频随机变换后得到的；

所述生成模块302，还用于根据所述第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，其中，所述音频数据样本集合包括至少一个音频数据样本；

所述获取模块301，还用于基于所述生成模块302生成的所述音频数据样本集合，通过待训练语种识别模型获取预测语种标签；

训练模块303，用于基于所述真实语种标签以及所述获取模块获取的所述预测语种标签，采用损失函数对所述待训练语种识别模型进行训练，得到语种识别模型。

本实施例中，获取模块301获取第一语音数据样本集合，其中，所述第一语音数据样本集合包括至少一个第一语音数据样本，所述第一语音数据样本具有已标注的真实语种标签，生成模块302根据所述获取模块301获取的所述第一语音数据样本集合生成第二语音数据样本集合，其中，所述第二语音数据样本集合包括至少一个第二语音数据样本，所述第二语音数据样本为所述第一语音数据样本经过基频随机变换后得到的，所述生成模块302根据所述第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，其中，所述音频数据样本集合包括至少一个音频数据样本，所述获取模块301基于所述生成模块302生成的所述音频数据样本集合，通过待训练语种识别模型获取预测语种标签，训练模块303基于所述真实语种标签以及所述获取模块301获取的所述预测语种标签，采用损失函数对所述待训练语种识别模型进行训练，得到语种识别模型。

本申请实施例中，提供了一种模型训练装置，采用上述装置，对于一些小众语种的歌曲而言，在难以获取到该语种的歌曲的情况下，可以对小众语种的语音数据样本进行基频随机变换，模拟得到该小众语种的清唱样本，结合伴奏数据样本生成用于模型训练的音频数据样本，从而实现零资源条件下的模型训练，提升模型训练效果，增强了语种识别的准确度和可靠性。

可选地，在上述图14所对应的实施例的基础上，本申请实施例提供的模型训练装置30的另一实施例中，

所述生成模块302，具体用于对所述第一语音数据样本集合中的N个第一语音数据样本进行基频的随机变换，得到所述第二语音数据样本集合，其中，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

其次，本申请实施例中，提供了一种获取第二语音数据样本的方法，采用上述装置，可以直接对第一语音数据样本进行基频的随机变换，形成人声清唱的模拟数据，再将人声清唱的模拟数据与伴奏数据进行叠加，即可模拟得到歌曲数据，从而提升方案的可行性和可操作性。

所述生成模块302，具体用于基于所述第一语音数据样本集合，通过语音变换模型获取所述第二语音数据样本集合，其中，所述第一语音数据样本集合包括N个第一语音数据样本，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

其次，本申请实施例中，提供了另一种获取第二语音数据样本的方法，采用上述装置，由网络模型实现基频的随机变换，形成人声清唱的模拟数据，再将人声清唱的模拟数据与伴奏数据进行叠加，即可模拟得到歌曲数据，从而提升方案的可行性和可操作性。

所述生成模块302，具体用于将所述第二语音数据样本集合中的N个第二语音数据样本集与所述伴奏数据样本集合中的M个伴奏数据样本进行组合，得到所述音频数据样本集合，其中，所述音频数据样本集合包括Q个音频数据样本，所述N为大于或等于1的整数，所述M为大于或等于1的整数，所述Q为大于或等于1，且小于或等于(N*M)的整数。

下面对本申请中的语种识别装置进行详细描述，请参阅图15，图15为本申请实施例中语种识别装置一个实施例示意图，语种识别装置40包括：

获取模块401，用于获取待识别音频数据；

生成模块402，用于根据所述获取模块401获取的所述待识别音频数据生成音频频域特征；

所述获取模块401，还用于基于所述生成模块402生成的所述音频频域特征，通过语种识别模型获取语种分布概率；

所述生成模块402，还用于根据所述获取模块401获取的所述语种分布概率生成所述待识别音频数据所对应的语种识别结果。

本实施例中，获取模块401获取待识别音频数据，生成模块402根据所述获取模块401获取的所述待识别音频数据生成音频频域特征，所述获取模块401基于所述生成模块402生成的所述音频频域特征，通过语种识别模型获取语种分布概率，所述生成模块402根据所述获取模块401获取的所述语种分布概率生成所述待识别音频数据所对应的语种识别结果。

可选地，在上述图15所对应的实施例的基础上，本申请实施例提供的语种识别装置40的另一实施例中，

所述生成模块402，具体用于对所述待识别音频数据进行分帧处理，得到P个音频数据帧，其中，所述待识别音频数据属于音频时域信号，所述P为大于或等于1的整数；

根据所述P个音频数据帧生成音素判别特征；

所述获取模块401，具体用于基于所述音频频域特征，通过所述语种识别模型获取音频深度特征；

所述获取模块401，具体用于基于所述音频频域特征，通过所述语种识别模型所包括的残差神经网络获取所述音频深度特征；

或，

所述获取模块401，具体用于基于所述音频深度特征，通过所述语种识别模型所包括的池化层获取所述目标特征向量，其中，所述池化层包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。

所述获取模块401，具体用于基于所述目标特征向量，通过所述语种识别模型所包括的全连接层获取语种分布矩阵；

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为终端设备，如图16所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digitalassistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图16示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图16，手机包括：射频(radio frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图16中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图16对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图16中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图16示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

基于所述真实语种标签以及所述预测语种标签，采用损失函数对所述待训练语种识别模型进行训练，得到语种识别模型.

可选地，处理器580具体用于执行如下步骤：

对所述第一语音数据样本集合中的N个第一语音数据样本进行基频的随机变换，得到所述第二语音数据样本集合，其中，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

可选地，处理器580具体用于执行如下步骤：

基于所述第一语音数据样本集合，通过语音变换模型获取所述第二语音数据样本集合，其中，所述第一语音数据样本集合包括N个第一语音数据样本，所述第二语音数据样本集合包括N个第二语音数据样本，所述第二语音数据样本与所述第一语音数据样本具有对应的关系，所述N为大于或等于1的整数。

可选地，处理器580具体用于执行如下步骤：

将所述第二语音数据样本集合中的N个第二语音数据样本集与所述伴奏数据样本集合中的M个伴奏数据样本进行组合，得到所述音频数据样本集合，其中，所述音频数据样本集合包括Q个音频数据样本，所述N为大于或等于1的整数，所述M为大于或等于1的整数，所述Q为大于或等于1，且小于或等于(N*M)的整数。

获取待识别音频数据；

根据所述待识别音频数据生成音频频域特征；

基于所述音频频域特征，通过语种识别模型获取语种分布概率；

可选地，处理器580具体用于执行如下步骤：

对所述待识别音频数据进行分帧处理，得到P个音频数据帧，其中，所述待识别音频数据属于音频时域信号，所述P为大于或等于1的整数；

根据所述P个音频数据帧生成音素判别特征；

可选地，处理器580具体用于执行如下步骤：

基于所述音频频域特征，通过所述语种识别模型获取音频深度特征；

可选地，处理器580具体用于执行如下步骤：

基于所述音频频域特征，通过所述语种识别模型所包括的残差神经网络获取所述音频深度特征；

或，

可选地，处理器580具体用于执行如下步骤：

基于所述音频深度特征，通过所述语种识别模型所包括的池化层获取所述目标特征向量，其中，所述池化层包括全局平均池化层、最大值池化层以及最小值池化层中的至少一种。

可选地，处理器580具体用于执行如下步骤：

基于所述目标特征向量，通过所述语种识别模型所包括的全连接层获取语种分布矩阵；

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为服务器。请参阅图17，图17是本申请实施例提供的一种服务器结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)622(例如，一个或一个以上处理器)和存储器632，一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器622可以设置为与存储介质630通信，在服务器600上执行存储介质630中的一系列指令操作。

服务器600还可以包括一个或一个以上电源626，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口658，和/或，一个或一个以上操作系统641，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图17所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 622还具有以下功能：

可选地，CPU 622具体用于执行如下步骤：

获取待识别音频数据；

根据所述待识别音频数据生成音频频域特征；

可选地，CPU 622具体用于执行如下步骤：

根据所述P个音频数据帧生成音素判别特征；

可选地，CPU 622具体用于执行如下步骤：

或，

可选地，CPU 622具体用于执行如下步骤：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种模型训练的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音数据样本集合生成第二语音数据样本集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第一语音数据样本集合生成第二语音数据样本集合，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述第二语音数据样本集合以及伴奏数据样本集合，生成音频数据样本集合，包括：

5.一种语种识别的方法，其特征在于，包括：

获取待识别音频数据；

根据所述待识别音频数据生成音频频域特征；

基于所述音频频域特征，通过语种识别模型获取语种分布概率，其中，所述语种识别模型为采用上述权利要求1至4中任一项方法训练得到的；

6.根据权利要求5所述的方法，其特征在于，所述根据所述待识别音频数据生成音频频域特征，包括：

根据所述P个音频数据帧生成音素判别特征；

7.根据权利要求5或6所述的方法，其特征在于，所述基于所述音频频域特征，通过语种识别模型获取语种分布概率，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述音频频域特征，通过所述语种识别模型获取音频深度特征，包括：

或，

9.根据权利要求7所述的方法，其特征在于，所述基于所述音频深度特征，通过所述语种识别模型获取目标特征向量，包括：

10.根据权利要求7所述的方法，其特征在于，所述基于所述目标特征向量，通过所述语种识别模型获取所述语种分布概率，包括：

11.一种模型训练装置，其特征在于，包括：

12.一种语种识别装置，其特征在于，包括：

获取模块，用于获取待识别音频数据；

所述获取模块，还用于基于所述生成模块生成的所述音频频域特征，通过语种识别模型获取语种分布概率，其中，所述语种识别模型为采用上述权利要求1至4中任一项方法训练得到的；

13.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至4中任一项所述的方法，或，执行如上述权利要求5至10中任一项所述的方法；

14.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至4中任一项所述的方法，或，执行如权利要求5至10中任一项所述的方法。