CN110853618A

CN110853618A - 一种语种识别的方法、模型训练的方法、装置及设备

Info

Publication number: CN110853618A
Application number: CN201911137417.1A
Authority: CN
Inventors: 高骥; 张姗姗; 黄申; 巫海维; 蔡炜城; 李明
Original assignee: Duke University Of Kunshan; Tencent Technology Shenzhen Co Ltd
Current assignee: Duke University Of Kunshan; Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2020-02-28
Anticipated expiration: 2039-11-19
Also published as: CN110853618B

Abstract

本申请公开了一种语种识别的方法，包括：获取待识别音频数据；从所述待识别音频数据提取音频频域特征；基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据；对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果。本申请还公开了一种模型训练的方法、装置及设备。本申请在语种识别模型中仅输入待识别语音数据，去除伴奏音乐的部分，从而减少了伴奏音乐对语种识别的干扰，从而提升了歌曲语种识别的准确度。

Description

一种语种识别的方法、模型训练的方法、装置及设备

技术领域

本申请涉及人工智能领域，尤其涉及一种语种识别的方法、模型训练的方法、装置及设备。

背景技术

随着现代社会信息的全球化，语种识别成为语音识别技术研究热点之一。语种识别技术能够制造一种模仿人的思维对语音进行语种辨识的机器，从语音信号中提取出各语种的差异信息，并以此为依据判断所属语种。

对歌曲语种的识别属于语音信息处理中的语种识别范畴。目前，对歌曲语种进行识别的方法为，将歌曲直接输入至语音识别的通用引擎中，该通用引擎从歌曲的语音学特征中对歌曲的语种进行分类识别。

由于通常歌曲包括人声歌唱与伴奏音乐两部分，因此，直接提取的语音学特征同时包含人声歌唱和伴奏音乐两个部分。然而，在歌曲语种的识别任务中，人声歌唱的特征起到主要作用，而伴奏音乐的特征则会对识别造成一定程度上的干扰，从而降低了歌曲语种识别的准确度。

发明内容

本申请实施例提供了一种语种识别的方法、模型训练的方法、装置及设备，在语种识别模型中仅输入待识别语音数据，而去除伴奏音乐的部分，从而减少了伴奏音乐对语种识别的干扰，从而提升了歌曲语种识别的准确度。

有鉴于此，本申请第一方面提供一种语种识别的方法，包括：

获取待识别音频数据；

从所述待识别音频数据提取音频频域特征；

基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据；

对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果。

本申请第二方面提供一种模型训练的方法，包括：

获取待训练音频数据集合，其中，所述待训练音频数据集合包括至少一个待训练样本对，所述待训练样本对包括音频数据样本、语音数据样本以及伴奏数据样本，所述语音数据样本具有已标注的真实语音标签，所述伴奏数据样本具有已标注的真实伴奏标签；

基于所述待训练音频数据集合，通过待训练声伴分离模型获取所述音频数据样本对所对应的第一预测音频以及第二预测音频，其中，所述第一预测音频对应于预测语音标签，所述第二预测音频对应于预测伴奏标签；

根据所述真实语音标签、所述预测语音标签、所述真实伴奏标签以及所述预测伴奏标签，确定损失函数；

基于所述损失函数训练所述待训练声伴分离模型，得到声伴分离模型。

本申请第三方面提供一种模型训练的方法，包括：

获取第一待训练语音样本集合，其中，所述第一待训练语音样本集合包括至少一个第一待训练语音样本，所述第一待训练语音样本具有已标注的真实语种标签；

根据所述第一待训练语音样本集合生成第二待训练语音样本集合，其中，所述第二待训练语音样本集合包括至少一个第二待训练语音样本，所述第二待训练语音样本为所述第一待训练语音样本经过基频随机变换后得到的；

基于所述第一待训练语音样本集合以及所述第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，其中，所述第一预测语种标签为根据所述第一待训练语音样本得到的，所述第二预测语种标签为根据所述第二待训练语音样本得到的；

根据所述真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数；

本申请第四方面提供一种语种识别装置，包括：

获取模块，用于获取待识别音频数据；

生成模块，用于从所述获取模块获取的所述待识别音频数据提取音频频域特征；

所述获取模块，还用于基于所述生成模块生成的所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据；

所述获取模块，还用于对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过声伴分离模型获取音频深度特征；

基于所述音频深度特征，通过所述声伴分离模型获取第一语音数据特征以及第一伴奏数据特征；

基于所述第一语音数据特征，通过所述声伴分离模型获取第二语音数据特征；

根据所述第二语音数据特征获取所述待识别语音数据，其中，所述待识别语音数据属于音频时域信号。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过所述声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述获取模块，具体用于通过所述声伴分离模型所包括的多层感知机对所述音频深度特征进行分类处理，得到所述第一语音数据特征以及所述第一伴奏数据特征；

所述获取模块，具体用于通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二语音数据特征，其中，所述第二卷积神经网络包括第一逆向卷积网络以及第二逆向卷积网络，所述第一逆向卷积网络用于对所述第一语音数据特征进行反向卷积处理，所述第二逆向卷积网络用于对所述伴奏数据特征进行反向卷积处理，且所述第一逆向卷积网络与所述第二逆向卷积网络均包括多逆向卷积层。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

所述获取模块，还用于基于所述音频深度特征，通过所述声伴分离模型获取第一语音数据特征以及第一伴奏数据特征之后，基于所述第一伴奏数据特征，通过所述声伴分离模型获取第二伴奏数据特征；

所述获取模块，还用于根据所述第二伴奏数据特征获取伴奏数据，其中，所述伴奏数据属于音频时域信号。

在一种可能的设计中，在本申请实施例的第四方面的第四种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过声伴分离模型获取第一音频深度特征；

基于所述第一音频深度特征，通过所述声伴分离模型获取第二音频深度特征；

基于所述第二音频深度特征，通过所述声伴分离模型获取语音数据特征以及伴奏数据特征；

基于所述语音数据特征，获取所述待识别语音数据，其中，所述待识别语音数据属于音频时域信号。

在一种可能的设计中，在本申请实施例的第四方面的第五种实现方式中，

所述获取模块，具体用于基于所述音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述第一音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述获取模块，具体用于基于所述第一音频深度特征，通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二音频深度特征，其中，所述第二卷积神经网络包括多逆向卷积层；

所述获取模块，具体用于通过所述声伴分离模型所包括的多层感知机对所述第二音频深度特征进行分类处理，得到所述语音数据特征以及所述伴奏数据特征，其中，所述多层感知机包括第一多层感知机以及第二多层感知机，所述第一多层感知机用于获取所述语音数据特征，所述第二多层感知机用于获取所述伴奏数据特征。

在一种可能的设计中，在本申请实施例的第四方面的第六种实现方式中，

所述获取模块，具体用于根据所述待识别语音数据生成第一语音频域特征；

基于所述第一语音频域特征，通过第一语种识别模型获取第一语种分布概率，其中，所述第一语种识别模型属于语种识别模型；

根据所述待识别语音数据生成语音模拟数据；

根据所述语音模拟数据生成第二语音频域特征；

基于所述第二语音频域特征，通过第二语种识别模型获取第二语种分布概率，其中，所述第二语种识别模型属于语种识别模型；

根据所述第一语种分布概率以及所述第二语种分布概率，生成所述语种识别结果。

在一种可能的设计中，在本申请实施例的第四方面的第七种实现方式中，

所述获取模块，具体用于基于所述第一语音频域特征，通过所述第一语种识别模型获取第一语音深度特征；

基于所述第一语音深度特征，通过所述第一语种识别模型获取第一特征向量；

基于所述第一特征向量，通过所述第一语种识别模型获取所述第一语种分布概率。

在一种可能的设计中，在本申请实施例的第四方面的第八种实现方式中，

所述获取模块，具体用于基于所述第二语音频域特征，通过所述第二语种识别模型获取第二语音深度特征；

基于所述第二语音深度特征，通过所述第二语种识别模型获取第二特征向量；

基于所述第二特征向量，通过所述第二语种识别模型获取所述第二语种分布概率。

本申请第五方面提供一种模型训练装置，包括：

获取模块，用于获取待训练音频数据集合，其中，所述待训练音频数据集合包括至少一个待训练样本对，所述待训练样本对包括音频数据样本、语音数据样本以及伴奏数据样本，所述语音数据样本具有已标注的真实语音标签，所述伴奏数据样本具有已标注的真实伴奏标签；

所述获取模块，还用于基于所述待训练音频数据集合，通过待训练声伴分离模型获取所述音频数据样本对所对应的第一预测音频以及第二预测音频，其中，所述第一预测音频对应于预测语音标签，所述第二预测音频对应于预测伴奏标签；

确定模块，用于根据所述获取模块获取的所述真实语音标签、所述预测语音标签、所述真实伴奏标签以及所述预测伴奏标签，确定损失函数；

训练模块，用于基于所述确定模块确定的所述损失函数训练所述待训练声伴分离模型，得到声伴分离模型。

本申请第六方面提供一种模型训练装置，包括：

获取模块，用于获取第一待训练语音样本集合，其中，所述第一待训练语音样本集合包括至少一个第一待训练语音样本，所述第一待训练语音样本具有已标注的真实语种标签；

生成模块，用于根据所述获取模块获取的所述第一待训练语音样本集合生成第二待训练语音样本集合，其中，所述第二待训练语音样本集合包括至少一个第二待训练语音样本，所述第二待训练语音样本为所述第一待训练语音样本经过基频随机变换后得到的；

所述获取模块，还用于基于所述第一待训练语音样本集合以及所述生成模块生成的所述第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，其中，所述第一预测语种标签为根据所述第一待训练语音样本得到的，所述第二预测语种标签为根据所述第二待训练语音样本得到的；

确定模块，用于根据所述获取模块获取的所述真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数；

训练模块，用于基于所述确定模块确定的所述损失函数训练所述待训练语种识别模型，得到语种识别模型。

在一种可能的设计中，在本申请实施例的第六方面的第一种实现方式中，

所述获取模块，具体用于基于所述第一待训练语音样本集合，通过第一待训练语种识别模型获取所述第一待训练语音样本所对应的所述第一预测语种标签，其中，所述第一待训练语种识别模型属于所述待训练语种识别模型；

基于所述第二待训练语音样本集合，通过第二待训练语种识别模型获取所述第二待训练语音样本所对应的所述第二预测语种标签，其中，所述第二待训练语种识别模型属于所述待训练语种识别模型；

所述确定模块，具体用于根据所述真实语种标签以及所述第一预测语种标签，确定第一损失函数；

根据所述真实语种标签以及所述第二预测语种标签，确定第二损失函数；

所述训练模块，具体用于基于所述第一损失函数训练所述第一待训练语种识别模型，得到第一语种识别模型，其中，所述第一语种识别模型属于语种识别模型；

基于所述第二损失函数训练所述第二待训练语种识别模型，得到第二语种识别模型，其中，所述第二语种识别模型属于语种识别模型。

本申请第七方面提供一种电子设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述第一方面中任一项所述的方法，或，执行如上述第二方面中任一项所述的方法，或，执行如上述第三方面中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请的第八方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种语种识别的方法，首先获取待识别音频数据，然后基于待识别音频数据，通过声伴分离模型获取待识别语音数据，该声伴数据分离为从音频数据中分离出语音数据和伴奏数据，最后对待识别语音数据进行语种识别，得到待识别音频数据的语种识别结果。通过上述方式，先采用声伴分离模型对歌曲中的人声歌唱与伴奏音乐进行分离，即得到人声歌唱部分所对应的待识别语音数据，在语种识别模型中仅输入待识别语音数据，而去除伴奏音乐的部分，从而减少了伴奏音乐对语种识别的干扰，从而提升了歌曲语种识别的准确度。

附图说明

图1为本申请实施例中歌曲语种分类功能的一个界面示意图；

图2为本申请实施例中歌曲语种识别功能的一个界面示意图；

图3为本申请实施例中语种识别系统的一个架构示意图；

图4为本申请实施例中语种识别的方法一个实施例示意图；

图5为本申请实施例中基于语种识别方法的一个处理流程示意图；

图6为本申请实施例中声伴分离模型的一个结构示意图；

图7为本申请实施例中基于语种识别方法的另一个处理流程示意图；

图8为本申请实施例中声伴分离模型的另一个结构示意图；

图9为本申请实施例中语种识别模型的一个结构示意图；

图10为本申请实施例中第一语种识别模型的一个结构示意图；

图11为本申请实施例中第二语种识别模型的一个结构示意图；

图12为本申请实施例中模型训练的方法一个实施例示意图；

图13为本申请实施例中基于声伴分离模型训练方法的一个处理流程示意图；

图14为本申请实施例中模型训练的方法另一个实施例示意图；

图15为本申请实施例中基于第一语种识别模型训练方法的一个处理流程示意图；

图16为本申请实施例中基于第二语种识别模型训练方法的一个处理流程示意图；

图17为本申请实施例中语种识别的方法一个整体流程示意图；

图18为本申请实施例中语种识别装置的一个实施例示意图；

图19为本申请实施例中模型训练装置的一个实施例示意图；

图20为本申请实施例中模型训练装置的另一个实施例示意图；

图21为本申请实施例中终端设备的一个结构示意图；

图22为本申请实施例中服务器的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的方法可以基于人工智能(Artificial Intelligence，AI)的语音技术(Speech Technology)来实现语种识别，并且可以基于人工智能机器学习(Machine Learning，ML)来实现模型训练。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术(VoiceprintRecognition)等。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中，语音成为未来最被看好的人机交互方式之一。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

应理解，本申请提供的语种识别方法具体可以应用于音乐类应用的歌曲语种识别场景，音乐类应用是指具有音乐推荐功能的播放器，同时可以支持在线音乐和本地音乐的播放，在音乐类应用中通常设置有专业的分类，分类包含但不仅限于主题分类(如网络歌曲、情歌以及儿歌等)、场景分类(如婚礼、校园以及运动等)、心情分类(如伤感、快乐以及甜蜜等)、年代分类(如80年代、90年代以及00年代等)和流派分类(如流行、说唱以及摇滚等)，其中，语种分类能够帮助用户更快且更准确地找到大量不同语种的歌曲。

可选地，下面将以歌曲语种分类功能为例进行介绍，为了便于介绍，请参阅图1，图1为本申请实施例中歌曲语种分类功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前支持的语种分类，例如英语、粤语、韩语、日语、国语、法语、小语种、闽南语以及拉丁语，当用户选择其中一个语种分类时，即可触发该分类所对应的模块，如“国语”，由此进入“国语”分类下的歌曲列表。由于歌曲数量庞大，因此，在对歌曲进行语种分类的过程中，通过本申请提供的声伴分离模型和语种识别模型实现歌曲的语种分类，即在后台获取大量的歌曲，对每个歌曲进行预处理，然后将预处理后的歌曲输入至声伴分离模型，由此输出每个歌曲所对应的人声部分，最后，仅将人声部分的数据输入至语种识别模型，得到每个歌曲的语种识别结果，如“国语”。至此，完成歌曲语种的分类。

可选地，下面将以歌曲语种识别功能为例进行介绍，为了便于介绍，请参阅图2，图2为本申请实施例中歌曲语种识别功能的一个界面示意图，如图所示，用户可以通过音乐类应用的客户端查看当前播放歌曲的语种类型，如当前播放歌曲“ABCDE”，当用户想了解这首歌曲的语种时，可以触发界面中的“语种识别”模块。此时，可通过本申请提供的声伴分离模型和语种识别模型实现歌曲的语种分类，即对歌曲“ABCDE”进行预处理，然后将预处理后的歌曲输入至声伴分离模型，由此输出歌曲“ABCDE”所对应的人声部分，最后，仅将人声部分的数据输入至语种识别模型，得到歌曲“ABCDE”的语种识别结果，如“英语”，至此，完成对歌曲语种的识别。

为了便于理解，本申请提出了一种语种识别的方法，该方法应用于图3所示的语种识别系统，请参阅图3，图3为本申请实施例中语种识别系统的一个架构示意图，如图所示，首先需要训练得到模型，该模型包括两个部分，即声伴分离模型以及语种识别模型，然后使用声伴分离模型以及语种识别模型对音频数据进行分离和识别。识别的音频数据可以是一首完整的歌曲、一段歌曲、戏曲、音乐短片(Music Video，MV)以及其他类型的音频，此处不做限定。在分离和识别的过程中，可以分为两种实现方式，分别为在线处理和离线处理。下面将分别进行说明：在线处理时，声伴分离模型以及语种识别模型均存储于服务器，客户端收集待识别音频数据之后，将待识别音频数据传输至服务器，由服务器采用声伴分离模型对待识别音频数据进行声伴分离，得到人声数据和伴奏数据，再采用语种识别模型仅对人声数据进行语种识别，得到语种识别结果。离线处理时，声伴分离模型以及语种识别模型均存储于终端设备本地，客户端收集待识别音频数据之后，将输入至本地存储的声伴分离模型中，从而得到人声数据和伴奏数据，再采用语种识别模型仅对人声数据进行语种识别，得到语种识别结果。

需要说明的是，客户端部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

结合上述介绍，下面将对本申请中语种识别的方法进行介绍，请参阅图4，本申请实施例中语种识别的方法一个实施例包括：

101、获取待识别音频数据；

本实施例中，语种识别装置获取识别音频数据，该语种识别装置可以部署于终端设备，也可以部署于服务器，此处不做限定。可以理解的是，待识别音频数据包含但不仅限于动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，mp3)格式、动态图像专家组(Moving Picture Experts Group，MPEG)格式、音频交换文件格式(Audio Interchange File Format，AIFF)以及微软音频(Windows Media Audio，WMA)格式，此处不做限定。

102、从待识别音频数据提取音频频域特征；

本实施例中，语种识别装置需要对待识别音频数据进行预处理，得到音频频域特征。通过待识别音频数据的预处理，可以使音频信号更均匀且平滑，为信号参数提取提供优质的参数，从而提高语音处理质量。待识别音频数据的预处理过程主要包括，对待识别音频数据进行预加重、分帧、加窗、频率域转换以及特征提取等。

其中，预加重是指对待识别音频数据的高频部分加以提升，通常可以采用数字滤波器实现预加重。由于待识别音频数据具有时变特征，但是在一个短时间范围内(如10(millisecond，ms)至30ms)的特性基本保持稳定，因此，可以将待识别音频数据分段来分析其特征，可以理解的是，本申请中的一帧长度可以为20ms至25ms，此处仅为一个示意，在实际应用中还可以取其他的值，此处不做限定。

在对待识别音频数据进行分帧处理之后，还可以进行加窗处理。加窗的目的可以认为是对抽样附近的语音波形加以强调，而对波形的其余部分加以减弱。对待识别音频数据的各个短段进行处理，就是对各个分段进行变换，例如采用三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)等。

频率域转换具体是将时间域上的待识别音频数据转换到频率域上。对于声伴分离来说，由于音频数据是不同频率在同一时间的叠加而成的，因此，在时间域上难以体现出不同频率之间的差异，音频分析的时候都需要将时间域的音频数据转换到频率域上进行分析，且更便于进行分离。频率域转换的方式包含但不仅限于快速傅里叶变换(fast Fouriertransform，FFT)以及离散傅里叶变换(Discrete Fourier Transform，DFT)。

将待识别音频数据从时域转换到频域后，即可得到音频频域数据，于是需要提取音频频域数据的特征，得到音频频域特征。音频频域特征具体可以是梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、滤波器组(Filter Bank，FBank)特征或者线性预测系数(Linear Prediction Coefficient，LPC)特征，还可以是其他特征，此处不做限定。

103、基于音频频域特征，对待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，声伴数据分离为从音频数据中分离出语音数据和伴奏数据；

本实施例中，语种识别装置在获取到音频频域特征之后，可以将音频频域特征输入至声伴分离模型，由该声伴分离模型输出待识别音频数据所对应的待识别语音数据和待识别伴奏数据。其中，声伴分离模型主要用于分离音频数据中的语音数据和伴奏数据，语音数据具体可以是人声清唱部分的数据，而伴奏数据具体可以是指人声以外部分的数据，伴奏基本上和歌唱曲调一致。

104、对待识别语音数据进行语种识别，得到待识别音频数据的语种识别结果。

本实施例中，语种识别装置在通过声伴分离模型分离得到待识别语音数据和待识别伴奏数据之后，仅将待识别语音数据(即人声清唱部分的数据)输入至语种识别模型，由语种识别模型输出语种识别结果，语种识别结果可以是“英文”、“国语”或者其他的语种类别，此处不做限定。具体地，语种识别模型可以输出一个语种分布概率，假设有3个分类，分类1为“国语”，分类2为“英语”，分类3为“日语”，若语种分布概率为(0.1,0.2,0.7)，即表示语种识别结果有10％的概率为“国语”，有20％的概率为“英语”，有70％的概率为“日语”，于是可以将“日文”确定为待识别音频数据的语种识别结果。

为了便于理解，请参阅图5，图5为本申请实施例中基于语种识别方法的一个处理流程示意图，如图所示，假设待识别音频数据为歌曲A，对歌曲A进行预处理，得到歌曲A的音频频域特征，然后将歌曲A的音频频域特征输入至声伴分离模型，由此输出语音数据以及伴奏数据，接下来单独提取出语音数据(即人声清唱部分的数据)进行识别，排除了伴奏数据(即音乐伴奏部分的数据)对语种识别结果的影响。仅仅将歌曲A的语音数据输入至语种识别模型，由此输出语种识别结果。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第一个可选实施例中，基于音频频域特征，对待识别音频数据进行声伴数据分离，得到待识别语音数据，可以包括：

基于音频频域特征，通过声伴分离模型获取音频深度特征；

基于音频深度特征，通过声伴分离模型获取第一语音数据特征以及第一伴奏数据特征；

基于第一语音数据特征，通过声伴分离模型获取第二语音数据特征；

根据第二语音数据特征获取待识别语音数据，其中，待识别语音数据属于音频时域信号。

本实施例中，介绍了一种获取待识别语音数据的方法，语种识别装置在对待识别音频数据进行预处理之后得到音频频域特征，将音频频域特征输入至声伴分离模型中，由声伴分离模型的特征提取模块对音频频域特征进行降采样处理，得到音频深度特征，其中，降采样处理用于将频域特征转换为深度特征。接下来，需要通过声伴分离模型的分离解耦模块将音频深度特征拆分为第一语音数据特征以及第一伴奏数据特征，其中，第一语音数据特征和第一伴奏数据特征均为低层次特征(low-level featuer)。在分离得到第一语音数据特征以及第一伴奏数据特征之后，由声伴分离模型的特征恢复模块对第一语音数据特征进行升采样处理，得到第二语音数据特征，其中，升采样处理用于将深度特征转换为频域特征。语种识别装置在得到分离完成的第二语音数据特征之后，需要对第二语音数据特征进行时间域转换，时间域转换具体是将频率域上的第二语音数据特征转换到时间域上。时间域转换的方式包含但不仅限于快速傅里叶逆变换(Inverse Fast Fourier Transform，IFFT)以及离散傅里叶逆变换(Inverse Discrete Fourier Transform，IDFT)。至此，语种识别装置获取到待识别语音数据。

需要说明的是，声伴分离模型至少包括三个模块，分别为特征提取模块、分离解耦模块以及特征恢复模块，此外，声伴分离模型还可以实现频率域转换和时间域转换，此处不做限定。

可以理解的是，在实际应用中，还可以采用基于矩阵分解或者主成分分析等声伴分离技术，对待识别音频数据进行声伴分离，声伴分离技术为将歌曲的伴奏音乐与人声歌唱分开的技术手段。

其次，本申请实施例中，提供了一种获取待识别语音数据的方法，即先通过声伴分离模型获取降采样后的音频深度特征，然后通过声伴分离模型分离得到第一语音数据特征以及第一伴奏数据特征，最后通过声伴分离模型获取升采样后的第二语音数据特征，基于第二语音数据特征获取待识别语音数据。通过上述方式，利用深度神经网络可以提取音频数据中的特征信息进行学习和表达，从而达到更好的声伴分离效果，减少伴奏对人声清唱的影响。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第二个可选实施例中，基于音频频域特征，通过声伴分离模型获取音频深度特征，可以包括：

基于音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对音频频域特征进行正向卷积处理，得到音频深度特征，其中，第一卷积神经网络包括多个正向卷积层；

基于音频深度特征，通过声伴分离模型获取第一语音数据特征以及第一伴奏数据特征，可以包括：

通过声伴分离模型所包括的多层感知机对音频深度特征进行分类处理，得到第一语音数据特征以及第一伴奏数据特征；

基于第一语音数据特征，通过声伴分离模型获取第二语音数据特征，可以包括：

通过声伴分离模型所包括的第二卷积神经网络对第一语音数据特征进行反向卷积处理，得到第二语音数据特征，其中，第二卷积神经网络包括第一逆向卷积网络以及第二逆向卷积网络，第一逆向卷积网络用于对第一语音数据特征进行反向卷积处理，第二逆向卷积网络用于对伴奏数据特征进行反向卷积处理，且第一逆向卷积网络与第二逆向卷积网络均包括多逆向卷积层。

本实施例中，介绍了一种声伴分离模型的结构，为了便于说明，下面将结合图6进行介绍，请参阅图6，图6为本申请实施例中声伴分离模型的一个结构示意图，如图所示，声伴分离模型包括特征提取模块、分离解耦模块以及特征恢复模块，其中，特征提取模块可以包括第一卷积神经网络(Convolutional Neural Networks，CNN)，分离解耦模块可以包括多层感知机(Multilayer Perceptron，MLP)，特征恢复模块可以包括第二CNN，第二CNN可以包括两个分支，一支为第一逆向卷积网络，另一支为第二逆向卷积网络。以图6为例，特征提取模块的作用是将语音分片段，并将其投射到一个低维空间中，从而达到降低维度，压缩信息的目的。低维度的音频深度特征可以用作人声和伴奏的分类，同时，音频深度特征保留基础的声音特征，具有语音恢复的能力。对于特征提取模块而言，可以采用多个正向卷积层的第一卷积神经网络，可选地，在第一卷积神经网络后面还可以接入循环神经网络(Recurrent Neural Network，RNN)或者全连接(Fully Connection，FC)网络等结构，从而实现对音频频域特征的进一步压缩，即采用第一CNN对音频频域特征进行正向卷积处理，得到音频深度特征。

分离解耦模块的作用是在低维度特征层面对语音进行分类，分离解耦模块可以设置在特征提取模块之后。第一CNN将输出的音频深度特征输入至分离解耦模块，分离解耦模块包括MLP，通过MLP对音频深度特征进行分类处理，得到第一语音数据特征以及第一伴奏数据特征。MLP具有输入层、输出层和至少一个隐层，层与层之间是全连接的。

特征恢复模块的作用是将压缩之后的低维特征(如第一语音数据特征)恢复成原始维度的频率域信息(如第二语音数据特征)，特征恢复模块包括第二CNN，第二CNN采用逆卷积的结构，其中，第二CNN设置有两个平行的网络，分别为第一逆向卷积网络以及第二逆向卷积网络，第一逆向卷积网络与第二逆向卷积网络均包括多逆向卷积层。反向卷积处理与正向卷积处理相反，反向卷积处理能够恢复信息，将特征重新映射回高维度的空间当中。可选地，在第二CNN中可以设置时频遮罩或者FC网络等结构进行辅助恢复。在得到第一语音数据特征和第一伴奏数据特征之后，通过第一逆向卷积网络恢复得到第一语音数据特征所对应的第二语音数据特征。并且可以通过第二逆向卷积网络恢复得到第一伴奏数据特征所对应的第二伴奏数据特征。

再次，本申请实施例中，提供了一种声伴分离模型的结构，该声伴分离模型先对音频频域特征进行正向卷积处理，得到音频深度特征，然后利用多层感知机分离得到第一语音数据特征以及第一伴奏数据特征，再分别对第一语音数据特征进行反向卷积处理，得到第二语音数据特征。通过上述方式，能够利用声伴分离模型分离语音数据以及伴奏数据，为方案的实现提供的具体的框架，从而提升方案的可行性和可操作性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第三个可选实施例中，基于音频深度特征，通过声伴分离模型获取第一语音数据特征以及第一伴奏数据特征之后，还可以包括：

基于第一伴奏数据特征，通过声伴分离模型获取第二伴奏数据特征；

根据第二伴奏数据特征获取伴奏数据，其中，伴奏数据属于音频时域信号。

本实施例中，介绍了一种分离得到伴奏数据的方法，为了便于理解，请再次参阅图6，在通过MLP得到第一语音数据特征以及第一伴奏数据特征之后，利用特征恢复模块将压缩之后的低维特征(如第一伴奏数据特征)恢复成原始维度的频率域信息(如第二伴奏数据特征)，通过第一逆向卷积网络恢复得到第一语音数据特征所对应的第二语音数据特征。并且可以通过第二逆向卷积网络恢复得到第一伴奏数据特征所对应的第二伴奏数据特征。

为了便于介绍，请参阅图7，图7为本申请实施例中基于语种识别方法的另一个处理流程示意图，如图所示，假设待识别音频数据为歌曲A，对歌曲A进行预处理，得到歌曲A的音频频域特征，然后将歌曲A的音频频域特征输入至声伴分离模型，由此输出语音数据以及伴奏数据，最后单独提取出伴奏数据即可。这里的伴奏数据能够很好地去除人声部分的影响，从而得到高品质伴奏，伴奏可以用于演唱会、卡拉OK(Karaoke，KTV)以及伴唱应用等，此处不做限定。

进一步地，本申请实施例中，提供了一种分离得到伴奏数据的方法，即在通过声伴分离模型获取第一语音数据特征以及第一伴奏数据特征之后，还可以基于第一伴奏数据特征，通过声伴分离模型获取第二伴奏数据特征，然后根据第二伴奏数据特征获取伴奏数据。通过上述方式，利用深度神经网络可以提取音频数据中的特征信息进行学习和表达，在提取人声清唱部分的同时，还可以提取歌曲的伴奏部分，从而达到更好的声伴分离效果，减少人声清唱对伴奏的影响。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第四个可选实施例中，基于音频频域特征，对待识别音频数据进行声伴数据分离，得到待识别语音数据，可以包括：

基于音频频域特征，通过声伴分离模型获取第一音频深度特征；

基于第一音频深度特征，通过声伴分离模型获取第二音频深度特征；

基于第二音频深度特征，通过声伴分离模型获取语音数据特征以及伴奏数据特征；

基于语音数据特征，获取待识别语音数据，其中，待识别语音数据属于音频时域信号。

本实施例中，介绍了另一种获取待识别语音数据的方法，语种识别装置在对待识别音频数据进行预处理之后得到音频频域特征，将音频频域特征输入至声伴分离模型中，由声伴分离模型的特征提取模块对音频频域特征进行降采样处理，得到第一音频深度特征，其中，降采样处理用于将高频数据转换为低频数据。接下来，需要通过声伴分离模型的特征恢复模块对第一音频深度特征进行升采样处理，得到第二音频深度特征，其中，升采样处理用于将低频数据转换为高频数据。在语种识别装置得到第二音频深度特征之后，由声伴分离模型的分离解耦模块将第二音频深度特征拆分为语音数据特征以及伴奏数据特征，其中，语音数据特征以及伴奏数据特征均为高维特征。

语种识别装置在得到分离完成的语音数据特征以及伴奏数据特征之后，需要对语音数据特征以及伴奏数据特征进行时间域转换，时间域转换具体是将频率域上的语音数据特征转换到时间域上，以及可以将频率域上的伴奏数据特征转换到时间域上。时间域转换的方式包含但不仅限于IFFT以及IDFT。至此，语种识别装置获取到由语音数据特征转换得到的待识别语音数据。

其次，本申请实施例中，提供了另一种获取待识别语音数据的方法，即先通过声伴分离模型获取降采样后的第一音频深度特征，然后通过声伴分离模型获取升采样后的第二音频深度特征，最后通过声伴分离模型分离得到语音数据特征以及伴奏数据特征，基于语音数据特征获取待识别语音数据。通过上述方式，利用深度神经网络可以提取音频数据中的特征信息进行学习和表达，从而达到更好的声伴分离效果，减少伴奏对人声清唱的影响。且本申请还提供了另一种获取待识别语音数据的方法，从而提升方案应用的灵活性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第五个可选实施例中，基于音频频域特征，通过声伴分离模型获取第一音频深度特征，可以包括：

基于音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对音频频域特征进行正向卷积处理，得到第一音频深度特征，其中，第一卷积神经网络包括多个正向卷积层；

基于第一音频深度特征，通过声伴分离模型获取第二音频深度特征，可以包括：

基于第一音频深度特征，通过声伴分离模型所包括的第二卷积神经网络对第一语音数据特征进行反向卷积处理，得到第二音频深度特征，其中，第二卷积神经网络包括多逆向卷积层；

基于第二音频深度特征，通过声伴分离模型获取语音数据特征以及伴奏数据特征，可以包括：

通过声伴分离模型所包括的多层感知机对第二音频深度特征进行分类处理，得到语音数据特征以及伴奏数据特征，其中，多层感知机包括第一多层感知机以及第二多层感知机，第一多层感知机用于获取语音数据特征，第二多层感知机用于获取伴奏数据特征。

本实施例中，介绍了另一种声伴分离模型的结构，为了便于说明，下面将结合图8进行介绍，请参阅图8，图8为本申请实施例中声伴分离模型的另一个结构示意图，如图所示，声伴分离模型包括特征提取模块、特征恢复模块以及分离解耦模块，其中，特征提取模块可以包括第一CNN，特征恢复模块可以包括第二CNN。分离解耦模块可以包括MLP，MLP包括两个平行的逆向卷积网络，分别为第一多层感知机以及第二多层感知机，通过这两个逆向卷积网络的分支对网络进行监督，达到分离的目的。

以图8为例，特征提取模块的作用是将语音分片段，并将其投射到一个低维空间中，从而达到降低维度，压缩信息的目的。低维度的音频深度特征可以用作人声和伴奏的分类，同时，音频深度特征保留基础的声音特征，具有语音恢复的能力。对于特征提取模块而言，可以采用多个正向卷积层的第一CNN，可选地，在第一CNN后面还可以接入循环神经网络RNN或者FC网络等结构，从而实现对音频频域特征的进一步压缩，即采用第一CNN对音频频域特征进行正向卷积处理，得到第一音频深度特征。

特征恢复模块的作用是将压缩之后的低维特征(如第一音频深度特征)恢复成原始维度的频率域信息(如第二音频深度特征)，特征恢复模块包括第二CNN，第二CNN采用逆卷积的结构。反向卷积处理与正向卷积处理相反，反向卷积处理能够恢复信息，将特征重新映射回高维度的空间当中。可选地，在第二CNN中可以设置时频遮罩或者FC网络等结构进行辅助恢复。在得到第一音频深度特征之后，通过第二CNN恢复得到第二音频深度特征。

分离解耦模块的作用是对语音进行分类，分离解耦模块可以设置在特征恢复模块之后。第二CNN将输出的第二音频深度特征输入至分离解耦模块，分离解耦模块包括MLP，MLP设置有两个平行的网络，分别为第一多层感知机以及第二多层感知机，第一多层感知机与第二多层感知机均包括多逆向卷积层，第一多层感知机用于提取第二音频深度特征中的语音数据特征，第二多层感知机用于提取第二音频深度特征中的伴奏数据特征。

再次，本申请实施例中，提供了另一种声伴分离模型的结构，该声伴分离模型先对音频频域特征进行正向卷积处理，得到第一音频深度特征，然后利用第二卷积神经网络对第一音频深度特征进行反向卷积处理，得到第二音频深度特征，再通过多层感知机分离得到语音数据特征以及伴奏数据特征。通过上述方式，能够利用声伴分离模型分离语音数据以及伴奏数据，为方案的实现提供的具体的框架，从而提升方案的可行性和可操作性。且本申请还提供了另一种声伴分离模型的结构，从而提升方案应用的灵活性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第六个可选实施例中，对待识别语音数据进行语种识别，得到待识别音频数据的语种识别结果，可以包括：

根据待识别语音数据生成第一语音频域特征；

基于第一语音频域特征，通过第一语种识别模型获取第一语种分布概率，其中，第一语种识别模型属于语种识别模型；

根据待识别语音数据生成语音模拟数据；

根据语音模拟数据生成第二语音频域特征；

基于第二语音频域特征，通过第二语种识别模型获取第二语种分布概率，其中，第二语种识别模型属于语种识别模型；

根据第一语种分布概率以及第二语种分布概率，生成语种识别结果。

本实施例中，提供了一种获取待识别语音数据的方法，语种识别装置在对待识别语音数据进行预处理之后得到第一语音频域特征，具体地，第一语音频域特征为将待识别语音数据转换成序列的特征向量，第一语音频域特征包括声学特征以及音素判别特征中的至少一种。声学特征由语音通过频谱分帧、时频转换以及滤波等操作后生成的，声学特征包含但不仅限于MFCC特征和Fbank特征等。音素判别特征由音素识别器生成，音素识别器用于对当前帧的音素类别进行识别，音素判别特征包含但不仅限于瓶颈特征以及音素后验概率(Phone Posterior Probability，PPP)特征等。语种识别装置还需要对待识别语音数据进行语音谱变换，即在在语音谱特征上进行频率域变换，比如，对待识别语音数据中的基频乘以系数，将剧烈变化的待识别语音数据转换为平滑的语音模拟数据。类似地，对语音模拟数据进行预处理之后得到第二语音频域特征。

为了便于介绍，请参阅图9，图9为本申请实施例中语种识别模型的一个结构示意图，如图所示，将第一语音频域特征输入语种识别模型的第一语种识别模型中，由第一语种识别模型输出第一语种分布概率。将平滑处理后得到的第二语音频域特征输入语种识别模型的第二语种识别模型中，由第二语种识别模型输出第二语种分布概率。假设可识别的语种类型为“国语”、“英文”和“日文”，第一语种分布概率为(0.1,0.2,0.7)，即有10％的概率为“国语”，20％的概率为“英文”，70％的概率为“日文”。第二语种分布概率为(0.2,0.5,0.3)，即有20％的概率为“国语”，50％的概率为“英文”，30％的概率为“日文”。将第一语种分布概率和第二语种分布概率进行融合，以平均法为例，得到融合后的分别概率为(0.15,0.35,0.5)，即最终结果为有15％的概率为“国语”，35％的概率为“英文”，50％的概率为“日文”。基于此，可以确定属于“日文”的概率最大，即确定语种识别结果为“日文”。需要说明的是，还可以采用其他方式融合第一语种分布概率以及第二语种分布概率，比如，取最大值法或者其他方式，此处不做限定。

可以理解的是，在实际应用中，还可以采用高斯混合模型(Gaussian mixturemodel，GMM)、高斯混合模型-通用背景模型(Gaussian mixture model-universalbackgroundmodel，GMM-UBM)、i-向量(i-vector)加上后端补偿、x-vector加上后端补偿以及端到端神经网络等方式获取语种识别结果。

进一步地，本申请实施例中，提供了一种获取语种识别结果的方法，即先通过第一语种识别模型获取第一语种分布概率，并且通过第二语种识别模型获取第二语种分布概率，根据第一语种分布概率以及第二语种分布概率，生成语种识别结果。通过上述方式，语种分类过程中考虑歌曲基频变化大的情况，于是利用语音谱变换的方式将人声清唱模拟成语音，再基于模拟前的人声清唱以及模拟后的语音进行语种识别，识别的过程中利用深度神经网络能够达到更高的识别准确率，而传统方法在短语音的识别的任务中，性能下降较为严重，深度神经网络对于语音的长度具有更低的敏感度。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第七个可选实施例中，基于第一语音频域特征，通过第一语种识别模型获取第一语种分布概率，可以包括：

基于第一语音频域特征，通过第一语种识别模型获取第一语音深度特征；

基于第一语音深度特征，通过第一语种识别模型获取第一特征向量；

基于第一特征向量，通过第一语种识别模型获取第一语种分布概率。

本实施例中，介绍了第一语种识别模型的预测方法，为了便于说明，下面将结合图10进行介绍，请参阅图10，图10为本申请实施例中第一语种识别模型的一个结构示意图，如图所示，语种识别模型包括第一语种识别模型和第二语种识别模型，其中，第一语种识别模型和第二语种识别模型可以具有相同的网络结构，也可以具有不同的网络结构。第一语种识别模型包括卷积深度特征提取模块，时序池化模块和分类识别模块，其中，卷积深度特征提取模块可以包括深度卷积神经网络(Deep Convolutional Neural Network，Deep-CNN)，时序池化模块可以包括池化层，池化层的类型包含但不仅限于全局平均池化(Globalaverage Pooling，GAP)、最大值池化(max pooling)以及最小值池化(minpooling)。

以图10为例，卷积深度特征提取模块用于提取帧特征中的深度信息，卷积网络结构能够在训练过程中，学习对应模型的参数，提取原始帧级别特征中的深层次特征。卷积深度特征提取模块可以包括Deep-CNN，Deep-CNN的结构可以是密集卷积网络(DenseNet)结构或者残差神经网络(ResNet)结构等。通过卷积深度特征提取模块提取到第一语音深度特征。

时序池化模块用于对与时序相关的卷积深度特征(如第一语音深度特征)进行整合和统计，最终输出固定维度的特征向量(如第一特征向量)。这个特征向量能够考虑整体的输入信息，将不同时长的语音转化成固定长度的特征，方便接下来对实际场景中不定长的语音进行统一的分类识别工作。该固定维度的特征向量是表征输入语种信息的特征向量，通常情况下深度神经网络池化后的定长特征向量不具有传统人为设定特征的固定含义(如MFCC的维度表征滤波器个数等)，而该特征向量维度一般会影响识别准确率、识别速度和计算量等指标。通过时序池化模块中的池化层可以得到第一特征向量。

分类识别模块可以包括FC层分类器，利用FC层分类器将固定维度的深度特征(如第一特征向量)映射为识别语种的不同类别，在经过最后激活函数之后，能够输出对应语种的后验概率，即得到第一语种分布概率。

更进一步地，本申请实施例中，提供了第一语种识别模型的预测方法，即先通过第一语种识别模型获取第一语音深度特征，然后通过第一语种识别模型获取第一特征向量，再通过第一语种识别模型获取第一语种分布概率。通过上述方式，能够采用第一语种识别模型得到人声歌唱部分的语种分布概率，该语种分布概率作为分类的一部分依据，从而提升语种识别结果的可靠性。

可选地，在上述图4对应的各个实施例的基础上，本申请实施例提供的语种识别的方法第八个可选实施例中，基于第二语音频域特征，通过第二语种识别模型获取第二语种分布概率，可以包括：

基于第二语音频域特征，通过第二语种识别模型获取第二语音深度特征；

基于第二语音深度特征，通过第二语种识别模型获取第二特征向量；

基于第二特征向量，通过第二语种识别模型获取第二语种分布概率。

本实施例中，介绍了第二语种识别模型的预测方法，为了便于说明，下面将结合图10进行介绍，请参阅图11，图11为本申请实施例中第二语种识别模型的一个结构示意图，如图所示，语种识别模型包括第一语种识别模型和第二语种识别模型，其中，第一语种识别模型和第二语种识别模型可以具有相同的网络结构，也可以具有不同的网络结构。第二语种识别模型包括卷积深度特征提取模块，时序池化模块和分类识别模块，其中，卷积深度特征提取模块可以包括Deep-CNN。时序池化模块可以包括池化层。

以图11为例，卷积深度特征提取模块用于提取帧特征中的深度信息，卷积网络结构能够在训练过程中，学习对应模型的参数，提取原始帧级别特征中的深层次特征。卷积深度特征提取模块可以包括Deep-CNN，Deep-CNN的结构可以是DenseNet结构或者ResNet结构等。通过卷积深度特征提取模块提取到第二语音深度特征。

时序池化模块用于对与时序相关的卷积深度特征(如第二语音深度特征)进行整合何统计，最终输出固定维度的特征向量(如第二特征向量)。这个特征向量能够考虑整体的输入信息，将不同时长的语音转化成给定长度的特征，方便接下来对实际场景中不定长的语音进行统一的分类识别工作。通过时序池化模块中的池化层可以得到第二特征向量。

分类识别模块可以包括FC层分类器，利用FC层分类器将固定维度的深度特征(如第二特征向量)映射为识别语种的不同类别，在经过最后激活函数之后，能够输出对应语种的后验概率，即得到第二语种分布概率。

更进一步地，本申请实施例中，提供了第二语种识别模型的预测方法，即先通过第二语种识别模型获取第二语音深度特征，然后通过第二语种识别模型获取第二特征向量，再通过第二语种识别模型获取第二语种分布概率。通过上述方式，能够采用第二语种识别模型得到模拟正常语音的语种分布概率，该语种分布概率作为分类的另一部分依据，从而提升语种识别结果的可靠性。

结合上述介绍，下面将针对声伴分离模型，对本申请中提供的模型训练方法进行介绍，请参阅图12，本申请实施例中模型训练的方法一个实施例包括：

201、获取待训练音频数据集合，其中，待训练音频数据集合包括至少一个待训练样本对，待训练样本对包括音频数据样本、语音数据样本以及伴奏数据样本，语音数据样本具有已标注的真实语音标签，伴奏数据样本具有已标注的真实伴奏标签；

本实施例中，模型训练装置获取待训练音频数据集合，模型训练装置可以部署于终端设备，也可以部署于服务器，此处不做限定。待训练音频数据集合包括至少一个待训练样本对，具体地，待训练样本对可以是正样本对，也可以是负样本对，正样本对包括音频数据样本、语音数据样本以及伴奏数据样本，且语音数据样本以及伴奏数据样本是由该音频数据样本分解得到的。负样本对包括音频数据样本、语音数据样本以及伴奏数据样本，但是这里的语音数据样本和/或伴奏数据样本，并不是由该音频数据样本分解得到的。其中，语音数据样本具有已标注的真实语音标签，如语音标签为“1”表示为人声数据，语音标签为“0”表示不是人声数据，伴奏标签为“1”表示为伴奏数据，伴奏标签为“0”表示不是伴奏数据。

202、基于待训练音频数据集合，通过待训练声伴分离模型获取音频数据样本对所对应的第一预测音频以及第二预测音频，其中，第一预测音频对应于预测语音标签，第二预测音频对应于预测伴奏标签；

本实施例中，将待训练音频数据集合输入至待训练声伴分离模型进行训练。为了便于介绍，请参阅图13，图13为本申请实施例中基于声伴分离模型训练方法的一个处理流程示意图，如图所示，以一个待训练样本对为例，将音频数据样本(即同时包括人声和伴奏的样本)输入至待训练声伴分离模型，由此得到两个预测结果，即得到第一预测音频以及第二预测音频，其中，第一预测音频对应预测语音标签，第二预测音频对应预测伴奏标签。

203、根据真实语音标签、预测语音标签、真实伴奏标签以及预测伴奏标签，确定损失函数；

本实施例中，模型训练装置将预测得到的预测伴奏标签与真实伴奏标签进行比对，并将预测得到的预测语音标签与真实语音标签进行比对，具体可以采用回归损失函数进行计算，如采用平均平方误差(mean-square error，MSE)进行计算：

其中，L1表示MSE损失函数，N表示待训练音频数据集合中待训练样本对的数量，i表示第i个待训练样本对，y_i表示第i个待训练样本对所对应的真实语音标签，

表示第i个待训练样本对所对应的预测语音标签，x_i表示第i个待训练样本对所对应的真实伴奏标签，

表示第i个待训练样本对所对应的预测伴奏标签。

可选地，对于有正样本和负样本的情况，还可以采用三重损失函数(Tripletloss)或者对比损失函数(Contrastive loss)进行计算。

204、基于损失函数训练待训练声伴分离模型，得到声伴分离模型。

本实施例中，当损失函数收敛时，模型训练装置即可采用当前待训练声伴分离模型的模型参数作为最终使用的模型参数，从而得到声伴分离模型。

本申请实施例中，提供了一种模型训练的方法，首先获取待训练音频数据集合，然后基于待训练音频数据集合，通过待训练声伴分离模型获取音频数据样本对所对应的第一预测音频以及第二预测音频，由此确定损失函数，最后基于损失函数训练待训练声伴分离模型，得到声伴分离模型。通过上述方式，在训练过程中通过大量歌曲与纯伴奏音乐数据，训练用于实现人声与伴奏分离声伴分离深度神经网络，从而实现人声与伴奏的分离，由此提升方案的可行性和可操作性。

结合上述介绍，下面将针对语种识别模型，对本申请中提供的模型训练方法进行介绍，请参阅图14，本申请实施例中模型训练的方法一个实施例包括：

301、获取第一待训练语音样本集合，其中，第一待训练语音样本集合包括至少一个第一待训练语音样本，第一待训练语音样本具有已标注的真实语种标签；

本实施例中，模型训练装置获取第一待训练语音样本集合，模型训练装置可以部署于终端设备，也可以部署于服务器，此处不做限定。第一待训练语音样本集合包括至少一个第一待训练语音样本，其中，第一待训练语音样本可以是较为平缓的说话语音，第一待训练语音样本具有已标注的真实语种标签，比如“国语”、“英文”或者“日文”等。

302、根据第一待训练语音样本集合生成第二待训练语音样本集合，其中，第二待训练语音样本集合包括至少一个第二待训练语音样本，第二待训练语音样本为第一待训练语音样本经过基频随机变换后得到的；

本实施例中，模型训练装置对第一待训练语音样本集合中的第一待训练语音样本进行语音谱变换，从而得到第二待训练语音样本，第二待训练语音样本可以是模拟生成的人声清唱数据。这些第二待训练语音样本构成第二待训练语音样本集合。语音谱变换是指在语音谱特征上进行频率域变换。

303、基于第一待训练语音样本集合以及第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，其中，第一预测语种标签为根据第一待训练语音样本得到的，第二预测语种标签为根据第二待训练语音样本得到的；

本实施例中，待训练语种识别模型可以包括两个部分，分为为第一待训练语种识别模型以及第二待训练语种识别模型，第一待训练语种识别模型的训练数据为第一待训练语音样本集合，第二待训练语种识别模型的训练数据为第二待训练语音样本集合。具体地，模型训练装置将第一待训练语音样本集合输入至第一待训练语种识别模型，由第一待训练语种识别模型输出第一预测语种标签。模型训练装置将第二待训练语音样本集合输入至第二待训练语种识别模型，由第二待训练语种识别模型输出第二预测语种标签。

304、根据真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数；

本实施例中，模型训练装置根据真实语种标签以及第一预测语种标签确定第一损失函数，根据真实语种标签以及第二预测语种标签确定第二损失函数，结合第一损失函数和第二损失函数得到损失函数。具体可以采用交叉熵损失函数或者MSE损失函数等方式进行计算。例如，采用如下方式进行计算：

其中，L表示MSE损失函数，L2表示第一损失函数，L3表示第二损失函数，N表示样本总数，i表示第i个样本，y_i表示第i个第一待训练语音样本对所对应的真实语种标签，表示第i个第一待训练语音样本所对应的第一预测语种标签，

表示第i个第二待训练语音样本所对应的第二预测语种标签。

可选地，对于有正样本和负样本的情况，还可以采用Triplet loss或者Contrastiveloss进行计算。

305、基于损失函数训练待训练语种识别模型，得到语种识别模型。

本实施例中，当损失函数收敛时，即可采用当前待训练语种识别模型的模型参数作为最终使用的模型参数，从而得到语种识别模型。

本申请实施例中，提供了一种模型训练的方法，首先获取第一待训练语音样本集合，然后根据第一待训练语音样本集合生成第二待训练语音样本集合，再基于第一待训练语音样本集合以及第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，由此确定损失函数，最后基于损失函数训练待训练语种识别模型，得到语种识别模型。通过上述方式，在训练过程中利用大量多语种语音数据，或者利用大量多语种清唱数据，先进行语音谱变换，再训练深度神经网络，实现对输入人声清唱进行语种分类，由此提升方案的可行性和可操作性。

可选地，在上述图14对应的各个实施例的基础上，本申请实施例提供的模型训练的方法第一个可选实施例中，基于第一待训练语音样本集合以及第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，可以包括：

基于第一待训练语音样本集合，通过第一待训练语种识别模型获取第一待训练语音样本所对应的第一预测语种标签，其中，第一待训练语种识别模型属于待训练语种识别模型；

基于第二待训练语音样本集合，通过第二待训练语种识别模型获取第二待训练语音样本所对应的第二预测语种标签，其中，第二待训练语种识别模型属于待训练语种识别模型；

根据真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数，可以包括：

根据真实语种标签以及第一预测语种标签，确定第一损失函数；

根据真实语种标签以及第二预测语种标签，确定第二损失函数；

基于损失函数训练待训练语种识别模型，得到语种识别模型，可以包括：

基于第一损失函数训练第一待训练语种识别模型，得到第一语种识别模型，其中，第一语种识别模型属于语种识别模型；

基于第二损失函数训练第二待训练语种识别模型，得到第二语种识别模型，其中，第二语种识别模型属于语种识别模型。

本实施例中，介绍供了一种第一语种识别模型和第二语种识别模型的训练方式。在训练时需要将平滑的第一待训练语音样本变换为模拟清唱的第二待训练语音样本。频率域变换的目的是由于人们通过声带的震动发出声音，这种声带震动的频率称为基音频率，相应的周期称为基音周期。基音周期是语音信号处理中描述激励源的重要参数之一。在语音中，基音周期的变化成为声调。在人们日常讲话中，声调的变化是较为平缓的。而在歌曲中，人们随着伴奏唱出的歌词通常有着较大的声调变化，且相同字词在唱歌与讲话中也存在一定差异。如果直接使用人声歌唱数据进行语种识别分类会带来两个问题。

第一个问题是，由于多语种的清唱数据很少，而从歌曲中分离出的清唱数据也较少，所以用于训练语种分类网络的数据较少，训练出一个鲁棒性较好的语种分类网络难度较大。

第二个问题是，由于多语种的语音数据方便获取，且数据量较大，但是语音数据与清唱数据又存在声调等方面的差异，无法直接训练出用于识别清唱的语种分类网络。

为了识别歌曲的语种信息，可以在语音谱层面对语音进行变换。为了便于介绍，请参阅图15，图15为本申请实施例中基于第一语种识别模型训练方法的一个处理流程示意图，如图所示，直接利用多语种的第一待训练语音样本集合(即讲话语音数据)训练能够区分不同语种的深度神经网络，将从歌曲中提取的人声歌唱数据基频进行平滑处理，模拟生成对应的第一待训练语音样本集合，将处理后的模拟讲话的第一待训练语音样本集合送入待识别第一语种识别模型，得到第一预测语种标签。模拟生成第一待训练语音样本集合的方式可以是，利用神经网络，使用语音数据训练一个能够表征语音基频分布规律的神经网络，再利用该训练好的神经网络处理清唱数据，生成平滑后对应的语音数据。

请参阅图16，图16为本申请实施例中基于第二语种识别模型训练方法的一个处理流程示意图，如图所示，将音调较为平缓的第一待训练语音样本(即讲话语音数据)进行基频的随机变换，模拟生成第二待训练语音样本集合(即人声清唱数据)，利用该第二待训练语音样本集合训练能够区分不同语种的深度神经网络，将处理后的模拟清唱的第二待训练语音样本集合送入待识别第二语种识别模型，得到第二预测语种标签。其中，随机变换的操作可以使用一定的清唱数据，训练一个能够表征清唱歌曲基频分布规律的神经网络，再利用这个神经网络对待随机变换的语音数据进行变换，生成对应的清唱数据。

需要说明的是，说话语音由于音调变化较为平缓、且有一定规律性，而清唱数据的音调变化较为剧烈，从生理角度，人清唱时候就是将语音的音调按照歌曲的形式增加音调变化，而其发音的文字内容等没发生变化，从信号的角度讲，可以简单的理解为语音的基频变化平稳、清唱的基频变化较为剧烈，而其他谐波分量未发生较大变化，我们将语音数据的基频进行随机变换，就模拟了人清唱的过程，整个信号的其他内容没有改变，只对音调进行了随机变化。

其次，本申请实施例中，提供了一种第一语种识别模型和第二语种识别模型的训练方式，由语音谱变换后得到的语音样本训练不同的语种识别模型。通过上述方式，一方面可以解决多语种的清唱数据较少的问题，通过语音谱变换增加清唱数据的数量，训练出具有较好鲁棒性的语种识别模型，另一方面由于语音数据与清唱数据又存在声调等方面的差异，因此，通过语音谱变换训练出用于识别清唱的语种分类网络。

本申请提出了一种基于声伴分离与语音谱变换的语种识别方法，为了便于理解，请参阅图17，图17为本申请实施例中语种识别的方法一个整体流程示意图，整个流程分为两个部分，第一部分是基于深度神经网络的声伴分离模型，该部分在训练阶段中，利用大量歌曲(人声歌唱+伴奏音乐)与纯伴奏音乐数据训练得到可以区分歌曲中纯音乐伴奏和人声歌唱的深度神经网络。在应用阶段(或测试阶段)，利用训练好的声伴分离模型对输入歌曲的数据进行声伴分离操作，输出纯人声的歌唱。第二部分是基于语音谱变换的语种识别模型，该模型包含两个语种识别系统，一个是人声歌唱语种识别系统，另一个是人声歌唱到普通语音的语音谱变换级联普通语音语种识别系统。其中，级联表示串联。

在训练阶段，对普通的多语种语音数据进行谱变换，将其基频分布调整到与人声歌唱数据相似后，训练深度神经网络得到人声歌唱语种识别系统。另外，在训练阶段，直接用普通多语种语音数据训练深度神经网络得到普通语音语种识别系统。在应用阶段，将第一部分声伴分离模型输出的人声清唱部分，输入至人声歌唱语种识别系统得到识别结果a，再对人声清唱部分进行语音谱变换后送入普通语音语种识别系统得到识别结果b。最后将结果a和结果b融合得到语种识别结果。整个系统对直接输入的歌曲数据进行语种识别分类，输出为该歌曲所对应的语种类别。

下面对本申请中的语种识别装置进行详细描述，请参阅图18，图18为本申请实施例中语种识别装置一个实施例示意图，语种识别装置40包括：

获取模块401，用于获取待识别音频数据；

生成模块402，用于从所述获取模块401获取的所述待识别音频数据提取音频频域特征；

所述获取模块401，还用于基于所述生成模块生成402的所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，其中，所述声伴数据分离为从音频数据中分离出语音数据和伴奏数据；

所述获取模块401，还用于对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果。

可选地，在上述图18所对应的实施例的基础上，本申请实施例提供的语种识别装置40的另一实施例中，

所述获取模块401，具体用于基于所述音频频域特征，通过所述声伴分离模型获取音频深度特征；

所述获取模块401，具体用于基于所述音频频域特征，通过所述声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述获取模块401，具体用于通过所述声伴分离模型所包括的多层感知机对所述音频深度特征进行分类处理，得到所述第一语音数据特征以及所述第一伴奏数据特征；

所述获取模块401，具体用于通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二语音数据特征，其中，所述第二卷积神经网络包括第一逆向卷积网络以及第二逆向卷积网络，所述第一逆向卷积网络用于对所述第一语音数据特征进行反向卷积处理，所述第二逆向卷积网络用于对所述伴奏数据特征进行反向卷积处理，且所述第一逆向卷积网络与所述第二逆向卷积网络均包括多逆向卷积层。

所述获取模块401，还用于基于所述音频深度特征，通过所述声伴分离模型获取第一语音数据特征以及第一伴奏数据特征之后，基于所述第一伴奏数据特征，通过所述声伴分离模型获取第二伴奏数据特征；

所述获取模块401，还用于根据所述第二伴奏数据特征获取伴奏数据，其中，所述伴奏数据属于音频时域信号。

所述获取模块401，具体用于基于所述音频频域特征，通过声伴分离模型获取第一音频深度特征；

所述获取模块401，具体用于基于所述音频频域特征，通过所述声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述第一音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述获取模块401，具体用于基于所述第一音频深度特征，通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二音频深度特征，其中，所述第二卷积神经网络包括多逆向卷积层；

所述获取模块401，具体用于通过所述声伴分离模型所包括的多层感知机对所述第二音频深度特征进行分类处理，得到所述语音数据特征以及所述伴奏数据特征，其中，所述多层感知机包括第一多层感知机以及第二多层感知机，所述第一多层感知机用于获取所述语音数据特征，所述第二多层感知机用于获取所述伴奏数据特征。

所述获取模块401，具体用于根据所述待识别语音数据生成第一语音频域特征；

根据所述待识别语音数据生成语音模拟数据；

根据所述语音模拟数据生成第二语音频域特征；

所述获取模块401，具体用于基于所述第一语音频域特征，通过所述第一语种识别模型获取第一语音深度特征；

所述获取模块401，具体用于基于所述第二语音频域特征，通过所述第二语种识别模型获取第二语音深度特征；

下面对本申请中的模型训练装置进行详细描述，请参阅图19，图19为本申请实施例中模型训练装置一个实施例示意图，模型训练装置50包括：

获取模块501，用于获取待训练音频数据集合，其中，所述待训练音频数据集合包括至少一个待训练样本对，所述待训练样本对包括音频数据样本、语音数据样本以及伴奏数据样本，所述语音数据样本具有已标注的真实语音标签，所述伴奏数据样本具有已标注的真实伴奏标签；

所述获取模块501，还用于基于所述待训练音频数据集合，通过待训练声伴分离模型获取所述音频数据样本对所对应的第一预测音频以及第二预测音频，其中，所述第一预测音频对应于预测语音标签，所述第二预测音频对应于预测伴奏标签；

确定模块502，用于根据所述获取模块501获取的所述真实语音标签、所述预测语音标签、所述真实伴奏标签以及所述预测伴奏标签，确定损失函数；

训练模块503，用于基于所述确定模块502确定的所述损失函数训练所述待训练声伴分离模型，得到声伴分离模型。

下面对本申请中的模型训练装置进行详细描述，请参阅图20，图20为本申请实施例中模型训练装置一个实施例示意图，模型训练装置60包括：

获取模块601，用于获取第一待训练语音样本集合，其中，所述第一待训练语音样本集合包括至少一个第一待训练语音样本，所述第一待训练语音样本具有已标注的真实语种标签；

生成模块602，用于根据所述获取模块601获取的所述第一待训练语音样本集合生成第二待训练语音样本集合，其中，所述第二待训练语音样本集合包括至少一个第二待训练语音样本，所述第二待训练语音样本为所述第一待训练语音样本经过基频随机变换后得到的；

所述获取模块601，还用于基于所述第一待训练语音样本集合以及所述生成模块602生成的所述第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，其中，所述第一预测语种标签为根据所述第一待训练语音样本得到的，所述第二预测语种标签为根据所述第二待训练语音样本得到的；

确定模块603，用于根据所述获取模块601获取的所述真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数；

训练模块604，用于基于所述确定模块603确定的所述损失函数训练所述待训练语种识别模型，得到语种识别模型。

可选地，在上述图20所对应的实施例的基础上，本申请实施例提供的模型训练装置60的另一实施例中，

所述获取模块601，具体用于基于所述第一待训练语音样本集合，通过第一待训练语种识别模型获取所述第一待训练语音样本所对应的所述第一预测语种标签，其中，所述第一待训练语种识别模型属于所述待训练语种识别模型；

所述确定模块603，具体用于根据所述真实语种标签以及所述第一预测语种标签，确定第一损失函数；

所述训练模块604，具体用于基于所述第一损失函数训练所述第一待训练语种识别模型，得到第一语种识别模型，其中，所述第一语种识别模型属于语种识别模型；

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为终端设备，如图21所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigitalAssistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图21示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图21，手机包括：射频(Radio Frequency，RF)电路710、存储器720、输入单元730、显示单元740、传感器750、音频电路760、无线保真(wireless fidelity，WiFi)模块770、处理器780、以及电源790等部件。本领域技术人员可以理解，图21中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图21对手机的各个构成部件进行具体的介绍：

RF电路710可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器780处理；另外，将设计上行的数据发送给基站。通常，RF电路710包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier，LNA)、双工器等。此外，RF电路710还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacketRadio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(LongTermEvolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器720可用于存储软件程序以及模块，处理器780通过运行存储在存储器720的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元730可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元730可包括触控面板731以及其他输入设备732。触控面板731，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板731上或在触控面板731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板731。除了触控面板731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元740可包括显示面板741，可选的，可以采用液晶显示器(LiquidCrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板741。进一步的，触控面板731可覆盖显示面板741，当触控面板731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图21中，触控面板731与显示面板741是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板731与显示面板741集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在手机移动到耳边时，关闭显示面板741和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与手机之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一手机，或者将音频数据输出至存储器720以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块770可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图21示出了WiFi模块770，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器780可包括一个或多个处理单元；可选的，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器780中。

手机还包括给各个部件供电的电源790(比如电池)，可选的，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器780还具有以下功能：

获取待识别音频数据；

从所述待识别音频数据提取音频频域特征；

基于所述损失函数训练所述待训练语种识别模型，得到语种识别模型。

本申请实施例还提供了另一种语种识别装置以及模型训练装置，语种识别装置以及模型训练装置部署于电子设备，该电子设备具体为服务器。图22是本申请实施例提供的一种服务器结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)822(例如，一个或一个以上处理器)和存储器832，一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中，存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器822可以设置为与存储介质830通信，在服务器800上执行存储介质830中的一系列指令操作。

服务器800还可以包括一个或一个以上电源826，一个或一个以上有线或无线网络接口850，一个或一个以上输入输出接口858，和/或，一个或一个以上操作系统841，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图22所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU 822还具有以下功能：

获取待识别音频数据；

从所述待识别音频数据提取音频频域特征；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语种识别的方法，其特征在于，包括：

获取待识别音频数据；

从所述待识别音频数据提取音频频域特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，包括：

基于所述音频频域特征，通过声伴分离模型获取音频深度特征；

3.根据权利要求2所述的方法，其特征在于，所述基于音频频域特征，通过所述声伴分离模型获取音频深度特征，包括：

基于所述音频频域特征，通过声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述基于所述音频深度特征，通过所述声伴分离模型获取第一语音数据特征以及第一伴奏数据特征，包括：

通过所述声伴分离模型所包括的多层感知机对所述音频深度特征进行分类处理，得到所述第一语音数据特征以及所述第一伴奏数据特征；

所述基于所述第一语音数据特征，通过所述声伴分离模型获取第二语音数据特征，包括：

通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二语音数据特征，其中，所述第二卷积神经网络包括第一逆向卷积网络以及第二逆向卷积网络，所述第一逆向卷积网络用于对所述第一语音数据特征进行反向卷积处理，所述第二逆向卷积网络用于对所述伴奏数据特征进行反向卷积处理，且所述第一逆向卷积网络与所述第二逆向卷积网络均包括多逆向卷积层。

4.根据权利要求3所述的方法，其特征在于，所述基于所述音频深度特征，通过所述声伴分离模型获取第一语音数据特征以及第一伴奏数据特征之后，所述方法还包括：

基于所述第一伴奏数据特征，通过所述声伴分离模型获取第二伴奏数据特征；

根据所述第二伴奏数据特征获取伴奏数据，其中，所述伴奏数据属于音频时域信号。

5.根据权利要求1所述的方法，其特征在于，所述基于所述音频频域特征，对所述待识别音频数据进行声伴数据分离，得到待识别语音数据，包括：

基于所述音频频域特征，通过声伴分离模型获取第一音频深度特征；

6.根据权利要求5所述的方法，其特征在于，所述基于所述音频频域特征，通过声伴分离模型获取第一音频深度特征，包括：

基于所述音频频域特征，通过所述声伴分离模型所包括的第一卷积神经网络对所述音频频域特征进行正向卷积处理，得到所述第一音频深度特征，其中，所述第一卷积神经网络包括多个正向卷积层；

所述基于所述第一音频深度特征，通过所述声伴分离模型获取第二音频深度特征，包括：

基于所述第一音频深度特征，通过所述声伴分离模型所包括的第二卷积神经网络对所述第一语音数据特征进行反向卷积处理，得到所述第二音频深度特征，其中，所述第二卷积神经网络包括多逆向卷积层；

所述基于所述第二音频深度特征，通过所述声伴分离模型获取语音数据特征以及伴奏数据特征，包括：

通过所述声伴分离模型所包括的多层感知机对所述第二音频深度特征进行分类处理，得到所述语音数据特征以及所述伴奏数据特征，其中，所述多层感知机包括第一多层感知机以及第二多层感知机，所述第一多层感知机用于获取所述语音数据特征，所述第二多层感知机用于获取所述伴奏数据特征。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对所述待识别语音数据进行语种识别，得到所述待识别音频数据的语种识别结果，包括：

根据所述待识别语音数据生成第一语音频域特征；

根据所述待识别语音数据生成语音模拟数据；

根据所述语音模拟数据生成第二语音频域特征；

8.根据权利要求7所述的方法，其特征在于，所述基于所述第一语音频域特征，通过第一语种识别模型获取第一语种分布概率，包括：

基于所述第一语音频域特征，通过所述第一语种识别模型获取第一语音深度特征；

9.根据权利要求7所述的方法，其特征在于，所述基于所述第二语音频域特征，通过第二语种识别模型获取第二语种分布概率，包括：

基于所述第二语音频域特征，通过所述第二语种识别模型获取第二语音深度特征；

10.一种模型训练的方法，其特征在于，包括：

11.一种模型训练的方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，所述基于所述第一待训练语音样本集合以及所述第二待训练语音样本集合，通过待训练语种识别模型获取第一预测语种标签以及第二预测语种标签，包括：

基于所述第一待训练语音样本集合，通过第一待训练语种识别模型获取所述第一待训练语音样本所对应的所述第一预测语种标签，其中，所述第一待训练语种识别模型属于所述待训练语种识别模型；

所述根据所述真实语种标签、第一预测语种标签以及第二预测语种标签，确定损失函数，包括：

根据所述真实语种标签以及所述第一预测语种标签，确定第一损失函数；

所述基于所述损失函数训练所述待训练语种识别模型，得到语种识别模型，包括：

基于所述第一损失函数训练所述第一待训练语种识别模型，得到第一语种识别模型，其中，所述第一语种识别模型属于语种识别模型；

13.一种语种识别装置，其特征在于，包括

获取模块，用于获取待识别音频数据；

14.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至9中任一项所述的方法，或，执行如上述权利要求10所述的方法，或，执行如上述权利要求11或12所述的方法；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或，执行如上述权利要求10所述的方法，或，执行如上述权利要求11或12所述的方法。