CN105741835B

CN105741835B - 一种音频信息处理方法及终端

Info

Publication number: CN105741835B
Application number: CN201610157251.XA
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-03-18
Filing date: 2016-03-18
Publication date: 2019-04-16
Anticipated expiration: 2036-03-18
Also published as: MY185366A; KR102128926B1; CN105741835A; US10410615B2; WO2017157319A1; JP6732296B2; US20180293969A1; KR20180053714A; JP2019502144A

Abstract

本发明公开了一种音频信息处理方法及终端，包括：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

Description

一种音频信息处理方法及终端

技术领域

本发明涉及信息处理技术，尤其涉及一种音频信息处理方法及终端。

背景技术

传统的具有伴奏功能的音频文件一般具有两个声道，一个是原声声道(伴奏+人声)、一个是伴奏声道，用于在用户k歌时进行切换，但由于没有固定标准，不同渠道获取的音频文件版本不一致，有的第一声道是伴奏，有的是第二声道是伴奏，导致在得到这些音频文件后无法确认哪一个声道是伴奏声道，通常需要人工识别或设备自动分辨后将其调整为统一格式后才能上线。

然而，若通过人工过滤，效率低、成本高；而很多伴奏音频存在大量的人声伴唱等原因，采用设备分辨的方式正确率不高。对于上述问题，目前尚无有效解决方案。

发明内容

本发明实施例提供一种音频信息处理方法及终端，至少解决了现有技术中存在的问题，能够高效、准确的分辨音频文件对应的伴奏声道。

本发明实施例的技术方案是这样实现的：

本发明实施例提供了一种音频信息处理方法，所述方法包括：

对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；

从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；

获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；

基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

上述方案中，所述方法还包括：

分别对预设的多个音频文件进行频谱特征提取；

对提取的频谱特征采用误差反向传播(BP)算法训练得到深度神经网络(DNN)模型；

所述从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据，包括：

采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据。

上述方案中，所述基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道，包括：

检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时，确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件，所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道；

或者，检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时，采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道。

上述方案中，所述方法还包括：

对预设的多个音频文件进行感知线性预测(PLP)特征参数提取；

基于提取的PLP特征参数采用最大期望(EM)算法训练得到混合高斯模型(GMM)；

所述采用预设分类方法确定所述第一声道或所述第二声道为满足特定属性需求的声道，包括：

采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道；

判断所述初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值；

当判断结果为所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时，确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。

上述方案中，所述方法还包括：

当判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时，输出提示信息。

上述方案中，所述第一音频数据表征所述第一声道输出的人声音频，所述第二音频数据表征所述第二声道输出的人声音频；

所述基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道，包括：

基于所述第一声道输出的人声音频的第一音频能量值，以及所述第二声道输出的人声音频的第二音频能量值，确定所述第一声道或所述第二声道为输出伴奏音频的声道。

上述方案中，所述确定所述第一声道或所述第二声道为满足特定属性需求的声道之后，所述方法还包括：

标记所述满足特定属性需求的声道；

确定需要进行声道切换时，基于对所述满足特定属性需求的声道的标记进行声道的切换；

或者，将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。

本发明实施例还提供了一种终端，所述终端包括：解码模块、提取模块、获取模块及处理模块；其中，

所述解码模块，用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；

所述提取模块，用于从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；

所述获取模块，用于获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；

所述处理模块，用于基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

上述方案中，所述终端还包括第一模型训练模块，用于分别对预设的多个音频文件进行频谱特征提取；

所述提取模块，还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据。

上述方案中，所述处理模块，还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时，确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件，所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道；

上述方案中，所述终端还包括第二模型训练模块，用于对预设的多个音频文件进行感知线性预测(PLP)特征参数提取；

所述处理模块，还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道；

上述方案中，所述处理模块，还用于在判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时，输出提示信息。

所述处理模块，还用于基于所述第一声道输出的人声音频的第一音频能量值，以及所述第二声道输出的人声音频的第二音频能量值，确定所述第一声道或所述第二声道为输出伴奏音频的声道。

上述方案中，所述处理模块，还用于标记所述满足特定属性需求的声道；

应用本发明上述实施例，通过对第一音频文件进行双声道解码获得对应的第一音频子文件及第二音频子文件，然后进行音频数据提取，获取属性相同的第一音频数据及第二音频数据，最后基于第一音频能量值及所述第二音频能量值，确定第一声道或所述第二声道为满足特定属性需求的声道；如此，可高效、准确的分辨音频文件对应的伴奏声道及原唱声道，解决了现有技术中通过人工分辨耗费人力成本、效率低的问题，以及解决了现有技术中通过设备自行分辨的准确率低的问题。

附图说明

图1为需要被分辨的双声道音乐示意图；

图2为本发明实施例中音频信息处理方法流程示意图一；

图3为本发明实施例中训练得到DNN模型的方法流程示意图；

图4为本发明实施例中DNN模型示意图；

图5为本发明实施例中音频信息处理方法流程示意图二；

图6为本发明实施例中PLP参数提取的流程示意图；

图7为本发明实施例中音频信息处理方法流程示意图三；

图8为本发明实施例中清唱数据提取过程示意图；

图9为本发明实施例中音频信息处理方法流程示意图四；

图10为本发明实施例中终端的组成结构示意图；

图11为本发明实施例中终端的一个硬件组成结构示意图。

具体实施方式

目前采用设备自动分辨音频文件对应的伴奏声道主要是采用训练支持向量机(SVM，Support Vector Machine)模型或高斯混合模型(GMM，Gaussian Mixture Model)来实现，由于双声道音频频谱分布差距小，如图1所示，很多伴奏音频存在大量的人声伴唱等原因，因此分辨正确率不高。

本发明实施例提供的音频信息处理方法可以应用在一个应用软件中，具体该应用软件可以为全民K歌软件，即本发明所述音频信息处理方法的应用场景可以为全民K歌，应用本发明所述实施例，可以基于机器学习，自动、快速、准确的分辨音频文件对应的伴奏声道。

在本发明实施例中，对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

下面结合附图和具体实施例对本发明作进一步详细说明。

实施例一

图2为本发明实施例中音频信息处理方法流程示意图，如图2所示，本发明实施例中音频信息处理方法包括：

步骤201：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件。

这里，第一音频文件可以为任意待分辨其伴奏/原唱声道的音乐文件，第一声道及第二声道可以分别为左声道及右声道，相应的，第一音频子文件及第二音频子文件可以分别为对应第一音频文件的伴奏文件及原唱文件。例如，对一首歌曲进行解码获得表征左声道输出的伴奏文件/原唱文件，以及获得表征右声道输出的原唱文件/伴奏文件。

步骤202：从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据。

这里，第一音频数据和第二音频数据表征的属性相同，如第一音频数据和第二音频数据均为人声音频，在这种情况下，也即，提取第一音频子文件中的人声音频，以及提取第二音频子文件中的人声音频；而具体提取人声音频的方式可以为任意可从音频文件中提取人声音频的实现方式，例如，在实际实施时，可训练深度神经网络(DNN，Deep NeuralNetworks)模型，采用训练的DNN模型进行音频文件中人声音频的提取，如：当第一音频文件为一首歌曲时，若第一音频子文件为伴奏音频文件，第二音频子文件为原唱音频文件，则采用DNN模型提取伴奏音频文件中的人声伴奏数据，提取原唱音频文件中人的清唱数据。

步骤203：获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值。

这里，第一音频能量值为所述第一音频数据的平均音频能量值，第二音频能量值为所述第二音频数据的平均音频能量值；在实际应用中，可采用不同的方法获取音频数据对应的平均音频能量值，例如，由于音频数据是由多个采样点组成的，而每个采样点对应0～32767间的一个值，取所有采样点值的平均值即为该音频数据对应的平均音频能量值，如此，取第一音频数据所有采样点的平均值为第一音频能量值，取第二音频数据所有采样点的平均值为第二音频能量值。

步骤204：基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

这里，所述基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道，包括：基于所述第一声道输出的人声音频的第一音频能量值，以及所述第二声道输出的人声音频的第二音频能量值，确定所述第一声道或所述第二声道为输出伴奏音频的声道。

基于本发明所述实施例，在实际实施时，满足特定属性需求的声道可以为第一声道及第二声道中输出第一音频文件的音频为伴奏音频的声道，例如，对于一首歌曲来说，满足特定属性需求的声道可以为左右声道中输出该歌曲对应的伴奏的声道。

在确定满足特定属性需求的声道过程中，具体的，若对于一首歌曲来说，若该歌曲中的人声伴奏较少，相应的，该歌曲的伴奏文件对应的音频能量值则较小，而该歌曲的清唱文件对应的音频能量值则较大，因此，可预先设置一个音频能量差阈值，具体可依据实际需要进行设定，当第一音频能量值及第二音频能量值的差值大于预设能量差阈值时，确定音频能量值相对小的第一音频能量值或第二音频能量值对应的第一音频子文件或第二音频子文件为满足特定属性需求的音频文件(即伴唱文件)，所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道(即输出伴奏文件的声道)；而当第一音频能量值及第二音频能量值的差值不大于预设能量差阈值时，应用中可能的一种情况便是伴奏音频文件中的人声伴奏相对较多，但由于伴奏音频相对清唱音频，频谱特点仍不相同，因此，可依据其频谱特点区分人声伴奏数据及清唱数据，在初步确定伴奏数据部分后，再依据伴奏数据的平均音频能量小于清唱数据的平均音频能量最终确定伴奏数据，进而得到该伴奏数据对应的声道为满足特定属性需求的声道。

实施例二

图3为本发明实施例中训练得到DNN模型的方法流程示意图，如图3所示，本发明实施例中训练得到DNN模型的方法包括：

步骤301：分别对预设的多个音频文件进行音频解码得到对应的多个PCM音频文件。

这里，预设的多个音频文件可以为从全民K歌曲库中选取的N首原唱歌曲及对应的N首清唱歌曲；N为正整数，由于作为后续训练用，因此N值最好大于2000；由于在全民k歌曲库中已经有了几万首既有原唱又有高品质清唱数据的歌曲(清唱数据挑选的方法主要是通过自由打分系统实现，即选取得分较高的清唱数据)，可收集所有这样的歌曲，并从中随机抽取1万首用于后续操作(此处选取1万首主要考虑后续训练的复杂度及准确度)。

将所有预设的原唱文件及对应的清唱文件进行音频解码得到16k16bit的脉冲编码调制(PCM，Pulse Code Modulation)音频文件，即得到1万个PCM原唱音频及对应的1万个PCM清唱音频，若用x_n1，n1∈(1～10000)表示原唱音频，用y_n2，n2∈(1～10000)表示对应的清唱音频，则n1和n2为一一对应关系。

步骤302：对得到的多个PCM音频文件进行频谱特征提取。

具体的，包括如下操作：

1)对音频进行分帧，这里设置帧长为512个采样点、帧移为128个采样点；

2)对每一帧数据加汉明窗，并进行快速傅立叶变换，得到257维实域频谱密度与255维虚域频谱密度，共512维特征z_i，i∈(1～512)；

3)求每个实域频谱密度与其对应的虚域频谱密度的平方和；

这里，即|S_实(f)|²+|S_虚(f)|²；其中，f为频率，S_实(f)即为傅里叶变化后对应频率为f的时域频谱密度/能量值，得到257维特征t_i，i∈(1～257)。

4)对上述结果求log_e得到所需的257维频谱特征ln|S(f)|²。

步骤303：对提取的频谱特征采用BP算法训练得到DNN模型。

这里，采用误差反向传播(BP，Error Back Propagation)算法训练一个带有3层隐层的深度神经网络，如图4所示，3个隐层的节点个数都为2048，输入层为原唱音频xi，每一帧257维特征向前扩展5帧向后扩展5帧得到的11帧数据共11*257＝2827维特征，即a∈[1，2827]，输出为清唱音频y_i对应帧的257维特征，即b∈[1，257]，经过bp算法训练，得到4个矩阵，分别为2827*2048、2048*2048、2048*2048、2048*257维的矩阵。

实施例三

图5为本发明实施例中音频信息处理方法流程示意图，如图5所示，本发明实施例中音频信息处理方法包括：

步骤501：对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件。

这里，第一音频文件可以为任意待分辨其伴奏/原唱声道的音乐文件，如为一首待分辨其伴奏/原唱声道的歌曲，第一声道及第二声道可以分别为左声道及右声道，相应的，第一音频子文件及第二音频子文件可以分别为对应第一音频文件的伴奏文件及原唱文件，也就是说，在第一音频文件为歌曲的情况下，本步骤操作即为对该歌曲进行解码，以获得该歌曲左声道输出的伴奏文件/原唱文件，以及获得该歌曲右声道输出的原唱文件/伴奏文件。

步骤502：采用预设的DNN模型分别从第一音频子文件中提取出第一音频数据，以及从第二音频子文件中提取出第二音频数据。

这里，预设的DNN模型为本发明实施例二中采用BP算法预先训练得到的DNN模型；

第一音频数据和第二音频数据表征的属性相同，在本实施例中，第一音频数据和第二音频数据均为人声音频，也即，采用预先训练得到的DNN模型提取第一音频子文件中的人声音频，以及提取第二音频子文件中的人声音频；例如当第一音频文件为一首歌曲时，若第一音频子文件为伴奏音频文件，第二音频子文件为原唱音频文件，则采用DNN模型提取伴奏音频文件中的人声伴奏数据，提取原唱音频文件中人的清唱数据。

采用训练得到的DNN模型提取清唱数据的过程包括：

1)将待提取清唱数据的音频文件解码为16k16bit的PCM音频；

2)采用实施例二中步骤302的方法进行频谱特征提取；

3)假设该假设一共有m帧，为每一帧特征扩展前后各5帧数据得到11*257维特征(此音频文件的前5帧和最后5帧不做此操作)，将此输入特征乘以实施例二训练得到的DNN模型各层矩阵，最终得到一个257维输出特征，进而得到m-10帧输出特征，将第1帧向前扩展5帧，最后1帧向后扩展5帧，得到m帧输出结果；

4)对每一帧的每一维特征取e^x，得到257维特征k_i，i∈(1～257)；

5)采用公式得到512维频谱特征；其中，i为512维，j为i对应的频带，为257个，j可以对应1或2个i，变量z及t分别对应步骤2)中得到的z_i及t_i；

6)对得到的上述512维特征做逆傅里叶变换得到时域特征，将所有帧的时域特征连到一起得到所需的清唱文件。

步骤503：获取第一音频数据的第一音频能量值以及第二音频数据的第二音频能量值。

步骤504：判断第一音频能量值及第二音频能量值的差值是否大于预设能量差阈值，如果大于，执行步骤505；否则，执行步骤506。

在实际实施时，对于一首歌曲来说，若该歌曲中的人声伴奏较少，相应的，该歌曲的伴奏文件对应的音频能量值则较小，而该歌曲的清唱文件对应的音频能量值则较大，因此，可预先设置一个音频能量差阈值，具体可依据实际需要进行设定，如可设定为486，当第一音频能量值及第二音频能量值的差值大于预设能量差阈值时，确定音频能量值相对小的那个对应的声道为伴奏声道。

步骤505：确定音频能量值相对小的第一音频能量值或第二音频能量值对应的第一音频子文件或第二音频子文件为满足特定属性需求的音频文件，所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道。

在本发明实施例中，满足特定属性需求的音频文件为第一音频文件对应的伴奏音频文件，满足特定需求的声道为第一声道及第二声道中输出第一音频文件的音频为伴奏音频的声道。

步骤506：采用预设的GMM模型确定第一声道或第二声道为初步满足特定属性需求的声道。

这里，所述预设的GMM模型为预先训练得到的GMM模型，具体训练过程包括：

对预设的多个音频文件进行13维感知线性预测(PLP，Perceptual LinearPredictive)特征参数提取；该PLP参数提取的具体过程可参见图6；

利用提取的PLP特征参数计算一阶差分及二阶差分共39维特征，基于提取的PLP特征参数采用最大期望(EM，Expectation Maximization)算法训练得到可初步分辨伴奏音频及清唱音频的GMM模型，而在实际实施时，可训练一个伴奏GMM模型，与待分辨的音频数据进行相似度计算，相似度高的一组音频数据即为伴奏音频数据。

在本实施例中，采用预设的GMM模型确定第一声道或第二声道为输出伴奏音频的声道，则确定的该第一声道或第二声道为初步满足特定属性需求的声道。

步骤507：判断初步满足特定属性需求的声道对应的音频能量值是否小于另一声道对应的音频能量值，如果是，执行步骤508；否则，执行步骤509。

这里，初步满足特定属性需求的声道对应的音频能量值即：该声道输出的音频文件的音频能量值。

步骤508：确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。所述满足特定属性需求的声道为输出伴奏音频的声道。

在一实施例中，本步骤之后，所述方法还包括：

标记所述满足特定属性需求的声道；

确定需要进行声道切换时，基于对所述满足特定属性需求的声道的标记进行声道的切换；例如，满足特定属性需求的声道为输出伴奏音频的声道，在确定输出伴奏音频的声道(如第一声道)之后，标记该声道为伴奏音频声道，如此，当用户在K歌过程中进行伴奏、原唱间的切换时，可基于标记的声道进行切换；

或者，将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道；如此，可将所有输出伴奏音频/原唱音频的声道进行统一，便于统一管理。

步骤509：输出提示信息。

这里，该提示信息用于提示用户无法分辨所述第一音频文件对应的输出伴奏音频的声道，以使用户通过人工确认。

应用本发明上述实施例，针对音乐文件的特性，先通过训练的DNN模型将音乐中的人声分量提取出来，然后通过对双声道人声能量的比较得到最终分类结果，最终分类正确率可达99％以上。

实施例四

图7为本发明实施例中音频信息处理方法流程示意图，如图7所示，本发明实施例中音频信息处理方法包括：

步骤701：采用预先训练的DNN模型对待检测音乐进行双声道清唱数据提取。

清唱数据提取的具体流程可参见图8所示。

步骤702：分别计算提取的双声道清唱数据的平均音频能量值。

步骤703：判断双声道清唱数据的音频能量差值是否大于预设阈值，如果是，执行步骤704；否则，执行步骤705。

步骤704：确定平均音频能量值小的清唱数据对应的声道为伴奏声道。

步骤705：采用预先训练的GMM对双声道输出的待检测音乐进行分类。

步骤706：判断分类结果为伴奏音频的声道对应的音频能量值是否较小，如果是，执行步骤707；否则，执行步骤708。

步骤707：确定音频能量值较小的声道为伴奏声道。

步骤708：输出无法判断、需人工确认的提示信息。

在实际实施本发明所述音频信息处理方法时，对双声道清唱数据的提取操作，以及采用预设GMM进行伴奏音频声道的确定操作可同时进行，然后采用一个回归函数执行上述步骤703～708的操作，需要说明的是，由于步骤705的操作已提前执行，因此采用回归函数执行时跳过步骤705的操作，如图9所示。

实施例五

图10为本发明实施例中终端的组成结构示意图；如图10所示，本发明实施例中终端的组成包括：解码模块11、提取模块12、获取模块13及处理模块14；其中，

所述解码模块11，用于对第一音频文件进行解码获得表征第一声道输出的第一音频子文件以及表征第二声道输出的第二音频子文件；

所述提取模块12，用于从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据；所述第一音频数据和所述第二音频数据表征的属性相同；

所述获取模块13，用于获取所述第一音频数据的第一音频能量值，以及获取所述第二音频数据的第二音频能量值；

所述处理模块14，用于基于所述第一音频能量值及所述第二音频能量值，确定所述第一声道或所述第二声道为满足特定属性需求的声道。

本实施例中，所述第一音频数据表征所述第一声道输出的人声音频，所述第二音频数据表征所述第二声道输出的人声音频；

所述处理模块14，还用于基于所述第一声道输出的人声音频的第一音频能量值，以及所述第二声道输出的人声音频的第二音频能量值，确定所述第一声道或所述第二声道为输出伴奏音频的声道。

在一实施例中，所述终端还包括第一模型训练模块15，用于分别对预设的多个音频文件进行频谱特征提取；

对提取的频谱特征采用误差反向传播(BP)算法训练得到DNN模型；

相应的，所述提取模块12，还用于采用所述DNN模型分别从所述第一音频子文件中提取出第一音频数据，以及从所述第二音频子文件中提取出第二音频数据。

在一实施例中，所述处理模块14，还用于检测到所述第一音频能量值及所述第二音频能量值的差值大于预设能量差阈值时，确定音频能量值相对小的第一音频能量值或第二音频能量值对应的所述第一音频子文件或第二音频子文件为满足特定属性需求的音频文件，所述满足特定属性需求的音频子文件对应的声道为满足特定需求的声道；

在一实施例中，所述终端还包括第二模型训练模块16，用于对预设的多个音频文件进行感知线性预测(PLP)特征参数提取；

相应的，所述处理模块14，还用于采用训练得到的GMM模型确定所述第一声道或第二声道为初步满足特定属性需求的声道；

在一实施例中，所述处理模块14，还用于在判断结果为所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时，输出提示信息。

图11为本发明实施例中终端的一个硬件组成结构示意图，该终端作为硬件实体S11的一个示例如图11所示。所述终端包括处理器111、存储介质112以及至少一个外部通信接口113；处理器111、存储介质112以及外部通信接口113均通过总线114连接。

需要说明的是，本发明实施例中所述终端可以为手机、台式机、PC、一体机等类型，当然，所述音频信息处理方法也可以由服务器来操作实现。

这里需要指出的是：以上涉及终端的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述。对于本发明所述终端实施例中未披露的技术细节，请参照本发明方法实施例的描述。

在本发明实施例中，所述终端中的解码模块11、提取模块12、获取模块13、处理模块14、第一模型训练模块15及第二模型训练模块16均可由终端中的中央处理器(CPU，Central Processing Unit)或数字信号处理器(DSP，Digital Signal Processor)、或现场可编程门阵列(FPGA，Field Programmable Gate Array)、或集成电路(ASIC，ApplicationSpecific Integrated Circuit)实现。

当然，本发明实施例的音频信息处理方法不限于应用于终端中，也可应用于服务器中，例如网页服务器、或音乐类应用软件(例如全民K歌应用软件)对应的服务器中。具体的处理过程可参见前述实施例的描述，这里不再赘述。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频信息处理方法，其特征在于，所述方法包括：

当检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时，采用混合高斯模型GMM确定所述第一声道或第二声道为初步满足特定属性需求的声道；

当所述初步满足特定属性需求的声道对应的音频能量值小于另一声道对应的音频能量值时，确定所述初步满足特定属性需求的声道为满足特定属性需求的声道。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

分别对预设的多个音频文件进行频谱特征提取；

对提取的频谱特征采用误差反向传播BP算法训练得到深度神经网络DNN模型；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对预设的多个音频文件进行感知线性预测PLP特征参数提取；

基于提取的PLP特征参数采用最大期望EM算法训练得到所述GMM。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时，输出提示信息。

5.根据权利要求1所述的方法，其特征在于，

当所述第一音频数据表征所述第一声道输出的人声音频，且所述第二音频数据表征所述第二声道输出的人声音频时，

确定所述满足特定属性需求的声道为输出伴奏音频的声道。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当确定满足特定属性需求的声道之后，标记所述满足特定属性需求的声道；

当确定需要进行声道切换时，基于对所述满足特定属性需求的声道的标记进行声道的切换，或者，将所述满足特定属性需求的声道统一调整为所述第一声道或所述第二声道。

7.一种终端，其特征在于，所述终端包括：解码模块、提取模块、获取模块及处理模块；其中，

所述处理模块，用于当检测到所述第一音频能量值及所述第二音频能量值的差值不大于预设能量差阈值时，采用混合高斯模型GMM确定所述第一声道或第二声道为初步满足特定属性需求的声道；

8.根据权利要求7所述的终端，其特征在于，

所述终端还包括第一模型训练模块，用于分别对预设的多个音频文件进行频谱特征提取；

9.根据权利要求7所述的终端，其特征在于，

所述终端还包括第二模型训练模块，用于对预设的多个音频文件进行感知线性预测PLP特征参数提取；

10.根据权利要求7所述的终端，其特征在于，

所述处理模块，还用于当所述初步满足特定属性需求的声道对应音频能量值不小于所述另一声道对应的音频能量值时，输出提示信息。

11.根据权利要求7所述的终端，其特征在于，

所述处理模块，还用于当所述第一音频数据表征所述第一声道输出的人声音频，且所述第二音频数据表征所述第二声道输出的人声音频时，确定所述第一声道或所述第二声道为输出伴奏音频的声道。

12.根据权利要求7所述的终端，其特征在于，

所述处理模块，还用于当确定满足特定属性需求的声道之后，标记所述满足特定属性需求的声道；