CN110941415A

CN110941415A - 一种音频文件的处理方法、装置、电子设备及存储介质

Info

Publication number: CN110941415A
Application number: CN201911090437.8A
Authority: CN
Inventors: 董培; 张晨
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2020-03-31
Anticipated expiration: 2039-11-08
Also published as: CN110941415B

Abstract

本申请实施例提供一种音频文件的处理方法、装置、电子设备及存储介质，涉及音频处理技术领域，可以降低假立体声音频文件在传输和存储时占用的资源。具体方案包括：获取多声道音频文件；其中，多声道音频文件包括多个声道的音频数据；针对多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的幅度与第二音频数据中对应的幅度的之差，得到多个差值，根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值，该差异值用于表征第一音频数据的幅度与第二音频数据的幅度的差异的大小；如果计算得到的每个差异值都小于第一预设阈值，则对多个声道的音频数据进行混音处理，以将多声道音频文件转换为单声道音频文件。

Description

一种音频文件的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信息通信技术领域，尤其涉及一种音频文件的处理方法、装置、电子设备及存储介质。

背景技术

现有的音频文件可以分为单声道音频文件和立体声音频文件。其中，立体声音频文件中包括多个声道的音频数据。一般而言，相比于单声道音频文件而言，音频设备播放立体声音频文件可以形成环绕音场，产生混响效果，给用户带来身临其境的感觉。

但是，一些立体声音频文件可能会因为包括的多个声道的音频数据非常相似，甚至完全相同，而导致其播放效果与单声道音频文件的播放效果相似，无法展示出立体声音频文件的特点。其中，可以将上述播放效果与单声道音频文件的播放效果相似的立体声音频文件称为假立体声音频文件。

虽然假立体声音频文件的播放效果与单声道音频文件的播放效果相似；但是，音频设备在播放假立体声音频文件时，需要对假立体声音频文件包括的多个声道的音频数据一一进行处理(如编码和解码)，这样会增大音频设备的计算量，增大音频设备的功耗。

并且，虽然假立体声音频文件的播放效果与单声道音频文件的播放效果相似；但是相比于单声道音频文件，假立体声音频文件(包括多个声道的音频数据)的传输和存储会占用较多的资源。

发明内容

本申请提供一种音频文件的处理方法、装置、电子设备及存储介质，可以降低假立体声音频文件在传输和存储时占用的资源，并且还可以减少音频设备播放该文件时的计算量。

为实现上述技术目的，本申请实施例采用如下技术方案：

第一方面，本申请提供了一种音频文件的处理方法，该方法可以包括：

获取多声道音频文件；其中，多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应；针对多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度的之差，得到多个差值，根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值；差异值用于表征第一音频数据的幅度与第二音频数据的幅度的差异的大小；其中，每两个声道的音频数据包括第一音频数据和第二音频数据；如果计算得到的每个差异值都小于第一预设阈值，则对多个声道的音频数据进行混音处理，以将多声道音频文件转换为单声道音频文件。

在一种可能的实施方式中，根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值，包括：统计多个差值的绝对值中大于第二预设阈值的差值的数量；其中，统计得到的差值的数量是第一音频数据与第二音频数据的差异值。

可以理解的是，差值的绝对值是第一音频数据与第二音频数据中对应音频样本点的差值，可以反映第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，上述音频文件的处理方法还包括：针对多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度之和，得到多个第一值。

其中，根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值，包括：计算多个差值的绝对值之和得到第二值，并计算多个第一值之和，得到第三值；计算第二值与第三值的比值，比值为第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，对多个声道的音频数据进行混音处理，以将多声道音频文件转换为单声道音频文件，包括：计算多个声道的音频数据的音频样本点中、对应音频样本点的幅度的平均值，得到单声道音频数据的多个音频样本点的幅度；根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率；根据单声道音频数据、采样率和确定的码率，生成单声道音频文件。

另一种可能的实施方式中，根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率，包括：根据多声道音频文件的声道数、编码方式、采样率和码率，从预配置的码率表中查询待生成的单声道音频文件的码率；其中，预配置的码率表中包括多声道音频文件的声道数、编码方式、采样率和码率，以及多声道音频文件的声道数、编码方式、采样率和码率所对应的单声道音频文件的码率。

第二方面，本申请还提供了一种音频文件的处理装置，包括：获取模块，用于获取多声道音频文件；其中，多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应。

确定模块，用于针对获取模块获取的多声道音频文件包括的多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度的之差，得到多个差值，根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值，差异值用于表征第一音频数据的幅度与第二音频数据的幅度的差异的大小；其中，每两个声道的音频数据包括第一音频数据和第二音频数据。

混音模块，用于如果每个差异值都小于第一预设阈值，则对多个声道的音频数据进行混音处理，以将获取模块获取的多声道音频文件转换为单声道音频文件。

在一种可能的实施方式中，该确定模块，用于根据多个差值的绝对值确定第一音频数据和第二音频数据的差异值，包括：确定模块，具体用于统计多个差值的绝对值中大于第二预设阈值的差值的数量；其中，统计得到的差值的数量是第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，该确定模块，还用于计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度之和，得到多个第一值，计算多个第一值之和，得到第三值；该确定模块，用于根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值，包括：确定模块，具体用于计算多个差值的绝对值之和得到第二值，并计算多个第一值之和，得到第三值；计算第二值与第三值的比值，比值为第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，该混音模块，具体用于计算多个声道的音频数据的音频样本点中、对应音频样本点的幅度的平均值，得到单声道音频数据的多个音频样本点的幅度；根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率；根据单声道音频数据、采样率和确定的码率，生成单声道音频文件。

另一种可能的实施方式中，该混音模块，具体用于根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率；包括：该混音模块，具体用于根据多声道音频文件的声道数、编码方式、采样率和码率，从预配置的码率表中查询待生成的单声道音频文件的码率；其中，预配置的码率表中包括多声道音频文件的声道数、编码方式、采样率和码率，以及多声道音频文件的声道数、编码方式、采样率和码率所对应的单声道音频文件的码率。

第三方面，本申请还提供一种电子设备，电子设备包括处理器和用于存储处理器可执行指令的存储器；其中，处理器被配置为执行该指令，以实现上述第一方面及其任一种可能的实施方式的音频文件的处理方法。

第四方面，本申请还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的实施方式的音频文件的处理方法。

第五方面，本申请还提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以在计算机上运行，使得计算机执行如第一方面及其任一种可能的实施方式的音频文件的处理方法。

其中，多声道音频文件包括多个声道的音频数据。本申请实施例中，可以通过对比每两个声道的音频数据的多个音频样本点的幅度，得到每两个声道的音频数据的多个差值的绝对值。其中，该多个差值的绝对值是两个声道的音频数据的多个音频样本点的幅度的差值；该多个差值的绝对值可以反映出这两个声道的音频数据的差异。因此，根据每两个声道的音频数据的多个差值的绝对值，可以计算出对应的两个声道的音频数据的差异值。

可以理解，两个声道的音频数据的差异值越小，则这两个声道的音频数据的相似度越高，上述多声道音频文件是假立体声音频文件的可能性越大。因此，如果确定出来的差异值(如一个或多个差异值)小于第一预设阈值，则表示两个声道的音频数据的差异值较小，上述多声道音频文件是假立体声音频文件的可能性较大。在这种情况下，本申请实施例中，可以对多个声道的音频数据进行混音处理，以将多声道音频文件转换为单声道音频文件。

其中，由于上述多声道音频文件是假立体声音频文件；因此，将该多声道音频文件转换为单声道音频文件进行播放时，并不会影响播放效果。

相比于转换前的多声道音频文件，转换后的单声道音频文件在传输和存储时，可以降低对音频设备的资源占用。并且，相比于转换前的多声道音频文件，音频设备在播放转换后的单声道音频文件时，所需的计算量较小。

综上所述，通过本申请的方法，在保证音频文件的播放效果的前提下，不仅可以降低音频设备播放音频文件时的计算量，还可以降低音频文件对音频设备的资源占用。

附图说明

图1为本申请实施例提供的一种音频文件的处理方法所涉及的实施环境示意图；

图2A是本申请实施例提供的一种音频文件的处理方法的流程图；

图2B是本申请实施例提供的另一种音频文件的处理方法的流程图；

图3是本申请实施例提供的一种音频文件的处理装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例提供一种音频文件的处理方法，通过该方法，可以识别出假立体声音频文件，并将假立体声音频文件转换为单声道音频文件。

下面将结合附图对本申请的实施例的实施方式进行详细描述。

请参考图1，其示出本申请实施例提供的一种音频文件的处理方法所涉及的实施环境示意图。如图1所示，该实施环境可以包括服务器101和多个终端设备，如终端设备102(如手机)和终端设备103(如笔记本电脑)。

其中，服务器101可以是为多个终端设备提供音频资源的服务端。具体的，终端设备102和终端设备103可以从服务器101下载音频文件。当然，服务器101还可以接收终端设备(如终端设备102)上传的音频文件，并向其他终端设备(如终端设备103)推送该音频文件。多个终端设备之间也可以相互传输音频文件。例如，终端设备102可以向终端设备103传输音频文件，也可以接收终端设备103传输的音频文件。其中，上述音频文件包括多声道音频文件和单声道音频文件。该多声道音频文件中可能包括假立体声音频文件。

示例性的，本申请实施例中的终端设备可以是手机、音乐播放器(如MP3)、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、车载设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personaldigital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtualreality，VR)设备等，本申请实施例对该终端设备的具体形态不作特殊限制。

本申请实施例的方法可以应用于上述服务器101，也可以应用于上述任一个终端设备(如终端设备102)。例如，本申请实施例的方法可以应用于以下场景(1)-场景(5)中的任一种场景。

场景(1)：服务器101接收终端设备上传的多声道音频文件的场景。

具体的，服务器101接收到终端设备上传的多声道音频文件后，通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后保存该单声道音频文件。

场景(2)：终端设备向服务器101上传多声道音频文件的场景。

具体的，终端设备向服务器101上传多声道音频文件之前，可以通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后向服务器101发送该单声道音频文件。

场景(3)：终端设备向服务器101请求下载多声道音频文件的场景。

具体的，服务器101可接收来自终端设备的下载请求，如果该下载请求请求下载的音频文件是多声道音频文件，则通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后向终端设备发送该单声道音频文件。

场景(4)：终端设备从服务器101下载多声道音频文件的场景。

具体的，终端设备从服务器101下载了多声道音频文件后，可以通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后保存该单声道音频文件。

场景(5)：一个终端设备与另一个终端设备传输多声道音频文件的场景。

例如，终端设备102向终端设备103发送多声道音频文件之前，可以通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后向终端设备103发送该单声道音频文件。

又例如，终端设备102接收到终端设备103发送多声道音频文件之后，可以通过本申请实例的方法判断该多声道音频文件是否为假立体声音频文件。如果该多声道音频文件是假立体声音频文件，则将该多声道音频文件转换为单声道音频文件，然后向保存该单声道音频文件。

需要说明的是，本申请实施例提供的音频文件的处理方法可以应用于服务器101，也可以应用于上述终端设备。该服务器101和终端设备可以统称为电子设备。本申请实施例提供的音频文件的处理方法的执行主体可以为音频文件的处理装置，该音频文件的处理装置可以为上述电子设备(如服务器101或终端设备)。该音频文件的处理装置还可以为安装有可以提供音频文件的处理功能的应用程序(application，APP)；或者，该音频文件的处理装置还可以为上述电子设备的中央处理器(Central Processing Unit，CPU)；或者，该电子设备中的用于执行对音频文件进行处理的控制模块。

请参考图2A，其示出本申请实施例提供的一种音频文件的处理方法的流程图。如图2A所示，该方法音频文件的处理可以包括步骤201-步骤205：

步骤201：获取多声道音频文件。

其中，多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应。

示例性的，假设多声道音频文件包括两个声道的音频数据。例如，这两个声道的音频数据为音频数据C₁和音频数据C₂。其中，多声道音频文件的各个声道的音频数据所包括的音频样本点的个数相同。例如，音频数据C₁和音频数据C₂均包括L+1个音频样本点，L≥1，L为正整数。音频数据C₁包括以下音频样本点：C₁(0)、C₁(1)、……、C₁(L)；音频数据C₂包括以下音频样本点：C₂(0)、C₂(1)、……、C₂(L)。其中，C₁(0)与C₂(0)对应，C₁(1)与C₂(1)对应，C₁(L)与C₂(L)对应。

本申请实施例中，不同声道的音频数据包括的多个音频样本点一一对应，具体表现为：每个声道的音频数据包括的多个音频样本点对应不同的时间点，不同声道的音频数据中相互对应的音频样本点对应同一个时间点。例如，C₁(0)对应时间点T(0)，C₁(1)对应时间点T(1)，……，C₁(L)对应时间点T(L)；C₂(0)对应时间点T(0)，C₂(1)对应时间点T(1)，……，C₂(L)对应时间点T(L)。

需要说明的是，音频设备播放多声道音频文件时，在一个时间点所播放的音频数据包括：该多声道音频文件的多个声道的音频数据中、与该时间点对应的音频样本点。例如，结合上述实例，音频设备在时间点T(0)所播放的音频数据包括C₁(0)和C₂(0)；在时间点T(1)所播放的音频数据包括C₁(1)和C₂(1)；……；在时间点T(L)所播放的音频数据包括C₁(L)和C₂(L)。

步骤202：针对上述多个声道的音频数据中的每两个声道的音频数据执行步骤202a和步骤202b，以确定每两个声道的音频数据的差异值。该差异值用于表征第一音频数据的幅度和第二音频数据的幅度的差异的大小。

其中，每两个声道的音频数据包括第一音频数据和第二音频数据。

在第一种情况下，多声道音频文件包括两个声道的音频数据，如音频数据C₁和音频数据C₂。在这种情况下，可以针对音频数据C₁和音频数据C₂，执行步骤202a和步骤202b，以确定音频数据C₁和音频数据C₂的差异值R_1,2。

在第二种情况下，多声道音频文件包括多个声道的音频数据，如音频数据C₁、音频数据C₂和音频数据C₃。在这种情况下，针对音频数据C₁和音频数据C₂，执行步骤202a和步骤202b，以确定音频数据C₁和音频数据C₂的差异值R_1,2；针对音频数据C₁和音频数据C₃，执行步骤202a和步骤202b，以确定音频数据C₁和音频数据C₃的差异值R_1,3；针对音频数据C₂和音频数据C₃，执行步骤202a和步骤202b，以确定音频数据C₂和音频数据C₃的差异值R_2,3。也就是说，当在多声道音频文件包括3个声道的音频数据的情况下，需要执行3次步骤202a和步骤202b，才可以获得多个声道的音频数据中每两个声道的音频数据的差异值。

步骤202a：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度的之差，得到多个差值。

示例性的，以第一音频数据是音频数据C₁，第二音频数据是音频数据C₂为例。其中，音频数据C₁包括以下音频样本点：C₁(0)、C₁(1)、……、C₁(L)；音频数据C₂包括以下音频样本点：C₂(0)、C₂(1)、……、C₂(L)。本申请实施例中，各个音频样本点代表对应音频样本点的幅度。例如，C₁(0)代表音频样本点C₁(0)的幅度，C₂(1)代表音频样本点C₂(1)的幅度。

本申请实施例中，可以采用以下公式(1)，计算得到音频数据C₁和音频数据C₂的多个差值X_1,2(i)，i在{0，1，……，L}中取值。

X_1,2(i)＝C₁(i)-C₂(i) 公式(1)

例如，可以采用上述公式(1)计算得到以下差值：X_1,2(0)＝C₁(0)-C₂(0)；X_1,2(1)＝C₁(1)-C₂(1)；……；X_1,2(L)＝C₁(L)-C₂(L)。然后，可以计算每个差值的绝对值。

步骤202b：根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值。

其中，第一音频数据和第二音频数据的差异值可以表征第一音频数据与第二音频数据的相似度，或者可以表征第一音频数据被播放时的播放效果与第二音频数据被播放时的播放效果的相似度。

可以理解，第一音频数据和第二音频数据的差异值越小，则第一音频数据和第二音频数据的相似度越高，第一音频数据被播放时的播放效果与第二音频数据被播放时的播放效果的相似度越高。第一音频数据和第二音频数据的差异值越大，则第一音频数据和第二音频数据的相似度越低，第一音频数据被播放时的播放效果与第二音频数据被播放时的播放效果的相似度越低。

示例性的，本申请实施例中，根据多个差值的绝对值确定第一音频数据与第二音频数据的差异值(即步骤202b)的具体实现方式可以包括以下实现方式(1)和实现方式(2)。

实现方式(1)：根据执行步骤202a得到的多个差值的绝对值中、大于第二预设阈值的差值的数量，确定第一音频数据与第二音频数据的差异值。

具体的，可以统计执行步骤202a得到的多个差值的绝对值中、大于第二预设阈值的差值的数量；然后，将统计得到的数量作为第一音频数据与第二音频数据的差异值。

例如，以第一音频数据是音频数据C₁，第二音频数据是音频数据C₂为例。结合上述实例，执行步骤202a得到以下差值：X_1,2(0)、X_1,2(1)、……、X_1,2(L)。假设L＝6，第二预设阈值为M，M＝4；X_1,2(0)＝-3，X_1,2(1)＝-2，X_1,2(2)＝3，X_1,2(3)＝-5，X_1,2(4)＝6，X_1,2(5)＝-2，X_1,2(6)＝1。其中，将每个差值的绝对值(如|X_1,2(0)|，|X_1,2(1)|，|X_1,2(2)|，|X_1,2(3)|，|X_1,2(4)|，|X_1,2(5)|，|X_1,2(6)|)与第二预设阈值进行比较，可以统计得到大于第二预设阈值的差值的数量为2。具体的，|X_1,2(3)|＝5，|X_1,2(3)|大于M；|X_1,2(4)|＝6，|X_1,2(4)|大于M。由此可以得出，音频数据C₁和音频数据C₂的差异值为2。

实现方式(2)：根据执行步骤202a得到多个差值的绝对值，以及第一音频数据和第二音频数据的第一值的绝对值，确定出第一音频数据和第二音频数据的差异值。

其中，第一值是第一音频数据的音频样本点的幅度和第二音频数据对应的音频样本点幅度之和。

示例性的，以第一音频数据是音频数据C₁，第二音频数据是音频数据C₂为例。本申请实施例中，可以采用以下公式(2)，计算得到音频数据C₁和音频数据C₂的多个第一值S_1,2(i)，i在{0，1，……，L}中取值。

S_1,2(i)＝C₁(i)+C₂(i) 公式(2)

例如，可以采用上述公式(2)计算得到以下第一值：S_1,2(0)＝C₁(0)+C₂(0)；S_1,2(1)＝C₁(1)+C₂(1)；……；S_1,2(L)＝C₁(L)+C₂(L)。

具体地，本申请实施例中，可以通过以下方式计算第一音频数据和第二音频数据的差异值：计算多个差值的绝对值之和得到第二值，计算多个第一值的绝对值之和得到第三值。并计算第二值和第三值的比值。计算得到的比值为第一音频数据和第二音频数据的差异值。例如，本申请实施例中可以采用以下公式(3)表示计算得到的差异值R_1,2：

步骤203：判断每个差异值是否都小于第一预设阈值。若是，则执行步骤204，若否，则执行步骤205。

具体的，如果每个差异值都小于第一预设阈值，则表示上述多个声道的音频数据的相似度越高，上述多声道音频文件是假立体声音频文件的可能性越大。在这种情况下，可以执行步骤204。

如果每个差异值都大于或等于第一预设阈值，则表示上述多个声道的音频数据的相似度越低，上述多声道音频文件是假立体声音频文件的可能性越小。在这种情况下，可以执行步骤205。

示例性的，在上述第一种情况下，多声道音频文件包括两个声道的音频数据，如音频数据C₁和音频数据C₂。音频数据C₁和音频数据C₂的差异值为R_1,2。

在这种情况下，可以判断R_1,2是否小于第一预设阈值F。如果R_1,2小于第一预设阈值F，则可以确定多声道音频文件是假立体声音频文件，可以执行步骤204。如果R_1,2大于或等于第一预设阈值F，则可以执行步骤205。

在上述第二种情况下，多声道音频文件包括多个声道的音频数据，如音频数据C₁、音频数据C₂和音频数据C₃。其中，音频数据C₁和音频数据C₂的差异值为R_1,2；音频数据C₁和音频数据C₃的差异值为R_1,3；音频数据C₂和音频数据C₃的差异值为R_2,3。

在这种情况下，可以分别判断R_1,2是否小于第一预设阈值F，R_1,3是否小于第一预设阈值F，以及R_2,3是否小于第一预设阈值F。如果R_1,2、R_1,3和R_2,3都小于F，才确定该多声道音频文件为假立体声音频文件。如果R_1,2、R_1,3和R_2,3中的至少一个大于或等于F，则可以确定多声道音频文件不是假立体声音频文件。

需要说明的是，本申请实施例中，计算R_1,3和R_2,3的具体方法与计算R_1,2的方法类似，可以参考上述实施例中对计算R_1,2的方法的说明，本申请实施例这里不予赘述。

步骤204：对多个声道的音频数据进行混音处理，以将多声道音频文件转换为单声道音频文件。

示例性的，如图2B所示，图2A所示的步骤204可以包括步骤204a-步骤204c。

步骤204a：计算多个声道的音频数据中对应的音频样本点的平均值，得到单声道音频数据的多个音频样本点的幅度。

示例性的，结合上述第一种情况，可以采用以下公式(4)计算音频数据C₁和音频数据C₂中对应的音频样本点的平均值，得到单声道音频数据的多个音频样本点的幅度。

V(i)＝[C₁(i)+C₂(i)]/2 公式(4)

其中，i在{0，1，……，L}中取值。

例如，采用上述公式(4)可以计算得到单声道音频数据的多个音频样本点的幅度：V(0)＝[C₁(0)+C₂(0)]/2，V(1)＝[C₁(1)+C₂(1)]/2，……，V(L)＝[C₁(L)+C₂(L)]/2。

结合上述第二种情况，可以采用以下公式(5)计算音频数据C₁、音频数据C₂和音频数据C₃中对应的音频样本点的平均值，得到单声道音频数据的多个音频样本点的幅度。

V(i)＝[C₁(i)+C₂(i)+C₃(i)]/3 公式(5)

其中，i在{0，1，……，L}中取值。

例如，采用上述公式(5)可以计算得到单声道音频数据的多个音频样本点的幅度：V(0)＝[C₁(0)+C₂(0)+C₃(0)]/3，V(1)＝[C₁(1)+C₂(1)+C₃(1)]/3，……，V(L)＝[C₁(L)+C₂(L)+C₃(L)]/3。

步骤204b：根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率。

其中，音频文件的采样率和码率会影响音频文件的音质。本申请实施例中，将多声道音频文件转换为单声道音频文件时，不改变该多声道音频文件的采样率。因此，为了保证转换后单声道音频文件的音质，转换后的单声道音频文件的码率与多声道音频文件的码率不同。

本申请实施例中，可以预先配置一个码率表。该预配置的码率表中可以包括：多声道音频文件的声道数、编码方式、采样率和码率，以及该多声道音频文件的声道数、编码方式、采样率和码率所对应的单声道音频文件的码率。步骤204b中，可以根据多声道音频文件的采样率和码率，从预配置的码率表中查询待生成的单声道音频文件的码率。

示例性的，请参考表1，其示出本申请实施例提供的一种码率表实例示意。

表1

例如，假设该多声道音频文件的声道数为2，编码方式为动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III，简称为MP3)，采样率为采样率1，码率为码率1。如果执行步骤202得到的每个差异值都大于或等于第一预设阈值，通过查询表1可以确定待生成的单声道音频文件的码率为码率4。

其中，预配置的码率表可以是测试人员根据经验制作的。例如，将一个多声道音频文件转换为不同码率的单声道音频文件。由专业的测试人员通过试听判断不同码率的单声道音频文件的音质，并对不同码率的单声道音频文件进行打分，根据不同码率的单声道音频文件的分数生成预配置的码率表。

或者，预配置的码率表还可以是由音频打分器生成的。例如，将一个多声道音频文件转换为不同码率的单声道音频文件。将多声道音频文件不同码率的单声道音频文件输入打分器，由打分器分别播放不同码率的单声道音频文件，音频打分器根据与多声道音频文件的音质进行对比对不同码率的单声道音频文件进行打分，根据不同码率的单声道音频文件的分数生成预配置的码率表。

步骤204c：根据单声道音频数据、采样率和确定的码率，生成单声道音频文件。

本申请实施例中，生成单声道音频文件的具体方式可以参考常规技术中音频文件的生成方式，此处不再赘述。

步骤205：确定该多声道音频文件不是假立体声音频文件。

可以理解的是，如果执行步骤202得到的每个差异值都大于或等于第一预设阈值，则可以确定上述多声道音频文件不是假立体声音频文件。在这种情况下，在不同的场景下，电子设备(如服务器101或终端设备)可以执行不同的操作。例如，在上述场景(1)中，服务器101可以存储该多声道音频文件。在上述场景(2)中，终端设备可以向服务器101发送该多声道音频文件。在上述的场景(3)中，服务器101可以向终端设备发送该多声道音频文件。在上述的场景(4)中，终端设备可以向服务器101发送该多声道音频文件。终端设备可以存储该多声道音频文件。在上述的场景(5)中，终端设备102可以向终端设备103发送该多声道音频文件，或者，终端设备103可以向终端设备102发送该多声道音频文件。

可以理解的是，上述方法可以由音频文件的处理装置实现。音频文件的处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

本申请实施例可以根据上述方法示例对上述音频文件的处理装置等进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用对应各个功能划分各个功能模块的情况下，图3示出了上述实施例中所涉及的音频文件的处理装置的一种可能的结构示意图，该音频文件的处理装置300包括：包括获取模块301、确定模块302和混音模块303。

获取模块301，用于获取多声道音频文件。其中，多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应。

确定模块302，用于针对多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度的之差，得到多个差值；根据多个差值，确定第一音频数据与第二音频数据的差异值。其中，每两个声道的音频数据包括第一音频数据和第二音频数据。

混音模块303，用于如果确定模块302得到的每个差异值都小于第一预设阈值，则对多个声道的音频数据进行混音处理，以将获取模块301获取的多声道音频文件转换为单声道音频文件。

在一种可能的实施方式中，确定模块302根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值的具体实现方式可以为：该确定模块302统计多个差值中大于第二预设阈值的差值的数量。其中，统计得到的差值的数量是第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，确定模块302，还用于计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度之和，得到多个第一值；计算多个差值之和得到第二值，并计算多个第一值之和，得到第三值。

在该实施方式中，确定模块302根据多个差值的绝对值，确定第一音频数据与第二音频数据的差异值的具体实现方式可以为：该确定模块302计算第二值与第三值的比值，比值为第一音频数据与第二音频数据的差异值。

另一种可能的实施方式中，混音模块303，具体用于计算多个声道的音频数据的音频样本点中、对应音频样本点的幅度的平均值，得到单声道音频数据的多个音频样本点的幅度；根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率；根据单声道音频数据、采样率和确定的码率，生成单声道音频文件。

另一种可能的实施方式中，该混音模块303根据多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的单声道音频文件的码率的具体实现方式可以为：混音模块303根据多声道音频文件的声道数、编码方式、采样率和码率，从预配置的码率表中查询待生成的单声道音频文件的码率；其中，预配置的码率表中包括多声道音频文件的声道数、编码方式、采样率和码率，以及多声道音频文件的采样率和码率所对应的单声道音频文件的码率。

当然，音频文件的处理装置300包括但不限于上述所列举的单元模块。例如，音频文件的处理装置300还可以包括存储模块。该存储模块可以用于保存上述预配置的码率表。并且，上述功能单元的具体所能够实现的功能也包括但不限于上述实例所述的方法步骤对应的功能，音频文件的处理装置300的其他模块的详细描述可以参考其所对应方法步骤的详细描述，本申请实施例这里不再赘述。

在采用集成的单元的情况下，图4示出了上述实施例中所涉及的电子设备的一种可能的结构示意图。如图4所示，电子设备400包括有处理器401和存储器402。

可以理解，图4所示的电子设备400可以实现上述音频文件的处理装置300的所有功能。上述音频文件的处理装置300中各个模块的功能可以在电子设备400的处理器401中实现。例如，上述获取模块301、确定模块302和混音模块303的功能可以集成在处理器401中实现。音频文件的处理装置300的存储模块相当于电子设备400的存储器402。

其中，处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请方法实施例提供的音频文件的处理方法。

在一些实施例中，电子设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不予限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路404可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或Wi-Fi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置电子设备400的前面板；显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-EmittingDiode，有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位电子设备400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为电子设备400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器、陀螺仪传感器、压力传感器、指纹传感器、光学传感器以及接近传感器。

加速度传感器可以检测以电子设备400建立的坐标系的三个坐标轴上的加速度大小。陀螺仪传感器可以检测电子设备400的机体方向及转动角度，陀螺仪传感器可以与加速度传感器协同采集用户对电子设备400的3D动作。压力传感器可以设置在电子设备400的侧边框和/或显示屏405的下层。当压力传感器设置在电子设备400的侧边框时，可以检测用户对电子设备400的握持信号。指纹传感器用于采集用户的指纹。光学传感器用于采集环境光强度。接近传感器，也称距离传感器，通常设置在电子设备400的前面板。接近传感器用于采集用户与电子设备400的正面之间的距离。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请实施例还提供一种计算机存储介质，该计算机存储介质包括计算机指令，当计算机指令在上述电子设备上运行时，使得该电子设备执行上述方法实施例中的各个功能或者步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

本申请实施例还提供一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述方法实施例中的各个功能或者步骤。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频文件的处理方法，其特征在于，包括：

获取多声道音频文件；其中，所述多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应；

针对所述多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度之差，得到多个差值，根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值，所述差异值用于表征所述第一音频数据的幅度与所述第二音频数据的幅度的差异的大小；其中，所述每两个声道的音频数据包括第一音频数据和第二音频数据；

如果每个所述差异值都小于第一预设阈值，则对所述多个声道的音频数据进行混音处理，以将所述多声道音频文件转换为单声道音频文件。

2.根据权利要求1所述的音频文件的处理方法，其特征在于，所述根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值，包括：

统计所述多个差值的绝对值中大于第二预设阈值的差值的数量；

其中，统计得到的差值的数量是所述第一音频数据与所述第二音频数据的差异值。

3.根据权利要求1所述的音频文件的处理方法，其特征在于，在所述根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值之前，所述方法还包括：

针对所述多个声道的音频数据中的每两个声道的音频数据执行：计算所述第一音频数据的每个音频样本点的幅度与所述第二音频数据中对应音频样本点的幅度之和，得到多个第一值；

其中，所述根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值，包括：

计算所述多个差值的绝对值之和得到第二值，并计算所述多个第一值之和得到第三值；

计算所述第二值与所述第三值的比值，所述比值为所述第一音频数据与所述第二音频数据的差异值。

4.根据权利要求1-3中任一项所述的音频文件的处理方法，其特征在于，所述对所述多个声道的音频数据进行混音处理，以将所述多声道音频文件转换为单声道音频文件，包括：

计算所述多个声道的音频数据的音频样本点中、对应音频样本点的幅度的平均值，得到单声道音频数据的多个音频样本点的幅度；

根据所述多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的所述单声道音频文件的码率；

根据所述单声道音频数据、所述采样率和确定的码率，生成所述单声道音频文件。

5.根据权利要求4所述的音频文件的处理方法，其特征在于，所述根据所述多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的所述单声道音频文件的码率，包括：

根据所述多声道音频文件的声道数、编码方式、采样率和码率，从预配置的码率表中查询待生成的所述单声道音频文件的码率；

其中，所述预配置的码率表中包括所述多声道音频文件的声道数、编码方式、采样率和码率，以及所述多声道音频文件的声道数、编码方式、采样率和码率所对应的单声道音频文件的码率。

6.一种音频文件的处理装置，其特征在于，包括：

获取模块，用于获取多声道音频文件；其中，所述多声道音频文件包括多个声道的音频数据，每个声道的音频数据包括多个音频样本点，不同声道的音频数据包括的多个音频样本点一一对应；

确定模块，用于针对所述获取模块获取的所述多声道音频文件包括的所述多个声道的音频数据中的每两个声道的音频数据执行：计算第一音频数据的每个音频样本点的幅度与第二音频数据中对应音频样本点的幅度的之差，得到多个差值，根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值；所述差异值用于表征所述第一音频数据的幅度与所述第二音频数据的幅度的差异的大小；其中，所述每两个声道的音频数据包括第一音频数据和第二音频数据；

混音模块，用于如果所述确定模块确定的每个所述差异值都小于第一预设阈值，则对所述多个声道的音频数据进行混音处理，以将所述获取模块获取的所述多声道音频文件转换为单声道音频文件。

7.根据权利要求6所述的音频文件的处理装置，其特征在于，所述确定模块，用于根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值，包括：

所述确定模块，具体用于统计所述多个差值的绝对值中大于第二预设阈值的差值的数量；

8.根据权利要求6所述的音频文件的处理装置，其特征在于，所述确定模块，还用于计算所述第一音频数据的每个音频样本点的幅度与所述第二音频数据中对应音频样本点的幅度之和，得到多个第一值，计算所述多个第一值之和，得到第三值；

所述确定模块，用于根据所述多个差值的绝对值，确定所述第一音频数据与所述第二音频数据的差异值，包括：

所述确定模块，具体用于计算所述多个差值的绝对值之和得到第二值；计算所述第二值与所述第三值的比值；其中，所述比值为所述第一音频数据与所述第二音频数据的差异值。

9.根据权利要求6-8中任一项所述的音频文件的处理装置，其特征在于，

所述混音模块，具体用于计算所述获取模块中的所述多个声道的音频数据的音频样本点中、对应音频样本点的幅度的平均值，得到单声道音频数据的多个音频样本点的幅度；根据所述多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的所述单声道音频文件的码率；根据所述单声道音频数据、所述采样率和确定的码率，生成所述单声道音频文件。

10.根据权利要求9所述的音频文件的处理装置，其特征在于，所述混音模块，具体用于根据所述多声道音频文件的声道数、编码方式、采样率和码率，确定待生成的所述单声道音频文件的码率，包括：

所述混音模块，具体用于根据所述多声道音频文件的声道数、编码方式、采样率和码率，从预配置的码率表中查询待生成的所述单声道音频文件的码率；

11.一种电子设备，其特征在于，包括：处理器和用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至5中任一项所述的音频文件的处理方法。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机指令，其特征在于，当所述计算机指令在电子设备上运行时实现如权利要求1-5中任一项所述的音频文件的处理方法。