CN107450883B

CN107450883B - 一种音频数据处理方法、装置及移动终端

Info

Publication number: CN107450883B
Application number: CN201710591565.5A
Authority: CN
Inventors: 陈祎
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2019-01-29
Anticipated expiration: 2037-07-19
Also published as: CN107450883A

Abstract

本发明实施例涉及一种音频数据处理方法、装置及移动终端。该方法包括：从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数；根据该放大系数放大第一声道音频数据，以及根据该衰减系数衰减第二声道音频数据；将放大后的第一声道音频数据和衰减后的第二声道音频数据合成为第二音频数据；通过单声道输出第二音频数据。本发明实施例避免了在双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题。

Description

一种音频数据处理方法、装置及移动终端

技术领域

本发明涉及通信技术领域，具体地涉及一种音频数据处理方法、装置以及移动终端。

背景技术

近几年，随着移动终端的快速发展，用户在移动终端上使用外放扬声器播放音频数据的场景越来越多，对移动终端外放响度和音质的要求也越来越高；但实际情况是移动终端的设计都变得越来越轻薄，功能器件越来越紧凑，绝大多数移动终端都只配置了一个外放扬声器，只能进行单声道的播放；而现在用户大部分播放的音源都是双声道立体声的音频数据；因此当进入在移动终端的外放扬声器进行音频数据播放的场景时，双声道音频数据会被智能手机预先处理成单声道音频数据，再输出到外放单扬声器输出。

在移动终端进行双声道音频数据到单声道音频数据的处理中，一般只会简单取左右声道的音频数据的平均值作为单声道声音输出，可以表示为：S_M(t)＝(S_L(t)+S_R(t))/2，其中S(t)表示音频数据中幅值随时间的变化，下标M表示单声道，L表示左声道，R表示右声道。

但是因为立体声的左声道音频数据和右声道音频数据有很强的自相关性，部分音源由于前期录音或音源后处理或音效后处理时会出现左右声道音频数据呈现不同程度的相位差，这种相位差一般都会削弱输出的单声道音频数据S_M(t)的实际响度；在极端情况下，如果左右声道音频数据仅存在相位差的不同，而相位差达到了半个周期，即二者反相：S_L(t)＝-S_R(t)，这时使用普通的双声道音频数据到单声道音频数据的处理方法会使输出到移动终端单外放扬声器的信号S_M(t)变成静音。总之，相对于立体声播放装置播放的原始双声道音频数据，单声道外放扬声器播放的此类音源处理而成的单声道音频数据，音质相对较差，响度相对较低，使用户的听音体验下降。

发明内容

本发明实施例提供一种音频数据处理方法、一种音频数据处理装置以及一种移动终端，以解决双声道音频数据转换为单声道音频数据后音质变差、响度降低的问题。

为了解决上述技术问题，本发明是这样实现的：一种音频数据处理方法，具体可以包括：

从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；所述第一音频数据包括所述第一声道音频数据和所述第二声道音频数据；

若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数；

根据所述放大系数放大所述第一声道音频数据，以及根据所述衰减系数衰减所述第二声道音频数据；

将所述放大后的第一声道音频数据和所述衰减后的第二声道音频数据合成为第二音频数据；

通过单声道输出所述第二音频数据。

本发明实施例还提供了一种音频数据处理装置，具体可以包括：

第一音量提取模块，用于从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；所述第一音频数据包括所述第一声道音频数据和所述第二声道音频数据；

处理系数获取模块，用于若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数；

音频处理模块，用于根据所述放大系数放大所述第一声道音频数据，以及根据所述衰减系数衰减所述第二声道音频数据；

第一音频合成模块，用于将所述放大后的第一声道音频数据和所述衰减后的第二声道音频数据合成为第二音频数据；

音频输出模块，用于通过单声道输出所述第二音频数据。

本发明实施例还提供了一种移动终端，可以包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述权利要求中任一项所述的音频数据处理方法的步骤。

本发明实施例另外提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述权利要求中任一项所述的音频数据处理方法的步骤。

在本发明实施例中，针对例如双声道立体声音频数据等两个声道具有自相关性的音频数据，通过提取并比较上述两个声道分别对应的音频数据的音量，将音量较大的对应声道的音频数据相对放大作为主音频数据，将另一声道的音频数据相对衰减作为次音频数据，进而将上述主音频数据和上述次音频数据合成为单声道音频数据。因此，本发明实施例避免了在上述双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题，仍然能够输出具有较高音质和较高响度的单声道音频数据，提升了用户的音乐体验和操作体验，避免用户再去查找对应的单声道音频数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例一的一种音频数据处理方法的步骤流程图；

图2示出了本发明实施例二的一种音频数据处理方法的步骤流程图；

图3示出了本发明实施例二的一种音频数据处理方法的示意图；

图4示出了本发明实施例二的一种音频数据处理方法的另一示意图；

图5示出了本发明实施例三的一种音频数据处理装置的结构框图；

图6示出了本发明实施例三的另一种音频数据处理装置的结构框图；

图7示出了本发明实施例四的一种移动终端的结构框图；

图8示出了本发明实施例五的一种移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的技术方案可以应用于各种音乐播放器，例如可以应用于移动终端、台式电脑、MP3播放器等具有播放音乐文件功能的电子设备，也可以应用于网页端音乐播放器、客户端音乐播放器等能播放以数字信号形式存储的音乐文件的软件；总之，本发明实施例应用于各种支持双声道输入单声道输出的音乐播放器，而对音乐播放器则没有限制。

【实施例一】

参照图1所示，本发明实施例提供了一种音频数据处理方法，具体可以包括步骤101-105：

步骤101：从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；上述第一音频数据包括上述第一声道音频数据和上述第二声道音频数据。

本发明实施例中，上述第一音频数据为立体声双声道音频数据。

立体声双声道音频数据一般采用多麦克风定位录音技术，将声音分成两个相位录制成左声道音频数据和右声道音频数据；还原时使用左右两个扬声器分别输出上述左声道音频数据和上述右声道音频数据，因为左右两只耳朵接收到不同相位的音频数据，因此感受到立体纵深的效果。

因此，一般地，对于立体声双声道音频数据，其左声道音频数据和右声道音频数据存在一定的同步性，且存在相位差，因此在将上述左声道音频数据和上述右声道音频数据合成时，上述左声道音频数据和上述右声道音频数据容易产生部分抵消；极端情况下，上述左声道音频数据和上述右声道音频数据的不同之处仅在于半个周期的相位差，即二者反相，则合成后的单声道音频数据为静音。

本发明实施例中，上述第一声道音频数据为左声道音频数据，上述第二声道音频数据为右声道音频数据；或者上述第一声道音频数据为右声道音频数据，上述第二声道音频数据为左声道音频数据；总之，本发明实施例对此不作限制。

本发明实施例中，上述第一音频数据可以为待播放的音频文件的音频数据；上述音频数据的幅值特征对应于音量。

可以理解的是，上述第一音频数据可以是一个音频文件的完整的第一声道音频数据和完整的第二声道音频数据；也可以是音频文件的一段第一声道音频数据和对应的一段第二声道音频数据。

本发明实施例中，可以将上述第一声道音频数据划分为多段的第一声道音频数据段，对应地，将上述第二声道音频数据也可以划分为对应的数目的第二声道音频数据段；并针对每一段第一声道音频数据段和对应的第二声道音频数据段，分别提取上述第一声道音频数据段的音量和上述第二声道音频数据段的音量。

上述第一音量或上述第二音量可以为对应的音频数据的音量，可以为音量平均值，也可以为音量最大值，也可以为其它音量。

步骤102：若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数。

本发明实施例中，上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数。

可以理解的是，上述放大系数与上述衰减系数是相对的。

上述放大系数和对应的衰减系数可以采用预设值，例如放大系数为0.8，衰减系数为0.2；或者放大系数为0.7，衰减系数为0.4；上述放大系数可以为大于0.5小于1的数，对应的衰减系数可以为大于0小于0.5的数；上述放大系数还可以为大于1的数，对应的衰减系数可以为大于0小于1的数，等等；总之，本发明实施例对此不作限制。

可以理解的是，例如放大系数为预设值0.8，衰减系数为预设值0.3，则当上述左声道的第一音量大于上述右声道的第二音量，则获取上述左声道音频数据的放大系数为0.8和上述右声道音频数据的衰减系数为0.3；同样地，当上述右声道的第一音量大于上述左声道的第二音量，则获取上述右声道音频数据的放大系数为0.8和上述左声道音频数据的衰减系数为0.3；当上述左声道的第一音量等于上述右声道的第二音量，则获取上述左声道音频数据的放大系数0.8和上述右声道音频数据的衰减系数0.3，或者获取上述右声道音频数据的放大系数0.8和上述左声道音频数据的衰减系数0.3。上述各种实施方式皆在本发明实施例的保护范围之内。

步骤103：根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据。

本发明实施例中，根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据，可以通过数字信号处理器中的数字放大器或数字衰减器对上述第一声道音频数据和第二声道音频数据的数字信号分别进行放大或衰减。

步骤104：将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据。

本发明实施例中，将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据，可以通过数字信号处理器中的数字合成器进行。

本发明实施例的一种实施方式中，上述放大系数G₁大于1，上述衰减系数G₂小于1，而将上述放大后的第一声道音频数据(S₁(t)×G₁)和上述衰减后的第二声道音频数据(S₂(t)×G₂)合成为第二音频数据S_M(t)可以表示为：

S_M(t)＝0.5×(S₁(t)×G₁+S₂(t)×G₂)。

本发明实施例的一种实施方式中，上述放大系数G₁大于0.5，上述衰减系数G₂小于0.5，而将上述放大后的第一声道音频数据(S₁(t)×G₁)和上述衰减后的第二声道音频数据(S₂(t)×G₂)合成为第二音频数据S_M(t)可以表示为：

S_M(t)＝S₁(t)×G₁+S₂(t)×G₂。

其中，上述S_M(t)表示上述第二音频数据中幅值随时间的变化，即合成后的单声道音频数据中幅值随时间的变化；上述S₁(t)表示上述第一声道音频数据中幅值随时间的变化；上述S₂(t)表示上述第二声道音频数据中幅值随时间的变化。

当然，上述音频数据可以采用幅值随时间变化的形式表示，也可以采用其他形式，本发明实施例对此不做限制。

步骤105：通过单声道输出上述第二音频数据。

本发明实施例的一种实施方式中，通过单扬声器输出上述第二音频数据。

本发明实施例中，针对例如双声道立体声音频数据等两个声道具有自相关性的音频数据，通过提取并比较上述两个声道分别对应的音频数据的音量，将音量较大的对应声道的音频数据相对放大作为主音频数据，将另一声道的音频数据相对衰减作为次音频数据，进而将上述主音频数据和上述次音频数据合成为单声道音频数据。因此，本发明实施例避免了在上述双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题，仍然能够输出具有较高音质和较高响度的单声道音频数据，提升了用户的音乐体验和操作体验，避免用户再去查找对应的单声道音频数据。

【实施例二】

参照图2所示，本发明实施例提供了一种音频数据处理方法，具体可以包括步骤201-210：

步骤201：获取目标音频文件经解码后的第一音频数据；上述第一音频数据包括第一声道音频数据和第二声道音频数据。

本发明实施例的一种可选方式中，可以设定时间长度为单位不断获取的目标音频文件经编解码处理器解码后的第一声道音频数据和第二声道音频数据，例如以3秒为单位不断获取上述目标音频文件经解码后的PCM(脉冲编码调制，Pulse Code Modulation)音频数据。

若上述目标音频文件为在线播放而需要下载时，可通过对播放前下载的缓冲数据进行解码获取上述目标音频文件的第一音频数据。

可选地，上述第一声道音频数据包括第一音频数据段；上述第二声道音频数据包括对应上述第一音频数据段的第二音频数据段；上述第一音频数据段和上述第二音频数据段同步且存在相位差；上述相位差大于第二相位差预设值。

可以理解的是，在将上述第一声道音频数据和上述第二声道音频数据合成时，至少存在上述第一音频数据段和上述第二音频数据段可能因为相位差互相抵消，导致合成后的单声道音频数据音质变差、响度降低的情况。

步骤202：提取上述第一声道音频数据对应的第一音量和上述第二声道音频数据对应的第二音量。

本发明实施例中，可以分别对上述第一声道音频数据和上述第二声道音频数据进行预处理，包括：预加重处理、归一化处理和分帧加窗处理；对预处理后的多个音频帧进行时域分析，分别提取上述第一声道音频数据对应的第一音量和上述第二声道音频数据对应的第二音量。

上述预加重处理是一种对音频数据高频分量进行提升的数据处理方式。因为在实际过程中，音频数据的功率谱随频率的增加而减小，其大部分能量集中在低频范围内，这就造成音频数据高频端的信噪比可能降到不能容许的程度，因此采用预加重处理增加音频数据的高频分辨率。具体地，可以通过高通数字滤波器实现预加重处理。上述归一化处理是常见的简化计算的信息处理方式，将有量纲的处理对象变换为无量纲的处理对象，使得处理结果能够有更广泛的适用性。

音频数据是一种随时间而变化的数据，可以认为在一小段时间里(一般10～30ms)音频数据近似不变，即音频数据具有短时平稳性；可以对音频数据进行分帧处理，按照预设时间段将上述音频数据划分为多个音频帧(也可以称为分析帧)来进行处理。

音频数据的分帧处理一般是采用可移动的有限长度窗口进行加权的方法来实现的，即分帧加窗处理，以解决因为对音频数据进行分帧处理破坏了音频数据的自然度和连续性，导致频谱泄露的问题。一般每秒的音频帧数可以为33～100帧，视实际情况而定。分帧处理虽然可以采用连续分段的方法，但一般要采用交叠分段的方法，这是为了使音频帧之间平滑过渡，保持其连续性。前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般0～0.5；其中帧长为一个音频帧的采样点的数目或采样时间。例如，针对6秒的采样率为50kHz的PCM音频信号，取30ms为帧长，15ms为帧移，则将上述音频信号划分为401个音频帧，每个音频帧的采样点的数目，即样本数目为1500。在具体实施中，可以选择矩形窗、汉宁窗、三角窗等语音信号处理常用的窗函数进行加窗分帧处理。例如，汉宁窗的窗函数如下式所示：

对每一个音频帧经窗函数W(n)加窗处理后得到新的音频帧X_m(n)：

其中X_m(n)是第m个音频帧的第n个采样值，即幅值；N为帧长，即一个音频帧中的采样点的数目；n表示音频帧中的第n各采样点，n＝1,2,3…N。

可以理解的是，根据上述第m个音频帧的N个采样点的幅值，计算上述第m个音频帧的幅值信息，上述幅值信息可以为上述N个采样点的幅值的绝对值的平均值，可以为上述N个采样点的幅值的最大值，可以为上述N个采样点的幅值的中位值，还可以为各采样点的幅值其它统计信息。

同样地，根据上述音频数据的各个音频帧的幅值信息的统计信息，可以计算得到上述音频数据的幅值信息。因为幅值信息的大小与音量大小是对应的，因此可以采用上述音频数据的幅值信息作为上述音频数据的音量。

步骤203：将上述第一声道音频数据和上述第二声道音频数据合成为第三音频数据。

本发明实施例的一种实施方式中，可以通过数字信号处理器中的数字合成器，将上述第一声道音频数据S₁(t)和上述第二声道音频数据S₂(t)合成为第三音频数据S₃(t)，可以表示为：

S₃(t)＝S₁(t)+S₂(t)。

步骤204：从上述第三音频数据中提取与上述第三音频数据对应的第三音量。

参照上述从第一声道音频数据中提取对应的第一音量，或者上述从第二声道音频数据中提取对应的第二音量，此处不再赘述。

步骤205：根据上述第一音量、上述第二音量和上述第三音量，计算上述第一声道音频数据和上述第二声道音频数据的相位差。

可选地，上述根据上述第一音量、上述第二音量和上述第三音量，计算上述第一声道音频数据和上述第二声道音频数据的相位差的步骤包括：

计算上述第一音量与上述第二音量的和值，上述和值与上述第三音量的差值为上述第一声道音频数据和上述第二声道音频数据的相位差。

本发明实施例的一种实施方式中，上述根据上述第一音量|S₁|、上述第二音量|S₂|和上述第三音量|S₃|，则上述相位差D＝|S₁|+|S₂|-|S₃|。

如果将各音量归一化，则相位差可以为2≥D≥0。

可以理解的是，上述相位差综合了上述第一声道和上述第二声道的音频数据的相位和幅度的表达，可以表示上述第一声道音频数据和上述第二声道音频数据的反相程度，更进一步地可以度量上述第一声道音频数据和上述第二声道音频数据在合成为单声道音频数据时互相抵消的程度。

步骤206：若上述相位差大于第一相位差预设值，则执行步骤207。

本发明实施例中，若上述相位差大于第一相位差预设值，则执行步骤207；若上述相位差小于等于第一相位差预设值，则无操作。

本发明实施例中，可以预先设立一个处理门限T，即上述第一相位差预设值，避免在上述第一声道音频数据和上述第二声道音频数据的反相程度不高时启动处理，上述T的取值范围可以为2≥T≥1。

当上述相位差D大于上述第一相位差预设值T时，启动处理；因此本发明实施例可以减少计算资源，提高对双声道音频数据转换为单声道音频数据的处理效率。

步骤207：上述第一相位差预设值为T，上述相位差为D，若上述第一音量大于等于上述第二音量，则

上述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

上述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

本发明实施例中，因为上述相位差可以度量上述第一声道音频数据和上述第二声道音频数据在合成为单声道音频数据时互相抵消的程度，因此根据上述相位差可以更加精确地确定上述放大系数和上述衰减系数，可以保证并进一步提高本发明实施例在实际应用中的效果，即输出较高音质和较高响度的单声道音频数据。

可以理解的是，上述相位差，以及上述放大系数和上述衰减系数可以采用其他形式来定义，并不局限于本发明实施例。

步骤208：根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据。

步骤209：将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据。

步骤210：通过单声道输出上述第二音频数据。

示例性地，参照图3，将左声道音频数据S_L(t)和右声道音频数据S_R(t)转换为单声道音频数据S_M(t)并通过单声道输出，需要先分别计算上述左声道音频数据的音量|S_L|、上述右声道音频数据的音量|S_R|，以及上述左右声道音频数据合成后的音量|S_L+S_R|，然后启动增益判决机制，计算左右声道音频数据的相位差D＝|S_L|+|S_R|-|S_L+S_R|，当D大于处理门限T时，则可以启动处理；比较上述|S_L|与|S_R|的大小，将预设的处理系数G_L与G_R中的较大值作为增益系数用来增益左右声道中音量较大的声道的音频数据，将G_L与G_R中的较小值作为衰减系数用来衰减左右声道中音量较小的声道的音频数据，并合成输出位单声道音频数据S_M(t)。当然，若|S_L|与|S_R|相等，则可以对任一声道的音频数据进行增益，而对另一声道的音频数据进行衰减。

进一步地，参照图4所示，当D小于等于处理门限T时，则取G_L＝G_R＝0.5，即采用背景技术中的技术方案对左右声道数据直接合成为单声道音频数据S_M(t)；而当D大于处理门限T时，则可以根据相位差D和处理门限T计算上述放大系数A₁＝0.5+0.5×(D–T)/(2-T)，以及衰减系数A₂＝0.5-0.5×(D–T)/(2-T)。进一步地，若|S_L|>|S_R|，则取左声道的处理系数G_L＝A₁，右声道的处理系数G_R＝A₂；若|S_L|>|S_R|，则取左声道的处理系数G_L＝A₂，右声道的处理系数G_R＝A₁。最终合成的单声道音频数据S_M(t)＝S_L(t)×G_L+S_R(t)×G_R。

因此，本发明实施例一方面避免了在上述双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题，仍然能够输出具有较高音质和较高响度的单声道音频数据，提升了用户的音乐体验和操作体验，避免用户再去查找对应的单声道音频数据；另一方面，通过计算可以度量上述第一声道音频数据和上述第二声道音频数据在合成为单声道音频数据时互相抵消的程度的相位差，并设置相应的处理门限，可以减少计算资源，提高对双声道音频数据转换为单声道音频数据的处理效率；再一方面，根据上述相位差可以更加精确地确定上述放大系数和上述衰减系数，可以保证并进一步提高本发明实施例在实际应用中的效果，即输出较高音质和较高响度的单声道音频数据。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

【实施例三】

参照图5所示，本发明实施例提供了一种音频数据处理装置，具体可以包括：

第一音量提取模块501，用于从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；上述第一音频数据包括上述第一声道音频数据和上述第二声道音频数据；

处理系数获取模块502，用于若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数；

音频处理模块503，用于根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据；

第一音频合成模块504，用于将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据；

音频输出模块505，用于通过单声道输出上述第二音频数据。

可选地，参照图6所示，在上述图5的基础上，上述装置还可以包括：

第二音频合成模块506，用于将上述第一声道音频数据和上述第二声道音频数据合成为第三音频数据；

第二音量提取模块507，用于从上述第三音频数据中提取与上述第三音频数据对应的第三音量；

相位差计算模块508，用于根据上述第一音量、上述第二音量和上述第三音量，计算上述第一声道音频数据和上述第二声道音频数据的相位差；

判断模块509，用于若上述相位差大于第一相位差预设值，则执行上述若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数的步骤。

进一步地，上述相位差计算模块508可以包括：

相位差计算单元5081，用于计算上述第一音量与上述第二音量的和值，上述和值与上述第三音量的差值为上述第一声道音频数据和上述第二声道音频数据的相位差。

进一步地，上述第一相位差预设值为T，上述相位差为D，则上述处理系数获取模块502可以包括：

处理系数计算单元5021，用于若上述第一音量大于等于上述第二音量，则

上述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

上述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

可选地，上述第一音量提取模块501可以包括：

音频获取单元5011，用于获取目标音频文件经解码后的第一音频数据；上述第一音频数据包括第一声道音频数据和第二声道音频数据；

音量提取单元5012，用于提取上述第一声道音频数据对应的第一音量和上述第二声道音频数据对应的第二音量。

本发明实施例一方面避免了在上述双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题，仍然能够输出具有较高音质和较高响度的单声道音频数据，提升了用户的音乐体验和操作体验，避免用户再去查找对应的单声道音频数据；另一方面，通过计算可以度量上述第一声道音频数据和上述第二声道音频数据在合成为单声道音频数据时互相抵消的程度的相位差，并设置相应的处理门限，可以减少计算资源，提高对双声道音频数据转换为单声道音频数据的处理效率；再一方面，根据上述相位差可以更加精确地确定上述放大系数和上述衰减系数，可以保证并进一步提高本发明实施例在实际应用中的效果，即输出较高音质和较高响度的单声道音频数据。

【实施例四】

图7是本发明另一个实施例的移动终端的框图。图7所示的移动终端700包括：至少一个处理器701、存储器702、至少一个网络接口704、其他用户接口703。移动终端700中的各个组件通过总线系统705耦合在一起。可理解，总线系统705用于实现这些组件之间的连接通信。总线系统705除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图7中将各种总线都标为总线系统705。

其中，用户接口703可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本发明实施例中的存储器702可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRam bus RAM，DRRAM)。本发明实施例描述的系统和方法的存储器702旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器702存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统7021和应用程序7022。

其中，操作系统7021，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序7022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序7022中。

在本发明实施例中，通过调用存储器702存储的程序或指令，具体的，可以是应用程序7022中存储的程序或指令，处理器701用于从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；上述第一音频数据包括上述第一声道音频数据和上述第二声道音频数据；若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数；根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据；将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据；通过单声道输出上述第二音频数据。

上述本发明实施例揭示的方法可以应用于处理器701中，或者由处理器701实现。处理器701可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器701中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器701可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器702，处理器701读取存储器702中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本发明实施例描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits，ASIC)、数字信号处理器(Digital SignalProcessing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(ProgrammableLogic Device，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请上述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本发明实施例上述功能的模块(例如过程、函数等)来实现本发明实施例上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

可选地，处理器701还用于：将上述第一声道音频数据和上述第二声道音频数据合成为第三音频数据；从上述第三音频数据中提取与上述第三音频数据对应的第三音量；根据上述第一音量、上述第二音量和上述第三音量，计算上述第一声道音频数据和上述第二声道音频数据的相位差；若上述相位差大于第一相位差预设值，则执行上述若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数的步骤。

进一步地，处理器701还用于：计算上述第一音量与上述第二音量的和值，上述和值与上述第三音量的差值为上述第一声道音频数据和上述第二声道音频数据的相位差。

进一步地，处理器701还用于：上述第一相位差预设值为T，上述相位差为D，若上述第一音量大于等于上述第二音量，则

上述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

上述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

可选地，处理器701还用于：获取目标音频文件经解码后的第一音频数据；上述第一音频数据包括第一声道音频数据和第二声道音频数据；提取上述第一声道音频数据对应的第一音量和上述第二声道音频数据对应的第二音量。

移动终端700能够实现前述实施例中移动终端实现的各个过程，为避免重复，这里不再赘述。

【实施例五】

图8是本发明另一个实施例的移动终端的结构示意图。具体地，图8中的移动终端可以为手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、或车载电脑等。

图8中的移动终端包括射频(Radio Frequency，RF)电路810、存储器820、输入单元830、显示单元840、处理器860、音频电路870、WiFi(WirelessFidelity)模块880和电源890。

其中，输入单元830可用于接收用户输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的信号输入。具体地，本发明实施例中，该输入单元830可以包括触控面板831。触控面板831，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板831上的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板831可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给该处理器860，并能接收处理器860发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板831。除了触控面板831，输入单元830还可以包括其他输入设备832，其他输入设备832可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

其中，显示单元840可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种菜单界面。显示单元840可包括显示面板841，可选的，可以采用LCD或有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板841。

应注意，触控面板831可以覆盖显示面板841，形成触摸显示屏，当该触摸显示屏检测到在其上或附近的触摸操作后，传送给处理器860以确定触摸事件的类型，随后处理器860根据触摸事件的类型在触摸显示屏上提供相应的视觉输出。

触摸显示屏包括应用程序界面显示区及常用控件显示区。该应用程序界面显示区及该常用控件显示区的排列方式并不限定，可以为上下排列、左右排列等可以区分两个显示区的排列方式。该应用程序界面显示区可以用于显示应用程序的界面。每一个界面可以包含至少一个应用程序的图标和/或widget桌面控件等界面元素。该应用程序界面显示区也可以为不包含任何内容的空界面。该常用控件显示区用于显示使用率较高的控件，例如，设置按钮、界面编号、滚动条、电话本图标等应用程序图标等。

其中处理器860是移动终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在第一存储器821内的软件程序和/或模块，以及调用存储在第二存储器822内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。可选的，处理器860可包括一个或多个处理单元。

在本发明实施例中，通过调用存储该第一存储器821内的软件程序和/或模块和/或该第二存储器822内的数据，处理器860用于从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量；上述第一音频数据包括上述第一声道音频数据和上述第二声道音频数据；若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数；根据上述放大系数放大上述第一声道音频数据，以及根据上述衰减系数衰减上述第二声道音频数据；将上述放大后的第一声道音频数据和上述衰减后的第二声道音频数据合成为第二音频数据；通过单声道输出上述第二音频数据。

可选地，处理器860还用于：将上述第一声道音频数据和上述第二声道音频数据合成为第三音频数据；从上述第三音频数据中提取与上述第三音频数据对应的第三音量；根据上述第一音量、上述第二音量和上述第三音量，计算上述第一声道音频数据和上述第二声道音频数据的相位差；若上述相位差大于第一相位差预设值，则执行上述若上述第一音量大于等于上述第二音量，则获取上述第一声道音频数据的放大系数和上述第二声道音频数据的衰减系数的步骤。

进一步地，处理器860还用于：计算上述第一音量与上述第二音量的和值，上述和值与上述第三音量的差值为上述第一声道音频数据和上述第二声道音频数据的相位差。

进一步地，处理器860还用于：上述第一相位差预设值为T，上述相位差为D，若上述第一音量大于等于上述第二音量，则

上述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

上述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

可选地，处理器860还用于：获取目标音频文件经解码后的第一音频数据；上述第一音频数据包括第一声道音频数据和第二声道音频数据；提取上述第一声道音频数据对应的第一音量和上述第二声道音频数据对应的第二音量。

可见，本发明实施例一方面避免了在上述双声道音频数据的两个声道的音频数据具有自相关性时，因为相位差的存在可能导致的相互抵消，从而使得合成后的单声道音频数据音质变差、响度降低的问题，仍然能够输出具有较高音质和较高响度的单声道音频数据，提升了用户的音乐体验和操作体验，避免用户再去查找对应的单声道音频数据；另一方面，通过计算可以度量上述第一声道音频数据和上述第二声道音频数据在合成为单声道音频数据时互相抵消的程度的相位差，并设置相应的处理门限，可以减少计算资源，提高对双声道音频数据转换为单声道音频数据的处理效率；再一方面，根据上述相位差可以更加精确地确定上述放大系数和上述衰减系数，可以保证并进一步提高本发明实施例在实际应用中的效果，即输出较高音质和较高响度的单声道音频数据。

优选的，本发明实施例还提供一种移动终端，包括处理器，存储器，存储在存储器上并可在上述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频数据处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上上述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种音频数据处理方法，其特征在于，包括：

若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数；其中，所述放大系数和所述衰减系数，与所述第一声道音频数据与所述第二声道音频数据的相位差相关；

通过单声道输出所述第二音频数据。

2.根据权利要求1所述的方法，其特征在于，在所述若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数的步骤之前，在所述从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量步骤之后，还包括：

将所述第一声道音频数据和所述第二声道音频数据合成为第三音频数据；

从所述第三音频数据中提取与所述第三音频数据对应的第三音量；

根据所述第一音量、所述第二音量和所述第三音量，计算所述第一声道音频数据和所述第二声道音频数据的相位差；

若所述相位差大于第一相位差预设值，则执行所述若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数的步骤。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一音量、所述第二音量和所述第三音量，计算所述第一声道音频数据和所述第二声道音频数据的相位差的步骤包括：

计算所述第一音量与所述第二音量的和值，所述和值与所述第三音量的差值为所述第一声道音频数据和所述第二声道音频数据的相位差。

4.根据权利要求2所述的方法，其特征在于，所述第一相位差预设值为T，所述相位差为D，则所述若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数的步骤包括：

若所述第一音量大于等于所述第二音量，则

所述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

所述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

5.根据权利要求1所述的方法，其特征在于，所述从第一音频数据中提取第一声道音频数据对应的第一音量和第二声道音频数据对应的第二音量的步骤包括：

获取目标音频文件经解码后的第一音频数据；所述第一音频数据包括第一声道音频数据和第二声道音频数据；

提取所述第一声道音频数据对应的第一音量和所述第二声道音频数据对应的第二音量。

6.一种音频数据处理装置，其特征在于，包括：

处理系数获取模块，用于若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数；其中，所述放大系数和所述衰减系数，与所述第一声道音频数据与所述第二声道音频数据的相位差相关；

音频输出模块，用于通过单声道输出所述第二音频数据。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二音频合成模块，用于将所述第一声道音频数据和所述第二声道音频数据合成为第三音频数据；

第二音量提取模块，用于从所述第三音频数据中提取与所述第三音频数据对应的第三音量；

相位差计算模块，用于根据所述第一音量、所述第二音量和所述第三音量，计算所述第一声道音频数据和所述第二声道音频数据的相位差；

判断模块，用于若所述相位差大于第一相位差预设值，则执行所述若所述第一音量大于等于所述第二音量，则获取所述第一声道音频数据的放大系数和所述第二声道音频数据的衰减系数的步骤。

8.根据权利要求7所述的装置，其特征在于，所述相位差计算模块包括：

相位差计算单元，用于计算所述第一音量与所述第二音量的和值，所述和值与所述第三音量的差值为所述第一声道音频数据和所述第二声道音频数据的相位差。

9.根据权利要求7所述的装置，其特征在于，所述第一相位差预设值为T，所述相位差为D，则所述处理系数获取模块包括：

处理系数计算单元，用于若所述第一音量大于等于所述第二音量，则

所述第一声道音频数据的放大系数G₁＝0.5+0.5×(D–T)/(2-T)，

所述第二声道音频数据的衰减系数G₂＝0.5-0.5×(D–T)/(2-T)；

其中，0≤D≤2，1≤T≤2。

10.根据权利要求6所述的装置，其特征在于，所述第一音量提取模块包括：

音频获取单元，用于获取目标音频文件经解码后的第一音频数据；所述第一音频数据包括第一声道音频数据和第二声道音频数据；

音量提取单元，用于提取所述第一声道音频数据对应的第一音量和所述第二声道音频数据对应的第二音量。

11.一种移动终端，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的音频数据处理方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的音频数据处理方法的步骤。