CN116092507A

CN116092507A - 一种音频混音方法、设备及介质

Info

Publication number: CN116092507A
Application number: CN202310285597.8A
Authority: CN
Inventors: 潘蕾; 罗栋文; 刘建
Original assignee: Guangzhou Ganyin Technology Co ltd
Current assignee: Guangzhou Ganyin Technology Co ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-05-09
Anticipated expiration: 2043-03-22
Also published as: CN116092507B

Abstract

本发明涉及一种音频混音方法、设备及介质，本发明具有以下有益效果：首先将音乐文件分解为若干音色源文件，然后分别对音色源文件进行平滑处理，最后将处理后的音频文件进行混音，能够保证音乐文件在播放过程中更加流畅，且通过对混音完成后的音乐文件进行音量强度检测，并对超过播放阈值的音乐文件进行归一化处理，能够避免音乐文件的音量强度超过扬声器的播放阈值，保证音乐文件播放的稳定性。

Description

一种音频混音方法、设备及介质

技术领域

本发明涉及音频调整技术领域，更具体地说，它涉及一种音频混音方法、设备及介质。

背景技术

现有的音频混合技术中，为了实现多声部的音频相互配合，需要将多条音轨相互叠加，按照预定的时间顺序进行播放以形成完整的音乐流。由于音频播放场景和用途的复杂性和不确定性，在单音频同时多轨播放的情况下，存在音频播放中断、多音频同时播放叠加产生爆音的问题。

现有技术中，所采用的音频存储、播放设备通常都是数字化设备，由于数字信号是离散的，在实际的音乐文件中，如果存在采样率不足或者音乐相互拼接的情况下，容易因为音量强度的相互干扰导致扬声器出现爆音、无声等问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种音频混音方法、设备及介质，以克服现有的多音轨音频存在的容易爆音的问题。

本发明的上述技术目的是通过以下技术方案得以实现的：一种音频混音方法,包括：

S1、获取音频文件，对所述音频文件进行预解码，得到对应的第一PCM文件；

S2、将所述第一PCM文件分解为若干第一音色源文件；

S3、分别对若干第一音色源文件中的每一个采样点的音量强度进行淡入处理和淡出处理，对应得到若干第二音色源文件；

S4、将若干第二音色源文件混音，得到对应的第二PCM文件。

可选的，所述淡入处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。

可选的，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述线性淡入算法为：

；

a和b为线性函数中的常量；x为第一预定时间段内的时间变化量；X(i)表示所述采样点的音量强度；F（x）表示x时刻点对应的音量强度。

可选的，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述指数淡入算法为：

；

c、d和f为指数函数中的常量；x为第一预定时间段内的时间变化量；X(i)为所述采样点的音量强度；G（x）为x时刻点对应的音量强度。

可选的，所述淡出处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。

可选的，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述线性淡出算法为：

；

g和h为线性函数中的常量；x为第二预定时间段内的时间变化量；X(i)表示所述采样点的音量强度；H（x）表示x时刻点对应的音量强度。

可选的，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述指数淡出算法为：

；

j、k和l为指数函数中的常量；x为第一预定时间段内的时间变化量；X(i)为所述采样点的音量强度；I（x）为x时刻点对应的音量强度。

可选的，还包括：S5、获取所述第二PCM文件的最大的音量强度，记作最大音量强度，判断所述最大音量强度是否超过预定音量强度阈值，若是，对所述第二PCM文件进行归一化处理，对应得到第三PCM文件；

所述归一化处理包括：

；

其中Y（x）表示第二PCM文件中x时刻对应的采样点的音量强度；M（x）表示归一化后的x时刻对应的采样点的音量强度；T表示扬声器的音量强度播放阈值，X_MAX表示乐曲中最大的音量强度。

一种音频混音系统，包括：

音频文件解码模块：对内存中的音频文件进行预解码，得到对应的第一PCM文件；

音频文件分解模块：将所述第一PCM文件分解为若干第一音色源文件；

音频文件处理模块：用于分别对若干第一音色源文件中的每一个音符进行淡入处理和淡出处理，对应得到若干第二音色源文件；

混音模块：用于将若干第二音色源文件混音，得到第二PCM文件；

音频文件播放模块：用于播放PCM文件；

音强判断模块：用于判断所述第二PCM文件的音量是否存在超过扬声器播放阈值的部分；

归一化处理模块：用于对所述第二PCM文件进行归一化处理，对应得到第三PCM文件。

一种计算机设备,包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

综上所述，本发明具有以下有益效果：首先将音乐文件分解为若干音色源文件，然后分别对音色源文件进行平滑处理，最后将处理后的音频文件进行混音，能够保证音乐文件在播放过程中更加流畅，且通过对混音完成后的音乐文件进行音量强度检测，并对超过播放阈值的音乐文件进行归一化处理，能够避免音乐文件的音量强度超过扬声器的播放阈值，保证音乐文件播放的稳定性。

附图说明

图1为本发明的一种音频混音方法流程图；

图2为本发明的一种音频混音系统结构图；

图3为模拟信号形式下的音量强度与时间的关系图像；

图4为数字信号形式下的音量强度与时间的关系图像；

图5为本发明实施例中计算机设备的内部结构图。

图中：1、音频文件解码模块；2、音频文件分解模块；3、音频文件处理模块；4、混音模块；5、音频文件播放模块；6、音强判断模块；7、归一化处理模块。

具体实施方式

为使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方，或仅仅表示第一特征水平高度小于第二特征。术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的，而不是指示或暗示所指装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

下面结合附图和实施例，对本发明进行详细描述。

本发明提供了一种音频混音方法,如图1所示，包括：

S2、将所述第一PCM文件分解为若干第一音色源文件；

S4、将若干第二音色源文件混音，得到对应的第二PCM文件。

在现有技术中，将音乐文件以数字化的形式存储在设备中，是比较常见的技术手段，由于数字信号是离散的，而对于扬声器来说，需要的是连续不断的模拟信号，在实际播放过程中，需要将间断、突变的数字信号转化为连续不断的模拟信号。如图3、4所示，其中图3为模拟信号状态下的音量强度与时间之间的对应关系，图4为数字信号状态下的音量强度与时间之间的对应关系。从图中可知，数字信号是离散突变的，那么对于扬声器来说，这种突变的信号会影响扬声器的播放效果，导致播放没有声音或者播放爆音等情况。本申请提出一种音频混音方法，能够提高扬声器播放的流畅度，降低扬声器的出错概率。首先需要将音频文件进行预解码得到PCM文件，由于PCM文件中包含有若干音色文件，因此将PCM文件分解成为单独的音色文件，每一个音色源文件中都包含有很多如图4所示的采样点，然后对每一个采样点都进行淡入淡出处理，使采样点之间都能够平滑过渡。对处理完毕后的所有音色源文件重新混音，形成PCM文件，以供扬声器进行播放，通过本申请的处理能够使乐曲在播放过程中能够更加平滑。

具体来说，在设备播放音频过程中，还需要对音频中的其中一位数据进行判断，当该数据位为0的情况下，扬声器不发出声音，当该数据为1的情况下，扬声器才会根据音频文件中所记录的音量强度播放声音。进一步的，在本申请中，也可以让该数据位一直为1，并且通过控制音频文件内的音量强度的大小，对应控制扬声器是否发出声音。

进一步，本申请所提出的混音方式，能够封装到设备平台的低延时播放库中，例如android端的低延时播放库包括OpenSL ES、AAudio、Oboe、SoundPool、Audiotrack以及ios端的低延时播放库包括OpenAL、AudioUnit；进而实现音乐的低延时的混音处理方法，维持音乐播放的稳定性和流畅性，保证了音乐的播放效果。

进一步地，所述淡入处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。

具体来说，淡入处理就是根据采样点的音量强度，在采样点之前，对应设置能够平滑过渡到采样点强度的信号渐变区域。在本申请中，第一预定时间段的取值为10-30ms。

进一步地，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述线性淡入算法为：

；

具体来说，F（x）就是一个在第一预定之间段内跟随时间连续变化的函数，F（x）的取值受到采样点的音量强度X(i)的影响，在播放时刻之前，音量强度是逐渐变大的，也就是说，音量强度的曲线是上升的，因此a的取值范围是大于0的，且a的具体取值需要根据乐曲的实际情况决定，a的取值能够影响音量强度的变化速度。b的取值用于影响函数曲线的上下位置，以保证音量强度能够在播放时刻的点达到峰值。

进一步地，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述指数淡入算法为：

；

具体来说，G（x）是一个在第一预定之间段内跟随时间连续变化的函数，F（x）的取值受到采样点的音量强度X(i)的影响，在播放时刻之前，音量强度是逐渐变大的，也就是说，音量强度的曲线是上升的，常数c用于调整曲线的斜率，又因为x所代表的是时间的变化量不能取到负值，所以为了保证G（x）能够小于X(i)，需要通过设置常数d来调整G（x）的实际取值。

进一步地，所述淡出处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。

具体来说，淡出算法与淡入算法类似，但是淡出算法中，其函数的变化趋势，需要与淡入算法相反，也就是说，在淡出算法中，函数的变化是递减的。且在淡出算法中，第二预定时间段的长度为100-200ms。

进一步地，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述线性淡出算法为：

；

具体来说，在本申请中，由于在淡出算法过程中，音量强度是递减的，因此g的取值应为负，h的取值用于调整音量强度曲线的上下位置。

进一步地，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述指数淡出算法为：

；

具体来说，相比线性处理，指数处理所得到的结果更加平滑，但是指数处理算法所需要的计算量也相应较大，因此需要根据实际的需要，对应选择指数处理或者线性处理。

进一步，当对采样点的前后都进行了处理之后，就会存在重叠的区域，也就是当前的采样点的淡入处理与上一个采样点的淡出处理相互重叠，这样只需要取重叠部分的最大值即可。

进一步地，还包括：

S5、获取所述第二PCM文件的最大的音量强度，记作最大音量强度，判断所述最大音量强度是否超过预定音量强度阈值，若是，对所述第二PCM文件进行归一化处理，对应得到第三PCM文件；

所述归一化处理包括：

；

在实际应用中，由于扬声器的音量强度播放阈值是不同的，因此为了适应扬声器的播放阈值，需要根据扬声器的播放阈，对乐曲进行处理，使乐曲的整体音量强度均处于扬声器的播放阈值范围内，才能够使扬声器完整的将乐曲播放出来。

如图2所示，本发明还提供了一种音频混音系统，包括：

音频文件播放模块：用于播放PCM文件；

关于一种音频混音系统的具体限定可以参见上文中对于一种音频混音方法的限定，在此不再赘述。上述一种音频混音系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种音频混音方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：包括：

S2、将所述第一PCM文件分解为若干第一音色源文件；

S4、将若干第二音色源文件混音，得到对应的第二PCM文件。

在一个实施例中，所述淡入处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。

在一个实施例中，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述线性淡入算法为：

；

在一个实施例中，所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述指数淡入算法为：

；

在一个实施例中，所述淡出处理包括：获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。

在一个实施例中，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述线性淡出算法为：

；

在一个实施例中，所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述指数淡出算法为：

；

在一个实施例中，还包括：

所述归一化处理包括：

；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频混音方法，其特征在于，包括：

S2、将所述第一PCM文件分解为若干第一音色源文件；

S4、将若干第二音色源文件混音，得到对应的第二PCM文件。

2.根据权利要求1所述的一种音频混音方法，其特征在于，所述淡入处理包括：

获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。

3.根据权利要求2所述的一种音频混音方法，其特征在于，

所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述线性淡入算法为：

；

4.根据权利要求2所述的一种音频混音方法，其特征在于，

所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理，包括：采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理；

所述指数淡入算法为：

；

5.根据权利要求1所述的一种音频混音方法，其特征在于，所述淡出处理包括：

获取所述采样点所对应的播放时刻，根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。

6.根据权利要求5所述的一种音频混音方法，其特征在于，

所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述线性淡出算法为：

；

7.根据权利要求5所述的一种音频混音方法，其特征在于，

所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理，包括：采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理；

所述指数淡出算法为：

；

8.根据权利要求1所述的一种音频混音方法，其特征在于，还包括：

所述归一化处理包括：

；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。