CN116092507A - 一种音频混音方法、设备及介质 - Google Patents
一种音频混音方法、设备及介质 Download PDFInfo
- Publication number
- CN116092507A CN116092507A CN202310285597.8A CN202310285597A CN116092507A CN 116092507 A CN116092507 A CN 116092507A CN 202310285597 A CN202310285597 A CN 202310285597A CN 116092507 A CN116092507 A CN 116092507A
- Authority
- CN
- China
- Prior art keywords
- volume intensity
- fade
- sampling point
- smoothing
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000009499 grossing Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims description 72
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000012886 linear function Methods 0.000 claims description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及一种音频混音方法、设备及介质,本发明具有以下有益效果:首先将音乐文件分解为若干音色源文件,然后分别对音色源文件进行平滑处理,最后将处理后的音频文件进行混音,能够保证音乐文件在播放过程中更加流畅,且通过对混音完成后的音乐文件进行音量强度检测,并对超过播放阈值的音乐文件进行归一化处理,能够避免音乐文件的音量强度超过扬声器的播放阈值,保证音乐文件播放的稳定性。
Description
技术领域
本发明涉及音频调整技术领域,更具体地说,它涉及一种音频混音方法、设备及介质。
背景技术
现有的音频混合技术中,为了实现多声部的音频相互配合,需要将多条音轨相互叠加,按照预定的时间顺序进行播放以形成完整的音乐流。由于音频播放场景和用途的复杂性和不确定性,在单音频同时多轨播放的情况下,存在音频播放中断、多音频同时播放叠加产生爆音的问题。
现有技术中,所采用的音频存储、播放设备通常都是数字化设备,由于数字信号是离散的,在实际的音乐文件中,如果存在采样率不足或者音乐相互拼接的情况下,容易因为音量强度的相互干扰导致扬声器出现爆音、无声等问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种音频混音方法、设备及介质,以克服现有的多音轨音频存在的容易爆音的问题。
本发明的上述技术目的是通过以下技术方案得以实现的:一种音频混音方法,包括:
S1、获取音频文件,对所述音频文件进行预解码,得到对应的第一PCM文件;
S2、将所述第一PCM文件分解为若干第一音色源文件;
S3、分别对若干第一音色源文件中的每一个采样点的音量强度进行淡入处理和淡出处理,对应得到若干第二音色源文件;
S4、将若干第二音色源文件混音,得到对应的第二PCM文件。
可选的,所述淡入处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。
可选的,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述线性淡入算法为:
;
a和b为线性函数中的常量;x为第一预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;F(x)表示x时刻点对应的音量强度。
可选的,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述指数淡入算法为:
;
c、d和f为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;G(x)为x时刻点对应的音量强度。
可选的,所述淡出处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。
可选的,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述线性淡出算法为:
;
g和h为线性函数中的常量;x为第二预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;H(x)表示x时刻点对应的音量强度。
可选的,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述指数淡出算法为:
;
j、k和l为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;I(x)为x时刻点对应的音量强度。
可选的,还包括:S5、获取所述第二PCM文件的最大的音量强度,记作最大音量强度,判断所述最大音量强度是否超过预定音量强度阈值,若是,对所述第二PCM文件进行归一化处理,对应得到第三PCM文件;
所述归一化处理包括:
;
其中Y(x)表示第二PCM文件中x时刻对应的采样点的音量强度;M(x)表示归一化后的x时刻对应的采样点的音量强度;T表示扬声器的音量强度播放阈值,XMAX表示乐曲中最大的音量强度。
一种音频混音系统,包括:
音频文件解码模块:对内存中的音频文件进行预解码,得到对应的第一PCM文件;
音频文件分解模块:将所述第一PCM文件分解为若干第一音色源文件;
音频文件处理模块:用于分别对若干第一音色源文件中的每一个音符进行淡入处理和淡出处理,对应得到若干第二音色源文件;
混音模块:用于将若干第二音色源文件混音,得到第二PCM文件;
音频文件播放模块:用于播放PCM文件;
音强判断模块:用于判断所述第二PCM文件的音量是否存在超过扬声器播放阈值的部分;
归一化处理模块:用于对所述第二PCM文件进行归一化处理,对应得到第三PCM文件。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
综上所述,本发明具有以下有益效果:首先将音乐文件分解为若干音色源文件,然后分别对音色源文件进行平滑处理,最后将处理后的音频文件进行混音,能够保证音乐文件在播放过程中更加流畅,且通过对混音完成后的音乐文件进行音量强度检测,并对超过播放阈值的音乐文件进行归一化处理,能够避免音乐文件的音量强度超过扬声器的播放阈值,保证音乐文件播放的稳定性。
附图说明
图1为本发明的一种音频混音方法流程图;
图2为本发明的一种音频混音系统结构图;
图3为模拟信号形式下的音量强度与时间的关系图像;
图4为数字信号形式下的音量强度与时间的关系图像;
图5为本发明实施例中计算机设备的内部结构图。
图中:1、音频文件解码模块;2、音频文件分解模块;3、音频文件处理模块;4、混音模块;5、音频文件播放模块;6、音强判断模块;7、归一化处理模块。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”以及类似的表述只是为了说明的目的,而不是指示或暗示所指装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
下面结合附图和实施例,对本发明进行详细描述。
本发明提供了一种音频混音方法,如图1所示,包括:
S1、获取音频文件,对所述音频文件进行预解码,得到对应的第一PCM文件;
S2、将所述第一PCM文件分解为若干第一音色源文件;
S3、分别对若干第一音色源文件中的每一个采样点的音量强度进行淡入处理和淡出处理,对应得到若干第二音色源文件;
S4、将若干第二音色源文件混音,得到对应的第二PCM文件。
在现有技术中,将音乐文件以数字化的形式存储在设备中,是比较常见的技术手段,由于数字信号是离散的,而对于扬声器来说,需要的是连续不断的模拟信号,在实际播放过程中,需要将间断、突变的数字信号转化为连续不断的模拟信号。如图3、4所示,其中图3为模拟信号状态下的音量强度与时间之间的对应关系,图4为数字信号状态下的音量强度与时间之间的对应关系。从图中可知,数字信号是离散突变的,那么对于扬声器来说,这种突变的信号会影响扬声器的播放效果,导致播放没有声音或者播放爆音等情况。本申请提出一种音频混音方法,能够提高扬声器播放的流畅度,降低扬声器的出错概率。首先需要将音频文件进行预解码得到PCM文件,由于PCM文件中包含有若干音色文件,因此将PCM文件分解成为单独的音色文件,每一个音色源文件中都包含有很多如图4所示的采样点,然后对每一个采样点都进行淡入淡出处理,使采样点之间都能够平滑过渡。对处理完毕后的所有音色源文件重新混音,形成PCM文件,以供扬声器进行播放,通过本申请的处理能够使乐曲在播放过程中能够更加平滑。
具体来说,在设备播放音频过程中,还需要对音频中的其中一位数据进行判断,当该数据位为0的情况下,扬声器不发出声音,当该数据为1的情况下,扬声器才会根据音频文件中所记录的音量强度播放声音。进一步的,在本申请中,也可以让该数据位一直为1,并且通过控制音频文件内的音量强度的大小,对应控制扬声器是否发出声音。
进一步,本申请所提出的混音方式,能够封装到设备平台的低延时播放库中,例如android端的低延时播放库包括OpenSL ES、AAudio、Oboe、SoundPool、Audiotrack以及ios端的低延时播放库包括OpenAL、AudioUnit;进而实现音乐的低延时的混音处理方法,维持音乐播放的稳定性和流畅性,保证了音乐的播放效果。
进一步地,所述淡入处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。
具体来说,淡入处理就是根据采样点的音量强度,在采样点之前,对应设置能够平滑过渡到采样点强度的信号渐变区域。在本申请中,第一预定时间段的取值为10-30ms。
进一步地,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述线性淡入算法为:
;
a和b为线性函数中的常量;x为第一预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;F(x)表示x时刻点对应的音量强度。
具体来说,F(x)就是一个在第一预定之间段内跟随时间连续变化的函数,F(x)的取值受到采样点的音量强度X(i)的影响,在播放时刻之前,音量强度是逐渐变大的,也就是说,音量强度的曲线是上升的,因此a的取值范围是大于0的,且a的具体取值需要根据乐曲的实际情况决定,a的取值能够影响音量强度的变化速度。b的取值用于影响函数曲线的上下位置,以保证音量强度能够在播放时刻的点达到峰值。
进一步地,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述指数淡入算法为:
;
c、d和f为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;G(x)为x时刻点对应的音量强度。
具体来说,G(x)是一个在第一预定之间段内跟随时间连续变化的函数,F(x)的取值受到采样点的音量强度X(i)的影响,在播放时刻之前,音量强度是逐渐变大的,也就是说,音量强度的曲线是上升的,常数c用于调整曲线的斜率,又因为x所代表的是时间的变化量不能取到负值,所以为了保证G(x)能够小于X(i),需要通过设置常数d来调整G(x)的实际取值。
进一步地,所述淡出处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。
具体来说,淡出算法与淡入算法类似,但是淡出算法中,其函数的变化趋势,需要与淡入算法相反,也就是说,在淡出算法中,函数的变化是递减的。且在淡出算法中,第二预定时间段的长度为100-200ms。
进一步地,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述线性淡出算法为:
;
g和h为线性函数中的常量;x为第二预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;H(x)表示x时刻点对应的音量强度。
具体来说,在本申请中,由于在淡出算法过程中,音量强度是递减的,因此g的取值应为负,h的取值用于调整音量强度曲线的上下位置。
进一步地,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述指数淡出算法为:
;
j、k和l为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;I(x)为x时刻点对应的音量强度。
具体来说,相比线性处理,指数处理所得到的结果更加平滑,但是指数处理算法所需要的计算量也相应较大,因此需要根据实际的需要,对应选择指数处理或者线性处理。
进一步,当对采样点的前后都进行了处理之后,就会存在重叠的区域,也就是当前的采样点的淡入处理与上一个采样点的淡出处理相互重叠,这样只需要取重叠部分的最大值即可。
进一步地,还包括:
S5、获取所述第二PCM文件的最大的音量强度,记作最大音量强度,判断所述最大音量强度是否超过预定音量强度阈值,若是,对所述第二PCM文件进行归一化处理,对应得到第三PCM文件;
所述归一化处理包括:
;
其中Y(x)表示第二PCM文件中x时刻对应的采样点的音量强度;M(x)表示归一化后的x时刻对应的采样点的音量强度;T表示扬声器的音量强度播放阈值,XMAX表示乐曲中最大的音量强度。
在实际应用中,由于扬声器的音量强度播放阈值是不同的,因此为了适应扬声器的播放阈值,需要根据扬声器的播放阈,对乐曲进行处理,使乐曲的整体音量强度均处于扬声器的播放阈值范围内,才能够使扬声器完整的将乐曲播放出来。
如图2所示,本发明还提供了一种音频混音系统,包括:
音频文件解码模块:对内存中的音频文件进行预解码,得到对应的第一PCM文件;
音频文件分解模块:将所述第一PCM文件分解为若干第一音色源文件;
音频文件处理模块:用于分别对若干第一音色源文件中的每一个音符进行淡入处理和淡出处理,对应得到若干第二音色源文件;
混音模块:用于将若干第二音色源文件混音,得到第二PCM文件;
音频文件播放模块:用于播放PCM文件;
音强判断模块:用于判断所述第二PCM文件的音量是否存在超过扬声器播放阈值的部分;
归一化处理模块:用于对所述第二PCM文件进行归一化处理,对应得到第三PCM文件。
关于一种音频混音系统的具体限定可以参见上文中对于一种音频混音方法的限定,在此不再赘述。上述一种音频混音系统中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种音频混音方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:包括:
S1、获取音频文件,对所述音频文件进行预解码,得到对应的第一PCM文件;
S2、将所述第一PCM文件分解为若干第一音色源文件;
S3、分别对若干第一音色源文件中的每一个采样点的音量强度进行淡入处理和淡出处理,对应得到若干第二音色源文件;
S4、将若干第二音色源文件混音,得到对应的第二PCM文件。
在一个实施例中,所述淡入处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。
在一个实施例中,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述线性淡入算法为:
;
a和b为线性函数中的常量;x为第一预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;F(x)表示x时刻点对应的音量强度。
在一个实施例中,所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述指数淡入算法为:
;
c、d和f为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;G(x)为x时刻点对应的音量强度。
在一个实施例中,所述淡出处理包括:获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。
在一个实施例中,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述线性淡出算法为:
;
g和h为线性函数中的常量;x为第二预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;H(x)表示x时刻点对应的音量强度。
在一个实施例中,所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述指数淡出算法为:
;
j、k和l为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;I(x)为x时刻点对应的音量强度。
在一个实施例中,还包括:
S5、获取所述第二PCM文件的最大的音量强度,记作最大音量强度,判断所述最大音量强度是否超过预定音量强度阈值,若是,对所述第二PCM文件进行归一化处理,对应得到第三PCM文件;
所述归一化处理包括:
;
其中Y(x)表示第二PCM文件中x时刻对应的采样点的音量强度;M(x)表示归一化后的x时刻对应的采样点的音量强度;T表示扬声器的音量强度播放阈值,XMAX表示乐曲中最大的音量强度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种音频混音方法,其特征在于,包括:
S1、获取音频文件,对所述音频文件进行预解码,得到对应的第一PCM文件;
S2、将所述第一PCM文件分解为若干第一音色源文件;
S3、分别对若干第一音色源文件中的每一个采样点的音量强度进行淡入处理和淡出处理,对应得到若干第二音色源文件;
S4、将若干第二音色源文件混音,得到对应的第二PCM文件。
2.根据权利要求1所述的一种音频混音方法,其特征在于,所述淡入处理包括:
获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理。
3.根据权利要求2所述的一种音频混音方法,其特征在于,
所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用线性淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述线性淡入算法为:
;
a和b为线性函数中的常量;x为第一预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;F(x)表示x时刻点对应的音量强度。
4.根据权利要求2所述的一种音频混音方法,其特征在于,
所述根据所述采样点的音量强度按照预设淡入规则对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理,包括:采用指数淡入算法对所述播放时刻前的第一预定时间段内的音量强度进行平滑处理;
所述指数淡入算法为:
;
c、d和f为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;G(x)为x时刻点对应的音量强度。
5.根据权利要求1所述的一种音频混音方法,其特征在于,所述淡出处理包括:
获取所述采样点所对应的播放时刻,根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理。
6.根据权利要求5所述的一种音频混音方法,其特征在于,
所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用线性淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述线性淡出算法为:
;
g和h为线性函数中的常量;x为第二预定时间段内的时间变化量;X(i)表示所述采样点的音量强度;H(x)表示x时刻点对应的音量强度。
7.根据权利要求5所述的一种音频混音方法,其特征在于,
所述根据所述采样点的音量强度按照预设淡出规则对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理,包括:采用指数淡出算法对所述播放时刻后的第二预定时间段内的音量强度进行平滑处理;
所述指数淡出算法为:
;
j、k和l为指数函数中的常量;x为第一预定时间段内的时间变化量;X(i)为所述采样点的音量强度;I(x)为x时刻点对应的音量强度。
8.根据权利要求1所述的一种音频混音方法,其特征在于,还包括:
S5、获取所述第二PCM文件的最大的音量强度,记作最大音量强度,判断所述最大音量强度是否超过预定音量强度阈值,若是,对所述第二PCM文件进行归一化处理,对应得到第三PCM文件;
所述归一化处理包括:
;
其中Y(x)表示第二PCM文件中x时刻对应的采样点的音量强度;M(x)表示归一化后的x时刻对应的采样点的音量强度;T表示扬声器的音量强度播放阈值,XMAX表示乐曲中最大的音量强度。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310285597.8A CN116092507B (zh) | 2023-03-22 | 2023-03-22 | 一种音频混音方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310285597.8A CN116092507B (zh) | 2023-03-22 | 2023-03-22 | 一种音频混音方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116092507A true CN116092507A (zh) | 2023-05-09 |
CN116092507B CN116092507B (zh) | 2023-06-20 |
Family
ID=86206742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310285597.8A Active CN116092507B (zh) | 2023-03-22 | 2023-03-22 | 一种音频混音方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116092507B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6148086A (en) * | 1997-05-16 | 2000-11-14 | Aureal Semiconductor, Inc. | Method and apparatus for replacing a voice with an original lead singer's voice on a karaoke machine |
CN105872253A (zh) * | 2016-05-31 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种直播声音处理方法及移动终端 |
CN111048103A (zh) * | 2019-11-22 | 2020-04-21 | 湖南泊湾科技有限公司 | 一种处理播放器音频数据爆音的方法 |
CN112866854A (zh) * | 2020-12-23 | 2021-05-28 | 广东思派康电子科技有限公司 | 一种大风噪触发调整淡入淡出机制的方法和装置 |
CN113035223A (zh) * | 2021-03-12 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
JP2022040079A (ja) * | 2020-08-27 | 2022-03-10 | アルゴリディム ゲー・エム・ベー・ハー | オーディオエフェクトを適用するための方法、装置、およびソフトウェア |
CN114566172A (zh) * | 2022-02-25 | 2022-05-31 | 北京砍石高科技有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
-
2023
- 2023-03-22 CN CN202310285597.8A patent/CN116092507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6148086A (en) * | 1997-05-16 | 2000-11-14 | Aureal Semiconductor, Inc. | Method and apparatus for replacing a voice with an original lead singer's voice on a karaoke machine |
CN105872253A (zh) * | 2016-05-31 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种直播声音处理方法及移动终端 |
CN111048103A (zh) * | 2019-11-22 | 2020-04-21 | 湖南泊湾科技有限公司 | 一种处理播放器音频数据爆音的方法 |
JP2022040079A (ja) * | 2020-08-27 | 2022-03-10 | アルゴリディム ゲー・エム・ベー・ハー | オーディオエフェクトを適用するための方法、装置、およびソフトウェア |
CN112866854A (zh) * | 2020-12-23 | 2021-05-28 | 广东思派康电子科技有限公司 | 一种大风噪触发调整淡入淡出机制的方法和装置 |
CN113035223A (zh) * | 2021-03-12 | 2021-06-25 | 北京字节跳动网络技术有限公司 | 音频处理方法、装置、设备及存储介质 |
CN114566172A (zh) * | 2022-02-25 | 2022-05-31 | 北京砍石高科技有限公司 | 音频数据处理方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116092507B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6838093B2 (ja) | オーディオ符号化システムにおけるユーザー対話のためのラウドネス制御 | |
US8392180B1 (en) | Automatic gain control | |
RU2467406C2 (ru) | Способ и устройство для поддержки воспринимаемости речи в многоканальном звуковом сопровождении с минимальным влиянием на систему объемного звучания | |
US20080253587A1 (en) | Method for automatically adjusting audio volume and audio player | |
JP2001324997A (ja) | ディジタル・サウンド・レコーディングの音量調整の方法 | |
US9502047B2 (en) | Talker collisions in an auditory scene | |
US20150256930A1 (en) | Masking sound data generating device, method for generating masking sound data, and masking sound data generating system | |
JP5638479B2 (ja) | 書き起こし支援システムおよび書き起こし支援方法 | |
CN103871439B (zh) | 一种音频播放的方法、装置及系统 | |
CN116092507B (zh) | 一种音频混音方法、设备及介质 | |
KR20080071516A (ko) | 재생 장치, 재생 방법 및 재생 프로그램이 기록된 컴퓨터판독 가능한 기록 매체 | |
JP2005526349A5 (zh) | ||
KR101349797B1 (ko) | 전자기기에서 음성 파일 재생 방법 및 장치 | |
US11276404B2 (en) | Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program | |
US20140114654A1 (en) | Method and system for peak limiting of speech signals for delay sensitive voice communication | |
US8731217B2 (en) | Method and apparatus for controlling audio signal output level of portable audio device | |
KR101964359B1 (ko) | 딥러닝용 오디오 데이터 생성방법 및 장치 | |
JP2965788B2 (ja) | 音声用利得制御装置および音声記録再生装置 | |
US20140185830A1 (en) | Methods, systems, and apparatus for audio backtracking control | |
CN104332165A (zh) | 用于在便携式终端中平衡音量的方法和装置 | |
KR20060026557A (ko) | 디지털 오디오 기기에서의 자동 음량 조절 장치 및 방법 | |
US20140307880A1 (en) | Monitor an event that produces a noise received by a microphone | |
CN116320860A (zh) | 一种耳机降噪方法、系统、耳机设备和存储介质 | |
JP2000181477A (ja) | 音声処理装置 | |
KR20080002291A (ko) | 원음의 음성 제거 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |