CN102610232A - 一种自适应音频感知响度调整方法 - Google Patents

一种自适应音频感知响度调整方法 Download PDF

Info

Publication number
CN102610232A
CN102610232A CN2012100055151A CN201210005515A CN102610232A CN 102610232 A CN102610232 A CN 102610232A CN 2012100055151 A CN2012100055151 A CN 2012100055151A CN 201210005515 A CN201210005515 A CN 201210005515A CN 102610232 A CN102610232 A CN 102610232A
Authority
CN
China
Prior art keywords
sequence
loudness
decibel
audio
wsdb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012100055151A
Other languages
English (en)
Other versions
CN102610232B (zh
Inventor
冯伟
万亮
谭志羽
江建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN2012100055151A priority Critical patent/CN102610232B/zh
Publication of CN102610232A publication Critical patent/CN102610232A/zh
Application granted granted Critical
Publication of CN102610232B publication Critical patent/CN102610232B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明属于多媒体信息处理和音频分析领域,涉及一种自适应音频感知响度调整方法,包括:对于当前音频文件进行等响度滤波;对于音频信号按特定窗口大小计算其RMS能量值,从而得到整个音频文件的RMS能量序列;将RMS能量序列转换为分贝值序列,并对其进行升序排序;对升序的分贝值序列利用差分法计算二阶导数,并利用局部窗口平均法进行二阶导数序列的平滑处理;当序列过长时,对原始序列进行亚采样;在平滑后的二阶导数序列上搜索当前音频的最优稳定分贝区间,计算此区间的平均分贝值作为当前音频文件的最优稳定响度。采用线性映射的方法对该音频进行响度调整。本发明具有运行速度快、校正准确、符合声学感知、性能稳定、无损音频音质等优点。

Description

一种自适应音频感知响度调整方法
技术领域
本发明属于多媒体信息处理和音频分析领域,涉及一种自适应音频感知响度估计与快速归一化的新型技术,可用于将不同响度感知基准的音频文件自动调整为统一的感知响度基准。
背景技术
ReplayGain(回放增益)标准是David Robinson于2001年提出的一套技术标准,用以衡量MP3音乐文件的感知响度,并对音频响度进行增益归一化处理(见文献:D.Robinson,″ReplayGainspecification discussion″,www.replaygain.org,2010)。具体步骤是,首先对整个音频文件进行心理声学扫描,以量度它的感知响度和峰值电平;进而计算音频文件的原始响度与目标响度(通常定为89分贝的声压值)的差别增益值;将该音频文件的增益值和峰值电平值作为元数据存储于音频文件中,以便播放器能够根据这些元数据自动衰减(或放大)音量播放该文件,从而在回放不同的音频文件时得到近似一致的输出响度。ReplayGain标准可以缓解在播放不同专辑的音频文件时需要不断手动调整音量的问题,并避免对响度较高的歌曲产生削波。然而,ReplayGain标准对于音频文件感知响度的衡量采用了固定阈值(95%最大能量)的估计方法,难以保证其对不同类型音频感知响度的估计精度,尤其不能很好地剔除音频中由于自然发声过程所引起的极低与极高响度成份的不良影响,从而使得所估计的响度偏离真实听觉感知响度区间。
发明内容
本发明的目的是针对现有技术在自动估计不同音频文件的感知响度上的不足,提供一套实用的音频感知响度自适应调整方法,可以使用户方便地将不同音量基准的音频文件更为准确地自动调整到统一的感知响度基准。
为此,本发明采用如下的技术方案:
一种自适应音频感知响度调整方法,包括以下步骤:
a)对当前音频信号进行等响度滤波;
b)计算RMS能量序列:首先,将滤波后的音频信号按照时间间隔分割成若干个窗口,设每个窗口的数据量为M,计算每个窗口的均方根值,得到整个音频文件的RMS能量序列;
c)能量分贝转换:将RMS能量序列转换为分贝序列,并对分贝序列进行升序排序得到SDB序列;
d)采用差分法计算SDB序列的二阶导数SDB″序列;
e)设置一个局部窗口,利用局部均值对SDB″序列进行平滑操作,去除干扰噪声,得到wSDB″序列;
f)如果wSDB″序列长度大于某一特定阈值时,采用线性插值亚采样的方法降低样本数量,亚采样后的平滑二阶导数序列仍记为wSDB″序列;
g)构造衡量某一时间区间[t1,t2]是否为最优稳定分贝空间可能性的能量函数 E ( t 1 , t 2 ) = α ( t 2 - t 1 ) + ( 1 - α ) std ( wSDB ′ ′ ( t 1 - t 2 ) ) , 其中,std(·)为标准差,α为调制系数,wSDB″(t1→t2)表示wSDB″序列中从t1到t2的子段,遍历所有可能的时间区间[t1,t2]组合,求出其中能量函数取值最大的时间区间作为最优稳定分贝区间,并在此区间上求均值,得到当前音频文件的最优稳定分贝代表值;
h)按照83dB标准,恢复当前音频文件的最优稳定响度。
i)在当前音频文件的最优稳定响度的基础上,采用线性映射的方法,调整该音频的实际响度。
作为优选实施方式,本发明采用级联Yulewalk与二阶高通Butterworth滤波器组,对当前音频信号进行等响度滤波。
本发明在传统ReplainGain标准的基础上,采用较为成熟的等响度滤波器,针对ReplayGain算法在音频感知响度估计精度与灵活性方面的不足,设计了更为合理的自适应感知响度估计方法,避免了现有基于固定阈值的方法易受极低与极高音频响度成份影响的不足,更为符合声学感知机理,提高了对不同类型音频文件感知响度估计的精度。此外,本发明采用了基于线性映射的响度归一化方法,具有很好的实时性,并同时保持了音频在低、中、高响度部分的音质。本发明是对现有ReplayGain算法的改进,更好地考虑了各类音频文件低、中、高响度成份的分布,采用了自适应的感知响度估计技术,使得所估计的响度值更为符合真实听觉响度感知区间。与现有方法相比,本发明具有如下优点:
(1)响度估计更为准确。本发明基于等响度滤波器组提取音频响度特征,并在此基础上计算其RMS能量,建立响度分贝值升序序列;为了去除音频中极低与极高响度成份的不良影响,本发明提出了一个衡量音频稳定分贝区间的新型能量函数和相应的优化方法;与现有基于固定阈值的方法不同,本算法最终输出的感知响度,是对最优的音频稳定分贝区间求均值得到的。由于本方法兼顾了最优分贝区间的代表性与响度一致性,因而很好地去除了极低与极高响度成份的不良影响,提高了感知响度的估计精度。
(2)实时性高。本发明设计了简单实用的基于线性亚采样的数据降维方法,能够在保证响度估计精度的同时,提高算法的运行速度。此外,所采用的线性映射响度归一化方法,也极大地提高了处理效率,并保持了音频文件的原有音质。
附图说明
图1:音频最优稳定响度值估计方法流程图。
图2:音频感知响度归一化方法流程图。
图3:音频最优稳定分贝区间示例图。
图4:响度归一化处理前后音频振幅图像比对图。
具体实施方式
本发明提出了音频感知响度的自适应估计方法与相应的响度快速归一化方法。与现有ReplayGain标准基于固定阈值的方法不同,本发明对当前音频文件首先提取最优稳定分贝区间,进而在此区间上计算该音频文件的感知响度,并在文件较大时,采用线性亚采样技术进行数据降维,不仅提高了感知响度的估计精度,同时保证了算法的实时性。
本发明属于多媒体信息处理和音频分析领域,涉及一种快速而实用的音频响度感知归一化的新型技术,主要包括音频最优稳定响度值获取与响度归一化两部分,图1和图2分给给出了这两部分的流程图。
1.音频最优稳定响度值估计
如图1所示,对于输入音频文件,通过分析其等响度滤波器响应特征向量,计算该音频文件的最优稳定响度值,具体包括以下主要步骤:
1)等响度滤波
采用10系数的级联Yulewalk与150Hz二阶高通Butterworth滤波器组,对当前音频文件进行滤波。
2)计算RMS能量序列
RMS算法是一种估计音频能量的方法,被广泛地用于面向音频信号处理的滤波器设计中。其计算简单,具有良好的实时性,且与声压分贝值具有直接的关联关系。本发明所提出的音频感知响度估计方法也是基于RMS算法来对音频能量进行分段计算的。可参见文献N.Levinson,“维纳RMS准则在滤波器设计与预测中的应用The Wiener RMS(root mean square)error criterion in filter design and prediction”,vol.25,no.4,pp.261-278,J.Math.Phys.,1947。
首先,将音频信号分割N个大小为50ms的窗口,则每个窗口的数据量为:
M = 1000 F s 50 = 20 F s , - - - ( 1 )
其中,Fs为频率;然后,计算每个窗口的rms值,
rms i = 1 M Σ j = 1 M a ( j ) 2 , - - - ( 2 )
其中,a(j)为第该音频文件j帧的振幅。对整个音频文件提取RMS能量,可以得到整个音频文件的RMS能量序列:
RMS=[rms1,rms2,…,rmsN]。           (3)
3)能量分贝转换
将RMS能量序列转换为分贝序列:
DB=[db1,db2,…,dbN],               (4)
其中,dbi=20log10(rmsi)代表第i个窗口的分贝值。进而,对DB序列进行排序,得到升序的SDB序列。
4)差分二阶求导
采用差分法计算SDB序列的二阶导数序列SDB″:
SDB″=[sdb3-2sdb2+sdb1,…,sdbN-2sdbN-1+sdbN-2]。    (5)
5)局部平滑去除噪声
设置大小为11的局部窗口(窗口包含的数据为:当前信号+前五个+之后五个),利用局部均值对SDB″序列进行平滑操作,去除干扰噪声,得到wSDB″序列。
6)线性插值降维
如果当前音频文件过大时(即:当wSDB″序列长度大于某一特定阈值L时),为保证分析和处理的速度,需采用线性插值亚采样的方法降低样本数量,亚采样比例为:
scale = max _ len len , - - - ( 6 )
其中,len为当前样本数量,max_len为算法允许的最大样本数量,max_len默认设置为500。
简便起见,亚采样后的平滑二阶导数序列仍记为wSDB″。
7)计算最优稳定响度
计算整个音频文件的最优稳定响度,需要考虑音频响度的整体分布,并且屏蔽极低与极高响度部分的影响,因此本方法首先从wSDB″序列中按照以下两个原则提取当前音频的最优稳定分贝区间:i)该区间应该尽可能长,以便代表整个音频的响度分布;ii)该区间的响度应尽可能一致。为达到这一目标,本发明提出如下能量函数以衡量某一区间[t1,t2]作为最优稳定分贝空间的可能性:
E ( t 1 , t 2 ) = α ( t 2 - t 1 ) + ( 1 - α ) std ( wSDB ′ ′ ( t 1 - t 2 ) ) , - - - ( 7 )
其中,std(·)为标准差,α=0.5为调制系数,wSDB″(t1→t2)表示wSDB″序列中从t1到t2的子段。遍历所有可能的组合:
{t1,t2|(t1<t2)∧(1≤t1≤N)∧(1≤t2≤N)},   (8)
求出最优的区间:
[ t ^ 1 , t ^ 2 ] = arg max t 1 < t 2 E ( t 1 , t 2 ) , - - - ( 9 )
并在此区间上求均值,得到当前音频文件的最优稳定分贝代表值
Figure BDA0000129741590000044
8)引用校准
按照83dB标准(此标准声明一个单声道典型噪声所具有-20dB RMS的能量水平相当于一个83dB SPL的完全正弦曲线产生的能量),恢复当前音频文件的最优稳定响度:
odb ^ = db ^ + 83 . - - - ( 10 )
2.音频感知响度归一化
在当前音频文件的最优稳定响度
Figure BDA0000129741590000046
的基础上,采用线性映射的方法,将该音频的实际响度调整为当前系统设置值:
f j c = f j o &CenterDot; t odb ^ , - - - ( 11 )
其中,t为系统当前设定分贝值,
Figure BDA0000129741590000052
为音频原始第j帧数据,
Figure BDA0000129741590000053
为音频响度调整后第j帧数据。

Claims (2)

1.一种自适应音频感知响度调整方法,包括以下步骤:
a)对当前音频信号进行等响度滤波;
b)计算RMS能量序列:首先,将滤波后的音频信号按照时间间隔分割成若干个窗口,设每个窗口的数据量为M,计算每个窗口的均方根值,得到整个音频文件的RMS能量序列;
c)能量分贝转换:将RMS能量序列转换为分贝序列,并对分贝序列进行升序排序得到SDB序列;
d)采用差分法计算SDB序列的二阶导数SDB″序列;
e)设置一个局部窗口,利用局部均值对SDB″序列进行平滑操作,去除干扰噪声,得到wSDB″序列;
f)如果wSDB″序列长度大于某一特定阈值时,采用线性插值亚采样的方法降低样本数量,亚采样后的平滑二阶导数序列仍记为wSDB″序列;
g)构造衡量某一时间区间[t1,t2]是否为最优稳定分贝空间可能性的能量函数 E ( t 1 , t 2 ) = &alpha; ( t 2 - t 1 ) + ( 1 - &alpha; ) std ( wSDB &prime; &prime; ( t 1 - t 2 ) ) , 其中,std(·)为标准差,α为调制系数,wSDB″(t1→t2)表示wSDB″序列中从t1到t2的子段,遍历所有可能的时间区间[t1,t2]组合,求出其中能量函数取值最大的时间区间作为最优稳定分贝区间,并在此区间上求均值,得到当前音频文件的最优稳定分贝代表值;
h)按照83dB标准,恢复当前音频文件的最优稳定响度。
i)在当前音频文件的最优稳定响度的基础上,采用线性映射的方法,调整该音频的实际响度。
2.根据权利要求1所述的自适应音频感知响度调整方法,其特征在于,步骤a中采用级联Yulewalk与二阶高通Butterworth滤波器组,对当前音频信号进行等响度滤波。
CN2012100055151A 2012-01-10 2012-01-10 一种自适应音频感知响度调整方法 Expired - Fee Related CN102610232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100055151A CN102610232B (zh) 2012-01-10 2012-01-10 一种自适应音频感知响度调整方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100055151A CN102610232B (zh) 2012-01-10 2012-01-10 一种自适应音频感知响度调整方法

Publications (2)

Publication Number Publication Date
CN102610232A true CN102610232A (zh) 2012-07-25
CN102610232B CN102610232B (zh) 2013-06-19

Family

ID=46527554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100055151A Expired - Fee Related CN102610232B (zh) 2012-01-10 2012-01-10 一种自适应音频感知响度调整方法

Country Status (1)

Country Link
CN (1) CN102610232B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015100910A1 (zh) * 2013-12-31 2015-07-09 深圳迈瑞生物医疗电子股份有限公司 一种生理信号压缩方法、系统及医疗设备
CN106354469A (zh) * 2016-08-24 2017-01-25 北京奇艺世纪科技有限公司 一种响度调节方法及装置
CN107247572A (zh) * 2017-05-08 2017-10-13 深圳市科迈爱康科技有限公司 音频播放方法、终端及计算机可读存储介质
WO2019033440A1 (zh) * 2017-08-18 2019-02-21 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN110545350A (zh) * 2019-07-17 2019-12-06 浙江工业大学 一种在手机免提状态下增加音频播放音量的方法
CN111183476A (zh) * 2017-10-06 2020-05-19 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
CN112243151A (zh) * 2019-07-16 2021-01-19 腾讯科技(深圳)有限公司 一种音频播放控制方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2373975A (en) * 2001-03-30 2002-10-02 Sony Uk Ltd Compression of digital audio signals
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
CN1725827A (zh) * 2004-07-24 2006-01-25 三星电子株式会社 响应于频道变化自动补偿音频音量的设备和方法
EP1251355B1 (en) * 2001-04-18 2007-12-05 Gennum Corporation Digital quasi-rms detector

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2373975A (en) * 2001-03-30 2002-10-02 Sony Uk Ltd Compression of digital audio signals
EP1251355B1 (en) * 2001-04-18 2007-12-05 Gennum Corporation Digital quasi-rms detector
US20050216260A1 (en) * 2004-03-26 2005-09-29 Intel Corporation Method and apparatus for evaluating speech quality
CN1725827A (zh) * 2004-07-24 2006-01-25 三星电子株式会社 响应于频道变化自动补偿音频音量的设备和方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015100910A1 (zh) * 2013-12-31 2015-07-09 深圳迈瑞生物医疗电子股份有限公司 一种生理信号压缩方法、系统及医疗设备
CN106354469A (zh) * 2016-08-24 2017-01-25 北京奇艺世纪科技有限公司 一种响度调节方法及装置
CN106354469B (zh) * 2016-08-24 2019-08-09 北京奇艺世纪科技有限公司 一种响度调节方法及装置
CN107247572A (zh) * 2017-05-08 2017-10-13 深圳市科迈爱康科技有限公司 音频播放方法、终端及计算机可读存储介质
WO2018205423A1 (zh) * 2017-05-08 2018-11-15 深圳市科迈爱康科技有限公司 音频播放方法、终端及计算机可读存储介质
WO2019033440A1 (zh) * 2017-08-18 2019-02-21 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN110799936B (zh) * 2017-08-18 2024-05-03 Oppo广东移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN110799936A (zh) * 2017-08-18 2020-02-14 Oppo广东移动通信有限公司 音量调节方法、装置、终端设备及存储介质
US11039246B2 (en) 2017-08-18 2021-06-15 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Volume adjusting method, device, and terminal device
CN111183476B (zh) * 2017-10-06 2024-03-22 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
CN111183476A (zh) * 2017-10-06 2020-05-19 索尼欧洲有限公司 基于子窗口序列内的rms功率的音频文件包络
CN112243151A (zh) * 2019-07-16 2021-01-19 腾讯科技(深圳)有限公司 一种音频播放控制方法、装置、设备及介质
CN110545350A (zh) * 2019-07-17 2019-12-06 浙江工业大学 一种在手机免提状态下增加音频播放音量的方法

Also Published As

Publication number Publication date
CN102610232B (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN102610232B (zh) 一种自适应音频感知响度调整方法
JP5507596B2 (ja) スピーチ増強
EP2737479B1 (en) Adaptive voice intelligibility enhancement
CN102282867B (zh) 助听器和一种检测并衰减瞬变的方法
EP2614586B1 (en) Dynamic compensation of audio signals for improved perceived spectral imbalances
US20240079021A1 (en) Voice enhancement method, apparatus and system, and computer-readable storage medium
US10008211B2 (en) Method and apparatus for encoding stereo phase parameter
CN102543095B (zh) 用于减少音频处理算法中的非自然信号的方法和装置
EP3074975B1 (en) Method of operating a hearing aid system and a hearing aid system
WO2015196760A1 (zh) 一种麦克风阵列语音检测方法及装置
Prego et al. A blind algorithm for reverberation-time estimation using subband decomposition of speech signals
JP2005527141A5 (zh)
US11238882B2 (en) Dry sound and ambient sound separation
US20160164480A1 (en) Method, apparatus, and system for analysis, evaluation, measurement and control of audio dynamics processing
GB2536727B (en) A speech processing device
US8175282B2 (en) Method of evaluating perception intensity of an audio signal and a method of controlling an input audio signal on the basis of the evaluation
JP2011217139A (ja) 信号処理装置および方法、並びにプログラム
Yangsheng et al. Study on Loudspeaker Equalization with the Linear Prediction
Cecchi et al. Subjective evaluation of a multiple position room response equalization approach applied in frequency domain
CN117499838A (zh) 音频的处理方法、装置和非易失性计算机可读存储介质
Yao et al. Multiple-point equalization of room impulse response based on the human perception characteristics
KR20240014462A (ko) 공간 오디오 객체의 동적 범위 조정
JP2014206559A (ja) 受信装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130619

Termination date: 20210110

CF01 Termination of patent right due to non-payment of annual fee