CN102169694A - 生成心理声学模型的方法及装置 - Google Patents
生成心理声学模型的方法及装置 Download PDFInfo
- Publication number
- CN102169694A CN102169694A CN2010101239990A CN201010123999A CN102169694A CN 102169694 A CN102169694 A CN 102169694A CN 2010101239990 A CN2010101239990 A CN 2010101239990A CN 201010123999 A CN201010123999 A CN 201010123999A CN 102169694 A CN102169694 A CN 102169694A
- Authority
- CN
- China
- Prior art keywords
- local
- frequency
- masking threshold
- spectrum
- dominant component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种生成心理声学模型的方法及装置,属于音频处理技术领域。该方法包括:以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;根据MDCT频域参数计算谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络,并根据所述谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限;根据局部掩蔽门限,生成并输出全局掩蔽门限。本发明通过采用谱平坦测度函数计算局部掩蔽门限,实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理,从而可以达到更合理地分配量化比特数,有效地提高量化效率的效果。
Description
技术领域
本发明涉及音频处理技术领域,特别涉及一种生成心理声学模型的方法及装置。
背景技术
为了用尽可能低的编码速率传输或尽可能少的数据存储宽带高保真音频信号,高质量高效音频编码算法扮演了重要的角色。为了达到较高的压缩编码增益或压缩比,音频编码算法须采用感知编码算法,而音频信号的感知编码算法的基础是心理声学模型。心理声学模型是在研究人类听觉系统基础上抽象出来的反映人类听觉感知特性的数学模型,它反映了人类听觉系统对音频及噪声的感知和掩蔽能力。
现有技术一提供的MPEG(Moving Pictures Experts Group,动态图像专家组)音频心理声学模型II是应用于MPEG-1和2的第三层(即MP3)的心理声学模型,采用FFT(Fast Fourier Transform,快速傅立叶变换)进行时频分析,并利用了感知熵的概念,使心理声学分析更加的准确合理。
现有技术二提供的3Gpp HE-AAC心理声学模型配合3Gpp HE-AAC编码器的特点,将时频分析由FFT(Fast Fourier Transform,快速傅立叶变换)改为MDCT(Modified Discrete Cosine Transform,修正离散余弦变换),使得心理声学模型与编码器可以重用MDCT变换。
在实现本发明的过程中,发明人发现现有技术至少存在以下缺点:
现有技术一的硬件实现成本高、功耗大,且由于该模型采用FFT进行时频分析,因此无法重用编码器的MDCT变换结果,导致算法复杂度较高,不易实现;现有技术二由于没有分析信号的音调特性及非音调特性,导致量化效率降低。
发明内容
为了解决现有心理声学模型的算法复杂度高、不易实现、硬件实现成本高、功耗大等问题,以及提高量化效率,本发明实施例提供了一种生成心理声学模型的方法及装置。
本发明实施例提供一种生成心理声学模型的方法,包括:
以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
根据所述MDCT频域参数计算谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络,并根据所述谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限;
根据所述局部掩蔽门限,生成并输出全局掩蔽门限。
本发明实施例还提供一种生成心理声学模型的装置,包括:
时域分析模块,用于以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
第一计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算谱平坦测度函数;
第二计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最大主导分量扩展包络;
第三计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最小主导分量平均包络;
局部掩蔽门限计算模块,用于根据所述第一计算模块计算得到的所述谱平坦测度函数、所述第二计算模块计算得到的频谱局部最大主导分量扩展包络和所述第三计算模块计算得到的频谱局部最小主导分量平均包络计算局部掩蔽门限;
全局掩蔽门限计算模块,用于根据所述局部掩蔽门限计算模块计算得到的所述局部掩蔽门限,生成并输出全局掩蔽门限。
本发明实施例提供的技术方案的有益效果是:
本实施例提供的技术方案通过采用谱平坦测度函数计算局部掩蔽门限,实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理,从而可以更合理地分配量化比特数,有效地提高量化效率;且由于采用修正离散余弦变换对输入的时域音频信号帧进行时频分析,可以降低生成心理声学模型的复杂度,易于硬件实现。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的生成心理声学模型的方法流程图;
图2是本发明实施例二提供的心理声学模型输入输出关系示意图;
图3是本发明实施例二提供的生成心理声学模型的方法流程图;
图4是本发明实施例二提供的时域音频信号示意图;
图5是本发明实施例二提供的MDCT变换功率谱示意图;
图6是本发明实施例二提供的临界频带与频率的关系示意图;
图7是本发明实施例二提供的临界频带带宽与频率的关系示意图;
图8是本发明实施例二提供的Bark域内的谱平坦测度函数示意图;
图9是本发明实施例二提供的频域内的谱平坦测度函数示意图;
图10是本发明实施例二提供的掩蔽扩展函数示意图;
图11是本发明实施例二提供的对数幅度线性频域掩蔽扩展函数;
图12是本发明实施例二提供的线性频域局部掩蔽门限示意图;
图13是本发明实施例二提供的对数频域局部掩蔽门限示意图;
图14是本发明实施例二提供的线性域绝对掩蔽门限示意图;
图15是本发明实施例二提供的对数域绝对掩蔽门限示意图;
图16是本发明实施例二提供的对应于图5中MDCT变换功率谱的局部掩蔽门限和绝对掩蔽门限示意图;
图17是本发明实施例二提供的对应于图14的全局掩蔽门限示意图;
图18是本发明实施例二提供的音频编码器结构示意图;
图19是本发明实施例二提供的音频解码器结构示意图;
图20是本发明实施例二提供的音频水印处理系统结构示意图;
图21是本发明实施例二提供的音频增强系统结构示意图;
图22是本发明实施例三提供的生成心理声学模型的装置结构示意图;
图23是本发明实施例三提供的第一计算模块结构示意图;
图24是本发明实施例三提供的第二计算模块结构示意图;
图25是本发明实施例三提供的第三计算模块结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本实施例提供了一种生成心理声学模型的方法,该方法流程具体如下:
101:以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
102:根据MDCT频域参数计算谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络,并根据谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限;
103:根据局部掩蔽门限,生成并输出全局掩蔽门限。
本实施例提供的方法,通过采用谱平坦测度函数计算局部掩蔽门限,实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理,从而可以更合理地分配量化比特数,有效地提高量化效率;且由于采用修正离散余弦变换对输入的时域音频信号帧进行时频分析,可以降低生成心理声学模型的复杂度,易于硬件实现。
实施例二
为了解决现有心理声学模型的算法过于复杂,音频分析性能不能很好满足音频处理的需要等问题,本实施例提供了一种生成心理声学模型的方法,通过该方法可生成一种基于修正离散余弦变换(MDCT)和谱平坦测度函数(SpectralFlatness Measure,SFM)的心理声学模型,该心理声学模型对音调掩蔽特性以及非音调掩蔽特性进行了区分考虑,因而可以提高编码效率。
其中,心理声学模型的输入输出关系可如图2所示,输入信号是待处理或待编码的时域音频信号帧Xin,该音频信号可以是语音信号、音频信号或人耳可以听到的各种声音信号的混合信号,其信号的频带宽度包括人耳可听到的所有频率范围(即0Hz到24000Hz);常用的音频信号采样频率包括48kHz、44.1kHz、32kHz、16kHz和8kHz。心理声学模型的另外可选输入是反映音质和编码速率要求的控制信息Cq和Cb,这两个信息可以影响心理声学模型的输出结果。心理声学模型的输出就是针对当前输入的音频信号帧计算出的掩蔽门限TPSY。下面,对如何生成图2中的心理声学模型进行详细说明。参见图3,本实施例提供的方法流程具体如下:
301:以修正离散余弦变换MDCT对输入的时域音频信号帧Xin进行时频分析,得到MDCT频域参数;
具体地,输入音频信号帧Xin,即x(n),0≤n≤L-1,L为帧长,那么修正离散余弦正变换算法(MDCT)的计算方法为:
其中,
修正离散余弦反变换算法(IMDCT)的计算方法为:
其中,X(k)和Xp(k)分别表示当前帧和前一帧的MDCT变换参数。
若使式(1)和式(2)所表示的修正离散余弦变换的正、反变换算法具有严格重构特性,hk(n)表达式中的窗函数w(n)需满足下面条件w2(n)+w2(n+L)=1,0≤n≤L-1,正弦窗0≤n≤2L-1就是一个满足上述条件的实例。由式(1)看出,MDCT正变换需要长度为2L原始时域音频信号,这可以由w(n)对当前帧和前一帧时域音频信号进行长度为2L的加窗处理完成,即MDCT变换需要的原始时域音频信号具有50%的重叠。同样,式(2)说明MDCT反变换是由当前帧MDCT参数反变换和前一帧MDCT参数反变换后进行叠接相加实现的。图4和图5分别给出了时域音频信号及其MDCT变换功率谱的示意图,图5中f表示频谱分量的线性频率,fs表示信号的采样速率,f和fs的单位为Hz。
302:根据MDCT频域参数计算谱平坦测度函数;
其中,谱平坦测度函数(SFM)是一种用来确定音频信号某一频段音调特性的测度函数,它是该频段内频域参数的几何平均与算术平均的比值,取值在0和1之间。当谱平坦测度函数SFM的取值接近1时,表示该频段的频谱特性趋于平坦,反映了该频段的类噪声特性,即非音调特性;当谱平坦测度函数SFM的取值接近0时,表示该频段的频谱特性趋于尖锐,反映了该频段的音调特性。
为了根据MDCT频域参数计算谱平坦测度函数,该步骤采取了根据MDCT频域参数先计算在Bark域内的谱平坦测度函数,再将计算得到的Bark域内的谱平坦测度函数转换成线性频域的谱平坦测度函数的方式。其中,在线性频域内,一个临界频带的频带宽度通常称为一个Bark。而临界频带(Critical Band,CB)反映的是人耳的一种听觉特性,即频率分析能力。人耳对频率的分辨能力可以用一系列高度重叠的带通滤波器表征,这些带通滤波器的幅频响应是非对称和非线性的,其频带宽度是随着频率的提高而增加的,针对同一临界频带内的不同频率,人耳具有基本相同的感知特性。临界频带的实质就是用一个频率函数定量描述听觉带通滤波器的特性。
式(3)通常用来进行线性频域(Hz)到Bark域的转换:
临界频带的频带宽度可由式(4)计算得到近似值:
BWc(f)=25+75[1+1.4(f/1000)2]0.69(Hz) (4)
临界频带与频率的关系如图6所示,临界频带带宽与频率的关系如图7所示,对于正常听力的听觉系统,所能拥有的临界频带数一般在25个左右。
确定临界频带之后,计算在Bark域内的谱平坦测度函数时,设在整个频谱分析的频段内共有NCB个临界频带,在第i个临界频带中有Mi个MDCT频域参数,Xi(m)表示第i个临界频带中第m个MDCT频域参数,则Bark域临界频带谱平坦测度函数可用下面公式(5)表示:
图8对应于Bark域的谱平坦测度函数SFMi示意图。
将Bark域的谱平坦测度函数SFMi转换到线性频域时,设线性频域的谱平坦测度函数用SFM(k),0≤k≤L-1表示,设kc(i),0≤i≤NCB-1为各临界频带的中心频点;令SFM(0)=SFM0、且令SFM(kc(i))=SFMi,0≤i≤NCB-1;然后将SFM(k),0≤k≤L-1的其它点进行线性插值,就可以得到全部SFM(k),0≤k≤L-1的取值,频域内的谱平坦测度函数如图9所示。
可选地,在计算得到每个频带的“临界频带谱平坦测度函数值”之后,每个临界频带中线性频域的谱平坦函数值还可以不采用线性插值的方式得到,而采用直接赋值的方式得到,本实施例对此不作具体限定。
303:根据MDCT频域参数计算频谱局部最大主导分量扩展包络;
具体地,由步骤301中的式(1)可知,帧长为L的输入音频信号帧Xin经过MDCT变换后,得到长度为L的MDCT频域参数X(k),0≤k≤L-1,其功率谱或对数幅度的频域参数为XdB(k)=20.0×log10|X(k)|,0≤k≤L-1,如图5所示。
该步骤中,MDCT频谱局部最大主导分量扩展包络即为MDCT功率谱中较大的频谱分量以及由这些频谱分量经掩蔽扩展函数扩展之后所形成的频谱峰值包络。
其中,掩蔽扩展函数(Spreading Function of Masking)描述了掩蔽信号分量在临界频带之间的掩蔽特性,即较强能量的掩蔽信号除了在其所在临界频带内具有可以估算的掩蔽效应之外,在其相邻的临界频带内也具有可以预测和估算的掩蔽效应。掩蔽扩展函数可以用下面的表达式近似描述:
Δx为临界频带差,单位为Bark,它表示被掩蔽信号所在的临界频带与掩蔽信号所在的临界频带之差。图10中的虚线给出了式(6)所表达的掩蔽扩展函数。
为了降低运算量,利用本实施例提供的方法所生成的心理声学模型中,对式(6)表达的掩蔽扩展函数可进行如下修改和近似:
如图10中实线所示,式(7)对式(6)进行了一个三角形近似,它表示掩蔽门限在掩蔽信号的低频方向以25dB/Bark的速度下降,在掩蔽信号的高频方向以15dB/Bark的速度下降。本实施例仅以式(7)所示的修改和近似为例,实际应用过程中,还可以采用其他修改和近似的方式,本实施例对此不作具体限定。图11为式(7)所表示的简化掩蔽扩展函数在第3、8、13、18和23临界频带中的掩蔽信号所产生的对数幅度线性频域示意图。
得到掩蔽扩展函数及对数幅度的频域参数之后,计算频谱局部最大主导分量扩展包络分为以下几个步骤:
a、计算局部最大主导分量的高频掩蔽扩展包络:
设局部最大主导分量的高频掩蔽扩展包络用EdBmaxH(k),0≤k≤L-1表示,初始值EdBmaxH(0)=XdB(0)。从k=0开始,利用Δx>0时式(7)所表达的关系计算k=1时SF′dB(Δx)的值(对应的Δx值可以通过式(3)由XdB(0)和XdB(1)的所在频率之差得到),如果EdBmaxH(0)+SF′dB(Δx)≥XdB(1),则EdBmaxH(1)=EdBmaxH(0)+SF′dB(Δx),否则EdBmaxH(1)=XdB(1);然后,利用Δx>0时式(6)所表达的关系计算k=2时SF′dB(Δx)的值(对应的Δx值可以通过式(3)由XdB(1)和XdB(2)的所在频率之差得到),如果EdBmaxH(1)+SF′dB(Δx)≥XdB(2),则EdBmaxH(2)=EdBmaxH(1)+SF′dB(Δx),否则EdBmaxH(2)=XdB(2);之后,以同样的方式,继续计算k=3,4,...,L-1各频点EdBmaxH(k)的值。
b、计算局部最大主导分量的低频掩蔽扩展包络:
设局部最大主导分量的低频掩蔽扩展包络用EdBmaxL(k),0≤k≤L-1表示,初始值EdBmaxL(L-1)=XdB(L-1)。从k=L-2开始,利用Δx≤0时式(7)所表达的关系计算k=L-2时SF′dB(Δx)的值(对应的Δx值可以通过式(3)由XdB(L-1)和XdB(L-2)的所在频率之差得到),如果EdBmaxL(L-1)+SF′dB(Δx)≥XdB(L-2),则EdBmaxL(L-2)=EdBmaxL(L-1)+SF′dB(Δx),否则EdBmaxL(L-2)=XdB(L-2);然后,利用Δx≤0时式(7)所表达的关系计算k=L-3时SF′dB(Δx)的值(对应的Δx值可以通过式(3)由XdB(L-2)和XdB(L-3)的所在频率之差得到),如果EdBmaxL(L-2)+SF′dB(Δx)≥XdB(L-3),则EdBmaxL(L-3)=EdBmaxL(L-2)+SF′dB(Δx),否则EdBmaxL(L-3)=XdB(L-3);之后,以同样的方式,继续计算k=L-4,L-5,...,0个频点的EdBmaxL(k)值。
c、将局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络中的较大值作为频谱局部最大主导分量扩展包络。
设局部最大主导分量的掩蔽扩展包络用EdBmax(k),0≤k≤L-1表示,则EdBmax(k)为对应频点上EdBmaxH(k)和EdBmaxL(k)的最大值,即EdBmax(k)=max{EdBmaxH(k),EdBmanL(k)},0≤k≤L-1。图12和13中的虚线即为频谱局部最大主导分量扩展包络。
可选地,除了采用上述步骤a、b、c计算频谱局部最大主导分量扩展包络的方式外,还可在每个临界频带内将MDCT频域参数X(k)稀疏化,仅保留若干个MDCT频域参数X(k)的局部最大值,在前述“局部最大主导分量的高频掩蔽扩展包络计算”和“局部最大主导分量的低频掩蔽扩展包络计算”仅考虑稀疏后剩余的XdB(k)。本实施例不对保留的X(k)局部最大值的个数进行具体限定,例如,保留的X(k)局部最大值的个数可以在1和原来数目的25%之间,这样,对数幅度的频域参数XdB(k)也减少到1和原来数目的25%之间。
除此之外,还可在每个临界频带内直接采用XdB(k)局部最大值的平均值,或者在每个临界频带内直接采用稀疏后剩余的XdB(k)局部最大值的平均值,本实施例对此不作具体限定。
304:根据MDCT频域参数计算频谱局部最小主导分量平均包络;
针对该步骤,频谱局部最小主导分量平均包络是由各临界频带中频谱局部最小极值点的平均值所连接而成的频谱峰谷包络。具体计算过程中,首先,将XdB(k),0≤k≤L-1划分到NCB个临界频带,并在各临界频带中搜索局部最小极值点,包括临界频带边界频率上的局部最小极值点;计算各临界频带中局部最小极值点的平均值MdBmin(i),0≤i≤NCB-1。
如果频谱局部最小主导分量平均包络用EdBmin(k),0≤k≤L-1表示,设kc(i),0≤i≤NCB-1为各临界频带的中心频点;则令EdBmin(0)=XdB(0)、EdBmin(L-1)=XdB(L-1),且令EdBmin(kc(i))=MdBmin(i),0≤i≤NCB-1;再将EdBmin(k),0≤k≤L-1的其它点进行线性插值,就可以得到全部EdBmin(k),0≤k≤L-1的取值。图12和13中的短划线即为频谱局部最小主导分量平均包络EdBmin(k),0≤k≤L-1的示意图。
305:根据谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限;
具体地,设对数幅度和线性幅度的局部掩蔽门限分别以TdBLT(k)和TLT(k),0≤k≤L-1表示;用Emax(k)和Emin(k),0≤k≤L-1分别表示线性幅度的EdBmax(k)和EdBmin(k)。
如上述步骤302中所描述的,谱平坦测度函数SFM是一种用来确定音频信号频域音调特性的测度函数,取值在0和1之间。当谱平坦测度函数SFM的取值接近1时,表示该频段的频谱特性趋于平坦,反映了该频段的类噪声特性,即非音调特性;当谱平坦测度函数SFM的取值接近0时,表示该频段的频谱特性趋于尖锐,反映了该频段的音调特性。心理声学感知特性的研究还说明,音调分量产生的掩蔽效应低于噪声产生的掩蔽效应,或者说音调分量只能允许相对较小的失真,而噪声分量可以允许较大的失真。为此,线性幅度的局部掩蔽门限TLT(k)可以通过如下的计算得到:
TLT(k)=SFM(k)(Emax(k)-Emin(k))+Emin(k),0≤k≤L-1 (8)
这样,对数幅度的局部掩蔽门限TdBLT(k)可以通过如下的计算得到:
TdBLT(k)=20.0×log10(TLT(k))(dB),0≤k≤L-1 (9)
图12和13中的粗实线即为局部掩蔽门限,0≤k≤L-1,其中,图12为线性频域中的示意图,图13为对数频域中的示意图。
306:根据局部掩蔽门限,生成并输出全局掩蔽门限。
针对该步骤,需要先确定绝对掩蔽门限,听觉的绝对掩蔽门限(AbsoluteThreshold,AT)表征的是在无噪声环境下不同频率的单音信号能够被人耳感知的所需的最小能量,通常用声压级dB表示。绝对掩蔽门限与频率相关,它的幅值可以由式(10)表达的非线性关系式近似得到:
图14和图15为绝对掩蔽门限的频率关系示意图,其中,图14为线性域中的示意图,图15为对数域中的示意图。
全局掩蔽门限可通过如下公式得到:
TPSY(k)=max{w(Cq,Cb,k)·TdBLT(k),TAT(k)}(dB),0≤k≤L-1 (11)
其中,TAT(k),0≤k≤L-1是绝对掩蔽门限在频域各点的对数幅度,TdBLT(k),0≤k≤L-1为式(9)确定的对数幅度的局部掩蔽门限;而w(Cq,Cb,k),0≤k≤L-1是由心理声学模型输入的质量控制参数Cq和速率控制参数Cb确定的与频率相关的加权系数,用以根据需要控制全局掩蔽门限的作用强度。w(Cq,Cb,k),0≤k≤L-1可以人为设定,也可以采用实际应用中的经验值;当w(Cq,Cb,k)=1.0,0≤k≤L-1,不起调节和控制作用。图16是对应于图5显示的MDCT功率谱的局部掩蔽门限TdBLT(k),0≤k≤L-1和绝对掩蔽门限TAT(k),0≤k≤L-1;图17是对应于图14的全局掩蔽门TPSY(k),0≤k≤L-1。
计算出全局掩蔽门限之后,心理声学模型的生成过程结束,需要说明的是,根据MDCT频域参数计算线性频域的谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络的步骤可以并列执行,也可以采取先后顺序异步执行,本实施例不对计算这三者的先后顺序进行具体限定,仅以按照计算线性频域的谱平坦测度函数,再计算频谱局部最大主导分量扩展包络,最后计算频谱局部最小主导分量平均包络的顺序进行举例说明。
进一步地,利用本实施例提供的方法生成的心理声学模型可以广泛地应用于音频编码、音频增强、音频静噪、音频数字水印、音频指纹、音频分类以及音频检索等多种音频处理技术中,本实施例对其具体应用场景不作具体介绍,仅以如下几种应用为例进行说明:
(1)心理声学模型在音频编、解码算法中的应用
图18为音频编码器结构示意图,是心理声学模型在感知音频编码算法应用中的一个实例。在音频编码器中,输入音频信号经过时频分析模块进行变换处理得到音频的频域参数;本实施例提供的方法生成的心理声学模型根据输入音频信号(和可选的反映音质或编码速率要求的控制信息)计算掩蔽门限并输出给比特分配模块,指导其进行感知编码的比特分配;量化与编码模块按照比特分配信息,对来自时频分析模块的频域参数进行量化和压缩编码;合路模块将来自量化与编码模块的编码信息和来自比特分配模块的作为边信息进行传输的比特分配信息进行合路处理,形成编码比特流输出。
在音频解码器中,如图19所示的音频解码器结构示意图,分路模块对接收到的编码比特流实施分路处理,分别得到编码信息和比特分配边信息;解码与反量化模块根据得到编码信息和比特分配边信息进行解码并进行反量化处理,从而得到重构的频域参数;最后时频合成模块将重构频域参数进行反变换处理,得到重构的音频时域信号输出。
(2)心理声学模型在音频水印算法中的应用
图20为音频水印处理系统结构示意图,该图20为基于心理声学模型的音频水印处理系统的实例。在音频水印嵌入端(参见图20(a)),输入音频是待嵌入水印的音频信号,它直接输入给水印嵌入模块;心理声学模型模块根据输入音频信号来计算当前帧音频信号的掩蔽门限,输出给水印嵌入模块;水印编码模块利用给定的密钥对待嵌入的水印信息进行加密,并进行纠错编码,得到水印编码信息;水印嵌入模块利用给定的密钥按照某种水印嵌入算法,将水印编码嵌入到输入音频信号之中;在这里,心理声学模型模块输出的掩蔽门限确定了水印信息的最大嵌入强度;最后,水印嵌入模块将承载了水印信息的音频信号传递给接收者。
在音频水印提取端(参见图20(b)),水印提取模块利用掌握的密钥按照与水印嵌入端水印嵌入算法相对应的水印提取算法来提取可能存在的水印编码信息;水印检测模块负责判断水印的存在性(不提供水印的内容)并对接收的水印编码信息给出水印是否存在的判决;如果水印存在,那么水印解码模块利用已有的密钥对来自水印提取模块的水印编码信息进行纠错解码和解密,重构出水印信息并输出。
(3)心理声学模型在音频增强中的应用
基于听觉感知的语音增强方法并不追求具有最大信噪比的重建音频,而是寻求得到具有最佳主观感知质量的重构音频信号。根据心理声学模型所描述的听觉掩蔽效应,位于掩蔽门限之下的噪声分量是听觉不可闻,因而也就不需要进行任何处理;而位于掩蔽门限之上的噪声分量听觉可闻,是需要对其进行抑制的。
基于听觉感知的语音增强方法在实现时,首先要确定听觉掩蔽门限,这里的听觉掩蔽门限是指纯净音频信号的掩蔽门限,但是纯净音频信号正是我们需要估计的信号,已知的是已混入噪声的音频信号,因而利用带噪音频信号对掩蔽门限进行估计。图21为音频增强系统结构示意图,是一个基于心理声学模型的音频增强系统的实例。
时频分析模块对输入带噪音频信号进行分析(如MDCT变换或FFT变换等),得到其频域参数;同时噪声估计模块检测并估算输入带噪音频信号的噪声谱。音频谱估计利用时频分析模块和噪声估计模块得到的带噪音频信号频谱和噪声谱估算纯净音频的频谱;心理声学模型根据估算的纯净音频频谱计算噪声掩蔽门限。自适应参数估计模块根据噪声掩蔽门限,利用估算的带噪音频信号的频谱和噪声谱以及纯净音频频谱,进行音频增强参数的估值;音频增强模块利用音频增强参数的估值对带噪音频信号的频域参数进行处理,得到增强的音频频域参数。最后,时频合成模块对增强的音频频域参数进行时频合成,得到增强的音频信号。
本实施例提供的方法,通过采用谱平坦测度函数计算局部掩蔽门限,实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理,从而可以更合理地分配量化比特数,有效地提高量化效率;且由于采用修正离散余弦变换对输入的时域音频信号帧进行时频分析,可以降低生成心理声学模型的复杂度,易于硬件实现。
实施例三
参见图22,本实施例提供了一种生成心理声学模型的装置,该装置包括:
时域分析模块2201,用于以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
第一计算模块2202,用于根据时域分析模块2201得到的MDCT频域参数计算谱平坦测度函数;
第二计算模块2203,用于根据时域分析模块2201得到的MDCT频域参数计算频谱局部最大主导分量扩展包络;
第三计算模块2204,用于根据时域分析模块2201得到的MDCT频域参数计算频谱局部最小主导分量平均包络;
局部掩蔽门限计算模块2205,用于根据第一计算模块2202计算得到的谱平坦测度函数、第二计算模块2203计算得到的频谱局部最大主导分量扩展包络和第三计算模块2204计算得到的频谱局部最小主导分量平均包络计算局部掩蔽门限;
全局掩蔽门限计算模块2206,用于根据局部掩蔽门限计算模块2205计算得到的局部掩蔽门限,生成并输出全局掩蔽门限。
其中,参见图23,第一计算模块2202,具体包括:
计算单元2202a,用于根据时域分析模块2201得到的MDCT频域参数计算在Bark域内的谱平坦测度函数;
转换单元2202b,用于将计算单元2202a计算得到的Bark域内的谱平坦测度函数转换成线性频域的谱平坦测度函数。
参见图24,第二计算模块2203,具体包括:
第一计算单元2203a,用于计算掩蔽扩展函数;
第二计算单元2203b,用于根据第一计算单元2203a计算得到的掩蔽扩展函数及时域分析模块2201得到的MDCT频域参数得到局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络;
确定单元2203c,用于将第二计算单元2203b得到的局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络中的较大值作为频谱局部最大主导分量扩展包络。
参见图25,第三计算模块2204,具体包括:
划分单元2204a,用于将时域分析模块2201得到的MDCT频域参数划分到多个临界频带;
搜索单元2204b,用于在划分单元2204a划分的各个临界频带中搜索局部最小极值点;
计算单元2204c,用于计算搜索单元2204b搜索到的各临界频带中局部最小极值点的平均值;
确定单元2204d,用于根据计算单元2204c计算得到的各临界频带中局部最小极值点的平均值得到频谱局部最小主导分量平均包络。
具体地,全局掩蔽门限计算模块2206,具体用于计算得到绝对掩蔽门限,并根据绝对掩蔽门限以及局部掩蔽门限,生成并输出全局掩蔽门限;或,根据质量控制参数和速率控制参数确定局部掩蔽门限的加权系数,根据加权后的局部掩蔽门限以及绝对掩蔽门限,生成并输出全局掩蔽门限。
综上所述,本实施例提供的装置,通过采用谱平坦测度函数计算局部掩蔽门限,实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理,从而可以更合理地分配量化比特数,有效地提高量化效率;且由于采用修正离散余弦变换对输入的时域音频信号帧进行时频分析,可以降低生成心理声学模型的复杂度,易于硬件实现。
需要说明的是:上述实施例提供的生成心理声学模型的装置在生成心理声学模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的生成心理声学模型的装置与生成心理声学模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本发明实施例中的全部或部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种生成心理声学模型的方法,其特征在于,所述方法包括:
以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
根据所述MDCT频域参数计算谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络,并根据所述谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限;
根据所述局部掩蔽门限,生成并输出全局掩蔽门限。
2.根据权利要求1所述的方法,其特征在于,所述根据所述MDCT频域参数计算谱平坦测度函数包括:
根据所述MDCT频域参数计算在Bark域内的谱平坦测度函数,并将计算得到的所述Bark域内的谱平坦测度函数转换成线性频域的谱平坦测度函数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述MDCT频域参数计算频谱局部最大主导分量扩展包络包括:
计算掩蔽扩展函数;
根据所述掩蔽扩展函数及所述MDCT频域参数得到局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络;
将所述局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络中的较大值作为频谱局部最大主导分量扩展包络。
4.根据权利要求1所述的方法,其特征在于,所述根据所述MDCT频域参数计算频谱局部最小主导分量平均包络包括:
将所述MDCT频域参数划分到多个临界频带;
在各个临界频带中搜索局部最小极值点,并计算各临界频带中局部最小极值点的平均值;
根据所述各临界频带中局部最小极值点的平均值得到频谱局部最小主导分量平均包络。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,所述根据所述局部掩蔽门限,生成并输出全局掩蔽门限包括:
计算得到绝对掩蔽门限,并根据所述绝对掩蔽门限以及所述局部掩蔽门限,生成并输出全局掩蔽门限;
或,根据所述质量控制参数和速率控制参数确定所述局部掩蔽门限的加权系数,根据加权后的局部掩蔽门限以及所述绝对掩蔽门限,生成并输出全局掩蔽门限。
6.一种生成心理声学模型的装置,其特征在于,所述装置包括:
时域分析模块,用于以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析,得到MDCT频域参数;
第一计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算谱平坦测度函数;
第二计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最大主导分量扩展包络;
第三计算模块,用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最小主导分量平均包络;
局部掩蔽门限计算模块,用于根据所述第一计算模块计算得到的所述谱平坦测度函数、所述第二计算模块计算得到的频谱局部最大主导分量扩展包络和所述第三计算模块计算得到的频谱局部最小主导分量平均包络计算局部掩蔽门限;
全局掩蔽门限计算模块,用于根据所述局部掩蔽门限计算模块计算得到的所述局部掩蔽门限,生成并输出全局掩蔽门限。
7.根据权利要求6所述的装置,其特征在于,所述第一计算模块包括:
计算单元,用于根据所述时域分析模块得到的所述MDCT频域参数计算在Bark域内的谱平坦测度函数;
转换单元,用于将所述计算单元计算得到的Bark域内的谱平坦测度函数转换成线性频域的谱平坦测度函数。
8.根据权利要求6所述的装置,其特征在于,所述第二计算模块包括:
第一计算单元,用于计算掩蔽扩展函数;
第二计算单元,用于根据所述第一计算单元计算得到的所述掩蔽扩展函数及所述MDCT频域参数得到局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络;
确定单元,用于将所述第二计算单元得到的所述局部最大主导分量的高频掩蔽扩展包络及局部最大主导分量的低频掩蔽扩展包络中的较大值作为频谱局部最大主导分量扩展包络。
9.根据权利要求6所述的装置,其特征在于,所述第三计算模块包括:
划分单元,用于将所述时域分析模块得到的所述MDCT频域参数划分到多个临界频带;
搜索单元,用于在所述划分单元划分的各个临界频带中搜索局部最小极值点;
计算单元,用于计算所述搜索单元搜索到的各临界频带中局部最小极值点的平均值;
确定单元,用于根据所述计算单元计算得到的所述各临界频带中局部最小极值点的平均值得到频谱局部最小主导分量平均包络。
10.根据权利要求6至9任一权利要求所述的装置,其特征在于,所述全局掩蔽门限计算模块用于计算得到绝对掩蔽门限,并根据所述绝对掩蔽门限以及所述局部掩蔽门限,生成并输出全局掩蔽门限;或,根据所述质量控制参数和速率控制参数确定所述局部掩蔽门限的加权系数,根据加权后的局部掩蔽门限以及所述绝对掩蔽门限,生成并输出全局掩蔽门限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010123999A CN102169694B (zh) | 2010-02-26 | 2010-02-26 | 生成心理声学模型的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010123999A CN102169694B (zh) | 2010-02-26 | 2010-02-26 | 生成心理声学模型的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102169694A true CN102169694A (zh) | 2011-08-31 |
CN102169694B CN102169694B (zh) | 2012-10-17 |
Family
ID=44490828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010123999A Expired - Fee Related CN102169694B (zh) | 2010-02-26 | 2010-02-26 | 生成心理声学模型的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102169694B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104184697A (zh) * | 2013-05-20 | 2014-12-03 | 百度在线网络技术(北京)有限公司 | 一种音频指纹的提取方法及系统 |
CN106575509A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 谐波滤波器工具的谐度依赖控制 |
CN112530446A (zh) * | 2019-09-18 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
CN115331684A (zh) * | 2022-08-12 | 2022-11-11 | 安徽汇鑫电子有限公司 | 一种解决非线性延时问题的音频比对设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404377A (en) * | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
JPH10341162A (ja) * | 1997-06-09 | 1998-12-22 | Matsushita Electric Ind Co Ltd | 音声符号化伝送方法 |
CN101136202A (zh) * | 2006-08-29 | 2008-03-05 | 华为技术有限公司 | 音频信号处理系统、方法以及音频信号收发装置 |
CN101320565A (zh) * | 2007-06-08 | 2008-12-10 | 华为技术有限公司 | 感知加权滤波方法及感知加权滤波器 |
CN101645272A (zh) * | 2009-09-08 | 2010-02-10 | 深圳华为通信技术有限公司 | 生成量化控制参数的方法、装置及音频编码设备 |
-
2010
- 2010-02-26 CN CN201010123999A patent/CN102169694B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5404377A (en) * | 1994-04-08 | 1995-04-04 | Moses; Donald W. | Simultaneous transmission of data and audio signals by means of perceptual coding |
JPH10341162A (ja) * | 1997-06-09 | 1998-12-22 | Matsushita Electric Ind Co Ltd | 音声符号化伝送方法 |
CN101136202A (zh) * | 2006-08-29 | 2008-03-05 | 华为技术有限公司 | 音频信号处理系统、方法以及音频信号收发装置 |
CN101320565A (zh) * | 2007-06-08 | 2008-12-10 | 华为技术有限公司 | 感知加权滤波方法及感知加权滤波器 |
CN101645272A (zh) * | 2009-09-08 | 2010-02-10 | 深圳华为通信技术有限公司 | 生成量化控制参数的方法、装置及音频编码设备 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104184697A (zh) * | 2013-05-20 | 2014-12-03 | 百度在线网络技术(北京)有限公司 | 一种音频指纹的提取方法及系统 |
CN104184697B (zh) * | 2013-05-20 | 2018-11-09 | 北京音之邦文化科技有限公司 | 一种音频指纹的提取方法及系统 |
CN106575509A (zh) * | 2014-07-28 | 2017-04-19 | 弗劳恩霍夫应用研究促进协会 | 谐波滤波器工具的谐度依赖控制 |
CN112530446A (zh) * | 2019-09-18 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN112530446B (zh) * | 2019-09-18 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 频带扩展方法、装置、电子设备及计算机可读存储介质 |
CN114974299A (zh) * | 2022-08-01 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
CN114974299B (zh) * | 2022-08-01 | 2022-10-21 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、设备、介质 |
WO2024027295A1 (zh) * | 2022-08-01 | 2024-02-08 | 腾讯科技(深圳)有限公司 | 语音增强模型的训练、增强方法、装置、电子设备、存储介质及程序产品 |
CN115331684A (zh) * | 2022-08-12 | 2022-11-11 | 安徽汇鑫电子有限公司 | 一种解决非线性延时问题的音频比对设备 |
Also Published As
Publication number | Publication date |
---|---|
CN102169694B (zh) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
RU2734781C1 (ru) | Устройство для постобработки звукового сигнала с использованием выявления места всплеска | |
EP2981963B1 (en) | Companding apparatus and method to reduce quantization noise using advanced spectral extension | |
TW200417990A (en) | Encoder and a encoding method capable of detecting audio signal transient | |
TWI713927B (zh) | 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法 | |
CN102169694B (zh) | 生成心理声学模型的方法及装置 | |
KR20070051857A (ko) | 스케일러블 오디오 코딩 | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
CN101494054A (zh) | 一种音频码率控制方法及系统 | |
JP6408125B2 (ja) | オーディオ信号内の雑音を推定するための方法、雑音推定器、オーディオ符号化器、オーディオ復号器、およびオーディオ信号を送信するためのシステム | |
CN101740033B (zh) | 一种音频编码方法和音频编码器 | |
CN101436406B (zh) | 音频编解码器 | |
CN101329871A (zh) | 运动图像专家组音频编码的窗口类型确定方法及设备 | |
CN1666571A (zh) | 音频处理 | |
CN110709926B (zh) | 用于使用基于预测的整形后处理音频信号的装置和方法 | |
Kanade et al. | A Literature survey on Psychoacoustic models and Wavelets in Audio compression | |
JP3863706B2 (ja) | 音声符号化方法 | |
Gunjal et al. | Traditional Psychoacoustic Model and Daubechies Wavelets for Enhanced Speech Coder Performance | |
Deepa et al. | The Influence of Speech Enhancement Algorithm in Speech Compression with Voice Excited Linear Predictive Coding | |
Shi et al. | Bit-rate reduction using psychoacoustical masking model in frequency domain linear prediction based audio codec | |
Najafzadeh-Azghandi | Percept ual Coding of Narrowband Audio | |
VIJAYASRI et al. | IMPLEMENTATION OF A NOVEL TRANSFORMATION TECHNIQUE TO IMPROVE SPEECH COMPRESSION RATIO | |
EP1559101A1 (en) | Mpeg audio encoding method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121017 Termination date: 20190226 |
|
CF01 | Termination of patent right due to non-payment of annual fee |