具体实施方式
下面将结合本发明实施例中的附图,对本实用新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本实用新型一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种音频编码过程中生成量化控制参数的方法及装置。在现有的音频编解码器中,心理声学模型需要计算噪声和音调掩蔽特性,导致心理声学模型的计算量很大;本发明所提供的实施例不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例1:
本发明实施例1提供了一种音频编码过程中生成量化控制参数的方法,如图2所示为本实施例1所提供方法的流程示意图,所述方法包括:
步骤200:接收频域信号。
步骤201:根据该频域信号,获得该频域信号的能量。
在具体实现过程中,可以根据频域信号的幅度值,来计算得到该频域信号的能量。例如,可以通过计算频域信号幅度值的平方来得到频域信号的能量。当然,本发明实施例中包括但不限于采用上述方法来获得频域信号的能量。
步骤202:根据频域信号的能量获得至少一个频率点总的掩蔽值。
在具体实现过程中,在计算得到该频域信号的能量之后,就可以根据该频域信号的能量计算出所述频域信号至少一个频率点总的掩蔽值,这里所述的至少一个频率点可以是一个或多个频率点。
具体的计算过程可以是该至少一个频率点附近的频率在该至少一个频率点的总的掩蔽值。例如,可以先计算出所述频域信号的至少一个频率点附近的频率在该频率点的掩蔽值;然后通过求和来得到该至少一个频率点的总的掩蔽值。这里,该至少一个频率点附近的频率可以是:对该至少一个频率点的掩蔽效应大于指定比值范围内的频率点,所述指定比值范围可以限定成0.1~1的范围,当然在本实施例中,不限定对其他频率点的选定;同时,本发明实施例中包括但不限于采用上述方法来获得至少一个频率点的总的掩蔽值。
步骤203:根据至少一个频率点总的掩蔽值获得量化控制参数。
通过以上技术方案的实施,这样就可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例2:
本发明实施例2提供了另一种音频编码过程中生成量化控制参数的方法,如图3所示,该方法包括:
步骤300、接收频域信号;
步骤301、根据该频域信号确定一区域;
在具体实现过程中,这里确定的区域可以是该频域信号中任一区域,也可以是一个或多个区域。
步骤302、获得该区域内频域信号的能量;
在具体实现过程中,可以根据该区域内频域信号的幅度值,来计算得到该区域内频域信号的能量。例如,可以通过计算该区域内频域信号幅度值的平方来得到该区域内频域信号的能量。当然,本发明实施例中包括但不限于采用上述方法来获得区域内频域信号的能量。
步骤303、根据该区域内频域信号的能量获得该区域内频域信号的其他频率点对其中至少一个频率点总的掩蔽值。
在具体实现过程中,可以先计算出该区域内频域信号的至少一个频率点附近的频率在该频率点的掩蔽值;然后通过求和来得到该至少一个频率点的总的掩蔽值。这里,该至少一个频率点附近的频率可以是:对该至少一个频率点的掩蔽效应大于指定比值范围内的频率点,所述指定比值范围可以限定成0.1~1的范围,当然在本实施例中,不限定对其他频率点的选定。
步骤304:根据至少一个频率点总的掩蔽值获得量化控制参数。
具体来说,可以将该区域内频域信号划分成若干个组,对每一组中各个频率点的掩蔽值进行线性拟合处理,得到若干组折线的端点值;再将所述若干组折线的端点值作为控制量化步长的量化控制参数。上述进行线性拟合的方法是一种公知的数学方法,在此不再详述。
通过以上技术方案的实施,这样就可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例3:
本发明实施例3提供了另一种音频编码过程中生成量化控制参数的方法,如图4所示,该方法包括:
步骤400、接收频域信号;
步骤401、将所述频域信号的频谱分成N个分区,N为自然数;
在具体实现过程中,如果逐个计算频域信号中每个频率点的掩蔽值,那么计算量会较大;因此可以将整个频域信号划分成若干个小的分区,如本实施例3所述的N个分区;然后只计算各分区中心频率点的掩蔽值,而该分区中其他频率点的掩蔽值可以以该分区中心频率点的掩蔽值来替代,这样可以进一步减少了心理声学模型的计算量和复杂度。
这里为了保证后续和扩展函数卷积的精确度,分区应划分的足够小,一般所划分出的分区的宽度远小于一个临界频带,例如不超过0.2bark。
步骤402、根据所述N个分区中的频域信号获得所述各分区的能量。
这里,各个分区的上下边界实际上可以看成是频率点的扩展,当上下边界重合时,各个分区就成了频域信号中的各个频率点。
步骤403、获得所述各分区中的中心频率点对其中一个分区中的中心频率点总的掩蔽值。
步骤404、将所述一个分区中的中心频率点总的掩蔽值乘以所述一个分区的宽度,获得所述一个分区总的掩蔽值;
步骤405、将所述一个分区总的掩蔽值除以所述一个分区的谱线,获得所述一个分区中单根谱线总的掩蔽值;
在具体实现过程中,在获得该各分区中单根谱线总的掩蔽值之后,还可以根据各分区的能量,对该各分区上单根谱线总的掩蔽值进行调整。具体来说,若所述各分区的能量超过预设的阈值,则可以减小所述各分区上单根谱线总的掩蔽值,上述预设的阈值可以在进行音频编码过程中,根据实际需求进行设置;另外,若所述各分区的能量太低,小于预设的最低阈值时,还可以增加所述各分区上单根谱线总的掩蔽值。
步骤406、将所述N个分区分为M个组,其中M为小于N的自然数,对所述每组中分区的单根谱线总的掩蔽值进行线性拟合,获得多组折线的端点值;
在具体实现过程中,在所述得到多组折线的端点值之后,将所述多组折线的端点值和设定的绝对掩蔽值进行比较,若低于所述绝对掩蔽值,则将低于所述绝对掩蔽值的端点值设定为所述绝对掩蔽值,从而保证所得到的值是大于或等于绝对掩蔽值。
步骤407、将所述多组折线的端点值作为控制量化步长的量化控制参数。
举例来说,在进行步骤401划分出了N个分区之后,可以通过如下的公式来获得每一个分区的能量e(b):
上式中,w_low和w_high分别表示每一个分区的谱线的上下边界;X(w)表示频域信号的幅度值,该值由频域信号来决定。
然后再计算各分区中心频率点的掩蔽值,每一个分区中心频率点的掩蔽值ecb(b)就可以按照如下公式计算:
上式中,b是表示所计算分区的索引值;bb表示该计算分区相邻分区的索引值;bblow表示相邻分区的下限,bbhi表示相邻分区的上限;bval(b)表示b分区中心频率点的临界频带Bark值,bval(bb)表示相邻bb分区中心频率点的bark值。
而上述的函数mask(bval(bb),bval(b))表示如图5所示的掩蔽特性,在图5中:横坐标表示频域信号的Bark值,纵坐标表示归一化为1的掩蔽特性;图中所示的曲线是频率点10附近的频率对该频率点的掩蔽效应;从中可以看出,距离该频率点10越远,则掩蔽效应越低,在本实施例中可以限定为对该频率点的掩蔽效应大于指定比值范围内的频率点,这里所述指定比值范围可以限定成0.1~1的范围。该图5中的掩蔽特性就可以用函数mask(bval(bb),bval(b))来表示。
然后再计算各分区总的掩蔽值,根据上一步所计算出来的各分区中心频率点的掩蔽值,再乘以各分区在bark阈的宽度,具体通过如下的公式来获得各分区总的掩蔽值en(b):
en(b)=ecb(b)*width(b)
上式中,ecb(b)为各分区中心频率点的掩蔽值;width(b)为各分区在bark阈的宽度。
在实际应用中,若将频域信号划分成了若干个分区,则可以将各分区总的掩蔽值除以该分区的谱线,来获得该各分区上单根谱线的掩蔽值;然后再根据各分区上单根谱线的掩蔽值,获得用于控制量化步长的量化控制参数;上述的谱线可以看成是在频谱上离散的各个点。
举例来说,首先计算各分区上单根谱线的掩蔽值,具体可以采用如下的公式来获得各分区单根谱线的掩蔽值eno(b):
eno(b)=en(b)/(w_high(b)-w_low(b)+1)
上式中,en(b)为b分区总的掩蔽值;w_high(b)和w_low(b)分别表示b分区谱线的上下边界。
然后,可以将分区划分成M个组(M为根据需要设定的常数值),每一组中包括有若干个分区;然后对每一组中若干个分区中单根谱线的掩蔽值eno(b)进行线性拟合,则可求得直线两端点的值:epB(m)和epE(m),其中m是组的索引值(m=1,2,...,M-1)。
其中,epB(m+1)和epE(m)所在的分区相同,但值不一定相同,可以采用下面的方式来取值:
令ep(0)=epB(0);
ep(m)=epE(m-1)和epB(m)的最小值(m=1,2,...,M-1);
ep(M)=epE(M-1)。
通过上述的取值方式,就可以得到M+1个ep值,并形成首尾相连的M个折线;然后就可以将这M+1个ep值作为量化控制参数,输送给量化控制模块,用于控制量化步长。
另外,在对掩蔽值进行线性拟合的过程中,还可以计算每一组中eno(b)和直线之间的偏移值,然后对ep(m)进行适应性的调整,以使线性拟合结果更加的准确。
值得注意的是,上述所举出的分区的例子中,各个分区的上下边界可以看成是频率点的扩展,当上下边界重合时,各个分区就成了频域信号中的各个频率点,但具体获得量化控制参数的过程两者是类似的。
通过以上技术方案的实施,就可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例4:
本发明实施例4提供了一种音频编码方法,如图6所示,该方法包括:
步骤600、接收时域信号;
步骤601、经过时频变换,将所述时域信号转换成频域信号;
步骤602、根据所述频域信号获得所述频域信号的能量;
获得频域信号能量的方法可以采用上述实施例中的方式,本发明实施例包括但不限于采取上述方式来获得频域信号的能量。
步骤603、根据所述频域信号的能量获得至少一个频率点总的掩蔽值;
获得至少一个频率点总的掩蔽值的方法可以采用上述实施例中的方式,本发明实施例包括但不限于采取上述方式来获得至少一个频率点总的掩蔽值。
步骤604、根据所述至少一个频率点总的掩蔽值获得量化控制参数。
获得量化控制参数的方法可以采用上述实施例中的方式,本发明实施例包括但不限于采取上述方式来获得量化控制参数。
步骤605、基于所述量化控制参数对所述频域信号进行量化和熵编码,生成音频比特流。
通过以上技术方案的实施,在进行心理声学处理时,就可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例5:
本发明实施例5提供一种心理声学装置,如图7所示,该装置包括:
频域信号接收单元,用于接收频域信号;
能量获取单元,用于根据所述频域信号获得所述频域信号的能量;具体获得频域信号的能量的方式见以上方法实施例中所述。
掩蔽值获取单元,根据所述频域信号的能量获得至少一个频率点总的掩蔽值;具体获得总的掩蔽值的方式见以上方法实施例中所述。
量化控制参数获取单元,用于根据所述至少一个频率点总的掩蔽值获得量化控制参数;具体获得量化控制参数的方式见以上方法实施例中所述。
另外,在具体实现过程中,本发明实施例5还提供了另一种心理声学装置,如图8所示,图8中,所述能量获取单元包括:
区域确定模块,用于根据所述频域信号确定一区域;
区域能量获取模块,用于获得所确定区域内频域信号的能量。
另外,所述能量获取单元还可包括:
分区划分模块,用于将所述频域信号的频谱分成N个分区,N为自然数;
分区能量获取模块,用于根据所述N个分区中的频域信号获得所述各分区的能量。
在将频域信号的频谱分成N个分区时,该掩蔽值获取单元还可用于获得所述各分区中的中心频率点对其中一个分区中的中心频率点总的掩蔽值。
进一步的,所述量化控制参数获取单元还可包括:
单根谱线掩蔽值获取模块,用于将所述掩蔽值获取单元所获取的所述一个分区中的中心频率点总的掩蔽值乘以所述一个分区的宽度,获得所述一个分区总的掩蔽值;并将所述一个分区总的掩蔽值除以所述一个分区的谱线,获得所述一个分区中单根谱线总的掩蔽值;
线性拟合处理模块,用于将所述N个分区分为M个组,其中M为小于N的自然数,对所述每组中分区的单根谱线总的掩蔽值进行线性拟合,获得多组折线的端点值,将所述多组折线的端点值作为控制量化步长的量化控制参数。
更进一步的,所述量化控制参数获取单元中还可包括:
端点值比较模块,用于将所述多组折线的端点值和设定的绝对掩蔽值进行比较,若低于所述绝对掩蔽值,则将低于所述绝对掩蔽值的端点值设定为所述绝对掩蔽值。
更进一步的,所述量化控制参数获取单元中还可包括:
掩蔽值调整模块,用于根据所述各分区的能量,对该各分区上单根谱线的掩蔽值进行调整;其中,若所述各分区的能量超过预设的阈值,则减小所述各分区上单根谱线的掩蔽值。
通过以上技术方案的实施,就可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
实施例6:
本发明实施例6提供了一种音频编码设备,如图9所示为本实施例6所提供音频编码设备的结构示意图,该设备包括:
时域信号接收单元,用于接收时域信号;
时频转换单元,用于通过时频变换,将所述时域信号转换成频域信号;
心理声学装置,用于根据所述频域信号获得所述频域信号的能量,并根据所述频域信号的能量获得至少一个频率点总的掩蔽值,再根据所述至少一个频率点总的掩蔽值获得量化控制参数;
音频编码单元,用于基于所述量化控制参数对所述频域信号进行量化和熵编码,生成音频比特流。
另外,以上所述的心理声学装置可以为上述实施例5中所描述的心理声学装置。
值得注意的是,上述装置和设备实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件完成,相应的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器、磁盘或光盘等。
综上所述,本发明实施例可以不再计算频域信号的噪声和音调掩蔽特性,而只需统一计算各个频率点的掩蔽效应,从而在保证音质的情况下,减少了心理声学模型的计算量和复杂度,进而降低了音频编码器的工作负担。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。