CN116129918A - 一种提高音频编码质量的方法 - Google Patents
一种提高音频编码质量的方法 Download PDFInfo
- Publication number
- CN116129918A CN116129918A CN202211715025.0A CN202211715025A CN116129918A CN 116129918 A CN116129918 A CN 116129918A CN 202211715025 A CN202211715025 A CN 202211715025A CN 116129918 A CN116129918 A CN 116129918A
- Authority
- CN
- China
- Prior art keywords
- audio
- coding
- quality
- masking
- wavelet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003908 quality control method Methods 0.000 claims abstract description 28
- 230000008447 perception Effects 0.000 claims abstract description 18
- 230000006835 compression Effects 0.000 claims abstract description 16
- 238000007906 compression Methods 0.000 claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 5
- 230000000873 masking effect Effects 0.000 claims description 109
- 230000005236 sound signal Effects 0.000 claims description 52
- 238000013139 quantization Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 210000005069 ears Anatomy 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及音频编码技术领域,尤其涉及一种提高编码压缩比一种提高音频编码质量的方法;所述的方法基于变速率音频编码算法对音频源的小波变换、音质模型和音质控制的自适应比特分配,通过所希望的音频质量在听觉感知的意义上降低编码速率,从而提高编码压缩比以实现高音频编码质量;该音频编码算法可以按照所希望的音频质量在听觉感知的意义上尽可能地降低编码速率,从而最大程度地提高编码压缩比以提高音频bianma质量;在段信噪比等客观测算和主观感觉衡量上,实现了按照所希望的音频质量在听觉感知的意义上尽可能地降低编码速率,从而最大程度地提高编码压缩比以提高音频编码质量的方法是有效可行的。
Description
技术领域
本发明涉及音频编码技术领域,尤其涉及一种提高编码压缩比一种提高音频编码质量的方法。
背景技术
音频编码(AudioCoding)研究的问题是用最小的质量感知失真,以尽可能低的编码速率来表达音频信号,以便于音频信号的传输或存储,所谓用低速率对音频信号进行数字表达,就是设计一种音频编码或音频压缩算法,它能够在听觉意义上使信号失真降为最小,而不是仅仅使传统惯用的输入输出波形均方差为最小,音频压缩(AudioCompression)与音频编码一般具有相同的含义。虽然音频编码与语音编码(SpeechCoding)同属信源的压缩编码,但二者的编码算法是不同的,语音信号的来源只有一个,即人类的发音器官,语音编码的基础是语音产生模型,即信源模型。相反,音频信号的来源包括了人耳能感觉到的所有声音,音源多、信号复杂,无法用统一的声源模型来处理,尽管如此,各种音频信号最终是要被人耳所接受的,因此可以利用人类听觉感知系统的特性来研究音频编码的方法,所以音频编码的基础是听觉模型或信宿模型。
如图1现有技术中音频编码系统完整的工作过程图所示,考虑到音频信号信源种类的多样性,在设计音频编/解码算法时需要考虑的主要因素便是人耳的感知特性,即听觉特性,目前低速率高保真音频编码的主要手段是失真掩蔽或噪声掩蔽,但是利用这种方法,在音频编码过程中把不可避免地引入的失真或噪声设法适当地加以整形和重新分布,就可以被原始输入信号所掩蔽,掩蔽可以是局部或全部,这种方案与没有采用掩蔽技术系统相比,可以提高音频编码质量。中国专利公开号为CN101800050B,发明名称为一种基于感知自适应比特分配的音频精细分级编码方法及系统,该技术方案通过对输入信号进行预处理、对频域信号进行子带划分、计算每个子带的感知重要度,并根据感知重要度按照从大到小的顺序统一对子带排序,提取感知重要度最大的子带、进可分级纵向矢量量化、对矢量量化后的最大重要感知重要度子带进行自适应调整;虽然实现了较为高效的精细可分级音频编码,较好地实现了量化精度和量化效率的统一,主要是通过提高了编码效率来满足音质需求。基于此,本发明将进一步研究,旨在提供一种按照所希望的音频质量在听觉感知的意义上尽可能地降低编码速率,从而最大程度地提高编码压缩比以提高音频编码质量的方法。
发明内容
基于现有技术的研究基础,本发明旨在提供一种音频编码算法尤其是一种尽可能地降低编码速率,从而最大程度地提高编码压缩比提高音频编码质量的方法。
本发明所采用的技术方案是:一种提高音频编码质量的方法,所述的方法基于变速率音频编码算法对音频源的小波变换、音质模型和音质控制的自适应比特分配,通过所希望的音频质量在听觉感知的意义上降低编码速率,从而提高编码压缩比以实现高音频编码质量。
所述的音质控制的变速率音频编码算法基于音频编码器和音频解码器来实现,在音频编码器中输入音频信号是双声道立体声高保真音频信号,其幅度分辨率为16bit、采样频率为44,1kHz,其PCM编码速率为1411,2kbit/s,音频编/解码算法是分顿进行的,顿长取为512样点,相当于11,61ms。
在音频编码器中,原始音频信号进入音频编码器后,每声道音频信号分别分为两路。
所述两路音频信号的其中一路信号首先送入正交小波变换滤波器组3、4,进行小波变换与分解,将带宽为22,05kHz的音频信号按照人耳听觉特性分解到在频域上连续分布的带宽不同的22个小波子带中去,这22个带宽不同的小波子带在低频段具有较高的频率分辨率,在高频段具有较高的时间分辨率。
所述两路音频信号的另一路音频信号,在时频分析的同时,以估算音质模型,音质模型的输出是反应听觉掩蔽特性的信号掩蔽比(SMR),音频编码器的最后一个操作是将编码值和比特分配信息等组装成数据包,再加上顿头信息,形成编码数据顿送入信道或存储媒介。
编码器进行量化编码时,为了有效地进行量化编码,要先测算每个小波子带的尺度因数,并利用它对各子带样点进行归一化处理,以便于动态分配的比特在统一的尺度上对各子带样点进行量化与编码。
所述的音频编码器中,设置了两个输入控制参量,即速率控制和音质控制,速率控制参量可以是来自信道的反馈信息,表示当前信道的容量;也可以是音频编码器自身的用以控制最大输出速率的信息;而音质控制参量的可以用来控制音频编码。
所述的音频解码器接收来自信道或存储媒介的音频编码比特流,在顿同步之后以比特分配信息为依据对尺度因数和小波子带样点进行解码,再作尺度变换,恢复其在编码前的动态范围,最后经过小波合成滤波器组的小波反变换,重构速率为1411,2kbit/s的双声道立体声音频信号并输出。
所述音质模型的信号掩蔽比、速率控制和音质控制这三个参量共同决定了音频编码的速率和质量;
用SNR(m)表示mbit量化时的SNR,在给定频带内主观能够感觉到的失真可以通过噪声掩蔽比(NMR)来测算:
NMR(m)=SNR(m)-SMR(dB),(1)
NMR(m)描述了以mbit量化所决定的SNR与SMR之间的比值;
首先进行高分辨率频谐分析,然后从中提取有调和无调分量,再根据各信号分量所在的频带、幅度及有调或无调类型确定各单个掩蔽信号的掩蔽门限:
Mtonal(zj,zi)=Xtonal(zj)+Vtonal(zj)+Vf(zj,zi) (dB), (2)
Mnontonal(zj,zi)=Xnontonal(zj)+Vnontonal(zj)+Vf(zj,zi) (dB), (3)
其中Mtonal(zj,zi)表示声压级为Xtonal(zj)、频率为zj的有调分量频率在zi处的单独产生的掩蔽门限;Mnontonal(zj,zi)表示声压级为Xnontonal(zj)、频率为zj的无调分量频率在zi处的单独产生的掩蔽门限;(2)式和(3)式中的Vtonal(zj)和Vnontonal(zj)分别表示频率为zi的有调分量和无调分量掩蔽指数,即掩蔽效应随频率zj而变化的程度:
Vtonal(zj)=-6.025-0.275zj (dB), (4)
Vnontonal(zj)=-2.025-0.175zj (dB), (5)
(2)式和(3)式中的掩蔽函数Vf(zj,zi)描述了在相邻频率上掩蔽门限的变化,也就是描述了独立分量掩蔽门限的形状;
其中Δz=zi-zj表示频率差
在计算出每个掩蔽信号的掩蔽门限之后,再把各个掩蔽信号的掩蔽门限相加并加上静音门限,便可得到听觉域的全局掩蔽门限:
其中Mq(zi)表示频率zi处的静音门限;
计算出全局掩蔽门限MT(zi)之后,再在各个小波频带内推算最小掩蔽门限,并把它映射成小波域全局掩蔽门限;最后,作为各小波子带最大信号能量与全局掩蔽门限之比,小波域全局信号掩蔽比SMR就可以计算出来;
采用一种提高音频编码质量的方法进行编码速率的音质控制时,由于编码速率一般是随时间而变化的,用Btotal(t)表示在t时刻一顿编码可能的比特数,Lframe表示顿长,Rframe表示顿速率,Fs表示采样频率,那么t时刻的编码速率R(t)为:
R(t)=Btotal(t)Rframe(t) (bit/s), (8)
其中
Rframe=Fs/Lframe (帧/s), (9)
音质控制的变速率比特分配是一个最小化比特分配数的过程;比特分配的结果bi(t),i=0,1,…,M-1定义了t时刻第i个频带被传输样点或参数的字长或分辨率,比特分配的运作过程应满足约束条件变速率比特分配的过程是一个迭代过程,每完成一次迭代,具有最小噪声掩蔽比(NMR)的小波子带内样点的分辨率将增加1bit;具体步骤如下:
S1、初始化:用Bheader表示编码顿头信息所需的比特数,用Bcrc表示差错控制字的比特数、用Bbitallocate表示比特分配信息所需的比特数,那么本顿初始分配的比特数为:
Btotal(t)=Bheader+Bcrc+Bbitallocate (10)
设定编码质量门限或质量等级:
NMRset=10.0dB. (11)
令Bsample和Bscale分别表示分配给小波子带样点和尺度因数的比特数;初始化时分配给各小波子带样点矢量和各尺度因数的比特均为零,即:
Bsample=Bscale=0. (12)
计算每个小波子带的噪声掩蔽比NMR:
NMR(0)=SNR(0)-SMR (dB). (13)
S2、确定具有最小噪声掩蔽比NMR的小波子带;
S3、如果由(2)确定的小波子带的噪声掩蔽比NMR,大于NMRset,那么计算已经分配的总的比特数:
Btotal(t)=Btotal(t)+Bsample+Bscale, (14)
并结束迭代;否则,继续;
S4、对于具有最小噪声掩蔽比NMR的小波子带,各样点的量化分辨率都增加1bit,
S5、累计子带样点和尺度因数比特分配数,即
Bsample=Bscale+分配给子带样点比特数; (15)
如果某小波子带样点是首次分配到非零比特数,则
Bscale=Bscale+6 (16)
这是因为矢量的尺度因数用6bit量化编码;
S6、重新计算每个小波子带的噪声掩蔽比NMR
NMR(m)=SNR(m)-SMR(dB). (17)
然后转向(2)。
本发明所达到的有益效果是:本发明是针对音频编码存在的主要问题是压缩比不高提供的一种提高音频编码质量的实现方法,该音频编码算法可以按照所希望的音频质量在听觉感知的意义上尽可能地降低编码速率,从而最大程度地提高编码压缩比以提高音频bianma质量;经过测试编码速率、编码质量与音质控制设定值之间的关系和音频编码质量,在段信噪比等客观测算和主观感觉衡量上,实现了按照所希望的音频质量在听觉感知的意义上尽可能地降低编码速率,从而最大程度地提高编码压缩比以提高音频编码质量的方法是有效可行的。
附图说明
图1是现有技术中音频编码系统完整的工作过程图。
图2是本发明实施例中编码器的工作原理逻辑框图。
图3是本发明实施例中解码器的工作原理逻辑框图。
图4是本发明实施例中信噪比、信号掩蔽比及噪声掩蔽比之间的掩蔽效应示意图。
图5是本发明实施例中变速率比特分配示意图。
图6是本发明实施例中平均编码速率与设定音频编码质量的关系示意图。
图7是本发明实施例中段信噪比与设定音频编码质量的关系示意图。
具体实施方式
以下结合说明书附图详细说明本实施例的具体实现方式:
如图2-7所示,一种提高音频编码质量的方法,所述的方法基于变速率音频编码算法对音频源的小波变换、音质模型和音质控制的自适应比特分配,通过所希望的音频质量在听觉感知的意义上降低编码速率,从而提高编码压缩比以实现高音频编码质量;所述的音质控制的变速率音频编码算法基于音频编码器和音频解码器来实现。
通常,较高速率的音频编码算法一般以保持原始信号波形为目的,用解码信号的时域波形来逼近原始信号的时域波形,音频编/解码器设计以编码前后信号波形均方误差最小为的准则,在低速率音频编码算法中,分配比特数有限,时域波形失真大,波形均方误差失真准则不再能反应听觉系统感知特性。失真准则的选择应有利于人耳听觉的高质量接收,而不是单纯的只要求逼近原始波形,也不是一味追求较好的信噪比。
音频信号质量的最后和最高准则是人类听觉系统,基于听觉感知失真最小的音频信号编码算法称为感知编码算法回,从根本上说,感知编码算法之所以能高质量、高效率地完成信源编码,是因为它可以做到:(1)利用音频信号的短时平稳特性,如样点间的相关性、音频信号的周期性、频谱的共振峰等,分离信源信号中的多余分量,即多余度(Redundancy)。(2)利用听觉特性,消除对听觉系统主观感觉不相干的成分,即不相千度(Irrelevancy),不相千度表现为无用的幅度或频率的高分辨率,即信号中可以被听觉掩蔽的部分。
在本实施例中,所述的音频信号的感知编码算法,更具体的是音质控制的变速率音频编码算法如图2和图3所示,在音频编码器中,输入音频信号是双声道立体声高保真音频信号,其幅度分辨率为16bit、采样频率为44。1kHz,其PCM编码速率为1411。2kbit/s。音频编/解码算法是分顿进行的,顿长取为512样点,即相当于11。61ms。原始音频信号进入音频编码器后,每声道音频信号分别分为两路,一路信号首先送入正交小波变换滤波器组3,4,进行小波变换与分解,将带宽为22。05kHz的音频信号按照人耳听觉特性分解到在频域上连续分布的带宽不同的22个小波子带中去,这22个带宽不同的小波子带在低频段具有较高的频率分辨率,在高频段具有较高的时间分辨率,这一方面反映了音频信号的特性,同时也是人耳听觉特性的要求,由于分解到每个小波子带的音频信号分量的动态范围都非常大,为了有效地进行量化编码,要先测算每个小波子带的尺度因数,并利用它对各子带样点进行归一化处理,以便于动态分配的比特在统一的尺度上对各子带样点进行量化与编码,在时频分析的同时,而另一路音频信号用以估算音质模型,音质模型的输出是反应听觉掩蔽特性的信号掩蔽比(SMR)。音频编码器的最后一个操作是将编码值和比特分配信息等组装成数据包,再加上顿头信息,形成编码数据顿送入信道或存储媒介。
与其它音频编码算法不同,在本实施例如图2所示的音频编码器中,我们设置了两个输入控制参量,即速率控制和音质控制。速率控制参量可以是来自信道的反馈信息,表示当前信道的容量;也可以是音频编码器自身的用以控制最大输出速率的信息。而音质控制参量的可以用来控制音频编码所希望达到的主观质量这样一来,音质模型的信号掩蔽比、速率控制和音质控制这三个参量共同决定了音频编码的速率和质量。
音频解码器算法不需要计算音质模型,因而同音频编码器算法相比要简单得多,音频解码器接收来自信道或存储媒介的音频编码比特流,在顿同步之后以比特分配信息为依据对尺度因数和小波子带样点进行解码,再作尺度变换,恢复其在编码前的动态范围,最后经过小波合成滤波器组的小波反变换,重构速率为1411。2kbit/s的双声道立体声音频信号并输出。
在本实施例中,音质模型的信号掩蔽比、速率控制和音质控制这三个参量共同决定了音频编码的速率和质量;而信号掩蔽比体现了掩蔽效应与音质模型之间的关系。
掩蔽效应是一种频域听觉现象,表现为一个能量较大的声音信号可以使另外一个同时出现的能量较低的声音信号变得不能为人耳所听闻,只要这两个信号的频率差别足够小,其中能量较大的信号称为掩蔽信号,而能量较小的信号称为被掩蔽信号,被掩蔽信号可能包括较低能量的音频信号、量化噪声、交叠失真或传输误码引起的失真等。这种掩蔽效应在掩蔽信号所在的临界频带内作用较大,而在其相邻的临界频带内作用迅速减小,临界频带是一种频域心理声学或音质测度,它反映了人耳的频率选择性。临界频带的单位是bark,它表示的是一种非线性频率尺度,它与耳蜗基底膜中的一段物理距离相联系,表达了可分辨被掩蔽音频信号的最小带宽。
如图4所示的掩蔽效应示意图。在临界频带内,在掩蔽门限下面(阴影区)的音频信号将被掩蔽。掩蔽信号声压级与掩蔽门限声压级之间的差别称为信号掩蔽比(SMR),其最大值在临界频带左边界,如图4中A点所示,最小值在掩蔽信号频率附近。假设音频信号用mbit量化,那么只要临界频带内的信噪比(SNR)大于信号掩蔽比(SMR),量化噪声将是不可闻的。
如果用SNR(m)表示mbit量化时的SNR,那么在给定频带内主观能够感觉到的失真可以通过噪声掩蔽比(NMR)来测算:
NMR(m)=SNR(m)-SMR(dB)。 (1)
NMR(m)描述了以mbit量化所决定的SNR与SMR之间的比值,同时也表示了在给定频带内将被听觉感知的失真量级与量化噪声量级之间的差别。NMR(m)越大,量化编码噪声的主观感觉程度就会越小;当NMR(m)足够大时,量化噪声就不会被听觉系统所感知。
本实施例中,音质模型就是根据输入音频信号短时频谱并利用掩蔽特性计算信号掩蔽比SMR的模型,是低速率高保真音频编码的基础。本发明设计的音质模型首先进行高分辨率频谐分析,然后从中提取有调(类似于周期性正弦波)和无调(类似于噪声)分量,再根据各信号分量所在的频带、幅度及有调或无调类型确定各单个掩蔽信号的掩蔽门限:
Mtonal(zj,zi)=Xtonal(zj)+Vtonal(zj)+Vf(zj,zi) (dB), (2)
Mnontonal(zj,zi)=Xnontonal(zj)+Vnontonal(zj)+Vf(zj,zi) (dB), (3)
其中Mtonal(zj,zi)表示声压级为Xtonal(zj)(单位是dB)、频率为zj(单位是bark)的有调分量频率在zi(单位是bark)处的单独产生的掩蔽门限;Mnontonal(zj,zi)表示声压级为Xnontonal(zj)、频率为zj的无调分量频率在zi处的单独产生的掩蔽门限。(2)式和(3)式中的Vtonal(zj)和Vnontonal(zj)分别表示频率为zi的有调分量和无调分量掩蔽指数,即掩蔽效应随频率zj而变化的程度:
Vtonal(zj)=-6.025-0.275zj (dB), (4)
Vnontonal(zj)=-2.025-0.175zj (dB), (5)
(2)式和(3)式中的掩蔽函数Vf(zj,zi)描述了在相邻频率上掩蔽门限的变化,也就是描述了独立分量掩蔽门限的形状:
其中Δz=zi-zj表示频率差
在计算出每个掩蔽信号的掩蔽门限之后,再把各个掩蔽信号的掩蔽门限相加并加上静音门限,便可得到听觉域的全局掩蔽门限:
其中Mq(zi)表示频率zi处的静音门限。
计算出全局掩蔽门限MT(zi)之后,再在各个小波频带内推算最小掩蔽门限,并把它映射成小波域全局掩蔽门限。最后,作为各小波子带最大信号能量与全局掩蔽门限之比,小波域全局信号掩蔽比SMR就可以计算出来。
本实例所采用的编码速率的音质控制机理,音频编码的主要目的是解决音质与速率的矛盾低速率音频编码不可避免地产生编码误差或量化噪声,要达到高保真质量,量化误差必须保持在主观听觉感知不到的范围内。本发明设计的编码速率音质控制算法就是用音质来控制编码速率,也就是说在给定音质条件下(即使顿内全局噪声掩蔽比不小于某一设定值NMRset)利用感知自适应动态比特分配算法尽可能地降低音频编码速率,并使量化编码失真在听觉意义上降为最小,在这种条件下,编码速率一般是随时间而变化的。
本实施例进行编码速率的音质控制时,由于编码速率一般是随时间而变化的,如果用Btotal(t)表示在t时刻一顿编码可能的比特数,Lframe表示顿长,Rframe表示顿速率,Fs表示采样频率,那么t时刻的编码速率R(t)为:
R(t)=Btotal(t)Rframe(t) (bit/s), (8)
其中
Rframe=Fs/Lframe (帧/s), (9)
音质控制的变速率比特分配是一个最小化比特分配数的过程;比特分配的结果bi(t),i=0,1,…,M-1定义了t时刻第i个频带被传输样点或参数的字长或分辨率,比特分配的运作过程应满足约束条件变速率比特分配的过程是一个迭代过程,每完成一次迭代,具有最小噪声掩蔽比(NMR)的小波子带内样点的分辨率将增加1bit;具体步骤如下:
S1、初始化:用Bheader表示编码顿头信息所需的比特数,用Bcrc表示差错控制字的比特数、用Bbitallocate表示比特分配信息所需的比特数,那么本顿初始分配的比特数为:
Btotal(t)=Bheader+Bcrc+Bbitallocate (10)
设定编码质量门限或质量等级:
NMRset=10.0dB. (11)
令Bsample和Bscale分别表示分配给小波子带样点和尺度因数的比特数;初始化时分配给各小波子带样点矢量和各尺度因数的比特均为零,即:
Bsample=Bscale=0. (12)
计算每个小波子带的噪声掩蔽比NMR:
NMR(0)=SNR(0)-SMR(dB). (13)
S2、确定具有最小噪声掩蔽比NMR的小波子带;
S3、如果由(2)确定的小波子带的噪声掩蔽比NMR,大于NMRset,那么计算已经分配的总的比特数:
Btotal(t)=Btotal(t)+Bsample+Bscale, (14)
并结束迭代;否则,继续;
S4、对于具有最小噪声掩蔽比NMR的小波子带,各样点的量化分辨率都增加1bit,
S5、累计子带样点和尺度因数比特分配数,即
Bsample=Bscale+分配给子带样点比特数; (15)
如果某小波子带样点是首次分配到非零比特数,则
Bscale=Bscale+6 (16)
这是因为矢量的尺度因数用6bit量化编码;
S6、重新计算每个小波子带的噪声掩蔽比NMR
NMR(m)=SNR(m)-SMR(dB). (17)
然后转向(2)。
本实施例中,固定速率的音频编码可以用衡定的速率向通信信道或存储介质输出编码比特流,在这种情况下,音频编码的质量实际上是随着音频信号的性质而变化的,如果编码速率足够高,并能达到透明的高保真质量,那么这种编码质量的变化在主观上是感觉不到的。
对于统计复用信道(如以ATM为基础的B-ISDN)或者存储媒质(如CD-DA,DVD等),为了充分利用有限频带和存储容量,音频编码可以在满足一定音质的前提下,采用变速率编码的工作模式,即本发明所谓的音质控制的变速率音频编码算法,通过设定比特分配迭代算法中的噪声掩蔽比NMRset可以控制音频编码的比特分配,从而控制编码速率和主观听觉质量,在这种情况下,音频编码的主观感觉质量可以保持一定的水平,但这时音频编码输出的速率是变化的。
如图5中显示的是一段双声道立体声音频信号音质控制变速率编码的具体情况。在这个实例中音质控制参量NMRset设为1OdB。可以看到,变速率编码在某一时刻的瞬时速率随音频信号的性质而变化的。其中用来传送比特分配信息(包括帧头信息)的编码比特数是衡定的;而尺度因数和子带样点的编码比特数是变化的,有时变化还很大。在图示的音频信号段中,变速率音频编码的平均速率大约为224kbit/s。
为了测试编码速率、编码质量与音质控制设定值之间的关系和音频编码质量,本发明选择了一种与主观质量测试结果符合得比较好的信噪比形式,即所谓的段信噪比(SegSNR)来进行音频编码质量的客观评价。采用的音频信号是44。1kHz的采样频率、16bit量化精度、双声道立体声、速率为1411。2kbit/s的PCM信号,信号长度约4min。平均编码速率和段信噪比与音频编码质量设定值NMRset的关系由图6、图7所示,平均编码速率和段信噪比都随着质量设定值NMRset的增加而增大。
虽然有人认为音频信号的段信噪比与音质的主观质量测试结果符合得比较好,但是从段信噪比SegSNR计算公式上看,它实际上并没有反映出与听觉特性相关的因素。因此,段信噪比与主观音质测试结果能够相一致到什么程度还难以确定,因此,除了段信噪比等客观测算之外,音频编码质量最终还需主观感觉来衡量。
主观试听结果认为,对于原始速率为1411。2kbit/s的双声道立体声音频信号,本发明设计的音频编码算法当平均编码速率在180kbit/s以上时可以达到透明的高保真质量;平均编码速率在120kbit/s左右的情况下,大多数音频信号还可以高保真质量;当平均编码速率在90kbit/s以下时,随着平均量化编码精度进一步降低,主观能够感觉到的音频失真会迅速增大。
上述实施例仅为本发明的具体实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些显而易见的替换形式均属于本发明的保护范围。
Claims (10)
1.一种提高音频编码质量的方法,其特征在于:所述的方法基于变速率音频编码算法对音频源的小波变换、音质模型和音质控制的自适应比特分配,通过所希望的音频质量在听觉感知的意义上降低编码速率,从而提高编码压缩比以实现高音频编码质量。
2.根据权利要求1所述的一种提高音频编码质量的方法,其特征在于:所述的音质控制的变速率音频编码算法基于音频编码器和音频解码器来实现,在音频编码器中输入音频信号是双声道立体声高保真音频信号,其幅度分辨率为16bit、采样频率为44,1kHz,其PCM编码速率为1411,2kbit/s,音频编/解码算法是分顿进行的,顿长取为512样点,相当于11,61ms。
3.根据权利要求2所述的一种提高音频编码质量的方法,其特征在于:在音频编码器中,原始音频信号进入音频编码器后,每声道音频信号分别分为两路。
4.根据权利要求3所述的一种提高音频编码质量的方法,其特征在于:所述两路音频信号的其中一路信号首先送入正交小波变换滤波器组3、4,进行小波变换与分解,将带宽为22,05kHz的音频信号按照人耳听觉特性分解到在频域上连续分布的带宽不同的22个小波子带中去,这22个带宽不同的小波子带在低频段具有较高的频率分辨率,在高频段具有较高的时间分辨率。
5.根据权利要求3所述的一种提高音频编码质量的方法,其特征在于:所述两路音频信号的另一路音频信号,在时频分析的同时,以估算音质模型,音质模型的输出是反应听觉掩蔽特性的信号掩蔽比(SMR),音频编码器的最后一个操作是将编码值和比特分配信息等组装成数据包,再加上顿头信息,形成编码数据顿送入信道或存储媒介。
6.根据权利要求2所述的一种提高音频编码质量的方法,其特征在于:编码器进行量化编码时,为了有效地进行量化编码,要先测算每个小波子带的尺度因数,并利用它对各子带样点进行归一化处理,以便于动态分配的比特在统一的尺度上对各子带样点进行量化与编码。
7.根据权利要求2所述的一种提高音频编码质量的方法,其特征在于:所述的音频编码器中,设置了两个输入控制参量,即速率控制和音质控制,速率控制参量可以是来自信道的反馈信息,表示当前信道的容量;也可以是音频编码器自身的用以控制最大输出速率的信息;而音质控制参量的可以用来控制音频编码。
8.根据权利要求2所述的一种提高音频编码质量的方法,其特征在于:所述的音频解码器接收来自信道或存储媒介的音频编码比特流,在顿同步之后以比特分配信息为依据对尺度因数和小波子带样点进行解码,再作尺度变换,恢复其在编码前的动态范围,最后经过小波合成滤波器组的小波反变换,重构速率为1411,2kbit/s的双声道立体声音频信号并输出。
9.根据权利要求1所述的一种提高音频编码质量的方法,其特征在于:所述音质模型的信号掩蔽比、速率控制和音质控制这三个参量共同决定了音频编码的速率和质量;
用SNR(m)表示mbit量化时的SNR,在给定频带内主观能够感觉到的失真可以通过噪声掩蔽比(NMR)来测算:
NMR(m)=SNR(m)-SMR(dB),(1)
NMR(m)描述了以mbit量化所决定的SNR与SMR之间的比值;
首先进行高分辨率频谐分析,然后从中提取有调和无调分量,再根据各信号分量所在的频带、幅度及有调或无调类型确定各单个掩蔽信号的掩蔽门限:
Mtonal(zj,zi)=Xtonal(zj)+Vtonal(zj)+Vf(zj,zi)(dB), (2)
Mnontonal(zj,zi)=Xnontonal(zj)+Vnontonal(zj)+Vf(zj,zi)(dB), (3)
其中Mtonal(zj,zi)表示声压级为Xtonal(zj)、频率为zj的有调分量频率在zl处的单独产生的掩蔽门限;Mnontonal(zj,zi)表示声压级为Xnontonal(zj)、频率为zj的无调分量频率在zi处的单独产生的掩蔽门限;(2)式和(3)式中的Vtotal(zj)和Vnontonal(zj)分别表示频率为zi的有调分量和无调分量掩蔽指数,即掩蔽效应随频率zj而变化的程度:
Vtonal(zj)=-6.025-0.275zj(dB), (4)
Vnontonal(zj)=-2.025-0.175zj(dB), (5)
(2)式和(3)式中的掩蔽函数Vf(zj,zi)描述了在相邻频率上掩蔽门限的变化,也就是描述了独立分量掩蔽门限的形状;
其中Δz=zl-zj表示频率差
在计算出每个掩蔽信号的掩蔽门限之后,再把各个掩蔽信号的掩蔽门限相加并加上静音门限,便可得到听觉域的全局掩蔽门限:
其中Mq(zi)表示频率zi处的静音门限;
计算出全局掩蔽门限MT(zi)之后,再在各个小波频带内推算最小掩蔽门限,并把它映射成小波域全局掩蔽门限;最后,作为各小波子带最大信号能量与全局掩蔽门限之比,小波域全局信号掩蔽比SMR就可以计算出来。
10.采用权利要求1-9任一项所述的一种提高音频编码质量的方法进行编码速率的音质控制时,其特征在于:由于编码速率一般是随时间而变化的,用Btotal(t)表示在t时刻一顿编码可能的比特数,Lframe表示顿长,Pframe表示顿速率,Fs表示采样频率,那么t时刻的编码速率R(t)为:
R(t)=Btotal(t)Rframe(t)(bit/s),(8)
其中
Rframe=Fs/Lframe(帧/s), (9)
音质控制的变速率比特分配是一个最小化比特分配数的过程;比特分配的结果bi(t),i=0,1,...,M-1定义了t时刻第i个频带被传输样点或参数的字长或分辨率,比特分配的运作过程应满足约束条件变速率比特分配的过程是一个迭代过程,每完成一次迭代,具有最小噪声掩蔽比(NMR)的小波子带内样点的分辨率将增加1bit;具体步骤如下:
S1、初始化:用Bheader表示编码顿头信息所需的比特数,用Bcrc表示差错控制字的比特数、用Bbitallocate表示比特分配信息所需的比特数,那么本顿初始分配的比特数为:
Broral(t)=Bheader+Bcrc+Bbitallocate (10)
设定编码质量门限或质量等级:
NMRset=10.0dB. (11)
令Bsample和Bscale分别表示分配给小波子带样点和尺度因数的比特数;初始化时分配给各小波子带样点矢量和各尺度因数的比特均为零,即:
Bsample=Bscale=0. (12)
计算每个小波子带的噪声掩蔽比NMR:
NMR(0)=SNR(0)-SMR (dB). (13)
S2、确定具有最小噪声掩蔽比NMR的小波子带;
S3、如果由(2)确定的小波子带的噪声掩蔽比NMR,大于NMRset,那么计算已经分配的总的比特数:
Rtotal(t)=Btotal(t)+Bsample+Bscale, (14)
并结束迭代;否则,继续;
S4、对于具有最小噪声掩蔽比NMR的小波子带,各样点的量化分辨率都增加1bit,
S5、累计子带样点和尺度因数比特分配数,即
Bsample=Bscale+分配给子带样点比特数; (15)
如果某小波子带样点是首次分配到非零比特数,则
Bscale=Bscale+6 (16)
这是因为矢量的尺度因数用6bit量化编码;
S6、重新计算每个小波子带的噪声掩蔽比NMR
NMR(m)=SNR(m)-SMR(dB) (17)
然后转向(2)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211715025.0A CN116129918A (zh) | 2022-12-28 | 2022-12-28 | 一种提高音频编码质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211715025.0A CN116129918A (zh) | 2022-12-28 | 2022-12-28 | 一种提高音频编码质量的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116129918A true CN116129918A (zh) | 2023-05-16 |
Family
ID=86296767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211715025.0A Pending CN116129918A (zh) | 2022-12-28 | 2022-12-28 | 一种提高音频编码质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116129918A (zh) |
-
2022
- 2022-12-28 CN CN202211715025.0A patent/CN116129918A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
US8112284B2 (en) | Methods and apparatus for improving high frequency reconstruction of audio and speech signals | |
CN1838239B (zh) | 一种用于增强信源解码器的设备及方法 | |
CN100369109C (zh) | 使用频谱孔填充的音频编码系统 | |
JP6110212B2 (ja) | 過渡信号符号化方法、復号化方法、及びコンピュータ読取可能媒体 | |
US10255928B2 (en) | Apparatus, medium and method to encode and decode high frequency signal | |
Vinton et al. | Scalable and progressive audio codec | |
JP2012098759A (ja) | スケール調節可能な圧縮されたオーディオビットストリーム、並びに階層的フィルターバンクおよび多チャンネルジョイントコーディングを使用したコーデック | |
JP2009515212A (ja) | オーディオ圧縮 | |
WO2014091694A1 (ja) | 音声音響符号化装置、音声音響復号装置、音声音響符号化方法及び音声音響復号方法 | |
JP6600054B2 (ja) | 方法、符号化器、復号化器、及び移動体機器 | |
WO2024051412A1 (zh) | 语音编码、解码方法、装置、计算机设备和存储介质 | |
JP2001343997A (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
CN105957533B (zh) | 语音压缩方法、语音解压方法及音频编码器、音频解码器 | |
CN116129918A (zh) | 一种提高音频编码质量的方法 | |
Zhao | RETRACTED: Quality Correction for Songs of the War of Resistance Based on Computer Audio Technology | |
Singh et al. | Design of Medium to Low Bitrate Neural Audio Codec | |
Boland et al. | Hybrid LPC And discrete wavelet transform audio coding with a novel bit allocation algorithm | |
Gunasekaran et al. | Spectral Fluctuation Analysis for Audio Compression Using Adaptive Wavelet Decomposition | |
de Oliveira et al. | A Full Frequency Masking Vocoder for Legal Eavesdropping Conversation Recording | |
Boland et al. | A new hybrid LPC-DWT algorithm for high quality audio coding | |
Bosi | MPEG audio compression basics | |
HE et al. | Wideband Speech and Audio Coding Based on Wavelet Transform And Psychoacoustic Model | |
PRAKASH et al. | Hi-Fi Audio Coding Technique for Wireless Communication based on Packet Transformation | |
Pollak et al. | Audio Compression using Wavelet Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |