CN113314131B - 一种基于两级滤波的多步音频对象编解码方法 - Google Patents
一种基于两级滤波的多步音频对象编解码方法 Download PDFInfo
- Publication number
- CN113314131B CN113314131B CN202110494630.9A CN202110494630A CN113314131B CN 113314131 B CN113314131 B CN 113314131B CN 202110494630 A CN202110494630 A CN 202110494630A CN 113314131 B CN113314131 B CN 113314131B
- Authority
- CN
- China
- Prior art keywords
- matrix
- residual
- code stream
- singular
- audio object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 title claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 106
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 38
- 210000005069 ears Anatomy 0.000 claims abstract description 10
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 5
- 238000013139 quantization Methods 0.000 claims description 30
- 238000002156 mixing Methods 0.000 claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003786 synthesis reaction Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000002829 reductive effect Effects 0.000 abstract description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于两级滤波的多步音频对象编解码方法。在编码阶段,首先将输入的多个音频对象信号进行时频变换;确定对象循环下混顺序并提取每步边信息,输出最终下混信号;通过第一级滤波器,去除残差信息中人耳无法感知的冗余成分;通过第二级滤波器,根据每个子带中残差信息的能量大小,保留前n个子带中的残差;经过二级滤波后的残差信息进行奇异值分解,大尺寸的残差矩阵被压缩为较小的矩阵;将最终混合信号,参数及残差分解矩阵合成码流。在解码阶段,首先利用分解的残差矩阵重构原始残差,然后根据边信息,将多个对象从下混信号中逐步剥离。本发明通过利用心理声学和子带能量信息,滤除残差信息中的次要成分,降低音频对象编码码率。
Description
技术领域
本发明属于数字音频信号处理技术领域,具体涉及一种基于两级滤波的多步音频对象编解码方法,适用于码率有限条件下的多音频对象信号传输,允许在不同的码率要求下传输残差信息。
背景技术
下一代音频系统与以前的系统有两个不同的特点:沉浸感和个性化。对于沉浸感,空间音频技术如MPEG Surround[文献1]和NHK 22.2[文献2]可以提供三维音频再现。对于性化,音频系统应根据用户需要兼容不同的播放环境和设备。此外,个性化音频系统应支持交互式音频服务。但传统的空间音频内容是传递给所有用户,而不考虑环境、偏好和设备等因素。基于声道的框架使得下一代音频系统的个性化特性难以实现[文献3]。
为了克服上述缺陷,实现个性化,音频系统的框架由基于声道向基于对象转变。在基于对象的编码框架中,声音场景中的音频对象可以由单独的音频流表示。这种方法可以兼容不同的扬声器布局,并且可以根据用户交互进行调整。其中最具代表性的是德国知名研究机构Fraunhofer提出的空间音频对象联合编码技术(Spatial audio object coding,SAOC)[文献4]。该方法将频率划分为28个子带,提取每个子带的空间参数。通过这种方式,多个对象可以压缩成带有少量边信息的下混信号。然而,在同一个子带中使用相同的参数将导致频率混叠失真,一个音频目标信号将与其他目标信号成分混合。
有研究尝试利用残差信号来减少这些混叠的频率分量[文献5]。如果频率系数为1024,则每帧将有1024个残差数据需要记录。这使得未压缩的边信息数据量比传统的SAOC高38倍。为了减小残差的大小,有方法提出[文献6]仅提取0~5.5kHz频率区域的残差。但以上方法仅能良好恢复单个对象信号,其他对象信号仍然音质较差。[文献7]提出一种多步音频对象编码方法,将多个对象按照一定顺序循环下混,提取每个对象的残差信息,多个对象残差带来的数据激增采用奇异值分解(SVD)方法进行减低。然而,残差信息中仍然含有大量冗余成分,导致比特率较高。
文献1:Elfitri,I.,Muharam,M.,and Shobirin,M.:Distortion analysis ofhierarchical mixing technique on mpeg surround standard.In:InternationalConference on Advanced Computer Science and Information System.IEEE(2014).
文献2:Ando,A.:Conversion of multichannel sound signal maintainingphysical properties of sound in reproduced sound field.IEEE Transactions onAudio Speech and Language Processing 19(6),1467-1475(2016).
文献3:Walton,T.,Evans,M.,Kirk,D.,and Melchior,F.:Exploring object-based content adaptation for mobile audio.Personal and Ubiquitous Computing22(4),707-720(2018).
文献4:Breebaart,J.,Engdeg°ard,J.,Falch,C.,et al.:Spatial audio objectcoding(saoc)-the upcoming mpeg standard on parametric object based audiocoding.In:Audio Engineering Society Convention 124.Audio Engineering Society(2008).
文献5:Kim,K.,Seo,J.,Beack,S.,Kang,K.,Hahn,M.:Spatial audio objectcoding with two-step coding structure for interactive audio service.IEEETransactions on Multimedia 13(6),1208-1216(2011).
文献6:Lee,B.,Kim,K.,Hahn,M.:Efficient residual coding method ofspatial audio object coding with two-step coding structure for interactiveaudio services.IEICE TRANSACTIONS on Information and Systems 99(7),1949-1952(2016).
文献7:Hu,C.,Wang,X.,Hu,R.,et al.:Audio object coding based on N-stepresidual compensating.Multimedia Tools and Applications,10.1007/s11042-020-10339-0,1-17(2021).
发明内容
为解决多步音频对象编码码率较高的问题,本发明提供了一种基于两级滤波的多步音频对象编解码方法,能够在中低码率下进行高质量的音频编解码,保证所有音频对象都具有良好解码音质。
本发明所采用的技术方案是:一种基于两级滤波的多步音频对象编码方法,包括以下步骤:
步骤A1,将音频对象信号进行分帧加窗,将每帧数据其从时域变换到频域,得到每个音频对象的时频矩阵;
步骤A2,按照多步音频对象编码方法计算每个对象频域能量并进行排序,逐步下混并计算对应的边信息,所述边信息包含残差信息和增益参数;
步骤A3,根据人耳听觉阈值,计算第一级滤波器掩膜;利用第一级滤波器,去除每个音频对象残差矩阵中人耳难以感知的成分;
步骤A4,将残差信息进行子带划分,得到残差子带,根据残差子带内的平均频点能量,计算第二级滤波器掩膜,该掩膜用于滤除残差矩阵中的冗余数据;利用第二级滤波器,去除残差矩阵中的次要信息;
步骤A5,利用奇异值分解将滤波后的残差信息分解为左、右奇异矩阵与奇异值,所述左、右奇异矩阵与奇异值为残差分解矩阵;
步骤A6,量化奇异矩阵、奇异值及增益参数,获得边信息码流;
步骤A7,将步骤A3中最后一步得到的下混信号进行编码,获得下混信号码流;
步骤A8,步骤A6和步骤A7得到的码流合成为输出码流,传输到解码端。
进一步的,步骤A2中残差信息与增益参数的计算公式如下所示:
其中,i表示第i个对象,j表示第j帧,k表示第k个频点,b表示第b个子带;R(i,:,:)为第i+1个对象的残差信息,Gt(i,:,:)为第i+1个对象的增益参数,为第i个下混信号的增益参数,公式中Di表示第i步得到的下混信号,Pt(i,:,:)为对象i的能量,Pd(i,:,:)为第i步下混信号的能量;公式(1)中Gd(i,j,b)和Gt(i,j,b)在进行乘法运算前会进行扩充,按照同子带内频点采用相同参数,将矩阵第三维从长度b扩展为长度k,N表示需要编码的对象个数。
进一步的,步骤A3中人耳听觉阈值的计算如下式所示;
其中,Ts(f)反映了STFT域下不同频率的人耳听觉阈值,f为频率值;然后将Ts(f)转换为MDCT域,将频率值f抽样与MDCT域频点对应后,MDCT域听力的绝对阈值可以表示为向量:
Tm(k)=[Tm(1),Tm(2),...,Tm(K)]#(4)
其中,Tm是MDCT域听力的绝对阈值,K为频点数,k表示第k个频点;
根据该向量,第一级滤波器的掩膜计算如下:
其中,M1的值可以确定人耳可以听到的残差信号,R(i,:,:)为第i+1个对象的残差信号。
进一步的,步骤A4中第二级滤波器的掩膜计算如下;
其中,ABE(i,j,b)是第i个对象在第j帧第b个子带内的平均频点能量,M2是第二级滤波器的掩膜用于保留第一级滤波后残差信息中较为重要的部分,Ab为子带划分的界限,根据人耳BARK带确定;T是前n个ABE元素构成的集合,n用来控制保留的残差子带数量。
进一步的,步骤A5中奇异值分解过程如下所示;
其中,R(i)P×Q为第i+1个对象的残差信号,P等于MDCT变换长度的一半,Q等于帧数;U为左奇异矩阵,Λ为奇异值矩阵,V为右奇异矩阵;Λ矩阵中对角线上的奇异值按从大到小排序;为了进行降维,选择前r个奇异值和对应的奇异矩阵近似表示R(i),近似表示如下:
进一步的,步骤A6中通过查表法来实现量化,在量化操作中,残差分解矩阵与增益参数中的元素取值范围不同,因此量化前通过归一化处理来统一量化表;然后根据每个元素值的大小在量化表中查找最接近的量化值,并将对应的量化索引作为边信息量化码流输出;另外,残差分解矩阵中的全0行或列可通过标志位进行标记,不必进行量化传输。
进一步的,步骤A7中最终下混信号为解码端进行对象信号重建的基础,采用mp3128k进行编码;步骤A8中合成输出码流指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析;最终下混信号码流指经mp3128k编码后的输出码流,边信息码流指残差分解矩阵与增益参数量化后输出的量化索引码流。
本发明还提供一种基于两级滤波的多步音频对象解码方法,用于对上述技术方案生成的编码进行解码;
具体实现包括以下子步骤:
步骤B1,解析接收到的码流,得到边信息码流与最终下混信号码流;
步骤B2,下混信号码流经过解码得到下混信号;
步骤B3,边信息码流经过去量化后得到左、右奇异矩阵、奇异值及对象增益参数;
步骤B4,左、右奇异矩阵与奇异值进行矩阵合成恢复出对象残差;
步骤B5,根据编码顺序反向解码,利用边信息从传输下混信号中循环重构音频对象频域信号;
步骤B6,利用时频反变换,将频域的音频对象信号转换到时域。
进一步的,步骤B3中,残差信息的分解阵中存在被标志位标记的全0行或列,当遇到此标志位时,直接插入全0行或列。
与现有多步音频对象编码技术相比,本发明的优势在于:通过第一级滤波器,去除残差信息中人耳无法感知的冗余成分;通过第二级滤波器,根据每个子带中残差信息的能量大小,保留主要残差成分;经过二级滤波后的残差信息进行奇异值分解,数据量要小于未经过滤波后的奇异值分解矩阵。因此,本发明可以通过压缩残差信息,降低多步音频编码方法码率,以满足中低码率下的传输需求。
附图说明
图1是本发明实施例的编码原理图;
图2是本发明实施例的下混示例图;
图3是本发明实施例的解码原理图。
具体实施方式
为了便于本领域的技术人员理解和实施本发明,下面结合附图以及具体实施示例对本发明的技术方案作进一步说明,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明:
本发明在现有多步音频对象编码方法的基础上开展进一步研究,提出了基于二级滤波的残差信息压缩方法。首先,根据心理声学滤除频域上残差矩阵中人耳无法感知的成分,作为第一级滤波;其次,利用残差子带内的平均频点能量对每个对象的残差信息进行重要度排序,保留前n个残差子带,为权衡音质与码率一般情况下n=10,但也可根据码率要求自适应调整;最后,利用奇异值分解方法将残差信息分为三个低维矩阵,经过二级滤波后再进行奇异值分解会比直接进行奇异值分解得到的数据量低,因此可以达到压缩残差信息,降低多步音频对象编码码率的目的。
参见图1,本发明提出一种降低多步音频对象编码码率的残差信息压缩方法,本实施示例以四个输入对象(S1、S2、S3、S4)举例说明,输入的原始对象信号采样率为44.1Khz,位深16位,wav音频格式。
具体实施示例包含以下步骤:
步骤A1:输入音频对象S1、S2、S3、S4(可包含语音、环境声、乐器声等多种不同类型的音频片段)。每个输入对象进行分帧、加窗后,利用时频变换从时域转换到频域,得到多个音频对象的时频矩阵;
本实施例中,通过分帧(2048个采样点为一帧)、加窗(汉宁窗,重叠度为50%)与改进离散余弦变换(MDCT,变换长度为2048点)将时域上的多个音频帧,变为频域的二维频谱图。输出的是矩阵形式的音频对象数据,数据值表示在某帧某频率下的信号幅度。其中,矩阵的行向量表示帧、矩阵的列向量表示频点。
应注意的是,此处规定的音频参数和对象种类仅为举例说明本发明的实施过程,并不用于限定本发明。
应注意的是,此处规定的帧长,窗函数类型以及时频变换方式等仅举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A2:按照多步音频对象编码方法计算每个对象频域能量并进行排序,逐步下混并计算对应的增益参数与残差;
本实施例中,多步音频对象编码框架中的逐步下混是指,将当前处理流程中输入的两个矩阵进行矩阵相加,得到一个下混矩阵。中间步骤产生的下混信号并不作为传输码流进行传输,仅将最后一步下混得到的矩阵作为下混信号传输;边信息包含残差信息与增益参数矩阵;其中,对象增益参数通过对象对中两个输入信号的能量比计算得到;
残差信息与增益参数的计算公式如下所示:
其中,i表示第i个对象,j表示第j帧,k表示第k个频点,b表示第b个子带。R(i,:,:)为第i+1个对象的残差信息,Gt(i,:,:)为第i+1个对象的增益参数,为第i个下混信号的增益参数。公式中Di表示第i步得到的下混信号,Pt(i,:,:)为对象i的能量,Pd(i,:,:)为第i步下混信号的能量。公式(1)中Gd(i,j,b)和Gt(i,j,b)在进行乘法运算前会进行扩充,按照同子带内频点采用相同参数,将矩阵第三维从长度b扩展为长度k。在本实施实例中N=4,表示需要编码的对象个数。以上计算中子带的划分方式见表1。Am表示每个子带边界的频点。
表1子带划分方式
应注意的是,此处规定的对象数量N=4仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
结合本实例,多步音频对象编码下混与边信息计算过程如下(参见图2):第一步,将对象S1、S2作为对象对进行下混及参数提取(在第一步中,S1被视为下混信号D(0)进行计算),得到第一步的下混信号D(1),并计算得到对象S2的增益参数Gt(1)及其残差R(1);第二步,将下混信号D(1)、S3作为新的输入进行下混及参数提取,得到第二步的下混信号D(2),并计算第三个对象S3的增益参数Gt(2)及其残差R(2);第三步,将下混信号D(2)、S4作为新的输入对进行下混及参数提取,得到第三步的下混信号D(3)(即需要传输到解码端的最终下混信号),并计算第四个对象S4的增益参数Gt(3)及其残差R(3)。经过以上过程,四个音频对象通过三步完成下混与边信息提取。
应注意的是,此处规定的编码顺序与步数仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A3:根据人耳听觉阈值,计算第一级滤波器掩膜。利用第一级滤波器,去除每个音频对象时频矩阵中人耳难以感知的成分;
本实施例中,根据人耳听觉阈值,计算第一级滤波器掩膜,掩膜为二值化的0-1矩阵,矩阵大小与残差矩阵相同。
人耳听觉阈值的计算如下式所示:
其中,Ts(f)反映了STFT域下不同频率的人耳听觉阈值,f为频率值。在实施例中,采用的是改进的离散余弦变换(MDCT)域。因此,需要经过四步将Ts(f)转换到MDCT域(四步分别是:反对数、逆STFT、MDCT和转换为dB)。将频率值f抽样与MDCT域频点对应后,MDCT域听力的绝对阈值可以表示为向量:
Tm(k)=[Tm(1),Tm(2),...,Tm(K)]#(4)
其中,Tm是MDCT域听力的绝对阈值。K为频点数,在本是实施例中为1024,k表示第k个频点。
根据该向量,第一级滤波器的掩膜计算如下:
其中,M1的值可以确定人耳可以听到的残差信号。为进一步降低码率,可以仅考虑0-5.5kHz的残差信息。因此,k的取值范围可以为[0,255]。
应注意的是,此处规定的频点数与k的取值范围仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A4:残差信息同样依据表1进行子带划分,得到残差子带。根据残差子带内的平均频点能量,计算第二级滤波器掩膜,该掩膜用于滤除残差矩阵中的冗余数据;利用第二级滤波器,去除残差矩阵中的次要信息;
本实施例中,根据子带内的平均频点能量对剩余的残差信息进行排序。由于高频子带比低频子带包含更多的频点,只看总体能量无法有效判断该子带残差信息的重要程度,因此选用残差子带内的平均频点能量作为判断条件。
第二级滤波器的掩膜计算如下:
其中,ABE(i,j,b)是第i个对象在第j帧第b个子带内的平均频点能量,M2是第二级滤波器的掩膜用于保留第一级滤波后残差信息中较为重要的部分。Ab为子带划分的界限,根据人耳BARK带确定。T是前n个ABE元素构成的集合,n可以用来控制保留的残差子带数量。根据实验测试,在n<10的时候,随着保留能量较大的子带数量增加,解码误差急剧降低;n>10的时候,随着保留能量较大的子带数量增加,解码误差变化平缓。在权衡码率与音质的情况下n取10最佳。
步骤A5:利用奇异值分解将滤波后的残差信息分解为左、右奇异矩阵与奇异值。左、右奇异矩阵与奇异值为残差分解矩阵。由于两次滤波,该步得到的残差分解矩阵数据量得到降低;
本实施例中,通过矩阵分解对残差矩阵进行分解压缩,减少残差信息带来的数据量上升;原始残差矩阵会被分解为三个维度较小的残差分解矩阵,分别为左奇异矩阵、奇异值矩阵、右奇异矩阵;其中,奇异值矩阵仅传输矩阵对角线上的数值。
奇异值分解SVD是一种矩阵特征值分解,用于将矩阵归约成其组成部分的矩阵分解方法,以使高维矩阵分解为几个低维矩阵进行表示,以达到数据压缩的目的。分解过程如下所示:
其中,R(i)P×Q为第i+1个对象的残差信号,P等于MDCT变换长度的一半(本实施例中为1024),Q等于帧数。U为左奇异矩阵,Λ为奇异值矩阵,V为右奇异矩阵。Λ矩阵中对角线上的奇异值按从大到小排序。为了进行降维,可以选择前r个奇异值(取r=50)和对应的奇异矩阵近似表示R(i),近似表示如下:
其中,为奇异值矩阵的一部分,和为原始左右奇异矩阵的前50行(或列)。为残差分解矩阵。经过两级滤波处理后的残差矩阵会存在大量区域的值为0,并且部分帧(即R(i)P×Q的某列)整体为0。这使得残差分解矩阵也会存在大量的0元素,甚至某行列全部为0,减少了需要传输的数据量。
应注意的是,此处规定的r=50仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A6:量化残差分解矩阵及增益参数,获得边信息码流(包含量化后的增益参数及残差分解矩阵);
本实施例中,可通过查表法来实现量化。在量化操作中,残差分解矩阵与增益参数中的元素取值范围不同,因此量化前通过归一化处理来统一量化表。然后根据每个元素值的大小在量化表中查找最接近的量化值,并将对应的量化索引作为边信息量化码流输出。需要注意的是,残差分解矩阵中的全0行或列可通过标志位进行标记,不必进行量化传输。
步骤A7:将步骤A3中的最终下混信号进行编码,获得下混信号码流;
本实施例中,最终下混信号为解码端进行对象信号重建的基础,可采用mp3128k进行编码。
应注意的是,对最终下混信号采用mp3 128k编码仅为举例说明本发明的具体实施步骤,并不用作限定本发明。
步骤A8:步骤A6和步骤A7得到的码流合成为输出码流,传输到解码端。
合成输出码流指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析。最终下混信号码流指经mp3 128k编码后的输出码流,边信息码流指残差分解矩阵与增益参数量化后输出的量化索引码流。
具体的解码恢复方法参见图2,该解码方法与多步音频编码方法一致,具体实施示例包含以下步骤(除步骤B3与多步音频编码方法有所区别,其他解码步骤不属于本发明创新内容,具体细节不再展开):
步骤B1:解析接收到的码流,得到边信息码流与最终下混信号码流;
步骤B2:下混信号码流经过mp3解码得到下混信号;
步骤B3:边信息码流经过去量化后得到左、右奇异矩阵、奇异值及对象增益参数;需要注意的是,残差信息的分解阵中存在被标志位标记的全0行或列,当遇到此标志位时,直接插入全0行或列。
步骤B4:左、右奇异矩阵与奇异值进行矩阵合成恢复出残差信息;
步骤B5:根据编码顺序反向解码,利用边信息从传输下混信号中循环重构音频对象频域信号;
步骤B6:利用时频反变换,将频域的音频对象信号转换到时域。
与现有音频对象编码方法相比,本发明具有的优势及特点是:
计算二值掩膜设计了两级滤波。其中,第一级滤波器去除残差信息中人耳无法感知的冗余成分;第二级滤波器根据每个子带中残差信息的能量大小,保留主要残差成分。经过两级滤波处理后的残差矩阵会存在大量区域的值为0,并且部分帧(即R(i)P×Q的某列)整体为0。这使得残差分解矩阵中也会存在大量的0元素,甚至某行列全部为0,减少了需要传输的数据量。因此,本发明可以通过两级滤波压缩残差信息,降低多步音频编码方法码率,以满足中低码率下的传输需求。
Claims (9)
1.一种基于两级滤波的多步音频对象编码方法,其特征在于,包括以下步骤:
步骤A1,将音频对象信号进行分帧加窗,将每帧数据其从时域变换到频域,得到每个音频对象的时频矩阵;
步骤A2,按照多步音频对象编码方法计算每个对象频域能量并进行排序,逐步下混并计算对应的边信息,所述边信息包含残差信息和增益参数;
步骤A3,根据人耳听觉阈值,计算第一级滤波器掩膜;利用第一级滤波器,去除每个音频对象残差矩阵中人耳难以感知的成分;
步骤A4,将残差信息进行子带划分,得到残差子带,根据残差子带内的平均频点能量,计算第二级滤波器掩膜,该掩膜用于滤除残差矩阵中的冗余数据;利用第二级滤波器,去除残差矩阵中的次要信息;
步骤A5,利用奇异值分解将滤波后的残差信息分解为左、右奇异矩阵与奇异值,所述左、右奇异矩阵与奇异值为残差分解矩阵;
步骤A6,量化奇异矩阵、奇异值及增益参数,获得边信息码流;
步骤A7,将步骤A3中最后一步得到的下混信号进行编码,获得下混信号码流;
步骤A8,步骤A6和步骤A7得到的码流合成为输出码流,传输到解码端。
3.根据权利要求1所述的一种基于两级滤波的多步音频对象编码方法,其特征在于:步骤A3中人耳听觉阈值的计算如下式所示;
其中,Ts(f)反映了STFT域下不同频率的人耳听觉阈值,f为频率值;然后将Ts(f)转换为MDCT域,将频率值f抽样与MDCT域频点对应后,MDCT域听力的绝对阈值可以表示为向量:
Tm(k)=[Tm(1),Tm(2),…,Tm(K)]#(4)
其中,Tm是MDCT域听力的绝对阈值,K为频点数,k表示第k个频点;
根据该向量,第一级滤波器的掩膜计算如下:
其中,i表示第i个对象,j表示第j帧,M1的值可以确定人耳可以听到的残差信号,R(i,:,:)为第i+1个对象的残差信号。
6.根据权利要求1所述的一种基于两级滤波的多步音频对象编码方法,其特征在于:步骤A6中通过查表法来实现量化,在量化操作中,残差分解矩阵与增益参数中的元素取值范围不同,因此量化前通过归一化处理来统一量化表;然后根据每个元素值的大小在量化表中查找最接近的量化值,并将对应的量化索引作为边信息量化码流输出;另外,残差分解矩阵中的全0行或列可通过标志位进行标记,不必进行量化传输。
7.根据权利要求1所述的一种基于两级滤波的多步音频对象编码方法,其特征在于:步骤A7中最终下混信号为解码端进行对象信号重建的基础,采用mp3 128k进行编码;步骤A8中合成输出码流指将最终下混信号码流与边信息码流进行码流合并,并添加标志位用于标识解析;最终下混信号码流指经mp3 128k编码后的输出码流,边信息码流指残差分解矩阵与增益参数量化后输出的量化索引码流。
8.一种基于两级滤波的多步音频对象解码方法,其特征在于:用于对权利要求1-7任意一项所述方法生成的编码进行解码;
具体实现包括以下子步骤:
步骤B1,解析接收到的码流,得到边信息码流与最终下混信号码流;
步骤B2,下混信号码流经过解码得到下混信号;
步骤B3,边信息码流经过去量化后得到左、右奇异矩阵、奇异值及对象增益参数;
步骤B4,左、右奇异矩阵与奇异值进行矩阵合成恢复出对象残差;
步骤B5,根据编码顺序反向解码,利用边信息从传输下混信号中循环重构音频对象频域信号;
步骤B6,利用时频反变换,将频域的音频对象信号转换到时域。
9.根据权利要求8所述的一种基于两级滤波的多步音频对象解码方法,其特征在于:步骤B3中,残差信息的分解阵中存在被标志位标记的全0行或列,当遇到此标志位时,直接插入全0行或列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494630.9A CN113314131B (zh) | 2021-05-07 | 2021-05-07 | 一种基于两级滤波的多步音频对象编解码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110494630.9A CN113314131B (zh) | 2021-05-07 | 2021-05-07 | 一种基于两级滤波的多步音频对象编解码方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314131A CN113314131A (zh) | 2021-08-27 |
CN113314131B true CN113314131B (zh) | 2022-08-09 |
Family
ID=77371694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110494630.9A Active CN113314131B (zh) | 2021-05-07 | 2021-05-07 | 一种基于两级滤波的多步音频对象编解码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314131B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117351988B (zh) * | 2023-12-06 | 2024-02-13 | 方图智能(深圳)科技集团股份有限公司 | 一种基于数据分析的远程音频信息处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074243A (zh) * | 2010-12-28 | 2011-05-25 | 武汉大学 | 一种基于比特平面的感知音频分级编码系统及方法 |
EP2887350A1 (en) * | 2013-12-19 | 2015-06-24 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
CN110110475A (zh) * | 2019-05-20 | 2019-08-09 | 杭州电子科技大学 | 基于在线学习渐消因子的扩展卡尔曼滤波方法 |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112020012648A2 (pt) * | 2017-12-19 | 2020-12-01 | Dolby International Ab | métodos e sistemas de aparelhos para aprimoramentos de decodificação de fala e áudio unificados |
-
2021
- 2021-05-07 CN CN202110494630.9A patent/CN113314131B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074243A (zh) * | 2010-12-28 | 2011-05-25 | 武汉大学 | 一种基于比特平面的感知音频分级编码系统及方法 |
EP2887350A1 (en) * | 2013-12-19 | 2015-06-24 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
CN110110475A (zh) * | 2019-05-20 | 2019-08-09 | 杭州电子科技大学 | 基于在线学习渐消因子的扩展卡尔曼滤波方法 |
CN110739000A (zh) * | 2019-10-14 | 2020-01-31 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
Non-Patent Citations (3)
Title |
---|
A Psychoacoustic-Based Multiple Audio Object Coding Approach via Intra-Object Sparsity;Maoshen Jia et al.;《Applied Sciences》;20171214;全文 * |
利用人耳听觉特性的子带双声道回波抵消;乔杰等;《应用科学学报》;20070715(第04期);全文 * |
感知音频编码中预回声的产生机理与抑制方法;姜晔等;《电声技术》;20001117(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113314131A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8964994B2 (en) | Encoding of multichannel digital audio signals | |
CN112735447B (zh) | 压缩和解压缩高阶高保真度立体声响复制信号表示的方法及装置 | |
CN110739000B (zh) | 一种适应于个性化交互系统的音频对象编码方法 | |
EP1715476A1 (en) | Low-bitrate encoding/decoding method and system | |
CN107610710B (zh) | 一种面向多音频对象的音频编码及解码方法 | |
CN102306494A (zh) | 对音频信号编码和解码的方法和设备 | |
US9118805B2 (en) | Multi-point connection device, signal analysis and device, method, and program | |
JP2024512953A (ja) | 空間音声ストリームの結合 | |
CN113728382A (zh) | 利用旋转的插值和量化进行空间化音频编解码 | |
CN110660401B (zh) | 一种基于高低频域分辨率切换的音频对象编解码方法 | |
CN113314131B (zh) | 一种基于两级滤波的多步音频对象编解码方法 | |
Ben-Shalom et al. | Improved low bit-rate audio compression using reduced rank ICA instead of psychoacoustic modeling | |
JP3353868B2 (ja) | 音響信号変換符号化方法および復号化方法 | |
EP2489036B1 (en) | Method, apparatus and computer program for processing multi-channel audio signals | |
CN113314132A (zh) | 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置 | |
WO2023241222A1 (zh) | 音频处理方法、装置、设备、存储介质及计算机程序产品 | |
CN116762127A (zh) | 量化空间音频参数 | |
CN108417219B (zh) | 一种适应于流媒体的音频对象编解码方法 | |
US20240153512A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
CN112365896B (zh) | 一种基于栈式稀疏自编码器的面向对象编码方法 | |
CN113096672B (zh) | 一种应用于低码率下的多音频对象编解码方法 | |
Hu et al. | Multi-step coding structure of spatial audio object coding | |
CN116508098A (zh) | 量化空间音频参数 | |
EP2172929A1 (en) | Signal analysis device, signal control device, its system, method, and program | |
CN113314130B (zh) | 一种基于频谱搬移的音频对象编解码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |