CN110660401A - 一种基于高低频域分辨率切换的音频对象编解码方法 - Google Patents

一种基于高低频域分辨率切换的音频对象编解码方法 Download PDF

Info

Publication number
CN110660401A
CN110660401A CN201910822901.1A CN201910822901A CN110660401A CN 110660401 A CN110660401 A CN 110660401A CN 201910822901 A CN201910822901 A CN 201910822901A CN 110660401 A CN110660401 A CN 110660401A
Authority
CN
China
Prior art keywords
frequency domain
code stream
domain resolution
audio object
mixed signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910822901.1A
Other languages
English (en)
Other versions
CN110660401B (zh
Inventor
胡瑞敏
武庭照
王晓晨
柯善发
胡晨昊
吴玉林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910822901.1A priority Critical patent/CN110660401B/zh
Publication of CN110660401A publication Critical patent/CN110660401A/zh
Application granted granted Critical
Publication of CN110660401B publication Critical patent/CN110660401B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于高低频域分辨率切换的音频对象编解码方法。编码端:输入的多个音频对象信号首先经过预处理模块,从时域变换到频域。变换后的音频对象信号一方面混合得到单声道的混合信号;另一方面基于低频域分辨率子带进行对象信号活跃性检测,并与混合信号一起用于提取参数,其中参数提取是根据对象信号活跃性基于高或低频域分辨率进行的。最后将混合信号,活跃性表达矩阵,基于高、低频域分辨率提取的对象参数合成码流。解码端:首先分解码流得到混合信号,活跃性表达矩阵与对象参数;然后在活跃性矩阵的指导下,利用混合信号与对象参数进行音频对象信号重建。本发明方法为同时高质量编码多个音频对象提供了更好的解决方案。

Description

一种基于高低频域分辨率切换的音频对象编解码方法
技术领域
本发明涉及数字音频信号处理领域,涉及音频对象编码,具体涉及多重频域分辨率的音频对象高质量压缩编码。
背景技术
基于空间音频听觉理论基础,音频编码技术已经从传统的单声道、立体声编码技术发展到更具沉浸感的多声道音频编码技术,实现了三维音频场景的编码与重建。但是传统的三维音频是基于声道的,不能适应非标准、多样化的回放环境,也不能满足用户对单个音频对象轨迹以及对音频场景个性化重建的需求。基于音频对象的音频编码技术可以将多个相互独立的音频对象进行编码传输,从而保证音频对象重建的灵活性、准确性以及用户个性化的需求,所以基于对象的音频编码技术被视为新一代音频编码技术。
国际上许多学者和科研机构都已开展音频对象编码的研究工作,并提出多种音频对象编码方法,如下表所示。
表1.多种音频对象编码方法简介
Figure BDA0002188088140000011
其中具代表性的两种方法是由德国知名研究机构Fraunhofer提出的空间音频对象编码技术(Spatial Audio Object Coding,SAOC)以及由武汉大学提出的基于非负矩阵分解的对象编码方法(Audio Object Coding based on Non-negative MatrixFactorization,NMF-based AOC)。
(1)SAOC方法在编码端基于子带为每一帧信号提取音频对象之间的能量比(Objects Level Difference,OLD)等作为对象参数,并将所有音频对象信号进行降混合得到单声道或立体声混合信号;在解码端,利用对象参数OLD等及混合信号可重建音频对象信号。SAOC方法可以以单声道或者立体声的码率编码传输多个音频对象信号,大大提高了音频对象编码的效率。但是SAOC方法基于少量子带提取参数实现低码率,所以重建得到的对象信号间会发生混淆,造成音质和主观听音感受较差。这是因为同一个子带共用一个参数,使得子带内音频对象信号的频率成分不能得到准确地重建,所以在某些频率成分处有可能保留多个音频对象的能量,从而发生混淆。
(2)NMF-based AOC方法针对SAOC所存在的问题进行了进一步研究。该方法通过增加子带的数量有效缓解了对象信号间的混淆,提高重建音频对象信号的音质;同时,该方法在参数编码中引入非负矩阵分解方法,可以降低因为增加子带所增长的码率。但是,该方法只能对完整的音频对象信号进行编码,所以该方法不能应用于流媒体;并且非负矩阵分解方法对于待分解矩阵的所有元素的分解精度都是一样的,不能将重要频率成分对应的参数更准确地重建。
发明内容
为解决现有音频对象编码方法存在的技术问题,本发明提出一种可以在不明显增加编码码率的条件下全面提升音频对象信号的编码质量,并且可以在流媒体环境中应用的音频对象编解码方法。
本发明提供的一种基于高低频域分辨率切换的音频对象编码方法,包含以下步骤:
步骤A1:对输入的J个音频对象信号经过预处理操作,得到从时域变换到频域的音频对象信号S1(n,k),…,SJ(n,k)以及对应的包含所有对象的单声道混合信号D(n,k),其中n表示帧序号,k表示频点序号;
步骤A2:基于低频域分辨率对步骤A1得到的多个音频对象信号进行活跃性检测,得到活跃性矩阵ActFlagj,j∈[1,J],j为对象编号;
步骤A3:利用步骤A1得到的对象信号以及单声道混合信号,在活跃性矩阵ActFlagj,j∈[1,J]的指导下提取参数ODLR,其中参数ODLR表示对象信号与混合信号的能量比;
步骤A4:对步骤A2得到的活跃性矩阵进行转化,得到活跃性矩阵码流;
步骤A5:对步骤A3提取的对象参数进行量化编码,得到参数码流;
步骤A6:对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;
步骤A7:将步骤A4得到的活跃性矩阵码流、步骤A5中得到的参数码流与步骤A6中得到的混合信号的码流合成编码输出码流,传输到解码端。
进一步的,步骤A1中,所述混合信号D(n,k)的计算方式如下:
Figure BDA0002188088140000031
其中sign()为符号函数,用于获取变量的符号。
进一步的,步骤A2中,所述活跃性矩阵的计算方式如下:
Figure BDA0002188088140000032
其中“1”表示活跃,“0”表示不活跃,
Figure BDA0002188088140000033
表示子带(n,b)的中心频率f0的声压级,n、b分别表示帧序号以及子带序号,J、N、B分别为对象数量、帧总数以及子带数量;
Figure BDA0002188088140000034
表示频率f0对应的听觉阈值,
Figure BDA0002188088140000035
表示音频信号的声压,r表示音源到听音点处的距离,
Figure BDA0002188088140000036
表示波数;p0表示声压参考值,恒等于20μPa。
进一步的,步骤A3中,在活跃性矩阵ActFlagj,j∈[1,J]的指导下提取参数ODLR的方法是根据对象信号在子带内的活跃性来选择是基于低频域分辨率提取参数还是基于高频域分辨率提取参数,具体选择标准为:当有多个对象在同一个子带活跃时,基于高频域分辨率提取参数;当最多仅有一个对象在同一子带内活跃时,基于低频域分辨率提取参数;且在基于高频域分辨率提取参数时,先对高频域分辨率子带进行细分,再基于细分后的子带提取参数。
进一步的,步骤A3中,所述参数ODLR的计算方式如下,
Figure BDA0002188088140000041
其中Pj(n,b)与Pd(n,b)分别表示对象j与单声道混合信号在子带(n,b)的能量。
进一步的,步骤A4中,利用位运算直接将活跃性矩阵中的参数写为码流。
进一步的,步骤A5中,利用查表法根据对象参数的值在量化表中找到量化值,并把对应的量化索用二进制表示,得到对象参数码流。
进一步的,步骤A6中,采用单声道编码技术ACC将步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流。
本发明还提供一种基于高低频域分辨率切换的音频对象解码方法,包含以下步骤:
步骤B1:分解码流,得到每个对象信号的活跃性矩阵码流、对象参数码流以及混合信号的码流;
步骤B2:步骤B1得到的混合信号的码流经过单声道解码模块处理得到单声道混合信号;
步骤B3:步骤B1得到的对象参数码流经过去量化操作得到对象参数;
步骤B4:步骤B1得到活跃性矩阵码流经过重新排列得到活跃性矩阵;
步骤B5:根据步骤B2得到的混合信号与步骤B3得到的对象参数,在活跃性矩阵的指导下重建音频对象信号;
步骤B6:将步骤B5得到的音频对象信号经过时频逆变换操作得到时域内连续的音频对象信号。
进一步的,步骤B5中,重建音频对象信号的具体实现方法如下式所示:
Figure BDA0002188088140000042
其中Sj为重建的对象信号,
Figure BDA0002188088140000043
Figure BDA0002188088140000044
分别是经过编解码的混合信号与经过量化的对象参数,Ab-1与Ab-1分别表示子带(n,b)的起止点,(n,b)是低频域分辨率对应的子带或者高频域分辨率对应的子带。
与现有音频对象编码技术相比,本发明的性能优势在于:
1.有针对性地提高频率子带内参数的频域分辨率,可以提高对象编码质量;
2.根据对象信号的活跃性状态,切换高、低频域分辨率,可以更有效地利用编码码率。
与现有音频对象编码方法相比,本发明具有的积极效果是:
本发明将基于帧信号对音频对象进行编码和传输,可以适用于流媒体应用场景;另外,本发明根据音频对象信号的活跃性状态,有针对性的对频率子带进行细分,提高参数频域分辨率,可以有效缓解不同对象间的混淆效应,提升音质。
因此,本发明在保证高质量编码音频对象的同时保证较低的码率,并适用于流媒体应用场景,为同时高质量编码多个音频对象提供了更好的解决方案。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图进行简单地介绍。下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的编码方法流程图。
图2是本发明实施例的解码方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明在已有的音频对象编码基础上开展研究,提出了一种基于高低分辨率切换的音频对象编解码方法,根据对象信号的活跃性状态,切换高、低频域分辨率,可以有针对性地提高频率子带内参数的频域分辨率,更好地利用编码码率来提高对象编码质量。
下面参照本发明的附图,更详细地介绍本发明的具体实施例。但是此处所描述的具体实施示例仅用于解释本发明,但并不用于限定本发明。
参照图1,为本发明提出的一种基于高低分辨率切换的音频对象编码方法,包括以下步骤:
输入为多个音频对象的时域信号s1(t)~sJ(t),例如吉他、风铃等不同种类的音频对象信号,其采样频率为44.1KHz,位深度为16位。所述的高、低频域分辨率是指子带的频域分辨率,其中低频域分辨率是指每帧信号划分为28个ERB子带对应的频域分变率,高频域分辨率是指对ERB子带进行均分方法细分后对应的频域分辨率。
应该注意的是,此处规定的采样格式只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
步骤A1:对输入的J(J大于等于2)个音频对象信号经过预处理操作,得到从时域变换到频域的音频对象信号S1(n,k),…,SJ(n,k)以及对应的包含所有对象的单声道混合信号D(n,k),其中n表示帧序号,k表示频点序号;
预处理操作是将音频对象信号进行时域-频域变换,需经过分帧、加窗以及修正离散余弦变换操作。
一种典型的设置为,每一帧信号包含2048个点,加50%重叠的汉宁窗,进行修正离散余弦变换。时域-频域变换操作后输出为矩阵形式的频域音频对象信号,矩阵的行数(或列数)等于帧数,列数(或行数)等于频点数。
应该注意的是,此处规定的帧容量、窗函数类型以及变换形式只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
所述混合信号D(n,k)的计算方式如下:
Figure BDA0002188088140000061
其中sign()为符号函数,用于获取变量的符号。
步骤A2:基于低频域分辨率对步骤A1得到的多个音频对象信号进行活跃性检测,得到活跃性矩阵ActFlagj,j∈[1,J],j为对象编号;
具体来说,每个对象的活跃性检测是基于低频域分辨率独立进行的,每帧信号被分为28个频率子带,每个子带具有“0(不活跃)”或“1(活跃)”两个状态,可如下式计算:
Figure BDA0002188088140000062
其中
Figure BDA0002188088140000071
表示子带(n,b)的中心频率f0的声压级,n、b分别表示帧序号以及子带序号,J、N、B分别为对象数量、帧总数以及子带数量;
Figure BDA0002188088140000072
表示f0对应的听觉阈值。表示音频信号的声压,r表示音源到听音点处的距离,
Figure BDA0002188088140000076
表示波数;p0表示声压参考值,恒等于20μPa。
步骤A3:利用步骤A1得到的对象信号以及单声道混合信号,在活跃性矩阵ActFlagj,j∈[1,J]的指导下提取参数(Object Down-mix Level Ratio,简称ODLR),表示对象信号与混合信号的能量比;
具体来说,不同对象在同一子带的活跃性是切换高、低频域分辨率的依据。例如在(低分辨率)子带(n0,b0)中,对象1和对象2都活跃,其他对象不活跃,那么对象1和对象2需要基于高频域分辨率提取参数ODLR,而其他对象仍基于低频域分辨率提取参数ODLR。其中,实现高频域分辨率的方式是将子带(n0,b0)平均细分为2个或4个子带。
应该注意的是,此处规定活跃对象数量与编号,以及细分子带的数量只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
所述参数ODLR的计算方式如下:
Figure BDA0002188088140000075
其中Pj(n,b)与Pd(n,b)分别表示对象j与混合信号在子带(n,b)的能量;另外,子带(n,b)可以是低频域分辨率对应的子带或者高频域分辨率对应的子带。
步骤A4:对步骤A2得到的活跃性矩阵进行转化,得到活跃性矩阵码流;
具体来说,活跃性矩阵是由0或1组成的,即每一帧都包含28个0和1,最简单的方法就是将这些0和1利用位运算直接写为码流。
步骤A5:对步骤A3提取的对象参数进行量化编码,得到参数码流;
具体来说,利用查表法根据对象参数的值在量化表中找到量化值,并把对应的量化索用二进制表示,得到对象参数码流。
步骤A6:对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;
本发明沿用已有的单声道编码技术,如AAC,将步骤A1输出的混合信号进行编码,输出混合信号的码流。
步骤A7:将步骤A4得到的活跃性矩阵码流、步骤A5中得到的参数码流与步骤A6中得到的混合信号的码流合成编码输出码流,传输到解码端。
具体来说,为满足流媒体应用需求,本发明中码流基于帧进行整合。例如,编码输出的一帧码流有三部分,第一部分为所有对象在当前帧的活跃性矩阵码流;第二部分为所有对象在当前帧的参数码流;第三部分为混合信号当前帧的码流。
参照图2,为本发明提出的一种基于高低频域分辨率切换的音频对象解码方法,包含以下步骤:
步骤B1:分解码流,得到每个对象信号的活跃性矩阵码流、对象参数码流以及混合信号的码流;
具体来说,分解码流是根据合成编码输出码流的方法进行反演,帧与帧之间的码流分解也可独立进行,分别得到活跃性矩阵码流、对象参数码流以及混合信号的码流。
步骤B2:步骤B1得到的混合信号的码流经过单声道解码模块处理得到单声道混合信号
Figure BDA0002188088140000081
具体来说,与单声道编码对应,混合信号的码流经过与编码器对应的解码器(如AAC解码器解码得到混合信号。
步骤B3:步骤B1得到的对象参数码流经过去量化操作得到对象参数
Figure BDA0002188088140000082
具体来说,依次读取对象参数码流中包含的量化索引,然后根据量化索引和量化表读取量化值即为解码得到的对象参数。
步骤B4:步骤B1得到活跃性矩阵码流经过重新排列得到活跃性矩阵;
具体来说,根据生成活跃性矩阵码流的排列规则进行反演,得到每个对象在当前帧的28个子带的活跃性。
步骤B5:根据步骤B2得到的混合信号与步骤B3得到的对象参数,在活跃性矩阵的指导下重建音频对象信号;
具体来说,在活跃性矩阵的指导下重建音频对象信号是指在重建过程中需要根据对象信号活跃性来判断当前读取的子带参数是对应于高频域分辨率还是低频域分辨率。例如,在子带(n0,b0)中,对象1和对象2同时活跃,那么编码过程中在提取对象1与对象2的参数时,子带(n0,b0)需要被细分(此处假设被细分为为
Figure BDA0002188088140000091
Figure BDA0002188088140000092
两个子带)。那么在重建对象时,当根据对象活跃性判断出对象1和对象2在子带(n0,b0)同时活跃时,则需要读取对象1和对象2的两个参数(对应于高频域分辨率下
Figure BDA0002188088140000093
Figure BDA0002188088140000094
两个子带),而其他对象仅需要读取1个参数(对应于低频域分辨率下的子带(n0,b0))。
应该注意的是,此处规定活跃对象数量与编号,以及细分子带的数量只是为了举例说明本发明的具体实施流程,并不用作限定本发明。
重建对象信号的方法如下式所示:
Figure BDA0002188088140000095
其中Sj为重建的对象信号,
Figure BDA0002188088140000096
Figure BDA0002188088140000097
分别是经过编解码的混合信号与经过量化的对象参数。Ab-1与Ab-1分别表示子带(n,b)的起止点,(n,b)可以是低频域分辨率对应的子带或者高频域分辨率对应的子带。
步骤B6:将步骤B5得到的音频对象信号经过时频逆变换操作得到时域内连续的音频对象信号。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种基于高低频域分辨率切换的音频对象编码方法,其特征在于,包含以下步骤:
步骤A1:对输入的J个音频对象信号经过预处理操作,得到从时域变换到频域的音频对象信号S1(n,k),…,SJ(n,k)以及对应的包含所有对象的单声道混合信号D(n,k),其中n表示帧序号,k表示频点序号;
步骤A2:基于低频域分辨率对步骤A1得到的多个音频对象信号进行活跃性检测,得到活跃性矩阵ActFlagj,j∈[1,J],j为对象编号;
步骤A3:利用步骤A1得到的对象信号以及单声道混合信号,在活跃性矩阵ActFlagj,j∈[1,J]的指导下提取参数ODLR,其中参数ODLR表示对象信号与混合信号的能量比;
步骤A4:对步骤A2得到的活跃性矩阵进行转化,得到活跃性矩阵码流;
步骤A5:对步骤A3提取的对象参数进行量化编码,得到参数码流;
步骤A6:对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;
步骤A7:将步骤A4得到的活跃性矩阵码流、步骤A5中得到的参数码流与步骤A6中得到的混合信号的码流合成编码输出码流,传输到解码端。
2.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A1中,所述混合信号D(n,k)的计算方式如下:
其中sign()为符号函数,用于获取变量的符号。
3.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A2中,所述活跃性矩阵的计算方式如下:
s.t.j∈[1,J],n∈[1,N],b∈[1,B]
其中“1”表示活跃,“0”表示不活跃,
Figure FDA0002188088130000013
表示子带(n,b)的中心频率f0的声压级,n、b分别表示帧序号以及子带序号,J、N、B分别为对象数量、帧总数以及子带数量;
Figure FDA0002188088130000024
表示频率f0对应的听觉阈值,
Figure FDA0002188088130000021
表示音频信号的声压,r表示音源到听音点处的距离,
Figure FDA0002188088130000022
表示波数;p0表示声压参考值,恒等于20μPa。
4.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A3中,在活跃性矩阵ActFlagj,j∈[1,J]的指导下提取参数ODLR的方法是根据对象信号在子带内的活跃性来选择是基于低频域分辨率提取参数还是基于高频域分辨率提取参数,具体选择标准为:当有多个对象在同一个子带活跃时,基于高频域分辨率提取参数;当最多仅有一个对象在同一子带内活跃时,基于低频域分辨率提取参数;且在基于高频域分辨率提取参数时,先对高频域分辨率子带进行细分,再基于细分后的子带提取参数。
5.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A3中,所述参数ODLR的计算方式如下,
Figure FDA0002188088130000023
其中Pj(n,b)与Pd(n,b)分别表示对象j与单声道混合信号在子带(n,b)的能量。
6.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A4中,利用位运算直接将活跃性矩阵中的参数写为码流。
7.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A5中,利用查表法根据对象参数的值在量化表中找到量化值,并把对应的量化索用二进制表示,得到对象参数码流。
8.根据权利要求1所述的一种基于高低频域分辨率切换的音频对象编码方法,其特征在于:步骤A6中,采用单声道编码技术ACC将步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流。
9.一种基于高低频域分辨率切换的音频对象解码方法,其特征在于,包含以下步骤:
步骤B1:分解码流,得到每个对象信号的活跃性矩阵码流、对象参数码流以及混合信号的码流;
步骤B2:步骤B1得到的混合信号的码流经过单声道解码模块处理得到单声道混合信号;
步骤B3:步骤B1得到的对象参数码流经过去量化操作得到对象参数;
步骤B4:步骤B1得到活跃性矩阵码流经过重新排列得到活跃性矩阵;
步骤B5:根据步骤B2得到的混合信号与步骤B3得到的对象参数,在活跃性矩阵的指导下重建音频对象信号;
步骤B6:将步骤B5得到的音频对象信号经过时频逆变换操作得到时域内连续的音频对象信号。
10.根据权利要求9所述的一种基于高低频域分辨率切换的音频对象解码方法,其特征在于:步骤B5中,重建音频对象信号的具体实现方法如下式所示:
Figure FDA0002188088130000031
s.t.k∈[Ab-1,Ab-1]
其中Sj为重建的对象信号,
Figure FDA0002188088130000032
Figure FDA0002188088130000033
分别是经过编解码的混合信号与经过量化的对象参数,Ab-1与Ab-1分别表示子带(n,b)的起止点,(n,b)是低频域分辨率对应的子带或者高频域分辨率对应的子带。
CN201910822901.1A 2019-09-02 2019-09-02 一种基于高低频域分辨率切换的音频对象编解码方法 Active CN110660401B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910822901.1A CN110660401B (zh) 2019-09-02 2019-09-02 一种基于高低频域分辨率切换的音频对象编解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910822901.1A CN110660401B (zh) 2019-09-02 2019-09-02 一种基于高低频域分辨率切换的音频对象编解码方法

Publications (2)

Publication Number Publication Date
CN110660401A true CN110660401A (zh) 2020-01-07
CN110660401B CN110660401B (zh) 2021-09-24

Family

ID=69036651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910822901.1A Active CN110660401B (zh) 2019-09-02 2019-09-02 一种基于高低频域分辨率切换的音频对象编解码方法

Country Status (1)

Country Link
CN (1) CN110660401B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160837A (zh) * 2021-04-16 2021-07-23 北京百瑞互联技术有限公司 一种sbc码流的混音方法、装置、介质及设备
CN113314130A (zh) * 2021-05-07 2021-08-27 武汉大学 一种基于频谱搬移的音频对象编解码方法
CN113314132A (zh) * 2021-05-17 2021-08-27 武汉大学 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422348A (zh) * 2009-05-08 2012-04-18 弗兰霍菲尔运输应用研究公司 音频格式转码器
EP2904609A1 (en) * 2012-10-05 2015-08-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN105659320A (zh) * 2013-10-21 2016-06-08 杜比国际公司 音频编码器和解码器
CN106373583A (zh) * 2016-09-28 2017-02-01 北京大学 基于理想软阈值掩模irm的多音频对象编、解码方法
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法
US20190139530A1 (en) * 2013-05-31 2019-05-09 Nokia Technologies Oy Audio scene apparatus
WO2019097017A1 (en) * 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422348A (zh) * 2009-05-08 2012-04-18 弗兰霍菲尔运输应用研究公司 音频格式转码器
EP2904609A1 (en) * 2012-10-05 2015-08-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
US20190139530A1 (en) * 2013-05-31 2019-05-09 Nokia Technologies Oy Audio scene apparatus
CN105659320A (zh) * 2013-10-21 2016-06-08 杜比国际公司 音频编码器和解码器
CN106373583A (zh) * 2016-09-28 2017-02-01 北京大学 基于理想软阈值掩模irm的多音频对象编、解码方法
CN107610710A (zh) * 2017-09-29 2018-01-19 武汉大学 一种面向多音频对象的音频编码及解码方法
WO2019097017A1 (en) * 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions
CN108417219A (zh) * 2018-02-22 2018-08-17 武汉大学 一种适应于流媒体的音频对象编解码方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
GANG LI ET AL: "The Perceptual Lossless Quantization of Spatial Parameter for 3D Audio Signals", 《INTERNATIONAL CONFERENCE ON MULTIMEDIA MODELING》 *
KWANGKI KIM ET AL: "Mastering Signal Processing with Residual Coding Scheme in Spatial Audio Object Coding", 《2013 INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND APPLICATIONS》 *
SEUNGKWON BEACK ET AL: "An Efficient Time-Frequency Representation for Parametric-Based Audio Object Coding", 《ETRI JOURNAL》 *
TINGZHAO WU ET AL: "Audio object coding based on optimal parameter frequency resolution", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *
李琳: "音频感知编码模型及关键技术的研究", 《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》 *
李雪哲等: "空间位置约束下的三维音频对象参数动态量化", 《计算机科学与探索》 *
胡瑞敏等: "三维音频技术综述", 《数据采集与处理》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113160837A (zh) * 2021-04-16 2021-07-23 北京百瑞互联技术有限公司 一种sbc码流的混音方法、装置、介质及设备
CN113160837B (zh) * 2021-04-16 2022-12-23 北京百瑞互联技术有限公司 一种sbc码流的混音方法、装置、介质及设备
CN113314130A (zh) * 2021-05-07 2021-08-27 武汉大学 一种基于频谱搬移的音频对象编解码方法
CN113314130B (zh) * 2021-05-07 2022-05-13 武汉大学 一种基于频谱搬移的音频对象编解码方法
CN113314132A (zh) * 2021-05-17 2021-08-27 武汉大学 一种应用于交互式音频系统中的音频对象编码方法、解码方法及装置
CN113314132B (zh) * 2021-05-17 2022-05-17 武汉大学 交互式音频系统中的音频对象编码方法、解码方法及装置

Also Published As

Publication number Publication date
CN110660401B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
US11798568B2 (en) Methods, apparatus and systems for encoding and decoding of multi-channel ambisonics audio data
KR101346120B1 (ko) 오디오 인코딩 및 디코딩
JP4685925B2 (ja) 適応残差オーディオ符号化
JP5485909B2 (ja) オーディオ信号処理方法及び装置
CN109448741B (zh) 一种3d音频编码、解码方法及装置
CN110660401B (zh) 一种基于高低频域分辨率切换的音频对象编解码方法
CN107610710B (zh) 一种面向多音频对象的音频编码及解码方法
CN110739000B (zh) 一种适应于个性化交互系统的音频对象编码方法
EP1866912A1 (en) Multi-channel audio coding
CN109389984B (zh) 时域立体声编解码方法和相关产品
CN109389987B (zh) 音频编解码模式确定方法和相关产品
WO2009048239A2 (en) Encoding and decoding method using variable subband analysis and apparatus thereof
EP2489036B1 (en) Method, apparatus and computer program for processing multi-channel audio signals
CN108417219B (zh) 一种适应于流媒体的音频对象编解码方法
WO2006030754A1 (ja) オーディオ符号化装置、復号化装置、方法、及びプログラム
CN109389985B (zh) 时域立体声编解码方法和相关产品
JP2006003580A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法
CN113314131B (zh) 一种基于两级滤波的多步音频对象编解码方法
TW202123220A (zh) 使用方向性元資料之多通道音頻編碼及解碼
CN113314130B (zh) 一种基于频谱搬移的音频对象编解码方法
CN109389986A (zh) 时域立体声参数的编码方法和相关产品
CN116486822A (zh) 沉浸式音频系统中的自适应音频对象编解码方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant