CN115472170A - 一种三维音频信号的处理方法和装置 - Google Patents
一种三维音频信号的处理方法和装置 Download PDFInfo
- Publication number
- CN115472170A CN115472170A CN202110700570.1A CN202110700570A CN115472170A CN 115472170 A CN115472170 A CN 115472170A CN 202110700570 A CN202110700570 A CN 202110700570A CN 115472170 A CN115472170 A CN 115472170A
- Authority
- CN
- China
- Prior art keywords
- signal group
- bit allocation
- virtual
- virtual speaker
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 165
- 238000003672 processing method Methods 0.000 title description 5
- 230000005540 biological transmission Effects 0.000 claims abstract description 195
- 238000000034 method Methods 0.000 claims abstract description 140
- 238000012545 processing Methods 0.000 claims abstract description 52
- 230000015654 memory Effects 0.000 claims description 31
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 101100326803 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fac-2 gene Proteins 0.000 claims description 11
- 101000934489 Homo sapiens Nucleosome-remodeling factor subunit BPTF Proteins 0.000 claims description 10
- 102100025062 Nucleosome-remodeling factor subunit BPTF Human genes 0.000 claims description 10
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000011022 operating instruction Methods 0.000 description 6
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005538 encapsulation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000003454 tympanic membrane Anatomy 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 101100438378 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) fac-1 gene Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请实施例公开了一种三维音频信号的处理方法和装置,用于实现对信号的比特分配。本申请实施例提供一种三维音频信号的处理方法,包括:对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
Description
本申请要求于2021年6月11日提交中国专利局、申请号为202110657283.7、发明名称为“一种三维音频信号的处理方法和装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及音频处理技术领域,尤其涉及一种三维音频信号的处理方法和装置。
背景技术
三维音频技术在无线通信语音、虚拟现实/增强现实和媒体音频等方面得到了广泛应用。三维音频技术是对真实世界中的声音事件和三维声场信息进行获取、处理、传输和渲染回放的音频技术。三维音频技术使声音具有强烈的空间感、包围感及沉浸感,给人以“声临其境”的非凡听觉体验。高阶立体混响(higher order ambisonics,HOA)技术具有在录制、编码与回放阶段与扬声器布局无关的性质和HOA格式数据的可旋转回放特性,在进行三维音频回放时具有更高的灵活性,因而也得到了更为广泛的关注和研究。
采集设备(如麦克风)采集大量的数据记录三维声场信息,向回放设备(例如扬声器,耳机等)传输三维音频信号,以便于回放设备播放三维音频信号。由于三维声场信息的数据量较大,导致需要大量的存储空间存储数据,以及传输三维音频信号的带宽需求较高。为了解决上述问题,可以对三维音频信号进行压缩,存储或传输压缩数据。
目前,编码器可以采用预先配置的多个虚拟扬声器对三维音频信号进行编码,但是在编码器对三维音频信号进行编码之后,如何进行信号的比特分配,仍然是尚未解决的问题。
发明内容
本申请实施例提供了一种三维音频信号的处理方法和装置,用于实现对信号的比特分配。
为解决上述技术问题,本申请实施例提供以下技术方案:
第一方面,本申请实施例提供一种三维音频信号的处理方法,包括:对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。在上述方案中,本申请实施例中通过三维音频信号编码,得到了传输通道信号和传输通道属性信息,该传输通道信号中可以包括至少一个虚拟扬声器信号组和至少一个残差信号组,该传输通道属性信息可用于分别确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,从而解决了无法确定信号的比特分配的问题。
在一种可能的实现方式中,所述传输通道属性信息包括:虚拟扬声器编码效率;所述对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:采用虚拟扬声器对所述待编码的三维音频信号进行信号重建,以得到重建后的三维音频信号;获取所述重建后的三维音频信号的能量表征值,以及所述待编码的三维音频信号的能量表征值;根据所述重建后的三维音频信号的能量表征值,以及所述待编码的三维音频信号的能量表征值,获取所述虚拟扬声器编码效率。在上述方案中,编码端首先进行采用虚拟扬声器进行信号重建,得到了重建后的三维音频信号。编码端可以计算每个传输通道的信号的能量表征值,例如可以获取重建后的三维音频信号的能量表征值,以及待编码的三维音频信号的能量表征值,三维音频信号的能量表征值在信号重建前后是不同的,因此通过信号重建前后的能量表征值的变换情况,可以计算出虚拟扬声器编码效率。
在一种可能的实现方式中,所述传输通道属性信息包括:所述虚拟扬声器信号组的能量占比;所述方法还包括:根据所述虚拟扬声器信号组中每个虚拟扬声器信号的能量表征值获取所述虚拟扬声器信号组的能量表征值;根据所述残差信号组中每个残差信号的能量表征值获取所述残差信号组的能量表征值;根据所述虚拟扬声器信号组的能量表征值和所述残差信号组的能量表征值,获取所述虚拟扬声器信号组的能量占比。在上述方案中,编码端首先获取虚拟扬声器信号组中每个虚拟扬声器信号的能量表征值,再将同一个组内的所有虚拟扬声器信号的能量表征值进行相加,以得到该虚拟扬声器信号组的能量表征值。若虚拟扬声器信号组有多个时,每个组都可以按照上述方式计算得到该虚拟扬声器信号组的能量表征值。同样的方式,编码端可以根据残差信号组中每个残差信号的能量表征值获取残差信号组的能量表征值。最后编码端可以根据虚拟扬声器信号组的能量表征值和残差信号组的能量表征值,获取虚拟扬声器信号组的能量占比。虚拟扬声器信号组的能量占比可以说明该虚拟扬声器信号组在总的传输通道信号能量中的占比,若该虚拟扬声器信号组的能量占比较高,则说明虚拟扬声器信号组在总的传输通道信号能量中占优,若该虚拟扬声器信号组的能量占比较低,则说明虚拟扬声器信号组在总的传输通道信号能量中不占优(即较弱)。
在一种可能的实现方式中,所述传输通道属性信息包括:虚拟扬声器编码标识,所述虚拟扬声器编码标识用于指示所述虚拟扬声器信号组的比特分配是否占优;所述对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:所述对待编码的三维音频信号进行空间编码,以得到所述传输通道信号的相异性声源数量和虚拟扬声器编码效率;根据所述传输通道信号的相异性声源数量和所述虚拟扬声器编码效率获取所述虚拟扬声器编码标识。在上述方案中,编码端在获取到传输通道信号的相异性声源数量和虚拟扬声器编码效率之后,根据传输通道信号的相异性声源数量和虚拟扬声器编码效率所符合的判决条件获取虚拟扬声器编码标识的具体取值。
在一种可能的实现方式中,所述根据所述传输通道信号的相异性声源数量和所述虚拟扬声器编码效率获取所述虚拟扬声器编码标识,包括:当所述传输通道信号的相异性声源数量小于或等于预设的相异性声源数量阈值,且所述虚拟扬声器编码效率大于或等于预设的第一虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为占优;或,当所述传输通道信号的相异性声源数量大于预设的相异性声源数量阈值,或所述虚拟扬声器编码效率小于预设的第一虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为不占优。在上述方案中,编码端通过相异性声源数量、虚拟扬声器编码效率与上述判决条件的比较,可以确定虚拟扬声器编码标识,从而可以使用虚拟扬声器编码标识来确定虚拟扬声器信号组的比特分配占比,以及残差信号组的比特分配占比。
在一种可能的实现方式中,所述占优包括次占优或强占优;所述确定所述虚拟扬声器编码标识为占优,包括:当所述虚拟扬声器编码效率大于或等于所述第一虚拟扬声器编码效率阈值、且所述虚拟扬声器编码效率小于或等于预设的第二虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为次占优;或当所述虚拟扬声器编码效率大于或等于所述第一虚拟扬声器编码效率阈值、且所述虚拟扬声器编码效率大于预设的第二虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为强占优;其中,所述第二虚拟扬声器编码效率阈值大于所述第一虚拟扬声器编码效率阈值。在上述方案中,编码端还可以进一步的针对虚拟扬声器编码标识为占优的情况进行划分,即可以得到虚拟扬声器编码标识次占优和强占优这两种情况。可以理解的是,若虚拟扬声器编码标识为强占优,因此该虚拟扬声器信号组需要分配更多的比特,例如在确定虚拟扬声器信号组的初始比特占比之后,可以增加该比特占比。若虚拟扬声器编码标识为次占优,因此该虚拟扬声器信号组需要分配少于虚拟扬声器编码标识为强占优时的比特,但是虚拟扬声器信号组需要分配的比特仍需要大于虚拟扬声器编码标识为不占优时的比特,例如在确定虚拟扬声器信号组的初始比特占比之后,可以增加该比特占比。相比较的话,在强占优的情况下,所增加的比特占比要大于在次占优情况下所增加的比特占比。
在一种可能的实现方式中,所述传输通道属性信息包括:所述虚拟扬声器信号组的能量占比,和/或虚拟扬声器编码标识;所述根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:当所述虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;当所述虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;其中,所述第二能量占比阈值小于所述第一能量占比阈值;或,当所述虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或所述虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。在上述方案中,编码端可以预设多种信号组比特分配算法,在传输通道属性信息满足不同的条件下,可以使用不同的信号组比特分配算法,从而可以在传输通道属性信息满足一定的条件时为虚拟扬声器信号组和残差信号组分配与这种条件相适配的比特分配占比,因此能够提高编码端对三维音频信号的编码效率。
在一种可能的实现方式中,所述当所述虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:当满足directionalNrgRatio≥TH1,和/或,S≤TH0且η>TH2时,通过如下方式计算所述虚拟扬声器信号组的比特分配占比:Ratio1_1=FAC1*directionalNrgRatio+(1–FAC1)*maxdirectionalNrgRatio;其中,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述FAC1为预设的第一调整因子,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述TH1为所述第一能量占比阈值,所述TH0为所述相异性声源数量阈值,所述TH2为所述第二虚拟扬声器编码效率阈值;通过如下方式计算所述残差信号组的比特分配占比:Ratio2=1-Ratio1_1;其中,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述Ratio2为所述残差信号组的比特分配占比。在上述方案中,通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是增大的,因此编码端可以分配更多的比特给虚拟扬声器信号组。传输通道信号包括虚拟扬声器信号组和残差信号组,在获取到虚拟扬声器信号组的比特分配占比Ratio1_1之后,可以通过上述Ratio2的计算公式得到残差信号组的比特分配占比。
在一种可能的实现方式中,获取所述虚拟扬声器信号组的比特分配占比之后,所述方法还包括:通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC2*Ratio1_1);其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC2为预设的第二调整因子,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述min为取最小值运算。在上述方案中,通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。
在一种可能的实现方式中,所述当所述虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;其中,所述第二能量占比阈值小于所述第一能量占比阈值,包括:当满足TH3≤directionalNrgRatio<TH1,和/或,满足S≤TH0且TH4≤η≤TH2时,通过如下方式计算Ratio1_1:Ratio1_1=FAC3*directionalNrgRatio+(1–FAC3)*maxdirectionalNrgRatio;其中,所述maxdirectionalNrgRatio为预设虚拟扬声器信号组比特分配占比,所述FAC3为预设的第三调整因子,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述TH0为所述相异性声源数量阈值,所述TH1为所述第一能量占比阈值,所述TH2为所述第二虚拟扬声器编码效率阈值,所述TH3为所述第二能量占比阈值,所述TH4为所述第一虚拟扬声器编码效率阈值;通过如下方式计算所述残差信号组的比特分配占比:Ratio2=1-Ratio1_1;其中,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述Ratio2为所述残差信号组的比特分配占比。在上述方案中,通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是增大的,因此编码端可以分配更多的比特给虚拟扬声器信号组。传输通道信号包括虚拟扬声器信号组和残差信号组,在获取到虚拟扬声器信号组的比特分配占比Ratio1_1之后,可以通过上述Ratio2的计算公式得到残差信号组的比特分配占比。
在一种可能的实现方式中,获取所述虚拟扬声器信号组的比特分配占比之后,所述方法还包括:通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC4*Ratio1_1);其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC4为预设的第四调整因子,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述min为取最小值运算。在上述方案中,通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。
在一种可能的实现方式中,所述方法还包括:所述残差信号组为多个,通过如下方式计算第i个残差信号组的比特分配占比:Ratio2_i=Ratio2*(R_i/C);其中,所述R_i表示第i个残差信号组包括的传输通道个数,所述C为所有残差信号组的总传输通道个数,所述Ratio2_i为所述第i个残差信号组的比特分配占比,所述*表示相乘运算,所述Ratio2为所有残差信号组的比特分配占比。在上述方案中,当残差信号组为多个时,可以根据每个残差信号组的传输通道个数确定每个残差信号组的比特分配在所有残差信号组中的占比。例如R_i/C表示第i个残差信号组与所有残差信号组的传输通道比例,通过(R_i/C)和Ratio2可以获取第i个残差信号组的比特分配占比。
在一种可能的实现方式中,所述当所述虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或所述虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:当满足directionalNrgRatio<TH3,或,满足S>TH0,或η<TH4时,通过如下方式计算所述虚拟扬声器信号组的比特分配占比:Ratio1_1=directionalNrgRatio;其中,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述TH3为所述第二能量占比阈值,所述TH4为所述第一虚拟扬声器编码效率阈值,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述TH0为所述相异性声源数量阈值;通过如下方式计算所述残差信号组的比特分配占比:Ratio2_1=D/(F+D);其中,所述Ratio2_1为所述残差信号组的比特分配占比,所述F表示所述虚拟扬声器信号组的能量表征值,所述D为所述残差信号组的能量表征值。在上述方案中,通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是等于虚拟扬声器信号组的能量占比,因此编码端在虚拟扬声器信号组的比特分配不占优时,不会分配更多的比特给虚拟扬声器信号组,从而保证编码端的并特分配的合理性。
在一种可能的实现方式中,所述方法还包括:获取所述虚拟扬声器信号组的比特分配占比之后,通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:当Ratio1_1<groupBitsRatio1时,Ratio1_2=groupBitsRatio1;当Ratio1_1≥groupBitsRatio1时,Ratio1_2=FAC5*groupBitsRatio1+(1–FAC5)*Ratio1_1;其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC5为预设的第五调整因子,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述groupBitsRatio1为预设的虚拟扬声器信号组比特分配占比;获取所述残差信号组的比特分配占比之后,通过如下方式对所述残差信号组的比特分配占比进行更新:当Ratio2_1<groupBitsRatio2时,Ratio2_2=groupBitsRatio2;当Ratio2_1≥groupBitsRatio2时,Ratio2_2=FAC6*groupBitsRatio2+(1–FAC6)*Ratio2_1;其中,所述Ratio2_2表示更新后的残差信号组的比特分配占比,所述FAC6为预设的第六调整因子,所述Ratio2_1为更新前的残差信号组的比特分配占比,所述*表示相乘运算,所述groupBitsRatio2为预设的残差信号组比特分配占比。在上述方案中,通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。通过上述Ratio2_2的计算流程可知,可以对残差信号组的比特分配占比进行安全限制,将Ratio2_2限制在安全比特范围内,从而使得编码端可以安全可用的进行残差信号组的比特分配。
在一种可能的实现方式中,所述方法还包括:根据所述虚拟扬声器信号组的比特分配占比、所述残差信号组的比特分配占比和总的传输通道比特数,分别确定所述虚拟扬声器信号组的比特数、所述残差信号组的比特数;根据所述虚拟扬声器信号组的比特数对所述虚拟扬声器信号组进行比特分配,以及根据所述残差信号组的比特数对所述残差信号组进行比特分配。在上述方案中,编码端根据虚拟扬声器信号组的比特数对虚拟扬声器信号组进行比特分配,以及根据残差信号组的比特数对残差信号组进行比特分配,解决了编码端无法为虚拟扬声器信号和残差信号进行比特分配的问题。
在一种可能的实现方式中,所述根据所述所述虚拟扬声器信号组的比特分配占比、所述残差信号组的比特分配占比和总的传输通道比特数,分别确定所述虚拟扬声器信号组的比特数、所述残差信号组的比特数,包括:通过如下方式计算虚拟扬声器信号组的比特数:F_bitnum=Ratio1*C_bitnum;其中,所述F_bitnum为所述虚拟扬声器信号组的比特数,所述Ratio1为所述虚拟扬声器信号组的比特分配占比,所述C_bitnum为总的传输通道比特数;通过如下方式计算所述残差信号组的比特数:D_bitnum=Ratio2*C_bitnum;其中,所述D_bitnum为所述残差信号组的比特数,所述Ratio2为所述残差信号组的比特分配占比,所述C_bitnum为总的传输通道比特数。在上述方案中,编码端可以预先确定总的传输通道比特数,对于总的传输通道比特数的取值不做限定,编码端可以通过上述计算公式计算出虚拟扬声器信号组的比特数和残差信号组的比特数,实现了编码端针对虚拟扬声器信号和残差信号的比特分配问题。
在一种可能的实现方式中,所述方法还包括:对所述传输通道信号、所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比进行编码,并写入码流。在上述方案中,虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以被编码到码流中,编码端将该码流发送至解码端之后,从而解码端通过解析码流,解码端可以通过码流获取到虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,解码端通过虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以获取到虚拟扬声器信号组分配的比特数和残差信号分配的比特数,从而可以对码流进行解码,以得到三维音频信号。
第二方面,本申请实施例还提供一种三维音频信号的处理方法,包括:接收码流;解码所述码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。在上述方案中,虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以被编码到码流中,编码端将该码流发送至解码端之后,从而解码端通过解析码流,解码端可以通过码流获取到虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,解码端通过虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以获取到虚拟扬声器信号组分配的比特数和残差信号分配的比特数,从而可以对码流进行解码,以得到三维音频信号。
在一种可能的实现方式中,所述根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,包括:根据所述码流确定可用比特数;根据所述可用比特数和所述虚拟扬声器信号组的比特分配占比确定所述虚拟扬声器信号组的比特数;根据所述虚拟扬声器信号组的比特数对所述码流中的虚拟扬声器信号进行解码;根据所述可用比特数和所述残差信号组的比特分配占比确定所述残差信号组的比特数;根据所述残差信号组的比特数对所述码流中的残差信号进行解码。
第三方面,本申请实施例还提供一种三维音频信号的处理装置,包括:编码模块,用于对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;比特分配占比确定模块,用于根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
在本申请的第三方面中,三维音频信号的处理装置的组成模块还可以执行前述第一方面以及各种可能的实现方式中所描述的步骤,详见前述对第一方面以及各种可能的实现方式中的说明。
第四方面,本申请实施例还提供一种三维音频信号的处理装置,包括:接收模块,用于接收码流;解码模块,用于解码所述码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;信号生成模块,用于根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。
在本申请的第四方面中,三维音频信号的处理装置的组成模块还可以执行前述第二方面以及各种可能的实现方式中所描述的步骤,详见前述对第二方面以及各种可能的实现方式中的说明。
第五方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
第六方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
第七方面,本申请实施例提供了一种计算机可读存储介质,包括如前述第一方面所述的方法所生成的码流。
第八方面,本申请实施例提供一种通信装置,该通信装置可以包括终端设备或者芯片等实体,所述通信装置包括:处理器、存储器;所述存储器用于存储指令;所述处理器用于执行所述存储器中的所述指令,使得所述通信装置执行如前述第一方面或第二方面中任一项所述的方法。
第九方面,本申请提供了一种芯片系统,该芯片系统包括处理器,用于支持音频编码器或者音频解码器实现上述方面中所涉及的功能,例如,发送或处理上述方法中所涉及的数据和/或信息。在一种可能的设计中,所述芯片系统还包括存储器,所述存储器,用于保存音频编码器或者音频解码器必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包括芯片和其他分立器件。
从以上技术方案可以看出,本申请实施例具有以下优点:
在本申请实施例中,首先对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;然后根据传输通道属性信息确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。本申请实施例中通过三维音频信号编码,得到了传输通道信号和传输通道属性信息,该传输通道信号中可以包括至少一个虚拟扬声器信号组和至少一个残差信号组,该传输通道属性信息可用于分别确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,从而解决了无法确定信号的比特分配的问题。
附图说明
图1为本申请实施例提供的音频处理系统的组成结构示意图;
图2a为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图;
图2b为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图;
图2c为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图;
图3a为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图;
图3b为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图;
图3c为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图;
图4为本申请实施例提供的一种三维音频信号的处理方法的示意图;
图5为本申请实施例提供的一种三维音频信号的处理方法的示意图;
图6为本申请实施例提供的一种三维音频信号的应用场景示意图;
图7为本申请实施例提供的一种音频编码装置的组成结构示意图;
图8为本申请实施例提供的一种音频解码装置的组成结构示意图;
图9为本申请实施例提供的另一种音频编码装置的组成结构示意图;
图10为本申请实施例提供的另一种音频解码装置的组成结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
声音(sound)是由物体振动产生的一种连续的波。产生振动而发出声波的物体称为声源。声波通过介质(如:空气、固体或液体)传播的过程中,人或动物的听觉器官能感知到声音。
声波的特征包括音调、音强和音色。音调表示声音的高低。音强表示声音的大小。音强也可以称为响度或音量。音强的单位是分贝(decibel,dB)。音色又称为音品。
声波的频率决定了音调的高低。频率越高音调越高。物体在一秒钟之内振动的次数称为频率,频率单位是赫兹(hertz,Hz)。人耳能识别的声音的频率在20Hz至20000Hz之间。
声波的幅度决定了音强的强弱。幅度越大音强越大。距离声源越近,音强越大。
声波的波形决定了音色。声波的波形包括方波、锯齿波、正弦波和脉冲波等。
根据声波的特征,声音可以分为规则声音和无规则声音。无规则声音是指声源无规则地振动发出的声音。无规则声音例如是影响人们工作、学习和休息等的噪声。规则声音是指声源规则地振动发出的声音。规则声音包括语音和乐音。声音用电表示时,规则声音是一种在时频域上连续变化的模拟信号。该模拟信号可以称为音频信号(acousticsignals)。音频信号是一种携带语音、音乐和音效的信息载体。
由于人的听觉具有辨别空间中声源的位置分布的能力,则听音者听到空间中的声音时,除了能感受到声音的音调、音强和音色外,还能感受到声音的方位。
随着人们对听觉系统体验的关注和品质要求与日俱增,为了增强声音的纵深感、临场感和空间感,则三维音频技术应运而生。从而听音者不仅感受到来自前、后、左和右的声源发出的声音,而且感受到自己所处空间被这些声源产生的空间声场(简称“声场”(sound field))所包围的感觉,以及声音向四周扩散的感觉,营造出一种使听音者置身于影院或音乐厅等场所的“身临其境”的音响效果。
三维音频技术是指将人耳以外的空间假设为一个系统,耳膜处接收到的信号为声源发出的声音经过耳朵以外系统滤波输出的三维音频信号。例如,人耳以外的系统可以定义为系统冲击响应h(n),任意一个声源可以定义为x(n),耳膜处接收到的信号为x(n)和h(n)的卷积结果。本申请实施例所述的三维音频信号可以是指高阶立体混响(higher orderambisonics,HOA)信号或者一阶立体混响(first order ambisonics,FOA)信号。三维音频也可以称为三维音效、空间音频、三维声场重建、虚拟3D音频或双耳音频等。
假设人耳以外的空间系统是一个球形,听音者处于球的中心,从球外传来的声音在球面上有一个投影,过滤掉球面以外的声音,假设声源分布在这个球面上,用球面上的声源产生的声场来拟合原始声源产生的声场,即三维音频技术就是一个拟合声场的方法。具体地,在球坐标系下求解公式(1)等式方程,在无源球形区域内,该公式(1)方程解为如下公式(2)。
其中,r表示球半径,θ表示水平角,表示仰角,k表示波数,s表示理想平面波的幅度,m表示三维音频信号的阶数序号(或称为HOA信号的阶数序号)。表示球贝塞尔函数,球贝塞尔函数又称为径向基函数,其中,第一个j表示虚数单位,不随角度变化。表示θ,方向的球谐函数,表示声源方向的球谐函数。三维音频信号系数满足公式(3)。
将公式(3)代入公式(2),公式(2)可以变形为公式(4)。
其中,表示N阶的三维音频信号系数,用于近似描述声场。声场是指介质中有声波存在的区域。N为大于或等于1的整数。比如,N的取值范围为2至6的整数。本申请的实施例所述的三维音频信号的系数可以是指HOA系数或环境立体声(ambisonic)系数。
三维音频信号是一种携带声场中声源的空间位置信息的信息载体,描述了空间中听音者的声场。公式(4)表明声场可以在球面上按球谐函数展开,即声场可以分解为多个平面波的叠加。因此,可以将三维音频信号描述的声场使用多个平面波的叠加来表达,并通过三维音频信号系数重建声场。
相对5.1声道的音频信号或7.1声道的音频信号,由于N阶的HOA信号有(N+1)2个声道,则HOA信号包括用于描述声场的空间信息的数据量较多。若采集设备(比如:麦克风)将该三维音频信号传输到回放设备(比如:扬声器),需要消耗较大的带宽。目前,编码器可以利用空间压缩环绕音频编码(spatial squeezed surround audio coding,S3AC)方法或方向音频编码(directional audio coding,DirAC)方法或者基于虚拟扬声器选择的编码方法对三维音频信号进行压缩编码得到码流,向回放设备传输码流,其中,基于虚拟扬声器选择的编码方法也可以称为匹配投影(matchPRojection,MP)编码方法,后续以虚拟扬声器选择的编码方法进行示例说明。回放设备对码流进行解码,并重建三维音频信号,播放重建后三维音频信号。从而降低向回放设备传输三维音频信号的数据量,以及带宽的占用。
针对上述的三维音频信号,目前无法对三维音频信号的声场进行分类,如何对三维音频信号进行声场分类,是本申请实施例所要解决的一个技术问题。本申请实施例中通过三维音频信号的线性分解可以实现对三维音频信号的声场分类,从而可以准确实现对三维音频信号的声场分类,达到能够获取当前帧的声场分类结果的目的。
另外,目前的编码器对三维音频信号进行压缩编码时,存在无法获得较高的压缩比的问题。因此,如何提高对不同声场的三维音频信号进行压缩编码的压缩比也是本申请实施例解决的另一个问题。
本申请实施例提供一种音频编码技术,尤其是提供一种面向三维音频信号的三维音频编码技术,具体提供一种采用较少的声道表示三维音频信号的编码技术,以改进传统的音频编码系统。音频编码(或通常称为编码)包括音频编码和音频解码两部分。音频编码在源侧执行,包括处理(例如,压缩)原始音频以减少表示该音频所需的数据量,从而更高效地存储和/或传输。音频解码在目的侧执行,包括相对于编码器作逆处理,以重建原始音频。编码部分和解码部分也合称为编码。下面将结合附图对本申请实施例的实施方式进行详细描述。
本申请实施例的技术方案可以应用于各种的音频处理系统,如图1所示,为本申请实施例提供的音频处理系统的组成结构示意图。音频处理系统100可以包括:音频编码装置101和音频解码装置102。其中,音频编码装置101可用于生成码流,然后该音频编码码流可以通过音频传输通道传输给音频解码装置102,音频解码装置102可以接收到码流,然后执行音频解码装置102的音频解码功能,最后得到重建后的信号。
在本申请的实施例中,该音频编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备,例如音频编码装置可以是上述终端设备或者无线设备或者核心网设备的音频编码器。同样的,该音频解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备,例如音频解码装置可以是上述终端设备或者无线设备或者核心网设备的音频解码器。例如,音频编码器可以包括无线接入网、核心网的媒体网关、转码设备、媒体资源服务器、移动终端、固网终端等,音频编码器还可以是应用于虚拟现实技术(virtual reality,VR)流媒体(streaming)服务中的音频编码器。
在申请实施例中,以适用于虚拟现实流媒体(VR streaming)服务中的音频编码模块(audio encoding及audio decoding)为例,端到端对音频信号的处理流程包括:音频信号A经过采集模块(acquisition)后进行预处理操作(audioPReprocessing),预处理操作包括滤除掉信号中的低频部分,可以是以20Hz或者50Hz为分界点,提取信号中的方位信息,之后进行编码处理(audio encoding)打包(file/segment encapsulation)之后发送(delivery)到解码端,解码端首先进行解包(file/segment decapsulation),之后解码(audio decoding),对解码信号进行双耳渲染(audio rendering)处理,渲染处理后的信号映射到收听者耳机(headphones)上,可以为独立的耳机也可以是眼镜设备上的耳机。
如图2a所示,为本申请实施例提供的音频编码器和音频解码器应用于终端设备的示意图。对于每个终端设备都可以包括:音频编码器、信道编码器、音频解码器、信道解码器。具体的,信道编码器用于对音频信号进行信道编码,信道解码器用于对音频信号进行信道解码。例如,在第一终端设备20中可以包括:第一音频编码器201、第一信道编码器202、第一音频解码器203、第一信道解码器204。在第二终端设备21中可以包括:第二音频解码器211、第二信道解码器212、第二音频编码器213、第二信道编码器214。第一终端设备20连接无线或者有线的第一网络通信设备22,第一网络通信设备22和无线或者有线的第二网络通信设备23之间通过数字信道连接,第二终端设备21连接无线或者有线的第二网络通信设备23。其中,上述无线或者有线的网络通信设备可以泛指信号传输设备,例如通信基站,数据交换设备等。
在音频通信中,作为发送端的终端设备首先进行音频采集,对采集到的音频信号进行音频编码,再进行信道编码后,通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号进行信道解码,以得到码流,然后经过音频解码恢复出音频信号,由接收端的终端设备进音频回放。
如图2b所示,为本申请实施例提供的音频编码器应用于无线设备或者核心网设备的示意图。其中,无线设备或者核心网设备25包括:信道解码器251、其他音频解码器252、本申请实施例提供的音频编码器253、信道编码器254,其中,其他音频解码器252是指除音频解码器以外的其他音频解码器。在无线设备或者核心网设备25内,首先通过信道解码器251对进入该设备的信号进行信道解码,然后使用其他音频解码器252进行音频解码,然后使用本申请实施例提供的音频编码器253进行音频编码,最后使用信道编码器254对音频信号进行信道编码,完成信道编码之后再传输出去。其中,其他音频解码器252是对信道解码器251解码后的码流进行音频解码。
如图2c所示,为本申请实施例提供的音频解码器应用于无线设备或者核心网设备的示意图。其中,无线设备或者核心网设备25包括:信道解码器251、本申请实施例提供的音频解码器255、其他音频编码器256、信道编码器254,其中,其他音频编码器256是指除音频编码器以外的其他音频编码器。在无线设备或者核心网设备25内,首先通过信道解码器251对进入该设备的信号进行信道解码,然后使用音频解码器255对接收到的音频编码码流进行解码,然后使用其他音频编码器256进行音频编码,最后使用信道编码器254对音频信号进行信道编码,完成信道编码之后再传输出去。在无线设备或者核心网设备中,如果需要实现转码,则需要进行相应的音频编码处理。其中,无线设备指的是通信中的射频相关的设备,核心网设备指的是通信中核心网相关的设备。
在本申请的一些实施例中,该音频编码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备,例如音频编码装置可以是上述终端设备或者无线设备或者核心网设备的多声道编码器。同样的,该音频解码装置可以应用于各种有音频通信需要的终端设备、有转码需要的无线设备与核心网设备,例如音频解码装置可以是上述终端设备或者无线设备或者核心网设备的多声道解码器。
如图3a所示,为本申请实施例提供的多声道编码器和多声道解码器应用于终端设备的示意图,对于每个终端设备都可以包括:多声道编码器、信道编码器、多声道解码器、信道解码器。该多声道编码器可以执行本申请实施例提供的音频编码方法,该多声道解码器可以执行本申请实施例提供的音频解码方法。具体的,信道编码器用于对多声道信号进行信道编码,信道解码器用于对多声道信号进行信道解码。例如,在第一终端设备30中可以包括:第一多声道编码器301、第一信道编码器302、第一多声道解码器303、第一信道解码器304。在第二终端设备31中可以包括:第二多声道解码器311、第二信道解码器312、第二多声道编码器313、第二信道编码器314。第一终端设备30连接无线或者有线的第一网络通信设备32,第一网络通信设备32和无线或者有线的第二网络通信设备33之间通过数字信道连接,第二终端设备31连接无线或者有线的第二网络通信设备33。其中,上述无线或者有线的网络通信设备可以泛指信号传输设备,例如通信基站,数据交换设备等。音频通信中作为发送端的终端设备对采集到的多声道信号进行多声道编码,再进行信道编码后,通过无线网络或者核心网进行在数字信道中传输。而作为接收端的终端设备根据接收到的信号,进行信道解码,以得到多声道信号编码码流,然后经过多声道解码恢复出多声道信号,由作为接收端的终端设备进回放。
如图3b所示,为本申请实施例提供的多声道编码器应用于无线设备或者核心网设备的示意图,其中,无线设备或者核心网设备35包括:信道解码器351、其他音频解码器352、多声道编码器353、信道编码器354,与前述图2b类似,此处不再赘述。
如图3c所示,为本申请实施例提供的多声道解码器应用于无线设备或者核心网设备的示意图,其中,无线设备或者核心网设备35包括:信道解码器351、多声道解码器355、其他音频编码器356、信道编码器354,与前述图2c类似,此处不再赘述。
其中,音频编码处理可以是多声道编码器中的一部分,音频解码处理可以是多声道解码器中的一部分,例如,对采集到的多声道信号进行多声道编码可以是将采集到的多声道信号经过处理后得到音频信号,再按照本申请实施例提供的方法对得到的音频信号进行编码;解码端根据多声道信号编码码流,解码得到音频信号,经过上混处理后恢复出多声道信号。因此,本申请实施例也可应用于终端设备、无线设备、核心网设备中的多声道编码器和多声道解码器。在无线或者核心网设备中,如果需要实现转码,则需要进行相应的多声道编码处理。
首先介绍本申请实施例提供的一种三维音频信号的处理方法,该方法可以由终端设备执行,例如该终端设备可以是一种音频编码装置(如下简称编码端或者编码器)。不限定的是,该终端设备还可以是一种三维音频信号的处理装置。如图4所示,三维音频信号的处理方法主要包括如下:
401、对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组。
其中,编码端可以获取三维音频信号,例如该三维音频信号可以是场景音频信号。具体的,该三维音频信号可以是时域信号,或者频域信号。另外,该三维音频信号还可以是经过下采样的信号。
其中,本发明实施例中,虚拟扬声器信号和虚拟扬声器是一一对应的。在从候选虚拟扬声器集合中确定了对三维音频信号进行编码的虚拟扬声器后,可以获得这些虚拟扬声器对应的虚拟扬声器信号,然后对这些虚拟扬声器信号进行分组以获得所述的至少一个虚拟扬声器信号组;或者,在从候选虚拟扬声器集合中确定了对三维音频信号进行编码的虚拟扬声器后,可以将这些虚拟扬声器进行分组以获得至少一个虚拟扬声器组,然后分别获得所述至少一个虚拟扬声器组中各个虚拟扬声器对应的虚拟扬声器信号,以获得所述至少一个虚拟扬声器信号组。
在本申请的一些实施例中,三维音频信号包括:高阶立体混响HOA信号,或者一阶立体混响FOA信号。不限定的是,三维音频信号还可以是其它类型的信号,此处只是本申请的一种举例,不作为对本申请实施例的限定。
例如,三维音频信号可以是时域HOA信号,也可以是频域HOA信号。又如,三维音频信号可以包含HOA信号的所有通道,也可以包含部分HOA通道(例如FOA通道)。另外,三维音频信号可以是HOA信号的全部样点,也可以是待分析HOA信号下采样后的1/Q个下采样点。其中,Q是下采样间隔,1/Q是下采样率。
本申请实施例中,三维音频信号中包括多个帧,接下来以对三维音频信号中的一个帧的处理为例,例如该帧为当前帧,则在三维音频信号中在当前帧之前还存在前一帧,在当前帧之后还存在后一帧。另外,本申请实施例中三维音频信号的除当前帧之外的其它帧的处理方法,与当前帧的处理方法相类似,后续以当前帧的处理为例。
本申请实施例中,在获取到三维音频信号之后,先对三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息。对于空间编码的具体过程,此处不再展开说明。对于空间编码后输出虚拟扬声器信号和残差信号的过程不再说明。
本申请实施例中,编码端在获取到待编码的三维音频信号之后,可以对该三维音频信号进行空间编码,可以输出传输通道信号和传输通道属性信息,该传输通道信号包括虚拟扬声器信号和残差信号,例如对虚拟扬声器信号进行分组,得到至少一个虚拟扬声器信号组。又如,对残差信号进行分组,得到至少一个残差信号组。本申请实施例中对于传输通道信号中虚拟扬声器信号组的个数和残差信号组的个数不做限定。
本申请实施例中,通过空间编码还可以输出传输通道信号对应的传输通道属性信息,该传输通道属性信息用于指示传输通道信号的属性,传输通道属性信息的实现方式有多种,详见后续实施例的举例说明。
在本申请的一些实施例中,传输通道属性信息包括:虚拟扬声器编码效率;虚拟扬声器编码效率表示对三维音频信号采用虚拟扬声器重建三维音频信号的效率。编码器(也可以为编码端)通过空间编码输出的传输通道属性信息包括虚拟扬声器编码效率,接下来说明该虚拟扬声器编码效率的计算方法。
步骤401对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:
采用虚拟扬声器对待编码的三维音频信号进行信号重建,以得到重建后的三维音频信号;其中,对待编码的三维音频信号进行信号重建的虚拟扬声器可以是前述的从所述候选虚拟扬声器集合中确定的用于对三维音频信号进行编码的虚拟扬声器。
获取重建后的三维音频信号的能量表征值,以及待编码的三维音频信号的能量表征值;
根据重建后的三维音频信号的能量表征值,以及待编码的三维音频信号的能量表征值,获取虚拟扬声器编码效率。
其中,编码端首先进行采用虚拟扬声器进行信号重建,得到了重建后的三维音频信号。编码端可以计算每个传输通道的信号的能量表征值,例如可以获取重建后的三维音频信号的能量表征值,以及待编码的三维音频信号的能量表征值,三维音频信号的能量表征值在信号重建前后是不同的,因此通过信号重建前后的能量表征值的变换情况,可以计算出虚拟扬声器编码效率。
接下来举例说明计算虚拟扬声器编码效率的方法,以三维音频信号为HOA信号为例,编码端计算重建HOA信号每个传输通道的能量表征值可以表示为R1,R2,…,Rt,编码端计算原始HOA信号每个传输通道的能量表征值可以表示为N1,N2,…,Nt。最后虚拟扬声器编码效率η:η=sum(R)/sum(N),其中,sum(R)表示求R1~Rt求和,sum(N)表示N1~Nt求和。通过上述计算公式,可以计算出虚拟扬声器编码效率。
在本申请的一些实施例中,传输通道属性信息包括:虚拟扬声器信号组的能量占比;虚拟扬声器信号组的能量占比是指虚拟扬声器信号组中所有虚拟扬声器信号的能量在所有传输通道信号的总能量中的占比。接下来说明该虚拟扬声器信号组的能量占比的计算方法。
编码端执行的方法还包括:
根据虚拟扬声器信号组中每个虚拟扬声器信号的能量表征值获取虚拟扬声器信号组的能量表征值;
根据残差信号组中每个残差信号的能量表征值获取残差信号组的能量表征值;
根据虚拟扬声器信号组的能量表征值和残差信号组的能量表征值,获取虚拟扬声器信号组的能量占比。
其中,编码端首先获取虚拟扬声器信号组中每个虚拟扬声器信号的能量表征值,再将同一个组内的所有虚拟扬声器信号的能量表征值进行相加,以得到该虚拟扬声器信号组的能量表征值。若虚拟扬声器信号组有多个时,每个组都可以按照上述方式计算得到该虚拟扬声器信号组的能量表征值。
同样的方式,编码端可以根据残差信号组中每个残差信号的能量表征值获取残差信号组的能量表征值。最后编码端可以根据虚拟扬声器信号组的能量表征值和残差信号组的能量表征值,获取虚拟扬声器信号组的能量占比。虚拟扬声器信号组的能量占比可以说明该虚拟扬声器信号组在总的传输通道信号能量中的占比,若该虚拟扬声器信号组的能量占比较高,则说明虚拟扬声器信号组在总的传输通道信号能量中占优,若该虚拟扬声器信号组的能量占比较低,则说明虚拟扬声器信号组在总的传输通道信号能量中不占优(即较弱)。
在本申请的一些实施例中,传输通道属性信息包括:虚拟扬声器编码标识,虚拟扬声器编码标识用于指示虚拟扬声器信号组的比特分配是否占优。具体的,虚拟扬声器编码标识用于指示至少一个虚拟扬声器信号组的比特分配是否占优,例如虚拟扬声器编码标识可以表示为flag,虚拟扬声器编码标识的可以指示虚拟扬声器信号组的比特分配为占优,或者不占优,虚拟扬声器编码标识的的不同取值可以指示虚拟扬声器信号组的比特分配为占优,或者不占优。进一步的,该占优的情况还可以分为强占优和次占优(即略占优)。
对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:
对待编码的三维音频信号进行空间编码,以得到传输通道信号的相异性声源数量和虚拟扬声器编码效率;
根据传输通道信号的相异性声源数量和虚拟扬声器编码效率获取虚拟扬声器编码标识。
其中,编码端通过空间编码,可以对传输通道信号进行声场分类,并生成声场分类结果,该声场分类结果可以包括相异性声源数量,对于相异性声源数量的具体计算过程,此处不做限定。对于虚拟扬声器编码效率的确定方式详见前述实施例,此处不做赘述。编码端在获取到传输通道信号的相异性声源数量和虚拟扬声器编码效率之后,根据传输通道信号的相异性声源数量和虚拟扬声器编码效率所符合的判决条件获取虚拟扬声器编码标识的具体取值,本申请实施例中虚拟扬声器编码标识的获取方式有多种实现方式,详见后续实施例的举例说明。
在本申请的一些实施例中,进一步的,根据传输通道信号的相异性声源数量和虚拟扬声器编码效率获取虚拟扬声器编码标识,包括:
当传输通道信号的相异性声源数量小于或等于预设的相异性声源数量阈值,且虚拟扬声器编码效率大于或等于预设的第一虚拟扬声器编码效率阈值时,确定虚拟扬声器编码标识为占优;或,
当传输通道信号的相异性声源数量大于预设的相异性声源数量阈值,或虚拟扬声器编码效率小于预设的第一虚拟扬声器编码效率阈值时,确定虚拟扬声器编码标识为不占优。
其中,本申请实施例中对于相异性声源数量阈值、第一虚拟扬声器编码效率阈值的具体实现方式可以结合应用场景,此处不做限定。例如,相异性声源数量阈值可以表示为TH0,第一虚拟扬声器编码效率阈值可以表示为TH4。
具体的,虚拟扬声器编码标识为占优,表示虚拟扬声器信号组在总的传输通道信号中占优,因此该虚拟扬声器信号组需要分配更多的比特,例如在确定虚拟扬声器信号组的初始比特占比之后,可以增加该比特占比。又如,虚拟扬声器编码标识为不占优,表示虚拟扬声器信号组在总的传输通道信号中不占优,此时可以为该虚拟扬声器信号组分配较少的比特。例如在确定虚拟扬声器信号组的初始比特占比之后,可以减少该比特占比。本申请实施例中,编码端通过相异性声源数量、虚拟扬声器编码效率与上述判决条件的比较,可以确定虚拟扬声器编码标识,从而可以使用虚拟扬声器编码标识来确定虚拟扬声器信号组的比特分配占比,以及残差信号组的比特分配占比。
进一步的,在本申请的一些实施例中,所述占优包括次占优或强占优;确定虚拟扬声器编码标识为占优,包括:
当虚拟扬声器编码效率大于或等于第一虚拟扬声器编码效率阈值、且虚拟扬声器编码效率小于或等于预设的第二虚拟扬声器编码效率阈值时,确定虚拟扬声器编码标识为次占优;或,
当所述虚拟扬声器编码效率大于或等于所述第一虚拟扬声器编码效率阈值、且虚拟扬声器编码效率大于预设的第二虚拟扬声器编码效率阈值时,确定虚拟扬声器编码标识为强占优;
其中,第二虚拟扬声器编码效率阈值大于第一虚拟扬声器编码效率阈值。
具体的,当传输通道信号的相异性声源数量小于或等于预设的相异性声源数量阈值,且虚拟扬声器编码效率大于或等于预设的第一虚拟扬声器编码效率阈值时,确定虚拟扬声器编码标识为占优,编码端还可以进一步的针对虚拟扬声器编码标识为占优的情况进行划分,即可以得到虚拟扬声器编码标识次占优和强占优这两种情况。可以理解的是,若虚拟扬声器编码标识为强占优,因此该虚拟扬声器信号组需要分配更多的比特,例如在确定虚拟扬声器信号组的初始比特占比之后,可以增加该比特占比。若虚拟扬声器编码标识为次占优,因此该虚拟扬声器信号组需要分配少于虚拟扬声器编码标识为强占优时的比特,但是虚拟扬声器信号组需要分配的比特仍需要大于虚拟扬声器编码标识为不占优时的比特,例如在确定虚拟扬声器信号组的初始比特占比之后,可以增加该比特占比。相比较的话,在强占优的情况下,所增加的比特占比要大于在次占优情况下所增加的比特占比。
例如,第二虚拟扬声器编码效率阈值可以表示为TH2。
402、根据传输通道属性信息确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。
其中,编码端在获取到传输通道信号和传输通道属性信息之后,由于传输通道属性信息中携带有传输通道信号的属性参数,因此使用该传输通道属性信息可以为虚拟扬声器信号组进行比特分配,另外,使用该传输通道属性信息可以为残差信号组进行比特分配。例如,编码端根据传输通道属性信息确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。比特分配占比是指为一个信号组分配的比特数所占传输通道信号的总的比特数的比例值,比特分配占比也可以称为“比特分配比例”。本申请实施例中传输通道信号包括至少一个虚拟扬声器信号组和至少一个残差信号组,因此可以获取到虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。后续实施例中以一个虚拟扬声器信号组和两个残差信号组的比特分配占比的确定过程为例进行说明。
举例说明如下,本申请实施例中空间编码可以输出传输通道信号和传输通道属性信息,由核心编码器获取到该传输通道信号和传输通道属性信息,核心编码器再通过传输通道信号和传输通道属性信息,可以获取到虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。
在本申请的一些实施例中,传输通道属性信息包括:虚拟扬声器信号组的能量占比,和/或虚拟扬声器编码标识;
根据传输通道属性信息确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,包括:
当虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;
当虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;其中,第二能量占比阈值小于第一能量占比阈值;
当虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。
其中,本申请实施例中编码端可以预设多种信号组比特分配算法,在传输通道属性信息满足不同的条件下,可以使用不同的信号组比特分配算法,从而可以在传输通道属性信息满足一定的条件时为虚拟扬声器信号组和残差信号组分配与这种条件相适配的比特分配占比,因此能够提高编码端对三维音频信号的编码效率。
例如,第一能量占比阈值可以表示为TH1,第二能量占比阈值可以表示为TH3。
在本申请的一些实施例中,当虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,包括:
当满足directionalNrgRatio≥TH1,和/或,S≤TH0且η>TH2时,通过如下方式计算虚拟扬声器信号组的比特分配占比:
Ratio1_1=FAC1*directionalNrgRatio+(1–FAC1)*maxdirectionalNrgRatio;
其中,directionalNrgRatio表示虚拟扬声器信号组的能量占比,S为相异性声源数量,η表示虚拟扬声器编码效率,maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,FAC1为预设的第一调整因子,Ratio1_1为虚拟扬声器信号组的比特分配占比,*表示相乘运算,TH1为第一能量占比阈值,TH0为相异性声源数量阈值,TH2为第二虚拟扬声器编码效率阈值;
通过如下方式计算残差信号组的比特分配占比:
Ratio2=1-Ratio1_1;
其中,Ratio1_1为虚拟扬声器信号组的比特分配占比,Ratio2为残差信号组的比特分配占比。
通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是增大的,因此编码端可以分配更多的比特给虚拟扬声器信号组。
传输通道信号包括虚拟扬声器信号组和残差信号组,在获取到虚拟扬声器信号组的比特分配占比Ratio1_1之后,可以通过上述Ratio2的计算公式得到残差信号组的比特分配占比。
需要说明的是,本申请实施例中,FAC1可以根据具体的应用场景灵活确定,此处不做限定。
在本申请的一些实施例中,获取虚拟扬声器信号组的比特分配占比之后,编码端执行的方法还包括:
通过如下方式对虚拟扬声器信号组的比特分配占比进行更新:
Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC2*Ratio1_1)
其中,Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,FAC2为预设的第二调整因子,maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,*表示相乘运算,min为取最小值运算。
需要说明的是,本申请实施例中,FAC2可以根据具体的应用场景灵活确定,此处不做限定。
通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。
在本申请的一些实施例中,当虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;其中,第二能量占比阈值小于第一能量占比阈值,包括:
当满足TH3≤directionalNrgRatio<TH1,和/或,满足S≤TH0且TH4≤η≤TH2时,通过如下方式计算Ratio1_1:
Ratio1_1=FAC3*directionalNrgRatio+(1–FAC3)*maxdirectionalNrgRatio;
其中,maxdirectionalNrgRatio为预设虚拟扬声器信号组比特分配占比,FAC3为预设的第三调整因子,directionalNrgRatio表示虚拟扬声器信号组的能量占比,S为相异性声源数量,η表示虚拟扬声器编码效率,Ratio1_1为虚拟扬声器信号组的比特分配占比,*表示相乘运算,TH0为相异性声源数量阈值,TH1为第一能量占比阈值,TH2为第二虚拟扬声器编码效率阈值,TH3为第二能量占比阈值,TH4为第一虚拟扬声器编码效率阈值;
通过如下方式计算残差信号组的比特分配占比:
Ratio2=1-Ratio1_1;
其中,Ratio1_1为虚拟扬声器信号组的比特分配占比,Ratio2为残差信号组的比特分配占比。
需要说明的是,本申请实施例中,FAC3可以根据具体的应用场景灵活确定,此处不做限定。例如,0≤FAC3≤0.5,FAC3>FAC1。
通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是增大的,因此编码端可以分配更多的比特给虚拟扬声器信号组。
传输通道信号包括虚拟扬声器信号组和残差信号组,在获取到虚拟扬声器信号组的比特分配占比Ratio1_1之后,可以通过上述Ratio2的计算公式得到残差信号组的比特分配占比。
在本申请的一些实施例中,获取虚拟扬声器信号组的比特分配占比之后,本申请实施例提供的方法还包括:
通过如下方式对虚拟扬声器信号组的比特分配占比进行更新:
Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC4*Ratio1_1)。
其中,Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,FAC4为预设的第四调整因子,maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,*表示相乘运算,min为取最小值运算。
需要说明的是,本申请实施例中,FAC4可以根据具体的应用场景灵活确定,此处不做限定。
通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。
在本申请的一些实施例中,本申请实施例提供的方法还包括:
残差信号组为多个,通过如下方式计算第i个残差信号组的比特分配占比:
Ratio2_i=Ratio2*(R_i/C);
其中,R_i表示第i个残差信号组包括的传输通道个数,C为所有残差信号组的总传输通道个数,Ratio2_i为第i个残差信号组的比特分配占比,*表示相乘运算,Ratio2为所有残差信号组的比特分配占比。
当残差信号组为多个时,可以根据每个残差信号组的传输通道个数确定每个残差信号组的比特分配在所有残差信号组中的占比。例如R_i/C表示第i个残差信号组与所有残差信号组的传输通道比例,通过(R_i/C)和Ratio2可以获取第i个残差信号组的比特分配占比。
在本申请的一些实施例中,当虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,包括:
当满足directionalNrgRatio<TH3,或,满足S>TH0,或η<TH4时,通过如下方式计算虚拟扬声器信号组的比特分配占比:
Ratio1_1=directionalNrgRatio;
其中,directionalNrgRatio表示虚拟扬声器信号组的能量占比,Ratio1_1为虚拟扬声器信号组的比特分配占比,TH3为第二能量占比阈值,TH4为第一虚拟扬声器编码效率阈值,S为相异性声源数量,η表示虚拟扬声器编码效率,TH0为相异性声源数量阈值;
通过如下方式计算残差信号组的比特分配占比:
Ratio2_1=D/(F+D);
其中,Ratio2_1为残差信号组的比特分配占比,F表示虚拟扬声器信号组的能量表征值,D为残差信号组的能量表征值。
通过上述Ratio1_1的计算流程可知,虚拟扬声器信号组的比特分配占比是等于虚拟扬声器信号组的能量占比,因此编码端在虚拟扬声器信号组的比特分配不占优时,不会分配更多的比特给虚拟扬声器信号组,从而保证编码端的并特分配的合理性。
在本申请的一些实施例中,本申请实施例提供的方法还包括:
获取虚拟扬声器信号组的比特分配占比之后,通过如下方式对虚拟扬声器信号组的比特分配占比进行更新:
当Ratio1_1<groupBitsRatio1时,Ratio1_2=groupBitsRatio1;
当Ratio1_1≥groupBitsRatio1时,Ratio1_2=FAC5*groupBitsRatio1+(1–FAC5)*Ratio1_1;
其中,Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,FAC5为预设的第五调整因子,Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,*表示相乘运算,groupBitsRatio1为预设的虚拟扬声器信号组比特分配占比;
获取残差信号组的比特分配占比之后,通过如下方式对残差信号组的比特分配占比进行更新:
当Ratio2_1<groupBitsRatio2时,Ratio2_2=groupBitsRatio2;
当Ratio2_1≥groupBitsRatio2时,Ratio2_2=FAC6*groupBitsRatio2+(1–FAC6)*Ratio2_1;
其中,Ratio2_2表示更新后的残差信号组的比特分配占比,FAC6为预设的第六调整因子,Ratio2_1为更新前的残差信号组的比特分配占比,*表示相乘运算,groupBitsRatio2为预设的残差信号组比特分配占比。
需要说明的是,本申请实施例中,FAC5可以根据具体的应用场景灵活确定,此处不做限定。
通过上述Ratio1_2的计算流程可知,可以对虚拟扬声器信号组的比特分配占比进行安全限制,将Ratio1_2限制在安全比特范围内,从而使得编码端可以安全可用的进行虚拟扬声器信号组的比特分配。
通过上述Ratio2_2的计算流程可知,可以对残差信号组的比特分配占比进行安全限制,将Ratio2_2限制在安全比特范围内,从而使得编码端可以安全可用的进行残差信号组的比特分配。
在本申请的一些实施例中,本申请实施例中编码端除了执行前述的方法之外,本申请实施例提供的方法还包括如下步骤:
根据虚拟扬声器信号组的比特分配占比、残差信号组的比特分配占比和总的传输通道比特数,分别确定虚拟扬声器信号组的比特数、残差信号组的比特数;
根据虚拟扬声器信号组的比特数对虚拟扬声器信号组进行比特分配,以及根据残差信号组的比特数对残差信号组进行比特分配。
其中,编码端在获取到虚拟扬声器信号组的比特分配占比、残差信号组的比特分配占比之后,编码端可以进行为虚拟扬声器信号组和残差信号组分别进行比特分配,以确定出虚拟扬声器信号组的比特分配结果和残差信号组的比特分配结果。例如,编码端获取到虚拟扬声器信号组的比特分配占比、残差信号组的比特分配占比,再结合总的传输通道比特数,分别确定虚拟扬声器信号组的比特数、残差信号组的比特数,虚拟扬声器信号组的比特数表示编码端可以为虚拟扬声器信号组分配的实际比特个数,残差信号组的比特数表示编码端可以为残差信号组分配的实际比特个数。最后编码端根据虚拟扬声器信号组的比特数对虚拟扬声器信号组进行比特分配,以及根据残差信号组的比特数对残差信号组进行比特分配,解决了编码端无法为虚拟扬声器信号和残差信号进行比特分配的问题。
进一步的,在本申请的一些实施例中,根据虚拟扬声器信号组的比特分配占比、残差信号组的比特分配占比和总的传输通道比特数,分别确定虚拟扬声器信号组的比特数、残差信号组的比特数,包括:
通过如下方式计算虚拟扬声器信号组的比特数:
F_bitnum=Ratio1*C_bitnum;
其中,F_bitnum为虚拟扬声器信号组的比特数,Ratio1为虚拟扬声器信号组的比特分配占比,C_bitnum为总的传输通道比特数;
通过如下方式计算残差信号组的比特数:
D_bitnum=Ratio2*C_bitnum;
其中,D_bitnum为残差信号组的比特数,Ratio2为残差信号组的比特分配占比,C_bitnum为总的传输通道比特数。
具体的,编码端可以预先确定总的传输通道比特数,对于总的传输通道比特数的取值不做限定,编码端可以通过上述计算公式计算出虚拟扬声器信号组的比特数和残差信号组的比特数,实现了编码端针对虚拟扬声器信号和残差信号的比特分配问题。
不限定的是,上述计算公式只是一种可实现的方式,不作为对本申请实施例的限定,例如通过上述公式计算出虚拟扬声器信号组的比特数和残差信号组的比特数,还可以通过预设的调整因子对虚拟扬声器信号组的比特数和残差信号组的比特数的取值进行调整,以得到最终的取值,对于上述计算过程,不做限定。
在本申请的一些实施例中,编码端除了执行前述步骤,编码端执行的方法还可以包括如下步骤:
对传输通道信号、虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比进行编码,并写入码流。
其中,虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以被编码到码流中,编码端将该码流发送至解码端之后,从而解码端通过解析码流,解码端可以通过码流获取到虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,解码端通过虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比可以获取到虚拟扬声器信号组分配的比特数和残差信号分配的比特数,从而可以对码流进行解码,以得到三维音频信号。
在本申请的一些实施例中,对传输通道信号、虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比进行编码,具体可以包括直接对传输通道信号进行编码,或者先对传输通道信号进行处理,在获取到虚拟扬声器信号和残差信号之后,对虚拟扬声器信号和残差信号进行编码,例如编码端具体可以是核心编码器,核心编码器对虚拟扬声器信号、残差信号和虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比进行编码,以得到码流。该码流也可以称为音频信号编码码流。
本申请实施例提供的三维音频信号的处理方法可以包括:音频编码方法和音频解码方法,其中,音频编码方法由音频编码装置执行,音频解码方法由音频解码装置执行,音频编码装置和音频解码装置之间可以进行通信。前述图4由音频编码装置执行,接下来介绍本申请实施例提供中音频解码装置(后续简称为解码端)执行的三维音频信号的处理方法,如图5所示,主要包括如下步骤:
501、接收码流。
其中,解码端接收来自编码端的码流。该码流中携带虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。
502、解码码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。
解码端解析码流,从该码流中获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,该虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比由编码端按照前述图4所示的实施例得到。
503、根据虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比对码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。
解码端获取到该虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比之后,解码端使用该虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比解析码流,得到解码后的三维音频信号,本申请实施例中对于码流中虚拟扬声器信号和残差信号的解码过程不做限定。本申请实施例中解码端可以通过虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比确定虚拟扬声器信号分配的比特数和残差信号分配的比特数,解码端采用与编码端的编码方式相对应的解码方式进行解码,从而得到编码端发送的三维音频信号,实现三维音频信号从编码端到解码端的传输。
例如,解码端能够根据码流中传输的虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比,确定虚拟扬声器信号分配的比特数和残差信号分配的比特数,解决了解码端无法确定信号的分配比特的问题。
在本申请的一些实施例中,步骤503根据虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比对码流中的虚拟扬声器信号和残差信号进行解码,包括:
根据所述码流确定可用比特数;
根据可用比特数和虚拟扬声器信号组的比特分配占比确定虚拟扬声器信号组的比特数;根据虚拟扬声器信号组的比特数对码流中的虚拟扬声器信号进行解码;
根据可用比特数和残差信号组的比特分配占比确定残差信号组的比特数;根据残差信号组的比特数对码流中的残差信号进行解码。
其中,解码端首先确定可用比特数,该可用比特数是能够分配给传输通道的总比特数。解码端通过解析码流可以得到虚拟扬声器信号组的比特分配占比,从而可以根据可用比特数和虚拟扬声器信号组的比特分配占比确定虚拟扬声器信号组的比特数,该虚拟扬声器信号组的比特数为编码端编码虚拟扬声器信号组时所使用的比特数,解码端也可以根据虚拟扬声器信号组的比特数对码流中的虚拟扬声器信号进行解码,从而解码端可以从码流中解码出虚拟扬声器信号。
同样的,解码端通过解析码流可以得到残差信号组的比特分配占比,从而可以根据可用比特数和残差信号组的比特分配占比确定残差信号组的比特数,该残差信号组的比特数为编码端编码残差信号组时所使用的比特数,解码端也可以根据残差信号组的比特数对码流中的残差信号进行解码,从而解码端可以从码流中解码出残差信号。
举例说明如下,在解码端执行的解码过程中,可以从码流中解析以下两个参数:groupBitsRatio和bitsRatio,其中,groupBitsRatio占用4比特,表示组间比特分配比例参数,组间比特分配比例参数包括:虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比。bitsRatio占用4比特,表示组内比特分配比例参数,组内比特分配比例参数包括:每个虚拟扬声器信号组在所有虚拟扬声器信号组内的比特分配占比,每个残差信号组在所有残差信号组内的比特分配占比。
例如,解码端可以包括比特分配模块,该比特分配模块的主要作用是根据码流中解码获得的比特分配比例参数,将去除其他边信息后的剩余可用比特数分配给各个传输通道,其中,其它边信息的编码也会占用比特数。
首先,需要计算当前帧扣除其他边信息后剩余的可用比特数,记为availableBits。
计算availableBits的通用算法表示为如下方式:
availableBits=bitsPerFrame-bitsUsed;
其中,bitsPerFrame为每帧初始比特数,bitsUsed为比特分配前已占用的比特数。
HOA比特分配HoaSplitBytesGroup()计算过程如下。
首先,根据总的可用比特数availableBits和groupBitsRatio计算每组通道的比特数groupBytes,如下式:
然后,根据bitsRatio计算每个通道的比特数bytesChannels,如下式:
例如,groupBytes表示虚拟扬声器信号组的总分配比特数。
又如,groupBytes表示残差信号组的总分配比特数。
通过上述过程,可以计算出每组通道的比特数。
需要说明的是,解码端也可以和编码端类似的方法计算出虚拟扬声器信号组的比特分配占比,残差信号组的比特分配占比,例如采用前述Ratio1、Ratio2的计算流程,此处不再赘述。
为便于更好的理解和实施本申请实施例的上述方案,下面举例相应的应用场景来进行具体说明。
本申请实施例中以三维音频信号为HOA信号为例,本申请实施例提供一种虚拟扬声器信号和残差信号的比特分配方法,首先将虚拟扬声器信号和残差信号进行分组,然后根据信号特征和声场特征获取组间比特分配比值,最后实现通道比特分配。
本申请实施例的目的是得到传输通道信号的比特分配结果,传输通道信号由虚拟扬声器信号和残差信号组成。本申请实施例首先将传输通道信号分组,分为虚拟扬声器信号组和残差信号组。
根据信号特征和声场特征获取组间比特分配比值,进而通过总的比特数获得虚拟扬声器信号组比特数和残差信号组比特数。编码器在某一速率下编码时,每一帧被分配的总比特数是确定的,本申请实施例中在这一帧的可用比特数下对比特进行分配。例如,在固定速率编码模式下(constant bitrate,CBR),码率为384kbps,此时每一帧比特数约为7680比特,实际可用比特数小于7680比特,本申请实施例中可以对这小于7680比特进行分配。
其中,当虚拟扬声器编码效率较高时,例如相异性声源数量小于或等于虚拟扬声器信号的传输通道个数时,要达到增加虚拟扬声器信号的编码比特数目的,通过增加虚拟扬声器信号组的组间比特分配比值得到。
在上述计算方式中,虚拟扬声器信号的编码比特数、残差信号的编码比特数能够符合当前帧的声场分类的实际情况,解决了对当前帧进行编码时需要确定虚拟扬声器信号的编码比特数、残差信号的编码比特数的问题。
本申请实施例在核心编解码器中,接下来对核心编解码器的执行流程进行说明。
请参阅图6所示,以下给出具体实施步骤:
S1.待编码HOA信号经过HOA空间编码得到传输通道信号和属性信息。
其中,传输通道信号包括:虚拟扬声器信号和残差信号;
属性信息为前述的传输单通道属性信息,包括声场分类结果和虚拟扬声器编码效率η。
在本申请的一些实施例中,声场分类结果包括相异性声源数量,或者声场分类结果包括相异性声源数量和声场类型;虚拟扬声器编码效率η表示当前帧采用虚拟扬声器重建HOA信号的效率。
接下来给出一种计算虚拟扬声器编码效率的方法:
计算重建HOA信号每个通道的能量表征值R1,R2,…,Rt,Rt=norm(SRt),norm()为范数运算,SRt为重建HOA信号第t个通道的改进离散余弦变换MDCT系数;t为(HOA阶数+1)2。
计算原始HOA信号能量表征值N1,N2,…,Nt,Nt=norm(SNt),norm()为范数运算,SNt为原始HOA信号第t个通道的MDCT系数,t为(HOA阶数+1)2。
虚拟扬声器编码效率η=sum(R)/sum(N);sum(R)表示求R1~Rt求和,sum(N)表示N1~Nt求和。
S2.获取传输通道分组比特分配占比。
首先,对传输通道信号进行分组,假设传输通道信号由M个虚拟扬声器信号和N个残差信号组成。进一步可以将N个残差信号分为K组,若M个虚拟扬声器信号分为1个组,因此传输通道被分为K+1组。每组通道数量可以相同也可以不同,每帧分组可以相同也可以不相同,均不影响本申请实施例后续流程。
后续以K等于2为例,不限定的是,K的取值还可以是3或者其它数值,此处不做限定。
以传输通道数量为11为例,其中虚拟扬声器信号组包含的虚拟扬声器数量等于2,残差信号组1包含残差信号数量等于4,残差信号组2包含残差信号数量等于5。
在步骤S2中,包括如下步骤S21至S23。
S21.计算每组能量表征值。
可以采用S1中的方法计算各个通道的能量表征值,然后将每组内的通道能量表征值相加得到每组能量表征值,例如虚拟扬声器信号组能量表征值为F,残差信号组1能量表征值为D1,残差信号组2能量表征值为D2。
S22.计算虚拟扬声器信号组能量占比directionalNrgRatio。
directionalNrgRatio=F/(F+D1+D2)。
S23.确定传输通道组间比特分配占比。
根据虚拟扬声器信号组能量占比directionalNrgRatio,和/或虚拟扬声器编码标识Flag中的至少一种确定传输通道组间比特分配占比,假设虚拟扬声器信号组比特分配占比为Ratio1,残差信号组1比特分配占比为Ratio2,残差信号组2比特分配占比为Ratio3。当通过虚拟扬声器信号组能量占比directionalNrgRatio,和/或虚拟扬声器编码效率η确定当前帧虚拟扬声器信号组比特分配占优时,需要把虚拟扬声器信号组比特分配占比增大,把残差信号组比特分配占比减小。可以在满足不同预设条件下选择不同的调整方式把虚拟扬声器信号组比特分配占比增大。
其中,判断条件包括扬声器信号组能量占比directionalNrgRatio,和/或虚拟扬声器编码标识Flag。
其中,虚拟扬声器编码标识Flag通过以下方法获取:
当满足相异性声源数量≤TH0且虚拟扬声器编码效率η>TH2时,Flag=强占优(High)。
当满足相异性声源数量≤TH0且虚拟扬声器编码效率TH4≤η≤TH2时,Flag=次占优(Middle)。否则,Flag=不占优(Low)。
接下来对上述判断条件进行举例说明,例如判断条件可以包括如下条件1至条件6。
条件1:当满足directionalNrgRatio≥TH1时,0.9≤TH1≤1,例如TH1=0.9375。
首先,计算虚拟扬声器信号组比特分配占比Ratio1:
Ratio1=FAC1*directionalNrgRatio+(1–FAC1)*maxdirectionalNrgRatio。
其中,maxdirectionalNrgRatio为预设最大虚拟扬声器信号组比特分配占比,FAC1为预设的第一调整因子,0≤FAC1≤0.5。
可选的,给Ratio1限制安全比特,例如:
Ratio1=min(Ratio1,maxdirectionalNrgRatio+FAC2*Ratio1)。
其中,FAC2为预设的第二调整因子,0≤FAC2≤0.5。
然后,计算残差信号组1比特分配占比Ratio2,残差信号组2比特分配占比Ratio3:
Ratio2=(1-Ratio1)*残差信号组1通道个数/(残差信号组1通道个数+残差信号组2通道个数);
Ratio3=(1-Ratio1)*残差信号组2通道个数/(残差信号组1通道个数+残差信号组2通道个数)。
条件2:当满足相异性声源数量≤TH0且虚拟扬声器编码效率η>TH2时,即Flag=High时,TH0为编解码器匹配虚拟扬声器个数或编解码器虚拟扬声器信号个数。例如TH0=2。0.8≤TH1≤1,例如TH2=0.875。可以认为虚拟扬声器信号组比特分配强占优,此时对传输通道组间比特分配占比进行如下调整:
计算Ratio1,Ratio2,Ratio3步骤与条件1相同。
条件3:当满足TH3≤directionalNrgRatio<TH1时,0.5≤TH3<0.9,例如TH3=0.75。
首先,计算虚拟扬声器信号组比特分配占比Ratio1:
Ratio1=FAC3*directionalNrgRatio+(1–FAC3)*maxdirectionalNrgRatio。
其中,maxdirectionalNrgRatio为预设虚拟扬声器信号组比特分配占比,FAC3为预设的第三调整因子,0≤FAC3≤0.5;FAC3>FAC1。
可选的,给Ratio1限制安全比特,例如:
Ratio1=min(Ratio1,maxdirectionalNrgRatio+TH8FAC4*Ratio1)。
其中,FAC4为预设的第四调整因子,0≤FAC4≤0.5,FAC4<FAC2;
然后,计算残差信号组1比特分配占比Ratio2,残差信号组2比特分配占比Ratio3:
Ratio2=(1-Ratio1)*残差信号组1通道个数/(残差信号组1通道个数+残差信号组2通道个数);
Ratio3=(1-Ratio1)*残差信号组2通道个数/(残差信号组1通道个数+残差信号组2通道个数)。
条件4:当满足相异性声源数量≤TH0且虚拟扬声器编码效率TH4≤η≤TH2时,即Flag=Middle时,0.5≤TH4<0.8,例如TH4=0.6875。可以认为虚拟扬声器信号组比特分配略占优,此时对传输通道组间比特分配占比进行如下调整:
计算Ratio1,Ratio2,Ratio3步骤与条件3相同。
条件5:当满足directionalNrgRatio<TH3时,可以认为残差组比特分配占优,此时对传输通道组间比特分配占比进行如下调整:
Ratio1=directionalNrgRatio。
Ratio2=D1/(F+D1+D2)。
Ratio3=D2/(F+D1+D2)。
可选的,给Ratio1,Ratio2,Ratio3限制安全比特,例如:
当Ratio1<groupBitsRatio1时,Ratio1=groupBitsRatio1;
当Ratio1≥groupBitsRatio1时,Ratio1=FAC5*groupBitsRatio1+(1–FAC5)*Ratio1;
当Ratio2<groupBitsRatio2时,Ratio2=groupBitsRatio2;
当Ratio2≥groupBitsRatio2时,Ratio2=FAC6*groupBitsRatio2+(1–FAC6)*Ratio2;
当Ratio3<groupBitsRatio3时,Ratio3=groupBitsRatio3;
当Ratio3≥groupBitsRatio3时,Ratio3=FAC7*groupBitsRatio3+(1–FAC7)*Ratio3;
其中,groupBitsRatio1,groupBitsRatio2,groupBitsRatio3分别为预设虚拟扬声器信号组比特分配占比,预设残差信号组1比特分配占比,预设残差信号组2比特分配占比,FAC5为预设的第五调整因子,0.5<FAC5≤1,FAC6为预设的第六调整因子,0.5<FAC6≤1,FAC7为预设的第七调整因子,0.5<FAC7≤1,FAC5、FAC6、FAC7可以相等也可以不相等。
条件6:当满足相异性声源数量>TH0,或,虚拟扬声器编码效率η<TH4时,即Flag=Low时,可以认为残差组比特分配占优,此时对传输通道组间比特分配占比进行如下调整:
计算Ratio1,Ratio2,Ratio3步骤与条件5相同。
在获取到上述Ratio1,Ratio2,Ratio3之后,可以将Ratio1,Ratio2,Ratio3量化后写入码流。
S3.对传输通道信号下混。
传输通道信号下混的具体过程不再说明,将原始通道信号采用下混算法计算得到下混通道,再进行比特分配。本步骤S3为可选步骤,且步骤S3的执行顺序可以在步骤S2之前,或者步骤S2之后。
S4.对传输通道信号进行比特分配。
首先,由步骤S2中的组间比特分配占比和总的可用比特数确定各组比特数,例如:
虚拟扬声器信号组比特数=Ratio1*总的可用比特数。
残差信号组1比特数=Ratio2*总的可用比特数。
残差信号组2比特数=Ratio3*总的可用比特数。
然后,确定各个通道比特数,可以有多种实现方式,例如根据各个通道能量占比进行比特分配。
接下来对解码端执行的信号解码流程进行说明。
解码端接收编码端发送的码流,然后从码流中解析Ratio1,Ratio2,Ratio3,然后可以对传输通道信号进行比特分配,例如对传输通道信号进行比特分配可以是前述步骤S4中得到各个通道比特数的方法。
通过前述的举例说明,本申请实施例编码端可以将传输通道分组,根据虚拟扬声器信号组能量,相异性声源数量和重建HOA信号判断分组比特分配占比。本申请实施例中通过上述多种条件可以实现组间分配占比调整。因此本申请实施例中可以有效提高传输通道比特分配效率。
本申请实施例中对于解码端执行的解码流程不再详细说明。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图7所示,本申请实施例提供的一种三维音频信号的处理装置,例如该该三维音频信号的处理装置具体为音频编码装置700,可以包括:编码模块701、比特分配占比确定模块702,其中,
编码模块,用于对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;
比特分配占比确定模块,用于根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
请参阅图8所示,本申请实施例提供的一种三维音频信号的处理装置,例如该该三维音频信号的处理装置具体为音频解码装置800,可以包括:接收模块801、解码模块802和信号生成模块803,其中,
接收模块,用于接收码流;
解码模块,用于解码所述码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;
信号生成模块,用于根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储有程序,该程序执行包括上述方法实施例中记载的部分或全部步骤。
接下来介绍本申请实施例提供的另一种音频编码装置,请参阅图9所示,音频编码装置900包括:
接收器901、发射器902、处理器903和存储器904(其中音频编码装置900中的处理器903的数量可以一个或多个,图9中以一个处理器为例)。在本申请的一些实施例中,接收器901、发射器902、处理器903和存储器904可通过总线或其它方式连接,其中,图9中以通过总线连接为例。
存储器904可以包括只读存储器和随机存取存储器,并向处理器903提供指令和数据。存储器904的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器904存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器903控制音频编码装置的操作,处理器903还可以称为中央处理单元(central processing unit,CPU)。具体的应用中,音频编码装置的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器903中,或者由处理器903实现。处理器903可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器903中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器903可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器904,处理器903读取存储器904中的信息,结合其硬件完成上述方法的步骤。
接收器901可用于接收输入的数字或字符信息,以及产生与音频编码装置的相关设置以及功能控制有关的信号输入,发射器902可包括显示屏等显示设备,发射器902可用于通过外接接口输出数字或字符信息。
本申请实施例中,处理器903用于执行前述实施例图4所示的由音频编码装置执行的方法。
接下来介绍本申请实施例提供的另一种音频解码装置,请参阅图10所示,音频解码装置1000包括:
接收器1001、发射器1002、处理器1003和存储器1004(其中音频解码装置1000中的处理器1003的数量可以一个或多个,图10中以一个处理器为例)。在本申请的一些实施例中,接收器1001、发射器1002、处理器1003和存储器1004可通过总线或其它方式连接,其中,图10中以通过总线连接为例。
存储器1004可以包括只读存储器和随机存取存储器,并向处理器1003提供指令和数据。存储器1004的一部分还可以包括NVRAM。存储器1004存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器1003控制音频解码装置的操作,处理器1003还可以称为CPU。具体的应用中,音频解码装置的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器1003中,或者由处理器1003实现。处理器1003可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器1003中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1003可以是通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1004,处理器1003读取存储器1004中的信息,结合其硬件完成上述方法的步骤。
本申请实施例中,处理器1003,用于执行前述实施例图5所示的由音频解码装置执行的方法。
在另一种可能的设计中,当音频编码装置或者音频解码装置为终端内的芯片时,芯片包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使该终端内的芯片执行上述第一方面任意一项的音频编码方法,或者第二方面任意一项的音频解码方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元,如只读存储器(read-onlymemory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(randomaccessmemory,RAM)等。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述第一方面或第二方面方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (27)
1.一种三维音频信号的处理方法,其特征在于,包括:
对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;
根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
2.根据权利要求1所述的方法,其特征在于,所述传输通道属性信息包括:虚拟扬声器编码效率;
所述对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:
采用虚拟扬声器对所述待编码的三维音频信号进行信号重建,以得到重建后的三维音频信号;
获取所述重建后的三维音频信号的能量表征值,以及所述待编码的三维音频信号的能量表征值;
根据所述重建后的三维音频信号的能量表征值,以及所述待编码的三维音频信号的能量表征值,获取所述虚拟扬声器编码效率。
3.根据权利要求1或2所述的方法,其特征在于,所述传输通道属性信息包括:所述虚拟扬声器信号组的能量占比;
所述方法还包括:
根据所述虚拟扬声器信号组中每个虚拟扬声器信号的能量表征值获取所述虚拟扬声器信号组的能量表征值;
根据所述残差信号组中每个残差信号的能量表征值获取所述残差信号组的能量表征值;
根据所述虚拟扬声器信号组的能量表征值和所述残差信号组的能量表征值,获取所述虚拟扬声器信号组的能量占比。
4.根据权利要求1所述的方法,其特征在于,所述传输通道属性信息包括:虚拟扬声器编码标识,所述虚拟扬声器编码标识用于指示所述虚拟扬声器信号组的比特分配是否占优;
所述对待编码的三维音频信号进行空间编码,以得到传输通道属性信息,包括:
所述对待编码的三维音频信号进行空间编码,以得到所述传输通道信号的相异性声源数量和虚拟扬声器编码效率;
根据所述传输通道信号的相异性声源数量和所述虚拟扬声器编码效率获取所述虚拟扬声器编码标识。
5.根据权利要求4所述的方法,其特征在于,所述根据所述传输通道信号的相异性声源数量和所述虚拟扬声器编码效率获取所述虚拟扬声器编码标识,包括:
当所述传输通道信号的相异性声源数量小于或等于预设的相异性声源数量阈值,且所述虚拟扬声器编码效率大于或等于预设的第一虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为占优;或
当所述传输通道信号的相异性声源数量大于预设的相异性声源数量阈值,或所述虚拟扬声器编码效率小于预设的第一虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为不占优。
6.根据权利要求5所述的方法,其特征在于,所述占优包括次占优或强占优;
所述确定所述虚拟扬声器编码标识为占优,包括:
当所述虚拟扬声器编码效率大于或等于所述第一虚拟扬声器编码效率阈值、且所述虚拟扬声器编码效率小于或等于预设的第二虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为次占优;或
当所述虚拟扬声器编码效率大于或等于所述第一虚拟扬声器编码效率阈值、且所述虚拟扬声器编码效率大于预设的第二虚拟扬声器编码效率阈值时,确定所述虚拟扬声器编码标识为强占优;
其中,所述第二虚拟扬声器编码效率阈值大于所述第一虚拟扬声器编码效率阈值。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述传输通道属性信息包括:所述虚拟扬声器信号组的能量占比,和/或虚拟扬声器编码标识;
所述根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:
当所述虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;
当所述虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;其中,所述第二能量占比阈值小于所述第一能量占比阈值;或
当所述虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或所述虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
8.根据权利要求7所述的方法,其特征在于,所述当所述虚拟扬声器信号组的能量占比大于或等于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为强占优时,按照预设的第一信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:
当满足directionalNrgRatio≥TH1,和/或,S≤TH0且η>TH2时,通过如下方式计算所述虚拟扬声器信号组的比特分配占比:
Ratio1_1=FAC1*directionalNrgRatio+(1–FAC1)*maxdirectionalNrgRatio;
其中,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述FAC1为预设的第一调整因子,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述TH1为所述第一能量占比阈值,所述TH0为所述相异性声源数量阈值,所述TH2为所述第二虚拟扬声器编码效率阈值;
通过如下方式计算所述残差信号组的比特分配占比:
Ratio2=1-Ratio1_1;
其中,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述Ratio2为所述残差信号组的比特分配占比。
9.根据权利要求8所述的方法,其特征在于,获取所述虚拟扬声器信号组的比特分配占比之后,所述方法还包括:
通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:
Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC2*Ratio1_1)
其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC2为预设的第二调整因子,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述min为取最小值运算。
10.根据权利要求7所述的方法,其特征在于,所述当所述虚拟扬声器信号组的能量占比大于或等于预设的第二能量占比阈值且小于预设的第一能量占比阈值,和/或所述虚拟扬声器编码标识为次占优时,按照预设的第二信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比;其中,所述第二能量占比阈值小于所述第一能量占比阈值,包括:
当满足TH3≤directionalNrgRatio<TH1,和/或,满足S≤TH0且TH4≤η≤TH2时,通过如下方式计算Ratio1_1:
Ratio1_1=FAC3*directionalNrgRatio+(1–FAC3)*maxdirectionalNrgRatio;
其中,所述maxdirectionalNrgRatio为预设虚拟扬声器信号组比特分配占比,所述FAC3为预设的第三调整因子,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述TH0为所述相异性声源数量阈值,所述TH1为所述第一能量占比阈值,所述TH2为所述第二虚拟扬声器编码效率阈值,所述TH3为所述第二能量占比阈值,所述TH4为所述第一虚拟扬声器编码效率阈值;
通过如下方式计算所述残差信号组的比特分配占比:
Ratio2=1-Ratio1_1;
其中,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述Ratio2为所述残差信号组的比特分配占比。
11.根据权利要求10所述的方法,其特征在于,获取所述虚拟扬声器信号组的比特分配占比之后,所述方法还包括:
通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:
Ratio1_2=min(Ratio1_1,maxdirectionalNrgRatio+FAC4*Ratio1_1)
其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC4为预设的第四调整因子,所述maxdirectionalNrgRatio为预设的最大虚拟扬声器信号组比特分配占比,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述min为取最小值运算。
12.根据权利要求8至11中任一项所述的方法,其特征在于,所述方法还包括:
所述残差信号组为多个,通过如下方式计算第i个残差信号组的比特分配占比:
Ratio2_i=Ratio2*(R_i/C);
其中,所述R_i表示第i个残差信号组包括的传输通道个数,所述C为所有残差信号组的总传输通道个数,所述Ratio2_i为所述第i个残差信号组的比特分配占比,所述*表示相乘运算,所述Ratio2为所有残差信号组的比特分配占比。
13.根据权利要求7所述的方法,其特征在于,所述当所述虚拟扬声器信号组的能量占比小于预设的第一能量占比阈值,或所述虚拟扬声器编码标识为不占优时,按照预设的第三信号组比特分配算法确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比,包括:
当满足directionalNrgRatio<TH3,或,满足S>TH0,或η<TH4时,通过如下方式计算所述虚拟扬声器信号组的比特分配占比:
Ratio1_1=directionalNrgRatio;
其中,所述directionalNrgRatio表示所述虚拟扬声器信号组的能量占比,所述Ratio1_1为所述虚拟扬声器信号组的比特分配占比,所述TH3为所述第二能量占比阈值,所述TH4为所述第一虚拟扬声器编码效率阈值,所述S为所述相异性声源数量,所述η表示所述虚拟扬声器编码效率,所述TH0为所述相异性声源数量阈值;
通过如下方式计算所述残差信号组的比特分配占比:
Ratio2_1=D/(F+D);
其中,所述Ratio2_1为所述残差信号组的比特分配占比,所述F表示所述虚拟扬声器信号组的能量表征值,所述D为所述残差信号组的能量表征值。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
获取所述虚拟扬声器信号组的比特分配占比之后,通过如下方式对所述虚拟扬声器信号组的比特分配占比进行更新:
当Ratio1_1<groupBitsRatio1时,Ratio1_2=groupBitsRatio1;
当Ratio1_1≥groupBitsRatio1时,Ratio1_2=FAC5*groupBitsRatio1+(1–FAC5)*Ratio1_1;
其中,所述Ratio1_2表示更新后的虚拟扬声器信号组的比特分配占比,所述FAC5为预设的第五调整因子,所述Ratio1_1为更新前的虚拟扬声器信号组的比特分配占比,所述*表示相乘运算,所述groupBitsRatio1为预设的虚拟扬声器信号组比特分配占比;
获取所述残差信号组的比特分配占比之后,通过如下方式对所述残差信号组的比特分配占比进行更新:
当Ratio2_1<groupBitsRatio2时,Ratio2_2=groupBitsRatio2;
当Ratio2_1≥groupBitsRatio2时,Ratio2_2=FAC6*groupBitsRatio2+(1–FAC6)*Ratio2_1;
其中,所述Ratio2_2表示更新后的残差信号组的比特分配占比,所述FAC6为预设的第六调整因子,所述Ratio2_1为更新前的残差信号组的比特分配占比,所述*表示相乘运算,所述groupBitsRatio2为预设的残差信号组比特分配占比。
15.根据权利要求1至14中任一项所述的方法,其特征在于,所述方法还包括:
根据所述虚拟扬声器信号组的比特分配占比、所述残差信号组的比特分配占比和总的传输通道比特数,分别确定所述虚拟扬声器信号组的比特数、所述残差信号组的比特数;
根据所述虚拟扬声器信号组的比特数对所述虚拟扬声器信号组进行比特分配,以及根据所述残差信号组的比特数对所述残差信号组进行比特分配。
16.根据权利要求15所述的方法,其特征在于,所述根据所述所述虚拟扬声器信号组的比特分配占比、所述残差信号组的比特分配占比和总的传输通道比特数,分别确定所述虚拟扬声器信号组的比特数、所述残差信号组的比特数,包括:
通过如下方式计算虚拟扬声器信号组的比特数:
F_bitnum=Ratio1*C_bitnum;
其中,所述F_bitnum为所述虚拟扬声器信号组的比特数,所述Ratio1为所述虚拟扬声器信号组的比特分配占比,所述C_bitnum为总的传输通道比特数;
通过如下方式计算所述残差信号组的比特数:
D_bitnum=Ratio2*C_bitnum;
其中,所述D_bitnum为所述残差信号组的比特数,所述Ratio2为所述残差信号组的比特分配占比,所述C_bitnum为总的传输通道比特数。
17.根据权利要求1至16中任一项所述的方法,其特征在于,所述方法还包括:
对所述传输通道信号、所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比进行编码,并写入码流。
18.一种三维音频信号的处理方法,其特征在于,包括:
接收码流;
解码所述码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;
根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。
19.根据权利要求18所述的方法,其特征在于,所述根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,包括:
根据所述码流确定可用比特数;
根据所述可用比特数和所述虚拟扬声器信号组的比特分配占比确定所述虚拟扬声器信号组的比特数;根据所述虚拟扬声器信号组的比特数对所述码流中的虚拟扬声器信号进行解码;
根据所述可用比特数和所述残差信号组的比特分配占比确定所述残差信号组的比特数;根据所述残差信号组的比特数对所述码流中的残差信号进行解码。
20.一种三维音频信号的处理装置,其特征在于,包括:
编码模块,用于对待编码的三维音频信号进行空间编码,以得到传输通道信号和传输通道属性信息,其中,所述传输通道信号包括:至少一个虚拟扬声器信号组和至少一个残差信号组;
比特分配占比确定模块,用于根据所述传输通道属性信息确定所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比。
21.一种三维音频信号的处理装置,其特征在于,包括:
接收模块,用于接收码流;
解码模块,用于解码所述码流以获得虚拟扬声器信号组的比特分配占比和残差信号组的比特分配占比;
信号生成模块,用于根据所述虚拟扬声器信号组的比特分配占比和所述残差信号组的比特分配占比对所述码流中的虚拟扬声器信号和残差信号进行解码,获得解码后的三维音频信号。
22.一种三维音频信号的处理装置,其特征在于,所述三维音频信号的处理装置包括至少一个处理器,所述至少一个处理器用于与存储器耦合,读取并执行所述存储器中的指令,以实现如权利要求1至17中任一项所述的方法。
23.根据权利要求22所述的三维音频信号的处理装置,其特征在于,所述三维音频信号的处理装置还包括:所述存储器。
24.一种三维音频信号的处理装置,其特征在于,所述三维音频信号的处理装置包括至少一个处理器,所述至少一个处理器用于与存储器耦合,读取并执行所述存储器中的指令,以实现如权利要求18至19中任一项所述的方法。
25.根据权利要求24所述的三维音频信号的处理装置,其特征在于,所述音频解码装置还包括:所述存储器。
26.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至17、或者18至19中任意一项所述的方法。
27.一种计算机可读存储介质,包括如权利要求1至17任一项所述的方法所生成的码流。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020237044825A KR20240013221A (ko) | 2021-06-11 | 2022-06-01 | 3차원 오디오 신호 처리 방법 및 장치 |
PCT/CN2022/096546 WO2022257824A1 (zh) | 2021-06-11 | 2022-06-01 | 一种三维音频信号的处理方法和装置 |
EP22819422.1A EP4354430A4 (en) | 2021-06-11 | 2022-06-01 | METHOD AND DEVICE FOR PROCESSING THREE-DIMENSIONAL AUDIO SIGNALS |
US18/532,085 US20240112684A1 (en) | 2021-06-11 | 2023-12-07 | Three-dimensional audio signal processing method and apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021106572837 | 2021-06-11 | ||
CN202110657283 | 2021-06-11 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115472170A true CN115472170A (zh) | 2022-12-13 |
Family
ID=84363426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110700570.1A Pending CN115472170A (zh) | 2021-06-11 | 2021-06-23 | 一种三维音频信号的处理方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20240112684A1 (zh) |
EP (1) | EP4354430A4 (zh) |
KR (1) | KR20240013221A (zh) |
CN (1) | CN115472170A (zh) |
WO (1) | WO2022257824A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5890125A (en) * | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
CN101030379B (zh) * | 2007-03-26 | 2011-10-12 | 北京中星微电子有限公司 | 一种数字音频信号比特分配的方法和装置 |
EP2346028A1 (en) * | 2009-12-17 | 2011-07-20 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
US9622010B2 (en) * | 2012-08-31 | 2017-04-11 | Dolby Laboratories Licensing Corporation | Bi-directional interconnect for communication between a renderer and an array of individually addressable drivers |
CN103489450A (zh) * | 2013-04-07 | 2014-01-01 | 杭州微纳科技有限公司 | 基于时域混叠消除的无线音频压缩、解压缩方法及其设备 |
KR20140128565A (ko) * | 2013-04-27 | 2014-11-06 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
WO2015056383A1 (ja) * | 2013-10-17 | 2015-04-23 | パナソニック株式会社 | オーディオエンコード装置及びオーディオデコード装置 |
GB2574239A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
CN115831130A (zh) * | 2018-06-29 | 2023-03-21 | 华为技术有限公司 | 立体声信号的编码方法、解码方法、编码装置和解码装置 |
-
2021
- 2021-06-23 CN CN202110700570.1A patent/CN115472170A/zh active Pending
-
2022
- 2022-06-01 KR KR1020237044825A patent/KR20240013221A/ko unknown
- 2022-06-01 WO PCT/CN2022/096546 patent/WO2022257824A1/zh active Application Filing
- 2022-06-01 EP EP22819422.1A patent/EP4354430A4/en active Pending
-
2023
- 2023-12-07 US US18/532,085 patent/US20240112684A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022257824A1 (zh) | 2022-12-15 |
KR20240013221A (ko) | 2024-01-30 |
EP4354430A1 (en) | 2024-04-17 |
US20240112684A1 (en) | 2024-04-04 |
EP4354430A4 (en) | 2024-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11430451B2 (en) | Layered coding of audio with discrete objects | |
CN114582356A (zh) | 一种音频编解码方法和装置 | |
KR20240001226A (ko) | 3차원 오디오 신호 코딩 방법, 장치, 및 인코더 | |
CN115497485A (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
CN115472170A (zh) | 一种三维音频信号的处理方法和装置 | |
CN115346537A (zh) | 一种音频编码、解码方法及装置 | |
CN114582357A (zh) | 一种音频编解码方法和装置 | |
CN115376529B (zh) | 三维音频信号编码方法、装置和编码器 | |
US20240079017A1 (en) | Three-dimensional audio signal coding method and apparatus, and encoder | |
CN115938388A (zh) | 一种三维音频信号的处理方法和装置 | |
WO2024212894A1 (zh) | 场景音频信号的解码方法和装置 | |
WO2024212638A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212898A1 (zh) | 场景音频信号的编码方法和装置 | |
WO2024212896A1 (zh) | 场景音频信号的解码方法和装置 | |
WO2024146408A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212895A1 (zh) | 场景音频信号的解码方法和装置 | |
WO2024212639A1 (zh) | 场景音频解码方法及电子设备 | |
WO2024212897A1 (zh) | 场景音频信号的解码方法和装置 | |
CN115376528A (zh) | 三维音频信号编码方法、装置和编码器 | |
CN118800256A (zh) | 场景音频信号的解码方法和装置 | |
CN118800250A (zh) | 场景音频解码方法及电子设备 | |
CN118800252A (zh) | 场景音频编码方法及电子设备 | |
CN118800244A (zh) | 场景音频编码方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |