CN113948095A - 多声道音频信号的编解码方法和装置 - Google Patents
多声道音频信号的编解码方法和装置 Download PDFInfo
- Publication number
- CN113948095A CN113948095A CN202010699706.7A CN202010699706A CN113948095A CN 113948095 A CN113948095 A CN 113948095A CN 202010699706 A CN202010699706 A CN 202010699706A CN 113948095 A CN113948095 A CN 113948095A
- Authority
- CN
- China
- Prior art keywords
- channel
- audio frame
- channel pair
- pair
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 134
- 230000005236 sound signal Effects 0.000 title claims abstract description 39
- 230000000875 corresponding effect Effects 0.000 claims description 57
- 230000008859 change Effects 0.000 claims description 22
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 54
- 230000008569 process Effects 0.000 description 32
- 238000004891 communication Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000012804 iterative process Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 101100082120 Oryza sativa subsp. japonica PAIR1 gene Proteins 0.000 description 4
- 101100082121 Oryza sativa subsp. japonica PAIR2 gene Proteins 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004148 unit process Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请提供一种多声道音频信号的编解码方法和装置。该多声道音频信号的编码方法包括:获取待编码的第一音频帧;获取相关值集合,相关值集合包括多个声道对各自的相关值,一个声道对包括至少五个声道信号中的两个声道信号;从相关值集合中选取M个相关值,该M个相关值均大于相关值集合中除M个相关值外的其他相关值,M个相关值均大于或等于组对阈值;获取M个声道对集合,每个声道对集合至少包括M个相关值对应的M个声道对的其中之一;从M个声道对集合中确定目标声道对集合,目标声道对集合中的所有声道对的相关值之和是M个声道对集合中最大的;根据目标声道对集合对第一音频帧进行编码。本申请减少声道信号之间的冗余,提升音频的编码效率。
Description
技术领域
本申请涉及音频处理技术,尤其涉及一种多声道音频信号的编解码方法和装置。
背景技术
多声道音频的编解码是对包含两个以上声道的音频进行编码或解码的技术。常见的多声道音频有5.1声道音频、7.1声道音频、7.1.4声道音频以及22.2声道音频等。
MPEG环绕声(MPEG Surround,MPS)标准规定了针对四个声道的联合编码,但仍需有可以针对上述各种多声道音频信号的编解码方法。
发明内容
本申请提供一种多声道音频信号的编解码方法和装置,以减少声道信号之间的冗余,提升音频的编码效率。
第一方面,本申请提供一种多声道音频信号的编码方法,包括:获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;从所述相关值集合中选取M个相关值,所述M个相关值均大于所述相关值集合中除所述M个相关值外的其他相关值,所述M个相关值均大于或等于组对阈值,M为小于或等于设定值的正整数;获取M个声道对集合,每个所述声道对集合至少包括所述M个相关值对应的M个声道对的其中之一,且当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;从所述M个声道对集合中确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述M个声道对集合中最大的;根据所述目标声道对集合对所述第一音频帧进行编码。
本实施例的第一音频帧可以是待编码的多声道音频信号中的任意一个帧,该第一音频帧包括了五个或五个以上的声道信号。将相关性越高的两个声道信号放在一起编码可以减少冗余,提升编码效率,因此本实施例在组对时,是依据两个声道信号之间的相关值来确定的。为了尽可能找寻相关性最高的声道对集合,可以计算第一音频帧中的至少五个声道信号中两两之间的相关值得到第一音频帧的相关值集合。例如五个声道信号一共可以组成10个声道对,相对应的,相关值集合中可以包括10个相关值。本实施例可以将相关值集合中包括的所有相关值按照从大到小的顺序排序,从中选取排在前面的前M个相关值,该M个相关值必须是大于或等于组对阈值的,这是因为小于组对阈值的相关值,表示其所对应的声道对中的两个声道信号之间的相关性较低,没有组对编码的必要。而为了提高编码效率,无需把所有大于或等于组对阈值的相关值全都选出来,因此设定了一个M的上限N,即最多选取N个相关值即可。
本实施例通过尽量多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
在一种可能的实现方式中,所述M个声道对集合包括第一声道对集合,所述获取M个声道对集合获取所述第一声道对集合;所述获取所述第一声道对集合,包括:将所述M个声道对中的第一声道对加入所述第一声道对集合,所述第一声道对为所述M个声道对中的任意一个;当所述多个声道对中除关联声道对外的其他声道对中包括相关值大于所述组对阈值的声道对时,从所述其他声道对中选取相关值最大的一个声道对加入所述第一声道对集合,所述关联声道对包括已加入所述第一声道对集合的声道对所包括的声道信号中的任意一个。
将多个声道对中,相关值大小较大的多个声道对分别作为声道对集合中加入的第一个声道对,然后选取剩余声道对中最大相关值对应的声道对加入对应的声道对集合,通过尽量多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
在一种可能的实现方式中,所述从所述相关值集合中选取M个相关值,包括:从所述相关值集合中选取N个相关值,所述N个相关值均大于所述相关值集合中除所述N个相关值外的其他相关值,N为所述设定值;从所述N个相关值中选取大于或等于所述组对阈值的相关值,所述大于或等于所述组对阈值的相关值的个数为M。
M个相关值大于或等于组对阈值,M为小于或等于设定值(例如N)的正整数。本实施例可以将相关值集合中包括的所有相关值按照从大到小的顺序排序,从中选取排在前面的前N个相关值,该N个相关值可能存在小于组对阈值的相关值,因此从N个相关值中选取大于或等于组对阈值的M个相关值,这是因为小于组对阈值的相关值,表示其所对应的声道对中的两个声道信号之间的相关性较低,没有组对编码的必要。
在一种可能的实现方式中,所述相关值为经归一化处理的值。
归一化处理可以将取值范围差别较大的相关值纳入一个统一的范围内进行比较和处理,提高运算效率。
在一种可能的实现方式中,当所述一个声道对的相关值小于所述组对阈值时,所述一个声道对的相关值设置为0。
较小的相关值说明对应的两个声道信号之间的相关性较小,没有组对的必要,因此将这种情况的两个声道信号的相关值设置为0,便于后续计算,提高运算效率。
第二方面,本申请提供一种多声道音频信号的编码方法,包括:获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;根据所述多个声道对获取多个声道对集合,当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;根据所述相关值集合获取所述多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和;确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述多个声道对集合中最大的;根据所述目标声道对集合对所述第一音频帧进行编码。
通过尽可能多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
在一种可能的实现方式中,所述根据所述多个声道对获取多个声道对集合,包括:根据所述多个声道对中除非相关声道对外的其他声道对获取所述多个声道对集合,所述非相关声道对的相关值小于组对阈值。
较小的相关值说明对应的两个声道信号之间的相关性较小,没有组对的必要,因此将这种情况的两个声道信号的相关值及该两个声道信号的声道对删除,可以减少后续计算量,提高运算效率。
在一种可能的实现方式中,所述相关值为经归一化处理的值。
归一化处理可以将取值范围差别较大的相关值纳入一个统一的范围内进行比较和处理,提高运算效率。
在一种可能的实现方式中,当所述一个声道对的相关值小于组对阈值时,所述一个声道对的相关值设置为0。
较小的相关值说明对应的两个声道信号之间的相关性较小,没有组对的必要,因此将这种情况的两个声道信号的相关值设置为0,便于后续计算,提高运算效率。
第三方面,本申请提供一种多声道音频信号的编码方法,包括:获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取所述第一音频帧的相关值集合,所述第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;获取第二音频帧的相关值集合,所述第二音频帧的相关值集合包括所述第二音频帧的多个声道对各自的相关值,一个声道对包括所述第二音频帧的至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性,所述第二音频帧是所述第一音频帧的上一帧;根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合;若需要重新获取所述第一音频帧的目标声道对集合,则采用如上述第一至二方面中任一项所述的方法获取所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码;若不需要重新获取所述第一音频帧的目标声道对集合,则将所述第二音频帧的目标声道对集合确定为所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码。
通过获取当前音频帧的相关值集合和上一音频帧的相关值集合的差值之和,从而确定是否需要重新获取当前帧的目标声道对集合,可以在音频变化较小的情况下,大大减少计算量,提高编码效率,而即使音频变化较大,需要重新获取目标声道对集合,仍可以尽可能多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
在一种可能的实现方式中,所述根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合,包括:计算所述第一音频帧的相关值集合和所述第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值;计算多个所述声道对分别对应的所述绝对值之和;当所述绝对值之和小于变更阈值时,确定不需要重新获取所述第一音频帧的目标声道对集合;当所述绝对值之和大于或等于所述变更阈值时,确定需要重新获取所述第一音频帧的目标声道对集合。变更阈值例如可以是α×声道对的个数,其中,α的取值可以是0.14或者0.15,声道对的个数是指第一音频帧的相关值集合(或者第二音频帧的相关值集合)中包括的声道对的个数。
第四方面,本申请提供一种多声道音频信号的编码方法,包括:获取待编码的第一音频帧,所述第一音频帧包括K个声道信号,K为大于或等于5的整数;当K大于声道信号数量阈值时,采用上述第一方面中任一项所述的方法对所述第一音频帧进行编码;当K小于或等于声道信号数量阈值时,采用上述第二方面中任一项所述的方法对所述第一音频帧进行编码。声道信号数量阈值例如可以是5、6或者7等。
与第一方面或第二方面的方法的区别在于,将第一方面和第二方面的方法进行融合,即根据第一音频帧包含的声道信号的个数来确定对第一音频帧采用哪一种方法获取其目标声道对集合。当第一音频帧包含的声道信号的个数较多时,如果采用第二方面的方法,需要穷举所有目标声道对集合,会增加计算量,因此此时采用第一方面的方法会减少很多的计算量。而当第一音频帧包含的声道信号的个数较少时,采用第二方面的方法可以获取到所有声道对集合的相关值之和,确保最终选取的目标声道对集合一定是最符合第一音频帧的特性的最优结果。
第五方面,本申请提供一种编码装置,包括:获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;从所述相关值集合中选取M个相关值,所述M个相关值均大于所述相关值集合中除所述M个相关值外的其他相关值,所述M个相关值均大于或等于组对阈值,M为小于或等于设定值的正整数;获取M个声道对集合,每个所述声道对集合至少包括所述M个相关值对应的M个声道对的其中之一,且当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;确定模块,用于从所述M个声道对集合中确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述M个声道对集合中最大的;编码模块,用于根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述M个声道对集合包括第一声道对集合;所述获取模块,具体用于将所述M个声道对中的第一声道对加入所述第一声道对集合,所述第一声道对为所述M个声道对中的任意一个;当所述多个声道对中除关联声道对外的其他声道对中包括相关值大于所述组对阈值的声道对时,从所述其他声道对中选取相关值最大的一个声道对加入所述第一声道对集合,所述关联声道对包括已加入所述第一声道对集合的声道对所包括的声道信号中的任意一个。
在一种可能的实现方式中,所述获取模块,具体用于从所述相关值集合中选取N个相关值,所述N个相关值均大于所述相关值集合中除所述N个相关值外的其他相关值,N为所述设定值;从所述N个相关值中选取大于或等于所述组对阈值的相关值,所述大于或等于所述组对阈值的相关值的个数为M。
在一种可能的实现方式中,所述相关值为经归一化处理的值。
在一种可能的实现方式中,当所述一个声道对的相关值小于所述组对阈值时,所述一个声道对的相关值设置为0。
第六方面,本申请提供一种编码装置,包括:获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;根据所述多个声道对获取多个声道对集合,当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;根据所述相关值集合获取所述多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和;确定模块,用于确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述多个声道对集合中最大的;编码模块,用于根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述获取模块,具体用于根据所述多个声道对中除非相关声道对外的其他声道对获取所述多个声道对集合,所述非相关声道对的相关值小于组对阈值。
在一种可能的实现方式中,所述相关值为经归一化处理的值。
在一种可能的实现方式中,当所述一个声道对的相关值小于组对阈值时,所述一个声道对的相关值设置为0。
第七方面,本申请提供一种编码装置,包括:获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取所述第一音频帧的相关值集合,所述第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;获取第二音频帧的相关值集合,所述第二音频帧的相关值集合包括所述第二音频帧的多个声道对各自的相关值,一个声道对包括所述第二音频帧的至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性,所述第二音频帧是所述第一音频帧的上一帧;编码模块,用于根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合;若需要重新获取所述第一音频帧的目标声道对集合,则执行如权利要求1-9中任一项所述的方法获取所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码;若不需要重新获取所述第一音频帧的目标声道对集合,则将所述第二音频帧的目标声道对集合确定为所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述编码模块,具体用于计算所述第一音频帧的相关值集合和所述第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值;计算多个所述声道对分别对应的所述绝对值之和;当所述绝对值之和小于变更阈值时,确定不需要重新获取所述第一音频帧的目标声道对集合;当所述绝对值之和大于或等于所述变更阈值时,确定需要重新获取所述第一音频帧的目标声道对集合。
第八方面,本申请提供一种编码装置,包括:获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括K个声道信号,K为大于或等于5的整数;编码模块,用于当K大于声道信号数量阈值时,执行如上述第一方面中任一项所述的方法对所述第一音频帧进行编码;当K小于或等于声道信号数量阈值时,执行如上述第二方面中任一项所述的方法对所述第一音频帧进行编码。
第九方面,本申请提供一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一至四方面中任一项所述的方法。
第十方面,本申请提供一种计算机可读存储介质,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行上述第一至四方面中任一项所述的方法。
第十一方面,本申请提供一种计算机可读存储介质,其特征在于,包括根据如上述第一至四方面中任一项所述的多声道音频信号的编码方法获得的编码码流。
附图说明
图1示例性地给出了本申请所应用的音频译码系统10的示意性框图;
图2示例性地给出了本申请所应用的音频译码设备200的示意性框图;
图3是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图;
图4是本申请提供的多声道音频信号的编方法所应用的编码装置的一个示例性的结构图;
图5是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图;
图6是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图;
图7是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图;
图8是本申请提供的多声道音频信号的解码方法所应用的解码装置的一个示例性的结构图;
图9为本申请编码装置实施例的结构示意图;
图10为本申请设备实施例的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
本申请的说明书实施例和权利要求书及附图中的术语“第一”、“第二”等仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
本申请涉及到的相关名词解释:
音频帧:音频数据是流式的,在实际应用中,为了便于音频处理和传输,通常取一时长内的音频数据量作为一帧音频,该时长被称为“采样时间”,可以根据编解码器和具体应用的需求确定其值,例如该时长为2.5ms~60ms,ms为毫秒。
音频信号:音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。音频通过模数转换或计算机生成的数字信号即为音频信号。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。
声道信号:是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号。因此声道数也就是声音录制时的音源数量或回放时的扬声器数量。
以下是本申请所应用的系统架构。
图1示例性地给出了本申请所应用的音频译码系统10的示意性框图。如图1所示,音频译码系统10可包括源设备12和目的设备14,源设备12产生经编码的码流,因此,源设备12可被称为音频编码装置。目的设备14可对由源设备12所产生的经编码的码流进行解码,因此,目的设备14可被称为音频解码装置。
源设备12包括编码器20,可选地,可包括音频源16、音频预处理器18、通信接口22。
音频源16可包括或可以为任意类型的用于捕获现实世界语音、音乐和音效等的音频捕获设备,和/或任意类型的音频生成设备,例如用于生成语音、音乐和音效的音频处理器或设备。所述音频源可以为存储上述音频的任意类型的内存或存储器。
音频预处理器18用于接收(原始)音频数据17,并对音频数据17进行预处理,得到预处理音频数据19。例如,音频预处理器18执行的预处理可包括修剪或去噪。可以理解的是,音频预处理单元18可以为可选组件。
编码器20用于接收预处理音频数据19并提供编码音频数据21。
源设备12中的通信接口22可用于接收编码音频数据21并通过通信信道13向目的设备14发送编码音频数据21,以便存储或直接重建。
目的设备14包括解码器30,可选地,可包括通信接口28、音频后处理器32和播放设备34。
目的设备14中的通信接口28用于直接从源设备12接收编码音频数据21,并将编码音频数据21提供给解码器30。
通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路,例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或其任意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码音频数据21。
例如,通信接口22可用于将编码音频数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理编码音频数据21,以便在通信链路或通信网络上进行传输。
通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装,对传输数据进行处理,得到编码音频数据21。
通信接口22和通信接口28均可配置为如图1中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消息等,以建立连接,确认并交换与通信链路和/或编码音频数据等数据传输相关的任何其它信息,等等。
解码器30用于接收编码音频数据21并提供解码音频数据31。
音频后处理器32用于对解码音频数据31进行后处理,得到后处理后的后处理音频数据33。音频后处理器32执行的后处理可以包括例如修剪或重采样等。
播放设备34用于接收后处理音频数据33,以向用户或收听者播放音频。播放设备34可以为或包括任意类型的用于播放重建后音频的播放器,例如,集成或外部扬声器。例如,扬声器可包括喇叭、音响等。
图2示例性地给出了本申请所应用的音频译码设备200的示意性框图。在一个实施例中,音频译码设备200可以是音频解码器(例如图1的解码器30)或音频编码器(例如图1的编码器20)。
音频译码设备200包括:用于接收数据的入端口210和接收单元(Rx)220,用于处理数据的处理器、逻辑单元或中央处理器230,用于传输数据的发射单元(Tx)240和出端口250,以及,用于存储数据的存储器260。音频译码设备200还可以包括与入端口210、接收单元220、发射单元240和出端口250耦合的光电转换组件和电光(EO)组件,用于光信号或电信号的出口或入口。
处理器230通过硬件和软件实现。处理器230可以实现为一个或多个CPU芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器230与入端口210、接收单元220、发射单元240、出端口250和存储器260通信。处理器230包括译码模块270(例如编码模块或解码模块)。译码模块270实现本申请中所公开的实施例,以实现本申请所提供的多声道音频信号的编解码方法。例如,译码模块270实现、处理或提供各种编码操作。因此,通过译码模块270为音频译码设备200的功能提供了实质性的改进,并影响了音频译码设备200到不同状态的转换。或者,以存储在存储器260中并由处理器230执行的指令来实现译码模块270。
存储器260包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择性地执行这些程序时存储程序,并存储在程序执行过程中读取的指令和数据。存储器260可以是易失性和/或非易失性的,可以是只读存储器(ROM)、随机存取存储器(RAM)、随机存取存储器(ternary content-addressable memory,TCAM)和/或静态随机存取存储器(SRAM)。
基于上述实施例的描述,本申请提供了一种多声道音频信号的编解码方法。
图3是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图。该过程300可由音频译码系统10中的源设备12或音频译码设备200执行。过程300描述为一系列的步骤或操作,应当理解的是,过程300可以以各种顺序执行和/或同时发生,不限于图3所示的执行顺序。如图3所示,该方法包括:
步骤301、获取待编码的第一音频帧。
本实施例的第一音频帧可以是待编码的多声道音频信号中的任意一个帧,该第一音频帧包括了五个或五个以上的声道信号。例如,5.1声道包括中央声道(C)、前置左声道(left,L)、前置右声道(right,R)、后置左环绕声道(left surround,LS)、后置右环绕声道(right surround,RS)以及0.1声道低频效果(low frequency effects,LFE)共六个声道信号。7.1声道包括C、L、R、LS、RS、LB、RB和LFE共八个声道信号,其中,LFE是从3-120Hz的音频声道,该声道通常发送到专门为低音调而设计的扬声器。
步骤302、获取相关值集合。
相关值集合包括多个声道对各自的相关值,其中一个声道对包括至少五个声道信号中的两个声道信号,一个声道对的相关值用于表示该声道对的两个声道信号之间的相关性。可选的,多个声道对可以包括至少五个声道信号对应的所有声道对,或者,多个声道对也可以包括至少五个声道信号对应的部分声道对,对此不做具体限定。
将相关性越高的两个声道信号放在一起编码可以减少冗余,提升编码效率,因此本实施例在组对时,是依据两个声道信号之间的相关值来确定的。为了尽可能找寻相关性最高的声道对集合,可以先计算第一音频帧中的至少五个声道信号中两两之间的相关值得到第一音频帧的相关值集合。例如五个声道信号一共可以组成10个声道对,相对应的,相关值集合中可以包括10个相关值。
可选的,可以对相关值做归一化处理,这样所有声道对的相关值都限定在特定范围内,以便于设置相关值的统一判断标准,例如组对阈值,该组对阈值可以设置为大于或等于0.2、且小于或等于1的值,例如可以是0.3,0.4,或0.35等等,这样只要两个声道信号的归一化相关值小于组对阈值,就认为该两个声道信号的相关性较差,不需要组对编码。
在一种可能的实现方式中,可以采用以下公式计算两个声道信号(例如ch1和ch2)之间的相关值:
其中,corr_norm(ch1,ch2)表示声道信号ch1和声道信号ch2之间归一化的相关值,spec_ch1(i)表示声道信号ch1的第i个频点的频域系数,spec_ch2(i)是声道信号ch2的第i个频点的频域系数,N表示一个音频帧的总频点数。
需要说明的是,还可以采用其他的算法或公式计算两个声道信号之间的相关值,本申请对此不做具体限定。
步骤303、从相关值集合中选取M个相关值。
该M个相关值均大于相关值集合中除该M个相关值外的其他相关值,该M个相关值均大于或等于组对阈值,M为小于或等于设定值(例如N)的正整数。本实施例可以将相关值集合中包括的所有相关值按照从大到小的顺序排序,从中选取排在前面的前M个相关值,该M个相关值必须是大于或等于组对阈值的,这是因为小于组对阈值的相关值,表示其所对应的声道对中的两个声道信号之间的相关性较低,没有组对编码的必要。而为了提高编码效率,无需把所有大于或等于组对阈值的相关值全都选出来,因此设定了一个M的上限N,即最多选取N个相关值即可。
N可以选取大于或等于2的整数,N的最大值也不能超过第一音频帧的所有声道信号对应的所有声道对的个数。N的值越大,伴随的计算量会增加,而N的值越小,可能会出现声道对集合丢失的情况,从而降低编码效率。
可选的,可以将N设置为最大声道对数加一,即CH表示第一音频帧包含的声道信号的个数。例如,5.1声道包含五个声道信号(不考虑LFE声道),则N=3;7.1声道包含七个声道信号(不考虑LFE声道),则N=4。
如果相关值集合中不包括大于或等于组对阈值的相关值,则不需要执行后续的步骤,对第一音频帧的各个声道信号分别进行单声道编码即可。如果从相关值集合中选出了M个相关值,则可以执行以下步骤。
步骤304、获取M个声道对集合。
每个声道对集合至少包括M个相关值对应的M个声道对的其中之一,且当声道对集合包括两个以上声道对时,两个以上声道对不包含相同的声道信号。例如,5.1声道,根据相关值集合选出来的最大相关值对应的3个声道对是(L,R)、(R,C)和(LS,RS),其中(LS,RS)的相关值小于组对阈值,因此排除,那么剩余的两个声道对(L,R)和(R,C)可以得到两个声道对集合,这两个声道对集合的其中一个包括(L,R),另一个包括(R,C)。
以M个相关值对应的M个声道对中的任意一个(例如第一声道对)为例,本实施例获取M个声道对集合的方法可以包括:将第一声道对加入第一声道对集合,M个声道对集合包括该第一声道对集合该,当多个声道对中除关联声道对外的其他声道对中包括相关值大于组对阈值的声道对时,从其他声道对中选取相关值最大的一个声道对加入第一声道对集合,关联声道对包括已加入第一声道对集合的声道对所包括的声道信号中的任意一个。
上述过程除将第一声道对加入第一声道对集合的步骤外,均为迭代处理步骤。即
a、判断多个声道对中除关联声道对外的其他声道对中是否包括相关值大于组对阈值的声道对。
b、若包括相关值大于组对阈值的声道对,则从其他声道对中选取相关值最大的一个声道对加入第一声道对集合。
此时只要其他声道对中包括相关值大于组对阈值的声道对,就可以迭代执行上述步骤b。
可选的,为了减少计算量,可以从相关值集合中将小于组对阈值的相关值删除,这样可以减少声道对的个数,进而减少迭代的次数。
步骤305、从M个声道对集合中确定目标声道对集合。
目标声道对集合中的所有声道对的相关值之和是M个声道对集合中最大的。得到上述M个声道对集合后,可以计算各个声道对集合中包含的所有声道对的相关值之和,最后将相关值之和之和最大的声道对集合确定为目标声道对集合。
步骤306、根据目标声道对集合对第一音频帧进行编码。
根据目标声道对集合对第一音频帧进行编码的过程可参考下文图4所示实施例,此处不再赘述。
可选的,本实施例可以在获取在对第一音频帧编码之前,尤其是在对第一音频帧的至少五个声道信号进行立体声处理之前,先对第一音频帧中的至少五个声道信号分别进行能量均衡处理,得到至少五个均衡声道信号,再对该至少五个均衡声道信号进行立体声处理,此时编码的对象是与均衡声道信号相关的。
能量均衡模式可以包括第一能量均衡模式和/或第二能量均衡模式,其中,第一能量均衡模式仅使用一个声道对中两个声道信号获取一个声道对对应的两个均衡声道信号。第二能量均衡模式使用一个声道对中两个声道信号以及一个声道对外至少一个声道信号来获取一个声道对对应的两个均衡声道信号。
当能量均衡模式为第一能量均衡模式时,可以针对目标声道对集合中的当前声道对,计算当前声道对包含的两个声道信号的能量或幅度值的平均值,根据平均值分别对两个声道信号进行能量均衡处理以得到对应的两个均衡声道信号。这样当至少五个声道信号的波动区间值较大时,可以只在相关的两个声道信号之间进行能量均衡,使得立体声处理时对于比特的分配更符合声道信号的能量特性,避免在低码率的编码环境中能量大的声道对因比特不足导致编码噪声可能会远大于能量小的声道对的编码噪声,而能量小的声道对的比特会有冗余的问题。
当能量均衡模式为第二能量均衡模式时,可以计算至少五个声道信号的能量或幅度值的平均值,根据平均值分别对至少五个声道信号进行能量均衡处理得到至少五个均衡声道信号。
本实施例通过尽量多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
以下通过两个具体的实施例对图3所示方法实施例中如何获取目标声道对集合的过程进行描述。
图4是本申请提供的多声道音频信号的编码方法所应用的编码装置的一个示例性的结构图,该编码装置可以是音频译码系统10中的源设备12的编码器20,也可以是音频译码设备200中的译码模块270。该编码装置可以包括声道对集合生成模块、多声道处理模块、声道编码模块和码流复用接口,其中,
声道对集合生成模块的输入是多声道音频的n个声道信号(CH1-CHn),n是大于或等于5的整数,该n个声道信号均可以进行立体声处理的。声道对集合生成模块计算n个声道信号中任意两个声道信号之间的相关值,从而根据这些相关值采用图3所示实施例的方法得到目标声道对集合,例如,(CH1,CH2),(CH3,CH4),…,(CHi-1,CHi)。
多声道处理模块包括多个立体声处理单元,立体声处理单元可以采用基于预测的或者基于Karhunen-Loeve变换(Karhunen-Loeve Transform,KLT)的处理,即输入的两个声道信号被旋转(例如经由2×2旋转矩阵)以最大化能量压缩,从而将信号能量集中于一个声道内。
声道对集合生成模块输出的目标声道对集合中的各个声道对分别被输入一个立体声处理单元,例如,(CH1,CH2)输入立体声处理单元1,(CH3,CH4)输入立体声处理单元2,…,(CHi-1,CHi)输入立体声处理单元m。立体声处理单元对输入的两个声道信号处理后,输出该两个声道信号对应的处理声道信号(P)以及多声道参数(SIDE_PAIR),多声道参数包括声道对索引、能量均衡边信息、立体声处理边信息。例如,立体声处理单元1对CH1和CH2处理,得到P1和P2、以及SIDE_PAIR1,立体声处理单元2对CH3和CH4处理,得到P3和P4、以及SIDE_PAIR2,…,立体声处理单元m对CHi-1和CHi处理,得到Pi-1和Pi、以及SIDE_PAIRm。
声道编码模块使用单声道编码单元(或者单声道声道盒、单声道工具)对多声道处理模块输出的处理声道信号进行编码输出对应的编码声道信号(E)。单声道编码单元对声道信号编码过程中,对具有较高能量(或较高振幅)的声道信号分配较多的比特数,对具有较少能量(或较少振幅)的声道信号分配较少的比特数。可选的,声道编码模块也可以采用立体声编码单元,例如参数立体声编码器或损耗立体声编码器对多声道处理模块输出的处理声道信号进行编码。例如,P1、P2、P3、P4、…、Pi1、Pi分别通过一个单声道编码单元进行编码得到E1、E2、E3、E4、…、Ei1、Ei。
需要说明的是,在声道对集合生成模块中未组对的声道信号(例如CHj)不需要经过多声道处理模块中的立体声处理单元处理,可以直接输入声道编码模块中的一个单声道编码单元得到Ej。
码流复用接口产生编码多声道信号,该编码多声道信号包括声道编码模块输出的编码声道信号和多声道处理模块输出的多声道参数。例如,编码多声道信号包括E1、E2、E3、E4、…、Ei1、Ei,以及SIDE_PAIR1,SIDE_PAIR2,…,SIDE_PAIRm。可选的,码流复用接口可以将编码多声道信号处理成串行信号或串行比特流。
如上所述,本申请提供的获取目标声道对集合的处理流程,可以由图4所示的编码装置中的声道对集合生成模块实现。
实施例一
以5.1声道为例,该5.1声道包括中央声道(C)、前置左声道(left,L)、前置右声道(right,R)、后置左环绕声道(left surround,LS)、后置右环绕声道(right surround,RS)以及0.1声道低频效果(low frequency effects,LFE)。针对这几个声道,声道对集合生成模块可以使用多声道掩码去掉不需要经过多声道处理的声道,以提升编码效率,5.1声道中可以去掉LFE声道,因此输入声道对集合生成模块的声道信号包括C、L、R、LS和RS。获取目标声道对集合的方法可以包括以下步骤:
(1)计算五个声道信号中任意两个之间的相关值。
本申请可以采用以下公式计算两个声道信号(例如声道信号ch1和声道信号ch2)之间的相关值:
其中,corr_norm(ch1,ch2)表示声道信号ch1和声道信号ch2之间归一化的相关值,spec_ch1(i)表示声道信号ch1的第i个频点的频域系数,spec_ch2(i)是声道信号ch2的第i个频点的频域系数,N表示一个音频帧的总频点数。
表1
声道信号\相关值 | R | C | LS | RS |
L | 0.36 | 0.47 | 0.39 | 0.27 |
R | 0.57 | 0.22 | 0.08 | |
C | 0.31 | 0.26 | ||
LS | 0.42 |
组对阈值设置为0.3,只有相关值大于0.3的两个声道信号才可以组对,因此将表1中小于组对阈值的相关值删除,可以得到表1a,这样在迭代处理的过程中可以不考虑相关性较小的声道信号,进而减少计算量。
(2)第一个迭代处理流程
(R,C)是加入第一声道对集合的第一个声道对,从表1a中将包含了R和/或C的声道对的相关值删除,得到表1b。
表1b
表1b中最大的相关值为0.42(LS,RS),因此将LS和RS组成第二个声道对加入第一声道对集合。此时五个声道信号只剩下一个声道信号L,无法继续组对,因此最终的第一声道对集合包括两个声道对(R,C)和(LS,RS)。
计算第一声道对集合的相关值之和S(1)=0.57+0.42=0.99。
(3)第二个迭代处理流程
(L,C)是加入第二声道对集合的第一个声道对,从表1a中将包含了L和/或C的声道对的相关值删除,得到表1c。
表1c
表1c中最大的相关值为0.42(LS,RS),因此将LS和RS组成第二个声道对加入第二声道对集合。此时五个声道信号只剩下一个声道信号R,无法继续组对,因此最终的第二声道对集合包括两个声道对(L,C)和(LS,RS)。
计算第一声道对集合的相关值之和S(2)=0.47+0.42=0.89。
(4)第三个迭代处理流程
(LS,RS)是加入第三声道对集合的第一个声道对,从表1a中将包含了LS和/或RS的声道对的相关值删除,得到表1d。
表1d
表1d中最大的相关值为0.57(R,C),因此将R和C组成第二个声道对加入第三声道对集合。此时五个声道信号只剩下一个声道信号L,无法继续组对,因此最终的第三声道对集合包括两个声道对(LS,RS)和(R,C)。
计算第一声道对集合的相关值之和S(3)=0.42+0.57=0.99。
(5)获取目标声道对集合
S(1)、S(2)和S(3)中最大的是S(1)和S(3),其所对应的两个声道对集合包含的声道对是相同的,因此将S(1)(或S(3))对应的声道对集合作为目标声道对集合,即本实施例中5.1声道可以得到的声道对包括(L,C)和(LS,RS)。目标声道对集合可以用索引表示,可以对表1中的所有相关值对应的声道对设置索引值,当确定目标声道对集合后,可以将目标声道对集合中的声道对用对应的索引值表示,以节省码流中的比特数。
实施例二
以7.1声道为例,该7.1声道包括C、L、R、LS、RS,左后置声道(left back,LB)、右后置声道(right back,RB)以及LFE。针对这几个声道,声道对集合生成模块可以使用多声道掩码去掉不需要经过多声道处理的声道,以提升编码效率,7.1声道中可以去掉LFE声道,因此输入声道对集合生成模块的声道信号包括C、L、R、LS、RS、LB和RB。获取目标声道对集合的方法可以包括以下步骤:
(1)计算七个声道信号中任意两个之间的相关值。
本实施例也可以采用上述实施例一的公式计算两个声道信号之间的相关值。
表2
声道信号\相关值 | R | C | LS | RS | LB | RB |
L | 0.36 | 0.47 | 0.39 | 0.27 | 0.43 | 0.24 |
R | 0.57 | 0.22 | 0.08 | 0.19 | 0.21 | |
C | 0.31 | 0.26 | 0.36 | 0.07 | ||
LS | 0.42 | 0.67 | 0.03 | |||
RS | 0.64 | 0.07 | ||||
LB | 0.19 |
组对阈值设置为0.3,即只有相关值大于0.3的两个声道信号才可以组对,因此将表2中小于组对阈值的相关值删除,可以得到表2a,这样在迭代处理的过程中可以不考虑相关性较小的声道信号,进而减少计算量。
表2a
N设置为最大声道对数加一,即从表2a中选取N=4个最大的相关值,例如从大到小依次为0.67(LS,LB)、0.64(RS,LB)、0.57(R,C)、0.47(L,C),这四个相关值均大于组对阈值0.3。
(2)第一个迭代处理流程
(LS,LB)是加入第一声道对集合的第一个声道对,从表2a中将包含了LS和/或LB的声道对的相关值删除,得到表2b。
表2b
表2b中最大的相关值为0.57(R,C),因此将R和C组成第二个声道对加入第一声道对集合。从表2b中将包含了R和/或C的声道对的相关值删除,得到表2c。
表2c
表2c中已无可用的相关值,因此最终的第一声道对集合包括两个声道对(LS,LB)和(R,C)。
计算第一声道对集合的相关值之和S(1)=0.67+0.57=1.24。
(3)第二个迭代处理流程
(RS,LB)是加入第二声道对集合的第一个声道对,从表2a中将包含了RS和/或LB的声道对的相关值删除,得到表2d。
表2d
表2d中最大的相关值为0.57(R,C),因此将R和C组成第二个声道对加入第二声道对集合。从表2d中将包含了R和/或C的声道对的相关值删除,得到表2e。
表2e
表2e中最大的相关值为0.39(L,LS),因此将L和LS组成第三个声道对加入第二声道对集合。从表2e中将包含了L和/或LS的声道对的相关值删除,得到表2f。
表2f
表2f中已无可用的相关值,因此最终的第一声道对集合包括三个声道对(RS,LB)、(R,C)和(L,LS)。
计算第二声道对集合的相关值之和S(2)=0.64+0.57+0.39=1.6。
(4)第三个迭代处理流程
(R,C)是加入第三声道对集合的第一个声道对,从表2a中将包含了R和/或C的声道对的相关值删除,得到表2g。
表2g
表2g中最大的相关值为0.67(LS,LB),因此将LS和LB组成第二个声道对加入第三声道对集合。从表2g中将包含了LS和/或LB的声道对的相关值删除,得到表2h。
表2h
表2h中已无可用的相关值,因此最终的第一声道对集合包括两个声道对(R,C)和(LS,LB)。
计算第二声道对集合的相关值之和S(3)=0.57+0.67=1.24。
(5)第四个迭代处理流程
(L,C)是加入第四声道对集合的第一个声道对,从表2a中将包含了L和/或C的声道对的相关值删除,得到表2i。
表2i
表2i中最大的相关值为0.67(LS,LB),因此将LS和LB组成第二个声道对加入第四声道对集合。从表2i中将包含了LS和/或LB的声道对的相关值删除,得到表2j。
表2j
表2j中已无可用的相关值,因此最终的第一声道对集合包括两个声道对(L,C)和(LS,LB)。
计算第二声道对集合的相关值之和S(4)=0.47+0.67=1.14。
(6)获取目标声道对集合
S(1)、S(2)、S(3)和S(4)中最大的是S(2),因此将S(2)对应的声道对集合作为目标声道对集合,即本实施例中7.1声道可以得到的声道对包括(RS,LB)、(R,C)和(L,LS)。
实施例二相较于实施例一,多了一次迭代处理过程,目标声道对集合中包括的声道对的个数也多一个,这均与参与组对的声道信号的数量有关。
图5是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图。该过程500可由音频译码系统10中的源设备12或音频译码设备200执行。过程500描述为一系列的步骤或操作,应当理解的是,过程500可以以各种顺序执行和/或同时发生,不限于图5所示的执行顺序。如图5所示,该方法包括:
步骤501、获取待编码的第一音频帧。
步骤502、获取相关值集合。
本实施例的步骤501和502可参考上述步骤301和302,此处不再赘述。
步骤503、根据多个声道对获取多个声道对集合。
相关值集合包括了第一音频帧的至少五个声道信号的多个声道对的相关值,将该多个声道对进行有规则的组合(即同一声道对集合中的多个声道对之间不能包含相同的声道信号),可以得到该至少五个声道信号对应的多个声道对集合。
在一种可能的实现方式中,当声道信号的个数为奇数时,可以采用以下公式计算所有声道对集合的个数:
在一种可能的实现方式中,当声道信号的个数为偶数时,可以采用以下公式计算所有声道对集合的个数:
其中,Pair_num表示所有声道对集合的个数,CH表示第一音频帧里参与多声道处理的声道信号的个数,是经过多声道掩码筛选后的结果。
可选的,为了减少计算量,得到相关值集合之后,可以根据多个声道对中除非相关声道对外的其他声道对获取多个声道对集合,该非相关声道对的相关值小于组对阈值,这样在获取声道对集合时可以减少参与计算的声道对的个数,进而减少声道对集合的个数,在后续步骤也可以减少相关值之和的计算量。
可选的,为了减少计算量,得到相关值集合之后,可以将与其他声道信号的相关值均小于组对阈值的声道信号删除,即这样的声道信号不考虑组对,在获取声道对集合时可以减少参与计算的声道对的个数,进而减少声道对集合的个数,在后续步骤也可以减少相关值之和的计算量。
步骤504、根据相关值集合获取多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和。
针对每一个声道对集合,计算该声道对集合中包含的所有声道对的相关值之和。
步骤505、确定目标声道对集合。
步骤506、根据目标声道对集合对第一音频帧进行编码。
本实施例的步骤505和506可参考上述步骤305和306,此处不再赘述。
本实施例通过尽可能多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
以下通过一个具体的实施例对图5所示方法实施例中如何获取目标声道对集合的过程进行描述。该过程仍然由图4所示的编码装置中的声道对集合生成模块实现。
实施例三
以5.1声道为例,该5.1声道包括C、L、R、LS、RS以及LFE。针对这几个声道,声道对集合生成模块可以使用多声道掩码去掉不需要经过多声道处理的声道,以提升编码效率,5.1声道中可以去掉LFE声道,因此输入声道对集合生成模块的声道信号包括C、L、R、LS和RS。获取目标声道对集合的方法可以包括以下步骤:
(1)计算五个声道信号中任意两个之间的相关值。
本实施例也可以采用上述实施例一的公式计算两个声道信号之间的相关值。
(2)计算五个声道信号对应的所有声道对集合的相关值之和。
如表1所示,五个声道信号可以得到10个相关值,相应的,也就可以得到10个声道对,进而该10个声道对可以得到最多个声道对集合。例如,{(L,R),(LS,RS)},{(L,R),(C,RS)},{(L,R),(LS,C)},……。
针对声道对集合S(i),计算S(i)中包括的所有声道对的相关值之和,1≤i≤15。例如,S(1)=corr(L,R)+corr(LS,RS),S(2)=corr(L,R)+corr(C,RS),S(3)=corr(L,R)+corr(LS,C),……。
可选的,当计算相关值之和时,若某一声道对的相关值小于组对阈值,可以将该声道对的相关值设置为0。
可选的,为了减少计算量,在获取声道对集合之前,可以将相关值小于组对阈值的声道对排除掉,这样在获取声道对集合时可以减少声道对的数量,进而减少声道对集合的数量。
图6是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图。该过程600可由音频译码系统10中的源设备12或音频译码设备200执行。过程600描述为一系列的步骤或操作,应当理解的是,过程600可以以各种顺序执行和/或同时发生,不限于图6所示的执行顺序。如图6所示,该方法包括:
步骤601、获取待编码的第一音频帧。
步骤601可参考上述步骤301,此处不再赘述。
步骤602、获取第一音频帧的相关值集合。
第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括至少五个声道信号中的两个声道信号,一个声道对的相关值用于表示一个声道对的两个声道信号之间的相关性。
步骤603、获取第二音频帧的相关值集合。
第二音频帧的相关值集合包括第二音频帧的多个声道对各自的相关值,一个声道对包括第二音频帧的至少五个声道信号中的两个声道信号,一个声道对的相关值用于表示一个声道对的两个声道信号之间的相关性,第二音频帧是第一音频帧的上一帧。
本实施例与上述步骤302的区别在于,本实施例除了获取第一音频帧的相关值集合,还需要获取第一音频帧的上一帧(即第二音频帧)的相关值集合。
获取第一音频帧的相关值集合的方法可参考上述步骤302,此处不再赘述。
由于第二音频帧的编码在第一音频帧的编码之前,因此当处理到第一音频帧时,编码装置已经获取了对第二音频帧编码时的相关信息,包括第二音频帧的相关值集合,因此本实施例获取第二音频帧的相关值集合可以是直接从缓存或内存中读取即可,不需要再次计算获取第二音频帧的相关值集合。
步骤604、根据第一音频帧的相关值集合和第二音频帧的相关值集合判断是否需要重新获取第一音频帧的目标声道对集合。
本实施例可以通过计算第一音频帧的相关值集合和第二音频帧的相关值集合的差值之和作为判断依据,即计算第一音频帧的相关值集合和第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值,计算多个声道对分别对应的绝对值之和。当绝对值之和小于变更阈值时,确定不需要重新获取第一音频帧的目标声道对集合;当绝对值之和大于或等于变更阈值时,确定需要重新获取第一音频帧的目标声道对集合。
对应于相同的声道对,分别计算其相关值差值,然后计算所有声道对的差值的绝对值之和,这样可以得到第一音频帧相对于第二音频帧,各声道信号之间的相关值的变化是否超过了变更阈值,如果没有超过,说明第二音频帧到第一音频帧的变化不大,可以不需要对第一音频帧重新组建目标声道对集合,减少了计算量,提高编码效率;如果超过,说明第二音频帧到第一音频帧的变化较大,需要重新获取第一音频帧的目标声道对集合。
步骤605、若需要重新获取第一音频帧的目标声道对集合,则采用图3或图5所示实施例的方法获取第一音频帧的目标声道对集合,并根据目标声道对集合对第一音频帧进行编码。
本实施例在确定需要重新获取第一音频帧的目标声道对集合,可以采用图3或图5所示实施例中的方法获取第一音频帧的相关值集合,此处不再赘述。
步骤606、若不需要重新获取第一音频帧的目标声道对集合,则将第二音频帧的目标声道对集合确定为第一音频帧的目标声道对集合,并根据目标声道对集合对第一音频帧进行编码。
本实施例在确定不需要重新获取第一音频帧的目标声道对集合,可以直接将第二音频帧的目标声道对集合作为第一音频帧的目标声道对集合,从而减少计算量,提高编码效率。
本实施例通过获取当前音频帧的相关值集合和上一音频帧的相关值集合的差值之和,从而确定是否需要重新获取当前帧的目标声道对集合,可以在音频变化较小的情况下,大大减少计算量,提高编码效率,而即使音频变化较大,需要重新获取目标声道对集合,仍可以尽可能多的获取多个声道对集合的相关值之和,进而将最大相关值之和对应的声道对集合确定为目标声道对集合,可以实现目标声道对集合所包含的所有声道对的相关值之和最大,并尽可能增加组对的声道对的个数,减少声道信号之间的冗余,提升音频的编码效率。
以下通过一个具体的实施例对图6所示方法实施例中如何获取目标声道对集合的过程进行描述。该过程仍然由图4所示的编码装置中的声道对集合生成模块实现。
实施例四
以5.1声道为例,该5.1声道包括C、L、R、LS、RS以及LFE。针对这几个声道,声道对集合生成模块可以使用多声道掩码去掉不需要经过多声道处理的声道,以提升编码效率,5.1声道中可以去掉LFE声道,因此输入声道对集合生成模块的声道信号包括C、L、R、LS和RS。获取目标声道对集合的方法可以包括以下步骤:
(1)计算五个声道信号中任意两个之间的相关值。
本实施例也可以采用上述实施例一的公式计算两个声道信号之间的相关值。
(2)计算第一音频帧的相关值集合和第二音频帧的相关值集合的差值之和。
本实施例将第一音频帧的相关值集合和第二音频帧的相关值集合均以矩阵的方式表示,分别得到矩阵Matrix1和Matrix2,矩阵中的每个元素的取值对应相关值集合中的一个相关值,可以通过以下公式计算差值之和:
其中,D表示第一音频帧的相关值集合和第二音频帧的相关值集合的差值之和,Matrix1(i)表示第一音频帧的相关值集合对应的矩阵中的第i个元素值,Matrix2(i)表示第二音频帧的相关值集合对应的矩阵中的第i个元素值。
(3)根据相关值之和D确定是否需要重新获取第一音频帧的目标声道对集合。
本实施例设置一个变更阈值,通过该阈值界定是否需要重新获取第一音频帧的目标声道对集合。可选的,本实施例还可以设置一个标识keepFlag,当keepFlag=1时,表示第一音频帧可以保留上一帧的目标声道对集合,即不需要重新获取第一音频帧的目标声道对集合;当keepFlag=0时,表示第一音频帧不能保留上一帧的目标声道对集合,即需要重新获取第一音频帧的目标声道对集合。
基于上述设置,当D<变更阈值时,keepFlag=1;当D≥变更阈值时,keepFlag=0。
(4)获取第一音频帧的目标声道对集合
根据上述标识keepFlag的取值,编码装置可以获取第一音频帧的目标声道对集合,即当keepFlag=1时,编码装置直接将第二音频帧的目标声道对集合作为第一音频帧的目标声道对集合;当keepFlag=0时,编码装置可以采用图3或图5所示实施例的方法获取第一音频帧的目标声道对集合,此处不再赘述。
图7是本申请提供的多声道音频信号的编码方法的一个示例性的实施例的流程图。该过程700可由音频译码系统10中的源设备12或音频译码设备200执行。过程700描述为一系列的步骤或操作,应当理解的是,过程700可以以各种顺序执行和/或同时发生,不限于图7所示的执行顺序。如图7所示,该方法包括:
步骤701、获取待编码的第一音频帧,第一音频帧包括K个声道信号。
步骤701可参考上述步骤301,此处不再赘述。
步骤702、当K大于声道信号数量阈值时,采用图3所示实施例的方法对第一音频帧进行编码。
步骤703、当K小于或等于声道信号数量阈值时,采用图5所示实施例的方法对第一音频帧进行编码。
本实施例与上述图3或图5所示实施例的区别在于,本实施例将图3和图5的方法进行融合,即根据第一音频帧包含的声道信号的个数来确定对第一音频帧采用哪一种方法获取其目标声道对集合。当第一音频帧包含的声道信号的个数较多时,如果采用第二方面的方法,需要穷举所有目标声道对集合,会增加计算量,因此此时采用第一方面的方法会减少很多的计算量。而当第一音频帧包含的声道信号的个数较少时,采用第二方面的方法可以获取到所有声道对集合的相关值之和,确保最终选取的目标声道对集合一定是最符合第一音频帧的特性的最优结果。
图8是本申请提供的多声道音频信号的解码方法所应用的解码装置的一个示例性的结构图,该解码装置可以是音频译码系统10中的目的设备14的解码器30,也可以是音频译码设备200中的译码模块270。该解码装置可以包括码流解复用接口、声道解码模块和多声道处理模块,其中,
码流解复用接口接收来自编码装置的编码多声道信号(例如串行比特流bitstream),解复用后得到编码声道信号(E)和多声道参数(SIDE_PAIR)。例如,E1、E2、E3、E4、…、Ei1、Ei,以及SIDE_PAIR1,SIDE_PAIR2,…,SIDE_PAIRm。
声道解码模块使用单声道解码单元(或者单声道声道盒、单声道工具)对码流解复用接口输出的编码声道信号进行解码输出解码声道信号(D)。例如,E1、E2、E3、E4、…、Ei1、Ei分别通过一个单声道解码单元进行解码得到E1解码得D1、D2、D3、D4、…、Di1、Di。
多声道处理模块包括多个立体声处理单元,立体声处理单元可以采用基于预测的或者基于KLT的处理,即输入的两个声道信号被反旋转(例如经由2×2旋转矩阵),从而将信号变换到原始信号方向。
声道解码模块输出的解码声道信号藉由多声道参数可以识别哪两个解码声道信号组对,将组对的解码声道信号输入立体声处理单元,立体声处理单元对输入的两个解码声道信号处理后,输出该两个解码声道信号对应的声道信号(CH)。例如,立体声处理单元1根据SIDE_PAIR1对D1和D2处理,得到CH1和CH2,立体声处理单元2根据SIDE_PAIR2对D3和D4处理,得到CH3和CH4,…,立体声处理单元m根据SIDE_PAIRm对Di-1和Di处理,得到CHi-1和CHi。
需要说明的是,针对未组对的声道信号(例如CHj)不需要经过多声道处理模块中的立体声处理单元处理,可以解码后直接输出。
图9为本申请编码装置实施例的结构示意图,如图9所示,该装置可以应用于上述实施例中的源设备12或音频译码设备200。本实施例的编码装置可以包括:获取模块901、编码模块902和确定模块903。
在一种可能的实现方式中,获取模块901,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;从所述相关值集合中选取M个相关值,所述M个相关值均大于所述相关值集合中除所述M个相关值外的其他相关值,所述M个相关值均大于或等于组对阈值,M为小于或等于设定值的正整数;获取M个声道对集合,每个所述声道对集合至少包括所述M个相关值对应的M个声道对的其中之一,且当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;确定模块903,用于从所述M个声道对集合中确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述M个声道对集合中最大的;编码模块902,用于根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述M个声道对集合包括第一声道对集合;所述获取模块901,具体用于将所述M个声道对中的第一声道对加入所述第一声道对集合,所述第一声道对为所述M个声道对中的任意一个;当所述多个声道对中除关联声道对外的其他声道对中包括相关值大于所述组对阈值的声道对时,从所述其他声道对中选取相关值最大的一个声道对加入所述第一声道对集合,所述关联声道对包括已加入所述第一声道对集合的声道对所包括的声道信号中的任意一个。
在一种可能的实现方式中,所述获取模块901,具体用于从所述相关值集合中选取N个相关值,所述N个相关值均大于所述相关值集合中除所述N个相关值外的其他相关值,N为所述设定值;从所述N个相关值中选取大于或等于所述组对阈值的相关值,所述大于或等于所述组对阈值的相关值的个数为M。
在一种可能的实现方式中,所述相关值为经归一化处理的值。
在一种可能的实现方式中,当所述一个声道对的相关值小于所述组对阈值时,所述一个声道对的相关值设置为0。
在一种可能的实现方式中,获取模块901,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;根据所述多个声道对获取多个声道对集合,当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;根据所述相关值集合获取所述多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和;确定模块903,用于确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述多个声道对集合中最大的;编码模块902,用于根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述获取模块901,具体用于根据所述多个声道对中除非相关声道对外的其他声道对获取所述多个声道对集合,所述非相关声道对的相关值小于组对阈值。
在一种可能的实现方式中,获取模块901,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取所述第一音频帧的相关值集合,所述第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;获取第二音频帧的相关值集合,所述第二音频帧的相关值集合包括所述第二音频帧的多个声道对各自的相关值,一个声道对包括所述第二音频帧的至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性,所述第二音频帧是所述第一音频帧的上一帧;编码模块902,用于根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合;若需要重新获取所述第一音频帧的目标声道对集合,则执行图3或图5所示实施例的方法获取所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码;若不需要重新获取所述第一音频帧的目标声道对集合,则将所述第二音频帧的目标声道对集合确定为所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码。
在一种可能的实现方式中,所述编码模块902,具体用于计算所述第一音频帧的相关值集合和所述第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值;计算多个所述声道对分别对应的所述绝对值之和;当所述绝对值之和小于变更阈值时,确定不需要重新获取所述第一音频帧的目标声道对集合;当所述绝对值之和大于或等于所述变更阈值时,确定需要重新获取所述第一音频帧的目标声道对集合。
在一种可能的实现方式中,获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括K个声道信号,K为大于或等于5的整数;编码模块,用于当K大于声道信号数量阈值时,执行图3所示实施例的方法对所述第一音频帧进行编码;当K小于或等于声道信号数量阈值时,执行图5所示实施例的方法对所述第一音频帧进行编码。
本实施例的装置,可以用于执行图3、图5、图6或图7所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本申请设备实施例的结构示意图,如图10所示,该设备可以是上述实施例中的编码设备。本实施例的设备可以包括:处理器1001和存储器1002,存储器1002,用于存储一个或多个程序;当所述一个或多个程序被所述处理器1001执行,使得所述处理器1001实现如图3、图5、图6或图7所示方法实施例的技术方案。
在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、特定应用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请公开的方法的步骤可以直接体现为硬件编码处理器执行完成,或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (27)
1.一种多声道音频信号的编码方法,其特征在于,包括:
获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;
获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;
从所述相关值集合中选取M个相关值,所述M个相关值均大于所述相关值集合中除所述M个相关值外的其他相关值,所述M个相关值均大于或等于组对阈值,M为小于或等于设定值的正整数;
获取M个声道对集合,每个所述声道对集合包括与所述M个相关值对应的一个或多个声道对,且当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;
从所述M个声道对集合中确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述M个声道对集合中最大的;
根据所述目标声道对集合对所述第一音频帧进行编码。
2.根据权利要求1所述的方法,其特征在于,所述M个声道对集合包括第一声道对集合,所述获取M个声道对集合包括获取所述第一声道对集合;
所述获取所述第一声道对集合,包括:
将所述M个声道对中的第一声道对加入所述第一声道对集合,所述第一声道对为所述M个声道对中的任意一个;
当所述多个声道对中除关联声道对外的其他声道对中包括相关值大于所述组对阈值的声道对时,从所述其他声道对中选取相关值最大的一个声道对加入所述第一声道对集合,所述关联声道对包括已加入所述第一声道对集合的声道对所包括的声道信号中的任意一个。
3.根据权利要求1或2所述的方法,其特征在于,所述从所述相关值集合中选取M个相关值,包括:
从所述相关值集合中选取N个相关值,所述N个相关值均大于所述相关值集合中除所述N个相关值外的其他相关值,N为所述设定值;
从所述N个相关值中选取大于或等于所述组对阈值的相关值,所述大于或等于所述组对阈值的相关值的个数为M。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述相关值为经归一化处理的值。
5.根据权利要求1-4中任一项所述的方法,其特征在于,当所述一个声道对的相关值小于所述组对阈值时,所述一个声道对的相关值设置为0。
6.一种多声道音频信号的编码方法,其特征在于,包括:
获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;
获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;
根据所述多个声道对获取多个声道对集合,当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;
根据所述相关值集合获取所述多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和;
确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述多个声道对集合中最大的;
根据所述目标声道对集合对所述第一音频帧进行编码。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个声道对获取多个声道对集合,包括:
根据所述多个声道对中除非相关声道对外的其他声道对获取所述多个声道对集合,所述非相关声道对的相关值小于组对阈值。
8.根据权利要求6或5所述的方法,其特征在于,所述相关值为经归一化处理的值。
9.根据权利要求6-8中任一项所述的方法,其特征在于,当所述一个声道对的相关值小于组对阈值时,所述一个声道对的相关值设置为0。
10.一种多声道音频信号的编码方法,其特征在于,包括:
获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;
获取所述第一音频帧的相关值集合,所述第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;
获取第二音频帧的相关值集合,所述第二音频帧的相关值集合包括所述第二音频帧的多个声道对各自的相关值,一个声道对包括所述第二音频帧的至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性,所述第二音频帧是所述第一音频帧的上一帧;
根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合;
若需要重新获取所述第一音频帧的目标声道对集合,则采用如权利要求1-9中任一项所述的方法获取所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码;
若不需要重新获取所述第一音频帧的目标声道对集合,则将所述第二音频帧的目标声道对集合确定为所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合,包括:
计算所述第一音频帧的相关值集合和所述第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值;
计算多个所述声道对分别对应的所述绝对值之和;
当所述绝对值之和小于变更阈值时,确定不需要重新获取所述第一音频帧的目标声道对集合;
当所述绝对值之和大于或等于所述变更阈值时,确定需要重新获取所述第一音频帧的目标声道对集合。
12.一种多声道音频信号的编码方法,其特征在于,包括:
获取待编码的第一音频帧,所述第一音频帧包括K个声道信号,K为大于或等于5的整数;
当K大于声道信号数量阈值时,采用权利要求1-5中任一项所述的方法对所述第一音频帧进行编码;
当K小于或等于声道信号数量阈值时,采用权利要求6-9中任一项所述的方法对所述第一音频帧进行编码。
13.一种编码装置,其特征在于,包括:
获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;从所述相关值集合中选取M个相关值,所述M个相关值均大于所述相关值集合中除所述M个相关值外的其他相关值,所述M个相关值均大于或等于组对阈值,M为小于或等于设定值的正整数;获取M个声道对集合,每个所述声道对集合至少包括所述M个相关值对应的M个声道对的其中之一,且当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;
确定模块,用于从所述M个声道对集合中确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述M个声道对集合中最大的;
编码模块,用于根据所述目标声道对集合对所述第一音频帧进行编码。
14.根据权利要求13所述的装置,其特征在于,所述M个声道对集合包括第一声道对集合;所述获取模块,具体用于将所述M个声道对中的第一声道对加入所述第一声道对集合,所述第一声道对为所述M个声道对中的任意一个;当所述多个声道对中除关联声道对外的其他声道对中包括相关值大于所述组对阈值的声道对时,从所述其他声道对中选取相关值最大的一个声道对加入所述第一声道对集合,所述关联声道对包括已加入所述第一声道对集合的声道对所包括的声道信号中的任意一个。
15.根据权利要求13或14所述的方法,其特征在于,所述获取模块,具体用于从所述相关值集合中选取N个相关值,所述N个相关值均大于所述相关值集合中除所述N个相关值外的其他相关值,N为所述设定值;从所述N个相关值中选取大于或等于所述组对阈值的相关值,所述大于或等于所述组对阈值的相关值的个数为M。
16.根据权利要求13-15中任一项所述的装置,其特征在于,所述相关值为经归一化处理的值。
17.根据权利要求13-16中任一项所述的装置,其特征在于,当所述一个声道对的相关值小于所述组对阈值时,所述一个声道对的相关值设置为0。
18.一种编码装置,其特征在于,包括:
获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取相关值集合,所述相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;根据所述多个声道对获取多个声道对集合,当所述声道对集合包括两个以上声道对时,所述两个以上声道对不包含相同的声道信号;根据所述相关值集合获取所述多个声道对集合中每一个声道对集合包含的所有声道对的相关值之和;
确定模块,用于确定目标声道对集合,所述目标声道对集合中的所有声道对的相关值之和是所述多个声道对集合中最大的;
编码模块,用于根据所述目标声道对集合对所述第一音频帧进行编码。
19.根据权利要求18所述的装置,其特征在于,所述获取模块,具体用于根据所述多个声道对中除非相关声道对外的其他声道对获取所述多个声道对集合,所述非相关声道对的相关值小于组对阈值。
20.根据权利要求18或19所述的装置,其特征在于,所述相关值为经归一化处理的值。
21.根据权利要求18-20中任一项所述的装置,其特征在于,当所述一个声道对的相关值小于组对阈值时,所述一个声道对的相关值设置为0。
22.一种编码装置,其特征在于,包括:
获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括至少五个声道信号;获取所述第一音频帧的相关值集合,所述第一音频帧的相关值集合包括多个声道对各自的相关值,一个声道对包括所述至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性;获取第二音频帧的相关值集合,所述第二音频帧的相关值集合包括所述第二音频帧的多个声道对各自的相关值,一个声道对包括所述第二音频帧的至少五个声道信号中的两个声道信号,所述一个声道对的相关值用于表示所述一个声道对的两个声道信号之间的相关性,所述第二音频帧是所述第一音频帧的上一帧;
编码模块,用于根据所述第一音频帧的相关值集合和所述第二音频帧的相关值集合判断是否需要重新获取所述第一音频帧的目标声道对集合;若需要重新获取所述第一音频帧的目标声道对集合,则执行如权利要求1-9中任一项所述的方法获取所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码;若不需要重新获取所述第一音频帧的目标声道对集合,则将所述第二音频帧的目标声道对集合确定为所述第一音频帧的目标声道对集合,并根据所述目标声道对集合对所述第一音频帧进行编码。
23.根据权利要求22所述的装置,其特征在于,所述编码模块,具体用于计算所述第一音频帧的相关值集合和所述第二音频帧的相关值集合中对应于同一声道对的相关值之差的绝对值;计算多个所述声道对分别对应的所述绝对值之和;当所述绝对值之和小于变更阈值时,确定不需要重新获取所述第一音频帧的目标声道对集合;当所述绝对值之和大于或等于所述变更阈值时,确定需要重新获取所述第一音频帧的目标声道对集合。
24.一种编码装置,其特征在于,包括:
获取模块,用于获取待编码的第一音频帧,所述第一音频帧包括K个声道信号,K为大于或等于5的整数;
编码模块,用于当K大于声道信号数量阈值时,执行如权利要求1-5中任一项所述的方法对所述第一音频帧进行编码;当K小于或等于声道信号数量阈值时,执行如权利要求6-9中任一项所述的方法对所述第一音频帧进行编码。
25.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行权利要求1-11中任一项所述的方法。
27.一种计算机可读存储介质,其特征在于,包括根据如权利要求1-11中任一项所述的多声道音频信号的编码方法获得的编码码流。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699706.7A CN113948095A (zh) | 2020-07-17 | 2020-07-17 | 多声道音频信号的编解码方法和装置 |
KR1020237004819A KR20230036146A (ko) | 2020-07-17 | 2021-07-13 | 다중 채널 오디오 신호 인코딩 및 디코딩 방법 및 장치 |
JP2023502888A JP2023533366A (ja) | 2020-07-17 | 2021-07-13 | マルチチャネルオーディオ信号符号化および復号方法および装置 |
PCT/CN2021/106101 WO2022012553A1 (zh) | 2020-07-17 | 2021-07-13 | 多声道音频信号的编解码方法和装置 |
EP21843116.1A EP4174855A4 (en) | 2020-07-17 | 2021-07-13 | METHOD AND DEVICE FOR ENCODING/DECODING A MULTI-CHANNEL AUDIO SIGNAL |
US18/153,128 US20230154471A1 (en) | 2020-07-17 | 2023-01-11 | Multi-channel audio signal encoding and decoding method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010699706.7A CN113948095A (zh) | 2020-07-17 | 2020-07-17 | 多声道音频信号的编解码方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113948095A true CN113948095A (zh) | 2022-01-18 |
Family
ID=79326898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010699706.7A Pending CN113948095A (zh) | 2020-07-17 | 2020-07-17 | 多声道音频信号的编解码方法和装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230154471A1 (zh) |
EP (1) | EP4174855A4 (zh) |
JP (1) | JP2023533366A (zh) |
KR (1) | KR20230036146A (zh) |
CN (1) | CN113948095A (zh) |
WO (1) | WO2022012553A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
GB2470059A (en) * | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
CN101695150B (zh) * | 2009-10-12 | 2011-11-30 | 清华大学 | 多声道音频编码方法、编码器、解码方法和解码器 |
US20150371643A1 (en) * | 2012-04-18 | 2015-12-24 | Nokia Corporation | Stereo audio signal encoder |
WO2018001493A1 (en) * | 2016-06-30 | 2018-01-04 | Huawei Technologies Duesseldorf Gmbh | Apparatuses and methods for encoding and decoding a multichannel audio signal |
AU2019298307A1 (en) * | 2018-07-04 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multisignal audio coding using signal whitening as preprocessing |
-
2020
- 2020-07-17 CN CN202010699706.7A patent/CN113948095A/zh active Pending
-
2021
- 2021-07-13 EP EP21843116.1A patent/EP4174855A4/en active Pending
- 2021-07-13 KR KR1020237004819A patent/KR20230036146A/ko unknown
- 2021-07-13 WO PCT/CN2021/106101 patent/WO2022012553A1/zh unknown
- 2021-07-13 JP JP2023502888A patent/JP2023533366A/ja active Pending
-
2023
- 2023-01-11 US US18/153,128 patent/US20230154471A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230036146A (ko) | 2023-03-14 |
JP2023533366A (ja) | 2023-08-02 |
US20230154471A1 (en) | 2023-05-18 |
EP4174855A4 (en) | 2023-12-06 |
EP4174855A1 (en) | 2023-05-03 |
WO2022012553A1 (zh) | 2022-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3100263B1 (en) | Transitioning of ambient higher-order ambisonic coefficients | |
CA2933734C (en) | Coding independent frames of ambient higher-order ambisonic coefficients | |
EP3143613A1 (en) | Higher order ambisonics signal compression | |
TW201601144A (zh) | 選擇碼簿以用於寫碼自高階立體混響音訊信號分解之向量 | |
WO2010125228A1 (en) | Encoding of multiview audio signals | |
EP3363213B1 (en) | Coding higher-order ambisonic coefficients during multiple transitions | |
WO2021208792A1 (zh) | 音频信号编码方法、解码方法、编码设备以及解码设备 | |
EP4082010A1 (en) | Combining of spatial audio parameters | |
CN112970062A (zh) | 空间参数信令 | |
JP2024063226A (ja) | DirACベースの空間オーディオ符号化のためのパケット損失隠蔽 | |
JPWO2009122757A1 (ja) | ステレオ信号変換装置、ステレオ信号逆変換装置およびこれらの方法 | |
US20230145725A1 (en) | Multi-channel audio signal encoding and decoding method and apparatus | |
CN113948095A (zh) | 多声道音频信号的编解码方法和装置 | |
US11696075B2 (en) | Optimized audio forwarding | |
CN112771892B (zh) | 音频数据的灵活渲染 | |
WO2022247651A1 (zh) | 多声道音频信号的编码方法和装置 | |
CN114023338A (zh) | 多声道音频信号的编码方法和装置 | |
CN106710600B (zh) | 多声道音频信号的去相关编码方法和装置 | |
WO2022012554A1 (zh) | 多声道音频信号编码方法和装置 | |
TWI843389B (zh) | 音訊編碼器、降混訊號產生方法及非暫時性儲存單元 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |