CN113593585A - 音频信号的比特分配方法和装置 - Google Patents
音频信号的比特分配方法和装置 Download PDFInfo
- Publication number
- CN113593585A CN113593585A CN202010368424.9A CN202010368424A CN113593585A CN 113593585 A CN113593585 A CN 113593585A CN 202010368424 A CN202010368424 A CN 202010368424A CN 113593585 A CN113593585 A CN 113593585A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- parameter
- grading
- sound field
- grading parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
Abstract
本申请提供一种音频信号的比特分配方法和装置。本申请音频信号的比特分配方法,包括:获取当前帧中的T个音频信号,T为正整数;根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;确定所述第一音频信号集合中的所述M个音频信号的优先级;根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。本申请可以自适应音频信号的特征,同时针对不同音频信号匹配不同的编码比特数,提高了音频信号的编解码效率。
Description
技术领域
本申请涉及音频处理技术,尤其涉及一种音频信号的比特分配方法和装置。
背景技术
声音是人类获取信息的主要途径之一,随着高性能计算机和信号处理技术的飞速发展,沉浸式音频技术受到越来越多的关注。具有沉浸感的三维音频(3D audio)技术是通过将音频拓展到高维空间表示,为用户提供更佳的三维声音体验。三维音频技术在回放端不再是简单的采用多声道进行表示,而是将音频信号在三维空间中进行重构,通过渲染技术实现音频在三维空间的表示。
在国内和国际的三维音频编解码标准中,分配给各个音频信号的用于编解码的比特数,不能针对回放端音频信号的空间特性体现出其差异性,也不能自适应音频信号的特征,降低了音频信号的编解码效率。
发明内容
本申请提供一种音频信号的比特分配方法和装置,以自适应音频信号的特征,同时针对不同音频信号匹配不同的编码比特数,提高了音频信号的编解码效率。
第一方面,本申请提供一种音频信号的比特分配方法,包括:获取当前帧中的T个音频信号,T为正整数;根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;确定所述第一音频信号集合中的所述M个音频信号的优先级;根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。
本申请根据当前帧中包括的多个音频信号的特征及元数据中的音频信号的相关信息,确定该多个音频信号的优先级,根据该优先级确定要分配给各个音频信号的比特数,既可以自适应音频信号的特征,也可以针对不同音频信号匹配不同的编码比特数,提高了音频信号的编解码效率。
在一种可能的实现方式中,所述确定所述第一音频信号集合中的所述M个音频信号的优先级,包括:获取所述M个音频信号中每个音频信号的声场分级参数;根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级。
在一种可能的实现方式中,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:获取第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
参考音频信号的多种参数,可以获取涉及多个维度信息的音频信号的优先级。
在一种可能的实现方式中,所述获取当前帧中的T个音频信号的同时,还包括:获取所述当前帧中的S组元数据,S为正整数,T≥S,所述S组元数据和所述T个音频信号对应,所述元数据用于描述对应的音频信号在空间声场中的状态。
元数据作为对应的音频信号在空间声场中的状态的描述信息,可以为后续获取以音频信号的声场分级参数提供可靠且有效的依据。
在一种可能的实现方式中,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
参考音频信号的多种参数以及音频信号的元数据,可以获取涉及多个维度信息的可靠的音频信号的优先级。
在一种可能的实现方式中,所述根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数,包括:对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个加权平均获取所述声场分级参数;或者,对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个求平均获取所述声场分级参数;或者,将获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个作为所述声场分级参数。
在一种可能的实现方式中,所述根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级,包括:根据设定的第一对应关系将与第一音频信号的声场分级参数对应的优先级确定为所述第一音频信号的优先级,所述第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个所述声场分级参数对应一个所述优先级,所述第一音频信号为所述M个音频信号中的任意一个;或者,将所述第一音频信号的声场分级参数作为所述第一音频信号的优先级;或者,根据设定的多个范围阈值确定所述第一音频信号的声场分级参数的所属范围,将与所述第一音频信号的声场分级参数的所属范围对应的优先级确定为所述第一音频信号的优先级。
在一种可能的实现方式中,所述根据所述M个音频信号的优先级对所述M个音频信号进行比特分配,包括:根据当前可用比特数和所述M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。
在一种可能的实现方式中,所述根据当前可用比特数和所述M个音频信号的优先级进行比特分配,包括:根据第一音频信号的优先级确定所述第一音频信号的比特数占比,所述第一音频信号为所述M个音频信号中的任意一个;根据所述当前可用比特数和所述第一音频信号的比特数占比的乘积获取所述第一音频信号的比特数。
在一种可能的实现方式中,所述根据当前可用比特数和所述M个音频信号的优先级进行比特分配,包括:根据第一音频信号的优先级从设定的第二对应关系中确定所述第一音频信号的比特数,所述第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个所述优先级对应一个所述比特数,所述第一音频信号为所述M个音频信号中的任意一个。
在一种可能的实现方式中,所述根据所述T个音频信号确定第一音频信号集合,包括:将所述T个音频信号中预先指定的音频信号加入所述第一音频信号集合。
在一种可能的实现方式中,所述根据所述T个音频信号确定第一音频信号集合,包括:将所述S组元数据在所述T个音频信号中对应的音频信号加入所述第一音频信号集合;或者,将大于或等于设定的参与阈值的重要度参数对应的音频信号加入所述第一音频信号集合,所述元数据包括所述重要度参数,所述T个音频信号包括所述重要度参数对应的音频信号。
在一种可能的实现方式中,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:获取第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;根据与所述第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
本申请针对音频信号的不同特性采用多种方法获取音频信号相关的多个声场分级参数,再根据该多个声场分级参数确定音频信号的优先级,这样获取的优先级既可以参考音频信号的多个特性,还可以兼容不同特性对应的实现方案。
在一种可能的实现方式中,所述根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级,包括:根据所述第一声场分级参数获取所述第一音频信号的第一优先级;根据所述第二声场分级参数获取所述第一音频信号的第二优先级;根据所述第一优先级和所述第二优先级获取所述第一音频信号的优先级。
本申请针对音频信号的不同特性采用多种方法获取音频信号相关的多个优先级,再对该多个优先级进行兼容合并获取音频信号最终的优先级,这样获取的优先级既可以参考音频信号的多个特性,还可以兼容不同特性对应的实现方案。
第二方面,本申请提供一种音频信号的编码方法,执行完上述第一方面中任一项所述的音频信号的比特分配方法之后,还包括:根据所述M个音频信号所分配的比特数对所述M个音频信号进行编码以获取编码码流。
在一种可能的实现方式中,所述编码码流包括所述M个音频信号的比特数。
第三方面,本申请提供一种音频信号的解码方法,执行完上述第一方面中任一项所述的音频信号的比特分配方法之后,还包括:接收编码码流;执行如上述第一方面中任一项所述的音频信号的比特分配方法获取所述M个音频信号各自的比特数;根据所述M个音频信号各自的比特数以及所述编码码流重建所述M个音频信号。
第四方面,本申请提供一种音频信号的比特分配装置,包括:处理模块,用于获取当前帧中的T个音频信号,T为正整数;根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;确定所述第一音频信号集合中的所述M个音频信号的优先级;根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。
在一种可能的实现方式中,所述处理模块,具体用于获取所述M个音频信号中每个音频信号的声场分级参数;根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级。
在一种可能的实现方式中,所述处理模块,具体用于获取第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块,具体用于获取所述当前帧中的S组元数据,S为正整数,T≥S,所述S组元数据和所述T个音频信号对应,所述元数据用于描述对应的音频信号在空间声场中的状态。
在一种可能的实现方式中,所述处理模块,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块,具体用于对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个加权平均获取所述声场分级参数;或者,对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个求平均获取所述声场分级参数;或者,将获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个作为所述声场分级参数。
在一种可能的实现方式中,所述处理模块,具体用于根据设定的第一对应关系将与所述第一音频信号的声场分级参数对应的优先级确定为所述第一音频信号的优先级,所述第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个所述声场分级参数对应一个所述优先级,所述第一音频信号为所述M个音频信号中的任意一个;或者,将所述第一音频信号的声场分级参数作为所述第一音频信号的优先级;或者,根据设定的多个范围阈值确定所述第一音频信号的声场分级参数的所属范围,将与所述第一音频信号的声场分级参数的所属范围对应的优先级确定为所述第一音频信号的优先级。
在一种可能的实现方式中,所述处理模块,具体用于根据当前可用比特数和所述M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。
在一种可能的实现方式中,所述处理模块,具体用于根据第一音频信号的优先级确定所述第一音频信号的比特数占比,所述第一音频信号为所述M个音频信号中的任意一个;根据所述当前可用比特数和所述第一音频信号的比特数占比的乘积获取所述第一音频信号的比特数。
在一种可能的实现方式中,所述处理模块,具体用于根据第一音频信号的优先级从设定的第二对应关系中确定所述第一音频信号的比特数,所述第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个所述优先级对应一个所述比特数,所述第一音频信号为所述M个音频信号中的任意一个。
在一种可能的实现方式中,所述处理模块,具体用于将所述T个音频信号中预先指定的音频信号加入所述第一音频信号集合。
在一种可能的实现方式中,所述处理模块,具体用于将所述S组元数据在所述T个音频信号中对应的音频信号加入所述第一音频信号集合;或者,将大于或等于设定的参与阈值的重要度参数对应的音频信号加入所述第一音频信号集合,所述元数据包括所述重要度参数,所述T个音频信号包括所述重要度参数对应的音频信号。
在一种可能的实现方式中,所述处理模块,具体用于获取第一音频信的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;根据与所述第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块,具体用于根据所述第一声场分级参数获取所述第一音频信号的第一优先级;根据所述第二声场分级参数获取所述第一音频信号的第二优先级;根据所述第一优先级和所述第二优先级获取所述第一音频信号的优先级。
在一种可能的实现方式中,所述处理模块,还用于根据所述M个音频信号所分配的比特数对所述M个音频信号进行编码以获取编码码流。
在一种可能的实现方式中,所述编码码流包括所述M个音频信号的比特数。
在一种可能的实现方式中,还包括:收发模块,用于接收编码码流;所述处理模块,还用于获取所述M个音频信号各自的比特数;根据所述M个音频信号各自的比特数以及所述编码码流重建所述M个音频信号。
第五方面,本申请提供一种设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述第一至三方面中任一项所述的方法。
第六方面,本申请提供一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行上述第一至三方面中任一项所述的方法。
第七方面,本申请提供一种计算机可读存储介质,包括根据如上述第二方面所述的方法获取的编码码流。
第八方面,本申请提供一种编码装置,包括处理器和通信接口,所述处理器通过所述通信接口读取存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行如上述第一至三方面中任一项所述的方法。
第九方面,本申请提供一种编码装置,其特征在于,包括处理器和存储器,所述处理器用于执行上述第二方面所述的方法,所述存储器用于存放所述编码码流。
附图说明
图1A示例性地给出了本申请所应用的音频编码及解码系统10的示意性框图;
图1B是根据一示例性实施例的音频译码系统40的实例的说明图;
图2是本申请提供的音频译码设备200的结构示意图;
图3是根据一示例性实施例的装置300的简化框图;
图4是用于实现本申请的一种音频信号的比特分配方法的流程示意图;
图5是音频信号的位置在空间声场中的一个示例性的示意图;
图6是音频信号的优先级在空间声场中的一个示例性的示意图;
图7为本申请装置实施例的结构示意图;
图8为本申请设备实施例的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本申请保护的范围。
本申请的说明书实施例和权利要求书及附图中的术语“第一”、“第二”等仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
本申请涉及到的相关名词解释:
音频帧:音频数据是流式的,在实际应用中,为了便于音频处理和传输,通常取一时长内的音频数据量作为一帧音频,该时长被称为“采样时间”,可以根据编解码器和具体应用的需求确定其值,例如该时长为2.5ms~60ms,ms为毫秒。
音频信号:音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体,。音频是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。音频通过模数转换或计算机生成的数字信号即为音频信号。声波有三个重要参数:频率、幅度和相位,这也就决定了音频信号的特征。
元数据:元数据(Metadata),又称中介数据、中继数据,是描述数据的数据(dataabout data),主要用于描述数据属性(property),支持例如指示存储位置、历史数据、资源查找、文件记录等功能。元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。本申请中元数据用于描述对应的音频信号在空间声场中的状态。
三维音频:
以下是本申请所应用的系统架构。
图1A示例性地给出了本申请所应用的音频编码及解码系统10的示意性框图。如图1A所示,音频编码及解码系统10可包括源设备12和目的设备14,源设备12产生经编码的音频数据,因此,源设备12可被称为音频编码装置。目的设备14可对由源设备12所产生的经编码的音频数据进行解码,因此,目的设备14可被称为音频解码装置。源设备12、目的设备14或两个的各种实施方案可包含一或多个处理器以及耦合到一或多个处理器的存储器。所述存储器可包含但不限于随机存取存储器(random access memory,RAM)、只读存储器(read-only memory,ROM)、快闪存储器或可用于以可由计算机存取的指令或数据结构的形式存储所要的程序代码的任何其它媒体。源设备12和目的设备14可以包括各种装置,包含桌上型计算机、移动计算装置、笔记型(例如,膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话等电话手持机、电视机、相机、显示装置、数字媒体播放器、音频游戏控制台、车载计算机、无线通信设备或其类似者。
虽然图1A将源设备12和目的设备14绘示为单独的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括两者的功能性,即源设备12或对应的功能性以及目的设备14或对应的功能性。在此类实施例中,可以使用相同硬件和/或软件,或使用单独的硬件和/或软件,或其任何组合来实施源设备12或对应的功能性以及目的设备14或对应的功能性。
源设备12和目的设备14之间可通过链路13进行通信连接,目的设备14可经由链路13从源设备12接收经编码的音频数据。链路13可包括能够将经编码的音频数据从源设备12移动到目的设备14的一或多个媒体或装置。在一个实例中,链路13可包括使得源设备12能够实时将经编码的音频数据直接发射到目的设备14的一或多个通信媒体。在此实例中,源设备12可根据通信标准(例如无线通信协议)来调制经编码的音频数据,且可将经调制的音频数据发射到目的设备14。所述一或多个通信媒体可包含无线和/或有线通信媒体,例如射频(RF)频谱或一或多个物理传输线。所述一或多个通信媒体可形成基于分组的网络的一部分,基于分组的网络例如为局域网、广域网或全球网络(例如,因特网)。所述一或多个通信媒体可包含路由器、交换器、基站或促进从源设备12到目的设备14的通信的其它设备。
源设备12包括编码器20,另外可选地,源设备12还可以包括音频源16、音频预处理器18、以及通信接口22。具体实现形态中,所述编码器20、音频源16、音频预处理器18、以及通信接口22可能是源设备12中的硬件部件,也可能是源设备12中的软件程序。
分别描述如下:
音频源16,可以包括或可以为任何类别的音频捕获设备,用于例如捕获现实世界声音,和/或任何类别的音频生成设备,例如,计算机音频处理器,或用于获取和/或提供现实世界音频、计算机动画音频(例如,屏幕内容、虚拟现实(virtual reality,VR)中的音频)的任何类别设备,和/或其任何组合(例如,增强现实(augmented reality,AR)中的音频)。音频源16可以为用于捕获音频的麦克风或者用于存储音频的存储器,音频源16还可以包括存储先前捕获或产生的音频和/或获取或接收音频的任何类别的(内部或外部)接口。当音频源16为麦克风时,音频源16可例如为本地的或集成在源设备中的音频采集装置;当音频源16为存储器时,音频源16可为本地的或例如集成在源设备中的集成存储器。当所述音频源16包括接口时,接口可例如为从外部音频源接收音频的外部接口,外部音频源例如为外部音频捕获设备,比如话筒、麦克风、外部存储器或外部音频生成设备,外部音频生成设备例如为外部计算机音频处理器、计算机或服务器。接口可以为根据任何专有或标准化接口协议的任何类别的接口,例如有线或无线接口、光接口。
其中,音频可以视为像素点(picture element)的一维向量。向量中的像素点也可以称为采样点。向量或音频上的采样点数目定义音频的大小。本申请中,由音频源16传输至音频处理器的音频也可称为原始音频数据17。
音频预处理器18,用于接收原始音频数据17并对原始音频数据17执行预处理,以获取经预处理的音频19或经预处理的音频数据19。例如,音频预处理器18执行的预处理可以包括整修、调色或去噪。
编码器20(或称音频编码器20),用于接收经预处理的音频数据19,对经预处理的音频数据19进行处理,从而提供经编码的音频数据21。在一些实施例中,编码器20可以用于执行下文所描述的各个实施例,以实现本申请所描述的音频信号的比特分配方法在编码侧的应用。
通信接口22,可用于接收经编码的音频数据21,并可通过链路13将经编码的音频数据21传输至目的设备14或任何其它设备(如存储器),以用于存储或直接重构,所述其它设备可为任何用于解码或存储的设备。通信接口22可例如用于将经编码的音频数据21封装成合适的格式,例如数据包,以在链路13上传输。
目的设备14包括解码器30,另外可选地,目的设备14还可以包括通信接口28、音频后处理器32和播放设备34。分别描述如下:
通信接口28,可用于从源设备12或任何其它源接收经编码的音频数据21,所述任何其它源例如为存储设备,存储设备例如为经编码的音频数据存储设备。通信接口28可以用于藉由源设备12和目的设备14之间的链路13或藉由任何类别的网络传输或接收经编码的音频数据21,链路13例如为直接有线或无线连接,任何类别的网络例如为有线或无线网络或其任何组合,或任何类别的私网和公网,或其任何组合。通信接口28可以例如用于解封装通信接口22所传输的数据包以获取经编码的音频数据21。
通信接口28和通信接口22都可以配置为单向通信接口或者双向通信接口,以及可以用于例如发送和接收消息来建立连接、确认和交换任何其它与通信链路和/或例如经编码的音频数据传输的数据传输有关的信息。
解码器30(或称为解码器30),用于接收经编码的音频数据21并提供经解码的音频数据31或经解码的音频31。在一些实施例中,解码器30可以用于执行下文所描述的各个实施例,以实现本申请所描述的音频信号的比特分配方法在解码侧的应用。
音频后处理器32,用于对经解码的音频数据31(也称为经重构音频数据)执行后处理,以获取经后处理的音频数据33。音频后处理器32执行的后处理可以包括:整修或重采样,或任何其它处理,还可用于将将经后处理的音频数据33传输至播放设备34。
播放设备34,用于接收经后处理的音频数据33以向例如用户或收听者播放音频。播放设备34可以为或可以包括任何类别的用于呈现经重构音频的播放器器,例如,集成的或外部的喇叭器或扬声器。
虽然,图1A将源设备12和目的设备14绘示为单独的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括两者的功能性,即源设备12或对应的功能性以及目的设备14或对应的功能性。在此类实施例中,可以使用相同硬件和/或软件,或使用单独的硬件和/或软件,或其任何组合来实施源设备12或对应的功能性以及目的设备14或对应的功能性。
本领域技术人员基于描述明显可知,不同单元的功能性或图1A所示的源设备12和/或目的设备14的功能性的存在和(准确)划分可能根据实际设备和应用有所不同。源设备12和目的设备14可以包括各种设备中的任一个,包含任何类别的手持或静止设备,例如,笔记本或膝上型计算机、移动电话、智能手机、平板或平板计算机、摄像机、台式计算机、机顶盒、电视机、相机、车载设备、播放设备、数字媒体播放器、游戏控制台、媒体流式传输设备(例如内容服务服务器或内容分发服务器)、广播接收器设备、广播发射器设备等,并可以不使用或使用任何类别的操作系统。
编码器20和解码器30都可以实施为各种合适电路中的任一个,例如,一个或多个微处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)、离散逻辑、硬件或其任何组合。如果部分地以软件实施所述技术,则设备可将软件的指令存储于合适的非暂时性计算机可读存储介质中,且可使用一或多个处理器以硬件执行指令从而执行本公开的技术。前述内容(包含硬件、软件、硬件与软件的组合等)中的任一者可视为一或多个处理器。
在一些情况下,图1A中所示音频编码及解码系统10仅为示例,本申请的技术可以适用于不必包含编码和解码设备之间的任何数据通信的音频编码设置(例如,音频编码或音频解码)。在其它实例中,数据可从本地存储器检索、在网络上流式传输等。音频编码设备可以对数据进行编码并且将数据存储到存储器,和/或音频解码设备可以从存储器检索数据并且对数据进行解码。在一些实例中,由并不彼此通信而是仅编码数据到存储器和/或从存储器检索数据且解码数据的设备执行编码和解码。
图1B是根据一示例性实施例的音频译码系统40的实例的说明图。音频译码系统40可以实现本申请的各种技术的组合。在所说明的实施方式中,音频译码系统40可以包含麦克风41、编码器20、解码器30(和/或藉由处理单元46的逻辑电路47实施的音频编/解码器)、天线42、一个或多个处理器43、一个或多个存储器44和/或播放设备45。
如图1B所示,麦克风41、天线42、处理单元46、逻辑电路47、编码器20、解码器30、处理器43、存储器44和/或播放设备45能够互相通信。如所论述,虽然用编码器20和解码器30绘示音频译码系统40,但在不同实例中,音频译码系统40可以只包含编码器20或只包含解码器30。
在一些实例中,天线42可以用于传输或接收音频数据的经编码码流。另外,在一些实例中,播放设备45可以用于播放音频数据。在一些实例中,逻辑电路47可以通过处理单元46实施。处理单元46可以包含专用集成电路(application-specific integratedcircuit,ASIC)逻辑、图形处理器、通用处理器等。音频译码系统40也可以包含可选的处理器43,该可选处理器43类似地可以包含专用集成电路(application-specific integratedcircuit,ASIC)逻辑、通用处理器等。在一些实例中,逻辑电路47可以通过硬件实施,如音频编码专用硬件等,处理器43可以通过通用软件、操作系统等实施。另外,存储器44可以是任何类型的存储器,例如易失性存储器(例如,静态随机存取存储器(Static Random AccessMemory,SRAM)、动态随机存储器(Dynamic Random Access Memory,DRAM)等)或非易失性存储器(例如,闪存等)等。在非限制性实例中,存储器44可以由超速缓存内存实施。在一些实例中,逻辑电路47可以访问存储器44。在其它实例中,逻辑电路47和/或处理单元46可以包含存储器(例如,缓存等)用于实施缓冲器等。
在一些实例中,通过逻辑电路实施的编码器20可以包含(例如,通过处理单元46或存储器44实施的)缓冲器和(例如,通过处理单元46实施的)音频处理单元。音频处理单元可以通信耦合至缓冲器。音频处理单元可以包含通过逻辑电路47实施的编码器20,以实施本文中所描述的任何其它编码器系统或子系统所论述的各种模块。逻辑电路可以用于执行本文所论述的各种操作。
在一些实例中,解码器30可以以类似方式通过逻辑电路47实施,以实施本文中所描述的任何其它解码器系统或子系统所论述的各种模块。在一些实例中,逻辑电路实施的解码器30可以包含(通过处理单元2820或存储器44实施的)缓冲器和(例如,通过处理单元46实施的)音频处理单元。音频处理单元可以通信耦合至缓冲器。音频处理单元可以包含通过逻辑电路47实施的解码器30,以实施本文中所描述的任何其它解码器系统或子系统所论述的各种模块。
在一些实例中,天线42可以用于接收音频数据的经编码码流。如所论述,经编码码流可以包含本文所论述的与音频帧相关的音频信号数据、元数据等。音频译码系统40还可包含耦合至天线42并用于解码经编码码流的解码器30。播放设备45用于播放音频帧。
应理解,本申请中对于参考编码器20所描述的实例,解码器30可以用于执行相反过程。关于元数据,解码器30可以用于接收并解析这种元数据,相应地解码相关音频数据。在一些例子中,编码器20可以将元数据熵编码成经编码音频码流。在此类实例中,解码器30可以解析这种元数据,并相应地解码相关音频数据。
图2是本申请提供的音频译码设备200(例如音频编码设备或音频解码设备)的结构示意图。音频译码设备200适于实施本申请所描述的实施例。在一个实施例中,音频译码设备200可以是音频解码器(例如图1A的解码器30)或音频编码器(例如图1A的编码器20)。在另一个实施例中,音频译码设备200可以是上述图1A的解码器30或图1A的编码器20中的一个或多个组件。
音频译码设备200包括:用于接收数据的入口端口210和接收单元(Rx)220,用于处理数据的处理器、逻辑单元或中央处理器(CPU)230,用于传输数据的发射器单元(Tx)240和出口端口250,以及,用于存储数据的存储器260。音频译码设备200还可以包括与入口端口210、接收器单元220、发射器单元240和出口端口250耦合的光电转换组件和电光(EO)组件,用于光信号或电信号的出口或入口。
处理器230通过硬件和软件实现。处理器230可以实现为一个或多个CPU芯片、核(例如,多核处理器)、FPGA、ASIC和DSP。处理器230与入口端口210、接收器单元220、发射器单元240、出口端口250和存储器260通信。处理器230包括译码模块270(例如编码模块270或解码模块270)。编码/解码模块270实现本文中所公开的实施例,以实现本申请所提供的音频信号的比特分配方法。例如,编码/解码模块270实现、处理或提供各种编码操作。因此,通过编码/解码模块270为音频译码设备200的功能提供了实质性的改进,并影响了音频译码设备200到不同状态的转换。或者,以存储在存储器260中并由处理器230执行的指令来实现编码/解码模块270。
存储器260包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择性地执行这些程序时存储程序,并存储在程序执行过程中读取的指令和数据。存储器260可以是易失性和/或非易失性的,可以是只读存储器(ROM)、随机存取存储器(RAM)、随机存取存储器(ternary content-addressable memory,TCAM)和/或静态随机存取存储器(SRAM)。
图3是根据一示例性实施例的装置300的简化框图。装置300可以实现本申请的技术。换言之,图3为本申请的编码设备或解码设备(简称为译码设备300)的一种实现方式的示意性框图。其中,装置300可以包括处理器310、存储器330和总线系统350。其中,处理器和存储器通过总线系统相连,该存储器用于存储指令,该处理器用于执行该存储器存储的指令。译码设备的存储器存储程序代码,且处理器可以调用存储器中存储的程序代码执行本申请描述的方法。为避免重复,这里不再详细描述。
在本申请中,该处理器310可以是中央处理单元(Central Processing Unit,简称为“CPU”),该处理器310还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器330可以包括只读存储器(ROM)设备或者随机存取存储器(RAM)设备。任何其他适宜类型的存储设备也可以用作存储器330。存储器330可以包括由处理器310使用总线350访问的代码和数据331。存储器330可以进一步包括操作系统333和应用程序335。
该总线系统350除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统350。
可选的,译码设备300还可以包括一个或多个输出设备,诸如扬声器370。在一个示例中,扬声器370可以是耳机或外放。扬声器370可以经由总线350连接到处理器310。
基于上述实施例的描述,本申请提供了一种音频信号的比特分配方法。图4是用于实现本申请的一种音频信号的比特分配方法的流程示意图。该过程400可由源设备12或者目的设备14执行。过程400描述为一系列的步骤或操作,应当理解的是,过程400可以以各种顺序执行和/或同时发生,不限于图4所示的执行顺序。如图4所示,该方法包括:
步骤401、获取当前帧中的T个音频信号。
T为正整数。当前帧是本申请的方法执行过程时,在当前时刻获取到的音频帧。为了营造具有沉浸感的立体声音效果,三维音频技术不再是简单的采用多声道进行表示,而是将不同的声音采用不同的音频信号的表示,例如,环境中包括人的声音、音乐的声音、汽车的声音等,分别用三个音频信号表示人的声音、音乐的声音和汽车的声音,然后在三维空间中根据这三个音频信号对各个声音进行重构,实现多种声音在三维空间的表示。即音频帧中可能包含了多个音频信号,一个音频信号代表现实中的一种语音、音乐或音效。需要说明的是,任何从音频帧中提取音频信号的技术均可以用于本申请,对此不作具体限定。
在一种可能的实现方式中,获取当前帧中的S组元数据,该S组元数据和上述T个音频信号对应。例如,T个音频信号中的每个音频信号对应一组元数据,此时S=T。又例如,T个音频信号中只有部分音频信号存在对应元数据,此时T>S。对此不作具体限定。
本申请中,在编码端基于对原始语音、音乐或音效等的预先处理,音频数据和元数据在该过程中已分别生成,编码端可以根据音频帧的原理,对应于当前帧的起始时间(采样点)和终止时间(采样点),取对应时间范围内的元数据作为当前帧的元数据。在解码端可以从接收到的码流中解析获取当前帧的元数据。
本申请采用元数据描述音频信号在空间声场中的状态。示例性的,表1示出了一个元数据示例,该元数据包括的参数有对象索引(object_index)、方位角(position_azimuth)、俯仰角(position_elevation)、位置半径(position_radius)、增益因子(gain_factor)、统一传播度(spread_uniform)、传播宽度(spread_width)、传播高度(spread_height)、传播深度(spread_depth)、扩散度(diffuseness)、重要度(priority)、分割度(divergence)和速度(speed),元数据中记录了上述参数的取值范围和比特数。需要说明的是,元数据还可以包括其他参数及参数的记录形式,本申请对此不作具体限定。
表1
元数据 | 取值范围(精度) | 比特数 |
object_index | 1;128(1) | 7 |
position_azimuth | -180;180(2) | 8 |
position_elevation | -90;90(5) | 6 |
position_radius | 0.5;16(non-linear) | 4 |
gain_factor | 0.004;5.957(non-linear) | 7 |
spread_uniform | 0;180 | 7 |
spread_width | 0;180 | 7 |
spread_height | 0;90 | 5 |
spread_depth | 0;15.5 | 4 |
diffuseness | 0;1 | 7 |
priority | 0;7 | 3 |
divergence | 0;1 | 8 |
speed | 0,1 | 4 |
步骤402、根据T个音频信号确定第一音频信号集合。
该第一音频信号集合包括M个音频信号,M为正整数,T个音频信号包括M个音频信号,T≥M。本申请中可以将T个音频信号中有对应的元数据的音频信号加入第一音频信号集合。即如果上述T个音频信号均对应元数据,则可以将T个音频信号全部加入第一音频信号集合中,如果上述T个音频信号中只有部分音频信号对应元数据,则只需将这部分音频信号加入第一音频信号集合。本申请还可以将T个音频信号中预先指定的音频信号加入第一音频信号集合。通过高层信令或用户指定的方式,可以将上述T个音频信号中的部分或全部音频信号加入第一音频信号集合。可选的,高层信令直接配置要加入第一音频信号集合的音频信号的索引。或者,用户指定语音、音乐或音效,将指定对象的音频信号加入第一音频信号集合。本申请还可以参考元数据中记录的音频信号的重要度参数,该重要度参数用于表示对应音频信号在三维音频中的重要性,当重要度参数大于或等于设定的参与阈值时,在上述T个音频信号中将重要度参数对应的音频信号加入第一音频信号集合。
需要说明的是,上述提供了几种对当前帧中的T个音频信号进行归类处理(即将T个音频信号中的全部或部分音频信号加入第一音频信号集合)的方法,应当理解,其并不能成为本申请的全部限定,还可以采用其他方法,包括参考高层信令的其他指定方式、元数据中的其他参数等,均可用于本申请。
步骤403、确定第一音频信号集合中的M个音频信号的优先级。
本申请可以先获取M个音频信号中每个音频信号的声场分级参数,然后根据M个音频信号中每个音频信号的声场分级参数确定M个音频信号的优先级。
声场分级参数可以是根据音频信号的相关参数获取的音频信号的重要性指标,该相关参数可以包括运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,这些参数中可以根据音频信号自身的信号特征获取,也可以根据音频信号的元数据获取。其中,运动分级参数用于描述第一音频信号在空间声场中单位时间内移动快慢,音量分级参数用于描述第一音频信号在空间声场中回放时的音量大小,传播分级参数用于描述第一音频信号在空间声场中回放时的传播范围的大小,扩散分级参数用于描述第一音频信号在空间声场中扩散范围的大小,状态分级参数用于描述第一音频信号在空间声场中声源分割的大小,排序分级参数用于描述第一音频信号在空间声场中优先排序的大小,信号分级参数用于描述第一音频信号编码过程中能量的大小。
以下以第i个音频信号为例,对上述参数的获取方法进行说明,第i个音频信号是上述M个音频信号中的任意一个。需要说明的是,以下几种参数是示例性的说明,还可以采用音频信号的其他参数或特性计算声场分级参数,本申请对此不作具体限定。
(1)运动分级参数
可以通过以下公式计算运动分级参数:
其中,speedRatioi表示第i个音频信号的运动分级参数;f(di)表示第i个音频信号在空间声场的运动状态与元数据之间的映射关系;di表示第i个音频信号在单位时间内移动的距离,θi表示第i个音频信号移动后相较于渲染中心点的方位角,表示第i个音频信号移动后相较于渲染中心点的俯仰角,ri表示第i个音频信号移动后相较于渲染中心点的的距离,θ0表示第i个音频信号移动前相较于渲染中心点的方位角,表示第i个音频信号移动前相较于渲染中心点的俯仰角,r0表示第i个音频信号移动前相较于渲染中心点的的距离。如图5所示,假设以球坐标表示三维音频在空间场中的位置,球心作为渲染中心点,球体的半径是第i个音频信号在空间场中的位置与球心的距离,第i个音频信号在空间场中的位置与水平面之间的夹角为第i个音频信号的俯仰角,第i个音频信号在空间场中的位置在水平面上的投影与渲染中心点的正前方的夹角为第i个音频信号的方位角;表示上述M个音频信号分别在空间声场的运动状态与元数据之间的映射关系之和。
或者,还可以通过以下公式计算运动分级参数:
需要说明的是,运动分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(2)音量分级参数
可以通过以下公式计算音量分级参数:
其中,loudRatioi表示第i个音频信号的音量分级参数;f(Ai,gaini,ri)表示第i个音频信号在空间声场的回放音量与信号特征和元数据之间的映射关系;Ai表示第i个音频信号的在当前帧中的各个采样点的幅度之和或平均值,采样点的幅度可以通过第i个音频信号的元数据获取;gaini表示音频信号在当前帧中增益值,可以通过第i个音频信号的元数据获取;ri表示第i个音频信号在当前帧中距离渲染中心点的距离,可以通过第i个音频信号的元数据获取;表示上述M个音频信号在空间声场的回放音量与信号特征和元数据之间的映射关系之和。
或者,还可以通过以下公式计算音量分级参数:
其中,mean(Ai)表示第i个音频信号的在当前帧中的各个采样点的幅度之和或平均值,采样点的幅度可以通过第i个音频信号的元数据获取;表示上述M个音频信号分别在当前帧中的各个采样点的幅度之和或平均值之和。
或者,还可以通过以下公式计算音量分级参数:
或者,还可以通过以下公式计算音量分级参数:
需要说明的是,音量分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(3)传播分级参数
传播分级参数描述了第i个音频信号在当前帧中的传播度,可以通过第i个音频信号的spread相关元数据获取。需要说明的是,传播分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(4)扩散分级参数
扩散分级参数描述了第i个音频信号在当前帧中的扩散度,可以通过第i个音频信号的diffuseness相关元数据获取。需要说明的是,扩散分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(5)状态分级参数
状态分级参数描述了第i个音频信号在当前帧中的分割度,可以通过第i个音频信号的divergence相关元数据获取。需要说明的是,状态分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(6)排序分级参数
排序分级参数描述了第i个音频信号在当前帧中的优先排序度,可以通过第i个音频信号的priority相关元数据获取。需要说明的是,排序分级参数还可以采用其他方法计算,本申请对此不作具体限定。
(7)信号分级参数
信号分级参数描述了第一音频信号在当前帧编码过程中的能量,可以通过第i个音频信号的原始能量获取,也可以通过第i个音频信号经过预处理后的信号能量获取。需要说明的是,信号分级参数还可以采用其他方法计算,本申请对此不作具体限定。
获取到第i个音频信号的上述一个或多个参数后,可以基于该一个或多个参数计算第i个音频信号的声场分级参数sceneRatioi,即第i个音频信号的声场分级参数sceneRatioi可以是关于该一个或多个参数的函数,可以表示为:
sceneRatioi=f(speedRatioi,loudRatioi,......)
该函数可以是线性的,也可以是非线性的,本申请对此不作具体限定。
在一种可能的实现方式中,可以对第i个音频信号的上述一个或多个参数,例如,运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个,进行加权平均获取第i个音频信号的声场分级参数。即
sceneRatioi=f(speedRatioi,loudRatioi,......)
=α1×speedRatioi+α2×loudRatioi+......
其中,α1-α4分别是对应参数的权重因子,该权重因子的值可以为从0-1的任意值,其总和为1。权重因子的值越大,表示其所对应的参数在计算声场分级参数时的重要性、比重越高,如果为0表示其所对应的参数不参与声场分级参数的计算,亦即该参数所对应的音频信号的特性不被考虑来计算声场分级参数;如果为1表示只考虑其所对应的参数参与声场分级参数的计算,亦即该参数所对应的音频信号的特性是计算声场分级参数的唯一依据。权重因子的值可以通过预先设置获取,也可以在本申请的方法执行过程中自适应计算获取,本申请对此不作具体限定。可选的,如果只获取第i个音频信号的上述一个或多个参数得其中一个参数,那么就把该参数作为第i个音频信号的声场分级参数。
在一种可能的实现方式中,可以对第i个音频信号的上述一个或多个参数,例如,运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个,求平均获取第i个音频信号的声场分级参数。即
需要说明的是,上述函数中,计算第i个音频信号的声场分级参数上述提供了两种计算第i个音频信号的声场分级参数的函数实现方法,本申请还可以采用其他的计算方法,对此不作具体限定。
基于第i个音频信号的声场分级参数,本申请可以采用以下方法获取第i个音频信号的优先级。第i个音频信号的声场分级参数和优先级之间是线性关系,即声场分级参数越大,优先级越高,如图6所示,空间声场以渲染中心为球心,距离该球心越近的音频信号的优先级越高,距离该球心越远的音频信号的优先级越低。
在一种可能的实现方式中,可以根据设定的第一对应关系将与第i个音频信号的声场分级参数对应的优先级确定为第一音频信号的优先级,第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个声场分级参数对应一个优先级。
根据音频信号编码的历史数据和/或经验积累,可以预先设定音频信号的优先级等级,以及声场分级参数和各个优先级之间的对应关系。示例性的,表2示出了声场分级参数和优先级的一个示例性的第一对应关系。
表2
声场分级参数 | 优先级 |
0.9 | 1 |
0.8 | 2 |
0.7 | 3 |
0.6 | 4 |
0.5 | 5 |
0.4 | 6 |
0.3 | 7 |
0.2 | 8 |
0.1 | 9 |
0 | 10 |
根据表2,当第i个音频信号的声场分级参数为0.4时,其对应的优先级为6,那么此时第i个音频信号的优先级为6。当第i个音频信号的声场分级参数为0.1时,其对应的优先级为9,那么此时第i个音频信号的优先级为9。需要说明的是,表2是声场分级参数和优先级的对应关系的一个示例,其并不构成对本申请涉及到此类对应关系的限定。
在一种可能的实现方式中,可以将第i个音频信号的声场分级参数作为第i个音频信号的优先级。
本申请可以不对优先级分出等级,直接将第i个音频信号的声场分级参数当作其优先级。
在一种可能的实现方式中,可以根据设定的范围阈值确定第i个音频信号的声场分级参数的所属范围,将与第i个音频信号的声场分级参数的所属范围对应的优先级确定为第i个音频信号的优先级。
根据音频信号编码的历史数据和/或经验积累,可以预先设定音频信号的优先级等级,以及声场分级参数的区间和各个优先级之间的对应关系。示例性的,表3示出了声场分级参数和优先级的另一个示例性的第一对应关系。
表3
声场分级参数区间 | 优先级 |
[0.9,1) | 1 |
[0.8,0.9) | 2 |
[0.7,0.8) | 3 |
[0.6,0.7) | 4 |
[0.5,0.6) | 5 |
[0.4,0.5) | 6 |
[0.3,0.4) | 7 |
[0.2,0.3) | 8 |
[0.1,0.2) | 9 |
[0,0.1) | 10 |
根据表3,当第i个音频信号的声场分级参数为0.6时,其所属的区间为[0.6,0.7),对应的优先级为4,那么此时第i个音频信号的优先级为4。当第i个音频信号的声场分级参数为0.15时,其所属的区间为[0.1,0.2),对应的优先级为9,那么此时第i个音频信号的优先级为9。需要说明的是,表3是声场分级参数和优先级的对应关系的一个示例,其并不构成对本申请涉及到此类对应关系的限定。
步骤404、根据M个音频信号的优先级对M个音频信号进行比特分配。
本申请可以根据当前可用比特数和M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。当前可用比特数是指当前帧中编解码器在进行比特分配前可以用于对第一音频信号集合中的M个音频信号进行比特分配的总的比特数。
在一种可能的实现方式中,可以根据第一音频信号的优先级确定第一音频信号的比特数占比,第一音频信号为M个音频信号中的任意一个,对当前可用比特数和第一音频信号的比特数占比计算乘积获取第一音频信号的比特数。音频信号的优先级和比特数占比之间预先建立了对应关系,可以一个优先级对应一个比特数占比,也可以多个优先级对应一个比特数占比。基于该比特数占比,以及当前可用比特数,就可以计算获取对应的音频信号可以被分配的比特数。例如,M为3,第一个音频信号的优先级为1,第二个音频信号的优先级为2,第三个音频信号的优先级为3,假设设定优先级1对应的占比为50%,优先级2对应的占比为30%,优先级3对应的占比为20%,当前可用比特数为100,那么第一个音频信号分配的比特数为50,第二个音频信号分配的比特数为30,第三个音频信号分配的比特数为20。需要说明的是,在不同的音频帧中,优先级对应的比特数是可以自适应调整的,对此不作具体限定。
在一种可能的实现方式中,可以根据设定的第二对应关系将与第一音频信号的优先级对应的比特数确定为第一音频信号的比特数,第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个优先级对应一个比特数。音频信号的优先级和比特数之间预先建立了对应关系,可以一个优先级对应一个比特数,也可以多个优先级对应一个比特数。基于该对应关系,只要获取了音频信号的优先级,就可以获取与其对应的比特数。例如,M为3,第一个音频信号的优先级为1,第二个音频信号的优先级为2,第三个音频信号的优先级为3,假设设定优先级1对应的比特数为50,优先级2对应的比特数为30,优先级3对应的比特数为20。
在一种可能的实现方式中,当音频信号的声场分级参数不含有信号分级参数时,且当声场分级参数较小时,认为音频信号间声场分级差异很小,此时音频信号间的比特分配可以根据编解码过程中音频信号间的绝对能量比确定;当音频信号的声场分级参数不含有信号分级参数时,且当当音频信号的声场分级参数较大时,认为音频信号间声场分级差异很大,此时音频信号间的比特分配可以根据音频信号的声场分级参数确定;其他情况下,音频信号的比特分配可以根据音频信号的比特分配因子确定。因此可以有以下公式:sceneRatioi表示第i个音频信号的声场分级参数,bits_available表示当前可用比特数,bits_objecti表示第i个音频信号分配的比特数。
当sceneRatioi≤δ时,bits_objecti=nrgRatioi×bits_available,其中,δ表示声场分级参数的上限,nrgRatioi表示第i个音频信号和其他音频信号之间的绝对能量比。
当sceneRatioi≥τ时,bits_objecti=sceneRatioi×bits_available,τ表示声场分级参数的下限。
除上述两种情况外,bits_objecti=objRatioi×bits_available,其中,objRatioi表示第i个音频信号的比特分配因子。
需要说明的是,除上述描述的音频信号分配的比特数的确定方法外,还可以采用其他方法实现,本申请对此不作具体限定。
本申请根据当前帧中包括的多个音频信号的特征及元数据中的音频信号的相关信息,确定该多个音频信号的优先级,根据该优先级确定要分配给各个音频信号的比特数,既可以自适应音频信号的特征,也可以针对不同音频信号匹配不同的编码比特数,提高了音频信号的编解码效率。
本申请在步骤402中从当前帧的T个音频信号中确定出了M个音频信号加入第一音频信号集合,对该M个音频信号采用步骤403和步骤404的方法,先确定各音频信号的优先级,再根据音频信号的优先级确定分配给各音频信号的比特数。当T>M时,第一音频信号集合中的音频信号并不是当前帧中的所有音频信号,可以将剩余的音频信号加入第二音频信号集合,该第二音频信号集合包括N个音频信号,N=T-M。针对该N个音频信号,可以采用较为简单的方法确定其分配的比特数,例如,对第二音频信号集合可用的总比特数对N求平均获取每个音频信号的比特数,即将第二音频信号集合可用的总比特数平均分配给该集合中的N个音频信号。需要说明的是,第二音频信号集合还可以采用其他的方法获取集合中的各音频信号的比特数,本申请对此不作具体限定。
另外,除上述步骤403中描述的音频信号的优先级确定方法外,本申请还提供了一种基于多种优先级确定方法的优先级融合方法,即针对同一音频信号,可以采用多种方法获取其优先级,那么如何确定该音频信号最终的优先级的方法。以下以第一音频信号为例进行描述,第一音频信号为上述M个音频信号中的任意一个。
在一种可能的实现方式中,根据第一音频信号和/或与第一音频信号对应的元数据获取第一音频信号的第一参数集和第二参数集,第一参数集包括第一音频信号的上述相关参数中的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,第二参数集也包括第一音频信号的上述相关参数中的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个。第一参数集和第二参数集可以包含相同的参数,也可以包含不同的参数。根据第一参数集获取第一音频信号的第一声场分级参数。此处可以参照上述步骤403中确定第一音频信号集合中的M个音频信号的声场分级参数的方法,也可以采用其他方法。根据第二参数集获取第一音频信号的第二声场分级参数。此处所采用的方法与计算第一声场分级参数的方法不相同。根据第一声场分级参数和第二声场分级参数获取第一音频信号的声场分级参数。本申请中对于同一音频信号的两种方法计算获取的声场分级参数,可以采用加权平均的方法,也可以采用直接求平均的方法,还可以采用取最大值或取最小值的方法确定该音频信号最终的声场分级参数,对此不作具体限定。这样可以实现音频信号的声场分级参数的多样性获取,兼容各种策略下的计算方案。
在一种可能的实现方式中,获取到第一音频信号的第一声场分级参数和第二声场分级参数后,可以根据第一声场分级参数获取第一音频信号的第一优先级。此时可以采用上述步骤403的方法获取该优先级,也可以采用其他方法获取。根据第二声场分级参数获取第一音频信号的第二优先级。此处所采用的的方法与计算第一优先级的方法不相同。根据第一优先级和第二优先级获取第一音频信号的优先级。本申请中对于同一音频信号的两种方法计算获取的优先级,可以采用加权平均的方法,也可以采用求平均的方法,还可以采用取最大值或取最小值的方法确定该音频信号最终的优先级,对此不作具体限定。这样可以实现音频信号的优先级的多样性获取,兼容各种策略下的计算方案。
当采用上述实施例的方法确定了当前帧的T个音频信号分配的比特数后,本申请可以根据T个音频信号的比特数生成码流,该码流包括T个第一标识、T个第二标识和T个第三标识,T个音频信号分别和T个第一标识、T个第二标识和T个第三标识对应,第一标识用于表示对应音频信号所属的音频信号集合,第二标识用于表示对应音频信号的优先级,第三标识用于表示对应音频信号的比特数;将码流发送给解码设备。解码设备收到码流后,根据码流中携带的T个第一标识、T个第二标识和T个第三标识执行上述音频信号的比特分配方法,确定T个音频信号的比特数。解码设备也可以直接根据码流中携带的T个第一标识、T个第二标识和T个第三标识确定T个音频信号所属的音频信号集合、优先级及分配的比特数,进而对码流进行解码获取T个音频信号。上述第一标识、第二标识和第三标识是在图4所示的方法实施例的基础上添加的标识信息,以便于音频信号的编解码端可以基于相同的方法对音频信号进行编码或解码。
图7为本申请装置实施例的结构示意图,如图7所示,该装置可以应用于上述实施例中的编码设备或解码设备。本实施例的装置可以包括:处理模块701和收发模块702。其中,处理模块701,用于获取当前帧中的T个音频信号,T为正整数;根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;确定所述第一音频信号集合中的所述M个音频信号的优先级;根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。
在一种可能的实现方式中,所述处理模块701,具体用于获取所述M个音频信号中每个音频信号的声场分级参数;根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级。
在一种可能的实现方式中,所述处理模块701,具体用于获取第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块701,具体用于获取所述当前帧中的S组元数据,S为正整数,T≥S,所述S组元数据和所述T个音频信号对应,所述元数据用于描述对应的音频信号在空间声场中的状态。
在一种可能的实现方式中,所述处理模块701,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块701,具体用于对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个加权平均获取所述声场分级参数;或者,对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个求平均获取所述声场分级参数;或者,将获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个作为所述声场分级参数。
在一种可能的实现方式中,所述处理模块701,具体用于根据设定的第一对应关系将与所述第一音频信号的声场分级参数对应的优先级确定为所述第一音频信号的优先级,所述第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个所述声场分级参数对应一个所述优先级,所述第一音频信号为所述M个音频信号中的任意一个;或者,将所述第一音频信号的声场分级参数作为所述第一音频信号的优先级;或者,根据设定的范围阈值确定所述第一音频信号的声场分级参数的所属范围,将与所述第一音频信号的声场分级参数的所属范围对应的优先级确定为所述第一音频信号的优先级。
在一种可能的实现方式中,所述处理模块701,具体用于根据当前可用比特数和所述M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。
在一种可能的实现方式中,所述处理模块701,具体用于根据第一音频信号的优先级确定所述第一音频信号的比特数占比,所述第一音频信号为所述M个音频信号中的任意一个;根据所述当前可用比特数和所述第一音频信号的比特数占比的乘积获取所述第一音频信号的比特数。
在一种可能的实现方式中,所述处理模块701,具体用于根据第一音频信号的优先级从设定的第二对应关系中确定为所述第一音频信号的比特数,所述第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个所述优先级对应一个所述比特数,所述第一音频信号为所述M个音频信号中的任意一个。
在一种可能的实现方式中,所述处理模块701,具体用于将所述T个音频信号中预先指定的音频信号加入所述第一音频信号集合。
在一种可能的实现方式中,所述处理模块701,具体用于将所述S组元数据在所述T个音频信号中对应的音频信号加入所述第一音频信号集合;或者,将大于或等于设定的参与阈值的重要度参数对应的音频信号加入所述第一音频信号集合,所述元数据包括所述重要度参数,所述T个音频信号包括所述重要度参数对应的音频信号。
在一种可能的实现方式中,所述处理模块701,具体用于获取第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块701,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;根据与所述第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
在一种可能的实现方式中,所述处理模块701,具体用于根据所述第一声场分级参数获取所述第一音频信号的第一优先级;根据所述第二声场分级参数获取所述第一音频信号的第二优先级;根据所述第一优先级和所述第二优先级获取所述第一音频信号的优先级。
在一种可能的实现方式中,所述处理模块701,还用于根据所述M个音频信号所分配的比特数对所述M个音频信号进行编码以获取编码码流。
在一种可能的实现方式中,所述编码码流包括所述M个音频信号的比特数。
在一种可能的实现方式中,还包括:收发模块702,用于接收编码码流;所述处理模块701,还用于获取所述M个音频信号各自的比特数;根据所述M个音频信号各自的比特数以及所述编码码流重建所述M个音频信号。
本实施例的装置,可以用于执行图4所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本申请设备实施例的结构示意图,如图8所示,该设备可以是上述实施例中的编码设备或解码设备。本实施例的设备可以包括:处理器801和存储器802,存储器802,用于存储一个或多个程序;当所述一个或多个程序被所述处理器801执行,使得所述处理器801实现如图4所示方法实施例的技术方案。
在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。处理器可以是通用处理器、数字信号处理器(digital signalprocessor,DSP)、特定应用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。本申请公开的方法的步骤可以直接体现为硬件编码处理器执行完成,或者用编码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
上述各实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (41)
1.一种音频信号的比特分配方法,其特征在于,包括:
获取当前帧中的T个音频信号,T为正整数;
根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;
确定所述第一音频信号集合中的所述M个音频信号的优先级;
根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。
2.根据权利要求1所述的方法,其特征在于,所述确定所述第一音频信号集合中的所述M个音频信号的优先级,包括:
获取所述M个音频信号中每个音频信号的声场分级参数;
根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级。
3.根据权利要求2所述的方法,其特征在于,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:
获取第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;
根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;
其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述当前帧中的S组元数据,S为正整数,T≥S,所述S组元数据和所述T个音频信号对应,所述元数据用于描述对应的音频信号在空间声场中的状态。
5.根据权利要求4所述的方法,其特征在于,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:
根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;
根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;
其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
6.根据权利要求3或5所述的方法,其特征在于,所述根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数,包括:
对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个加权平均获取所述声场分级参数;或者,
对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个求平均获取所述声场分级参数;或者,
将获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个作为所述声场分级参数。
7.根据权利要求2-6中任一项所述的方法,其特征在于,所述根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级,包括:
根据设定的第一对应关系将与第一音频信号的声场分级参数对应的优先级确定为所述第一音频信号的优先级,所述第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个所述声场分级参数对应一个所述优先级,所述第一音频信号为所述M个音频信号中的任意一个;或者,
将所述第一音频信号的声场分级参数作为所述第一音频信号的优先级;或者,
根据设定的多个范围阈值确定所述第一音频信号的声场分级参数的所属范围,将与所述第一音频信号的声场分级参数的所属范围对应的优先级确定为所述第一音频信号的优先级。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述M个音频信号的优先级对所述M个音频信号进行比特分配,包括:
根据当前可用比特数和所述M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。
9.根据权利要求8所述的方法,其特征在于,所述根据当前可用比特数和所述M个音频信号的优先级进行比特分配,包括:
根据第一音频信号的优先级确定所述第一音频信号的比特数占比,所述第一音频信号为所述M个音频信号中的任意一个;
根据所述当前可用比特数和所述第一音频信号的比特数占比的乘积获取所述第一音频信号的比特数。
10.根据权利要求8所述的方法,其特征在于,所述根据当前可用比特数和所述M个音频信号的优先级进行比特分配,包括:
根据第一音频信号的优先级从设定的第二对应关系中确定所述第一音频信号的比特数,所述第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个所述优先级对应一个所述比特数,所述第一音频信号为所述M个音频信号中的任意一个。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述根据所述T个音频信号确定第一音频信号集合,包括:
将所述T个音频信号中预先指定的音频信号加入所述第一音频信号集合。
12.根据权利要求4所述的方法,其特征在于,所述根据所述T个音频信号确定第一音频信号集合,包括:
将所述S组元数据在所述T个音频信号中对应的音频信号加入所述第一音频信号集合;或者,
将大于或等于设定的参与阈值的重要度参数对应的音频信号加入所述第一音频信号集合,所述元数据包括所述重要度参数,所述T个音频信号包括所述重要度参数对应的音频信号。
13.根据权利要求2所述的方法,其特征在于,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:
获取第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;
根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;
获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;
根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;
根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;
其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
14.根据权利要求4所述的方法,其特征在于,所述获取所述M个音频信号中每个音频信号的声场分级参数,包括:
根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;
根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;
根据与所述第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;
根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;
根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;
其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
15.根据权利要求13或14所述的方法,其特征在于,所述根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级,包括:
根据所述第一声场分级参数获取所述第一音频信号的第一优先级;
根据所述第二声场分级参数获取所述第一音频信号的第二优先级;
根据所述第一优先级和所述第二优先级获取所述第一音频信号的优先级。
16.一种音频信号的编码方法,其特征在于,执行完权利要求1-15中任一项所述的音频信号的比特分配方法之后,还包括:
根据所述M个音频信号所分配的比特数对所述M个音频信号进行编码以获取编码码流。
17.根据权利要求16所述的音频信号的编码方法,其特征在于,所述编码码流包括所述M个音频信号的比特数。
18.一种音频信号的解码方法,其特征在于,执行完权利要求1-15中任一项所述的音频信号的比特分配方法之后,还包括:
接收编码码流;
执行如权利要求1-15中任一项所述的音频信号的比特分配方法获取所述M个音频信号各自的比特数;
根据所述M个音频信号各自的比特数以及所述编码码流重建所述M个音频信号。
19.一种音频信号的比特分配装置,其特征在于,包括:
处理模块,用于获取当前帧中的T个音频信号,T为正整数;根据所述T个音频信号确定第一音频信号集合,所述第一音频信号集合包括M个音频信号,M为正整数,所述T个音频信号包括所述M个音频信号,T≥M;确定所述第一音频信号集合中的所述M个音频信号的优先级;根据所述M个音频信号的优先级对所述M个音频信号进行比特分配。
20.根据权利要求19所述的装置,其特征在于,所述处理模块,具体用于获取所述M个音频信号中每个音频信号的声场分级参数;根据所述M个音频信号中每个音频信号的声场分级参数确定所述M个音频信号的优先级。
21.根据权利要求20所述的装置,其特征在于,所述处理模块,具体用于获取第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
22.根据权利要求20所述的装置,其特征在于,所述处理模块,具体用于获取所述当前帧中的S组元数据,S为正整数,T≥S,所述S组元数据和所述T个音频信号对应,所述元数据用于描述对应的音频信号在空间声场中的状态。
23.根据权利要求22所述的装置,其特征在于,所述处理模块,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中音量的大小,所述传播分级参数用于描述所述第一音频信号在空间声场中传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
24.根据权利要求21或23所述的装置,其特征在于,所述处理模块,具体用于对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个加权平均获取所述声场分级参数;或者,对获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的多个求平均获取所述声场分级参数;或者,将获取的所述运动分级参数、音量分级参数、传播分级参数、扩散分级参数、状态分级参数、排序分级参数和信号分级参数中的一个作为所述声场分级参数。
25.根据权利要求20-24中任一项所述的装置,其特征在于,所述处理模块,具体用于根据设定的第一对应关系将与第一音频信号的声场分级参数对应的优先级确定为所述第一音频信号的优先级,所述第一对应关系包括多个声场分级参数和多个优先级之间的对应关系,其中,一个或多个所述声场分级参数对应一个所述优先级,所述第一音频信号为所述M个音频信号中的任意一个;或者,将所述第一音频信号的声场分级参数作为所述第一音频信号的优先级;或者,根据设定的多个范围阈值确定所述第一音频信号的声场分级参数的所属范围,将与所述第一音频信号的声场分级参数的所属范围对应的优先级确定为所述第一音频信号的优先级。
26.根据权利要求19-25中任一项所述的装置,其特征在于,所述处理模块,具体用于根据当前可用比特数和所述M个音频信号的优先级进行比特分配,优先级越高的音频信号分配的比特数越多。
27.根据权利要求26所述的装置,其特征在于,所述处理模块,具体用于根据第一音频信号的优先级确定所述第一音频信号的比特数占比,所述第一音频信号为所述M个音频信号中的任意一个;根据所述当前可用比特数和所述第一音频信号的比特数占比的乘积获取所述第一音频信号的比特数。
28.根据权利要求26所述的装置,其特征在于,所述处理模块,具体用于根据第一音频信号的优先级从设定的第二对应关系中确定所述第一音频信号的比特数,所述第二对应关系包括多个优先级和多个比特数之间的对应关系,其中,一个或多个所述优先级对应一个所述比特数,所述第一音频信号为所述M个音频信号中的任意一个。
29.根据权利要求19-28中任一项所述的装置,其特征在于,所述处理模块,具体用于将所述T个音频信号中预先指定的音频信号加入所述第一音频信号集合。
30.根据权利要求22所述的装置,其特征在于,所述处理模块,具体用于将所述S组元数据在所述T个音频信号中对应的音频信号加入所述第一音频信号集合;或者,将大于或等于设定的参与阈值的重要度参数对应的音频信号加入所述第一音频信号集合,所述元数据包括所述重要度参数,所述T个音频信号包括所述重要度参数对应的音频信号。
31.根据权利要求20所述的装置,其特征在于,所述处理模块,具体用于获取第一音频信的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
32.根据权利要求22所述的装置,其特征在于,所述处理模块,具体用于根据与第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个,所述第一音频信号为所述M个音频信号中的任意一个;根据与所述第一音频信号对应的元数据,或者根据所述第一音频信号以及与所述第一音频信号对应的元数据获取所述第一音频信号的状态分级参数、排序分级参数和信号分级参数中的一个或多个;根据获取的所述运动分级参数、音量分级参数、传播分级参数和扩散分级参数中的一个或多个获取所述第一音频信号的第一声场分级参数;根据获取的所述状态分级参数、排序分级参数和信号分级参数中的一个或多个获取所述第一音频信号的第二声场分级参数;根据所述第一声场分级参数和所述第二声场分级参数获取所述第一音频信号的声场分级参数;其中,所述运动分级参数用于描述所述第一音频信号在空间声场中单位时间内移动快慢,所述音量分级参数用于描述所述第一音频信号在空间声场中回放时的音量大小,所述传播分级参数用于描述所述第一音频信号在空间声场中回放时的传播范围的大小,所述扩散分级参数用于描述所述第一音频信号在空间声场中扩散范围的大小,所述状态分级参数用于描述所述第一音频信号在空间声场中声源分割的大小,所述排序分级参数用于描述所述第一音频信号在空间声场中优先排序的大小,所述信号分级参数用于描述所述第一音频信号编码过程中能量的大小。
33.根据权利要求31或32所述的装置,其特征在于,所述处理模块,具体用于根据所述第一声场分级参数获取所述第一音频信号的第一优先级;根据所述第二声场分级参数获取所述第一音频信号的第二优先级;根据所述第一优先级和所述第二优先级获取所述第一音频信号的优先级。
34.根据权利要求19-33中任一项所述的装置,其特征在于,所述处理模块,还用于根据所述M个音频信号所分配的比特数对所述M个音频信号进行编码以获取编码码流。
35.根据权利要求34所述的装置,其特征在于,所述编码码流包括所述M个音频信号的比特数。
36.根据权利要求34或35所述的装置,其特征在于,还包括:收发模块,用于接收编码码流;所述处理模块,还用于获取所述M个音频信号各自的比特数;根据所述M个音频信号各自的比特数以及所述编码码流重建所述M个音频信号。
37.一种设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-18中任一项所述的方法。
38.一种计算机可读存储介质,其特征在于,包括计算机程序,所述计算机程序在计算机上被执行时,使得所述计算机执行权利要求1-18中任一项所述的方法。
39.一种计算机可读存储介质,其特征在于,包括根据如权利要求16所述的方法获取的编码码流。
40.一种编码装置,其特征在于,包括处理器和通信接口,所述处理器通过所述通信接口读取存储计算机程序,所述计算机程序包括程序指令,所述处理器用于调用所述程序指令,执行如权利要求1至18中任一项所述的方法。
41.一种编码装置,其特征在于,包括处理器和存储器,所述处理器用于执行权利要求16所述的方法,所述存储器用于存放所述编码码流。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010368424.9A CN113593585A (zh) | 2020-04-30 | 2020-04-30 | 音频信号的比特分配方法和装置 |
BR112022021882A BR112022021882A2 (pt) | 2020-04-30 | 2021-03-31 | Método e aparelho de alocação de bits para sinal de áudio, dispositivo, meio de armazenamento legível por computador, aparelho de codificação e aparelho de decodificação |
KR1020227040823A KR20230002968A (ko) | 2020-04-30 | 2021-03-31 | 오디오 신호에 대한 비트 할당 방법 및 장치 |
EP21797604.2A EP4131259A4 (en) | 2020-04-30 | 2021-03-31 | BIT ALLOCATION METHOD AND DEVICE FOR AUDIO SIGNALS |
PCT/CN2021/084578 WO2021218558A1 (zh) | 2020-04-30 | 2021-03-31 | 音频信号的比特分配方法和装置 |
JP2022565956A JP2023523081A (ja) | 2020-04-30 | 2021-03-31 | 音声信号に対するビット割り当て方法及び装置 |
TW110115467A TWI773286B (zh) | 2020-04-30 | 2021-04-29 | 音頻訊號的比特分配方法和裝置 |
US17/976,474 US11900950B2 (en) | 2020-04-30 | 2022-10-28 | Bit allocation method and apparatus for audio signal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010368424.9A CN113593585A (zh) | 2020-04-30 | 2020-04-30 | 音频信号的比特分配方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113593585A true CN113593585A (zh) | 2021-11-02 |
Family
ID=78237842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010368424.9A Pending CN113593585A (zh) | 2020-04-30 | 2020-04-30 | 音频信号的比特分配方法和装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11900950B2 (zh) |
EP (1) | EP4131259A4 (zh) |
JP (1) | JP2023523081A (zh) |
KR (1) | KR20230002968A (zh) |
CN (1) | CN113593585A (zh) |
BR (1) | BR112022021882A2 (zh) |
TW (1) | TWI773286B (zh) |
WO (1) | WO2021218558A1 (zh) |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5632005A (en) * | 1991-01-08 | 1997-05-20 | Ray Milton Dolby | Encoder/decoder for multidimensional sound fields |
ATE138238T1 (de) * | 1991-01-08 | 1996-06-15 | Dolby Lab Licensing Corp | Kodierer/dekodierer für mehrdimensionale schallfelder |
CN101217037B (zh) * | 2007-01-05 | 2011-09-14 | 华为技术有限公司 | 对音频信号的编码速率进行源控的方法和系统 |
WO2009039897A1 (en) * | 2007-09-26 | 2009-04-02 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
CN101950562A (zh) * | 2010-11-03 | 2011-01-19 | 武汉大学 | 基于音频关注度的分级编码方法及系统 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9754595B2 (en) * | 2011-06-09 | 2017-09-05 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding 3-dimensional audio signal |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US9502044B2 (en) * | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
JP6288100B2 (ja) | 2013-10-17 | 2018-03-07 | 株式会社ソシオネクスト | オーディオエンコード装置及びオーディオデコード装置 |
US9564136B2 (en) | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
CN103928030B (zh) * | 2014-04-30 | 2017-03-15 | 武汉大学 | 基于子带空间关注测度的可分级音频编码系统及方法 |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
US20180338212A1 (en) * | 2017-05-18 | 2018-11-22 | Qualcomm Incorporated | Layered intermediate compression for higher order ambisonic audio data |
US10854209B2 (en) * | 2017-10-03 | 2020-12-01 | Qualcomm Incorporated | Multi-stream audio coding |
-
2020
- 2020-04-30 CN CN202010368424.9A patent/CN113593585A/zh active Pending
-
2021
- 2021-03-31 JP JP2022565956A patent/JP2023523081A/ja active Pending
- 2021-03-31 EP EP21797604.2A patent/EP4131259A4/en active Pending
- 2021-03-31 BR BR112022021882A patent/BR112022021882A2/pt unknown
- 2021-03-31 KR KR1020227040823A patent/KR20230002968A/ko active Search and Examination
- 2021-03-31 WO PCT/CN2021/084578 patent/WO2021218558A1/zh unknown
- 2021-04-29 TW TW110115467A patent/TWI773286B/zh active
-
2022
- 2022-10-28 US US17/976,474 patent/US11900950B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP4131259A1 (en) | 2023-02-08 |
KR20230002968A (ko) | 2023-01-05 |
JP2023523081A (ja) | 2023-06-01 |
US20230133252A1 (en) | 2023-05-04 |
TWI773286B (zh) | 2022-08-01 |
TW202143216A (zh) | 2021-11-16 |
EP4131259A4 (en) | 2023-09-20 |
WO2021218558A1 (zh) | 2021-11-04 |
US11900950B2 (en) | 2024-02-13 |
BR112022021882A2 (pt) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2010125228A1 (en) | Encoding of multiview audio signals | |
US20240114307A1 (en) | Representing spatial audio by means of an audio signal and associated metadata | |
CN115552518A (zh) | 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质 | |
KR20230018495A (ko) | 오디오 코딩 방법 및 장치 | |
US11430451B2 (en) | Layered coding of audio with discrete objects | |
KR20230002899A (ko) | 오디오 신호 코딩 방법 및 장치 | |
CN113593585A (zh) | 音频信号的比特分配方法和装置 | |
US20230145725A1 (en) | Multi-channel audio signal encoding and decoding method and apparatus | |
WO2022262576A1 (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
KR20220152736A (ko) | 시청자 환경 기반 ar 서비스 제공 방법 및 장치 | |
CN114582356A (zh) | 一种音频编解码方法和装置 | |
CN113808597A (zh) | 一种音频编码方法和音频编码装置 | |
CN115550690B (zh) | 帧率调整方法、装置、设备及存储介质 | |
WO2022253187A1 (zh) | 一种三维音频信号的处理方法和装置 | |
CN111508507B (zh) | 一种音频信号处理方法及装置 | |
WO2022257824A1 (zh) | 一种三维音频信号的处理方法和装置 | |
US20240079016A1 (en) | Audio encoding method and apparatus, and audio decoding method and apparatus | |
EP4167600A2 (en) | A method and apparatus for low complexity low bitrate 6dof hoa rendering | |
WO2022184097A1 (zh) | 虚拟扬声器集合确定方法和装置 | |
WO2022012554A1 (zh) | 多声道音频信号编码方法和装置 | |
CN116980075A (zh) | 数据编码方法、装置、电子设备及存储介质 | |
WO2022242880A1 (en) | Encoding of a three-dimensional representation of a user and decoding of the same | |
JP2024517503A (ja) | 三次元オーディオ信号コーディング方法および装置、ならびにエンコーダ | |
AU2022278168A1 (en) | Three-dimensional audio signal encoding method and apparatus, and encoder | |
CN114283837A (zh) | 一种音频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |