CN117351966A - 一种处理多声道音频信号的方法、装置和系统 - Google Patents
一种处理多声道音频信号的方法、装置和系统 Download PDFInfo
- Publication number
- CN117351966A CN117351966A CN202311262035.8A CN202311262035A CN117351966A CN 117351966 A CN117351966 A CN 117351966A CN 202311262035 A CN202311262035 A CN 202311262035A CN 117351966 A CN117351966 A CN 117351966A
- Authority
- CN
- China
- Prior art keywords
- frame
- stereo parameter
- parameter set
- signal
- nth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 275
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000012545 processing Methods 0.000 title claims abstract description 24
- 238000001514 detection method Methods 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims description 28
- 230000009467 reduction Effects 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 238000004891 communication Methods 0.000 abstract description 24
- 230000006835 compression Effects 0.000 description 13
- 238000007906 compression Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种处理多声道音频信号方法、装置和系统,涉及音频编解码技术领域,用以解决现有技术中多声道音频通信系统不能非连续传输音频信号的问题。其中,编码器包括:信号检测单元和信号编码单元,信号编码单元用于在信号检测单元检测到第N帧下混信号中包含语音信号时,对第N帧下混信号编码,以及在信号检测单元检测到第N帧下混信号中不包含语音信号时:若信号检测单元确定第N帧下混信号满足预设的音频帧编码条件,则对第N帧下混信号编码;若信号检测单元确定第N帧下混信号不满足预设的音频帧编码条件,则不对第N帧下混信号编码。这种技术方案由于对下混信号的编码是非连续的,因此解决了现有技术中不能非连续传输音频信号的问题。
Description
本申请是分案申请,原申请的申请号是201680010600.3,原申请日是2016年9月28日,原申请的全部内容通过引用结合在本申请中。
技术领域
本发明涉及音频编解码技术领域,特别涉及一种处理多声道音频信号的方法、装置和系统。
背景技术
在音频通信中,为了增加通信系统的容量,通常在发送端对被传输的原始的每帧音频信号先编码再进行传输,通过编码实现了对音频信号的压缩,当接收端接收到信号后,对接收到的信号解码,然后恢复出原始音频信号。其中,为了实现对音频信号的最大化压缩,针对不同类型的音频信号,采用不同类型的编码方式。现有技术中,当音频信号为语音信号时,通常采用连续编码的方式,即分别对每帧语音信号编码,当音频信号为噪声信号时,通常采用非连续编码的方式对噪声信号编码,即每隔若干帧的噪声信号对一帧噪声信号编码,例如每隔六帧对噪声信号编码,对第一帧噪声信号编码后,则不再对第二帧至第七帧噪声信号编码,然后对第八帧噪声信号编码,在该第二帧到第七帧分别为六个No_Data帧。具体的,上述音频信号指的是单声道的音频信号。
随着音频通信技术的发展,在音频通信系统中还有一种特别的通信方式:立体声通信,以立体声通信为双声道通信为例,其中双声道包括第一声道和第二声道,发送端根据第一声道的第n帧语音信号和第二声道中的第n帧语音信号,得到用于将第一声道的第n帧语音信号和第二声道中的第n帧语音信号混合为一帧下混信号的立体声参数后,其中,下混信号为单通道信号,然后,发送端将双声道中的第n帧语音信号混合为一帧下混信号,n为大于零的正整数,再对该帧下混信号编码,最后将编码后的下混信号和立体声参数发送到接收端,接收端在接收到编码后的下混信号和立体声参数后,对编码后的下混信号解码,然后根据立体声参数将下混信号还原为双声道信号,这种传输方式与分别对双声道中的每帧语音信号都编码相比,大大降低了传输的比特数,从而达到了压缩的目的。
但是,当在立体声通信中,传输的是噪声信号时,采用的还是与语音信号相同的编码方式,若直接将单声道中非连续编码的方式应用在在立体声通信中,则在接收端不能将噪声信号还原,导致接收端的用户主观体验变差。
发明内容
本发明提供一种处理多声道音频信号的方法、装置和系统,用以解决现有技术中多声道音频通信系统不能非连续传输音频信号的问题。
第一方面,提供了一种处理多声道音频信号的方法,包括:编码器检测第N帧下混信号中是否包含语音信号,在检测到第N帧下混信号中包含语音信号时,对第N帧下混信号编码;在检测到第N帧下混信号中不包含语音信号时:若确定第N帧下混信号满足预设的音频帧编码条件,则对第N帧下混信号编码;若确定第N帧下混信号不满足预设的音频帧编码条件,则不对第N帧下混信号编码;其中,第N帧下混信号是由多声道中两个声道的第N帧音频信号基于预定第一算法混合后得到的,N为大于零的正整数。
由于编码器只有在下混信号中包含语音信号或者下混信号满足预设的音频帧编码条件时,才对下混信号编码,否则不对下混信号编码,从而使得编码器实现了对下混信号的非连续编码,提高了对下混信号的压缩效率。
需要说明的是,在本发明实施例中,预设的音频帧编码条件中包括第一帧下混信号,也就是说,在第一帧下混信号中不包含语音信号时,第一帧下混信号满足预设的音频帧编码条件,对第一帧下混信号编码。
在第一方面的基础上,为更大程度实现对下混信号的压缩效率,可选的,编码器在检测到第N帧下混信号中包含语音信号时,根据预设的语音帧编码速率对第N帧下混信号编码;在检测到第N帧下混信号中不包含语音信号时:若确定第N帧下混信号满足预设的语音帧编码条件,则根据预设的语音帧编码速率对第N帧下混信号编码;若确定第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件,则根据预设的SID编码速率对第N帧下混信号编码;其中,SID编码速率小于语音帧编码速率。
应理解,在具体实现时,若确定第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件,则预设的SID编码速率对第N帧下混信号进行SID编码,与语音信号编码相比,进一步提高了下混信号的压缩效率。此外,需要说明的是,在第一方面以及上述技术方案中,为了避免解码器无法将下混信号还原,还需将立体声参数集合编码。
在第一方面的基础上,为了再进一步提高多声道通信系统的压缩效率,可选的,编码器对立体声参数集合进行非连续编码,具体的,编码器根据第N帧音频信号,得到第N帧立体声参数集合,在检测到第N帧下混信号中包含语音信号时,则对第N帧立体声参数集合编码;在检测到第N帧下混信号中不包含语音信号时:若确定第N帧立体声参数集合满足预设的立体声参数编码条件,则对第N帧立体声参数集合中的至少一个立体声参数编码;若确定第N帧立体声参数集合不满足预设的立体声参数编码条件,则不对立体声参数集合编码;其中,第N帧立体声参数集合中包括Z个立体声参数,Z个立体声参数包括编码器基于预定算法对第N帧音频信号混合时所用到的参数,Z为大于零的正整数。
在第一方面的基础上,可选的,为了更进一步提高多声道通信系统的压缩效率,编码器在对第N帧立体声参数集合中的至少一个立体声参数编码前,根据第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,然后再对X个目标立体声参数编码,其中,X为大于零且小于等于Z的正整数。
其中,预设的立体声参数降维规则可以为预设的立体声参数类型,即从第N帧立体声参数集合中选出符合预设的立体声参数类型的X个立体声参数,或者,预设的立体声参数降维规则为预设的立体声参数个数,即从第N帧立体声参数集合中选出X个立体声参数,或者,预设的立体声参数降维规则为针对第N帧立体声参数集合中至少一个立体声参数降低在时域或频域的分辨率,即按照降低后的至少一个立体声参数在时域或频域的分辨率,基于Z个立体声参数确定出X个目标立体声参数。
在第一方面的基础上,可选的,还可通过下述方法,提高多声道通信系统的压缩效率:
编码器在检测到第N帧音频信号包含语音信号时:根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,并对第N帧立体声参数集合编码;在检测到第N帧音频信号不包含语音信号时:若确定第N帧音频信号满足预设的语音帧编码条件,则根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,并对第N帧立体声参数集合编码;若确定第N帧音频信号不满足预设的语音帧编码条件,则根据第N帧音频信号,基于第二立体声参数集合生成方式,得到第N帧立体声参数集合,并在确定第N帧立体声参数集合满足预设的立体声参数编码条件时,对第N帧立体声参数集合中的至少一个立体声参数编码;在确定第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对立体声参数集合编码;
其中,第一立体声参数集合生成方式和第二立体声参数集合生成方式满足下列至少一个条件:
第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
在第一方面的基础上,可选的,编码器在第N帧下混信号中包含语音信号时,根据第一编码方式对第N帧立体声参数集合编码;在第N帧下混信号满足语音帧编码条件时,根据第一编码方式对第N帧立体声参数集合中的至少一个立体声参数编码;在第N帧下混信号不满足语音帧编码条件时,根据第二编码方式对第N帧立体声参数集合中的至少一个立体声参数编码;
其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对所述第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度。
例如,第N帧立体声参数集合中包括IPD和ITD,第一编码方式中规定的IPD的量化精度不低于第二编码方式中规定的IPD的量化精度,第一编码方式中规定的ITD的量化精度不低于第二编码方式中规定的ITD的量化精度。
在第一方面的基础上,可选的,通常情况下,若第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;预设立体声参数编码条件中包括:DL≥D0;
其中,DL表示ILD与第一标准的偏离程度,第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第二算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数。
其中,第二算法、第三算法以及第四算法是根据实际情况需要预先设置的。
可选的,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为两声道分别在第m个子频带传输第N帧音频信号时的电平差值,M为传输第N帧音频信号所占用的子频带的总个数,为在第N帧之前的T帧立体声参数集合中在第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为两声道分别传输第N帧音频信号时的时间差值,为在第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为两声道分别传输第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为两声道分别在第m个子频带传输第N帧音频信号中的部分音频信号时的相位差值,为在第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的相位差值。
第二方面,提供了一种处理多声道音频信号的方法,包括:解码器接收到码流,码流包括至少两个帧,至少两个帧中存在至少一个第一类型帧和至少一个第二类型帧,第一类型帧中包含下混信号,第二类型帧中不包含下混信号;针对第N帧码流,N为大于1的正整数:解码器若确定第N帧码流为第一类型帧,则对第N帧码流解码,得到第N帧下混信号;解码器若确定第N帧码流为第二类型帧,则根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第一算法,得到第N帧下混信号,m为大于零的正整数;其中,第N帧下混信号是编码器由多声道中两个声道的第N帧音频信号基于预定第二算法混合后得到的。
由于解码器接收到的码流中包括第一类型帧和第二类型帧,其中第一类型帧中包括下混信号,第二类型帧中不包括下混信号,也就是说,在编码器并非对每帧下混信号都进行了编码,从而实现了下混信号的非连续传输,提高了多声道音频通信系统下混信号的压缩效率。
需要说明的是,在本发明实施例中,第一帧码流为第一类型帧,具体的,为了在解码第一帧码流后,将得到的下混信号还原为两声道中的音频信号,在第一帧码流中还需要包括立体声参数集合。具体的,由于第一类型帧中包含下混信号,第二类型帧中不包含下混信号,因此,第一类型帧的大小大于第二类型帧的大小,解码器可以通过根据第N帧码流的大小来判断第N帧码流为第一类型帧还是第二类型帧,此外,还可以在第N帧码流中封装标识位,解码器在对第N帧码流部分解码后得到标识位,若标识位指示第N帧码流为第一类型帧,则解码器对第N帧码流解码得到第N帧下混信号;若标识位指示第N帧码流为第二类型帧,则解码器根据预定第一算法得到第N帧下混信号。
在第二方面的基础上,为了将下混信号还原为两声道中的音频信号,保证音频信号的通信质量,可选的,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中包含立体声参数集合且不包含下混信号:解码器若确定第N帧码流为第一类型帧,则对第N帧码流解码之后,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于预定第三算法,将第N帧下混信号还原为第N帧音频信号;解码器若确定第N帧码流为第二类型帧,则对第N帧码流解码,得到第N帧立体声参数集合,以及基于预定第一算法,得到第N帧下混信号,然后解码器根据第N帧立体声参数集合中的至少一个立体声参数,基于预定第三算法,将第N帧下混信号还原为第N帧音频信号。
在第二方面的基础上,为了将下混信号还原为两声道中的音频信号,保证音频信号的通信质量,可选的,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中不包含下混信号且不包含立体声参数集合;解码器若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;然后,根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;解码器若确定第N帧码流为第二类型帧,则基于预定第一算法得到第N帧下混信号,以及根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,然后,根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号,k为大于零的正整数。
在第二方面的基础上,为了将下混信号还原为两声道中的音频信号,保证音频信号的通信质量,可选的,第一类型帧中包含下混信号和立体声参数集合,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码器若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
解码器若确定第N帧码流为第二类型帧,包括两种情况:
当第N帧码流为第三类型帧时,则对第N帧码流解码,得到第N帧立体声参数集合,以及基于预定第一算法得到第N帧下混信号,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数,以及基于预定第一算法得到第N帧下混信号,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第二方面的基础上,为了将下混信号还原为两声道中的音频信号,保证音频信号的通信质量,可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第二类型帧中不包含下混信号且不包含立体声参数集合:
解码器若确定第N帧码流为第一类型帧,包括两种情况:
当第N帧码流为第五类型帧时,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
当第N帧码流为第六类型帧时,则对第N帧码流解码,得到第N帧下混信号,以及根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
解码器若确定第N帧码流为第二类型帧,则基于预定第一算法得到第N帧下混信号,以及根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第二方面的基础上,为了将下混信号还原为两声道中的音频信号,保证音频信号的通信质量,可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码器若确定第N帧码流为第一类型帧,包括两种情况:
当第N帧码流为第五类型帧时,则对第N帧码流解码之后,得到第N帧下混信号的同时,还得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
当第N帧码流为第六类型帧时,则对第N帧码流解码之后,得到第N帧下混信号,以及根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
解码器若确定第N帧码流为第二类型帧,包括两种情况:
当第N帧码流为第三类型帧时,则对第N帧码流解码,得到第N帧立体声参数集合,以及基于预定第一算法得到第N帧下混信号,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号;
当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数,以及基于预定第一算法得到第N帧下混信号,并根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
第三方面,提供了一种编码器,包括:信号检测单元和信号编码单元,其中,信号检测单元用于检测第N帧下混信号中是否包含语音信号,第N帧下混信号是由多声道中两个声道的第N帧音频信号基于预定第一算法混合后得到的,N为大于零的正整数;信号编码单元用于在信号检测单元检测到第N帧下混信号中包含语音信号时,对第N帧下混信号编码,以及在信号检测单元检测到第N帧下混信号中不包含语音信号时:若信号检测单元确定第N帧下混信号满足预设的音频帧编码条件,则对第N帧下混信号编码;若信号检测单元确定第N帧下混信号不满足预设的音频帧编码条件,则不对第N帧下混信号编码。
在第三方面的基础上,可选的,信号编码单元包括第一信号编码单元和第二信号编码单元,在信号检测单元检测到第N帧下混信号中包含语音信号时,信号检测单元通知第一信号编码单元对第N帧下混信号编码;若信号检测单元确定第N帧下混信号满足预设的语音帧编码条件,则通知第一信号编码单元对第N帧下混信号编码,具体的,第一信号编码单元根据预设的语音帧编码速率对第N帧下混信号编码;若信号检测单元确定第N帧下混信号不满足预设的语音帧编码条件、但满足预设的静音插入帧SID编码条件,则通知第二信号编码单元对第N帧下混信号编码,具体的,第二信号编码单元根据预设的SID编码速率对第N帧下混信号编码;其中,SID编码速率不大于语音帧编码速率。
在第三方面的基础上,可选的,还包括参数生成单元、参数编码单元和参数检测单元,其中,参数生成单元用于根据第N帧音频信号,得到第N帧立体声参数集合,第N帧立体声参数集合中包括Z个立体声参数,Z个立体声参数包括编码器基于预定第一算法对第N帧音频信号混合时所用到的参数,Z为大于零的正整数;参数编码单元用于在信号检测单元检测到第N帧下混信号中包含语音信号时,则对第N帧立体声参数集合编码,以及在信号检测单元检测到第N帧下混信号中不包含语音信号时:若参数检测单元确定第N帧立体声参数集合满足预设的立体声参数编码条件,则对第N帧立体声参数集合中的至少一个立体声参数编码;若参数检测单元确定第N帧立体声参数集合不满足预设的立体声参数编码条件,则不对立体声参数集合编码。
在第三方面的基础上,可选的,参数编码单元用于根据第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,并对X个目标立体声参数编码,其中,X为大于零且小于等于Z的正整数。
在第三方面的基础上,可选的,参数生成单元包括第一参数生成单元和第二参数生成单元;
信号检测单元检测到第N帧音频信号包含语音信号时或者信号检测单元检测到第N帧音频信号不包含语音信号、且第N帧音频信号满足预设的语音帧编码条件,通知第一参数生成单元生成第N帧立体声参数集合,具体的,第一参数生成单元根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,并通过参数编码单元对第N帧立体声参数集合编码,具体的,当参数编码单元包括第一参数编码单元和第二参数编码单元时,通过第一参数编码单元对第N帧立体声参数集合编码;其中,第一参数编码单元规定的编码方式为第一编码方式,第二参数编码单元规定的编码方式为第二编码方式,具体的,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度;
以及在信号检测单元检测到第N帧音频信号不包含语音信号时:第二参数生成单元根据第N帧音频信号,基于第二立体声参数集合生成方式,得到第N帧立体声参数集合,并在参数检测单元确定第N帧立体声参数集合满足预设的立体声参数编码条件时,通过参数编码单元对第N帧立体声参数集合中的至少一个立体声参数编码;具体的,当参数编码单元包括第一参数编码单元和第二参数编码单元时,通过第二参数编码单元对第N帧立体声参数集合中的至少一个立体声参数编码;
在参数检测单元确定第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对立体声参数集合编码;
其中,第一立体声参数集合生成方式和第二立体声参数集合生成方式满足下列至少一个条件:
第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
在第三方面的基础上,可选的,参数编码单元包括第一参数编码单元和第二参数编码单元,具体的,第一参数编码单元用于在第N帧下混信号中包含语音信号以及在第N帧下混信号中不包含语音信号但满足语音帧编码条件时,根据第一编码方式对第N帧立体声参数集合编码;第二参数编码单元用于在第N帧下混信号不满足语音帧编码条件时,根据第二编码方式对第N帧立体声参数集合中的至少一个立体声参数编码;
其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度。
在第三方面的基础上,可选的,若第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;预设立体声参数编码条件中包括:DL≥D0;
其中,DL表示ILD与第一标准的偏离程度,第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第二算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数。
在第三方面的基础上,可选的,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为两声道分别在第m个子频带传输第N帧音频信号时的电平差值,M为传输第N帧音频信号所占用的子频带的总个数,为在第N帧之前的T帧立体声参数集合中在第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为两声道分别传输第N帧音频信号时的时间差值,为在第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为两声道分别传输第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为两声道分别在第m个子频带传输第N帧音频信号中的部分音频信号时的相位差值,为在第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的相位差值。
第四方面,提供了一种解码器,包括:接收单元和解码单元,其中,接收单元用于接收到码流,码流包括至少两个帧,至少两个帧中存在至少一个第一类型帧和至少一个第二类型帧,第一类型帧中包含下混信号,第二类型帧中不包含下混信号;针对第N帧码流,N为大于1的正整数,解码单元,用于:若确定第N帧码流为第一类型帧,则对第N帧码流解码,得到第N帧下混信号;若确定第N帧码流为第二类型帧,则根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第一算法,得到第N帧下混信号,m为大于零的正整数;
其中,第N帧下混信号是编码器由多声道中两个声道的第N帧音频信号基于预定第二算法混合后得到的。
在第四方面的基础上,可选的,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中包含立体声参数集合且不包含下混信号:
解码单元还用于若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧,则对第N帧码流解码,得到第N帧立体声参数集合,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第四方面的基础上,可选的,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中不包含下混信号且不包含立体声参数集合;
解码单元还用于若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第四方面的基础上,可选的,第一类型帧中包含下混信号和立体声参数集合,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码单元还用于若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧:当第N帧码流为第三类型帧时,则对第N帧码流解码,得到第N帧立体声参数集合;当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第四方面的基础上,可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第二类型帧中不包含下混信号且不包含立体声参数集合:
解码单元还用于若确定第N帧码流为第一类型帧:当第N帧码流为第五类型帧时,对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;当第N帧码流为第六类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号,k为大于零的正整数;
信号还原单元,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
在第四方面的基础上,可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码单元还用于若确定第N帧码流为第一类型帧:当第N帧码流为第五类型帧时,对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;当第N帧码流为第六类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合。
解码单元还用于若确定第N帧码流为第二类型帧:当第N帧码流为第三类型帧时,对第N帧码流解码,得到第N帧立体声参数集合;当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号,k为大于零的正整数;
解码器还包括,信号还原单元;
信号还原单元,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
第五方面,提供了一种编解码系统,包括第三方面提供的任一的编码器,和第四方面提供的任一的解码器。
第六方面,本发明实施例还提供一种终端设备,该终端设备包括处理器和存储器,所述存储器用于存储软件程序,所述处理器用于读取所述存储器中存储的软件程序并实现第一方面或上述第一方面的任意一种实现方式提供的方法。
第七方面,本发明实施例中还提供一种计算机存储介质,该存储介质可以是非易失性的,即断电后内容不丢失。该存储介质中存储软件程序,该软件程序在被一个或多个处理器读取并执行时可实现第一方面或上述第一方面的任意一种实现方式提供的方法。
附图说明
图1为本发明实施例一多声道音频信号处理的方法的流程示意图;
图2为本发明实施例二多声道音频信号处理的方法的流程示意图;
图3a~图3d为本发明实施例编码器的示意图;
图4为本发明实施例解码器的示意图;
图5为本发明实施例编解码系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
应理解,在音频编解码技术中,是以帧为单位对音频信号编码或解码的,具体的,第N帧音频信号即为第N个音频帧,当在第N帧音频信号中包括语音信号时,第N个音频帧即为语音帧,当第N帧音频帧中不包语音信号时,包括背景噪声信号时,第N个音频帧即为噪声帧,在这里,N为大于零的正整数。
此外,在单声道通信系统中,采用非连续编码方式时,每隔若干个噪声帧编码一次,得到静音插入帧(Silence Insertion Descriptor,SID)。
本发明实施例中的编码器和解码器为处理多声道音频信号的程序包可以通过安装在支持多通道音频信号处理的终端(如手机、笔记本电脑、平板电脑等)、服务器等设备上,使得终端、服务器等设备具备本发明实施例处理多声道音频信号的功能。
在本发明实施例中,由于多声道通信系统中能够采用非连续编码的机制对音频信号进行编码,大大提高了对音频信号的压缩效率。
下面以第N帧下混信号为例,对本发明实施例处理多声道音频信号的方法进行详细说明,其中,N为大于零的正整数。假设第N帧下混信号是由多声道中的两声道的第N帧音频信号混合后得到的。
当多声道为两声道时,其中,两声道分别为第一声道和第二声道,则多声道中的两声道为第一声道和第二声道,第N帧下混信号是由第一声道的第N帧音频信号和第二声道的第N帧音频信号混合的到的;当多声道为三声道或三声道以上时,下混信号是由多声道中配对的两声道的音频信号混合得到的,具体的,以三声道为例,包括第一声道、第二声道和第三声道,假设根据设定的规则,只有第一声道与第二声道配对,则多声道中的两声道为第一声道和第二声道,由第一声道中的第N帧音频信号和第二声道中的第N帧音频信号下混后,得到第N帧下混信号;假设在三声道中,第一声道和第二声道配对、第二声道和第三声道配对,则多声道中国的两声道可以为第一声道和第二声道,也可以为第二声道和第三声道。
如图1所示,本发明实施例一处理多声道音频信号的方法,包括:
步骤100,编码器根据多声道中两声道的第N帧音频信号,生成第N帧立体声参数集合,其中,立体声参数集合中包括Z个立体声参数。
具体的,Z个立体声参数包括编码器基于预定第一算法对第N帧音频信号混合时所用到的参数,Z为大于零的正整数。应理解,预定第一算法为预先在编码器中设置的下混信号生成算法。
需要说明的是,具体的第N帧立体声参数集合中包括哪些立体声参数,是由预设的立体声参数生成算法决定的,假设两声道中一个声道为左声道,一个为右声道,预设的立体声参数生成算法如下,则根据第N帧音频信号得到的立体声参数为声道间电平差(Inter-channel Level Difference,ILD):
PL(i)=Re L(i)2+Im L(i)2
PR(i)=Re R(i)2+Im R(i)2
其中,L(i)为左声道第N帧音频信号在第i个频点的离散傅里叶变换(DiscreteFourier Transform,DFT)系数,R(i)为右声道第N帧音频信号在第i个频点的DFT系数,Re L(i)为L(i)的实部,Im L(i)为L(i)的虚部,Re R(i)为R(i)的实部,Im R(i)为R(i)的虚部,PL(i)为左声道第N帧音频信号在第i个频点的能量谱,PR(i)为右声道第N帧音频信号在第i个频点的能量谱,EL(m)为左声道第m个子频带中的第N帧音频信号的能量,ER(m)为右声道第m个子频带中的第N帧音频信号的能量,传输第N帧音频信号的子频带的总个数为M。
在上述立体声参数生成算法中,不考虑第N帧音频信号为在频点i=0和时,分别为直流分量和奈奎斯特分量的情况。
当预设的立体声参数生成算法中,还包括计算其它立体声参数如声道间时间差(Inter-channel Time Difference,ITD)、声道间相位差(Inter-channel PhaseDifference,IPD)、IC(Inter-channel Coherence,声道间相干性)的立体声参数的算法时,则编码器还能够根据音频信号,基于预设的立体声参数生成算法得到ITD、IPD、IC等立体声参数。
应理解,第N帧立体声参数集合中包括至少一个立体声参数,例如根据两个声道的第N帧音频信号,基于预设的立体声参数生成算法,得到IPD、ITD、ILD和IC,则由IPD、ITD、ILD和IC组成第N帧立体声参数集合。
步骤101,编码器根据第N帧立体声参数集合中的至少一个立体声参数,基于预定第一算法,将两声道的第N帧音频信号混合为第N帧下混信号。
例如,第N帧立体声参数集合中包括ITD、ILD、IPD和IC,根据ILD和IPD,基于预定第一算法,得到第N帧下混信号,具体的,第N帧下混信号DMX(k)在第k个频点的满足下列表达式:
其中,DMX(k)为第N帧下混信号在第k个频点的|L(k)|表示第K对声道中左声道中第N帧音频信号在第k个频点的幅度、|R(k)||表示K对声道中右声道中第N帧音频信号第k个频点的幅度,∠L(k)表示左声道中第N帧音频信号在第k个频点的相角,ILD(k)表示第N帧音频信号在第k个频点的ILD,IPD(k)表示第N帧音频信号第k个频点的IPD。
需要说明的是,本发明实施例除上述得到下混信号的算法外,不限于其它得到下混信号的算法。
在本发明实施例一中,对第N帧立体声参数集合编码,是为了使得解码器能够还原第N帧下混信号,可选的,为提高编码的压缩效率,编码器对第N帧立体声参数集合中用于得到第N帧下混信号的立体声参数编码。例如,生成的第N帧立体声参数集合中包括ITD、ILD、IPD和IC,然而,若编码器只根据第N帧立体声参数集合中的ILD和IPD,基于预定第一算法将两声道中的第N帧音频信号混合为第N帧下混信号,则为提高压缩效率,则编码器可以只对第N帧立体声参数集合中的ILD和IPD编码。
步骤102,编码器检测第N帧下混信号中是否包含语音信号,若是,则执行步骤103,否则执行步骤104。
为便于实现编码器检测第N帧下混信号中是否包含语音信号,可选的,编码器通过语音活动检测(Voice Activity Detection,VAD)直接检测第N帧下混信号中是否包含语音信号。
可选的,一种编码器检测第N帧下混信号中是否包含语音信号的间接方法,编码器通过VAD直接检测第N帧音频信号中是否包含语音信号。具体的,编码器当检测到两声道中的一个声道的音频信号包含语音信号,则确定由两声道中的音频信号混合得到的下混信号中包含语音信号,编码器当确定两声道中的音频信号都不包括语音信号时,才确定由两声道中的音频信号混合得到的下混信号中包含语音信号。需要说明的是,在这种间接检测方式下,不限定步骤102与步骤100、步骤101之间的顺序,只要步骤100在步骤101之前即可。
步骤103,编码器对第N帧下混信号编码,执行步骤107。
其中,编码器对第N帧下混信号编码得到的是第N帧码流。
由于在本发明实施例一种对下混信号是非连续编码,则码流包括两种帧类型:第一类型帧和第二类型帧,其中第一类型帧中包括下混信号,第二类型帧中不包括下混信号,通过步骤103得到的第N帧码流为第一类型帧。
在步骤103中,由于第N帧下混信号中包含语音信号,可选的,编码器根据预设的语音帧编码速率对第N帧下混信号编码,较佳的,预设的语音帧编码速率可以设置为13.2kbps。
此外,可选的,编码器若对第N帧下混信号编码,则对第N帧立体声参数集合编码。
步骤104,编码器判断第N帧下混信号是否满足预设的音频帧编码条件,若是,则执行步骤105,否则,执行步骤106。
其中,预设的音频帧编码条件是预先配置在编码器中的是否对第N帧下混信号进行编码的判断条件。
需要说明的是,针对第一帧下混信号,若第一帧下混信号中不包含语音信号时,第一帧下混信号满足预设的音频帧编码条件,即无论第一帧下混信号中是否包含语音信号都要对第一帧下混信号编码。
步骤105,编码器对第N帧下混信号编码,执行步骤107。
具体的,通过步骤105得到的第N帧码流也是第一类型帧。
需要说明的是,可选的,编码器若对第N帧下混信号编码,则对第N帧立体声参数集合编码。
可选的,为了便于简化对下混信号编码的实现方式,在本发明实施例一中步骤103与步骤105对第N帧下混信号的编码方式相同。
可选的,由于步骤105中第N帧下混信号中不包含语音信号,当第N帧下混信号满足预设的语音帧编码条件时,编码器根据预设的语音帧编码速率对第N帧下混信号编码;当第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件时,编码器根据预设的SID编码速率对第N帧下混信号编码,其中,预设的SID编码速率可以设置为2.8kbps。
需要说明的是,当第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件时,编码器根据SID编码方式,对第N帧下混信号编码,其中,SID编码方式规定了编码速率为预设的SID编码速率,以及规定了编码使用的算法以及编码使用的参数。
其中,预设的语音帧编码条件可以为:第N帧下混信号距离第M帧下混信号的时长不大于预设时长,其中第M帧下混信号包含语音信号,第M帧下混信号是距离第N帧下混信号最近的一帧包含语音信号的下混信号。预设的SID编码条件可以为奇数帧编码,则第N帧下混信号中的N为奇数时,则编码器确定第N帧下混信号满足预设的SID编码条件。
步骤106,编码器不对第N帧下混信号编码,执行步骤109。
具体的,通过步骤106得到的第N帧码流为第二类型帧。
编码器确定第N帧下混信号不满足预设的音频帧编码条件,具体的,编码器确定第N帧下混信号不满足预设的语音帧编码条件,且不满足预设的SID编码条件。
在本发明实施例中,编码器不对第N帧下混信号编码,具体的,第N帧的码流中不包括第N帧下混信号。
编码器不对第N帧下混信号编码时,可以对第N帧立体声参数集合编码,也可以不对第N帧立体声参数集合编码。
在本发明实施例一中,以编码器当不对第N帧下混信号编码时,对第N帧立体声参数集合编码为例进行说明,但可选的,编码器当不对第N帧下混信号编码时,也可以不对第N帧立体声参数集合编码,具体的编码器对第N帧立体声参数和第N帧下混信号都不编码时,解码器得到第N帧下混信号和第N帧立体声参数集合的方式参考本发明实施例二。
步骤107,编码器向解码器发送第N帧码流。
其中,为了能够使解码器能够在解码得到第N帧下混信号后,将第N帧下混信号还原为两声道第N帧音频信号,第N帧码流中不仅包括第N帧立体声参数集合还包括第N帧下混信号。
步骤108,解码器确定第N帧码流为第一类型帧,则对第N帧码流解码,得到第N帧下混信号和第N帧立体声参数集合,执行步骤111。
需要说明的是,由于第一类型帧中包含下混信号,第二类型帧中不包含下混信号,因此,第一类型帧的大小大于第二类型帧的大小,解码器可以通过根据第N帧码流的大小来判断第N帧码流为第一类型帧还是第二类型帧,此外,可选的,还可以在第N帧码流中封装标识位,解码器在对第N帧码流部分解码后得到标识位,根据标识位判断第N帧码流为第一类型帧还是第而类型帧,例如标识位为1指示第N帧码流为第一类型帧,标识位为0指示第N帧码流为第二类型帧。
此外,可选的,解码器根据第N帧码流对应的速率,确定解码方式,例如第N帧码流的速率为17.4kbps,其中,下混信号对应的码流的速率为13.2kbps,立体声参数集合对应的码流速率为4.2kbps,则按照与13.2kbps对应的解码方式对下混信号对应的码流解码,以及按照与4.2kbps对应的解码方式对立体声参数集合对应的码流解码。
或者,解码器根据第N帧码流中的编码方式标识位,确定第N帧码流的编码方式,然后根据与编码方式对应的解码方式,对第N帧码流解码。
步骤109,编码器向解码器发送第N帧码流,第N帧码流中包括第N帧立体声参数集合。
步骤110,解码器确定第N帧码流为第二类型帧,则对第N帧码流解码,得到第N帧立体声参数集合,以及根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第一算法,得到第N帧下混信号,其中,m为大于零的正整数。
具体的,取第(N-3)帧、第(N-2)帧和第(N-1)帧下混信号的平均值,作为第N帧下混信号,或者,将第(N-1)帧下混信号直接作为第N帧下混信号,或者根据其它算法估计第N帧下混信号。
此外,还可以直接将第(N-1)帧下混信号作为第N帧下混信号;或者,根据第(N-1)帧下混信号和一个预设的偏差值,基于预设的算法进行运算得到第N帧下混信号。
步骤111,解码器根据第N帧立体声参数集合的目标立体声参数,基于预定第二算法,将第N帧下混信号还原为两声道的第N帧音频信号。
应理解,目标立体声参数为第N帧立体声参数集合中的至少一立体声参数。
具体的,解码器将第N帧下混信号还原为两声道的第N帧音频信号的过程为编码器将两声道的第N帧音频信号混合为第N帧下混信号的逆过程,假设编码器端根据第N帧立体声参数集合中的IPD和ILD得到的第N帧下混信号,则在解码器则根据第N帧立体声参数集合中的IPD和ILD,将第N帧下混信号还原为第K对声道中各个声道的第N帧信号。此外,需要说明的是,解码器中预设的还原下混信号的算法可以为编码器中生成下混信号的算法的逆算法,也可以是独立于编码器中生成下混信号的算法的算法。
此外,为了提高多声道通信系统编码的压缩效率,编码器在实现对下混信号非连续编码的同时,也可实现对立体声参数集合的非连续编码,下面以第N帧下混信号为例,如图2所示,本发明实施例二多声道音频信号处理的方法,包括:
步骤200,编码器根据多声道中两声道的第N帧音频信号,生成第N帧立体声参数集合,其中,立体声参数集合中包括Z个立体声参数。
具体的,Z个立体声参数包括编码器基于预定第一算法对第N帧音频信号混合时所用到的参数,Z为大于零的正整数。应理解,预定第一算法为预先设置在编码器中的下混信号生成算法。
需要说明的是,第N帧立体声参数集合中包括哪些立体声参数,是由预设的立体声参数生成算法决定的,假设两声道中一个声道为左声道,一个为右声道,预设的立体声参数生成算法如下,则根据第N帧音频信号得到的立体声参数为ITD:
其中,0≤i≤Tmax,N为帧长,l(j)表示左声道在j时刻的时域信号帧,r(j)表示右声道在j时刻的时域信号帧,则若则ITD为对应的索引值的相反数,否则ITD为对应的索引值的相反数,在本发明实施例中,其它得到ITD的算法同样适用。
若预设的立体声参数生成算法中还包括如下生成IPD的算法,则按照下述算法还可得到IPD。具体的,第b个子频带的IPD满足下列表达式:
其中,B为音频信号在频域所占用的子频带的总个数,L(k)为左声道中第N帧音频信号在第k个频点的信号,R*(k)为右声道第N帧音频信号在第k个频点的信号的共轭。
此外,当预设的立体声参数生成算法中还包括本发明实施例一中的生成ILD的算法时,则还可以得到ILD。
步骤201,编码器根据第N帧立体声参数集合中的至少一个立体声参数,基于预定算法,将两声道的第N帧音频信号混合为第N帧下混信号。
具体的,预定第一算法可以参见本发明实施例一中得到第N帧下混信号的方法,但不限于本发明实施例一种得到第N帧下混信号的方法。
步骤202,编码器检测第N帧下混信号中是否包含语音信号,若是,则执行步骤203,否则执行步骤204。
其中,本发明实施例二中,编码器检测第N帧下混信号中是否包含语音信号的具体实现方式,可参见本发明实施例一中编码器检测第N帧下混信号中是否包含语音信号的方式。
步骤203,编码器根据预设的语音帧编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码,执行步骤211。
具体的,当编码器中包括两种对立体声参数集合编码的方式时,第一编码方式和第二编码方式,其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度,在步骤203中,编码器按照第一编码方式,对第N帧立体声参数集合编码。
例如,第N帧立体声参数集合中包括IPD和ITD,第一编码方式中规定的IPD的量化精度不低于第二编码方式中规定的IPD的量化精度,第一编码方式中规定的ITD的量化精度不低于第二编码方式中规定的ITD的量化精度。
较佳的,语音帧编码速率可以设置为13.2kbps。
步骤204,编码器判断第N帧下混信号是否满足预设的语音帧编码条件,若是,则执行步骤205,否者,执行步骤206。
步骤205,编码器根据预设的语音帧编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码,执行步骤211。
具体的,当编码器中包括两种对立体声参数集合编码的方式时,第一编码方式和第二编码方式,其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度,在步骤205中,编码器按照第一编码方式,对第N帧立体声参数集合编码。
步骤206,编码器判断第N帧下混信号是否满足预设的SID编码条件,以及判断第N帧立体声参数集合是否满足预设的立体声参数编码条件,若同时满足,则执行步骤207,若第N帧下混信号满足预设的SID编码条件,第N帧立体声参数集合不满足预设的立体声参数编码条件,则执行步骤208,若第N帧下混信号不满足预设的SID编码条件,第N帧立体声参数集合满足预设的立体声参数编码条件,则执行步骤209,若同时不满足,则执行步骤210。
具体的,当编码器在对第N帧立体声参数集合中的至少一个立体声参数编码之前,判断至少一个立体声参数中的立体声参数是否满足预设对应的立体声参数编码条件,具体的,若第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;预设立体声参数编码条件中包括:DL≥D0;其中,DL表示ILD与第一标准的偏离程度,第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第五算法确定的,T为大于0的正整数。
其中,第三算法、第四算法以及第五算法是根据实际情况需要预先设置的。
具体的,当第N帧立体声参数集合中的至少一个立体声参数仅包括ITD时,预设的立体声参数编码条件仅包括DT≥D1,则当第N帧立体声参数集合中的至少一个立体声参数包括的ITD满足DT≥D1,则对第N帧立体声参数集合中的至少一个立体声参数编码;当第N帧立体声参数集合中的至少一个立体声参数仅包括ITD、IPD时,预设的立体声参数编码条件仅包括DT≥D1,则当第N帧立体声参数集合中的至少一个立体声参数包括的ITD满足DT≥D1,则对第N帧立体声参数集合中的至少一个立体声参数编码,但是,当第N帧立体声参数集合中的至少一个立体声参数仅包括ITD、ILD时,预设的立体声参数编码条件包括DT≥D1和DL≥D0,则只有在第N帧立体声参数集合中的至少一个立体声参数包括的ITD满足DT≥D1、且ILD满足DL≥D0时,编码器才对ITD和ILD编码。
可选的,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为两声道分别在第m个子频带传输第N帧音频信号时的电平差值,M为传输第N帧音频信号所占用的子频带的总个数,为在第N帧之前的T帧立体声参数集合中在第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为两声道分别传输第N帧音频信号时的时间差值,为在第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为两声道分别传输第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为两声道分别在第m个子频带传输第N帧音频信号中的部分音频信号时的相位差值,为在第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的相位差值。
步骤207,编码器根据预设的SID编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合中至少一个立体声参数编码,执行步骤211。
具体的,当编码器中保量两种对立体声参数集合编码的方式时,第一编码方式和第二编码方式,其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度,编码器按照第二编码方式对第N帧立体声参数集合中至少一个立体声参数编码。
例如,第一编码方式中编码器按照4.2kbps对第N帧立体声参数集合编码,第二编码方式中编码器按照1.2kbps对第N帧立体声参数集合编码。
其中,为提高编码器对立体声参数集合的压缩效率,可选的,编码器根据第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,并对X个目标立体声参数编码,其中,X为大于零且小于等于Z的正整数。
具体的,第N帧立体声参数集合中包括IPD、ITD、ILD三种类型的立体声参数,其中,ILD由ILD(0)…ILD(9)10个子频带的ILD组成,IPD由IPD(0)…IPD(9)10个子频带的IPD组成,ITD由ITD(0),ITD(1)2个时域子带的ITD组成,假设预设的立体声参数降维规则为立体声参数集合中只包括两个类型的立体声参数,则编码器从IPD、ITD、ILD中选择任意两个类型的立体声参数,假设选择的是IPD和ILD,则编码器对IPD和ILD编码。或者,预设的立体声参数降维规则为每个类型的立体声参数只保留一半,则分别从ILD(0)…ILD(9)中选择5个、从IPD(0)…IPD(9)中选择5个,从ITD(0),ITD(1)中选择1个,将选择的参数编码;或者,预设的立体声参数降维规则为从ILD和IPD中分别选择5个,或者,预设的立体声参数降维规则为降低ILD、IPD的频域分辨率和ITD的时域分辨率,则将ILD(0)…ILD(9)中相邻子频带合并,例如求取ILD(0)、ILD(1)的均值得到新的ILD(0),求取ILD(2)、ILD(3)的均值得到新的ILD(1),…,求取ILD(8)、ILD(9)的均值得到新的ILD(4),其中新的ILD(0)对应的子频带等于原ILD(0)、ILD(1)对应的子频带,…,新的ILD(4)对应的子频带等于原ILD(8)、ILD(9)对应的子频带。同样的方法,将IPD(0)…IPD(9)中相邻子频带合并,得到新的IPD(0)…IPD(4),将ITD(0)、ITD(1)也求取均值进行合并得到新的ITD(0),其中新的ITD(0)对应的时域信号与原ITD(0)、ITD(1)对应的时域信号相同。将新的ILD(0)…ILD(4),新的IPD(0)…IPD(4)和新的ITD(0)编码。或者,预设的立体声参数降维规则为降低ILD的频域分辨率,则将ILD(0)…ILD(9)中相邻子频带合并,例如求取ILD(0)、ILD(1)的均值得到新的ILD(0),求取ILD(2)、ILD(3)的均值得到新的ILD(1),…,求取ILD(8)、ILD(9)的均值得到新的ILD(4),其中新的ILD(0)对应的子频带等于原ILD(0)、ILD(1)对应的子频带,…,新的ILD(4)对应的子频带等于原ILD(8)、ILD(9)对应的子频带。然后,将新的ILD(0)…ILD(4)编码。
步骤208,编码器根据预设的SID编码速率对第N帧下混信号编码,不对第N帧立体声参数集合中至少一个立体声参数编码,执行步骤211。
步骤209,编码器对第N帧立体声参数集合中的至少一个立体声参数编码,不对第N帧下混信号编码,执行步骤215。
步骤210,编码器不对第N帧下混信号和第N帧立体声参数集合编码,执行步骤217。
通过本发明实施例二编码器编码后得到的码流,码流中包括四种不同类型的帧,即第三类型帧、第四类型帧、第五类型帧和第六类型帧,其中第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,其中第五类型帧和第六类型帧分别为包含下混信号类型帧的一种情况,第三类型帧和第四类型帧分别为不包含下混信号类型帧的一种情况。
具体的,步骤203、步骤205和步骤207中的到的第N帧码流为第五类型帧,步骤208中得到的第N帧码流为第六类型帧,步骤209中得到的第N帧码流为第三类型帧,步骤211中得到的第N帧码流为第四类型帧。
步骤211,编码器向解码器发送第N帧码流,第N帧码流中包括第N帧下混信号和第N帧立体声参数集合。
步骤212,解码器接收第N帧码流,确定第N帧码流为第五类型帧,则对第N帧码流解码,得到第N帧下混信号和第N帧立体声参数集合,执行步骤218。
其中解码器确定第N帧码流为哪一类型帧的具体实施方式参见本发明实施例一。
具体的,解码器根据第N帧码流对应的速率,对第N帧码流解码,具体的,若编码器按照13.2kbps对第N帧下混信号编码,则解码器按照13.2kbps对第N帧码流中第N帧下混信号的码流解码,若编码器按照4.2kbps对第N帧立体声参数集合编码,则解码器按照4.2kbps对第N帧码流中第N帧立体声参数集合的码流解码。
步骤213,编码器向解码器发送第N帧码流,第N帧码流中包括第N帧下混信号。
步骤214,解码器确定第N帧码流为第六类型帧,则对第N帧码流解码,得到第N帧下混信号,并根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第六算法,得到第N帧立体声参数集合,执行步骤218。
具体的,以第N帧立体声参数集合中一个立体声参数为例,预设第二规则中规定的立体声参数集合为距离P最近的一帧、且通过解码得到的立体生参数集合,根据下列算法得到第N帧立体声参数P:
P表示第N帧的立体声参数,表示距离P最近的一帧、且通过解码得到的立体生参数,δ表示一个绝对值相对于较小的一个随机数,例如δ可以是一个在-和+之间的随机数。
需要说明的是,在本发明实施例中,不限于上述方法估计第N帧立体声参数集合中的各个立体声参数。
步骤215,编码器向解码器发送第N帧码流,第N帧码流中包括第N帧立体声参数集合中的至少一个立体声参数。
步骤216,解码器确定第N帧码流为第三类型帧,则对第N帧码流解码,得到第N帧立体声参数集合中的至少一个立体声参数,以及根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第二算法,得到第N帧下混信号,m为大于零的正整数,执行步骤218。
具体的,取第(N-3)帧、第(N-2)帧和第(N-1)帧下混信号的平均值,作为第N帧下混信号,或者,将第(N-1)帧下混信号直接作为第N帧下混信号,或者根据其它算法估计第N帧下混信号。
此外,还可以直接将第(N-1)帧下混信号作为第N帧下混信号;或者,根据第(N-1)帧下混信号和一个预设的偏差值,基于预设的算法进行运算得到第N帧下混信号。
步骤217,解码器接收第N帧码流后,确定第N帧码流为第四类型帧,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第六算法,得到第N帧立体声参数集合;以及
根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第二算法,得到第N帧下混信号,m为大于零的正整数。
步骤218,解码器根据第N帧立体声参数集合的目标立体声参数,基于预定第七算法,将第N帧下混信号还原为两声道的第N帧音频信号。
此外,基于本发明实施例,编码器若通过两声道中的第N帧音频信号检测第N帧下混信号中是否包含语音信号,还提供了一种对立体声参数集合的编码方式,具体的,编码器若检测到两声道中任一第N帧音频信号包含语音信号,则根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,并对第N帧立体声参数集合编码;
编码器在确定两声道中的第N帧音频信号中都不包含语音信号时:若第N帧音频信号满足预设的语音帧编码条件,则根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,并对第N帧立体声参数集合编码;若确定第N帧音频信号不满足预设的语音帧编码条件,则根据第N帧音频信号,基于第二立体声参数集合生成方式,得到第N帧立体声参数集合,并
在确定第N帧立体声参数集合满足预设的立体声参数编码条件时,对第N帧立体声参数集合中的至少一个立体声参数编码;在确定第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对立体声参数集合编码;
其中,第一立体声参数集合生成方式和所述第二立体声参数集合生成方式满足下列至少一个条件:
第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
具体的,第一立体声集合生成方式得到的立体声参数集合在频域或时域的精度较第二立体声集合生成方式得到的立体声参数集合高。
此外,本发明实施例三处理多声道音频信号的方法中,当编码器检测到第N帧下混信号中包含语音信号时,按照语音编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码;当编码器检测到第N帧下混信号中不包含语音信号时:若第N帧下混信号满足预设的语音帧编码条件,则按照语音编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码;若第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件,则按照SID编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合中至少一个立体声参数编码,若第N帧下混信号既不满足预设的语音帧编码条件、也不满足预设的SID编码条件时,编码器不对第N帧下混信号编码,同时也不对第N帧立体声参数集合编码。
应理解,本发明实施例三与本发明实施例一和本发明实施例二的区别在于:编码器不对立体声参数集合进行判断,对下混信号无论采用何种方式编码时,则对立体声参数集合编码。
通过本发明实施例三编码器对下混信号编码得到的码流包括两种类型的帧,第一类型帧和第二类型帧,其中第一类型帧包含下混信号且包含立体声参数集合,第二类型帧不包含下混信号且不包含立体声参数集合,具体的解码器接收到码流后,还原得到两声道的音频信号的方法参见本发明实施例二和本发明实施例一。
在本发明实施例三的基础上,可选的,在第N帧下混信号既不满足预设的语音帧编码条件、也不满足预设的SID编码条件时,编码器判断第N帧立体声参数集合是否满足预设的立体声参数编码条件,若是,编码器不对第N帧下混信号编码,但对第N帧立体声参数集合中至少一个立体声参数编码,否则编码器不对第N帧下混信号和第N帧立体声参数集合编码。
基于上述编码方法得到的码流包括三种类型帧,第一类型帧、第三类型帧和第四类型帧,其中第一类型帧中包含下混信号且包含立体声参数集合,第三类型帧中不包含下混信号但包含立体声参数集合,第四类型帧不包含下混信号且不包含立体声参数集合,具体的解码器接收到码流后,还原得到两声道的音频信号的方法参见本发明实施例二和本发明实施例一。
上述技术方案与本发明实施例二的区别在于,在第N帧下混信号既不满足预设的语音帧编码条件、也不满足预设的SID编码条件时,判断第N帧立体声参数集合是否满足预设的立体声参数编码条件。
可选的,本发明实施例四处理多声道音频信号的方法中,当编码器检测到第N帧下混信号中包含语音信号时,按照语音编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码;当编码器检测到第N帧下混信号中不包含语音信号时:若第N帧下混信号满足预设的语音帧编码条件,则按照语音编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合编码;若第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件,编码器判断第N帧立体声参数集合是否满足预设的立体声参数编码条件,当第N帧立体声参数集合满足预设的立体声参数集合编码条件时,编码器按照SID编码速率对第N帧下混信号编码,以及对第N帧立体声参数集合中至少一个立体声参数编码,当第N帧立体声参数集合不满足预设的立体声参数集合编码条件时,编码器按照SID编码速率对第N帧下混信号编码,且不对第N帧立体声参数集合编码;若第N帧下混信号既不满足预设的语音帧编码条件、也不满足预设的SID编码条件时,编码器不对第N帧下混信号编码,同时也不对第N帧立体声参数集合编码。
通过本发明实施例四编码方式得到的码流包括三种类型帧,第五类型帧、第六类型帧和第二类型帧,其中第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第二类型帧中不包含下混信号且不包含立体声参数集合,具体的解码器接收到码流后,还原得到两声道的音频信号的方法参见本发明实施例二和本发明实施例一。
本发明实施例四与本发明实施例二的区别在于:在第N帧下混信号不满足预设的语音帧编码条件、但满足预设的SID编码条件时,判断是否对第N帧立体声参数集合中至少一个立体声参数编码,当不满足预设的语音帧编码条件、且不满足预设的SID编码条件,则不对第N帧立体参数集合编码。
在本发明实施例三和本发明实施例四中,具体的解码器得到第N帧下混信号和第N帧立体声参数集合的方式参见本发明实施例二和本发明实施例一,以及对立体声参数和下混信号编码的具体实施方式也可参见本发明实施例二和本发明实施例一。
在本发明任一实施例中,预定第一算法、预定第二算法中的第一、第二没有特殊的含义,仅是用于区分不同的算法,第三、第四、第五、第六、第七等与此类似,在此不再一一赘述。
基于同一发明构思,本发明实施例中还提供了一种编码器、一种解码器和一种编解码系统,由于本发明实施例中的编码器、解码器和编解码系统对应的方法为本发明实施例处理多声道音频信号的方法,因此本发明实施例编码器、解码器以及编解码系统的实施可以参见该方法的实施,重复之处不再赘述。
如图3a所示,本发明实施例编码器,包括:信号检测单元300和信号编码单元310,其中,信号检测单元300用于检测第N帧下混信号中是否包含语音信号,第N帧下混信号是由多声道中两个声道的第N帧音频信号基于预定第一算法混合后得到的,N为大于零的正整数;信号编码单元310用于在信号检测单元300检测到第N帧下混信号中包含语音信号时,对第N帧下混信号编码,以及在信号检测单元300检测到第N帧下混信号中不包含语音信号时:若信号检测单元300确定第N帧下混信号满足预设的音频帧编码条件,则对第N帧下混信号编码;若信号检测单元300确定第N帧下混信号不满足预设的音频帧编码条件,则不对第N帧下混信号编码。
可选的,如图3b所示,信号编码单元310包括第一信号编码单元311和第二信号编码单元312,在信号检测单元300检测到第N帧下混信号中包含语音信号时,信号检测单元300通知第一信号编码单元311对第N帧下混信号编码;
若信号检测单元300确定第N帧下混信号满足预设的语音帧编码条件,则通知第一信号编码单元311对第N帧下混信号编码;
具体的,规定第一信号编码单元311根据预设的语音帧编码速率对第N帧下混信号编码;
若信号检测单元300确定第N帧下混信号不满足预设的语音帧编码条件、但满足预设的静音插入帧SID编码条件,则通知第二信号编码单元312对第N帧下混信号编码,具体的规定第二信号编码单元312根据预设的SID编码速率对第N帧下混信号编码;其中,SID编码速率不大于语音帧编码速率。
可选的,如图3a和如图3b所示的编码器还包括参数生成单元320、参数编码单元330和参数检测单元340,其中,参数生成单元320用于根据第N帧音频信号,得到第N帧立体声参数集合,第N帧立体声参数集合中包括Z个立体声参数,Z个立体声参数包括编码器基于预定第一算法对第N帧音频信号混合时所用到的参数,Z为大于零的正整数;参数编码单元330用于在信号检测单元检测到第N帧下混信号中包含语音信号时,则对第N帧立体声参数集合编码,以及在信号检测单元300检测到第N帧下混信号中不包含语音信号时:若信号检测单元300确定第N帧立体声参数集合满足预设的立体声参数编码条件,则对第N帧立体声参数集合中的至少一个立体声参数编码;若信号检测单元300确定第N帧立体声参数集合不满足预设的立体声参数编码条件,则不对立体声参数集合编码。
可选的,参数编码单元330用于根据第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,并对X个目标立体声参数编码,其中,X为大于零且小于等于Z的正整数。
具体的,当参数编码单元330包括第一参数编码单元331和第二参数编码单元332时,第二参数编码单元332用于根据第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,并对X个目标立体声参数编码。
可选的,在如图3a和图3b的基础上,如图3c所示的编码器参数生成单元320包括第一参数生成单元321和第二参数生成单元322,信号检测单元300检测到第N帧音频信号包含语音信号时,或者信号检测单元300检测到第N帧音频信号不包含语音信号、且第N帧音频信号满足预设的语音帧编码条件时,通知第一参数生成单元321生成第N帧立体声参数集合;信号检测单元300检测到第N帧音频信号不包含语音信号、且第N帧音频信号不满足预设的语音帧编码条件时,通知第二参数生成单元322生成第N帧立体声参数集合,具体的,预先规定第一参数生成单元321根据第N帧音频信号,基于第一立体声参数集合生成方式,得到第N帧立体声参数集合,第二参数生成单元322根据第N帧音频信号,基于第二立体声参数集合生成方式,得到第N帧立体声参数集合。
其中,第一立体声参数集合生成方式和第二立体声参数集合生成方式满足下列至少一个条件:
第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
第二参数生成单元322在得到第N帧立体声参数集合后,通过参数编码单元330对第N帧立体声参数集合编码,具体的,如图3d所示,当参数编码单元330包括第一参数编码单元331和第二参数编码单元332时,通过第一参数编码单元331对第一参数生成单元321生成的第N帧立体声参数集合编码;通过第二参数编码单元332对第二参数生成单元322生成的第N帧立体声参数集合编码;预先规定第一参数编码单元331的编码方式为第一编码方式,预先规定第二参数编码单元332的编码方式为第二编码方式,其中,第一参数编码单元规定的编码方式为第一编码方式,第二参数编码单元规定的编码方式为第二编码方式,具体的,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度。
在参数检测单元340确定第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对立体声参数集合编码。
可选的,参数编码单元330包括第一参数编码单元331和第二参数编码单元332,具体的,第一参数编码单元331用于在第N帧下混信号中包含语音信号以及在第N帧下混信号中不包含语音信号但满足语音帧编码条件时,根据第一编码方式对第N帧立体声参数集合编码;第二参数编码单元332用于在第N帧下混信号不满足语音帧编码条件时,根据第二编码方式对第N帧立体声参数集合中的至少一个立体声参数编码;
其中,第一编码方式规定的编码速率不小于第二编码方式规定的编码速率;和/或,针对第N帧立体声参数集合中的任一立体声参数,第一编码方式规定的量化精度不低于第二编码方式规定的量化精度。
在第三方面的基础上,可选的,若第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;预设立体声参数编码条件中包括:DL≥D0;
其中,DL表示ILD与第一标准的偏离程度,第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第二算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数。
可选的,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为两声道分别在第m个子频带传输第N帧音频信号时的电平差值,M为传输第N帧音频信号所占用的子频带的总个数,为在第N帧之前的T帧立体声参数集合中在第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为两声道分别传输第N帧音频信号时的时间差值,为在第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为两声道分别传输第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为两声道分别在第m个子频带传输第N帧音频信号中的部分音频信号时的相位差值,为在第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为两声道分别在第m个子频带传输第N帧音频信号之前的第t帧音频信号时的相位差值。
需要说明的是,如图3a~图3d所示的参数检测单元340是可选的,即在编码器中可以存在参数检测单元340,也可以没有参数检测单元340。
当参数编码单元330对参数生成单元320每帧立体声参数集合都编码时,无需对立体声参数进行检测,直接编码即可。
如图4所示,本发明实施例的解码器,包括:接收单元400和解码单元410,其中,接收单元400用于接收到码流,码流包括至少两个帧,至少两个帧中存在至少一个第一类型帧和至少一个第二类型帧,第一类型帧中包含下混信号,第二类型帧中不包含下混信号;针对第N帧码流,N为大于1的正整数,解码单元410用于:若确定第N帧码流为第一类型帧,则对第N帧码流解码,得到第N帧下混信号;若确定第N帧码流为第二类型帧,则根据预设第一规则,从第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据m帧下混信号,基于预定第一算法,得到第N帧下混信号,m为大于零的正整数;
其中,第N帧下混信号是编码器由多声道中两个声道的第N帧音频信号基于预定第二算法混合后得到的。
可选的,如图4所示的解码器还包括信号还原单元430,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中包含立体声参数集合且不包含下混信号:
解码单元410若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧,则对第N帧码流解码,得到第N帧立体声参数集合;其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元430,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
可选的,第一类型帧中包含下混信号和立体声参数集合,第二类型帧中不包含下混信号且不包含立体声参数集合;
解码单元410还用于若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元420,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
可选的,第一类型帧中包含下混信号和立体声参数集合,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码单元410还用于若确定第N帧码流为第一类型帧,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;若确定第N帧码流为第二类型帧:当第N帧码流为第三类型帧时,则对第N帧码流解码,得到第N帧立体声参数集合;当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合,k为大于零的正整数;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号;
信号还原单元420,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第二类型帧中不包含下混信号且不包含立体声参数集合:
解码单元410还用于若确定第N帧码流为第一类型帧:当第N帧码流为第五类型帧时,则对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;当第N帧码流为第六类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
解码单元410还用于若确定第N帧码流为第二类型帧,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号,k为大于零的正整数;
信号还原单元420,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
可选的,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,第五类型帧和第六类型帧分别为第一类型帧的一种情况,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,第三类型帧和第四类型帧分别为第二类型帧的一种情况:
解码单元410还用于若确定第N帧码流为第一类型帧:当第N帧码流为第五类型帧时,对第N帧码流解码,在得到第N帧下混信号的同时,还得到第N帧立体声参数集合;当第N帧码流为第六类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
解码单元410还用于若确定第N帧码流为第二类型帧,当第N帧码流为第三类型帧时,则对第N帧码流解码,得到第N帧立体声参数集合;当第N帧码流为第四类型帧时,则根据预设第二规则,从第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据k帧立体声参数集合,基于预定第四算法,得到第N帧立体声参数集合;
其中,第N帧立体声参数集合中的至少一个立体声参数用于解码器基于预定第三算法将第N帧下混信号还原为第N帧音频信号,k为大于零的正整数;
信号还原单元420,用于根据第N帧立体声参数集合中的至少一个立体声参数,基于第三算法,将第N帧下混信号还原为第N帧音频信号。
如图5所示,本发明实施例的编解码系统,包括如图3a~图3b所示的任一编码器500,和如图4所示的解码器510。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (29)
1.一种处理多声道音频信号的方法,所述方法应用于编码器,其特征在于,包括:
基于预定第一算法混合多声道中两个声道的第N帧音频信号得到第N帧下混信号,N为大于零的正整数;
检测所述第N帧下混信号中是否包含语音信号;
在检测到所述第N帧下混信号中包含语音信号时,对所述第N帧下混信号编码;
在检测到所述第N帧下混信号中不包含语音信号时:
若确定所述第N帧下混信号满足预设的音频帧编码条件,则对所述第N帧下混信号编码;若确定所述第N帧下混信号不满足预设的音频帧编码条件,则不对所述第N帧下混信号编码。
2.如权利要求1所述的方法,其特征在于,所述在检测到所述第N帧下混信号中包含语音信号时,对所述第N帧下混信号编码,包括:
在检测到所述第N帧下混信号中包含语音信号时,根据预设的语音帧编码速率对所述第N帧下混信号编码;
若确定所述第N帧下混信号满足预设的音频帧编码条件,则对所述第N帧下混信号编码,包括:
若确定所述第N帧下混信号满足预设的语音帧编码条件,则根据预设的语音帧编码速率对所述第N帧下混信号编码;
若确定所述第N帧下混信号不满足预设的语音帧编码条件、但满足预设的静音插入帧SID编码条件,则根据预设的SID编码速率对所述第N帧下混信号编码;其中,所述SID编码速率不大于所述语音帧编码速率。
3.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述第N帧音频信号,得到第N帧立体声参数集合,其中,所述第N帧立体声参数集合中包括Z个立体声参数,所述Z个立体声参数包括所述编码器基于所述预定第一算法对所述第N帧音频信号混合时所用到的参数,Z为大于零的正整数;
在检测到所述第N帧下混信号中包含语音信号时,则对所述第N帧立体声参数集合编码;
在检测到所述第N帧下混信号中不包含语音信号时:
若确定所述第N帧立体声参数集合满足预设的立体声参数编码条件,则对所述第N帧立体声参数集合中的至少一个立体声参数编码;若确定所述第N帧立体声参数集合不满足预设的立体声参数编码条件,则不对所述立体声参数集合编码。
4.如权利要求3所述的方法,其特征在于,所述对所述第N帧立体声参数集合中的至少一个立体声参数编码,包括:
根据所述第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,其中,X为大于零且小于等于Z的正整数;
对所述X个目标立体声参数编码。
5.如权利要求2所述的方法,其特征在于,还包括:
在检测到所述第N帧音频信号包含语音信号时:
根据所述第N帧音频信号,基于第一立体声参数集合生成方式,得到所述第N帧立体声参数集合,并对所述第N帧立体声参数集合编码;
所述在检测到所述第N帧音频信号不包含语音信号时:
若确定所述第N帧音频信号满足预设的语音帧编码条件,则根据所述第N帧音频信号,基于第一立体声参数集合生成方式,得到所述第N帧立体声参数集合,并对所述第N帧立体声参数集合编码;
若确定所述第N帧音频信号不满足预设的语音帧编码条件,则根据所述第N帧音频信号,基于第二立体声参数集合生成方式,得到所述第N帧立体声参数集合,并
在确定所述第N帧立体声参数集合满足预设的立体声参数编码条件时,对所述第N帧立体声参数集合中的至少一个立体声参数编码;在确定所述第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对所述立体声参数集合编码;
其中,所述第一立体声参数集合生成方式和所述第二立体声参数集合生成方式满足下列至少一个条件:
所述第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于所述第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,所述第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于所述第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,所述第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于所述第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,所述第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于所述第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
6.如权利要求3至5任一所述的方法,其特征在于,所述对所述第N帧立体声参数集合编码,包括:
根据第一编码方式对所述第N帧立体声参数集合编码;
对所述第N帧立体声参数集合中的至少一个立体声参数编码,包括:
在所述第N帧下混信号满足所述语音帧编码条件时,根据第一编码方式对所述第N帧立体声参数集合中的至少一个立体声参数编码;
在所述第N帧下混信号不满足所述语音帧编码条件时,根据所述第二编码方式对所述第N帧立体声参数集合中的至少一个立体声参数编码;
其中,所述第一编码方式规定的编码速率不小于所述第二编码方式规定的编码速率;和/或,针对所述第N帧立体声参数集合中的任一立体声参数,所述第一编码方式规定的量化精度不低于所述第二编码方式规定的量化精度。
7.如权利要求3至6任一所述的方法,其特征在于,若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;所述预设立体声参数编码条件中包括:DL≥D0;
其中,DL表示ILD与第一标准的偏离程度,所述第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第二算法确定的,T为大于0的正整数;
若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;所述预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,所述第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;所述预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,所述第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数。
8.如权利要求7所述的方法,其特征在于,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为所述两声道分别在第m个子频带传输所述第N帧音频信号时的电平差值,M为传输所述第N帧音频信号所占用的子频带的总个数,为在所述第N帧之前的T帧立体声参数集合中在所述第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为所述两声道分别在第m个子频带传输所述第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为所述两声道分别传输所述第N帧音频信号时的时间差值,为在所述第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为所述两声道分别传输所述第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为所述两声道分别在第m个子频带传输所述第N帧音频信号中的部分音频信号时的相位差值,为在所述第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为所述两声道分别在第m个子频带传输所述第N帧音频信号之前的第t帧音频信号时的相位差值。
9.一种处理多声道音频信号的方法,其特征在于,包括:
解码器接收到码流,所述码流包括至少两个帧,所述至少两个帧中存在至少一个第一类型帧和至少一个第二类型帧,所述第一类型帧中包含下混信号,所述第二类型帧中不包含下混信号;
针对第N帧码流,所述N为大于1的正整数:
所述解码器若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码,得到第N帧下混信号;
所述解码器若确定所述第N帧码流为所述第二类型帧,则根据预设第一规则,从所述第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据所述m帧下混信号,基于预定第一算法,得到所述第N帧下混信号,m为大于零的正整数;
其中,所述第N帧下混信号是编码器由多声道中两个声道的第N帧音频信号基于预定第二算法混合后得到的。
10.如权利要求9所述的方法,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,所述第二类型帧中包含立体声参数集合且不包含下混信号:
所述解码器若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,还包括:
所述解码器得到第N帧立体声参数集合;
所述解码器若确定所述第N帧码流为所述第二类型帧之后,还包括:
所述解码器对所述第N帧码流解码,得到第N帧立体声参数集合;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号
所述解码器根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
11.如权利要求9所述的方法,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,所述第二类型帧中不包含下混信号且不包含立体声参数集合;
所述解码器若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,还包括:
所述解码器得到第N帧立体声参数集合;
所述解码器若确定所述第N帧码流为所述第二类型帧之后,还包括:
所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,k为大于零的正整数;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号;
所述解码器根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
12.如权利要求9所述的方法,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,所述第三类型帧和所述第四类型帧分别为所述第二类型帧的一种情况:
所述解码器若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,还包括:
所述解码器得到第N帧立体声参数集合;
所述解码器若确定所述第N帧码流为所述第二类型帧之后,还包括:
当所述第N帧码流为所述第三类型帧时,所述解码器对所述第N帧码流解码,得到第N帧立体声参数集合;
当所述第N帧码流为所述第四类型帧时,所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,k为大于零的正整数;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号;
所述解码器根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
13.如权利要求9所述的方法,其特征在于,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,所述第五类型帧和所述第六类型帧分别为所述第一类型帧的一种情况,所述第二类型帧中不包含下混信号且不包含立体声参数集合:
所述解码器若确定所述第N帧码流为所述第一类型帧之后,还包括:
当所述第N帧码流为所述第五类型帧时,所述解码器对所述第N帧码流解码,得到第N帧立体声参数集合;
当所述第N帧码流为所述第六类型帧时,所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
所述解码器若确定所述第N帧码流为所述第二类型帧之后,还包括:
所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号,所述k为大于零的正整数;
所述解码器根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
14.如权利要求9所述的方法,其特征在于,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,所述第五类型帧和所述第六类型帧分别为所述第一类型帧的一种情况,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,所述第三类型帧和所述第四类型帧分别为所述第二类型帧的一种情况:
所述解码器若确定所述第N帧码流为所述第一类型帧之后,还包括:
当所述第N帧码流为所述第五类型帧时,所述解码器对所述第N帧码流解码,得到第N帧立体声参数集合;
当所述第N帧码流为所述第六类型帧时,所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
所述解码器若确定所述第N帧码流为所述第二类型帧之后,还包括:
当所述第N帧码流为所述第三类型帧时,所述解码器对所述第N帧码流解码,得到第N帧立体声参数集合;
当所述第N帧码流为所述第四类型帧时,所述解码器根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号,k为大于零的正整数;
所述解码器根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
15.一种编码器,其特征在于,包括:
信号混合单元,用于基于预定第一算法混合多声道中两个声道的第N帧音频信号得到第N帧下混信号,N为大于零的正整数;
信号检测单元,用于检测第N帧下混信号中是否包含语音信号;
信号编码单元,用于在所述信号检测单元检测到所述第N帧下混信号中包含语音信号时,对所述第N帧下混信号编码;
所述信号编码单元,还用于在所述信号检测单元检测到所述第N帧下混信号中不包含语音信号时:
若所述信号检测单元确定所述第N帧下混信号满足预设的音频帧编码条件,则对所述第N帧下混信号编码;若所述信号检测单元确定所述第N帧下混信号不满足预设的音频帧编码条件,则不对所述第N帧下混信号编码。
16.如权利要求15所述的编码器,其特征在于,所述信号编码单元包括第一信号编码单元和第二信号编码单元,所述第一信号编码单元,具体用于:
在所述信号检测单元检测到所述第N帧下混信号中包含语音信号时,根据预设的语音帧编码速率对所述第N帧下混信号编码;
若所述信号检测单元确定所述第N帧下混信号满足预设的语音帧编码条件,则根据预设的语音帧编码速率对所述第N帧下混信号编码;
所述第二信号编码单元,具体用于:
若所述信号检测单元确定所述第N帧下混信号不满足预设的语音帧编码条件、但满足预设的静音插入帧SID编码条件,则根据预设的SID编码速率对所述第N帧下混信号编码;其中,所述SID编码速率不大于所述语音帧编码速率。
17.如权利要求15或16所述的编码器,其特征在于,还包括参数生成单元、参数编码单元和参数检测单元;
所述参数生成单元,用于根据所述第N帧音频信号,得到第N帧立体声参数集合,其中,所述第N帧立体声参数集合中包括Z个立体声参数,所述Z个立体声参数包括所述编码器基于所述预定第一算法对所述第N帧音频信号混合时所用到的参数,Z为大于零的正整数;
所述参数编码单元,用于在所述信号检测单元检测到所述第N帧下混信号中包含语音信号时,则对所述第N帧立体声参数集合编码;
所述参数编码单元,在所述信号检测单元检测到所述第N帧下混信号中不包含语音信号时,还用于:
若所述参数检测单元确定所述第N帧立体声参数集合满足预设的立体声参数编码条件,则对所述第N帧立体声参数集合中的至少一个立体声参数编码;若所述参数检测单元确定所述第N帧立体声参数集合不满足预设的立体声参数编码条件,则不对所述立体声参数集合编码。
18.如权利要求17所述的编码器,其特征在于,所述参数编码单元对所述第N帧立体声参数集合中的至少一个立体声参数编码,具体用于:
根据所述第N帧立体声参数集合中的Z个立体声参数,按照预设的立体声参数降维规则,得到X个目标立体声参数,并对所述X个目标立体声参数编码,其中,X为大于零且小于等于Z的正整数。
19.如权利要求16所述的编码器,其特征在于,所述参数生成单元包括第一参数生成单元和第二参数生成单元;
所述第一参数生成单元,用于在所述信号检测单元检测到所述第N帧音频信号包含语音信号时以及在所述信号检测单元检测到所述第N帧音频信号不包含语音信号、且确定所述第N帧音频信号满足预设的语音帧编码条件时:根据所述第N帧音频信号,基于第一立体声参数集合生成方式,得到所述第N帧立体声参数集合,并通过参数编码单元对所述第N帧立体声参数集合编码;
所述第二参数生成单元,用于在所述信号检测单元检测到所述第N帧音频信号不包含语音信号、且确定所述第N帧音频信号不满足预设的语音帧编码条件时:
根据所述第N帧音频信号,基于第二立体声参数集合生成方式,得到所述第N帧立体声参数集合,并
在所述参数检测单元确定所述第N帧立体声参数集合满足预设的立体声参数编码条件时,对所述第N帧立体声参数集合中的至少一个立体声参数编码;在所述参数检测单元确定所述第N帧立体声参数集合不满足预设的立体声参数编码条件时,不对所述立体声参数集合编码;
其中,所述第一立体声参数集合生成方式和所述第二立体声参数集合生成方式满足下列至少一个条件:
所述第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数不少于所述第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数类型的个数,所述第一立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数不少于所述第二立体声参数集合生成方式规定的立体声参数集合中包括的立体声参数的个数,所述第一立体声参数集合生成方式规定的立体声参数在时域的分辨率不低于所述第二立体声参数集合生成方式规定的对应的立体声参数在时域的分辨率,所述第一立体声参数集合生成方式规定的立体声参数在频域的分辨率不低于所述第二立体声参数集合生成方式规定的对应的立体声参数在频域的分辨率。
20.如权利要求17至19任一所述的编码器,其特征在于,所述参数编码单元包括第一参数编码单元和第二参数编码单元;
所述第一参数编码单元,用于在所述信号检测单元检测到第N帧下混信号中包含语音信号以及所述第N帧下混信号满足所述语音帧编码条件时,根据第一编码方式对所述第N帧立体声参数集合编码;
所述第二参数编码单元,具体用于:在所述第N帧下混信号不满足所述语音帧编码条件时,根据所述第二编码方式对所述第N帧立体声参数集合中的至少一个立体声参数编码;
其中,所述第一编码方式规定的编码速率不小于所述第二编码方式规定的编码速率;和/或,针对所述第N帧立体声参数集合中的任一立体声参数,所述第一编码方式规定的量化精度不低于所述第二编码方式规定的量化精度。
21.如权利要求17至20任一所述的编码器,其特征在于,若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间电平差ILD;所述预设立体声参数编码条件中包括:DL≥D0;
其中,DL表示ILD与第一标准的偏离程度,所述第一标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第二算法确定的,T为大于0的正整数;
若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间时间差ITD;所述预设立体声参数编码条件中包括:DT≥D1;
其中,DT表示ITD与第二标准的偏离程度,所述第二标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第三算法确定的,T为大于0的正整数;
若所述第N帧立体声参数集合中的至少一个立体声参数包括:声道间相位差IPD;所述预设立体声参数编码条件中包括:Dp≥D2;
其中,DP表示IPD与第三标准的偏离程度,所述第三标准是根据第N帧立体声参数集合之前的T帧立体声参数集合,基于预定第四算法确定的,T为大于0的正整数。
22.如权利要求21所述的编码器,其特征在于,DL、DT、DP分别满足下列表达式:
其中,ILD(m)为所述两声道分别在第m个子频带传输所述第N帧音频信号时的电平差值,M为传输所述第N帧音频信号所占用的子频带的总个数,为在所述第N帧之前的T帧立体声参数集合中在所述第m个子频带的ILD的平均值,T为大于0的正整数,ILD[-t](m)为所述两声道分别在第m个子频带传输所述第N帧音频信号之前的第t帧音频信号时的电平差值,ITD为所述两声道分别传输所述第N帧音频信号时的时间差值,为在所述第N帧之前的T帧立体声参数集合中的ITD的平均值,ITD[-t]为所述两声道分别传输所述第N帧音频信号之前的第t帧音频信号时的时间差值,IPD(m)为所述两声道分别在第m个子频带传输所述第N帧音频信号中的部分音频信号时的相位差值,为在所述第N帧之前的T帧立体声参数集合中在第m个子频带的IPD的平均值,IPD[-t](m)为所述两声道分别在第m个子频带传输所述第N帧音频信号之前的第t帧音频信号时的相位差值。
23.一种解码器,其特征在于,包括:
接收单元,用于接收到码流,所述码流包括至少两个帧,所述至少两个帧中存在至少一个第一类型帧和至少一个第二类型帧,所述第一类型帧中包含下混信号,所述第二类型帧中不包含下混信号;
针对第N帧码流,所述N为大于1的正整数,解码单元,用于:
若确定所述第N帧码流为所述第一类型帧,对所述第N帧码流解码,得到第N帧下混信号;
若确定所述第N帧码流为所述第二类型帧,则根据预设第一规则,从所述第N帧下混信号之前的至少一帧下混信号中,确定m帧下混信号,并根据所述m帧下混信号,基于预定第一算法,得到所述第N帧下混信号,m为大于零的正整数;
其中,所述第N帧下混信号是编码器由多声道中两个声道的第N帧音频信号基于预定第二算法混合后得到的。
24.如权利要求23所述的解码器,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,所述第二类型帧中包含立体声参数集合且不包含下混信号:
所述解码单元还用于:
若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,得到第N帧立体声参数集合;
若确定所述第N帧码流为所述第二类型帧,则对所述第N帧码流解码,得到第N帧立体声参数结合;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号;
所述解码器还包括,信号还原单元;
所述信号还原单元,用于根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
25.如权利要求23所述的解码器,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,所述第二类型帧中不包含下混信号且不包含立体声参数集合;
所述解码单元,还用于:
若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,得到第N帧立体声参数集合;
若确定所述第N帧码流为所述第二类型帧,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,k为大于零的正整数;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号;
所述解码器还包括,信号还原单元;
所述信号还原单元,用于根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
26.如权利要求23所述的解码器,其特征在于,所述第一类型帧中包含下混信号和立体声参数集合,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,所述第三类型帧和所述第四类型帧分别为所述第二类型帧的一种情况:
所述解码单元,还用于:
若确定所述第N帧码流为所述第一类型帧,则对所述第N帧码流解码之后,得到第N帧立体声参数集合;
若确定所述第N帧码流为所述第二类型帧,则当所述第N帧码流为所述第三类型帧时,对所述第N帧码流解码,得到第N帧立体声参数集合;当所述第N帧码流为所述第四类型帧时,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,k为大于零的正整数;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号;
所述解码器还包括,信号还原单元;
所述信号还原单元,用于根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
27.如权利要求23所述的解码器,其特征在于,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,所述第五类型帧和所述第六类型帧分别为所述第一类型帧的一种情况,所述第二类型帧中不包含下混信号且不包含立体声参数集合:
所述解码单元,还用于:
若确定所述第N帧码流为所述第一类型帧,则当所述第N帧码流为所述第五类型帧时,对所述第N帧码流解码之后,得到第N帧立体声参数集合;当所述第N帧码流为所述第六类型帧时,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
若确定所述第N帧码流为所述第二类型帧,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合,
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号,所述k为大于零的正整数;
所述解码器还包括,信号还原单元;
所述信号还原单元,用于根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
28.如权利要求23所述的解码器,其特征在于,第五类型帧中包含下混信号和立体声参数集合,第六类型帧中包含下混信号且不包含立体声参数集合,所述第五类型帧和所述第六类型帧分别为所述第一类型帧的一种情况,第三类型帧中包含立体声参数集合且不包含下混信号,第四类型帧中不包含下混信号且不包含立体声参数集合,所述第三类型帧和所述第四类型帧分别为所述第二类型帧的一种情况:
所述解码单元,还用于:
若确定所述第N帧码流为所述第一类型帧,当所述第N帧码流为所述第五类型帧时,则对所述第N帧码流解码之后,得到第N帧立体声参数集合;当所述第N帧码流为所述第六类型帧时,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
若确定所述第N帧码流为所述第二类型帧,当所述第N帧码流为所述第三类型帧时,对所述第N帧码流解码,得到第N帧立体声参数集合;当所述第N帧码流为所述第四类型帧时,则根据预设第二规则,从所述第N帧立体声参数集合之前的至少一帧立体声参数集合中,确定k帧立体声参数集合,并根据所述k帧立体声参数集合,基于预定第四算法,得到所述第N帧立体声参数集合;
其中,所述第N帧立体声参数集合中的至少一个立体声参数用于所述解码器基于所述预定第三算法将所述第N帧下混信号还原为所述第N帧音频信号,k为大于零的正整数;
所述解码器还包括,信号还原单元;
所述信号还原单元,用于根据所述第N帧立体声参数集合中的至少一个立体声参数,基于所述第三算法,将所述第N帧下混信号还原为所述第N帧音频信号。
29.一种编解码系统,其特征在于,包括如权利要求15至22任一所述的编码器,和如权利要求23至28任一所述的解码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311262035.8A CN117351966A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311262035.8A CN117351966A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
PCT/CN2016/100617 WO2018058379A1 (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN201680010600.3A CN108140393B (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680010600.3A Division CN108140393B (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117351966A true CN117351966A (zh) | 2024-01-05 |
Family
ID=61763024
Family Applications (5)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311267474.8A Pending CN117392988A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN201680010600.3A Active CN108140393B (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN202311261449.9A Pending CN117351965A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN202311262035.8A Pending CN117351966A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN202311261321.2A Pending CN117476018A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Family Applications Before (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311267474.8A Pending CN117392988A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN201680010600.3A Active CN108140393B (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
CN202311261449.9A Pending CN117351965A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311261321.2A Pending CN117476018A (zh) | 2016-09-28 | 2016-09-28 | 一种处理多声道音频信号的方法、装置和系统 |
Country Status (7)
Country | Link |
---|---|
US (4) | US10593339B2 (zh) |
EP (2) | EP3511934B1 (zh) |
JP (1) | JP6790251B2 (zh) |
KR (3) | KR102387162B1 (zh) |
CN (5) | CN117392988A (zh) |
MX (1) | MX2019003417A (zh) |
WO (1) | WO2018058379A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6790251B2 (ja) * | 2016-09-28 | 2020-11-25 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオ信号処理方法、装置、およびシステム |
CN114420139A (zh) | 2018-05-31 | 2022-04-29 | 华为技术有限公司 | 一种下混信号的计算方法及装置 |
BR112021020151A2 (pt) * | 2019-04-18 | 2021-12-14 | Dolby Laboratories Licensing Corp | Detector de diálogo |
CN115867964A (zh) * | 2020-06-11 | 2023-03-28 | 杜比实验室特许公司 | 用于对多声道输入信号内的空间背景噪声进行编码和/或解码的方法和设备 |
CN116348951A (zh) * | 2020-07-30 | 2023-06-27 | 弗劳恩霍夫应用研究促进协会 | 用于编码音频信号或用于解码经编码音频场景的设备、方法及计算机程序 |
WO2024056702A1 (en) * | 2022-09-13 | 2024-03-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive inter-channel time difference estimation |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713586B2 (ja) | 1987-02-20 | 1995-02-15 | 三機工業株式会社 | 自動車エンジン実験用移動油水制御装置 |
JP2835483B2 (ja) * | 1993-06-23 | 1998-12-14 | 松下電器産業株式会社 | 音声判別装置と音響再生装置 |
JP2728122B2 (ja) * | 1995-05-23 | 1998-03-18 | 日本電気株式会社 | 無音圧縮音声符号化復号化装置 |
EP0977172A4 (en) | 1997-03-19 | 2000-12-27 | Hitachi Ltd | METHOD AND DEVICE FOR DETERMINING THE START AND END POINT OF A SOUND SECTION IN VIDEO |
WO2001043334A2 (en) * | 1999-12-13 | 2001-06-14 | Broadcom Corporation | Voice gateway with downstream voice synchronization |
JP3526269B2 (ja) | 2000-12-11 | 2004-05-10 | 株式会社東芝 | ネットワーク間中継装置及び該中継装置における転送スケジューリング方法 |
US7657706B2 (en) | 2003-12-18 | 2010-02-02 | Cisco Technology, Inc. | High speed memory and input/output processor subsystem for efficiently allocating and using high-speed memory and slower-speed memory |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
JP2008286904A (ja) * | 2007-05-16 | 2008-11-27 | Panasonic Corp | オーディオ複号化装置 |
CN101320563B (zh) * | 2007-06-05 | 2012-06-27 | 华为技术有限公司 | 一种背景噪声编码/解码装置、方法和通信设备 |
WO2009066959A1 (en) | 2007-11-21 | 2009-05-28 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2144229A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Efficient use of phase information in audio encoding and decoding |
CN101556799B (zh) * | 2009-05-14 | 2013-08-28 | 华为技术有限公司 | 一种音频解码方法和音频解码器 |
CN101661749A (zh) * | 2009-09-23 | 2010-03-03 | 清华大学 | 一种语音和音乐双模切换编/解码的方法 |
KR101137652B1 (ko) * | 2009-10-14 | 2012-04-23 | 광운대학교 산학협력단 | 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법 |
US9324337B2 (en) * | 2009-11-17 | 2016-04-26 | Dolby Laboratories Licensing Corporation | Method and system for dialog enhancement |
JP5299327B2 (ja) | 2010-03-17 | 2013-09-25 | ソニー株式会社 | 音声処理装置、音声処理方法、およびプログラム |
JP5581449B2 (ja) * | 2010-08-24 | 2014-08-27 | ドルビー・インターナショナル・アーベー | Fmステレオ無線受信機の断続的モノラル受信の隠蔽 |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
JP5753540B2 (ja) * | 2010-11-17 | 2015-07-22 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | ステレオ信号符号化装置、ステレオ信号復号装置、ステレオ信号符号化方法及びステレオ信号復号方法 |
WO2013068634A1 (en) * | 2011-11-10 | 2013-05-16 | Nokia Corporation | A method and apparatus for detecting audio sampling rate |
CN103188595B (zh) * | 2011-12-31 | 2015-05-27 | 展讯通信(上海)有限公司 | 处理多声道音频信号的方法和系统 |
US9036526B2 (en) * | 2012-11-08 | 2015-05-19 | Qualcomm Incorporated | Voice state assisted frame early termination |
EP3007166B1 (en) | 2013-05-31 | 2019-05-08 | Sony Corporation | Encoding device and method, decoding device and method, and program |
CN105304080B (zh) * | 2015-09-22 | 2019-09-03 | 科大讯飞股份有限公司 | 语音合成装置及方法 |
ES2809677T3 (es) * | 2015-09-25 | 2021-03-05 | Voiceage Corp | Método y sistema para codificar una señal de sonido estéreo utilizando parámetros de codificación de un canal primario para codificar un canal secundario |
US20170134282A1 (en) | 2015-11-10 | 2017-05-11 | Ciena Corporation | Per queue per service differentiation for dropping packets in weighted random early detection |
JP6790251B2 (ja) * | 2016-09-28 | 2020-11-25 | 華為技術有限公司Huawei Technologies Co.,Ltd. | マルチチャネルオーディオ信号処理方法、装置、およびシステム |
CN109285536B (zh) * | 2018-11-23 | 2022-05-13 | 出门问问创新科技有限公司 | 一种语音特效合成方法、装置、电子设备及存储介质 |
-
2016
- 2016-09-28 JP JP2019516957A patent/JP6790251B2/ja active Active
- 2016-09-28 CN CN202311267474.8A patent/CN117392988A/zh active Pending
- 2016-09-28 WO PCT/CN2016/100617 patent/WO2018058379A1/zh active Application Filing
- 2016-09-28 CN CN201680010600.3A patent/CN108140393B/zh active Active
- 2016-09-28 EP EP16917134.5A patent/EP3511934B1/en active Active
- 2016-09-28 KR KR1020217028255A patent/KR102387162B1/ko active IP Right Grant
- 2016-09-28 KR KR1020227012057A patent/KR102480710B1/ko active IP Right Grant
- 2016-09-28 KR KR1020197011605A patent/KR20190052122A/ko not_active Application Discontinuation
- 2016-09-28 EP EP21163871.3A patent/EP3910629A1/en active Pending
- 2016-09-28 CN CN202311261449.9A patent/CN117351965A/zh active Pending
- 2016-09-28 CN CN202311262035.8A patent/CN117351966A/zh active Pending
- 2016-09-28 MX MX2019003417A patent/MX2019003417A/es unknown
- 2016-09-28 CN CN202311261321.2A patent/CN117476018A/zh active Pending
-
2019
- 2019-03-28 US US16/368,208 patent/US10593339B2/en active Active
-
2020
- 2020-02-04 US US16/781,421 patent/US10984807B2/en active Active
-
2021
- 2021-04-16 US US17/232,679 patent/US11922954B2/en active Active
-
2024
- 2024-01-23 US US18/420,007 patent/US20240233736A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
CN117476018A (zh) | 2024-01-30 |
KR20190052122A (ko) | 2019-05-15 |
MX2019003417A (es) | 2019-10-07 |
JP6790251B2 (ja) | 2020-11-25 |
US11922954B2 (en) | 2024-03-05 |
EP3511934B1 (en) | 2021-04-21 |
US10984807B2 (en) | 2021-04-20 |
US10593339B2 (en) | 2020-03-17 |
BR112019005983A2 (pt) | 2019-10-01 |
KR102480710B1 (ko) | 2022-12-22 |
CN117351965A (zh) | 2024-01-05 |
US20240233736A1 (en) | 2024-07-11 |
CN108140393A (zh) | 2018-06-08 |
EP3511934A4 (en) | 2019-08-14 |
JP2019533189A (ja) | 2019-11-14 |
US20190221219A1 (en) | 2019-07-18 |
KR20210111898A (ko) | 2021-09-13 |
US20200273468A1 (en) | 2020-08-27 |
US20210312932A1 (en) | 2021-10-07 |
KR102387162B1 (ko) | 2022-04-14 |
KR20220053030A (ko) | 2022-04-28 |
CN117392988A (zh) | 2024-01-12 |
CN108140393B (zh) | 2023-10-20 |
EP3910629A1 (en) | 2021-11-17 |
WO2018058379A1 (zh) | 2018-04-05 |
EP3511934A1 (en) | 2019-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108140393B (zh) | 一种处理多声道音频信号的方法、装置和系统 | |
US8180061B2 (en) | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding | |
KR101276849B1 (ko) | 오디오 신호의 처리 방법 및 장치 | |
JP2022126688A (ja) | 快適雑音の生成のサポート | |
US9324329B2 (en) | Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder | |
EP2087484B1 (en) | Method, apparatus and computer program product for stereo coding | |
US9275646B2 (en) | Method for inter-channel difference estimation and spatial audio coding device | |
WO2014051964A1 (en) | Apparatus and method for audio frame loss recovery | |
EP2705516B1 (en) | Encoding of stereophonic signals | |
WO2024052499A1 (en) | Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata | |
WO2024051954A1 (en) | Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata | |
BR112019005983B1 (pt) | Método de processamento de sinal de áudio de multicanais, codificador, decodificador e sistema de codificação e decodificação |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |