CN110556117B - 立体声信号的编码方法和装置 - Google Patents

立体声信号的编码方法和装置 Download PDF

Info

Publication number
CN110556117B
CN110556117B CN201810549237.3A CN201810549237A CN110556117B CN 110556117 B CN110556117 B CN 110556117B CN 201810549237 A CN201810549237 A CN 201810549237A CN 110556117 B CN110556117 B CN 110556117B
Authority
CN
China
Prior art keywords
sub
energy
parameter
bands
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810549237.3A
Other languages
English (en)
Other versions
CN110556117A (zh
Inventor
王宾
刘泽新
李海婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN202210345190.5A priority Critical patent/CN114708874A/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201810549237.3A priority patent/CN110556117B/zh
Priority to EP24164942.5A priority patent/EP4435777A1/en
Priority to JP2020566740A priority patent/JP7110401B2/ja
Priority to EP19811645.1A priority patent/EP3783607B1/en
Priority to BR112020024257-8A priority patent/BR112020024257A2/pt
Priority to PT198116451T priority patent/PT3783607T/pt
Priority to KR1020237021245A priority patent/KR102710464B1/ko
Priority to KR1020207035773A priority patent/KR102548475B1/ko
Priority to SG11202011324RA priority patent/SG11202011324RA/en
Priority to KR1020247031583A priority patent/KR20240145060A/ko
Priority to PCT/CN2019/076341 priority patent/WO2019227991A1/zh
Publication of CN110556117A publication Critical patent/CN110556117A/zh
Priority to US17/104,852 priority patent/US11462224B2/en
Application granted granted Critical
Publication of CN110556117B publication Critical patent/CN110556117B/zh
Priority to JP2022115641A priority patent/JP7520922B2/ja
Priority to US17/886,087 priority patent/US11978463B2/en
Priority to US18/625,538 priority patent/US20240355343A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/756Media network packet handling adapting media to device capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本申请提供了一种立体声信号的编码方法和装置。该方法包括:根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定当前帧的残差信号编码参数,所述当前帧的残差信号编码参数用于指示是否对所述M个子带的残差信号进行编码,所述M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;根据所述当前帧的残差信号编码参数,确定是否对所述当前帧的M个子带的残差信号编码。本申请提供的立体声信号的编码方法能够在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。

Description

立体声信号的编码方法和装置
技术领域
本申请涉及音频领域,并且更具体地,涉及立体声信号的编码方法和装置。
背景技术
采用时域或时频域结合的立体声编码技术对立体声信号进行编码的大致过程如下:
对左声道时域信号与右声道时域信号进行时域预处理;
对时域预处理后的左声道时域信号与右声道时域信号进行时域分析;
对时域预处理后的左声道时域信号与右声道时域信号进行时频域变换,得到左声道频域信号与右声道频域信号;
确定时域声道间时间差(Inter-channel Time Difference,ITD)参数;
根据ITD参数,对左声道频域信号与右声道频域信号进行时移调整;
根据时移调整后的左声道频域信号与右声道频域信号,计算立体声参数、下混信号与残差信号,并进行编码。
已知一种现有技术,在编码速率比较低的情况下,通常仅对立体声参数及下混信号进行编码,在编码速率比较高的情况下,才会对部分或者全部残差信号进行编码,这使得解码立体声信号的空间感较差,并且声像稳定性较差。
已知另一种现有技术,在编码速率比较低的情况下,除了对下混信号进行编码,同时还对满足预设带宽范围内的子带的残差信号进行编码,这种编码方法虽然能够提高解码立体声信号的空间感和声像稳定性,但是由于用于编码残差信号与编码下混信号的编码比特总数是一定的,并且由于下混信号编码时优先对低频信息进行编码,导致在对下混信号编码时,可能没有足够的比特数对下混信号中的一些高频信息更丰富的信号进行编码,因此,使得解码获得的立体声信号的高频失真较大,从而影响编码质量。
发明内容
本申请提供一种立体声信号的编码方法,能够在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
第一方面,提供了一种立体声信号的编码方法,包括:根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,所述当前帧的残差信号编码参数用于指示是否对所述M个子带的残差信号进行编码,所述M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;根据所述当前帧的残差信号编码参数,确定是否对所述当前帧的M个子带的残差信号编码。
通过根据满足预设带宽范围内的N个子带中的M个子带的下混信号能量与残差信号能量,确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码,避免在编码速率较低时仅对下混信号编码,或者,对满足预设带宽范围内的子带的残差信号均进行编码,从而在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
结合第一方面,在第一方面的一种可能的实现方式中,所述M个子带为所述N个子带中的子带索引号小于或等于预设的最大子带索引号的M个子带。
可选地,作为一种实现方式,所述M个子带为所述N个子带中的子带索引号大于或等于预设的最小子带索引号且小于或等于预设的最大子带索引号的M个子带。
通过根据不同的编码速率设定最小的子带索引号和/或预设的最大子带索引号,使得根据不同的编码速率,根据该N个子带中的特定的多个子带的下混信号能量与残差信号能量,确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码,避免在编码速率较低时仅对下混信号编码,或者,对满足预设带宽范围内的子带的残差信号均进行编码,从而在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述残差信号编码参数,确定是否对所述M个子带中的每个子带的残差信号编码,包括:将所述当前帧的残差信号编码参数与预设的第一阈值进行比较,所述第一阈值大于0,且小于1.0;在所述当前帧的残差信号编码参数小于或等于所述第一阈值的情况下,确定不对所述M个子带中的每个子带的残差信号进行编码;或在所述当前帧的残差信号编码参数大于所述第一阈值的情况下,确定对所述M个子带中的每个子带的残差信号进行编码。
通过设定第一阈值,并将确定的残差信号编码参数与该第一阈值进行比较,根据该残差信号编码参数与该第一阈值的比较结果,确定是否对该M个子带中的每个子带的残差信号编码,避免在编码速率较低时仅对下混信号编码,或者,对满足预设带宽范围内的子带的残差信号均进行编码,从而在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,包括:根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定所述残差信号编码参数。
通过根据该M个子带中的每个子带的下混信号能量、残差信号能量与每个子带的边增益,确定该残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码,避免在编码速率较低时仅对下混信号编码,或者,对满足预设带宽范围内的子带的残差信号均进行编码,从而在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定残差信号编码参数,包括:根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的残差信号编码参数。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,包括:根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,所述M个能量参数指示所述M个子带中每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
结合第一方面,在第一方面的一种可能的实现方式中,所述M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))·(1-g(b))
·res_cod_NRG_M[b]+1)
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量,g(b)为关于所述子带索引号为b的子带的边增益side_gain[b]的函数。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,包括:根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的残差信号编码参数。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,包括:根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,所述M个能量参数指示所述M个子带中每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
可选地,作为一种实现方式,将该M个能量参数之和确定为第一参数(待修正)res_dmx_ratio1,并根据该M个能量参数中的最大值res_dmx_ratio_max与该M个子带中的每个子带的下混信号能量res_cod_NRG_M[b]对该res_dmx_ratio1进行修正,确定修正后的res_dmx_ratio2
例如,编码端按照下式对该res_dmx_ratio1进行修正,其中,M=5:
修正后获得的res_dmx_ratio2满足:
Figure BDA0001680715480000041
可选地,作为一种实现方式,还可以对修正后的res_dmx_ratio2作进一步的修正:
例如,最终获得的修正后的res_dmx_ratio3满足:
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
其中,函数pow()为指数函数,pow(res_dmx_ratio2,1.2)代表res_dmx_ratio2的1.2次方。
可选地,作为一种实现方式,编码端根据该M个子带的残差信号能量之和与该M个子带的下混信号能量之和,确定该第一参数。
具体地,编码端分别确定该M个子带的下混信号能量之和dmx_nrg_all_curr与该M个子带的残差信号能量之和res_nrg_all_curr,并根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数。
可选地,作为一种实现方式,该M个子带的下混信号能量之和dmx_nrg_all_curr满足:
Figure BDA0001680715480000042
其中,res_cod_NRG_M_prev[b]表示当前帧的前一帧的子带索引号为b的子带的下混信号能量,γ1表示平滑因子,γ1为大于等于0小于等于1的实数,例如,γ1=0.1。
可选地,作为一种实现方式,该M个子带的残差信号能量之和res_nrg_all_curr满足:
Figure BDA0001680715480000043
其中,res_cod_NRG_S_prev[b]表示当前帧的前一帧的子带索引号为b的子带的残差信号能量,γ2表示平滑因子,γ2为大于等于0小于等于1的实数,例如,γ2=0.1。
编码端根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数res_dmx_ratio。
例如,编码端最终确定的第一参数res_dmx_ratio满足:
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr。
结合第一方面,在第一方面的一种可能的实现方式中,所述M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量。
结合第一方面,在第一方面的一种可能的实现方式中,所述当前帧的残差信号编码参数为所述当前帧的长时平滑参数,所述当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio.α+res_dmx_ratio_lt_prev·(1-α)
res_dmx_ratio_lt为所述当前帧的长时平滑参数,res_dmx_ratio为所述第一参数,res_dmx_ratio_lt_prev为所述当前帧的前一帧的长时平滑参数,0<α<1;
其中,在所述第二参数大于预设的第三阈值时,在所述第一参数小于预设的第二阈值的情况下α的取值大于在所述第一参数大于或等于预设的第二阈值的情况下α的取值,所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7;或
在所述第二参数小于预设的第五阈值时,在所述第一参数大于预设的第四阈值的情况下α的取值大于在所述第一参数小于或等于预设的第四阈值的情况下α的取值,所述第四阈值大于或等于0,且小于或等于0.9,所述第五阈值大于或等于0,且小于或等于0.71;或
在所述第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值时,α的取值小于在所述第一参数小于预设的第二阈值,且所述第二参数大于预设的第三阈值的情况下α的取值所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7,所述第五阈值大于或等于0,且小于或等于0.71。结合第一方面,在第一方面的一种可能的实现方式中,所述方法还包括:在确定对所述M个子带的残差信号编码的情况下,对所述M个子带的下混信号与残差信号进行编码;在确定不对所述M个子带的残差信号进行编码的情况下,对所述M个子带的下混信号进行编码。
第二方面,提供一种编码装置,包括:第一确定模块,用于根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,所述当前帧的残差信号编码参数用于指示是否对所述M个子带的残差信号进行编码,该M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;第二确定模块,用于根据该当前帧的残差信号编码参数,确定是否对该M个子带的残差信号编码。
第三方面,提供一种编码装置,包括存储器和处理器,所述存储器用于存储程序,所述处理器用于执行程序,当所述程序被执行时,所述处理器执行所述第一方面或者第一方面的任一可能的实现方式中的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行第一方面或其各种实现方式中的方法的指令。
第五方面,提供一种芯片,所述芯片包括处理器与通信接口,所述通信接口用于与外部器件进行通信,所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面或第一方面的任一可能的实现方式中的方法。
可选地,作为一种实现方式,所述芯片集成在终端设备或网络设备上。
附图说明
图1是本申请实施例的时域上的立体声编解码系统的结构示意图。
图2是本申请实施例的移动终端的示意图。
图3是本申请实施例的网元的示意图。
图4是频域立体声信号的编码方法的示意性流程图。
图5是时频域结合的立体声信号的编码方法的示意性流程图。
图6是本申请实施例的立体声信号的编码方法的示意性流程图。
图7是本申请实施例的立体声信号的编码方法的另一示意性流程图。
图8是本申请实施例的立体声信号的编码装置的示意性框图。
图9是本申请实施例的立体声信号的编码装置的另一示意性框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1示出了本申请一个示例性实施例提供的时域上的立体声编解码系统的结构示意图。立体声编解码系统包括编码组件110和解码组件120。
编码组件110用于对立体声信号在时域上进行编码。可选地,编码组件110可以通过软件实现;或者,也可以通过硬件实现;或者,还可以通过软硬件结合的形式实现,本实施例对此不作限定。
编码组件110对立体声信号在时域上进行编码包括如下几个步骤:
1)对获取到的立体声信号进行时域预处理,得到时域预处理后的左声道信号和时域预处理后的右声道信号。
立体声信号由采集组件采集到并发送至编码组件110。可选地,采集组件可以与编码组件110设置于同一设备中;或者,也可以与编码组件110设置于不同设备中。
其中,预处理后的左声道信号和预处理后的右声道信号是预处理后的立体声信号中的两路信号。
可选地,预处理包括高通滤波处理、预加重处理、采样率转换、声道转换中的至少一种,本实施例对此不作限定。
2)根据预处理后的左声道信号和预处理后的右声道信号进行时延估计,得到预处理后的左声道信号和预处理后的右声道信号之间的声道间时间差。
3)根据声道间时间差对预处理后的左声道信号和预处理后的右声道信号进行时延对齐处理,得到时延对齐处理后的左声道信号和时延对齐处理后的右声道信号。
4)对声道间时间差进行编码,得到声道间时间差的编码索引。
5)计算用于时域下混处理的立体声参数,并对该用于时域下混处理的立体声参数进行编码,得到用于时域下混处理的立体声参数的编码索引。
其中,用于时域下混处理的立体声参数用于对时延对齐处理后的左声道信号和时延对齐处理后的右声道信号进行时域下混处理。
6)根据用于时域下混处理的立体声参数对时延对齐处理后的左声道信号和时延对齐处理后的右声道信号进行时域下混处理,得到主要声道信号和次要声道信号。
主要声道信号用于表征信道间的相关信息;次要声道信号用于表征声道间的差异信息。当时延对齐处理后的左声道信号和时延对齐处理后的右声道信号在时域上对齐时,次要声道信号最小,此时,立体声信号的效果最好。
7)分别对主要声道信号和次要声道信号进行编码,得到主要声道信号对应的第一单声道编码码流以及次要声道信号对应的第二单声道编码码流。
8)将声道间时间差的编码索引、立体声参数的编码索引、第一单声道编码码流和第二单声道编码码流写入立体声编码码流。
解码组件120用于对编码组件110生成的立体声编码码流进行解码,得到立体声信号。
可选地,编码组件110与解码组件120通过有线或无线的方式相连,解码组件120通过该连接获取编码组件110生成的立体声编码码流;或者,编码组件110将生成的立体声编码码流存储至存储器,解码组件120读取存储器中的立体声编码码流。
可选地,解码组件120可以通过软件实现;或者,也可以通过硬件实现;或者,还可以通过软硬件结合的形式实现,本实施例对此不作限定。
解码组件120对立体声编码码流进行解码,得到立体声信号包括以下几个步骤:
1)对立体声编码码流中的第一单声道编码码流以及第二单声道编码码流进行解码,得到主要声道信号和次要声道信号。
2)根据立体声编码码流获取用于时域上混处理的立体声参数的编码索引,对主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道信号和时域上混处理后的右声道信号。
3)根据立体声编码码流获取声道间时间差的编码索引,对时域上混处理后的左声道信号和时域上混处理后的右声道信号进行时延调整,得到立体声信号。
可选地,编码组件110和解码组件120可以设置在同一设备中;或者,也可以设置在不同设备中。设备可以为手机、平板电脑、膝上型便携计算机和台式计算机、蓝牙音箱、录音笔、可穿戴式设备等具有音频信号处理功能的移动终端,也可以是核心网、无线网中具有音频信号处理能力的网元,本实施例对此不作限定。
示意性地,如图2所示,本实施例以编码组件110设置于移动终端130中、解码组件120设置于移动终端140中,移动终端130与移动终端140是相互独立的具有音频信号处理能力的电子设备,例如可以是手机,可穿戴设备,虚拟现实(VR:virtual reality)设备,或增强现实(AR:Augmented Reality)设备等等,且移动终端130与移动终端140之间通过无线或有线网络连接为例进行说明。
可选地,移动终端130包括采集组件131、编码组件110和信道编码组件132,其中,采集组件131与编码组件110相连,编码组件110与编码组件132相连。
可选地,移动终端140包括音频播放组件141、解码组件120和信道解码组件142,其中,音频播放组件141与解码组件110相连,解码组件110与信道编码组件132相连。
移动终端130通过采集组件131采集到立体声信号后,通过编码组件110对该立体声信号进行编码,得到立体声编码码流;然后,通过信道编码组件132对立体声编码码流进行编码,得到传输信号。
移动终端130通过无线或有线网络将该传输信号发送至移动终端140。
移动终端140接收到该传输信号后,通过信道解码组件142对传输信号进行解码得到立体声编码码流;通过解码组件110对立体声编码码流进行解码得到立体声信号;通过音频播放组件播放该立体声信号。
示意性地,如图3所示,本实施例以编码组件110和解码组件120设置于同一核心网或无线网中具有音频信号处理能力的网元150中为例进行说明。
可选地,网元150包括信道解码组件151、解码组件120、编码组件110和信道编码组件152。其中,信道解码组件151与解码组件120相连,解码组件120与编码组件110相连,编码组件110与信道编码组件152相连。
信道解码组件151接收到其它设备发送的传输信号后,对该传输信号进行解码得到第一立体声编码码流;通过解码组件120对立体声编码码流进行解码得到立体声信号;通过编码组件110对该立体声信号进行编码,得到第二立体声编码码流;通过信道编码组件152对该第二立体声编码码流进行编码得到传输信号。
其中,其它设备可以是具有音频信号处理能力的移动终端;或者,也可以是具有音频信号处理能力的其它网元,本实施例对此不作限定。
可选地,网元中的编码组件110和解码组件120可以对移动终端发送的立体声编码码流进行转码。
可选地,本实施例中将安装有编码组件110的设备称为音频编码设备,在实际实现时,该音频编码设备也可以具有音频解码功能,本实施对此不作限定。
可选地,本实施例仅以立体声信号为例进行说明,在本申请中,音频编码设备还可以处理多声道信号,该多声道信号包括至少两路声道信号。
为了便于理解本申请实施例的立体声信号编码方法,下面先结合图4和图5对频域立体声编码方法以及时频域结合的立体声编码方法的整个编码过程进行大致的介绍。
图4是频域立体声信号的编码方法的示意性流程图。该编码方法具体包括101至107。
101,将时域的立体声信号转换为频域的立体声信号。
102,在频域提取频域立体声参数。
103,对频域的立体声信号进行下混处理,得到下混信号和残差信号。
其中,下混信号也可以称为中央声道信号或主要声道信号,参数信号可以称为边声道信号或次要声道信号。
104,对下混信号进行编码,得到下混信号对应的编码参数,将该编码参数写入编码比特流。
106,对频域立体声参数进行编码,得到频域立体声参数对应的编码参数,将该编码参数写入编码比特流。
作为一种可选的实现方式,该方法还可以包括105,对残差信号进行编码,得到残差信号对应的编码参数,将该编码参数写入编码比特流。
107,比特流复用。
图5是时频域结合的立体声信号的编码方法的示意性流程图。该编码方法具体包括201至208。
201,对立体声信号进行时域分析,并提取时域立体声参数。
202,将时域的立体声信号转换为频域的立体声信号。
203,在频域提取频域立体声参数。
204,对频域的立体声信号进行下混处理,得到下混信号和残差信号。
205,对下混信号进行编码,得到下混信号对应的编码参数,将该编码参数写入编码比特流。
207,对时域立体声参数和频域立体声参数进行编码,得到时域立体声参数和频域立体声参数对应的编码参数,将该编码参数写入编码比特流。
可选地,该方法还包括206,对残差信号进行编码,得到残差信号对应的编码参数,将该编码参数写入编码比特流。
208,比特流复用。
在编码速率较低时,例如,在编码带宽为宽带(Wideband)时,如果编码速率比较低,例如为26千比特每秒(Kilo-bytes per second,kbps)、16.4kbps、24.4kbps或32kbps的情况下,为了提升立体声信号回放时的空间感和稳定性,以及降低立体声信号的高频失真,对每一帧立体声信号的下混信号编码的同时,对满足预设带宽范围的子带的残差信号均进行编码,或者,在编码速率比较低的情况下,仅对立体声参数及下混信号进行编码;在编码速率比较高,例如为48kbps、64kbps或96kbps的情况下,才会对部分或者全部残差信号进行编码。本申请提出了一种立体声信号的编码方法。该方法中在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,从而提高编码整体质量。
图6为本申请实施例的立体声信号的编码方法300的示意性流程图。该方法300可以由编码端执行,该编码端可以是编码器或者是具有编码立体声信号功能的设备。该方法300至少包括以下步骤。
本申请中的立体声信号的编码方法可以是可独立应用的立体声编码方法,也可以是应用于多声道信号编码中的立体声编码方法。编码端对立体声信号以帧为单位进行处理,下面以每帧的信号长度为20ms的宽带立体声信号为例,并以编码端正在处理的某一帧(例如,当前帧)为例对方法300中的立体声信号的编码方法进行详细说明。
301,根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定当前帧的残差信号编码参数,该当前帧的残差信号编码参数用于指示是否对该M个子带的残差信号进行编码,该M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数。
具体地,编码端对该立体声信号的当前帧的频谱系数进行划分得到N个子带,并根据该N个子带中的至少部分子带(例如,该N个子带中的M个子带,M≤N)中每个子带的下混信号能量与每个子带的残差信号能量,确定当前帧的残差信号编码参数,该当前帧的残差信号编码参数能够用于编码端确定是否该对M个子带中的每个子带的残差信号编码。
302,根据该当前帧的该残差信号编码参数,确定是否对该当前帧的M个子带的残差信号进行编码。
具体地,编码端根据在步骤301中确定的当前帧的残差信号编码参数,确定是否对该当前帧的M个子带中的每个子带的残差信号编码。
在确定对该M个子带中的每个子带的残差信号编码的情况下,对该M个子带中的每个子带的下混信号与残差信号进行编码;
否则,在确定不对该M个子带中的每个子带的残差信号进行编码的情况下,对该M个子带中的每个子带的下混信号进行编码。
在一种实现方式中,作为示例而非限定,该M个子带为该N个子带中的子带索引号小于预设的最大子带索引号的M个子带。换言之,该M个子带为该N个子带中频率相对较低的子带,即该M个子带的频率要低于该N个子带中除该M个子带外的N-M个子带的频率。
具体地,根据不同的编码速率,预设不同的最大子带索引号,使得根据该预设的最大子带索引号,从该N个子带中选出子带索引号小于或等于该预设的最大子带索引号的M个子带,并根据该M个子带去确定该当前帧的残差信号编码参数。
例如,当编码速率为26kbps时,N=10,M=5,该预设的最大子带索引号被设定为4,则代表根据该10个子带中子带索引号为0-4的5个子带确定该当前帧的残差信号编码参数。
再例如,当编码速率为44kbps时,N=12,M=6,该预设的最大子带索引号被设定为5,则代表根据该12个子带中子带索引号为0-5的6个子带确定该当前帧的残差信号编码参数。
再例如,当编码速率为56kbps时,N=12,M=7,该预设的最大子带索引号被设定为6,则代表根据该12个子带中子带索引号为0-6的7个子带确定该当前帧的残差信号编码参数。
作为另一种实现方式,还可以针对不同的编码速率,预设在不同的编码速率下的M个子带的最大子带索引号与最小子带索引号;使得根据该预设的最大子带索引号与该预设的最小子带索引号,从该N个子带中选出子带索引号大于或等于该预设的最小子带索引号且小于或等于该预设的最大子带索引号的M个子带,并根据该M个子带去确定该当前帧的残差信号编码参数。
例如,当编码速率为26kbps时,N=10,M=4,该预设的最小子带索引号被设定为4,该预设的最大子带索引号被设定为7,则代表根据该10个子带中子带索引号为4-7的4个子带确定该当前帧的残差信号编码参数。
作为示例而非限定,该根据该当前帧的残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码,包括:根据该当前帧的残差信号编码参数与预设的第一阈值的比较结果,确定是否对该M个子带中的每个子带的残差信号编码,该第一阈值大于0,且小于1.0;在该当前帧的残差信号编码参数小于或等于该第一阈值的情况下,确定不对该M个子带中的每个子带的残差信号进行编码;或在该当前帧的残差信号编码参数大于该第一阈值的情况下,确定对该M个子带中的每个子带的残差信号进行编码。
具体地,编码端将该当前帧的残差信号编码参数与预设的第一阈值进行比较,当该当前帧的残差信号编码参数大于该第一阈值时,确定对该M个子带中的每个子带的残差信号进行编码;当该当前帧的残差信号编码参数小于或者等于该第一阈值时,确定不对该M个子带中的每个子带的残差信号进行编码。
例如,在一种实现方式中,该第一阈值为0.075,如果该当前帧的残差信号编码参数的数值为0.06,则编码端不对该M个子带中的每个子带的残差信号进行编码。
应理解,上述关于第一阈值的取值仅作为示例,该第一阈值还可以为大于0且小于1.0的其他数值。例如,该第一阈值为0.55、0.46、0.86或0.9等。
作为另一种可选地实现方式,编码端还可以对当前帧的残差信号编码参数与第一阈值的比较结果采用0或1进行表示。例如,0表示不对该M个子带中的每个子带的残差信号进行编码,用1表示对该M个子带中的每个子带的残差信号进行编码。当然,也可以用1表示不对该M个子带中的每个子带的残差信号进行编码,用0表示对该M个子带中的每个子带的残差信号进行编码。
下面以该M个子带为子带索引号小于或等于预设的最大子带索引号的子带为例(例如,该最大的子带索引号为M-1),对编码端确定当前帧的残差信号编码参数的方法进行详细说明。
方法1
编码端根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定该当前帧的残差信号编码参数。
作为一种可选的实现方式,编码端根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;
并且根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,该第二参数指示第一能量总和与第二能量总和的大小关系,该第一能量总和为该M个子带的残差信号能量与下混信号能量之和,该第二能量总和为该当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,该当前帧的该M个子带与该前一帧的该M个子带的子带索引号相同;
最终根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该当前帧的残差信号编码参数。
具体地,编码端在确定该第一参数时,根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,该M个能量参数中的每个能量参数指示该M个子带中的一个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应,编码端最终将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,该M个能量参数中子带索引号为b的子带的能量参数可以通过如下函数确定:
res_dmx_ratio[b]=f(g(b),res_cod_NRG_M[b],res_cod_NRG_S[b]) (1)
其中,res_dmx_ratio[b]为该M个能量参数中子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量,g(b)为关于该子带索引号为b的子带的边增益side_gain[b]的函数。
具体地,在一种实现方式中,该M个能量参数中子带索引号为b的子带的能量参数满足公式:
Figure BDA0001680715480000111
将该第一参数记为res_dmx_ratio,则该res_dmx_ratio满足:
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…,res_dmx_ratio[M-1]) (3)
编码端在确定第二参数时,首先分别确定该M个子带的残差信号之和与下混信号之和,将该M个子带的下混信号之和记为dmx_nrg_all_curr,将该M个子带的残差信号之和记为res_nrg_all_curr。
可选地,该M个子带的下混信号能量之和dmx_nrg_all_curr满足:
Figure BDA0001680715480000112
其中,res_cod_NRG_M_prev[b]表示当前帧的前一帧的子带索引号为b的子带的下混信号能量,γ1表示平滑因子,γ1为大于等于0且小于等于1的实数,例如,γ1=0.1。
应理解,上述关于γ1的取值仅作为示例,γ1的取值还可以为大于等于0且小于等于1的其他数值。例如,γ1=0.3、0.5、0.6、0.8等。
可选地,该M个子带的残差信号能量之和res_nrg_all_curr满足:
Figure BDA0001680715480000121
其中,res_cod_NRG_S_prev[b]表示当前帧的前一帧的子带索引号为b的子带的残差信号能量,γ2表示平滑因子,γ2为大于等于0小于等于1的实数,例如,γ2=0.1。
应理解,上述关于γ2的取值仅作为示例,γ2的取值还可以为大于等于0且小于等于1的其他数值。例如,γ2=0.2、0.5、0.7、0.9等。
编码端根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定当前帧的该M个子带的下混信号能量与残差信号能量之和(即,第一能量总和),将该第一能量总和记为dmx_res_all。
可选地,dmx_res_all满足:
dmx_res_all=res_nrg_all_curr+dmx_nrg_all_curr (6)
编码端还可以确定当前帧的前一帧的频域信号中与该M个子带的子带索引号相同的M个子带的残差信号与下混信号能量之和(即,第二能量总和),将该第二能量总和记为dmx_res_all_prev。
第二能量总和dmx_res_all_prev的确定可以参考上述确定第一能量总和dmx_res_all的方法进行确定,为了简洁,此处不再赘述。
编码端在确定了第一能量总和与第二能量总和后,便可以根据该第一能量总和与该第二能量总和,确定该第二参数。
可选地,该第二参数为帧间能量波动比,将该帧间能量波动比记为frame_nrg_ratio。
可选地,在一种实现方式中,该帧间能量波动比frame_nrg_ratio满足:
frame_nrg_ratio=dmx_res_all/dmx_res_all_prev(7)
可选地,在另一种实现方式中,帧间能量波动比frame_nrg_ratio满足:
frame_nrg_ratio=min(5.0,max(0.2,dmx_res_all/dmx_res_all_prev)) (8)
其中,max函数的作用为返回给定参数(0.2,frame_nrg_ratio_prev)中的较大值,min函数的作用为返回给定参数(5.0,max(0.2,frame_nrg_ratio_prev))中的最小值;公式(8)与公式(7)相比多了校正的操作,使得通过公式(8)确定的frame_nrg_ratio更能够体现当前帧与前一帧的帧间能量波动。
编码端在确定了第一参数、第二参数之后,便可以根据该第一参数、该第二参数以及该当前帧的前一帧的长时平滑参数,确定该当前帧的残差信号编码参数。
作为示例而非限定,该当前帧的残差信号编码参数可以为该当前帧的长时平滑参数,即,编码端可以根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该当前帧的长时平滑参数,再将当前帧的长时平滑参数与预设的第一阈值进行比较,从而确定是否对该M个子带中的每个子带的残差信号编码。
例如,该当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio.α+res_dmx_ratio_lt_prev·(1-α)
(9)
其中,res_dmx_ratio_lt为该当前帧的长时平滑参数,res_dmx_ratio为该第一参数,res_dmx_ratio_lt_prev为该当前帧的前一帧的长时平滑参数,0<α<1。
在根据式(9)计算res_dmx_ratio_lt时,当第一参数的取值和/或第二参数的取值发生变化时,式(9)中的参数α的取值可能也会相应地发生变化,即,随着第一参数的取值和/或第二参数的取值发生变化,该当前帧的前一帧的长时平滑参数在式(9)中所占的比重可能也会相应地发生变化。
例如,在该第二参数大于预设的第三阈值时,α在该第一参数小于预设的第二阈值的情况下的取值大于在该第一参数大于或等于预设的第二阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7;或
在该第二参数小于预设的第五阈值时,α在该第一参数大于预设的第四阈值的情况下的取值大于在该第一参数小于或等于预设的第四阈值的情况下的取值,该第四阈值大于或等于0,且小于或等于0.9,该第五阈值大于或等于0,且小于或等于0.71;或
α在该第一参数小于预设的第二阈值,且该第二参数大于预设的第三阈值的情况下的取值大于在该第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7,该第五阈值大于或等于0,且小于或等于0.71。
例如,第二阈值的取值可以为0.1,第三阈值的取值可以为3.2,即,当该第二参数frame_nrg_ratio>3.2时,α在第一参数res_dmx_ratio<0.1的情况下的取值大于在res_dmx_ratio≥0.1的情况下的取值;或者
第四阈值的取值可以为0.4,第五阈值的取值可以为0.21,即,当该frame_nrg_ratio<0.21时,α在res_dmx_ratio>0.4的情况下的取值大于在res_dmx_ratio≤0.4的情况下的取值;或者
第二阈值的取值可以为0.1,第三阈值的取值可以为3.2,第五阈值的取值可以为0.21,即,α在res_dmx_ratio<0.1,且frame_nrg_ratio>3.2的情况下的取值大于在0.21≤frame_nrg_ratio≤3.2的情况下的取值;或者
第四阈值的取值可以为0.4,第五阈值的取值可以为0.21,即,α在res_dmx_ratio>0.4,且frame_nrg_ratio<0.21的情况下的取值大于在0.21≤frame_nrg_ratio≤3.2的情况下的取值。
进一步地,例如,在res_dmx_ratio<0.1,且frame_nrg_ratio>3.2的情况下,α的取值为0.5,在0.21≤frame_nrg_ratio≤3.2的情况下,α的取值为0.1。
需要说明的是,上述列举的关于第二阈值至第五阈值的取值以及α的取值仅为示例性说明,并不对本申请构成任何限定,第二阈值至第五阈值的取值以及α的取值还可以为给定区间内的其他取值。
还需要说明的是,当该当前帧为编码端处理的首帧时,此时该当前帧也就不存在前一帧,此时,在确定该当前帧的长时平滑参数时,上式中的当前帧的前一帧的长时平滑参数为预设的长时平滑参数。作为示例而非限定,该预设的长时平滑参数的取值可以为1.0,当然也可以取值为0.9,或1.1等其他数值。
方法2
方法2与方法1中确定的残差信号编码参数的方法类似,区别之处在于确定第一参数的方法不同,因此,可以参照上述方法1中确定残差信号编码参数的相关描述。为了简洁,此处仅对方法2中的确定第一参数的方法进行说明。
作为示例而非限定,编码端根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系。
具体地,编码端在确定该第一参数时,根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,该M个能量参数中的每个能量参数指示该M个子带中的一个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应,编码端最终将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,编码端确定的该M个能量参数中子带索引号为b的子带的能量参数为可以通过如下函数确定:
res_dmx_ratio[b]=f(res_cod_NRG_M[b],res_cod_NRG_S[b])(10)
其中,res_dmx_ratio[b]为该M个能量参数中子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量。
例如,该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b] (11)
将该第一参数记为res_dmx_ratio,则该res_dmx_ratio满足:
res_dmx_ratio=max(res_dmx_ratio[0],res_dmx_ratio[1],…res_dmx_ratio[M-1]) (12)
在确定了第一参数后,编码端便可以按照方法1中描述的方法确定第二参数,最终根据方法1中描述的方法确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码。
方法3
方法3与方法1中确定的残差信号编码参数的方法类似,区别之处在于确定第一参数的方法不同,因此,可以参照上述方法1中确定残差信号编码参数的相关描述。为了简洁,此处仅对方法3中的确定第一参数的方法进行说明。
作为示例而非限定,编码端根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,并对该第一参数进行修正,将修正后的第一参数确定为最终的第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系。
具体地,编码端在确定该第一参数时,根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,该M个能量参数中的每个能量参数指示该M个子带中的一个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应,编码端将该M个能量参数之和确定为该第一参数。
可选地,编码端确定的该M个能量参数中子带索引号为b的子带的能量参数可以通过函数式(1)确定。
例如,该M个能量参数中子带索引号为b的子带的能量参数满足式(2)。
可选地,编码端确定的该M个能量参数中子带索引号为b的子带的能量参数可以通过函数式(11)确定。
例如,该M个能量参数中子带索引号为b的子带的能量参数满足公式(11)。
例如,编码端根据该M个能量参数,确定的该第一参数res_dmx_ratio1满足:
Figure BDA0001680715480000151
此外,编码端还会确定出该M个能量参数中的最大值res_dmx_ratio_max,该res_dmx_ratio_max满足式(12)。
编码端根据该res_dmx_ratio_max与该M个子带中的每个子带的下混信号能量res_cod_NRG_M[b]对该res_dmx_ratio1进行修正,确定修正后的res_dmx_ratio2
例如,编码端按照下式对该res_dmx_ratio1进行修正,M=5:
修正后获得的res_dmx_ratio2满足:
Figure BDA0001680715480000152
可选地,还可以对修正后的res_dmx_ratio2作进一步的修正:
例如,最终获得的修正后的res_dmx_ratio3满足:
res_dmx_ratio3=pow(res_dmx_ratio2,1.2) (15)
其中,函数pow()为指数函数,pow(res_dmx_ratio2,1.2)代表res_dmx_ratio2的1.2次方。
在确定了修正后的第一参数(修正后的res_dmx_ratio3)后,编码端便可以按照方法1中描述的方法确定第二参数,最终根据方法1中描述的方法确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码。
方法4
方法4与方法1中确定的残差信号编码参数的方法类似,区别之处在于确定第一参数的方法不同,因此,可以参照上述方法1中确定残差信号编码参数的相关描述。为了简洁,此处仅对方法4中的确定第一参数的方法进行说明。
作为示例而非限定,编码端根据该M个子带的残差信号能量之和与该M个子带的下混信号能量之和,确定该第一参数。
具体地,编码端分别确定该M个子带的下混信号能量之和dmx_nrg_all_curr与该M个子带的残差信号能量之和res_nrg_all_curr,并根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数。
可选地,该M个子带的下混信号能量之和dmx_nrg_all_curr满足式(4)。索引号
可选地,该M个子带的残差信号能量之和res_nrg_all_curr满足式(5)。索引号
编码端根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数res_dmx_ratio。
例如,编码端最终确定的第一参数res_dmx_ratio满足:
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr (16)
在确定了第一参数后,编码端便可以按照方法1中描述的方法确定第二参数,最终根据方法1中描述的方法确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码。
为了更好地理解立体声信号的整个编码过程,下面同样以每帧的信号长度为20ms的宽带立体声信号为例,并以编码端正在处理的某一帧(例如,当前帧)为例,结合图7对本申请实施例的立体声信号的编码方法300进行介绍,图7所示的立体声信号的编码方法至少包括以下步骤:
401,对左声道时域信号与右声道时域信号进行时域预处理,以得到时域预处理后的左声道时域信号与右声道时域信号。
具体地,当前帧的信号长度为20ms,若采样频率为16千赫兹(KHz),则经过采样,当前帧的帧长H=320,即当前帧包括320个样点。
当前帧的立体声信号包括当前帧的左声道时域信号以及当前帧的右声道时域信号。当前帧的左声道时域信号记作xL(n),当前帧的右声道时域信号记作xR(n),其中,n为样点序号,n=0,1,...,H-1。左声道时域信号以及右声道时域信号可以简称为左右声道时域信号。
对当前帧的左声道时域信号与右声道时域信号进行时域预处理,可以包括:对当前帧的左声道时域信号与右声道时域信号分别进行高通滤波处理,得到当前帧时域预处理后的左声道时域信号与右声道时域信号。当前帧预处理后的左声道时域信号记作xL_HP(n),当前帧预处理后的右声道时域信号记作xR_HP(n),其中n为样点序号,n=0,1,...,H-1。当前帧时域预处理后的左声道时域信号以及当前帧时域预处理后的右声道时域信号可以简称为当前帧时域预处理后的左右声道时域信号。高通滤波处理时可以使用截止频率为20赫兹(Hz)的无限脉冲响应(Infinite Impulse Response,IIR)数字滤波器,也可是其他类型的滤波器。
例如,立体声信号的采样率为16KHz时,对应的截止频率为20Hz的高通滤波器的传递函数可以为:
Figure BDA0001680715480000161
其中,b0=0.994461788958195,b1=-1.988923577916390,b2=0.994461788958195,a1=1.988892905899653,a2=-0.988954249933127,z为Z变换的变换因子。相应的时域滤波器为:
xL_HP(n)=b0·xL(n)+b1·xL(n-1)+b2·xL(n-2)-a1·xL_HP(n-1)-a2·xL_HP(n-2)
(18)
402,对时域预处理后的左声道时域信号与右声道时域信号进行时域分析。
具体地,时域分析可以包括瞬态检测等等。其中,瞬态检测可以是分别对当前帧预处理后的左声道时域信号与右声道时域信号进行能量检测,检测当前帧是否发生能量突变。
例如,计算当前帧预处理后的左声道时域信号的能量Ecur_L;根据当前帧的前一帧预处理后的左声道时域信号的能量Epre_L和当前帧预处理后的左声道时域信号的能量Ecur_L之间的差值的绝对值进行瞬态检测,得到当前帧预处理后的左声道时域信号的瞬态检测结果。可以用同样的方法对当前帧预处理后的右声道时域信号进行瞬态检测。
时域分析可以包含除瞬态检测之外的其他现有技术中的时域分析。例如,可以包括时域声道间时间差(Inter-channel Time Difference,ITD)参数确定、时域的时延对齐处理、频带扩展预处理等。
403,对时域预处理后的左声道时域信号与右声道时域信号进行时频变换,得到左声道频域信号与右声道频域信号。
具体地,可以对时域预处理后的左声道时域信号进行离散傅里叶变换,得到左声道频域信号;对时域预处理后的右声道时域信号进行离散傅里叶变换,得到右声道频域信号。
为了克服频谱混叠的问题,连续两次离散傅里叶变换之间可以采用叠接相加的方法进行处理,有时还会对离散傅里叶变换的输入信号进行补零。
离散傅里叶变换可以是每帧进行一次,也可以将每帧信号分成P(P为大于或等于2的正整数)个子帧,对每个子帧进行一次离散傅里叶变换。
例如,对当前帧进行一次离散傅里叶变换,将对当前帧进行离散傅里叶变换后的左声道频域信号记作L(k),将对当前帧进行离散傅里叶变换后的右声道频域信号记作R(k),k为频点索引号,且k=0,1,...,L-1,L为当前帧经过离散傅里叶变换后的帧长,即当前帧经过离散傅里叶变换后包括L个频点。
还例如,将当前帧信号分为P个子帧,P为大于或等于2的正整数,将经过离散傅里叶变换后的索引号为i的子帧的左声道频域信号记作Li(k),将经过离散傅里叶变换后的索引号为i的子帧的右声道频域信号记作Ri(k),i为子帧索引号,i=0,1,...,P-1,k为频点索引号,且k=0,1,...,L-1,L为每个子帧经过离散傅里叶变换后的帧长,即每个子帧经过离散傅里叶变换后均包括L个频点。
404,确定ITD参数,并对确定的ITD参数进行编码。
具体地,确定ITD参数的方法有很多种:可以只在频域进行,可以只在时域进行,也可以通过时频结合的方法来确定,本申请对此不做限制。
可以在时域采用互相关系数提取ITD参数。例如:在0≤i≤Tmax范围内,计算
Figure BDA0001680715480000171
Figure BDA0001680715480000176
如果
Figure BDA0001680715480000172
则ITD参数值为max(cn(i))对应的索引号的相反数;否则ITD参数值为max(cp(i))对应的索引号。其中,i为计算互相关系数的索引号,j为样点的索引号,Tmax对应于不同采样率下ITD取值的最大值,H为当前帧的帧长。
也可以在频域基于左声道频域信号与右声道频域信号确定ITD参数,例如:可以采用离散傅里叶变换(Discrete Fourier Transform,DFT)、快速傅氏变换(Fast FourierTransformation,FFT)、修正离散余弦变换(Modified Discrete Cosine Transform,MDCT)等时频变换技术,将时域信号变换为频域信号。
本申请实施例中,离散傅里叶变换后的索引号为i的子帧的左声道频域信号记为Li(k),k=0,1,…,L/2-1,变换后的索引号为i的子帧的右声道频域信号记为Ri(k),k=0,1,…,L/2-1,i=0,1,…,P-1,计算索引号为i的子帧的频域相关系数:XCORRi(k)=Li(k)·R* i(k),其中R* i(k)为变换后第i个子帧的右声道频域信号的共轭。
将频域互相关系数转换到时域xcorri(n),n=0,1,…,L-1,在L/2-Tmax≤n≤L/2+Tmax范围内搜索xcorri(n)的最大值,得到索引号为i的子帧的ITD参数值为
Figure BDA0001680715480000173
此外,还可以根据DFT变换后索引号为i的子帧的左声道频域信号和索引号为i的子帧的右声道频域信号,在搜索范围-Tmax≤j≤Tmax,计算幅度值:
Figure BDA0001680715480000174
则ITD参数值为
Figure BDA0001680715480000175
即幅度值最大的值对应的索引号。
在确定了ITD参数后,可以将其进行编码,得到编码参数,并将该编码参数写入立体声编码码流。
405,根据ITD参数,对左声道频域信号与右声道频域信号进行时移调整。
具体地,可以根据任何一种技术对左声道频域信号与右声道频域信号进行时移调整,本申请实施例不做限定。
以当前帧信号被分为P个子帧,P为大于或等于2的正整数为例,经过时移调整后的索引号为i的子帧的左声道频域信号可以记作L'i(k),k=0,1,…,L/2-1,经过时移调整后的索引号为i的子帧的右声道频域信号可以记作R′i(k),k为频点索引号,k=0,1,…,L/2-1,i为子帧索引号,i=0,1,…,P-1,则
Figure BDA0001680715480000181
其中,Ti为索引号为i的子帧的ITD参数值,L为离散傅里叶变换后的子帧的长度,Li(k)为变换后索引号为i的第i个子帧的左声道频域信号,Ri(k)为变换后索引号为i的子帧的右声道频域信号,i为子帧索引号,i=0,1,…,P-1。
406,根据时移调整后的左声道频域信号与右声道频域信号,计算其他频域立体声参数,并进行编码。
具体地,其他频域立体声参数可以包含但不限于声道间相位差(Inter-channelPhase Difference,IPD)参数、和/或声道间电平差(Inter-channel Level Difference,ILD)参数、和/或子带边增益等。其中,ILD也可以称为声道间幅度差。
计算得到其他频域立体声参数后,可以将其他频域立体声参数进行编码,得到编码参数,并将该编码参数写入立体声编码码流。
407,从当前帧的频域信号包括的N个子带中确定满足预设条件的M个子带。
具体地,对经过时移调整的当前帧的频域信号进行分带,例如,将当前帧的频域信号分为N(N为大于或等于2的正整数)个子带,子带索引号为b的子带包含的频点为k∈[band_limits(b),band_limits(b+1)-1],其中band_limits(b)为子带索引号为b的子带包含的频点的最小索引号,band_limits(b+1)为子带索引号为b+1的子带包含的频点的最小索引号。根据预设条件,从该N个子带中确定满足预设条件的M个子带。
例如,预设条件可以为:子带索引号小于或等于预设的最大子带索引号,即b≤res_cod_band_max,res_cod_band_max为预设的最大子带索引号。
预设条件还可以为:子带索引号小于或等于预设的最大子带索引号,且大于或等于预设的最小子带索引号,即,res_cod_band_min≤b≤res_cod_band_max,res_cod_band_max为预设的最大子带索引号,res_cod_band_min为预设的最小子带索引号。
进一步地,对于宽带立体声信号而言,根据不同的编码速率,还可以设置不同的预设条件。例如,编码速率为26kbps时,预设条件可以为子带索引号b≤5,即,预设的最大子带索引号为5;编码速率为44kbps时,预设条件可以为子带索引号b≤6,即,预设的最大子带索引号为6;编码速率为56kbps时,预设条件可以为子带索引号b≤7,即,预设的最大子带索引号为7。
例如,预设的条件为:子带索引号b≤4,则可以从当前帧的N个子带中将索引号为0~4的5个子带确定为满足预设条件的子带。
此外,若当前帧被分为了P个子帧(P为大于或等于2的正整数),则对经过时移调整的每个子帧进行分带,例如,将索引号为i(i=0,1,...,P-1)的子帧分为N个子带,索引号为i的子帧中的索引号为b的子带包含的频点为ki∈[band_limits(b),band_limits(b+1)-1],其中,band_limits(b)为索引号为i的子帧中的索引号为b的子带包含的频点的最小索引号,band_limits(b+1)为索引号为i的子帧中的索引号为b+1的子带包含的频点的最小索引号。
根据预设条件,从每个子帧包括的N个子带中确定满足预设条件的M个子带。
预设的条件可以为:子带的索引号大于或等于预设的最小子带索引号,小于或等于预设的最大子带索引号,即,res_cod_band_min≤b≤res_cod_band_max。
例如,预设的条件为4≤b≤8,则从每个子帧的N个子带中将索引号为4~8的5个子带确定为满足预设条件的子带。
408,根据时移调整后的左声道频域信号与右声道频域信号,计算满足预设条件的子带的下混信号和残差信号。
具体地,以将当前帧划分为P个子帧(P为大于或等于2的正整数)(例如可以为2个子帧,或4个子帧等等)为例,对计算满足预设条件的子带的下混信号与残差信号的方法进行说明。
例如,预设条件为子带索引号b小于或等于5,则计算每个子帧中的索引号为0~5的子带的下混信号与残差信号。
将索引号为i的子帧中的子带索引号为b(b≤5)的子带的下混信号记作DMXi(k),将索引号为i的子帧中的子带索引号为b的子带的残差信号记作RESi'(k),则DMXi(k)和RESi'(k)满足:
Figure BDA0001680715480000191
RESi'(k)=RESi(k)-g_ILDi·DMXi(k) (21)
Figure BDA0001680715480000192
Figure BDA0001680715480000193
β=arctan(sin(IPDi(b)),cos(IPDi(b))+2·c) (24)
Figure BDA0001680715480000194
其中,IPDi(b)为索引号为i的子帧中的子带索引号为b的子带的IPD参数,g_ILDi为索引号为i的子帧中的子带索引号为b的子带的边增益,L'i(k)为经过时移调整后的索引号为i的子帧中的子带索引号为b的子带的左声道频域信号,R′i(k)为经过时移调整后的索引号为i的子帧中的子带索引号为b的子带的右声道频域信号,L″i(k)为经过多个立体声参数调整后的索引号为i的子帧中的子带索引号为b的子带的左声道频域信号,R″i(k)为经过多个立体声参数调整后的索引号为i的子帧中的子带索引号为b的子带的右声道频域信号,i为子帧索引号,i=0,1,…,P-1,k为频点索引号,k∈[band_limits(b),band_limits(b+1)-1],band_limits(b)为索引号为i的子帧中的索引号为b的子带包含的频点的最小索引号,band_limits(b+1)为索引号为i的子帧中的索引号为b+1的子带包含的频点的最小索引号。
又例如,索引号为i的子帧中的索引号为b的子带的下混信号DMXi(k)也可以按照如下方法计算:
DMXi(k)=[L”(k)+R”(k)]·c (26)
Figure BDA0001680715480000201
其中,L'i'(k)为经过多个立体声参数调整后索引号为i的子帧中的子带索引号为b的子带的左声道频域信号,R″i(k)为经过多个立体声参数调整后的索引号为i的子帧中的子带索引号为b的子带的右声道频域信号,i为子帧索引号,i=0,1,…,P-1,k为频点索引号,k∈[band_limits(b),band_limits(b+1)-1],band_limits(b)为子带索引号为b的个子带包含的频点的最小索引号,band_limits(b+1)为索引号为i的子帧中的索引号为b+1的子带包含的频点的最小索引号。本申请实施例对下混信号能量和残差信号能量的计算方法不作限定。
409,根据满足预设条件的子带的下混信号能量与残差信号能量,确定残差信号编码参数。
410,根据残差信号编码参数,确定是否需要对当前帧的M个子带中的每个子带的残差信号进行编码;如果确定需要对残差信号进行编码,进入412;如果确定不需要对残差信号进行编码,进入411。
411,根据残差信号编码参数,对当前帧的M个子带中的每个子带的下混信号进行编码。此时,不需要对残差信号进行编码。
412,根据残差信号编码参数,对当前帧的M个子带中的每个子带的下混信号与残差信号进行编码。
关于步骤409至411的具体实现,请参照方法300中的相关描述,为了简洁,此处不再赘述。
需要说明的是,在方法400中,当编码端将当前帧分为P个子帧,P为大于或等于2的正整数,并将该P个子帧中的每个子帧的频谱参数划分为N个子带,根据每个子帧中的满足预设条件的M个子带(该M个子带为该N个子带中的至少部分子带)的下混信号能量与残差信号能量,确定残差信号编码参数时,对应到方法300中的当前帧中的索引号为b的子带的残差信号能量res_cod_NRG_S[b]为该P个子帧中的每个子帧中的索引号为b的子带的残差信号能量之和,当前帧中的索引号为b的子带的下混信号能量res_cod_NRG_M[b]为该P个子帧中的每个子帧中的索引号为b的子带的下混信号能量之和。
例如,该当前帧被划分为2个子帧,该2个子帧中的每个子帧的频谱参数被划分为N个子带,则对应到方法300中的当前帧中的索引号为b的子带的下混信号能量res_cod_NRG_M[b]为子帧1中的索引号为b的子带的下混信号能量与子帧2中的索引号为b的子带的下混信号能量之和,当前帧中的索引号为b的子带的残差信号能量res_cod_NRG_S[b]为子帧1中的索引号为b的子带的残差信号能量与子帧2中的索引号为b的子带的残差信号能量之和。
上文结合图1至图7对本申请实施例的立体声信号的编码方法进行了详细的描述。下面结合图8至图9对本申请实施例的立体声信号的编码装置进行描述,应理解,图8至图9中装置与本申请实施例的立体声信号的编码方法是对应的,并且图8至图9中装置可以执行本申请实施例的立体声信号的编码方法。为了简洁,下面适当省略重复的描述。
图8是本申请实施例的立体声信号的编码装置的示意性框图。图8的装置500包括:
第一确定模块501,用于根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定当前帧的残差信号编码参数,该当前帧的残差信号编码参数用于指示是否对该M个子带的残差信号进行编码,该M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数。
第二确定模块502,用于根据该当前帧的残差信号编码参数,确定是否对该当前帧的M个子带的残差信号编码。
本申请中,通过根据满足预设带宽范围内的N个子带中的M个子带的下混信号能量与残差信号能量,确定残差信号编码参数,并根据该残差信号编码参数,确定是否对该M个子带中的每个子带的残差信号编码,避免在编码速率较低时仅对下混信号编码,或者,对满足预设带宽范围内的子带的残差信号均进行编码,从而在提升解码立体声信号的空间感和声像稳定性的同时,尽可能降低解码立体声信号的高频失真,提高编码质量。
可选地,作为一种实现方式,该M个子带为该N个子带中的子带索引号小于或等于预设的最大子带索引号的M个子带。
可选地,作为一种实现方式,该M个子带为该N个子带中的子带索引号大于或等于预设的最小子带索引号且小于或等于预设的最大子带索引号的M个子带。
可选地,作为一种实现方式,该第二确定模块502还用于:将该残差信号编码参数与预设的第一阈值进行比较,该第一阈值大于0,且小于1.0;在该残差信号编码参数小于或等于该第一阈值的情况下,确定不对该M个子带中的每个子带的残差信号进行编码;或,在该残差信号编码参数大于该第一阈值的情况下,确定对该M个子带中的每个子带的残差信号进行编码。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定该残差信号编码参数。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,该第二参数指示第一能量总和与第二能量总和的大小关系,该第一能量总和为该M个子带的残差信号能量与下混信号能量之和,该第二能量总和为该当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,该当前帧的该M个子带与该前一帧的该M个子带的子带索引号相同;根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该残差信号编码参数。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,该M个能量参数指示该M个子带中的一个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应;将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,作为一种实现方式,该第一确定模块501确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))·(1-g(b))
·res_cod_NRG_M[b]+1)
其中,res_dmx_ratio[b]为子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量,g(b)为关于该子带索引号为b的子带的边增益side_gain[b]的函数。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第二参数,该第二参数指示第一能量总和与第二能量总和的大小关系,该第一能量总和为该M个子带的残差信号能量与下混信号能量之和,该第二能量总和为该当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,该当前帧的该M个子带与该前一帧的该M个子带的子带索引号相同;根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该残差信号编码参数。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,该M个能量参数指示该M个子带中每个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应;将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,作为一种实现方式,该第一确定模块501确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为该子带索引号为b的子带的能量参数,
b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量。
可选地,作为一种实现方式,该第一确定模块501还用于:将该M个能量参数之和确定为第一参数(待修正)res_dmx_ratio1,并根据该M个能量参数中的最大值res_dmx_ratio_max与该M个子带中的每个子带的下混信号能量res_cod_NRG_M[b]对该res_dmx_ratio1进行修正,确定修正后的res_dmx_ratio2
例如,编码端按照下式对该res_dmx_ratio1进行修正,其中,M=5:
修正后获得的res_dmx_ratio2满足:
Figure BDA0001680715480000231
可选地,作为一种实现方式,还可以对修正后的res_dmx_ratio2作进一步的修正:
例如,最终获得的修正后的res_dmx_ratio3满足:
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
其中,函数pow()为指数函数,pow(res_dmx_ratio2,1.2)代表res_dmx_ratio2的1.2次方。
可选地,作为一种实现方式,该第一确定模块501还用于:根据该M个子带的残差信号能量之和与该M个子带的下混信号能量之和,确定该第一参数。
具体地,编码端分别确定该M个子带的下混信号能量之和dmx_nrg_all_curr与该M个子带的残差信号能量之和res_nrg_all_curr,并根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数。
可选地,作为一种实现方式,该M个子带的下混信号能量之和dmx_nrg_all_curr满足:
Figure BDA0001680715480000232
其中,res_cod_NRG_M_prev[b]表示当前帧的前一帧的子带索引号为b的子带的下混信号能量,γ1表示平滑因子,γ1为大于等于0小于等于1的实数,例如,γ1=0.1。
可选地,作为一种实现方式,该M个子带的残差信号能量之和res_nrg_all_curr满足:
Figure BDA0001680715480000233
其中,res_cod_NRG_S_prev[b]表示当前帧的前一帧的子带索引号为b的子带的残差信号能量,γ2表示平滑因子,γ2为大于等于0小于等于1的实数,例如,γ2=0.1。
编码端根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数res_dmx_ratio。
例如,编码端最终确定的第一参数res_dmx_ratio满足:
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr。
可选地,作为一种实现方式,该第一确定模块501确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为该M个能量参数中子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量。
可选地,作为一种实现方式,该第一确定模块501确定的该当前帧的残差信号编码参数为该当前帧的长时平滑参数,该当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio.α+res_dmx_ratio_lt_prev·(1-α)
res_dmx_ratio_lt为该当前帧的长时平滑参数,res_dmx_ratio为该第一参数,res_dmx_ratio_lt_prev为该当前帧的前一帧的长时平滑参数,0<α<1;
其中,在该第二参数大于预设的第三阈值时,α在该第一参数小于预设的第二阈值的情况下的取值大于在该第一参数大于或等于预设的第二阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7;或
在该第二参数小于预设的第五阈值时,α在该第一参数大于预设的第四阈值的情况下的取值大于在该第一参数小于或等于预设的第四阈值的情况下的取值,该第四阈值大于或等于0,且小于或等于0.9,该第五阈值大于或等于0,且小于或等于0.71;或
α在该第一参数小于预设的第二阈值,且该第二参数大于预设的第三阈值的情况下的取值大于在该第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7,该第五阈值大于或等于0,且小于或等于0.71。
可选地,作为一种实现方式,该第二确定模块502还用于:在确定对该M个子带的残差信号编码的情况下,对该M个子带的下混信号与残差信号进行编码;在确定对该M个子带的残差信号不编码的情况下,对该M个子带的下混信号进行编码。
图9是本申请实施例的立体声信号的编码装置的示意性框图。图9的装置600包括:
存储器601,用于存储程序。
处理器602,用于执行该存储器601中存储的程序,当该存储器601中的程序被执行时,该处理器602具体用于:根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定当前帧的残差信号编码参数,该当前帧的残差信号编码参数用于指示是否对该M个子带的残差信号进行编码,该M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;根据该当前帧的残差信号编码参数,确定是否对该M个子带的残差信号编码。
可选地,作为一种实现方式,该M个子带为该N个子带中的子带索引号小于或等于预设的最大子带索引号的M个子带。
可选地,作为一种实现方式,该M个子带为该N个子带中的子带索引号大于或等于预设的最小子带索引号且小于或等于预设的最大子带索引号的M个子带。
可选地,作为一种实现方式,该处理器602还用于:将该残差信号编码参数与预设的第一阈值进行比较,该第一阈值大于0,且小于1.0;在该残差信号编码参数小于该第一阈值的情况下,确定不对该M个子带中的每个子带的残差信号进行编码;或,在该残差信号编码参数大于该第一阈值的情况下,确定对该M个子带中的每个子带的残差信号进行编码。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定该残差信号编码参数。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,该第二参数指示第一能量总和与第二能量总和的大小关系,该第一能量总和为该M个子带的残差信号能量与下混信号能量之和,该第二能量总和为该当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,该当前帧的M个子带与该前一帧的M个子带的子带索引号相同;根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该残差信号编码参数。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,该M个能量参数指示该M个子带中的一个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应;将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,作为一种实现方式,该处理器602确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))·(1-g(b))
·res_cod_NRG_M[b]+1)
其中,res_dmx_ratio[b]为子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量,g(b)为关于该子带索引号为b的子带的边增益side_gain[b]的函数。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,该第一参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第二参数,该第二参数指示第一能量总和与第二能量总和的大小关系,该第一能量总和为该M个子带的残差信号能量与下混信号能量之和,该第二能量总和为该当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,该当前帧的M个子带与该前一帧的M个子带的子带索引号相同;根据该第一参数、该第二参数与该当前帧的前一帧的长时平滑参数,确定该残差信号编码参数。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,该M个能量参数指示该M个子带中的每个子带的下混信号能量与残差信号能量的大小关系,该M个能量参数与该M个子带一一对应;将该M个能量参数中的数值最大的能量参数确定为该第一参数。
可选地,作为一种实现方式,该处理器602确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量。
可选地,作为一种实现方式,该处理器602还用于:将该M个能量参数之和确定为第一参数(待修正)res_dmx_ratio1,并根据该M个能量参数中的最大值res_dmx_ratio_max与该M个子带中的每个子带的下混信号能量res_cod_NRG_M[b]对该res_dmx_ratio1进行修正,确定修正后的res_dmx_ratio2
例如,编码端按照下式对该res_dmx_ratio1进行修正,其中,M=5:
修正后获得的res dmx ratio2满足:
Figure BDA0001680715480000261
可选地,作为一种实现方式,还可以对修正后的res_dmx_ratio2作进一步的修正:
例如,最终获得的修正后的res_dmx_ratio3满足:
res_dmx_ratio3=pow(res_dmx_ratio2,1.2)
其中,函数pow()为指数函数,pow(res_dmx_ratio2,1.2)代表res_dmx_ratio2的1.2次方。
可选地,作为一种实现方式,该处理器602还用于:根据该M个子带的残差信号能量之和与该M个子带的下混信号能量之和,确定该第一参数。
具体地,编码端分别确定该M个子带的下混信号能量之和dmx_nrg_all_curr与该M个子带的残差信号能量之和res_nrg_all_curr,并根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数。
可选地,作为一种实现方式,该M个子带的下混信号能量之和dmx_nrg_all_curr满足:
Figure BDA0001680715480000262
其中,res_cod_NRG_M_prev[b]表示当前帧的前一帧的子带索引号为b的子带的下混信号能量,γ1表示平滑因子,γ1为大于等于0小于等于1的实数,例如,γ1=0.1。
可选地,作为一种实现方式,该M个子带的残差信号能量之和res_nrg_all_curr满足:
Figure BDA0001680715480000263
其中,res_cod_NRG_S_prev[b]表示当前帧的前一帧的子带索引号为b的子带的残差信号能量,γ2表示平滑因子,γ2为大于等于0小于等于1的实数,例如,γ2=0.1。
编码端根据该dmx_nrg_all_curr与该res_nrg_all_curr,确定该第一参数res_dmx_ratio。
例如,编码端最终确定的第一参数res_dmx_ratio满足:
res_dmx_ratio=res_nrg_all_curr/dmx_nrg_all_curr。
可选地,作为一种实现方式,该处理器602确定的该M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为该M个能量参数中子带索引号为b的子带的能量参数,b大于等于0,且小于等于预设的最大子带索引号,res_cod_NRG_S[b]为该子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为该子带索引号为b的子带的下混信号能量。
可选地,作为一种实现方式,该处理器602确定的该残差信号编码参数为该当前帧的长时平滑参数,
在该第一参数小于预设的第二阈值,且该第二参数大于预设的第三阈值的情况下,该处理器602确定的
该当前帧的残差信号编码参数为该当前帧的长时平滑参数,该当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio.α+res_dmx_ratio_lt_prev·(1-α)
res_dmx_ratio_lt为该当前帧的长时平滑参数,res_dmx_ratio为该第一参数,res_dmx_ratio_lt_prev为该当前帧的前一帧的长时平滑参数,0<α<1;
其中,在该第二参数大于预设的第三阈值时,α在该第一参数小于预设的第二阈值的情况下的取值大于在该第一参数大于或等于预设的第二阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7;或
在该第二参数小于预设的第五阈值时,α在该第一参数大于预设的第四阈值的情况下的取值大于在该第一参数小于或等于预设的第四阈值的情况下的取值,该第四阈值大于或等于0,且小于或等于0.9,该第五阈值大于或等于0,且小于或等于0.71;或
α在该第一参数小于预设的第二阈值,且该第二参数大于预设的第三阈值的情况下的取值大于在该第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值的情况下的取值,该第二阈值大于或等于0,且小于或等于0.6,该第三阈值大于或等于2.7,且小于或等于3.7,该第五阈值大于或等于0,且小于或等于0.71。可选地,作为一种实现方式,该处理器602还用于:在确定对该M个子带的残差信号编码的情况下,对该M个子带的下混信号与残差信号进行编码;在确定对该M个子带的残差信号不编码的情况下,对该M个子带的下混信号进行编码。
本申请还提供了一种芯片,所述芯片包括处理器与通信接口,所述通信接口用于与外部器件进行通信,所述处理器用于执行本申请实施例的立体声信号的编码方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行本申请实施例的立体声信号的编码方法。
可选地,作为一种实现方式,所述芯片集成在终端设备或者网络设备上。
本申请提供了一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行本申请实施例的立体声信号的编码方法的指令。
应理解,本发明实施例中提及的处理器可以是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本发明实施例中提及的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
需要说明的是,当处理器为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时,存储器(存储模块)集成在处理器中。
应注意,本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (22)

1.一种立体声信号的编码方法,其特征在于,包括:
根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,所述当前帧的残差信号编码参数用于指示是否对所述M个子带的残差信号进行编码,所述M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;
根据所述当前帧的残差信号编码参数,确定是否对所述当前帧的M个子带的残差信号进行编码。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前帧的残差信号编码参数,确定是否对所述M个子带的残差信号编码,包括:
将所述当前帧的残差信号编码参数与预设的第一阈值进行比较,所述第一阈值大于0,且小于1.0;
在所述当前帧的残差信号编码参数小于或等于所述第一阈值的情况下,确定不对所述M个子带的残差信号进行编码;或
在所述残差信号编码参数大于所述第一阈值的情况下,确定对所述M个子带的残差信号进行编码。
3.根据权利要求1所述的方法,其特征在于,所述根据M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,包括:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定所述当前帧的残差信号编码参数。
4.根据权利要求3所述的方法,其特征在于,所述根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定所述当前帧的残差信号编码参数,包括:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;
根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的残差信号编码参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,包括:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,所述M个能量参数指示所述M个子带中每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;
将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
6.根据权利要求5所述的方法,其特征在于,所述M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))·(1-g(b))
·res_cod_NRG_M[b]+1)
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量,g(b)为关于所述子带索引号为b的子带的边增益side_gain[b]的函数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,包括:
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;
根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的所述残差信号编码参数。
8.根据权利要求7所述的方法,其特征在于,所述根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,包括:
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,所述M个能量参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;
将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
9.根据权利要求8所述的方法,其特征在于,所述M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量。
10.根据权利要求4至9中任一项所述的方法,其特征在于,所述当前帧的残差信号编码参数为所述当前帧的长时平滑参数,所述当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio·α+res_dmx_ratio_lt_prev·(1-α)
res_dmx_ratio_lt为所述当前帧的长时平滑参数,res_dmx_ratio为所述第一参数,res_dmx_ratio_lt_prev为所述当前帧的前一帧的长时平滑参数,0<α<1;
其中,在所述第二参数大于预设的第三阈值时,在所述第一参数小于预设的第二阈值的情况下α的取值大于在所述第一参数大于或等于预设的第二阈值的情况下α的取值,所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7;或
在所述第二参数小于预设的第五阈值时,在所述第一参数大于预设的第四阈值的情况下α的取值大于在所述第一参数小于或等于预设的第四阈值的情况下α的取值,所述第四阈值大于或等于0,且小于或等于0.9,所述第五阈值大于或等于0,且小于或等于0.71;或
在所述第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值时,α的取值小于在所述第一参数小于预设的第二阈值,且所述第二参数大于预设的第三阈值的情况下α的取值所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7,所述第五阈值大于或等于0,且小于或等于0.71。
11.根据权利要求1至9中任一项所述的方法,其特征在于,所述方法还包括:
在确定对所述M个子带的残差信号编码的情况下,对所述M个子带的下混信号与残差信号进行编码;
在确定不对所述M个子带的残差信号进行编码的情况下,对所述M个子带的下混信号进行编码。
12.一种立体声信号的编码装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述存储器中存储的程序,当所述存储器中的程序被执行时,所述处理器用于:根据立体声信号的当前帧的M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定所述当前帧的残差信号编码参数,所述当前帧的残差信号编码参数用于指示是否对所述M个子带的残差信号进行编码,所述M个子带为N个子带中的至少部分子带,N为大于1的正整数,M≤N,且M为正整数;根据所述当前帧的残差信号编码参数,确定是否对所述当前帧的M个子带的残差信号进行编码。
13.根据权利要求12所述的装置,其特征在于,所述处理器还用于:
将所述残差信号编码参数与预设的第一阈值进行比较,所述第一阈值大于0,且小于1.0;
在所述当前帧的残差信号编码参数小于或等于所述第一阈值的情况下,确定不对所述M个子带的残差信号进行编码;或
在所述当前帧的残差信号编码参数大于所述第一阈值的情况下,确定对所述M个子带的残差信号进行编码。
14.根据权利要求12所述的装置,其特征在于,所述处理器还用于:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定所述当前帧的残差信号编码参数。
15.根据权利要求14所述的装置,其特征在于,所述处理器还用于:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;
根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的残差信号编码参数。
16.根据权利要求15所述的装置,其特征在于,所述处理器还用于:
根据所述M个子带中的每个子带的下混信号能量、每个子带的残差信号能量与每个子带的边增益,确定M个能量参数,所述M个能量参数指示所述M个子带中每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;
将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
17.根据权利要求16所述的装置,其特征在于,所述处理器确定的M个能量参数中子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/(res_cod_NRG_S[b]+(1-g(b))·(1-g(b))
·res_cod_NRG_M[b]+1)
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量,g(b)为关于所述子带索引号为b的子带的边增益side_gain[b]的函数。
18.根据权利要求12所述的装置,其特征在于,所述处理器还用于:
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第一参数,所述第一参数指示所述M个子带中的每个子带的下混信号能量与残差信号能量的大小关系;
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定第二参数,所述第二参数指示第一能量总和与第二能量总和的大小关系,所述第一能量总和为所述M个子带的残差信号能量与下混信号能量之和,所述第二能量总和为所述当前帧的前一帧的频域信号中的M个子带的残差信号能量与下混信号能量之和,所述当前帧的所述M个子带与所述前一帧的所述M个子带的子带索引号相同;
根据所述第一参数、所述第二参数与所述当前帧的前一帧的长时平滑参数,确定所述当前帧的残差信号编码参数。
19.根据权利要求18所述的装置,其特征在于,所述处理器还用于:
根据所述M个子带中的每个子带的下混信号能量与每个子带的残差信号能量,确定M个能量参数,所述M个能量参数指示所述M个子带中每个子带的下混信号能量与残差信号能量的大小关系,所述M个能量参数与所述M个子带一一对应;
将所述M个能量参数中的数值最大的能量参数确定为所述第一参数。
20.根据权利要求19所述的装置,其特征在于,所述处理器确定的M个能量参数中属于子带索引号为b的子带的能量参数满足公式:
res_dmx_ratio[b]=res_cod_NRG_S[b]/res_cod_NRG_M[b]
其中,res_dmx_ratio[b]为所述子带索引号为b的子带的能量参数,b大于或等于0,且小于或等于预设的最大子带索引号,res_cod_NRG_S[b]为所述子带索引号为b的子带的残差信号能量,res_cod_NRG_M[b]为所述子带索引号为b的子带的下混信号能量。
21.根据权利要求15至20中任一项所述的装置,其特征在于,所述当前帧的残差信号编码参数为所述当前帧的长时平滑参数,所述当前帧的长时平滑参数满足公式:
res_dmx_ratio_lt=res_dmx_ratio.α+res_dmx_ratio_lt_prev·(1-α)
res_dmx_ratio_lt为所述当前帧的长时平滑参数,res_dmx_ratio为所述第一参数,res_dmx_ratio_lt_prev为所述当前帧的前一帧的长时平滑参数,0<α<1;
其中,在所述第二参数大于预设的第三阈值时,在所述第一参数小于预设的第二阈值的情况下α的取值大于在所述第一参数大于或等于预设的第二阈值的情况下α的取值,所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7;或
在所述第二参数小于预设的第五阈值时,在所述第一参数大于预设的第四阈值的情况下α的取值大于在所述第一参数小于或等于预设的第四阈值的情况下α的取值,所述第四阈值大于或等于0,且小于或等于0.9,所述第五阈值大于或等于0,且小于或等于0.71;或
在所述第二参数大于或等于预设的第五阈值,且小于或等于预设的第三阈值时,α的取值小于在所述第一参数小于预设的第二阈值,且所述第二参数大于预设的第三阈值的情况下α的取值所述第二阈值大于或等于0,且小于或等于0.6,所述第三阈值大于或等于2.7,且小于或等于3.7,所述第五阈值大于或等于0,且小于或等于0.71。
22.根据权利要求12至20中任一项所述的装置,其特征在于,所述处理器还用于:
在确定对所述M个子带的残差信号编码的情况下,对所述M个子带的下混信号与残差信号进行编码;
在确定不对所述M个子带的残差信号进行编码的情况下,对所述M个子带的下混信号进行编码。
CN201810549237.3A 2018-05-31 2018-05-31 立体声信号的编码方法和装置 Active CN110556117B (zh)

Priority Applications (16)

Application Number Priority Date Filing Date Title
CN201810549237.3A CN110556117B (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置
CN202210345190.5A CN114708874A (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置
PCT/CN2019/076341 WO2019227991A1 (zh) 2018-05-31 2019-02-27 立体声信号的编码方法和装置
EP19811645.1A EP3783607B1 (en) 2018-05-31 2019-02-27 Method and apparatus for encoding stereophonic signal
BR112020024257-8A BR112020024257A2 (pt) 2018-05-31 2019-02-27 método de codificação de sinal estéreo, aparelho, meio de armazenamento legível por computador e chip
PT198116451T PT3783607T (pt) 2018-05-31 2019-02-27 Método e aparelho de codificação de sinal estereofónico
KR1020237021245A KR102710464B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
KR1020207035773A KR102548475B1 (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
EP24164942.5A EP4435777A1 (en) 2018-05-31 2019-02-27 Stereo signal encoding method and apparatus
KR1020247031583A KR20240145060A (ko) 2018-05-31 2019-02-27 스테레오 신호 인코딩 방법 및 장치
JP2020566740A JP7110401B2 (ja) 2018-05-31 2019-02-27 ステレオ信号符号化方法およびステレオ信号符号化装置
SG11202011324RA SG11202011324RA (en) 2018-05-31 2019-02-27 Stereo signal encoding method and apparatus
US17/104,852 US11462224B2 (en) 2018-05-31 2020-11-25 Stereo signal encoding method and apparatus using a residual signal encoding parameter
JP2022115641A JP7520922B2 (ja) 2018-05-31 2022-07-20 ステレオ信号符号化方法およびステレオ信号符号化装置
US17/886,087 US11978463B2 (en) 2018-05-31 2022-08-11 Stereo signal encoding method and apparatus using a residual signal encoding parameter
US18/625,538 US20240355343A1 (en) 2018-05-31 2024-04-03 Stereo Signal Encoding Method and Apparatus Using a Residual Signal Encoding Parameter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810549237.3A CN110556117B (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210345190.5A Division CN114708874A (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置

Publications (2)

Publication Number Publication Date
CN110556117A CN110556117A (zh) 2019-12-10
CN110556117B true CN110556117B (zh) 2022-04-22

Family

ID=68697244

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210345190.5A Pending CN114708874A (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置
CN201810549237.3A Active CN110556117B (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210345190.5A Pending CN114708874A (zh) 2018-05-31 2018-05-31 立体声信号的编码方法和装置

Country Status (9)

Country Link
US (3) US11462224B2 (zh)
EP (2) EP3783607B1 (zh)
JP (2) JP7110401B2 (zh)
KR (3) KR102710464B1 (zh)
CN (2) CN114708874A (zh)
BR (1) BR112020024257A2 (zh)
PT (1) PT3783607T (zh)
SG (1) SG11202011324RA (zh)
WO (1) WO2019227991A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556118B (zh) 2018-05-31 2022-05-10 华为技术有限公司 立体声信号的编码方法和装置
US12100403B2 (en) * 2020-03-09 2024-09-24 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
CN118800251A (zh) * 2023-04-13 2024-10-18 华为技术有限公司 场景音频信号的编码方法和装置
CN117079657B (zh) * 2023-10-16 2024-01-26 中国铁塔股份有限公司 压限处理方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
CN101635145A (zh) * 2008-07-24 2010-01-27 华为技术有限公司 编解码方法、装置和系统
CN102577384A (zh) * 2009-10-23 2012-07-11 三星电子株式会社 用相位信息和残差信息进行编码/解码的设备和方法
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
CN104170007A (zh) * 2012-06-19 2014-11-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
CN105556596A (zh) * 2013-07-22 2016-05-04 弗朗霍夫应用科学研究促进协会 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和计算机程序

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4245288B2 (ja) * 2001-11-13 2009-03-25 パナソニック株式会社 音声符号化装置および音声復号化装置
WO2003077235A1 (en) * 2002-03-12 2003-09-18 Nokia Corporation Efficient improvements in scalable audio coding
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
DK3561810T3 (da) 2004-04-05 2023-05-01 Koninklijke Philips Nv Fremgangsmåde til kodning af venstre og højre audioindgangssignaler, tilsvarende koder, afkoder og computerprogramprodukt
WO2006048817A1 (en) 2004-11-04 2006-05-11 Koninklijke Philips Electronics N.V. Encoding and decoding of multi-channel audio signals
US7835918B2 (en) * 2004-11-04 2010-11-16 Koninklijke Philips Electronics N.V. Encoding and decoding a set of signals
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8321230B2 (en) * 2006-02-06 2012-11-27 France Telecom Method and device for the hierarchical coding of a source audio signal and corresponding decoding method and device, programs and signals
US8571875B2 (en) * 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
CN101842832B (zh) * 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置
KR101585852B1 (ko) 2011-09-29 2016-01-15 돌비 인터네셔널 에이비 Fm 스테레오 라디오 신호들에서 고품질의 검출
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
US9711150B2 (en) * 2012-08-22 2017-07-18 Electronics And Telecommunications Research Institute Audio encoding apparatus and method, and audio decoding apparatus and method
US20150125023A1 (en) 2013-03-08 2015-05-07 Ideavillage Products Corp. Headset with variable acoustic impedance
EP2830051A3 (en) * 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
ES2904275T3 (es) * 2015-09-25 2022-04-04 Voiceage Corp Método y sistema de decodificación de los canales izquierdo y derecho de una señal sonora estéreo

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101160619A (zh) * 2005-04-15 2008-04-09 科丁技术公司 适应性残余音频编码
CN101393743A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种可配置参数的立体声编码装置及其编码方法
CN101635145A (zh) * 2008-07-24 2010-01-27 华为技术有限公司 编解码方法、装置和系统
CN102577384A (zh) * 2009-10-23 2012-07-11 三星电子株式会社 用相位信息和残差信息进行编码/解码的设备和方法
CN104170007A (zh) * 2012-06-19 2014-11-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
WO2014021588A1 (ko) * 2012-07-31 2014-02-06 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 방법 및 장치
CN105556596A (zh) * 2013-07-22 2016-05-04 弗朗霍夫应用科学研究促进协会 使用基于残差信号调整解相关信号贡献的多声道音频解码器、多声道音频编码器、方法和计算机程序

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Experimental study on improved parametric stereo for bit rate scalable audio coding;Ikhwana Elfitri;《2014 6th International Conference on Information Technology and Electrical Engineering (ICITEE)》;20150115;1-5 *
MDCT域信号处理及其在立体声编码中的应用;张树华;《中国优秀博士学位论文全文数据库信息科技辑》;20120531;I136-17 *

Also Published As

Publication number Publication date
KR20210008091A (ko) 2021-01-20
KR102548475B1 (ko) 2023-06-26
EP4435777A1 (en) 2024-09-25
JP7520922B2 (ja) 2024-07-23
US11978463B2 (en) 2024-05-07
PT3783607T (pt) 2024-07-11
US11462224B2 (en) 2022-10-04
BR112020024257A2 (pt) 2021-02-23
US20240355343A1 (en) 2024-10-24
KR20230098708A (ko) 2023-07-04
JP7110401B2 (ja) 2022-08-01
KR20240145060A (ko) 2024-10-04
CN114708874A (zh) 2022-07-05
SG11202011324RA (en) 2020-12-30
EP3783607A1 (en) 2021-02-24
KR102710464B1 (ko) 2024-09-25
EP3783607A4 (en) 2021-06-30
EP3783607B1 (en) 2024-05-08
US20220392470A1 (en) 2022-12-08
JP2021525390A (ja) 2021-09-24
WO2019227991A1 (zh) 2019-12-05
US20210082445A1 (en) 2021-03-18
CN110556117A (zh) 2019-12-10
JP2022163058A (ja) 2022-10-25

Similar Documents

Publication Publication Date Title
US20180322883A1 (en) Apparatus and Method for Encoding or Decoding a Multi-Channel Signal Using a Broadband Alignment Parameter and a Plurality of Narrowband Alignment Parameters
CN110556117B (zh) 立体声信号的编码方法和装置
EP3605847B1 (en) Multichannel signal encoding method and apparatus
CN108885876B (zh) 用于对多声道音频信号的参数编码和解码的空间化信息进行的优化编码和解码
JP5480274B2 (ja) 信号処理方法及び装置
CN110556118B (zh) 立体声信号的编码方法和装置
CN110462733B (zh) 多声道信号的编解码方法和编解码器
CN112233682B (zh) 一种立体声编码方法、立体声解码方法和装置
KR20180125475A (ko) 멀티 채널 코딩
US11961526B2 (en) Method and apparatus for calculating downmixed signal and residual signal
CN109427338B (zh) 立体声信号的编码方法和编码装置
CN112151045A (zh) 一种立体声编码方法、立体声解码方法和装置
CN109427337B (zh) 立体声信号编码时重建信号的方法和装置
JP2024153672A (ja) ステレオ信号符号化方法およびステレオ信号符号化装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant