CN109215668B - 一种声道间相位差参数的编码方法及装置 - Google Patents

一种声道间相位差参数的编码方法及装置 Download PDF

Info

Publication number
CN109215668B
CN109215668B CN201710524352.0A CN201710524352A CN109215668B CN 109215668 B CN109215668 B CN 109215668B CN 201710524352 A CN201710524352 A CN 201710524352A CN 109215668 B CN109215668 B CN 109215668B
Authority
CN
China
Prior art keywords
current frame
ipd
ipd parameter
parameter
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710524352.0A
Other languages
English (en)
Other versions
CN109215668A (zh
Inventor
张兴涛
李海婷
刘泽新
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201710524352.0A priority Critical patent/CN109215668B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to JP2019572587A priority patent/JP7080262B2/ja
Priority to KR1020207001994A priority patent/KR102299916B1/ko
Priority to BR112019028256-4A priority patent/BR112019028256A2/pt
Priority to SG11201913610VA priority patent/SG11201913610VA/en
Priority to RU2020103799A priority patent/RU2769789C2/ru
Priority to EP24156328.7A priority patent/EP4390920A3/en
Priority to EP18823145.0A priority patent/EP3637415B1/en
Priority to PCT/CN2018/085756 priority patent/WO2019001142A1/zh
Priority to KR1020247027520A priority patent/KR20240130819A/ko
Priority to KR1020237023244A priority patent/KR102697288B1/ko
Priority to KR1020217028047A priority patent/KR102425236B1/ko
Priority to ES18823145T priority patent/ES2979342T3/es
Priority to KR1020227025384A priority patent/KR102554892B1/ko
Publication of CN109215668A publication Critical patent/CN109215668A/zh
Priority to US16/723,449 priority patent/US11031021B2/en
Application granted granted Critical
Publication of CN109215668B publication Critical patent/CN109215668B/zh
Priority to US17/319,353 priority patent/US11568882B2/en
Priority to JP2022044026A priority patent/JP7439152B2/ja
Priority to US18/069,573 priority patent/US12067993B2/en
Priority to JP2024020494A priority patent/JP2024059711A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
  • Manipulation Of Pulses (AREA)

Abstract

本申请公开了一种声道间相位差参数的编码方法,包括:获取用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式的参考参数;根据所述参考参数确定当前帧的IPD参数编码方式,所述确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种;根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。使用本申请提供的技术方案,能够提高多声道信号的编码质量。

Description

一种声道间相位差参数的编码方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种声道间相位差参数的编码方法及装置。
背景技术
随着生活质量的提高,人们对高质量的音频的需求不断增大。相对于单声道音频,立体声音频具有各声源的方位感和分布感,能够提高音频信息的清晰度和可懂度,增强音频播放的临场感,因而备受人们的青睐。
参数立体声(Parametric Stereo,PS)编码技术是一种常用的立体声编码技术。PS编码技术时根据空间感知特性对立体声信号(即多声道信号)进行编解码处理,具体是将多声道信号的编解码转换为单声道音频信号的编解码和空间感知参数的编解码。PS编码中的空间感知参数包括声道间相关性(Inter-channel Coherence,IC)、声道间电平差(Inter-channel Level Difference,ILD)、声道间时间差(Inter-channel Time Difference,ITD)和声道间相位差(Inter-channel Phase Difference,IPD)等等,其中,ITD参数和IPD参数为表示声源水平方位的空间感知参数。ILD参数、ITD参数和IPD参数决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重大作用,因此,IPD参数等参数的确定对立体声信号的恢复具有重要作用。
现有技术一中,计算立体声信号的每一帧的IPD参数时,具体是将时域信号变换为频域信号,将频域信号划分为多个子带,再逐个子带计算子带IPD参数,然后将各个子带的IPD参数进行量化以用于立体声信号的编码。可见,现有技术一的IPD参数计算,需要逐个子带进行计算,占用资源多,编码效率低。
现有技术二中,计算立体声信号的每一帧的IPD参数时,具体是将时频信号变换为频域信号,再基于频域信号计算一帧立体声信号的IPD参数,该一帧立体声信号的IPD参数称为全局声道间相位差(即Group IPD)参数,然后对Group IPD参数进行量化以用于立体声信号的编码。可见,现有技术二只计算了一个IPD参数(即Group IPD参数)进而仅能对一个IPD参数进行量化,虽然占用资源少,但是编码的相位信息精度低,编码质量差。
发明内容
本申请提供一种声道间相位差参数的编码方法及装置,可提高IPD参数编码方式的选择多样性,更好地保持相位信息,提升音频的编码质量。
本发明的第一方面提供了一种声道间相位差参数的编码方法,包括:
获取用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式的参考参数;
根据所述参考参数确定当前帧的IPD参数编码方式,所述确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种;
根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
可见,在对IPD参数进行编码时,会获取参考参数,并根据参考参数确定与当前帧对应的当前帧的IPD参数编码方式,并使用确定的IPD参数编码方式对当前帧的IPD参数进行处理,从而不仅能够自适应地对当前帧的IPD参数进行处理,还能使得对当前帧的IPD参数的处理能够与当前帧相匹配,能够提升多声道信号的编码质量。
结合第一方面,在第一方面的第一种实施方式中,所述参考参数包括所述当前帧的信号特性参数和当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括表示所述当前帧的左右声道相关性的参数、所述当前帧的子带IPD参数的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD参数中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述前A帧中每一帧的表示左右声道相关性的参数、所述前A帧中每一帧的子带IPD参数的方差、所述前A帧中每一帧的ITD参数、所述前A帧中每一帧的IPD参数编码方式以及所述前A帧中每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音类型或者音乐类型。
其中,A的取值可以是1,2,3,4,或5等等。
可见,在某些情况下在对当前帧的IPD参数编码方式进行确定时,不仅会利用当前帧的信号特征参数还会利用当前帧的前A帧的信号特征参数,从而使得确定的当前帧的IPD参数编码方式不仅与当前帧相匹配,还能够与当前帧的前A帧相匹配,从而保证了编码方式的连续性,进一步提高编码质量。
结合第一方面的第一种实施方式,在第一方面的第二种实施方式中,所述参考参数包括表示所述当前帧的左右声道相关性的参数;
若表示所述当前帧的左右声道相关性的参数的值大于或等于第一阈值,所述当前帧的IPD参数编码方式为所述至少两种IPD参数编码方式中的第一编码方式。
结合第一方面的第二种实施方式,在第一方面的第三种实施方式中,所述第一阈值为0.75。
结合第一方面的第一种实施方式至第三种实施方式中的任意一种,在第一方面的第四种实施方式中,所述参考参数包括所述前A帧的每一帧的IPD参数编码方式和所述前A帧的每一帧的信号类型;
若所述前A帧的每一帧的IPD参数编码方式均为所述至少两种IPD参数编码方式中的第一编码方式,并且所述前A帧的每一帧的信号类型均为音乐类型,所述当前帧的IPD参数编码方式为所述第一编码方式。其中,A的取值可以为1。
结合第一方面的第一种实施方式,在第一方面的第五种实施方式中,所述参考参数包括所述当前帧的ITD参数、所述当前帧的子带IPD参数的方差,以及所述前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD参数的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音类型,所述当前帧的IPD参数编码方式为至少两种IPD参数编码方式中的第一编码方式。
结合第一方面的第二种实施方式至第五种实施方式中的任意一个,在第一方面的第六种实施方式中,所述第一编码方式包括如下方式中的任一:
全局声道间相位差Group IPD参数编码方式;或者,
不编码IPD参数;或者,
将IPD参数的值设置为0。
其中,在某些情况下当前帧的IPD参数是不是传输到解码端并不会对解码效果有什么提升,因此第一编码方式可以为不编码IPD参数或将IPD参数的值设置为0或Group ID参数编码方式,其中在第一编码方式为不编码IPD参数时,可以编码比特全部用于编码对解码效果提升更有效的参数;在第一编码方式为将IPD参数的值设置为0或Group ID参数编码方式时,由于为值0的IPD参数Group ID参数占用的比特很少,因此也可以将编码比特尽可能多地用于编码对解码效果提升更有效的参数;从而提高编码效果。
结合第一方面的第六种实施方式,在第一方面的第七种实施方式中,当所述第一编码方式为Group IPD参数编码方式时,所述根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理包括:
提取所述当前帧的左右声道频域信号的子带的IPD参数;
根据所述提取的子带的IPD参数确定所述当前帧的Group IPD参数;
对所述当前帧的Group IPD参数进行编码。
结合第一方面的第二种实施方式至第七种实施方式中的任意一个,在第一方面的第八种实施方式中,若所述当前帧的IPD参数编码方式不为第一编码方式,
则所述当前帧的IPD参数编码方式为第二编码方式;
其中,所述第二编码方式包括:子带集合IPD参数编码方式或者子带IPD参数编码方式,其中,所述子带IPD参数编码方式是编码所述当前帧的部分或全部子带的子带IPD参数。
结合第一方面的第八种实施方式,在第一方面的第九种实施方式中,所述第二编码方式为子带IPD参数编码方式;
所述根据所述确定的当前帧的IPD参数编码方式编码对所述当前帧的IPD参数进行处理包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数;
对所述计算获得的各个子带或部分子带的IPD参数进行编码。
其中,在第二编码方式为对当前帧的左右声道频域信号的部分子带的IPD参数进行编码时,可以是仅编码当前帧的左右声道频域信号的频率较低的一些子带的子带IPD参数,在一种实施方式中,可以编码除频率最高的子带和频率次高的子带外的其余子带的IPD参数,由于除频率最高的子带和频率次高的子带的子带IPD参数对编码效果的提升效果不明显,因此不编码这两个子带的子带IPD参数可以确保编码比特用在对编码效果的提升效果更好的参数上,进一步提高编码质量。
结合第一方面或者第一方面的第一种实施方式至第九种实施方式中的任意一个,在第一方面的第十种实施方式中,所述方法还包括:
对所述确定的当前帧的IPD参数编码方式进行编码。
例如,可以设置编码方式标志位,该标志位占用一个比特,从而能够指示当前帧的IPD参数编码方式是第一编码方式还是第二编码方式,使得解码端能够根据该编码方式标志位确定当前帧的IPD参数编码方式,从而采用对应的解码方式进行解码。
结合第一方面或者第一方面的第一种实施方式至第十种实施方式中的任意一个,在第一方面的第十一种实施方式中,所述根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理前还包括:
确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整;
在确定需要对所述确定的当前帧的IPD参数编码方式进行调整时,对所述确定的当前帧的IPD参数编码方式进行调整;
所述根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理包括:
根据所述调整后的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
结合第一方面的第十一种实施方式,在第一方面的第十二种实施方式中,所述确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整是基于所述当前帧的前A帧的IPD参数编码方式进行的。
由于根据了当前帧的前A帧的IPD参数编码方式确定是否对当前帧的IPD参数编码方式进行调整,从而使得当前帧的IPD参数编码方式能够与当前帧的前A帧的IPD参数编码方式能够保持平滑,避免了编码效果发生突变。
结合第一方面的第一种实施方式至第十二种实施方式中的任意一个,在第一方面的第十三种实施方式中,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure BDA0001338239150000041
其中,
Figure BDA0001338239150000042
Figure BDA0001338239150000043
Figure BDA0001338239150000044
Figure BDA0001338239150000045
Figure BDA0001338239150000046
Figure BDA0001338239150000047
其中,El(b)为左声道能量和,Er(b)是右声道能量和,Lr(k)为左声道频域信号的第k个频点值的实部,Rr(k)为右声道频域信号的第k个频点值的实部,Li(k)为左声道频域信号的第k个频点值的虚部,Ri(k)为右声道频域信号的第k个频点值的虚部;L为子带频谱系数的数量;N为子带数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,L(k)为用于计算IPD参数的左声道频域信号的第k个频点值,R(k)为用于计算IPD参数的右声道频域信号的第k个频点值;其中,xL(n)和xR(n)为实数序列。
结合第一方面的第一种实施方式至第十二种实施方式中的任意一个,在第一方面的第十四种实施方式中,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure BDA0001338239150000051
其中,
Figure BDA0001338239150000052
Figure BDA0001338239150000053
L为子带频谱系数的数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,其中,xL(n)和xR(n)为实数序列。
结合第一方面的第一种实施方式至第十二种实施方式中的任意一个,在第一方面的第十五种实施方式中,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure BDA0001338239150000054
其中,
Figure BDA0001338239150000055
Figure BDA0001338239150000056
L为子带频谱系数的数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,其中,xL(n)和xR(n)为实数序列;R*(k)表示R(k)的共轭,即R*(k)为右声道频域信号的第k个频点值的共轭。
本发明的第二方面提供了一种声道间相位差参数的编码装置,包括:
获取单元,用于获取参考参数,所述参考参数用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式;
确定单元,用于根据所述参考参数确定当前帧的IPD参数编码方式,所述确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种;
处理单元,用于根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
可见,在对IPD参数进行编码时,会获取参考参数,并根据参考参数确定与当前帧对应的当前帧的IPD参数编码方式,并使用确定的IPD参数编码方式对当前帧的IPD参数进行处理,从而不仅能够自适应地对当前帧的IPD参数进行处理,还能使得对当前帧的IPD参数的处理能够与当前帧相匹配,能够提升多声道信号的编码质量。
结合第二方面,在第二方面的第一种实施方式中,所述参考参数包括所述当前帧的信号特性参数和当前帧的前A帧的信号特性参数中的至少一种,其中,所述A为不小于1的整数;
其中,所述当前帧的信号特性参数包括表示所述当前帧的左右声道相关性的参数、所述当前帧的子带IPD参数的方差、所述当前帧的信号类型以及所述当前帧的声道间时间差ITD参数中的至少一种;
所述当前帧的前A帧的信号特性参数包括所述前A帧中每一帧的表示左右声道相关性的参数、所述前A帧中每一帧的子带IPD参数的方差、所述前A帧中每一帧的ITD参数、所述前A帧中每一帧的IPD参数编码方式以及所述前A帧中每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音类型或者音乐类型。
可见,在某些情况下在对当前帧的IPD参数编码方式进行确定时,不仅会利用当前帧的信号特征参数还会利用当前帧的前A帧的信号特征参数,从而使得确定的当前帧的IPD参数编码方式不仅与当前帧相匹配,还能够与当前帧的前A帧相匹配,从而保证了编码方式的连续性,进一步提高编码质量。
结合第二方面的第一种实施方式,在第二方面的第二种实施方式中,所述参考参数包括表示所述当前帧的左右声道相关性的参数;
若表示所述当前帧的左右声道相关性的参数的值大于或等于第一阈值,所述当前帧的IPD参数编码方式为所述至少两种IPD参数编码方式中的第一编码方式。
结合第二方面的第二种实施方式,在第二方面的第三种实施方式中,所述第一阈值为0.75。
结合第二方面的第一种实施方式,在第二方面的第四种实施方式中,所述参考参数包括所述前A帧的每一帧的IPD参数编码方式和所述前A帧的每一帧的信号类型;
若所述前A帧的每一帧的IPD参数编码方式均为所述至少两种IPD参数编码方式中的第一编码方式,并且所述前A帧的每一帧的信号类型均为音乐类型,所述当前帧的IPD参数编码方式为所述第一编码方式。其中,A的值可以为1。
结合第二方面的第二种实施方式至第四种实施方式中的任意一种,在第二方面的第五种实施方式中,所述参考参数包括所述当前帧的ITD参数、所述当前帧的子带IPD参数的方差,以及所述前A帧的每一帧的信号类型;
若所述当前帧的ITD参数的值大于第三阈值、所述当前帧的子带IPD参数的方差小于第四阈值,并且所述当前帧的前A帧的每一帧的信号类型均为语音类型,所述当前帧的IPD参数编码方式为至少两种IPD参数编码方式中的第一编码方式。
结合第二方面的第二种实施方式至第五种实施方式中的任意一种,在第二方面的第六种实施方式中,所述第一编码方式包括如下方式中的任一:
全局声道间相位差Group IPD参数编码方式;或者,
不编码IPD参数;或者,
将IPD参数的值设置为0。
其中,在某些情况下当前帧的IPD参数是不是传输到解码端并不会对解码效果有什么提升,因此第一编码方式可以为不编码IPD参数或将IPD参数的值设置为0或Group ID参数编码方式,其中在第一编码方式为不编码IPD参数时,可以编码比特全部用于编码对解码效果提升更有效的参数;在第一编码方式为将IPD参数的值设置为0或Group ID参数编码方式时,由于为值0的IPD参数Group ID参数占用的比特很少,因此也可以将编码比特尽可能多地用于编码对解码效果提升更有效的参数;从而提高编码效果。
结合第二方面的第二种实施方式至第五种实施方式中的任意一种,在第二方面的第七种实施方式中,若所述当前帧的IPD参数编码方式不为第一编码方式,
则所述当前帧的IPD参数编码方式为第二编码方式;
其中,所述第二编码方式包括:子带集合IPD参数编码方式或者子带IPD参数编码方式,其中,所述子带IPD参数编码方式是编码所述当前帧的部分或全部子带的子带IPD参数。
结合第二方面的第七种实施方式,在第二方面的第八种实施方式中,所述第二编码方式为子带IPD参数编码方式;
所述根据所述确定的当前帧的IPD参数编码方式编码对所述当前帧的IPD参数进行处理包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数;
对所述计算获得的各个子带或部分子带的IPD参数进行编码。
其中,在第二编码方式为对当前帧的左右声道频域信号的部分子带的IPD参数进行编码时,可以是仅编码当前帧的左右声道频域信号的频率较低的一些子带的子带IPD参数,在一种实施方式中,可以编码除频率最高的子带和频率次高的子带外的其余子带的IPD参数,由于除频率最高的子带和频率次高的子带的子带IPD参数对编码效果的提升效果不明显,因此不编码这两个子带的子带IPD参数可以确保编码比特用在对编码效果的提升效果更好的参数上,进一步提高编码质量。
结合第二方面或者第二方面的第一种实施方式至第八种实施方式中的任意一种,在第二方面的第九种实施方式中,所述装置还包括:
编码单元,用于对所述确定的当前帧的IPD参数编码方式进行编码。
例如,可以设置编码方式标志位,该标志位占用一个比特,从而能够指示当前帧的IPD参数编码方式是第一编码方式还是第二编码方式,使得解码端能够根据该编码方式标志位确定当前帧的IPD参数编码方式,从而采用对应的解码方式进行解码。
结合第二方面或者第二方面的第一种实施方式至第九种实施方式中的任意一种,在第二方面的第十种实施方式中,所述确定单元,还用于确定是否需要对所述确定单元确定的当前帧的IPD参数编码方式进行调整;
所述装置还包括:
调整单元,用于在所述确定单元确定需要对所述确定的当前帧的IPD参数编码方式进行调整时,对所述确定的当前帧的IPD参数编码方式进行调整;
所述处理单元,还用于根据所述调整后的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
结合第二方面的第十种实施方式,在第二方面的第十一种实施方式中,所述确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整是基于所述当前帧的前A帧的IPD参数编码方式进行的。
由于根据了当前帧的前A帧的IPD参数编码方式确定是否对当前帧的IPD参数编码方式进行调整,从而使得当前帧的IPD参数编码方式能够与当前帧的前A帧的IPD参数编码方式能够保持平滑,避免了编码效果发生突变。
结合第二方面或者第二方面的第一种实施方式至第十一种实施方式中的任意一种,在第二方面的第十二种实施方式中,所述获取单元,具体用于通过如下计算式获得所述表示所述当前帧的左右声道相关性的参数:
Figure BDA0001338239150000081
其中,
Figure BDA0001338239150000082
Figure BDA0001338239150000083
Figure BDA0001338239150000084
Figure BDA0001338239150000085
Figure BDA0001338239150000086
Figure BDA0001338239150000087
其中,El(b)为左声道能量和,Er(b)是右声道能量和,Lr(k)为左声道频域信号的第k个频点值的实部,Rr(k)为右声道频域信号的第k个频点值的实部,Li(k)为左声道频域信号的第k个频点值的虚部,Ri(k)为右声道频域信号的第k个频点值的虚部;L为子带频谱系数的数量;N为子带数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,L(k)为用于计算IPD参数的左声道频域信号的第k个频点值,R(k)为用于计算IPD参数的右声道频域信号的第k个频点值;其中,xL(n)和xR(n)为实数序列。
结合第一方面的第一种实施方式至第十一种实施方式中的任意一个,在第一方面的第十三种实施方式中,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure BDA0001338239150000091
其中,
Figure BDA0001338239150000092
Figure BDA0001338239150000093
L为子带频谱系数的数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,其中,xL(n)和xR(n)为实数序列。
结合第一方面的第一种实施方式至第十一种实施方式中的任意一个,在第一方面的第十四种实施方式中,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure BDA0001338239150000094
其中,
Figure BDA0001338239150000095
Figure BDA0001338239150000096
L为子带频谱系数的数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,其中,xL(n)和xR(n)为实数序列;R*(k)表示R(k)的共轭,即R*(k)为右声道频域信号的第k个频点值的共轭。
本发明的第三方面提供了一种终端,包括:存储器和处理器;
所述存储器用于存储一组可执行代码;
所述处理器用于执行所述存储器中存储的可执行代码以执行第一方面,或者第一方面的第一种实施方式至第十三种实施方式中的任意一种。
本发明的第四方面提供了一种存储介质,所述存储介质存储有可执行代码,所述可执行代码被执行时可执行第一方面,或者第一方面的第一种实施方式至第十三种实施方式中的任意一种。
本发明的第五方面提供了一种计算机程序,所述计算机程序可执行第一方面,或者第一方面的第一种实施方式至第十三种实施方式中的任意一种。
本发明实施例在对IPD参数进行编码时,会获取参考参数,并根据参考参数确定与当前帧对应的当前帧的IPD参数编码方式,并使用确定的IPD参数编码方式对当前帧的IPD参数进行处理,从而不仅能够自适应地对当前帧的IPD参数进行处理,还能使得对当前帧的IPD参数的处理能够与当前帧相匹配,能够提升多声道信号的编码质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是PS编码的原理示意图;
图2是PS解码的原理示意图;
图3是本发明实施例提供的本发明方案的一个应用场景示意图;
图4是本发明实施例提供的本发明方案的另一个应用场景示意图;
图5是本发明实施例提供的IPD参数的编码方法的一流程示意图;
图6是本发明实施例提供的IPD参数的编码方法的另一流程示意图;
图7是本发明实施例提供的IPD参数的编码方法的另一流程示意图;
图8是本发明实施例提供的IPD参数编码装置的结构示意图;
图9是本发明另一实施例提供的IPD参数编码装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是PS编码的原理示意图。
在PS编码中,编码端将多声道(例如x1声道和x2声道)输入的立体声信号的编码下混(downmix)为单声道音频信号,并通过空间感知参数分析来提取立体声信号的空间感知参数,进而通过单声道音频信号编码得到单声道音频比特流,通过空间感知参数编码得到空间感知参数比特流。进一步的,编码端通过单声道音频比特流和空间感知参数比特流的比特流复用得到立体声信号编码的比特流。
参见图2,图2是PS解码的原理示意图。
解码端将立体声信号编码的比特流进行比特流解复用得到单声道音频比特流和空间感知参数比特流,再对单声道音频比特流进行单声道音频信号解码,对空间感知参数比特流进行空间感知参数解码。进一步的,解码端将单声道音频信号解码后借助空间感知参数来合成重建立体声信号。
具体实现中,上述PS编码和PS解码中的空间感知参数包括IC、ILD、ITD和IPD等参数。其中,IC描述了声道间的互相关或相干性,该参数决定了声场范围的感知,可以提高音频信号空间感和声响稳定性。ILD参数用于分辨立体声源的水平方向角度,描述了声道间的强度差别,该参数将影响整个频谱的频率成分。ITD参数和IPD参数为表示声源水平方位的空间感知参数。ILD参数、ITD参数和IPD参数决定人耳对声源位置的感知,可以有效确定声场位置,对立体声信号的恢复具有重大作用。因此,IPD参数等参数的确定对立体声信号的恢复具有重要作用。
本发明方案的一种应用场景如图3所示,其中,终端301用于对采集到的多声道信号进行编码(包括对IPD参数的编码)后,将编码获得的码流发送至无线接入网(RAN:RadioAccess Network)302,例如可以是直接发送给RAN 302中的基站3021;码流经过基站3021后传输至分组网络网关(PGW:Packet Data Network Gateway)3022;码流经过PGW 3022后传入核心网303,具体可以经过核心网303中的会话边界控制器(SBC:Session BorderController)3031;经过核心网303的码流进入RAN 304,RAN 304包括了PGW 3042和基站3041,在码流经过PGW 3042到达基站3041后,基站3041将码流发送给终端305,由终端305对码流进行解码并对解码得到的多声道信号进行播放。
需要说明的是,上述描述中RAN只示例性地描述了两个网元(基站和PGW),实际中RAN中还包括了很多其他的网元,本发明实施例为了描述方便对其他的网元进行了省略;同理,核心网也只是示例性地描述了SBC,本发明实施例为了描述方便对其他的网元进行了省略。可以理解的是,上述网络中的网元仅仅是示例性的举例,并且其名称在不同的网络中可能还不一样,例如PGW在LTE网络中被称为演进的分组数据网关(ePDG:Evolved PacketData Gateway)。同理,随着网络的演进,上述网元之间的连接方式也可能会改变。因此本发明实施例并不限定本发明的应用场景仅仅限于上述举例。
其中,终端301和终端305是具有蜂窝网络接入能力的终端,可以是可穿戴设备,虚拟现实(VR:Virtual Reality)设备,增强现实(AR:Augmented Reality)设备,手机,平板电脑(Pad),笔记本电脑(NB:Notebook Computer),或个人电脑(PC:Personal Computer)等等。
本发明方案的另一种应用场景如图4所示,终端401用于对采集到的多声道信号进行编码(包括对IPD参数的编码)后,将编码获得的码流通过因特网402发送给终端403,由终端403对码流进行解码并对解码得到的多声道信号进行播放。
其中,终端401和终端403是具有因特网接入能力的终端,可以是可穿戴设备,VR设备,AR设备,手机,Pad,NB,或PC等等。
参见图5,是本发明实施例提供的IPD参数的编码方法的一流程示意图,包括步骤:
S501、获取用于确定多声道信号的当前帧的IPD参数编码方式的参考参数。
具体实现中,本发明实施例提供的IPD参数的编码方法的执行主体可为能够对多声道信号进行编码的编码端。编码端根据本发明实施例提供的IPD参数的编码方法当前帧的IPD参数进行编码之后,会将编码的IPD参数进行传输。解码端将解码得到的IPD参数用于立体声合成处理。下面将对本发明实施例提供的IPD参数的编码方法进行具体描述。需要说明的是,本发明实施例中的编码端和解码端仅仅是从功能上进行描述的,实际形态上可以是如上所述的终端,可以理解的是,在通话过程中,终端是可以兼具编码端和解码端的功能的。其中,为了描述方便,后续在描述多声道信号的当前帧时直接用当前帧。其中,本发明实施例中的多声道信号具体可以是双声道信号,或者三声道信号,或者四声道信号等等,本发明实施例不对多声道信号具体有几个声道进行限定。
在一些可行的实施方式中,编码端在对当前帧的IPD参数进行编码时,可首先获取用于确定当前帧的IPD参数编码方式的参考参数,然后根据该参考参数确定当前帧的IPD参数编码方式。即,上述参考参数用于确定当前帧的IPD参数编码方式,可以理解的是,该参考参数也可以用于确定当前帧的其他参数的编码方式,本发明实施例并不限定该参考参数仅能用于IPD参数编码方式的确定。具体实现中,上述参考参数可以包括当前帧的信号特性参数和上述当前帧的前A帧的信号特性参数中的至少一种。即,上述参考参数可包括当前帧的信号特性参数,或者当前帧的前A帧的信号特性参数,或者当前帧的信号特性参数和当前帧的前A帧的信号特性参数等,具体可根据实际应用场景确定,在此不做限制。其中,上述A为不小于1的整数,即上述当前帧的前A帧可为当前帧的前一帧、前二帧或者前三帧等,在此不做限制。其中,当前帧的前一帧与当前帧在时序上连续,当前帧的前二帧在时序上连续并且包括上述当前帧的前一帧,当前帧的前三帧在时序上连续并且包括上述当前帧的前二帧。
具体实现中,上述当前帧的信号特性参数可以包括表示所述当前帧的左右声道相关性的参数、当前帧的子带IPD参数的方差、所述当前帧的信号类型以及当前帧的ITD参数等参数中的一种或者多种。其中,上述当前帧的表示当前帧的左右声道相关性的参数和当前帧的子带IPD参数的方差可根据多声道信号的左右声道频域信号计算得到。上述当前帧的ITD参数可根据当前帧多声道信号的ITD参数的提取方式确定,其中,上述当前帧的ITD参数的提取方式可包括标准协议中提供的提取方式,或者现有的本领域技术人员公知的提取方式,在此不做限制。
上述当前帧的前A帧的信号特性参数包括当前帧的前A帧中每一帧表示左右声道相关性的参数、当前帧的前A帧中每一帧的子带IPD参数的方差、当前帧的前A帧中每一帧的ITD参数、当前帧的前A帧中每一帧的IPD参数编码方式以及当前帧的前A帧中每一帧的信号类型等参数中的一种或多种。具体可选择哪个或哪些参数根据实际应用场景确定,在此不做限制。其中,上述当前帧的前A帧中每一帧的IPD参数编码方式可以保存在缓存或者存储器中。上述信号类型可包括语音类型或者音乐类型。其中,当前帧的前A帧的信号特性参数可以保存在缓存中;可以理解的是,在获取了当前帧的信号特征参数后,当前帧的信号特征参数也会保存到缓存中,以用于下一帧的IPD参数编码方式的确定。
在一些可行的实施方式中,编码端可对当前帧多声道信号的左右声道时域信号进行时频变换,得到当前帧的左右声道频域信号。具体的,上述时频变换可采用快速傅立叶变换(Fast Fourier Transformation,FFT)或者修正离散余弦变换(Modified DiscreteCosine Transform,MDCT)等实现方式,在此不做限制。其中,在对当前帧多声道信号的左右声道时域信号进行时频变换可以以帧为单位进行,也可以以子帧为单位进行,一帧一般可以包括4个子帧,或2个子帧,或8个子帧,具体的子帧数量可以根据具体情况进行确定。
例如,在一种实施方式中,编码端在采用FFT将当前帧多声道信号的左右声道时域信号变换为左右声道频域信号时,具体可以通过如下变换式进行:
Figure BDA0001338239150000121
Figure BDA0001338239150000131
其中,n为时域信号索引值,k为频域信号索引值;Length为帧长,M为将时域信号变换为频域信号的时频变换长度;xL(n)为左声道时域信号,xR(n)为右声道时域信号,L(k)为用于计算IPD参数的左声道频域信号的第k个频点值,R(k)为用于计算IPD参数的右声道频域信号的第k个频点值。其中,xL(n)和xR(n)为实数序列。
实数序列x(n)(包括xL(n)或者xR(n))的傅立叶变换系数X(k)为复数,并且其实部具有偶对称性,虚部具有奇对称性,即X(k)具有如下的共轭对称性:X(0)和X(N/2)都是实数,且满足如下关系式:
X(k)=X*(N-k),1≤k≤L/2-1
在进行离散傅立叶变换时,利用这种共轭对称性,编码端就不必计算和存储X(k),L/2+1≤k≤L-1以及X(0)和X(L/2)的虚部,而只需要计算X(0)到X(L/2)即可,从而降低对编码端的计算资源和存储资源的占用。
编码端在将当前帧的左右声道时域信号按帧或子帧变换为左右声道频域信号之后,就可以根据左右声道频域信号计算表示当前帧的左右声道相关性的参数。
在一个实施方式中,上述表示当前帧的左右声道相关性的参数可通过如下计算式计算获得:
Figure BDA0001338239150000132
其中,
Figure BDA0001338239150000133
Figure BDA0001338239150000134
Figure BDA0001338239150000135
Figure BDA0001338239150000136
其中,El(b)为左声道能量和,Er(b)是右声道能量和,Lr(k)为左声道频域信号的第k个频点值的实部,Rr(k)为右声道频域信号的第k个频点值的实部,Li(k)为左声道频域信号的第k个频点值的虚部,Ri(k)为右声道频域信号的第k个频点值的虚部;L为子带频谱系数的数量;N为子带数量;
在另一个实施方式中,上述表示当前帧的左右声道相关性的参数可通过如下计算式计算获得:
Figure BDA0001338239150000141
在另一个实施方式中,上述表示当前帧的左右声道相关性的参数可通过如下计算式计算获得:
Figure BDA0001338239150000142
其中,R*(k)表示R(k)的共轭,即R*(k)为右声道频域信号的第k个频点值的共轭。
在一些可行的实施方式中,编码端在将当前帧的左右声道时域信号变换为左右声道频域信号之后,还可根据左右声道频域信号计算当前帧的子带IPD参数的方差。具体的,编码端可首先将当前帧的左右声道频域信号划分为至少二个子带(即多个子带),假设划分为Nsubband个子带,其中,Nsubband为大于2的整数。然后,编码端可根据划分得到的Nsubband个子带的频域信号计算各个子带的IPD参数,并根据计算得到的Nsubband个子带的IPD参数计算当前帧的子带IPD参数的方差。
其中,在一种实施方式中,编码端具体可以采用如下计算式计算子带IPD参数:
Figure BDA0001338239150000143
其中,b为子带的索引值,子带b包含的频点为Ab-1≤k≤Ab-1。
其中,在一种实施方式中,编码端可以采用如下计算式计算子带IPD参数的方差:
Figure BDA0001338239150000144
其中,
Figure BDA0001338239150000145
在本发明的另一个实施方式中,子带IPD参数可以通过如下计算式计算获得:
Figure BDA0001338239150000151
其中,atan2表示反正切函数。
可以理解的是,在实际应用中,子带IPD参数也可以通过其他方式计算获得,本发明实施例并不限定子带IPD参数的具体计算方式。
S502、根据获取的参考参数确定当前帧的IPD参数编码方式。
具体实现中,编码端可根据获取的参考参数,自适应地从预先设置的多种IPD参数编码方式中选择一种作为当前帧的IPD参数编码方式。
其中,上述预先设置的多种IPD参数编码方式可包括:第一编码方式和第二编码方式。其中第一编码方式包括Group IPD参数编码方式、或者不编码IPD参数、或者将IPD参数的值置为0等等。上述第二编码方式包括子带集合IPD参数编码方式或者子带IPD参数编码方式等,其中子带IPD参数编码方式可以是编码当前帧的左右声道频域信号的各个子带或部分子带的IPD参数。
可以理解的是,在一些实施方式中,可以预先确定第一编码方式为Group IPD参数编码方式、或者不编码IPD参数、或者将IPD参数的值置为0中的具体一种,因此编码端可以直接确定编码方式为Group IPD参数编码方式、或者不编码IPD参数、或者将IPD参数的值置为0,而不需要从这三种编码方式中进行选择。相应地,也可以预先确定第二编码方式为子带集合IPD参数编码方式或者子带IPD参数编码方式中的具体一种,因此编码端可以直接确定编码方式为子带集合IPD参数编码方式或者子带IPD参数编码方式,而不需要从这二种编码方式中进行选择。
在另一些实施方式中,编码端可以先确定是第一编码方式还是第二编码方式,在确定是第一编码方式时再从上述三种第一编码方式中选择一种,相应地,在确定是第二编码方式时再从上述二种第二编码方式中选择一种。
在一些实施方式中,在确定了当前帧的IPD参数编码方式后,可以对确定的当前帧的IPD参数编码方式进行编码。具体的编码方式可以将预设的参数设为预设的值,用不同的值表示不同的编码方式。例如,在一种实施方式中,可以用编码方式标志位来表示当前帧的IPD参数编码方式,该标志位可以占用一个比特,当这个比特的取值为0时,表示当前帧的IPD参数编码方式为第一编码方式,当这个比特的取值为1时,表示当前帧的IPD参数编码方式为第二编码方式;当然,也可以当这个比特的取值为1时,表示当前帧的IPD参数编码方式为第一编码方式,当这个比特的取值为0时,表示当前帧的IPD参数编码方式为第二编码方式。解码端可以根据该标志位的取值来确定IPD参数编码方式,从而确定对应的解码方式。
S503、根据确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
在一些可行的实施方式中,参考参数包括表示当前帧的左右声道相关性的参数,则在确定当前帧的IPD参数编码方式时,可以将表示当前帧的左右声道相关性的参数与预先定义的第一阈值进行比较,若表示当前帧的左右声道相关性的参数的值大于或等于第一阈值,则当前帧的IPD参数编码方式为第一编码方式;反之,如果表示当前帧的左右声道相关性的参数的值小于第一阈值,则当前帧的IPD参数编码方式为第二编码方式。其中,上述预先定义的第一阈值的取值范围为[0.6,0.95],例如具体可以取值为0.89,或者0.8,或者0.75等。
在一些可行的实施方式中,参考参数包括当前帧的子带IPD参数的方差,则在确定当前帧的IPD参数编码方式时,可以将当前帧的子带IPD参数的方差与预先定义的第二阈值进行比较,若表示当前帧的左右声道相关性的参数的值小于第二阈值,则当前帧的IPD参数编码方式为第一编码方式;反之,如果表示当前帧的左右声道相关性的参数的值大于或等于第二阈值,则当前帧的IPD参数编码方式为第二编码方式。其中,上述预先定义的第二阈值的取值范围为[0.05,0.5],例如具体可以取值为0.45,或者0.25,或者0.3等。
在一些可行的实施方式中,参考参数包括当前帧的信号类型。例如,在一种实施方式中,在当前帧的信号类型为语音类型时,可以确定当前帧的IPD参数编码方式为第二编码方式,在当前帧的信号类型为音乐类型时,可以确定当前帧的IPD参数编码方式为第一IPD参数编码方式。可以理解的是,在另一些实施例中,当前帧的信号类型不是确定当前帧的IPD参数编码方式的唯一参考参数,还可以结合其他参考参数进行判断。
在一些可行的实施方式中,参考参数包括当前帧的声道间时间差ITD参数,如果当前帧的ITD参数的值大于预设的阈值则确认当前帧的IPD参数编码方式为第一编码方式,否则当前帧的IPD参数编码方式为第二编码方式。在一个实施例中,该预设的阈值可以是1,2,3,4,或5。
可以理解的是,当前帧的信号特征参数可以只包括上述参数中的一种,这时候只需要这一种参数满足了对应的参数条件就可以确定当前帧的IPD参数编码方式;当然,当前帧的信号特征参数也可以包括上述参数中的至少两种,此时则需要该至少两个参数分别满足对应的参数条件才可以确定当前帧的IPD参数编码方式。
在一些可行的实施方式中,参考参数包括当前帧的前A帧中每一帧的IPD参数编码方式和当前帧的前A帧的每一帧的信号类型,则可判断上述当前帧的前A帧的每一帧的IPD参数编码方式是否为预设的IPD参数编码方式,上述当前帧的前A帧的每一帧的信号类型是否为预设的信号类型。若上述当前帧的前A帧的每一帧的IPD参数编码方式均为第一编码方式,并且上述当前帧的前A帧的每一帧的信号类型均为音乐类型,则可将当前帧的IPD参数编码方式确定为第一编码方式。
例如,当A=1时,上述当前帧的前A帧即为当前帧的前一帧。若上述当前帧的前一帧的IPD参数编码方式为第一编码方式,并且上述当前帧的前一帧的信号类型为音乐类型,则可将当前帧的IPD参数编码方式确定为第一编码方式。否则,确定当前帧的IPD参数编码方式不为第一编码方式,例如为第二编码方式。
当A=2时,上述当前帧的前A帧即为当前帧的前两帧。若上述当前帧的前两帧的IPD参数编码方式均为第一编码方式,并且上述当前帧的前两帧的信号类型均为音乐类型,则可将当前帧的IPD参数编码方式确定为第一编码方式。否则,确定当前帧的IPD参数编码方式不为第一编码方式,例如为第二编码方式。
在一些可行的实施方式中,参考参数包括当前帧的ITD参数、当前帧的子带IPD参数的方差和当前帧的前A帧的每一帧的信号类型,则可将上述当前帧的ITD参数的绝对值与预先定义的第三阈值进行比对,将上述当前帧的子带IPD参数的方差与预先定义的第四阈值进行比对,并判断上述当前帧的前A帧的每一帧的信号类型是否为语音类型。其中,上述预先定义的第三阈值的取值可以为[0,4],第三阈值可取值为4,或者2,或者0等。上述预先定义的第四阈值的取值范围可以为[0.05,0.4],第四阈值可取值为0.4,或者0.35,或者0.25,或者0.05等。若上述当前帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD参数的方差小于第四阈值,并且上述当前帧的前A帧的每一帧的信号类型均为语音类型,则可将当前帧的IPD参数编码方式确定为第一编码方式。否则,确定当前帧的IPD参数编码方式不为第一编码方式,例如为第二编码方式。
其中,若当前帧的前A帧为当前帧的前一帧,则当上述当前帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD参数的方差小于第四阈值,并且上述当前帧的前一帧的信号类型为语音类型时,可将当前帧的IPD参数编码方式确定为第一编码方式。若当前帧的前A帧为当前帧的前二帧,则当上述当前帧的ITD参数的绝对值大于第三阈值,当前帧的子带IPD参数的方差小于第四阈值,并且上述当前帧的前二帧中每一帧的信号类型均为语音类型时,可将当前帧的IPD参数编码方式确定为第一编码方式。
在一些可行的实施方式中,编码端确定当前帧的IPD参数编码方式为第一编码方式之后,则可根据第一编码方式当前帧的IPD参数进行处理。例如,若上述第一编码方式是不编码IPD参数,则不做任何操作,即,结束当前帧的IPD参数的编码对应的进程。若上述第一编码方式是Group IPD参数编码方式,则可编码当前帧的Group IPD参数,其中,当前帧的Group IPD参数作为当前帧的IPD参数。若上述第一编码方式是将IPD参数的值置为0,则可以将当前帧的IPD参数的值置为0,然后对值置为0的IPD参数进行后续处理。例如,在某些处理中需要IPD参数的值作为输入,则在将当前帧的IPD参数的值置为0后,则可以将0作为这些处理的输入。
在一些实施方式中,参考参数包括表示当前帧的左右声道相关性的参数,进一步还可以包括当前帧的前一帧的IPD参数编码方式以及该前一帧的信号类型;若表示当前帧的左右声道相关性的参数的值大于或等于第一阈值,则可以确定当前帧的IPD参数编码方式为第一编码方式;若表示当前帧的左右声道相关性的参数的值小于第一阈值,如果当前帧的前一帧的IPD参数编码方式为第一编码方式且该前一帧的信号类型为音乐信号类型时,也可以确定当前帧的IPD参数编码方式为第一编码方式;反之,如果表示当前帧的左右声道相关性的参数的值小于第一阈值,并且当前帧的前一帧的IPD参数编码方式为第二编码方式或当前帧的前一帧的信号类型为语音类型时,则确定当前帧的IPD参数编码方式为第二编码方式。
进一步地,在一种可选的实施方式中,在通过上述实施方式确定了当前帧的IPD参数编码方式后,还可以进一步根据当前帧的前A帧的IPD参数编码方式确定是否对当前帧的IPD参数编码方式进行调整。例如可以根据当前帧的前一帧,或者前二帧,或者前三帧,或者前四帧,或者前五帧的IPD参数编码方式确定是否对当前帧的IPD参数编码方式进行调整。在一种可能的实施方式中,如果当前帧的IPD参数编码方式与当前帧的IPD参数编码方式相同,则不需要对当前帧的IPD参数编码方式进行调整。如果当前帧的IPD参数编码方式当前帧的IPD参数编码方式不相同,则可以考虑对当前帧的IPD参数编码方式进行调整;例如,在包括当前帧的前一帧在内的当前帧的前二帧,或者前三帧,或者前四帧,或者前五帧采用的都是相同的IPD参数编码方式,并且包括当前帧的前一帧在内的当前帧的前二帧,或者前三帧,或者前四帧,或者前五帧采用的IPD参数编码方式与当前帧的IPD参数编码方式不相同时,则可以对当前帧的IPD参数编码方式进行调整,即将当前帧的IPD参数编码方式调整为与当前帧的IPD参数编码方式相同。对当前帧的IPD参数编码方式进行调整,可以确保当前帧的编码方式在一定程度上保持与前一帧一致,从而使编码的码流在解码时保证当前帧和前一帧能够平滑过渡,听觉感受上更好。
具体的,在一些实施方式中,在编码方式为第二编码方式时,编码端可提取当前帧的左右声道频域信号的至少一部分子带的IPD参数。其中,上述当前帧的左右声道频域信号的至少一部分子带具体可包括上述当前帧的左右声道频域信号划分得到的Nsubband个子带中的全部子带或者部分子带,在此不做限制。具体实现中,用户可根据多声道信号编码的编码速率或者编码质量等编码需求,确定编码当前帧的Group IPD参数时所使用的当前帧的左右声道频域信号的频域范围,包括当前帧的左右声道频域信号的整个频域范围的频域信号,即当前帧的左右声道频域信号的所有子带的频域信号,或者当前帧的左右声道频域信号的特定频域范围,即当前帧的左右声道频域信号中的部分帧的频域信号,上述当前帧的左右声道频域信号中的部分帧的频域信号包含在左右声道频域信号的部分子带频域信号中。
在一些可行的实施方式中,编码端可以先不提取当前帧左右声道频域信号的所有子带或部分子带的IPD参数,然后再确认当前帧的IPD参数编码方式,如果上述第一编码方式是不编码当前帧的IPD参数,则可以直接不提取当前帧左右声道频域信号的所有子带或部分子带的IPD参数。在另一些实施方式中,也可以先提取当前帧的左右声道频域信号的所有子带或部分子带中每一个子带的IPD参数,再确定当前帧的IPD参数编码方式。
在一些可行的实施方式中,若编码端确定编码当前帧的左右声道频域信号的Group IPD参数时所使用的当前帧的左右声道频域信号的频域范围为当前帧的左右声道频域信号的整个频域范围,则可提取当前帧的左右声道频域信号的所有子带(即当前帧的Nsubband个子带)中每一个子带的IPD参数,计算提取的所有子带的IPD参数的均值,进而将获取的所有子带的IPD参数的均值作为当前帧的Group IPD参数。在一种实施方式中,当前帧的Group IPD参数的计算公式如下:
Figure BDA0001338239150000181
其中,G_IPD即为当前帧的Group IPD参数,IPD(b)为第b个子带的IPD参数。
可选的,在一些可行的实施方式中,若编码端确定编码当前帧的左右声道频域信号的Group IPD参数时所使用的当前帧的左右声道频域信号的频域范围为当前帧的左右声道频域信号的特定频域范围,例如[k1,k2],即第k1个频点到第k2个频点之间的频域信号,则可提取当前帧的左右声道频域信号的部分子带(即第k1个频点到第k2个频点之间的频域信号所属的子带)中每一个子带的IPD参数,计算提取的所有子带的IPD参数的均值,进而将获取的所有子带的IPD参数的均值作为当前帧的Group IPD参数。
具体实现中,上述第k1个频点到第k2个频点之间的频域信号所属的子带的IPD参数可预先定义为每个频点的IPD参数,即,此时,可将子带的IPD参数的计算替换为每个频点的IPD参数的计算,以每个频点的IPD参数作为每个子带的IPD参数的计算来计算当前帧的Group IPD参数。其中,在预设的频域范围[k1,k2]内逐个频点计算每个频点的IPD参数的计算方式如下:
IPD(k)=∠L(k)R*(k),k1≤k≤k2
其中,∠表示求复数的角度,L(k)为左声道频域信号第k个频点值,R*(k)为右声道频域信号第k个频点值的共轭。
进一步的,可以对预设范围(多声道频域信号的多帧信号,包含当前帧和当前帧的前A帧)内的IPD(k)进行统计处理,得到Group IPD参数。
例如,若上述特定频域范围[k1,k2]为6帧的左右声道频域信号中每一帧的左右声道频域信号的选取范围,则可计算这6帧的左右声道频域信号中每一帧的(k2-k1+1)个频点的IPD参数的均值,计算公式如下:
Figure BDA0001338239150000191
进一步,可计算包含当前帧在内的连续6帧IPD参数的均值,并作为当前帧的GroupIPD参数:
Figure BDA0001338239150000192
其中,
Figure BDA0001338239150000193
为当前帧的IPD参数的均值,
Figure BDA0001338239150000194
为与当前帧紧邻的前一帧的IPD参数的均值,
Figure BDA0001338239150000195
为与当前帧的前一帧紧邻的前一帧的IPD参数的均值,其它依此类推。
在一些可行的实施方式中,第二编码方式可以为:子带集合IPD参数编码方式或子带IPD参数编码方式。例如,当当前帧的IPD参数编码方式为子带IPD参数提取方式,则提取当前帧的左右声道频域信号的所有子带或部分子带中每一个子带的IPD参数,然后采用任意一种量化方式,量化子带的IPD参数,具体量化方式不做限定。
图6描述了本发明另一个实施例提供的IPD参数的编码方法的流程,该实施例中以参考参数包括当前帧的表示当前帧的左右声道相关性的参数,当前帧的前一帧的IPD参数编码方式以及当前帧的前一帧的信号类型,第一阈值的取值为0.75,A的取值为1为例进行描述。如图6所示,该实施例包括:
S601、获取表示当前帧的左右声道相关性的参数。
其中,表示当前帧的左右声道相关性的参数的具体获取方式可以参考前面的描述,此处不再赘述。
S602、判断表示当前帧的左右声道相关性的参数的值是否大于或等于0.75;如果否,进入步骤S603,如果否,进入步骤S607。
S603、获取当前帧的前一帧的IPD参数编码方式。
当前帧的前一帧的IPD参数编码方式可以存储在缓存中,该前一帧的IPD参数编码方式可以为不编码IPD参数,或者为编码左右声道频域信号的所有子带或部分子带的子带IPD参数。
S604、判断当前帧的前一帧的IPD参数编码方式是否为不编码IPD参数;如果是,进入步骤S605,如果否,进入步骤S608。
S605、获取当前帧的前一帧的信号类型。
当前帧的前一帧的信号类型可以存储在缓存中,该前一帧的信号类型可以是音乐信号类型或语音信号类型。
S606、判断当前帧的前一帧的信号类型是否为音乐信号类型;如果是,进入步骤S607,如果否,进入步骤S608。
S607、不编码当前帧的IPD参数,即确定当前帧的IPD参数编码方式为不编码IPD参数。结束当前帧的处理流程。
S608,编码当前帧的左右声道频域信号的所有子带或部分子带的子带IPD参数。其中,子带和子带IPD参数是一一对应的,即每一个子带都会有对应的子带IPD参数。
其中,子带IPD参数的具体获取过程如前所述,此处不再赘述。
在编码当前帧的左右声道频域信号的部分子带的子带IPD参数时,具体编码哪一部分子带的子带IPD参数可以根据需要进行设定。例如,假设一共有a个子带,并且这a个子带的频率值从第0个子带至第a-1个子带逐渐增加。在一个实施例中,可以仅编码第0个子带至第a-3个子带的子带IPD参数,即不编码频率最高和频率次高的两个子带的子带IPD参数;在另一个实施例中,可以仅编码第2个子带至第a-1个子带的子带IPD参数,即不编码频率最低和频率次低的两个子带的子带IPD参数。当然,也可以不编码其中的任意两个子带的子带IPD参数。可以理解的是,在一些实施例中,子带IPD参数的被编码的子带的数量可以根据具体需要进行设定,例如可以编码a个子带中的a-1个子带的子带IPD参数,也可以编码a个子带中的a-2个子带的子带IPD参数,也可以编码a个子带中的a-3个子带的子带IPD参数,也可以编码a个子带中的a-4个子带的子带IPD参数。
其中,可以理解的是,图6中获取步骤S601,S603,和S605在执行顺序上没有任何限定,任意一个在前都可以,也可以同时进行;同理,判断步骤S602,S604和S606在执行顺序上也没有任何限定,任意一个在前都可以,也可以同时进行。
图7描述了本发明另一个实施例提供的IPD参数的编码方法的流程,该实施例包括:
S701、获取用于确定多声道信号的当前帧的IPD参数编码方式的参考参数。
其中参考参数具体是什么参数以及参考参数的具体获取参数可以参考前面实施例的描述,此处不再赘述。
S702、根据获取的参数确定当前帧的IPD参数编码方式。
当前帧的IPD参数编码方式可以参考前面实施例的描述,此处不再赘述。
S703、确定当前帧的IPD参数编码方式是否与当前帧的前一帧的IPD参数编码方式相同;如果相同,进入步骤S704;如果否,进入步骤S705。
S704、将预设的计数器的值设为0;进入步骤S707。
即不需要调整当前帧的IPD参数编码方式。
S705、判断预设的计数器的值是否小于5;如果是,进入步骤S706;如果否,进入步骤S707。
S706、调整当前帧的IPD参数编码方式,并将预设的计数器的值增加1。进入步骤S708。
其中,在当前帧的IPD参数编码方式为第一编码方式时,则将当前帧的IPD参数编码方式调整为第二编码方式,例如在当前帧的IPD参数编码方式为不编码IPD参数时,则将当前帧的IPD参数编码方式调整为编码当前帧的左右声道频域信号的所有子带或部分子带的子带IPD参数。或者,在当前帧的IPD参数编码方式为第二编码方式时,则将当前帧的IPD参数编码方式调整为第一编码方式,例如在当前帧的IPD参数编码方式为编码左右声道频域信号的所有子带或部分子带的子带IPD参数时,则将当前帧的IPD参数编码方式调整为不编码IPD参数。
S707、使用确定的当前帧的IPD参数编码方式对当前帧的IPD参数进行处理。结束流程。
S708、使用调整后的当前帧的IPD参数编码方式对当前帧的IPD参数进行处理。
在本发明的另一个实施方式中,在确定是否对当前帧的IPD参数编码方式进行调整时,可以利用两个计数器,具体的处理方式如下:
在当前帧和当前帧的前一帧的IPD参数编码方式均为第一编码方式时,将第一计数器的值设为0;如果当前帧的前一帧的IPD参数编码方式为第一编码方式,当前帧的IPD参数编码方式为第二编码方式,并且第一计数器的值小于5,则将当前帧的IPD参数编码方式调整为第一编码方式,并将第一计数器的值增加1;其中第一编码方式可以为不编码IPD参数,第二编码方式可以为编码左右声道频域信号的所有子带或部分子带的子带IPD参数。
在当前帧和当前帧的前一帧的IPD参数编码方式均为第二编码方式时,将第二计数器的值设为0;如果当前帧的前一帧的IPD参数编码方式为第二编码方式,当前帧的IPD参数编码方式为第一编码方式,并且第二计数器的值小于5,则将当前帧的IPD参数编码方式调整为第二编码方式,并将第二计数器的值增加1;其中第一编码方式可以为不编码IPD参数,第二编码方式可以为编码左右声道频域信号的所有子带或部分子带的子带IPD参数。
其中,可以理解的是,如果当前帧的IPD参数编码方式被调整了,那么在缓存当前帧的IPD参数编码方式时缓存的是调整后的,也就是说,在当前帧的下一帧做IPD参数编码方式的判决时,可以参考当前帧的调整后的IPD参数编码方式。
参加图8,是本发明实施例提供的IPD参数的编码装置800的实施例结构示意图,包括:
获取单元801,用于获取参考参数,该参考参数用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式。
其中,参考参数具体是什么参数,以及参考参数的具体获取过程可以参考方法实施例部分的描述,此处不再赘述。
确定单元802,用于根据获取单元801获取的参考参数确定当前帧的IPD参数编码方式,该确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种。
其中,当前帧的IPD参数编码方式的确定具体可以参考方法实施例部分的描述,以及预设的至少两种IPD参数编码方式具体是什么编码方式也参考方法实施例部分的描述,此处不再赘述。
处理单元803,用于根据确定单元802确定的当前帧的IPD参数编码方式对当前帧的IPD参数进行处理。
具体的处理过程可以参考方法实施例部分的描述,此处不再赘述。
在本发明的另一个实施例中,确定单元802还可以用于确定是否需要对确定的当前帧的IPD参数编码方式进行调整;此时,如图8所示,IPD参数的编码装置800还可以包括:调整单元804,用于在确定单元802确定需要对确定的当前帧的IPD参数编码方式进行调整时,对确定的当前帧的IPD参数编码方式进行调整;相应地,处理单元803,具体用于根据调整后的当前帧的IPD参数编码方式对当前帧的IPD参数进行处理。其中,如何确定是否需要对确定的当前帧的IPD参数编码方式进行调整,以及如何对当前帧的IPD参数编码方式进行调整可以参考方法实施例的描述,此处不再赘述。
如图8所示,在本发明的另一个实施例中,IPD参数的编码装置800还可以包括:编码单元805,用于对确定单元802确定的当前帧的IPD参数编码方式进行编码。例如,可以设置编码方式标志位,该标志位占用一个比特,从而能够指示当前帧的IPD参数编码方式是第一编码方式还是第二编码方式,使得解码端能够根据该编码方式标志位确定当前帧的IPD参数编码方式,从而采用对应的解码方式进行解码。其中,可以理解的是,在某些实施方式中,编码单元805和处理单元803可以是同一个逻辑单元。
图9描述了本发明另一个实施例提供的终端的结构,该终端可以是可穿戴设备,VR设备,AR设备,手机,PAD,Notebook,或PC等等。如图9所示,本发明实施例提供的终端包括了网络接口910(如图9中虚线框所示),网络接口910用于发送和接收数据,例如,在终端作为编码端时,发送的数据包括终端编码的多声道信号(承载在码流中),在编码了IPD参数时,发送的数据还包括了IPD参数(也承载在码流中,可以作为多声道信号的一部分);在终端作为解码端时,接收的数据包括了承载有多声道信号的码流,在编码端编码了IPD参数时,接收的数据还可以包括IPD参数。其中,网络接口910的具体形态可以是多种多样的,具体根据终端的具体形态以及应用场景的不同会有不同。图9给出了三种示例,第一种是由射频收发器(RF Transceiver)901和调制解调器(Modem)902组成的蜂窝网络接入模块,用于接入移动运营商提供的移动通信网络,如2G(2nd Generation),3G(3rd Generation),4G(4thGeneration),即长期演进(LTE:Long Term Evolution)网络,以及未来的5G(5thGeneration)或6G(6th Generation)网络等等;第二种是无线保真(WiFi:WirelessFidelity)模块903,用于接入接入点(AP:Access Point)以接入网络;第三种是以太网网卡904,可以通过双绞线或者光纤接入网络。需要说明的是,终端并不需要同时包括如上所述的三种网络接口,可以只包括如上三种网络接口终端中的至少一种使得终端能够接入网络即可;同时,终端所包括的网络接口也可以不是上述三种之一,例如还可以是蓝牙接口或Modem等等。因此本发明实施例并不会对网络接口910的具体形态进行限定,只要终端能够通过网络接口910接入网络就不会影响本发明实施例的实现。
如图9所示,终端还可以包括麦克风905,用于采集多声道信号。其中麦克风905可以是内置了模数转换器的,因此麦克风可以将采集的模拟信号形式的多声道信号转换成数字信号形式的多声道信号。当然,麦克风905也可以不内置模数转换器,则此时终端还需要包括模数转换器,以用于对麦克风905采集的模拟信号形式的多声道信号进行模数转化,获得数字信号形式的多声道信号。其中麦克风905的数量可以是一个,两个,三个,或者更多,本发明实施例不对麦克风905的具体数量做限定。可以理解的是,终端也可以使用外置麦克风来采集多声道信号,此时终端需要包括外置麦克风的适配接口,以便于外置麦克风的插入,从而实现终端与外置麦克风的数据交互。
如图9所示,终端还可以包括扬声器906,用于播放终端解码得到的多声道信号。其中,如果终端接收的包括多声道信号的码流包括了IPD参数,则该解码过程可以是基于该IPD参数进行的。其中,扬声器906可以是内置了数模转换器的,也就是说终端可以将数字信号形式的多声道信号发送给扬声器906,由扬声器906对数字信号形式的多声道信号进行模数转换,从而转换成模拟信号形式的多声道信号并进行播放;当然,扬声器906也可以没有内置数模转换器,此时终端需要包括模数转换器以将数字信号形式的多声道信号转换为模拟信号形式的多声道信号,并将模拟信号形式的多声道信号发送至扬声器906进行播放。其中扬声器906的数量可以是一个,两个,三个,或者更多,本发明实施例不对扬声器906的数量做限定。可以理解的是,终端也可以使用外置扬声器来播放多声道信号,此时终端需要包括外置扬声器的适配接口,以便于外置扬声器的插入,从而实现与外置扬声器的数据交互。
如图9所示,终端还包括了处理器908和存储器909,存储器909用于存储处理器可执行的代码,所述处理器908用于执行存储器909存储的代码,从而实现上述方法实施例所描述的方法。
如图9所示,终端还包括了总线907,上述的网络接口910,麦克风905,扬声器906,处理器908以及存储器909这些器件之间的数据交互都可以通过总线907进行。可以理解的是,图9仅仅是示例性的描述了终端的结构,其中的一些连接关系做了简化,实际应用中,网络接口910,麦克风905,或扬声器906等器件可能并不是直接与总线907连接,即网络接口910,麦克风905,或扬声器906等器件与总线907之间的数据交互可能还需要经过其他器件。
在一些实施方式中,上述的处理器908和存储器909也可以有数据交互接口,处理器908和存储器909之间的数据交互可以直接通过该数据交互接口进行,而不需要经过总线907,从而提高处理器908和存储器909之间的数据交互效率。
在一些实施方式中,处理器908和存储器909可以是指的数字信号处理器(DSP:Digital Signal Processor)中的处理器和存储器,即处理器908和存储器909均被封装在DSP中,此时处理器908和存储器909可以通过DSP内部的数据交互接口进行。同时,由于处理器908和存储器909均被封装在DSP中,则处理器908和存储器909可以共用DSP与总线907之间的数据交互接口与其他器件进行数据交互。
本发明实施例还提供了一种计算机程序,该计算机程序在执行时可以执行上述任一方法实施例的流程。
本发明实施例还听了一种存储介质,该存储介质存储有可执行代码,该可执行代码被执行时可以执行上述任一方法实施例的流程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
本发明的说明书、权利要求书以及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或者单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或者单元,或可选地还包括对于这些过程、方法、系统、产品或设备固有的其他步骤或单元。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (28)

1.一种声道间相位差参数的编码方法,其特征在于,包括:
获取用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式的参考参数,所述参考参数包括所述当前帧的信号特性参数,所述当前帧的信号特性参数包括所述当前帧的信号类型;
根据所述参考参数确定当前帧的IPD参数编码方式,所述确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种;
根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
2.如权利要求1所述的方法,其特征在于,所述当前帧的信号特性参数还包括表示所述当前帧的左右声道相关性的参数、所述当前帧的子带IPD参数的方差、以及所述当前帧的声道间时间差ITD参数中的至少一种。
3.如权利要求1或2所述的方法,其特征在于,所述参考参数还包括所述当前帧的前A帧的信号特性参数,其中,所述A为不小于1的整数;
所述当前帧的前A帧的信号特性参数包括所述前A帧中每一帧的表示左右声道相关性的参数、所述前A帧中每一帧的子带IPD参数的方差、所述前A帧中每一帧的ITD参数、所述前A帧中每一帧的IPD参数编码方式以及所述前A帧中每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音类型或者音乐类型。
4.如权利要求2所述的方法,其特征在于,所述参考参数包括表示所述当前帧的左右声道相关性的参数;
若表示所述当前帧的左右声道相关性的参数的值大于或等于第一阈值,所述当前帧的IPD参数编码方式为所述至少两种IPD参数编码方式中的第一编码方式。
5.如权利要求4所述的方法,其特征在于,所述第一阈值为0.75。
6.如权利要求3所述的方法,其特征在于,所述参考参数包括所述前A帧的每一帧的IPD参数编码方式和所述前A帧的每一帧的信号类型;
若所述前A帧的每一帧的IPD参数编码方式均为所述至少两种IPD参数编码方式中的第一编码方式,并且所述前A帧的每一帧的信号类型均为音乐类型,所述当前帧的IPD参数编码方式为所述第一编码方式。
7.如权利要求6所述的方法,其特征在于,所述A的取值为1。
8.如权利要求4至7任一项所述的方法,其特征在于,所述第一编码方式包括如下方式中的任一:
全局声道间相位差Group IPD参数编码方式;或者,
不编码IPD参数;或者,
将IPD参数的值设置为0。
9.如权利要求4至7任一项所述的方法,其特征在于,若所述当前帧的IPD参数编码方式不为第一编码方式,则所述当前帧的IPD参数编码方式为第二编码方式;
其中,所述第二编码方式包括:子带集合IPD参数编码方式或者子带IPD参数编码方式,其中,所述子带IPD参数编码方式是编码所述当前帧的部分或全部子带的子带IPD参数。
10.如权利要求9所述的方法,其特征在于,所述第二编码方式为子带IPD参数编码方式;
所述根据所述确定的当前帧的IPD参数编码方式编码对所述当前帧的IPD参数进行处理包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数;
对所述计算获得的各个子带或部分子带的IPD参数进行编码。
11.如权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述确定的当前帧的IPD参数编码方式进行编码。
12.如权利要求1或2所述的方法,其特征在于,所述根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理前还包括:
确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整;
在确定需要对所述确定的当前帧的IPD参数编码方式进行调整时,对所述确定的当前帧的IPD参数编码方式进行调整;
所述根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理包括:
根据所述调整后的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
13.如权利要求12所述的方法,其特征在于,所述确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整是基于所述当前帧的前A帧的IPD参数编码方式进行的。
14.如权利要求2所述的方法,其特征在于,所述表示所述当前帧的左右声道相关性的参数通过如下计算式获得:
Figure FDA0002658574690000021
其中,
Figure FDA0002658574690000022
Figure FDA0002658574690000023
Figure FDA0002658574690000024
Figure FDA0002658574690000025
Figure FDA0002658574690000026
Figure FDA0002658574690000031
El(b)为左声道能量和,Er(b)是右声道能量和,Lr(k)为左声道频域信号的第k个频点值的实部,Rr(k)为右声道频域信号的第k个频点值的实部,Li(k)为左声道频域信号的第k个频点值的虚部,Ri(k)为右声道频域信号的第k个频点值的虚部;L为子带频谱系数的数量;N为子带数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,L(k)为用于计算IPD参数的左声道频域信号的第k个频点值,R(k)为用于计算IPD参数的右声道频域信号的第k个频点值;其中,xL(n)和xR(n)为实数序列,所述b为子带的索引值。
15.一种声道间相位差参数的编码装置,其特征在于,包括:
获取单元,用于获取参考参数,所述参考参数用于确定多声道信号的当前帧的声道间相位差IPD参数编码方式,所述参考参数包括所述当前帧的信号特性参数,所述当前帧的信号特性参数包括所述当前帧的信号类型;
确定单元,用于根据所述参考参数确定当前帧的IPD参数编码方式,所述确定的当前帧的IPD参数编码方式为预设的至少两种IPD参数编码方式中的一种;
处理单元,用于根据所述确定的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
16.如权利要求15所述的装置,其特征在于,所述当前帧的信号特性参数还包括表示所述当前帧的左右声道相关性的参数、所述当前帧的子带IPD参数的方差、以及所述当前帧的声道间时间差ITD参数中的至少一种。
17.如权利要求15或16所述的装置,其特征在于,所述参考参数还包括所述当前帧的前A帧的信号特性参数,其中,所述A为不小于1的整数;
所述当前帧的前A帧的信号特性参数包括所述前A帧中每一帧的表示左右声道相关性的参数、所述前A帧中每一帧的子带IPD参数的方差、所述前A帧中每一帧的ITD参数、所述前A帧中每一帧的IPD参数编码方式以及所述前A帧中每一帧的信号类型中的至少一种;
其中,所述信号类型包括语音类型或者音乐类型。
18.如权利要求16所述的装置,其特征在于,所述参考参数包括表示所述当前帧的左右声道相关性的参数;
若表示所述当前帧的左右声道相关性的参数的值大于或等于第一阈值,所述当前帧的IPD参数编码方式为所述至少两种IPD参数编码方式中的第一编码方式。
19.如权利要求18所述的装置,其特征在于,所述第一阈值为0.75。
20.如权利要求17所述的装置,其特征在于,所述参考参数包括所述前A帧的每一帧的IPD参数编码方式和所述前A帧的每一帧的信号类型;
若所述前A帧的每一帧的IPD参数编码方式均为所述至少两种IPD参数编码方式中的第一编码方式,并且所述前A帧的每一帧的信号类型均为音乐类型,所述当前帧的IPD参数编码方式为所述第一编码方式。
21.如权利要求20所述的装置,其特征在于,所述A的值为1。
22.如权利要求18至21任一项所述的装置,其特征在于,所述第一编码方式包括如下方式中的任一:
全局声道间相位差Group IPD参数编码方式;或者,
不编码IPD参数;或者,
将IPD参数的值设置为0。
23.如权利要求18至21任一项所述的装置,其特征在于,若所述当前帧的IPD参数编码方式不为第一编码方式,
则所述当前帧的IPD参数编码方式为第二编码方式;
其中,所述第二编码方式包括:子带集合IPD参数编码方式或者子带IPD参数编码方式,其中,所述子带IPD参数编码方式是编码所述当前帧的部分或全部子带的子带IPD参数。
24.如权利要求23所述的装置,其特征在于,所述第二编码方式为子带IPD参数编码方式;
所述根据所述确定的当前帧的IPD参数编码方式编码对所述当前帧的IPD参数进行处理包括:
计算所述当前帧的左右声道频域信号的各个子带或部分子带的IPD参数;
对所述计算获得的各个子带或部分子带的IPD参数进行编码。
25.如权利要求15或16所述的装置,其特征在于,所述处理单元还用于:
对所述确定的当前帧的IPD参数编码方式进行编码。
26.如权利要求15或16任一所述的装置,其特征在于,所述确定单元,还用于确定是否需要对所述确定单元确定的当前帧的IPD参数编码方式进行调整;
所述装置还包括:
调整单元,用于在所述确定单元确定需要对所述确定的当前帧的IPD参数编码方式进行调整时,对所述确定的当前帧的IPD参数编码方式进行调整;
所述处理单元,还用于根据所述调整后的当前帧的IPD参数编码方式对所述当前帧的IPD参数进行处理。
27.如权利要求26所述的装置,其特征在于,所述确定是否需要对所述确定的当前帧的IPD参数编码方式进行调整是基于所述当前帧的前A帧的IPD参数编码方式进行的。
28.如权利要求16所述的装置,其特征在于,所述获取单元,具体用于通过如下计算式获得所述表示所述当前帧的左右声道相关性的参数:
Figure FDA0002658574690000041
其中,
Figure FDA0002658574690000042
Figure FDA0002658574690000051
Figure FDA0002658574690000052
Figure FDA0002658574690000053
Figure FDA0002658574690000054
Figure FDA0002658574690000055
其中,El(b)为左声道能量和,Er(b)是右声道能量和,Lr(k)为左声道频域信号的第k个频点值的实部,Rr(k)为右声道频域信号的第k个频点值的实部,Li(k)为左声道频域信号的第k个频点值的虚部,Ri(k)为右声道频域信号的第k个频点值的虚部;L为子带频谱系数的数量;N为子带数量;n为时域信号索引值,k为频域信号索引值;Length为帧长;xL(n)为左声道时域信号,xR(n)为右声道时域信号,L(k)为用于计算IPD参数的左声道频域信号的第k个频点值,R(k)为用于计算IPD参数的右声道频域信号的第k个频点值;其中,xL(n)和xR(n)为实数序列,所述b为子带的索引值。
CN201710524352.0A 2017-06-30 2017-06-30 一种声道间相位差参数的编码方法及装置 Active CN109215668B (zh)

Priority Applications (19)

Application Number Priority Date Filing Date Title
CN201710524352.0A CN109215668B (zh) 2017-06-30 2017-06-30 一种声道间相位差参数的编码方法及装置
BR112019028256-4A BR112019028256A2 (pt) 2017-06-30 2018-05-05 método e aparelho de codificação de parâmetro de diferença de fase entre canais
KR1020217028047A KR102425236B1 (ko) 2017-06-30 2018-05-05 채널-간 위상 차이 파라미터 코딩 방법 및 디바이스
SG11201913610VA SG11201913610VA (en) 2017-06-30 2018-05-05 Inter-channel phase difference parameter encoding method and apparatus
RU2020103799A RU2769789C2 (ru) 2017-06-30 2018-05-05 Способ и устройство кодирования параметра межканальной разности фаз
EP24156328.7A EP4390920A3 (en) 2017-06-30 2018-05-05 Inter-channel phase difference parameter encoding method and apparatus
EP18823145.0A EP3637415B1 (en) 2017-06-30 2018-05-05 Inter-channel phase difference parameter coding method and device
PCT/CN2018/085756 WO2019001142A1 (zh) 2017-06-30 2018-05-05 一种声道间相位差参数的编码方法及装置
KR1020247027520A KR20240130819A (ko) 2017-06-30 2018-05-05 채널-간 위상 차이 파라미터 인코딩 방법 및 장치
KR1020227025384A KR102554892B1 (ko) 2017-06-30 2018-05-05 채널-간 위상 차이 파라미터 코딩 방법 및 디바이스
JP2019572587A JP7080262B2 (ja) 2017-06-30 2018-05-05 チャネル間位相差パラメータ符号化方法および装置
ES18823145T ES2979342T3 (es) 2017-06-30 2018-05-05 Método y dispositivo de codificación de parámetros de diferencia de fase entre canales
KR1020207001994A KR102299916B1 (ko) 2017-06-30 2018-05-05 채널-간 위상 차이 파라미터 코딩 방법 및 디바이스
KR1020237023244A KR102697288B1 (ko) 2017-06-30 2018-05-05 채널-간 위상 차이 파라미터 인코딩 방법 및 장치
US16/723,449 US11031021B2 (en) 2017-06-30 2019-12-20 Inter-channel phase difference parameter encoding method and apparatus
US17/319,353 US11568882B2 (en) 2017-06-30 2021-05-13 Inter-channel phase difference parameter encoding method and apparatus
JP2022044026A JP7439152B2 (ja) 2017-06-30 2022-03-18 チャネル間位相差パラメータ符号化方法および装置
US18/069,573 US12067993B2 (en) 2017-06-30 2022-12-21 Inter-channel phase difference parameter encoding method and apparatus
JP2024020494A JP2024059711A (ja) 2017-06-30 2024-02-14 チャネル間位相差パラメータ符号化方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710524352.0A CN109215668B (zh) 2017-06-30 2017-06-30 一种声道间相位差参数的编码方法及装置

Publications (2)

Publication Number Publication Date
CN109215668A CN109215668A (zh) 2019-01-15
CN109215668B true CN109215668B (zh) 2021-01-05

Family

ID=64741065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710524352.0A Active CN109215668B (zh) 2017-06-30 2017-06-30 一种声道间相位差参数的编码方法及装置

Country Status (10)

Country Link
US (3) US11031021B2 (zh)
EP (2) EP3637415B1 (zh)
JP (3) JP7080262B2 (zh)
KR (5) KR102697288B1 (zh)
CN (1) CN109215668B (zh)
BR (1) BR112019028256A2 (zh)
ES (1) ES2979342T3 (zh)
RU (1) RU2769789C2 (zh)
SG (1) SG11201913610VA (zh)
WO (1) WO2019001142A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置
US12100403B2 (en) * 2020-03-09 2024-09-24 Nippon Telegraph And Telephone Corporation Sound signal downmixing method, sound signal coding method, sound signal downmixing apparatus, sound signal coding apparatus, program and recording medium
CN115881140A (zh) * 2021-09-29 2023-03-31 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序产品
CN114365509B (zh) * 2021-12-03 2024-03-01 北京小米移动软件有限公司 一种立体声音频信号处理方法及设备/存储介质/装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2169664A2 (en) * 2008-09-25 2010-03-31 LG Electronics Inc. A method and an apparatus for processing a signal
CN102165519A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN104681029A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 立体声相位参数的编码方法及装置
CN107452387A (zh) * 2016-05-31 2017-12-08 华为技术有限公司 一种声道间相位差参数的提取方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE527670C2 (sv) * 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
US9112591B2 (en) * 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
JP2015517121A (ja) * 2012-04-05 2015-06-18 ホアウェイ・テクノロジーズ・カンパニー・リミテッド インターチャネル差分推定方法及び空間オーディオ符号化装置
JP6063555B2 (ja) * 2012-04-05 2017-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
EP2834814B1 (en) * 2012-04-05 2016-03-02 Huawei Technologies Co., Ltd. Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder
US9536540B2 (en) * 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US10217467B2 (en) 2016-06-20 2019-02-26 Qualcomm Incorporated Encoding and decoding of interchannel phase differences between audio signals
CN109215668B (zh) * 2017-06-30 2021-01-05 华为技术有限公司 一种声道间相位差参数的编码方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2169664A2 (en) * 2008-09-25 2010-03-31 LG Electronics Inc. A method and an apparatus for processing a signal
CN102165519A (zh) * 2008-09-25 2011-08-24 Lg电子株式会社 处理信号的方法和装置
CN104246873A (zh) * 2012-02-17 2014-12-24 华为技术有限公司 用于编码多声道音频信号的参数编码器
CN104681029A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 立体声相位参数的编码方法及装置
CN107452387A (zh) * 2016-05-31 2017-12-08 华为技术有限公司 一种声道间相位差参数的提取方法及装置

Also Published As

Publication number Publication date
EP4390920A3 (en) 2024-09-04
US20230131892A1 (en) 2023-04-27
KR102299916B1 (ko) 2021-09-09
KR102554892B1 (ko) 2023-07-12
US20210264926A1 (en) 2021-08-26
EP3637415A1 (en) 2020-04-15
CN109215668A (zh) 2019-01-15
KR20200019987A (ko) 2020-02-25
BR112019028256A2 (pt) 2020-08-04
JP7080262B2 (ja) 2022-06-03
JP2020525847A (ja) 2020-08-27
KR102697288B1 (ko) 2024-08-22
KR20220109475A (ko) 2022-08-04
RU2020103799A (ru) 2021-07-30
EP4390920A2 (en) 2024-06-26
JP2024059711A (ja) 2024-05-01
KR102425236B1 (ko) 2022-07-27
KR20240130819A (ko) 2024-08-29
KR20230107909A (ko) 2023-07-18
RU2769789C2 (ru) 2022-04-06
EP3637415B1 (en) 2024-04-03
WO2019001142A1 (zh) 2019-01-03
SG11201913610VA (en) 2020-01-30
US11031021B2 (en) 2021-06-08
JP2022087124A (ja) 2022-06-09
JP7439152B2 (ja) 2024-02-27
RU2020103799A3 (zh) 2021-07-30
US11568882B2 (en) 2023-01-31
ES2979342T3 (es) 2024-09-25
US12067993B2 (en) 2024-08-20
US20200126571A1 (en) 2020-04-23
KR20210110757A (ko) 2021-09-08
EP3637415A4 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
US12067993B2 (en) Inter-channel phase difference parameter encoding method and apparatus
EP3874492A1 (en) Determination of spatial audio parameter encoding and associated decoding
EP4246510A1 (en) Audio encoding and decoding method and apparatus
JP7159351B2 (ja) ダウンミックスされた信号の計算方法及び装置
CN113593586A (zh) 音频信号编码方法、解码方法、编码设备以及解码设备
US20190096411A1 (en) Inter-Channel Phase Difference Parameter Extraction Method and Apparatus
EP3844748A1 (en) Spatial parameter signalling
CN116762127A (zh) 量化空间音频参数
US20240355342A1 (en) Inter-channel phase difference parameter encoding method and apparatus
CN115346537A (zh) 一种音频编码、解码方法及装置
CA3208666A1 (en) Transforming spatial audio parameters

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant