CN109300480A - 立体声信号的编解码方法和编解码装置 - Google Patents

立体声信号的编解码方法和编解码装置 Download PDF

Info

Publication number
CN109300480A
CN109300480A CN201710614326.7A CN201710614326A CN109300480A CN 109300480 A CN109300480 A CN 109300480A CN 201710614326 A CN201710614326 A CN 201710614326A CN 109300480 A CN109300480 A CN 109300480A
Authority
CN
China
Prior art keywords
present frame
channel
inter
signal
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710614326.7A
Other languages
English (en)
Other versions
CN109300480B (zh
Inventor
艾雅·苏谟特
李海婷
王宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201710614326.7A priority Critical patent/CN109300480B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to ES18839134T priority patent/ES2945723T3/es
Priority to EP18839134.6A priority patent/EP3648101B1/en
Priority to EP23164063.2A priority patent/EP4258697A3/en
Priority to BR112020001633-0A priority patent/BR112020001633A2/pt
Priority to KR1020207004835A priority patent/KR102288111B1/ko
Priority to PCT/CN2018/096973 priority patent/WO2019020045A1/zh
Publication of CN109300480A publication Critical patent/CN109300480A/zh
Priority to US16/751,954 priority patent/US11238875B2/en
Application granted granted Critical
Publication of CN109300480B publication Critical patent/CN109300480B/zh
Priority to US17/555,083 priority patent/US11741974B2/en
Priority to US18/350,969 priority patent/US20230352034A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

本申请提供了一种立体声信号的编解码方法和编解码装置。该立体声信号的编码方法包括:确定当前帧的声道间时间差;根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理;根据当前帧的声道间时间差,对当前帧的立体声信号进行时延对齐处理,得到当前帧的时延对齐处理后的立体声信号;对当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到当前帧的主要声道信号和次要声道信号;对当前帧的内插处理后的声道间时间差进行量化编码,写入码流;对当前帧的主要声道信号和次要声道信号量化编码,写入码流。本申请能够降低最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差。

Description

立体声信号的编解码方法和编解码装置
技术领域
本申请涉及音频信号编解码技术领域,并且更具体地,涉及一种立体声信号的编解码方法和编解码装置。
背景技术
在对立体声信号进行编码时,可以采用参数立体声编解码技术、时域立体声编解码技术等。其中,采用时域立体声编解码技术对立体声信号进行编解码的大致过程如下:
编码过程:
对立体声信号进行声道间时间差估计;
根据声道间时间差对立体声信号进行时延对齐处理;
根据时域下混处理的参数,对时延对齐处理后的信号进行时域下混处理,得到主要声道信号和次要声道信号;
对声道间时间差、时域下混处理的参数、主要声道信号和次要声道信号进行编码,得到编码码流。
解码过程:
解码码流,获取主要声道信号、次要声道信号、时域下混处理的参数以及声道间时间差;
根据时域下混处理的参数,对主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号;
根据声道间时间差对时域上混处理后的左声道重建信号和右声道重建信号进行时延调整,得到解码后的立体声信号。
上述时域立体声编码技术在对立体声信号进行编解码的过程中,虽然考虑了声道间时间差,但是由于对主要声道信号和次要声道信号进行编解码存在编解码时延,使得最终解码端输出的立体声信号的声道间时间差与原始的立体声信号的声道间时间差之间仍然存在一定的偏差,影响解码输出的立体声信号的立体声声像。
发明内容
本申请提供一种立体声信号的编解码方法和编解码装置,能够降低解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差。
第一方面,提供了一种立体声信号的编码方法,该方法包括:确定当前帧的声道间时间差;根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;根据所述当前帧的声道间时间差,对所述当前帧的立体声信号进行时延对齐处理,得到所述当前帧的时延对齐处理后的立体声信号;对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到所述当前帧的主要声道信号和次要声道信号;对所述当前帧的内插处理后的声道间时间差进行量化编码,写入码流;对当前帧的主要声道信号和次要声道信号量化编码,写入所述码流。
通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,并将当前帧的内插处理后的声道间时间差编码后写入码流,使得解码端由接收到的码流解码得到的当前帧的声道间时间差能够与当前帧的主要声道信号和次要声道信号的码流相匹配,从而使得解码端能够根据与当前帧的主要声道信号和次要声道信号的码流相匹配的当前帧的声道间时间差进行解码,能够减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像的准确性。
具体地,由于编码端在对下混处理后的主要声道信号和次要声道信号进行编码时,以及解码端根据码流解码得到主要声道信号和次要声道信号时存在编解码时延。而编码端在对声道间时间差进行编码时,以及解码端根据码流解码得到声道间时间差时却不存在同样的编解码时延而音频编解码器又是按帧处理的,因此,解码端根据当前帧的码流解码得到的当前帧的主要声道信号和次要声道信号与根据当前帧的码流解码得到的当前帧的声道间时间差具有一定时延。而这时如果解码端仍然采用当前帧的声道间时间差对根据码流解码得到的当前帧的主要声道信号和次要声道信号进行后续时域上混处理后得到的当前帧的左声道重建信号和右声道重建信号进行时延调整的话就会使得最终的得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差有较大的偏差。而编码端通过内插处理对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行调整后得到的当前帧内插处理后的声道间时间差,并将内插处理后的声道间时间差编码与当前帧编码后的主要声道信号和次要声道信号的码流一起传给解码端,就使解码端根据码流解码得到的当前帧的声道间时间差能够与解码端得到的当前帧的左声道重建信号和右声道重建信号相匹配,从而通过时延调整使得最终得到的立体声信号的声道间时间差与原始的立体声信号的声道间时间差之间的偏差更小。
结合第一方面,在第一方面的某些实现方式中,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
通过公式A=α·B+(1-α)·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与当前解码得到的声道间时间差尽可能的匹配。
结合第一方面,在第一方面的某些实现方式中,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
结合第一方面,在第一方面的某些实现方式中,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
结合第一方面,在第一方面的某些实现方式中,所述第一内插系数α是预先存储的。
通过预先存储第一内插系数α,能够减少编码过程的计算复杂度,提高编码效率。
结合第一方面,在第一方面的某些实现方式中,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
通过公式A=(1-β)·B+β·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与当前解码得到的声道间时间差尽可能的匹配。
结合第一方面,在第一方面的某些实现方式中,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
结合第一方面,在第一方面的某些实现方式中,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
结合第一方面,在第一方面的某些实现方式中,所述第二内插系数β是预先存储的。
通过预先存储第二内插系数β,能够减少编码过程的计算复杂度,提高编码效率。
第二方面,提供了一种多声道信号的编码方法,该方法包括:根据码流解码得到当前帧的主要声道信号和次要声道信号以及当前帧的声道间时间差;对所述当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号;根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;根据所述当前帧的内插处理后的声道间时间差对所述左声道重建信号和右声道重建信号进行时延调整。
通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得当前帧的内插处理后的声道间时间差能够与解码得到的当前帧的主要声道信号和次要声道信号相匹配,能够减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像的准确性。
结合第二方面,在第二方面的某些实现方式中,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
通过公式A=α·B+(1-α)·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与当前解码得到的声道间时间差尽可能的匹配。
结合第二方面,在第二方面的某些实现方式中,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
结合第二方面,在第二方面的某些实现方式中,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
结合第二方面,在第二方面的某些实现方式中,所述第一内插系数α是预先存储的。
通过预先存储第一内插系数α,能够减少解码过程的计算复杂度,提高解码效率。
结合第二方面,在第二方面的某些实现方式中,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
通过公式A=(1-β)·B+β·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与当前解码得到的声道间时间差尽可能的匹配。
结合第二方面,在第二方面的某些实现方式中,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
结合第二方面,在第二方面的某些实现方式中,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
结合第二方面,在第二方面的某些实现方式中,所述第二内插系数β是预先存储的。
通过预先存储第二内插系数β,能够减少解码过程的计算复杂度,提高解码效率。
第三方面,提供一种编码装置,所述编码装置包括用于执行所述第一方面或者其各种实现方式的模块。
第四方面,提供一种编码装置,所述编码装置包括用于执行所述第二方面或者其各种实现方式的模块。
第五方面,提供一种编码装置,所述编码装置包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现所述第一方面或者其各种实现方式中的方法。
第六方面,提供一种编码装置,所述编码装置包括存储介质和中央处理器,所述存储介质可以是非易失性存储介质,所述存储介质中存储有计算机可执行程序,所述中央处理器与所述非易失性存储介质连接,并执行所述计算机可执行程序以实现所述第二方面或者其各种实现方式中的方法。
第七方面,提供一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行第一方面或其各种实现方式中的方法的指令。
第八方面,提供一种计算机可读存储介质,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行第二方面或其各种实现方式中的方法的指令。
附图说明
图1是现有的时域立体声编码方法的示意性流程图。
图2是现有的时域立体声解码方法的示意性流程图。
图3是现有的时域立体声编解码技术解码得到的立体声信号与原始的立体声信号之间的时延偏差的示意图。
图4是本申请实施例的立体声信号的编码方法的示意性流程图。
图5是对本申请实施例的立体声信号的编码方法得到的码流进行解码得到的立体声信号与原始的立体声信号之间的时延偏差的示意图。
图6是本申请实施例的立体声信号的编码方法的示意性流程图。
图7是本申请实施例的立体声信号的解码方法的示意性流程图。
图8是本申请实施例的立体声信号的解码方法的示意性流程图。
图9是本申请实施例的编码装置的示意性框图。
图10是本申请实施例的解码装置的示意性框图。
图11是本申请实施例的编码装置的示意性框图。
图12是本申请实施例的解码装置的示意性框图。
图13是本申请实施例的终端设备的示意图。
图14是本申请实施例的网络设备的示意图。
图15是本申请实施例的网络设备的示意图。
图16是本申请实施例的终端设备的示意图。
图17是本申请实施例的网络设备的示意图。
图18是本申请实施例的网络设备的示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
为了更好地理解本申请实施例的编解码方法,下面先结合图1和图2对现有的时域立体声编解码方法的过程进行详细的介绍。
图1是现有的时域立体声编码方法的示意性流程图,该编码方法100具体包括:
110、编码端对立体声信号进行声道间时间差估计,得到立体声信号的声道间时间差。
其中,上述立体声信号包括左声道信号和右声道信号,立体声信号的声道间时间差是指左声道信号和右声道信号之间的时间差。
120、根据估计得到的声道间时间差对左声道信号和右声道信号进行时延对齐处理。
130、对立体声信号的声道间时间差进行编码,得到声道间时间差的编码索引,写入立体声编码码流。
140、确定声道组合比例因子,并对声道组合比例因子进行编码,得到声道组合比例因子的编码索引,写入立体声编码码流。
150、根据声道组合比例因子对时延对齐处理后的左声道信号和右声道信号进行时域下混处理。
160、对下混处理后得到的主要声道信号和次要声道信号分别进行编码,得到主要声道信号和次要声道信号的码流,写入立体声编码码流。
图2是现有的时域立体声解码方法的示意性流程图,该解码方法200具体包括:
210、根据接收到的码流解码得到主要声道信号和次要声道信号。
步骤210相当于分别进行主要声道信号解码和次要声道信号解码,以得到主要声道信号和次要声道信号。
220、根据接收到的码流解码得到声道组合比例因子。
230、根据声道组合比例因子对主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号。
240、根据接收到的码流解码得到声道间时间差。
250、根据声道间时间差对时域上混处理后的左声道重建信号和右声道重建信号进行时延调整,得到解码后的立体声信号。
在现有的时域立体声编解码方法中,由于在对主要声道信号和次要声道信号进行编码(具体如步骤160所示)和解码(具体如步骤210所示)的过程中引入了额外的编码时延(该时延具体可以是对主要声道信号和次要声道信号进行编码所需要的时间)和解码时延(该时延具体可以是对主要声道信号和次要声道信号进行解码所需要的时间),但是对声道间时间差进行编码和解码的过程中不存在同样的编码时延和解码时延,从而导致最终解码得到的立体声信号的声道间时间差与原始的立体声信号的声道间时间差之间存在偏差,从而使得解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间存在一定的时延,影响解码得到的立体声信号的立体声声像的准确性。
具体地,由于对声道间时间差进行编码和解码的过程中不存在与对主要声道信号和次要声道信号进行编码和解码的过程中同样的编码时延和解码时延,因此,会导致解码端当前解码得到的主要声道信号和次要声道信号与当前解码得到的声道间时间差出现不匹配的现象。
图3给出了现有的时域立体声编解码技术解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的时延。如图3所示,当不同帧的立体声信号之间的声道间时间差的数值发生较大的变化时(如图3中的矩形框内的区域所示),解码端最终解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间会出现明显的时延(最终解码得到的立体声道信号中的一路信号要明显滞后于原始的立体声信号中的该路信号),而当不同帧的立体声信号之间的声道间时间差的数值变化不太明显时(如图3中的矩形框外的区域所示),解码端最终解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的时延不太明显。
因此,本申请提出了一种新的立体声道信号的编码方法,该编码方法将对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,得到当前帧的内插处理后的声道间时间差,并将该当前帧的内插处理后的声道间时间差编码传输给解码端,但仍使用当前帧的声道间时间差进行时延对齐处理,与现有技术相比,本申请得到的当前帧的声道间时间差与编解码后的主要声道信号和次要声道信号更匹配,与相应的立体声信号之间的匹配程度较高,从而使得解码端最终解码得到的立体声信号的声道间时间差与原始的立体声信号的声道间时间差之间的偏差变得更小,能够提高解码端最终解码得到的立体声信号的效果。
应理解,本申请中所述立体声信号可以是原始的立体声信号,也可以是多声道信号中包含的两路信号组成的立体声信号,还可以是由多声道信号中包含的多路信号联合产生的两路信号组成的立体声信号。立体声信号的编码方法,也可以是多声道编码方法中使用的立体声信号的编码方法。立体声信号的解码方法,也可以是多声道解码方法中使用的立体声信号的解码方法。
图4是本申请实施例的立体声信号的编码方法的示意性流程图。该方法400可以由编码端执行,该编码端可以是编码器或者是具有编码立体声信号功能的设备。该方法400具体包括:
410、确定当前帧的声道间时间差。
应理解,这里处理的立体声信号可以是左声道信号和右声道信号,当前帧的声道间时间差可以是对左、右声道信号进行时延估计后得到的。当前帧的前一帧的声道间时间差可以是前一帧立体声信号的编码过程中对左右声道信号进行时延估计后得到的。例如,根据当前帧的左、右声道信号计算左右声道间的互相关系数,然后将互相关系数的最大值对应的索引值作为当前帧的声道间时间差。
具体地,可以采用实例一至实例三中的方式来进行时延估计,以得到当前帧的声道间时间差。
实例一:
在当前采样率下,声道间时间差的最大值和最小值分别是Tmax和Tmin,其中,Tmax和Tmin为预先设定的实数,并且Tmax>Tmin,那么,可以搜索索引值在声道间时间差的最大值和最小值之间的左右声道间的互相关系数的最大值,最后将该搜索到的左右声道间的互相关系数的最大值对应的索引值确定为当前帧的声道间时间差。具体地,Tmax和Tmin的取值可以分别为40和-40,这样就可以在-40≤i≤40范围内搜索左右声道间的互相关系数的最大值,然后将互相关系数的最大值对应的索引值作为当前帧的声道间时间差。
实例二:
在当前采样率下,声道间时间差的最大值和最小值分别是Tmax和Tmin,其中,Tmax和Tmin为预先设定的实数,并且Tmax>Tmin。根据当前帧的左、右声道信号计算左右声道间的互相关函数。并根据前L帧(L为大于等于1的整数)的左右声道间的互相关函数对计算出来的当前帧的左右声道间的互相关函数进行平滑处理,得到平滑处理后的左右声道间的互相关函数,然后在Tmin≤i≤Tmax范围内搜索平滑处理后的左右声道间的互相关系数的最大值,并将该最大值对应的索引值i作为当前帧的声道间时间差。
实例三:
在根据实例一或实例二所述的方法估计出了当前帧帧的声道间时间差之后,对当前帧的前M帧(M为大于等于1的整数)的声道间时间差和当前帧估计出的声道间时间差进行帧间平滑处理,将平滑处理后的声道间时间差作为当前帧的声道间时间差。
应理解,在对左、右声道信号(这里的左、右声道信号是时域信号)进行时延估计获取当前帧的声道间时间差之前,还可以对当前帧的左、右声道信号进行时域预处理。具体地,可以对当前帧的左、右声道信号进行高通滤波处理,得到预处理后的当前帧的左、右声道信号。另外,这里的时域预处理时除了高通滤波处理外还可以是其它处理,例如,进行预加重处理。
420、根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,得到当前帧的内插处理后的声道间时间差。
应理解,当前帧的声道间时间差可以是当前帧的左声道信号与当前帧的右声道信号之间的时间差,当前帧的前一帧的声道间时间差可以是当前帧的前一帧的左声道信号与当前帧的前一帧的右声道信号之间的时间差。
应理解,这里根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理相当于对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行加权平均处理,使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间。
在根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理时的具体方式可以有多种,例如,可以采用下面的方式一和方式二进行内插处理。
方式一:
当前帧的内插处理后的声道间时间差是根据公式(1)计算得到的。
A=α·B+(1-α)·C (1)
在上述公式(1)中,A为当前帧的内插处理后的声道间时间差,B为当前帧的声道间时间差,C为当前帧的前一帧的声道间时间差,α为第一内插系数,α为满足0<α<1的实数。
通过公式A=α·B+(1-α)·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与没有经过编解码的原始立体声信号的声道间时间差尽可能的匹配。
具体地,假设当前帧为第i帧,那么当前帧的前一帧为第i-1帧,那么,可以根据公式(2)确定第i帧的声道间时间差。
d_int(i)=α·d(i)+(1-α)·d(i-1) (2)
在上述公式(2)中,d_int(i)为第i帧的内插处理后的声道间时间差,d(i)为当前帧的声道间时间差,d(i-1)为第i-1帧的声道间时间差,α与公式(1)中的α含义相同,也是第一内插系数。
上述第一内插系数可以直接由技术人员直接设定,例如,可以直接将第一内插系数α设定为0.4或者0.6。
另外,上述第一内插系数α还可以根据当前帧的帧长以及编解码时延确定,其中,这里的编解码时延可以包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延,进一步地,这里的编解时延可以为编码时延与解码时延的和。其中,编解码时延是在编解码器所使用的编解码算法确定后就可以确定,因此编解码时延对于编码器或解码器来说是一个已知的参数。
可选地,上述第一内插系数α具体可以是与编解码时延成反比,上述第一内插系数α与当前帧的帧长成正比,也就是说,第一内插系数α随着编解码时延的增大而减小,随着当前帧的帧长的增加而增大。
可选地,上述第一内插系数α可以根据公式(3)来确定:
其中,N为当前帧帧的帧长,S为编解码时延。
当N=320,S=192时,根据公式(3)可以得到:
最终可以得到上述第一内插系数α为0.4。
可选地,上述第一内插系数α是预先存储的,由于编解码时延和帧长都是可以预先得知的,因此对应的第一内插系数α也可以预先根据编解码时延和帧长进行确定并存储。具体地,上述第一内插系数α可以预先存储在编码端,这样当编码端在进行内插处理时可以直接根据预先存储的第一内插系数α直接进行内插处理,而不必再计算第一内插系数α的数值,能够减少编码过程的计算复杂度,提高编码效率。
方式二:
根据公式(5)确定当前帧的声道间时间差。
A=(1-β)·B+β·C (5)
在上述公式(5)中,A为当前帧的内插处理后的声道间时间差,B为当前帧的声道间时间差,C为当前帧的前一帧的声道间时间差,β为第二内插系数,β为满足0<α<1的实数。
通过公式A=(1-β)·B+β·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与没有经过编解码的原始立体声信号的声道间时间差尽可能的匹配。
具体地,假设当前帧为第i帧,那么当前帧的前一帧为第i-1帧,那么,可以根据公式(6)确定第i帧的声道间时间差。
d_int(i)=(1-β)·d(i)+β·d(i-1) (6)
在上述公式(6)中,d_int(i)为第i帧的声道间时间差,d(i)为当前帧的声道间时间差,d(i-1)为第i-1帧的声道间时间差,β与公式(1)中的β含义相同,也是第二内插系数。
上述内插系数可以直接由技术人员直接设定,例如,可以直接将第二内插系数β设定为0.6或者0.4。
另外,上述第二内插系数β还可以根据当前帧的帧长以及编解码时延确定,其中,这里的编解码时延可以包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延,进一步地,这里的编解时延可以为编码时延与解码时延的和。
可选地,上述第二内插系数β具体可以是与编解码时延成正比,另外,该第二内插系数β具体可以是与当前帧的帧长成反比。
可选地,上述第二内插系数β可以根据公式(7)来确定:
其中,N为当前帧帧长,S为编解码时延。
当N=320,S=192时,根据公式(7)可以得到:
最终可以得到当前上述第二内插系数β为0.6。
可选地,上述第二内插系数β是预先存储的,由于编解码时延和帧长都是可以预先得知的,因此对应的第二内插系数β也可以预先根据编解码时延和帧长进行确定并存储。具体地,上述第二内插系数β可以预先存储在编码端,这样当编码端在进行内插处理时可以直接根据预先存储的第二内插系数β直接进行内插处理,而不必再计算第二内插系数β的数值,能够减少编码过程的计算复杂度,提高编码效率。
430、根据当前帧的声道间时间差,对当前帧的立体声信号进行时延对齐处理,得到当前帧的时延对齐处理后的立体声信号。
在对当前帧的左、右声道信号进行时延对齐处理时可以根据当前帧的声道时间差对左声道信号和右声道信号中的一路或者两路进行压缩或者拉伸处理,使得时延对齐处理后的左、右声道信号之间不存在声道间时间差。对当前帧的左、右声道信号时延对齐处理后得到的当前帧的时延对齐处理后的左、右声道信号即为当前帧的时延对齐处理后的立体声信号。
440、对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到当前帧的主要声道信号和次要声道信号。
在对时延对齐处理后的左右声道信号进行时域下混处理时,可以将左右声道信号下混成中央通道(Mid channel)信号以及边通道(Side channel)信号,其中,中央通道信号能表示左右声道之间的相关信息,边通道信号能表示左右声道之间的差异信息。
假设L表示左声道信号,R表示右声道信号,那么,中央通道信号为0.5*(L+R),边通道信号为0.5*(L-R)。
另外,在对时延对齐处理后的左右声道信号进行时域下混处理时,为了控制下混处理中左、右声道信号所占的比例,还可以计算声道组合比例因子,然后根据该声道组合比例因子对左、右声道信号进行时域下混处理,得到主要声道信号和次要声道信号。
计算声道组合比例因子的方法多种,例如,可以根据左右声道的帧能量来计算当前帧的声道组合比例因子。具体过程如下:
(1)、根据当前帧时延对齐后的左右声道信号,计算左右声道信号的帧能量。
当前帧左声道的帧能量rms_L满足:
当前帧右声道的帧能量rms_R满足:
其中,x′L(n)为当前帧时延对齐后的左声道信号,x′R(n)为当前帧时延对齐后的右声道信号,n为样点序号,n=0,1,…,N-1。
(2)、然后再根据左右声道的帧能量,计算当前帧的声道组合比例因子。
当前帧的声道组合比例因子ratio满足:
因此,根据左右声道信号的帧能量就计算得到了声道组合比例因子。
当得到上述声道组合比例因子ratio之后,就可以根据声道组合比例因子ratio进行时域下混处理,例如,可以根据公式(12)确定时域下混处理后的主要声道信号和次要声道信号。
其中,Y(n)为当前帧的主要声道信号,X(n)为当前帧的次要声道信号,x′L(n)为当前帧时延对齐后的左声道信号,x′R(n)为当前帧时延对齐后的右声道信号,n为样点序号,n=0,1,…,N-1,N为帧长,ratio为声道组合比例因子。
(3)、量化编码声道组合比例因子,写入码流。
450、对当前帧的内插处理后的声道间时间差进行量化编码,写入码流。
具体地,在对当前帧的内插处理后的声道间时间差进行量化编码时,可以使用任何现有技术中的量化算法对当前帧的内插处理后的声道间时间差进行量化处理,得到量化索引,然后将量化索引编码后写入码流。
460、对当前帧的主要声道信号和次要声道信号量化编码,写入码流。
可选地,可以采用单声道信号编解码方法对下混处理后的得到的主要声道信号和次要声道信号进行编码处理。具体地,可以根据前一帧的主要声道信号和/或前一帧的次要声道信号编码过程中得到的参数信息以及主要声道信号和次要声道信号编码的总比特数,对主要声道编码和次要声道编码的比特进行分配。然后根据比特分配结果分别对主要声道信号和次要声道信号进行编码,得到主要声道编码的编码索引以及次要声道编码的编码索引。
应理解,经过步骤460之后得到的码流包含对当前帧的内插处理后的声道间时间差进行量化编码后得到的码流以及对主要声道信号和次要声道信号进行量化编码后得到的码流。
可选地,在方法400中还可以对步骤440中的进行时域下混处理是采用的声道组合比例因子进行量化编码,以得到相应的码流。
因此,方法400最终得到的码流可以包含对当前帧的内插处理后的声道间时间差进行量化编码后得到的码流、对当前帧的主要声道信号和次要声道信号量化编码后得到的码流以及对声道组合比例因子进行量化编码后得到的码流。
本申请中,在编码端使用当前帧的声道间时间差进行时延对齐处理,以获得主要声道信号和次要声道信号,但是通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与编解码后的主要声道信号和次要声道信号相匹配,将内插处理后的声道间时间差编码传输给解码端,从而使得解码端能够根据与解码后的主要声道信号和次要声道信号相匹配的当前帧的声道间时间差进行解码,能够减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像的准确性。
应理解,上述方法400最终得到的码流可以传输给解码端,解码端可以对接收到的码流进行解码得到当前帧的主要声道信号和次要声道信号,以及当前帧的声道间时间差,并根据该当前帧的声道间时间差对经过时域上混处理得到的左声道重建信号和右声道重建信号进行时延调整,得到解码后的立体声信号。解码端的执行的具体过程可以与上述图2中所示的现有技术中的时域立体声解码方法的过程相同。
解码端对上述方法400生成的码流进行解码,最终得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的差异可以如图5所示。通过对比图5和图3,可以发现相对于图3,在图5中,最终解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的时延已经变得很小,特别地,当声道间时间差的数值出现较大的变化时(如图5中的矩形框内的区域所示),解码端最终得到的声道信号中的该路信号与原始声道信号中的该路信号之间的时延也很小。也就是说,采用本申请实施例的立体声信号的编码方法能够减少最终解码得到的立体声信号的声道间时间差与原始的立体声信号的声道间时间差之间的偏差。
应理解,这里还可以根据其它方式实现下混处理,得到主要声道信号和次要声道信号。
下面结合图6对本申请实施例的立体声信号的编码方法的详细过程进行描述。
图6是本申请实施例的立体声信号的编码方法的示意性流程图。该方法600可以由编码端执行,该编码端可以是编码器或者是具有编码声道信号功能的设备。该方法600具体包括:
610、对立体声信号进行时域预处理,得到预处理后的左、右声道信号。
具体地,可以采用高通滤波、预加重处理等实现对立体声信号的时域预处理。
620、根据当前帧预处理后的左、右声道信号,进行时延估计,获得当前帧估计出的声道间时间差。
当前帧估计出来的声道间时间差相当于方法400中的当前帧的声道间时间差。
630、根据当前帧估计出的声道间时间差,对左、右声道信号进行时延对齐处理,得到时延对齐后的立体声信号。
640、对估计出的声道间时间差进行内插处理。
内插处理后得到的声道间时间差相当于上文中的当前帧的内插处理后的声道间时间差。
650、对内插处理后的声道间时间差进行量化编码。
660、根据时延对齐后的立体声信号确定声道组合比例因子,并对声道组合比例因子进行量化编码。
670、根据声道组合比例因子对时延对齐后的左、右声道信号进行时域下混处理,得到主要声道信号和次要声道信号。
680、使用单声道编解码方法对下混后的主要声道信号和次要声道信号进行编码处理。
上文中结合图4至图6对本申请实施例的立体声信号的编码方法进行了详细的描述。应理解,与本申请图4、图6所述实施例的立体声信号的编码方法相对应的解码方法可以是现有的立体声信号的解码方法。具体地,与本申请图4、图6所述实施例的立体声信号的编码方法相对应的解码方法可以是图2所示的解码方法200。
下面结合图7、图8对本申请实施例的立体声信号的解码方法进行了详细的描述。应理解,与本申请图7、图8所述实施例的立体声信号的编码方法相对应的编码方法可以是现有的立体声信号的编码方法,但不可以是本申请图4、图6所述实施例的立体声信号的编码方法。
图7是本申请实施例的立体声信号的解码方法的示意性流程图。该方法700可以由解码端执行,该解码端可以是解码器或者是具有解码立体声信号功能的设备。该方法700具体包括:
710、根据码流解码得到当前帧的主要声道信号和次要声道信号,以及当前帧的声道间时间差。
应理解,在步骤710中,对主要声道信号的解码方法需要与编码端对主要声道信号的编码方法相对应,同样,对次要声道的解码方法也需要与编码端对次要声道信号的编码方法向对应。
可选地,步骤710中的码流可以是解码端接收到的码流。
应理解,这里处理的立体声信号可以是左声道信号和右声道信号,当前帧的声道间时间差可以是编码端对左、右声道信号进行时延估计后,将当前帧的声道间时间差量化编码,传输到解码端的(具体可以是在解码端根据接收到的码流解码确定的)。例如,编码端根据当前帧的左右声道信号计算左右声道间的互相关函数,然后将互相关函数的最大值对应的索引值作为当前帧的声道间时间差,将当前帧的声道间时间差量化编码,传输到解码端,解码端根据接收到的码流解码确定当前帧的声道间时间差。编码端对左右声道信号进行时延估计的具体方式可以如上文中的实例一至实例三所示。
720、对当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号。
具体地,可以根据声道组合比例因子对解码得到的当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号(也可以称为时域上混处理后的左声道信号和右声道信号)。
应理解,编码端和解码端分别进行时域下混处理和时域上混处理时,可以采用的方法由很多种。但是,解码端进行时域上混处理的方法需要与编码端进行时域下混处理的方法相对应。例如,当编码端根据公式(12)得到主要声道信号和次要声道信号时,解码端可以先根据接收到的码流解码得到声道组合比例因子,再根据公式(13)得到时域上混处理后得到的左声道信号和右声道信号。
其中,x′L(n)为当前帧时域上混处理后的左声道信号,x′R(n)为当前帧时域上混处理后的右声道信号,Y(n)为解码得到的当前帧的主要声道信号,X(n)为解码得到的当前帧的次要声道信号,n为样点序号,n=0,1,…,N-1,N为帧长,ratio为解码得到的声道组合比例因子。
730、根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,得到当前帧的内插处理后的声道间时间差。
在步骤730中,根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理相当于对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行加权平均处理,使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间。
在步骤730中,根据当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理时可以采用下文中的方式三和方式四。
方式三:
当前帧的内插处理后的声道间时间差是根据公式(14)计算得到的。
A=α·B+(1-α)·C (14)
其中,A为当前帧的内插处理后的声道间时间差,B为当前帧的声道间时间差,C为当前帧的前一帧的声道间时间差,α为第一内插系数,α为满足0<α<1的实数。
通过公式A=α·B+(1-α)·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与没有经过编解码的原始立体声信号的声道间时间差尽可能的匹配。
假设当前帧为第i帧,当前帧的前一帧为第i-1帧,那么,可以将公式(14)变形为公式(15)。
d_int(i)=α·d(i)+(1-α)·d(i-1) (15)
其中,d_int(i)为第i帧的内插处理后的声道间时间差,d(i)为当前帧的声道间时间差,d(i-1)为第i-1帧的声道间时间差。
上述公式(14)和公式(15)中的第一内插系数α可以直接由技术人员直接设定(可以根据经验直接设定),例如,可以直接将第一内插系数α设定为0.4或者0.6。
可选地,上述内插系数α还可以是根据当前帧的帧长以及编解码时延确定的,这里的编解码时延可以包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。进一步地,这里的编解时延可以直接为编码端的编码时延与解码端的解码时延的和。
可选地,上述内插系数α具体可以是与编解码时延是成反比的,上述第一内插系数α与当前帧的帧长是成正比的,也就是说,第一内插系数α随着编解码时延的增大而减小,随着当前帧的帧长的增加而增大。
可选地,可以根据公式(16)来计算上述第一内插系数α:
其中,N为当前帧帧的帧长,S为编解码时延。
假设,当前帧的帧长为320,编解码时延为192,也就是说N=320,S=192,那么将N和S代入到公式(16)中可以得到:
最终可以得到上述第一内插系数α为0.4。
可选地,上述第一内插系数α是预先存储的。具体地,上述第一内插系数α可以预先存储在解码端,这样当解码端在进行内插处理时可以直接根据预先存储的第一内插系数α直接进行内插处理,而不必再计算第一内插系数α的数值,能够减少解码过程的计算复杂度,提高解码效率。
方式四:
当前帧的内插处理后的声道间时间差是根据公式(18)计算得到的。
A=(1-β)·B+β·C (18)
其中,A为当前帧的内插处理后的声道间时间差,B为当前帧的声道间时间差,C为当前帧的前一帧的声道间时间差,β为第二内插系数,β为满足0<α<1的实数。
通过公式A=(1-β)·B+β·C能够实现对声道间时间差的调整,从而使得最终得到的当前帧的内插处理后的声道间时间差介于当前帧的声道间时间差和当前帧的前一帧的声道间时间差之间,使得当前帧的内插处理后的声道间时间差与没有经过编解码的原始立体声信号的声道间时间差尽可能的匹配。
假设当前帧为第i帧,当前帧的前一帧为第i-1帧,那么,公式(18)可以变形为:
d_int(i)=(1-β)·d(i)+β·d(i-1) (19)
其中,d_int(i)为第i帧的内插处理后的声道间时间差,d(i)为当前帧的声道间时间差,d(i-1)为第i-1帧的声道间时间差。
与第一内插系数α的设定方式类似,上述第二内插系数β也可以直接由技术人员直接设定(可以根据经验直接设定),例如,可以直接将第二内插系数β设定为0.6或者0.4。
可选地,上述第二内插系数β还可以是根据当前帧的帧长以及编解码时延确定的,这里的编解码时延可以包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。进一步地,这里的编解时延可以直接为编码端的编码时延与解码端的解码时延的和。
可选地,上述第二内插系数β具体可以是与编解码时延是成正比的,而与当前帧的帧长是成反比的,也就是说,第二内插系数β随着编解码时延的增大而增大,随着当前帧的帧长的增加而减小。
可选地,可以根据公式(20)来确定上述第二内插系数β:
其中,N为当前帧帧长,S为编解码时延。
假设N=320,S=192,那么将N=320,S=192代入到公式(20)中可以得到:
最终可以得到当前上述第二内插系数β为0.6。
可选地,上述第二内插系数β是预先存储的。具体地,上述第二内插系数β可以预先存储在解码端,这样当解码端在进行内插处理时可以直接根据预先存储的第二内插系数β直接进行内插处理,而不必再计算第二内插系数β的数值,能够减少解码过程的计算复杂度,提高解码效率。
740、根据当前帧的声道间时间差对左声道重建信号和右声道重建信号进行时延调整。
应理解,可选地,时延调整后的左声道重建信号和右声道重建信号即为解码后的立体声信号。
可选地,步骤740之后,还可以包括根据时延调整后的左声道重建信号和右声道重建信号,得到解码后的立体声信号。例如,对时延调整后的左声道重建信号和右声道重建信号进行去加重处理,得到解码后的立体声信号。又例如,对时延调整后的左声道重建信号和右声道重建信号进行后处理,得到解码后的立体声信号。
本申请中,通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与当前解码得到的主要声道信号和次要声道信号相匹配,从而减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像。
具体地,通过上述方法700最终得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的差异可以如图5所示。通过对比图5和图3,可以发现在图5中,最终解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的时延已经变得很小,特别地,当声道间时间差的数值出现较大的变化时(如图5中的矩形框内的区域所示),解码端最终得到的声道信号与原始声道信号之间的时延偏差也很小。也就是说,采用本申请实施例的立体声信号的解码方法能够减少最终解码得到的立体声信号中的一路信号与原始的立体声信号中的该路信号之间的时延偏差。
应理解,与上述方法700对应的编码端的编码方法可以是现有的时域立体声编码方法,例如,与上述方法700对应的时域立体声编码方法可以如图1所示的方法100所示。
下面结合图8对本申请实施例的立体声信号的解码方法的详细过程进行描述。
图8是本申请实施例的立体声信号的解码方法的示意性流程图。该方法800可以由解码端执行,该解码端可以是解码器或者是具有解码声道信号功能的设备。该方法800具体包括:
810、根据接收到的码流分别进行主要声道信号的解码和次要声道信号的解码。
具体地,解码端对主要声道信号进行解码的解码方法与编码端对主要声道信号进行编码的编码方法是对应的,解码端对次要声道信号进行解码的解码方法与编码端对次要声道信号进行编码的编码方法是对应的。
820、根据接收到的码流解码得到声道组合比例因子。
具体地,可以解码接收的比特流,得到声道组合比例因子的编码索引,然后再根据得到的声道组合比例因子的编码索引,解码得到声道组合比例因子。
830、根据声道组合比例因子,对主要声道信号、次要声道信号进行时域上混处理,得到时域上混处理后左声道重建信号和右声道重建信号。
840、根据接收到的码流解码得到当前帧的声道间时间差。
850、对解码得到的当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,得到当前帧的内插处理后的声道间时间差。
860、根据内插处理后的声道间时间差,对时域上混处理后的左声道重建信号和右声道重建信号进行时延调整处理,得到解码的立体声信号。
应理解,在本申请中,根据当前帧的声道间时间差以及前一帧的声道间时间差进行内插处理的过程既可以发生在编码端也可以发生在解码端。当在编码端根据当前帧的声道间时间差以及前一帧的声道间时间差进行内插处理后,在解码端就不需要再进行内插处理,而是可以直接根据码流得到当前帧的内插处理后的声道间时间差,并根据当前帧的内插处理后的声道间时间差进行后续的时延调整。而当编码端没有进行内插处理时,那么解码端需要根据当前帧的声道间时间差以及前一帧的声道间时间差进行内插处理,然后根据内插处理得到的当前帧的内插处理后的声道间时间差进行后续的时延调整处理。
上文结合图1至图8对本申请实施例的立体声信号的编码方法和解码方法进行了详细的描述。下面结合图9至图12对本申请实施例的立体声信号的编码装置和解码装置进行描述,应理解,图9至图12中的编码装置与本申请实施例的立体声信号的编码方法是对应的,并且该编码装置可以执行本申请实施例的立体声信号的编码方法。而图9至图12中的解码装置与本申请实施例的立体声信号的解码方法是对应的,并且该解码装置可以执行本申请实施例的立体声信号的解码方法。为了简洁,下面适当省略重复的描述。
图9是本申请实施例的编码装置的示意性框图。图9所示的编码装置900包括:
确定模块910,用于确定当前帧的声道间时间差;
内插模块920,用于根据当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
时延对齐模块930,用于根据所述当前帧的声道间时间差,对所述当前帧的立体声信号进行时延对齐处理,得到所述当前帧的时延对齐处理后的立体声信号;
下混模块940,用于对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到所述当前帧的主要声道信号和次要声道信号;
编码模块950,用于对所述当前帧的内插处理后的声道间时间差进行量化编码,写入码流;
所述编码模块950还用于对当前帧的主要声道信号和次要声道信号量化编码,写入所述码流。
在本申请中,在编码装置使用当前帧的声道间时间差进行时延对齐处理,以获得主要声道信号和次要声道信号,但是通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与编解码后的主要声道信号和次要声道信号相匹配,将内插处理后的声道间时间差编码传输给解码端,从而使得解码端能够根据与解码后的主要声道信号和次要声道信号相匹配的当前帧的声道间时间差进行解码,能够减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像的准确性。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
可选地,作为一个实施例,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第一内插系数α是预先存储的。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
可选地,作为一个实施例,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第二内插系数β是预先存储的。
图10是本申请实施例的解码装置的示意性框图。图10所示的解码装置1000包括:
解码模块1010,用于根据码流解码得到当前帧的主要声道信号和次要声道信号,以及当前帧的声道间时间差;
上混模块1020,用于对所述当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的主要声道信号和次要声道信号;
内插模块1030,根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
时延调整模块1040,用于根据所述当前帧内插处理后的声道间时间差对所述时域上混处理后的主要声道信号和次要声道信号进行时延调整。
在本申请中,通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与当前解码得到的主要声道信号和次要声道信号相匹配,从而减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
可选地,作为一个实施例,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第一内插系数α是预先存储的。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
可选地,作为一个实施例,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第二内插系数β是预先存储的。
图11是本申请实施例的编码装置的示意性框图。图11所示的编码装置1100包括:
存储器1110,用于存储程序。
处理器1120,用于执行所述存储器1110中存储的程序,当所述存储器1110中的程序被执行时,所述处理器1120具体用于:根据当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;根据所述当前帧的声道间时间差,对所述当前帧的立体声信号进行时延对齐处理,得到所述当前帧的时延对齐处理后的立体声信号;对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到所述当前帧的主要声道信号和次要声道信号;对所述当前帧的内插处理后的声道间时间差进行量化编码,写入码流;对当前帧的主要声道信号和次要声道信号量化编码,写入所述码流。
在本申请中,在编码装置使用当前帧的声道间时间差进行时延对齐处理,以获得主要声道信号和次要声道信号,但是通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与编解码后的主要声道信号和次要声道信号相匹配,将内插处理后的声道间时间差编码传输给解码端,从而使得解码端能够根据与解码后的主要声道信号和次要声道信号相匹配的当前帧的声道间时间差进行解码,能够减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像的准确性。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
可选地,作为一个实施例,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第一内插系数α是预先存储的。
第一内插系数α可以存储在存储器1110中。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
可选地,作为一个实施例,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第二内插系数β是预先存储的。
第二内插系数β可以存储在存储器1110中。
图12是本申请实施例的解码装置的示意性框图。图12所示的解码装置1200包括:
存储器1210,用于存储程序。
处理器1220,用于执行所述存储器1210中存储的程序,当所述存储器1210中的程序被执行时,所述处理器1220具体用于:根据码流解码得到当前帧的主要声道信号和次要声道信号;对所述当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的主要声道信号和次要声道信号;根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;根据所述当前帧内插处理后的声道间时间差对所述时域上混处理后的主要声道信号和次要声道信号进行时延调整。
在本申请中,通过对当前帧的声道间时间差以及当前帧的前一帧的声道间时间差进行内插处理,使得内插处理后得到的当前帧的声道间时间差能够与当前解码得到的主要声道信号和次要声道信号相匹配,从而减少最终解码得到的立体声信号的声道间时间差与原始立体声信号的声道间时间差之间的偏差,从而提高最终解码得到的立体声信号的立体声声像。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
可选地,作为一个实施例,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第一内插系数α是预先存储的。
第一内插系数α可以存储在存储器1210中。
可选地,作为一个实施例,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
可选地,作为一个实施例,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
可选地,作为一个实施例,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
可选地,作为一个实施例,所述第二内插系数β是预先存储的。
第二内插系数β可以存储在存储器1210中。
应理解,本申请实施例中的立体声信号的编码方法以及立体声信号的解码方法可以由下图13至图15中的终端设备或者网络设备执行。另外,本申请实施例中的编码装置和解码装置还可以设置在图13至图15中的终端设备或者网络设备中,具体地,本申请实施例中的编码装置可以是图13至图15中的终端设备或者网络设备中的立体声编码器,本申请实施例中的解码装置可以是图13至图15中的终端设备或者网络设备中的立体声解码器。
如图13所示,在音频通信中,第一终端设备中的立体声编码器对采集到的立体声信号进行立体声编码,第一终端设备中的信道编码器可以对立体声编码器得到的码流再进行信道编码,接下来,第一终端设备信道编码后得到的数据通过第一网络设备和第二网络设备传输到第二网络设备。第二终端设备在接收到第二网络设备的数据之后,第二终端设备的信道解码器进行信道解码,得到立体声信号编码码流,第二终端设备的立体声解码器再通过解码恢复出立体声信号,由终端设备进行该立体声信号的回放。这样就在不同的终端设备完成了音频通信。
应理解,在图13中,第二终端设备也可以对采集到的立体声信号进行编码,最终通过第二网络设备和第二网络设备将最终编码得到的数据传输给第一终端设备,第一终端设备通过对数据进行信道解码和立体声解码得到立体声信号。
在图13中,第一网络设备和第二网络设备可以是无线网络通信设备或者有线网络通信设备。第一网络设备和第二网络设备之间可以通过数字信道进行通信。
图13中的第一终端设备或者第二终端设备可以执行本申请实施例的立体声信号的编解码方法,本申请实施例中的编码装置、解码装置可以分别是第一终端设备或者第二终端设备中的立体声编码器、立体声解码器。
在音频通信中,网络设备可以实现音频信号编解码格式的转码。如图14所示,如果网络设备接收到的信号的编解码格式为其它立体声解码器对应的编解码格式,那么,网络设备中的信道解码器对接收到的信号进行信道解码,得到其它立体声解码器对应的编码码流,其它立体声解码器对该编码码流进行解码,得到立体声信号,立体声编码器再对立体声信号进行编码,得到立体声信号的编码码流,最后,信道编码器再对立体声信号的编码码流进行信道编码,得到最终的信号(该信号可以传输给终端设备或者其它的网络设备)。应理解,图14中的立体声编码器对应的编解码格式与其它立体声解码器对应的编解码格式不同。假设其它立体声解码器对应的编解码格式为第一编解码格式,立体声编码器对应的编解码格式为第二编解码格式,那么在图14中,通过网络设备就实现了将音频信号由第一编解码格式转化为第二编解码格式。
类似的,如图15所示,如果网络设备接收到的信号的编解码格式与立体声解码器对应的编解码格式相同,那么,在网络设备的信道解码器进行信道解码得到立体声信号的编码码流之后,可以由立体声解码器对立体声信号的编码码流进行解码,得到立体声信号,接下来,再由其它立体声编码器按照其它的编解码格式对该立体声信号进行编码,得到其它立体声编码器对应的编码码流,最后,信道编码器再对其它立体声编码器对应的编码码流进行信道编码,得到最终的信号(该信号可以传输给终端设备或者其它的网络设备)。与图14中的情况相同,图15中的立体声解码器对应的编解码格式与其它立体声编码器对应的编解码格式也是不同的。如果其它立体声编码器对应的编解码格式为第一编解码格式,立体声解码器对应的编解码格式为第二编解码格式,那么在图15中,通过网络设备就实现了将音频信号由第二编解码格式转化为第一编解码格式。
在图14和图15中,其它立体声编解码器和立体声编解码器分别对应不同的编解码格式,因此,经过其它立体声编解码器和立体声编解码器的处理就实现了立体声信号编解码格式的转码。
还应理解,图14中的立体声编码器能够实现本申请实施例中的立体声信号的编码方法,图15中的立体声解码器能够实现本申请实施例的立体声信号的解码方法。本申请实施例中的编码装置可以是图14中的网络设备中的立体声编码器,本申请实施例中的解码装置可以是图15中的网络设备中的立体声解码器。另外,图14和图15中的网络设备具体可以是无线网络通信设备或者有线网络通信设备。
应理解,本申请实施例中的立体声信号的编码方法以及立体声信号的解码方法也可以由下图16至图18中的终端设备或者网络设备执行。另外,本申请实施例中的编码装置和解码装置还可以设置在图16至图18中的终端设备或者网络设备中,具体地,本申请实施例中的编码装置可以是图16至图18中的终端设备或者网络设备中的多声道编码器中的立体声编码器,本申请实施例中的解码装置可以是图16至图18中的终端设备或者网络设备中的多声道编码器中的立体声解码器。
如图16所示,在音频通信中,第一终端设备中的多声道编码器中的立体声编码器对由采集到的多声道信号生成的立体声信号进行立体声编码,多声道编码器得到的码流包含立体声编码器得到的码流,第一终端设备中的信道编码器可以对多声道编码器得到的码流再进行信道编码,接下来,第一终端设备信道编码后得到的数据通过第一网络设备和第二网络设备传输到第二网络设备。第二终端设备在接收到第二网络设备的数据之后,第二终端设备的信道解码器进行信道解码,得到多声道信号的编码码流,多声道信号的编码码流包含了立体声信号的编码码流,第二终端设备的多声道解码器中的立体声解码器再通过解码恢复出立体声信号,多声道解码器根据恢复出立体声信号解码得到多声道信号,由第二终端设备进行该多声道信号的回放。这样就在不同的终端设备完成了音频通信。
应理解,在图16中,第二终端设备也可以对采集到的多声道信号进行编码(具体由第二终端设备中的多声道编码器中的立体声编码器对由采集到的多声道信号生成的立体声信号进行立体声编码,然后再由第二终端设备中的信道编码器对多声道编码器得到的码流进行信道编码),最终通过第二网络设备和第二网络设备传输给第一终端设备,第一终端设备通过信道解码和多声道解码得到多声道信号。
在图16中,第一网络设备和第二网络设备可以是无线网络通信设备或者有线网络通信设备。第一网络设备和第二网络设备之间可以通过数字信道进行通信。
图16中的第一终端设备或者第二终端设备可以执行本申请实施例的立体声信号的编解码方法。另外,本申请实施例中的编码装置可以是第一终端设备或者第二终端设备中的立体声编码器,本申请实施例中的解码装置可以是第一终端设备或者第二终端设备中的立体声解码器。
在音频通信中,网络设备可以实现音频信号编解码格式的转码。如图17所示,如果网络设备接收到的信号的编解码格式为其它多声道解码器对应的编解码格式,那么,网络设备中的信道解码器对接收到的信号进行信道解码,得到其它多声道解码器对应的编码码流,其它多声道解码器对该编码码流进行解码,得到多声道信号,多声道编码器再对多声道信号进行编码,得到多声道信号的编码码流,其中多声道编码器中的立体声编码器对由多声道信号生成的立体声信号进行立体声编码得到立体声信号的编码码流,多声道信号的编码码流包含了立体声信号的编码码流,最后,信道编码器再对编码码流进行信道编码,得到最终的信号(该信号可以传输给终端设备或者其它的网络设备)。
类似的,如图18所示,如果网络设备接收到的信号的编解码格式与多声道解码器对应的编解码格式相同,那么,在网络设备的信道解码器进行信道解码得到多声道信号的编码码流之后,可以由多声道解码器对多声道信号的编码码流进行解码,得到多声道信号,其中多声道解码器中的立体声解码器对多声道信号的编码码流中的立体声信号的编码码流进行立体声解码,接下来,再由其它多声道编码器按照其它的编解码格式对该多声道信号进行编码,得到其它多声道编码器对应的多声道信号的编码码流,最后,信道编码器再对其它多声道编码器对应的编码码流进行信道编码,得到最终的信号(该信号可以传输给终端设备或者其它的网络设备)。
应理解,在图17和图18中,其它多声道编解码器和多声道编解码器分别对应不同的编解码格式。例如,在图17中,其它立体声解码器对应的编解码格式为第一编解码格式,多声道编码器对应的编解码格式为第二编解码格式,那么在图17中,通过网络设备就实现了将音频信号由第一编解码格式转化为第二编解码格式。类似地,在图18中,假设多声道解码器对应的编解码格式为第二编解码格式,其它立体声编码器对应的编解码格式为第一编解码格式,那么在图18中,通过网络设备就实现了将音频信号由第二编解码格式转化为第一编解码格式。因此,经过其它多声道编解码器和多声道编解码的处理就实现了音频信号编解码格式的转码。
还应理解,图17中的立体声编码器能够实现本申请中的立体声信号的编码方法,图18中的立体声解码器能够实现本申请中的立体声信号的解码方法。本申请实施例中的编码装置可以是图17中的网络设备中的立体声编码器,本申请实施例中的解码装置可以是图18中的网络设备中的立体声解码器。另外,图17和图18中的网络设备具体可以是无线网络通信设备或者有线网络通信设备。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (36)

1.一种立体声信号的编码方法,其特征在于,包括:
确定当前帧的声道间时间差;
根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
根据所述当前帧的声道间时间差,对所述当前帧的立体声信号进行时延对齐处理,得到所述当前帧的时延对齐处理后的立体声信号;
对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到所述当前帧的主要声道信号和次要声道信号;
对所述当前帧的内插处理后的声道间时间差进行量化编码,写入码流;
对当前帧的主要声道信号和次要声道信号量化编码,写入所述码流。
2.如权利要求1所述的方法,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
3.如权利要求2所述的方法,其特征在于,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
4.如权利要求3所述的方法,其特征在于,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
5.如权利要求2-4中任一项所述的方法,其特征在于,所述第一内插系数α是预先存储的。
6.如权利要求1所述的方法,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
7.如权利要求6所述的方法,其特征在于,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
8.如权利要求7所述的方法,其特征在于,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
9.如权利要求6-8中任一项所述的方法,其特征在于,所述第二内插系数是预先存储的。
10.一种立体声信号的解码方法,其特征在于,包括:
根据码流解码得到当前帧的主要声道信号和次要声道信号,以及所述当前帧的声道间时间差;
对所述当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道重建信号和右声道重建信号;
根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
根据所述当前帧的内插处理后的声道间时间差对所述左声道重建信号和右声道重建信号进行时延调整。
11.如权利要求10所述的方法,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
12.如权利要求11所述的方法,其特征在于,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
13.如权利要求12所述的方法,其特征在于,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
14.如权利要求11-13中任一项所述的方法,其特征在于,所述第一内插系数α是预先存储的。
15.如权利要求10所述的方法,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
16.如权利要求15所述的方法,其特征在于,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
17.如权利要求16所述的方法,其特征在于,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
18.如权利要求15-17中任一项所述的方法,其特征在于,所述第二内插系数β是预先存储的。
19.一种编码装置,其特征在于,包括:
确定模块,用于确定当前帧的声道间时间差;
内插模块,用于根据当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
时延对齐模块,用于根据所述当前帧的声道间时间差,对所述当前帧的立体声信号进行时延对齐处理,得到所述当前帧的时延对齐处理后的立体声信号;
下混模块,用于对所述当前帧的时延对齐处理后的立体声信号进行时域下混处理,得到所述当前帧的主要声道信号和次要声道信号;
编码模块,用于对所述当前帧的内插处理后的声道间时间差进行量化编码,写入码流;
所述编码模块还用于对当前帧的主要声道信号和次要声道信号量化编码,写入所述码流。
20.如权利要求19所述的装置,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
21.如权利要求20所述的装置,其特征在于,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
22.如权利要求21所述的装置,其特征在于,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
23.如权利要求20-22中任一项所述的装置,其特征在于,所述第一内插系数α是预先存储的。
24.如权利要求19所述的装置,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
25.如权利要求21所述的装置,其特征在于,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
26.如权利要求25所述的装置,其特征在于,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
27.如权利要求24-26中任一项所述的装置,其特征在于,所述第二内插系数β是预先存储的。
28.一种解码装置,其特征在于,包括:
解码模块,用于根据码流解码得到当前帧的主要声道信号和次要声道信号,以及所述当前帧的声道间时间差;
上混模块,用于对所述当前帧的主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的主要声道信号和次要声道信号;
内插模块,根据所述当前帧的声道间时间差以及所述当前帧的前一帧的声道间时间差进行内插处理,得到所述当前帧的内插处理后的声道间时间差;
时延调整模块,用于根据所述当前帧内插处理后的声道间时间差对所述左声道重建信号和右声道重建信号进行时延调整。
29.如权利要求28所述的装置,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=α·B+(1-α)·C计算得到的;其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,α为第一内插系数,0<α<1。
30.如权利要求29所述的装置,其特征在于,所述第一内插系数α与编解码时延成反比,所述第一内插系数α与所述当前帧的帧长成正比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
31.如权利要求30所述的装置,其特征在于,所述第一内插系数α满足公式α=(N-S)/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
32.如权利要求29-31中任一项所述的装置,其特征在于,所述第一内插系数α是预先存储的。
33.如权利要求25所述的装置,其特征在于,所述当前帧的内插处理后的声道间时间差是根据公式A=(1-β)·B+β·C计算得到的;
其中,A为所述当前帧的内插处理后的声道间时间差,B为所述当前帧的声道间时间差,C为所述当前帧的前一帧的声道间时间差,β为第二内插系数,0<β<1。
34.如权利要求28所述的装置,其特征在于,所述第二内插系数β与编解码时延成正比,所述第二内插系数β与所述当前帧的帧长成反比,其中,所述编解码时延包括编码端对时域下混处理后得到的主要声道信号和次要声道信号进行编码的编码时延以及解码端根据码流解码得到主要声道信号和次要声道信号的解码时延。
35.如权利要求34所述的装置,其特征在于,所述第二内插系数β满足公式β=S/N,其中,S为所述编解码时延,N为所述当前帧的帧长。
36.如权利要求33-35中任一项所述的装置,其特征在于,所述第二内插系数β是预先存储的。
CN201710614326.7A 2017-07-25 2017-07-25 立体声信号的编解码方法和编解码装置 Active CN109300480B (zh)

Priority Applications (10)

Application Number Priority Date Filing Date Title
CN201710614326.7A CN109300480B (zh) 2017-07-25 2017-07-25 立体声信号的编解码方法和编解码装置
EP18839134.6A EP3648101B1 (en) 2017-07-25 2018-07-25 Encoding and decoding method and encoding and decoding apparatus for stereo signal
EP23164063.2A EP4258697A3 (en) 2017-07-25 2018-07-25 Encoding and decoding method and encoding and decoding apparatus for stereo signal
BR112020001633-0A BR112020001633A2 (pt) 2017-07-25 2018-07-25 métodos de codificação e decodificação, e aparelhos de codificação e decodificação para sinal estéreo
KR1020207004835A KR102288111B1 (ko) 2017-07-25 2018-07-25 스테레오 신호의 인코딩 및 디코딩 방법과, 인코딩 및 디코딩 장치
PCT/CN2018/096973 WO2019020045A1 (zh) 2017-07-25 2018-07-25 立体声信号的编解码方法和编解码装置
ES18839134T ES2945723T3 (es) 2017-07-25 2018-07-25 Método de codificación y decodificación y aparato de codificación y decodificación para señales estéreo
US16/751,954 US11238875B2 (en) 2017-07-25 2020-01-24 Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
US17/555,083 US11741974B2 (en) 2017-07-25 2021-12-17 Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal
US18/350,969 US20230352034A1 (en) 2017-07-25 2023-07-12 Encoding and decoding methods, and encoding and decoding apparatuses for stereo signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710614326.7A CN109300480B (zh) 2017-07-25 2017-07-25 立体声信号的编解码方法和编解码装置

Publications (2)

Publication Number Publication Date
CN109300480A true CN109300480A (zh) 2019-02-01
CN109300480B CN109300480B (zh) 2020-10-16

Family

ID=65039996

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710614326.7A Active CN109300480B (zh) 2017-07-25 2017-07-25 立体声信号的编解码方法和编解码装置

Country Status (7)

Country Link
US (3) US11238875B2 (zh)
EP (2) EP3648101B1 (zh)
KR (1) KR102288111B1 (zh)
CN (1) CN109300480B (zh)
BR (1) BR112020001633A2 (zh)
ES (1) ES2945723T3 (zh)
WO (1) WO2019020045A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151045A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
WO2022237851A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种音频编码、解码方法及装置
WO2023051367A1 (zh) * 2021-09-29 2023-04-06 华为技术有限公司 解码方法、装置、设备、存储介质及计算机程序产品
CN112151045B (zh) * 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
CN101188878A (zh) * 2007-12-05 2008-05-28 武汉大学 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构
CN101582259A (zh) * 2008-05-13 2009-11-18 华为技术有限公司 立体声信号编解码方法、装置及编解码系统
CN102292767A (zh) * 2009-01-22 2011-12-21 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
CN103460283A (zh) * 2012-04-05 2013-12-18 华为技术有限公司 确定多信道音频信号的编码参数的方法及多信道音频编码器
CN104681029A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 立体声相位参数的编码方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9082395B2 (en) 2009-03-17 2015-07-14 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
EP3035330B1 (en) * 2011-02-02 2019-11-20 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
ES2955962T3 (es) 2015-09-25 2023-12-11 Voiceage Corp Método y sistema que utiliza una diferencia de correlación a largo plazo entre los canales izquierdo y derecho para mezcla descendente en el dominio del tiempo de una señal de sonido estéreo en canales primarios y secundarios

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
CN101188878A (zh) * 2007-12-05 2008-05-28 武汉大学 一种立体声音频信号的空间参数量化及熵编码方法及其所用系统结构
CN101582259A (zh) * 2008-05-13 2009-11-18 华为技术有限公司 立体声信号编解码方法、装置及编解码系统
CN102292767A (zh) * 2009-01-22 2011-12-21 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
CN103460283A (zh) * 2012-04-05 2013-12-18 华为技术有限公司 确定多信道音频信号的编码参数的方法及多信道音频编码器
CN104681029A (zh) * 2013-11-29 2015-06-03 华为技术有限公司 立体声相位参数的编码方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112151045A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
US11887607B2 (en) 2019-06-29 2024-01-30 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus, and stereo decoding method and apparatus
CN112151045B (zh) * 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
WO2022237851A1 (zh) * 2021-05-14 2022-11-17 华为技术有限公司 一种音频编码、解码方法及装置
WO2023051367A1 (zh) * 2021-09-29 2023-04-06 华为技术有限公司 解码方法、装置、设备、存储介质及计算机程序产品

Also Published As

Publication number Publication date
US20230352034A1 (en) 2023-11-02
EP3648101A1 (en) 2020-05-06
KR20200027008A (ko) 2020-03-11
WO2019020045A1 (zh) 2019-01-31
US20200160872A1 (en) 2020-05-21
EP3648101B1 (en) 2023-04-26
KR102288111B1 (ko) 2021-08-09
EP3648101A4 (en) 2020-07-15
EP4258697A3 (en) 2023-10-25
BR112020001633A2 (pt) 2020-07-21
CN109300480B (zh) 2020-10-16
EP4258697A2 (en) 2023-10-11
US11741974B2 (en) 2023-08-29
US20220108710A1 (en) 2022-04-07
ES2945723T3 (es) 2023-07-06
US11238875B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
TWI708241B (zh) 使用不同時間/頻率解析度編碼或解碼方向性音訊寫碼參數之設備及方法
JP7053725B2 (ja) フレーム制御同期化を使用して多チャネル信号を符号化又は復号化する装置及び方法
TWI336881B (en) A computer-readable medium having stored representation of audio channels or parameters;and a method of generating an audio output signal and a computer program thereof;and an audio signal generator for generating an audio output signal and a conferencin
KR101069268B1 (ko) 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법
KR102440104B1 (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치
TWI405475B (zh) 音頻訊號之編碼及解碼裝置及其方法、電腦可讀取媒體及其系統、及可代表該音頻訊號位元流中之資料結構
EP1500083B1 (en) Parametric multi-channel audio representation
CN103915098B (zh) 音频信号编码器
CN101253806B (zh) 用于编码和解码音频信号的装置及其方法
PT1851997E (pt) Esquema codificador/descodificador multicanal transparente ou quase-transparente
IL181406A (en) Multichannel decorrelation in spatial audio coding
CN109300480A (zh) 立体声信号的编解码方法和编解码装置
CN110024421A (zh) 用于自适应控制去相关滤波器的方法和装置
TWI711034B (zh) 應用動態範圍壓縮之方法和設備以及一種非暫態電腦可讀取儲存媒體
JP2008542815A (ja) オーディオ信号のデコーディング方法及び装置
EA034250B1 (ru) Параметрическое микширование звуковых сигналов
CN109427338B (zh) 立体声信号的编码方法和编码装置
CN108206984B (zh) 利用多信道传输三维声信号的编解码器及其编解码方法
IL298724A (en) Coding of multi-channel audio signals involving mixing of a primary input channel and two or more coordinated non-primary input channels
JP5361766B2 (ja) 音信号擬似定位システム、方法及びプログラム
MX2008002713A (es) Aparato y metodo para codificar y decodificar senales de audio.
KR102672762B1 (ko) 고차 앰비소닉스 표현을 압축 및 압축해제하기 위한 방법 및 장치
KR20060122695A (ko) 오디오 신호의 디코딩 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant