CN110660400B - 立体声信号的编码、解码方法、编码装置和解码装置 - Google Patents

立体声信号的编码、解码方法、编码装置和解码装置 Download PDF

Info

Publication number
CN110660400B
CN110660400B CN201810713020.1A CN201810713020A CN110660400B CN 110660400 B CN110660400 B CN 110660400B CN 201810713020 A CN201810713020 A CN 201810713020A CN 110660400 B CN110660400 B CN 110660400B
Authority
CN
China
Prior art keywords
lsf
channel signal
lsf parameters
parameters
quantization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810713020.1A
Other languages
English (en)
Other versions
CN110660400A (zh
Inventor
艾雅·苏谟特
乔纳森·阿拉斯泰尔·吉布斯
李海婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201810713020.1A priority Critical patent/CN110660400B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202210696787.4A priority patent/CN115132214A/zh
Priority to KR1020217001234A priority patent/KR102592670B1/ko
Priority to EP24163267.8A priority patent/EP4404193A2/en
Priority to BR112020026954-9A priority patent/BR112020026954A2/pt
Priority to EP19826542.3A priority patent/EP3800637B1/en
Priority to KR1020237035513A priority patent/KR20230152156A/ko
Priority to PCT/CN2019/093403 priority patent/WO2020001569A1/zh
Publication of CN110660400A publication Critical patent/CN110660400A/zh
Priority to US17/135,548 priority patent/US11501784B2/en
Application granted granted Critical
Publication of CN110660400B publication Critical patent/CN110660400B/zh
Priority to US17/962,878 priority patent/US11776553B2/en
Priority to US18/451,975 priority patent/US20230395084A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请提供立体声信号的编码方法、解码方法、编码装置和解码装置。该编码方法包括:根据当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子;将所述当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流。本申请提供的立体声信号的编码方法、解码方法、编码装置和解码装置,有助于降低次要声道信号量化后的LSF参数的失真度,从而有助于降低出现失真偏差较大的帧的比例。

Description

立体声信号的编码、解码方法、编码装置和解码装置
技术领域
本申请涉及音频领域,并且更具体地,涉及立体声信号的编码、解码方法、编码装置和解码装置。
背景技术
一种时域立体声编码方法中,编码端首先会对立体声信号进行声道间时延差估计,并根据估计结果进行时延对齐,再对时延对齐处理后的信号进行时域下混处理,最后分别对下混处理得到的主要声道信号和次要声道信号进行编码,得到编码码流。
其中,对主要声道信号和次要声道信号进行编码可以包括:确定主要声道信号的线性预测系数(line prediction coefficient,LPC)和次要声道信号的LPC,并将主要声道信号的LPC和次要声道信号的LPC分别转换为主要声道信号的线谱频率(line spectralfrequency,LSF)参数和次要声道信号的LSF参数,然后对主要声道信号的LSF参数和次要声道信号的LSF参数进行量化编码。
对主要声道信号的LSF参数和次要声道信号的LSF参数进行量化编码的过程可以包括:对主要声道信号的LSF参数进行量化,得到主要声道信号的量化LSF参数;根据主要声道信号的LSF参数和次要声道信号的LSF参数之间的距离大小进行复用判决,若主要声道信号的LSF参数和次要声道信号的LSF参数之间的距离小于或等于阈值,则判断次要声道信号的LSF参数符合复用条件,即无需对次要声道信号的LSF参数进行量化编码,而是将判断结果写入码流。相应地,解码端可以根据该判断结果直接将主要声道信号的量化LSF参数作为次要声道信号的量化LSF参数。
该过程中,解码端直接将主要声道信号的量化LSF参数作为次要声道信号的量化LSF参数,会导致次要声道信号的量化LSF参数的失真较大,从而出现失真偏差较大的帧的比例较高,降低了解码得到的立体声信号的质量。
发明内容
本申请提供立体声信号的编码方法和编码装置,以及解码方法和解码装置,在主要声道信号的LSF参数与次要声道信号的LSF参数符合复用条件的情况下,有助于降低次要声道信号量化后的LSF参数的失真度,从而降低出现失真偏差较大的帧的比例,提高解码得到的立体声信号的质量。
一方面,提供了立体声信号的编码方法。该编码方法包括:根据当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子;当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流。
该方法中,根据主要声道信号量化后的LSF参数和次要声道信号的LSF参数先确定目标自适应扩展因子,并将目标自适应扩展因子和主要声道信号量化后的LSF参数写入码流从而传输到解码端,使得解码端可以根据该目标自适应扩展因子来确定次要声道信号量化后的LSF参数。与直接将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数相比,本方法有助于降低次要声道信号量化后的LSF参数的失真度,从而降低出现失真偏差较大的帧的比例。
结合第一方面,在第一种可能的实现方式中,根据当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子,包括:根据主要声道信号量化后的LSF参数和次要声道信号的LSF参数,计算自适应扩展因子,主要声道信号量化后的LSF参数、次要声道信号的LSF参数和自适应扩展因子β之间满足如下关系:
Figure BDA0001717117100000021
其中,LSFS为次要声道信号的LSF参数的矢量,LSFP为主要声道信号量化后的LSF参数的矢量,
Figure BDA0001717117100000022
为次要声道信号的LSF参数的均值矢量,i为矢量的索引,1≤i≤M,i为整数,M为线性预测阶数,w为加权系数;
对自适应扩展因子进行量化,以得到目标自适应扩展因子。
该实现方式中,由于确定得到的自适应扩展因子是使得主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离最小的自适应扩展因子β,因此,根据该自适应扩展因子β进行量化得到的目标自适应扩展因子确定次要声道信号量化后的LSF参数,有助于进一步降低次要声道信号的量化LSF参数的失度,从而进一步有助于降低出现失真偏差较大的帧的比例。
结合第一方面或上述任意一种可能的实现方式,在第二种可能的实现方式中,所述编码方法还包括:根据目标自适应扩展因子和主要声道信号量化后的LSF参数,确定次要声道信号量化后的LSF参数。
结合第二种可能的实现方式,在第三种可能的实现方式中,根据目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定次要声道信号量化后的LSF参数,包括:使用目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000023
其中,LSFSB表示主要声道信号扩展后的LSF参数,LSFP(i)表示主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示目标自适应扩展因子,
Figure BDA0001717117100000024
表示次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数;
根据主要声道信号扩展后的LSF参数,确定次要声道信号的量化LSF参数。
该实现方式中,可以通过对主要声道信号量化后的LSF参数进行拉伸到平均处理来得到次要声道信号量化后的LSF参数,有助于进一步减小次要声道信号量化后的LSF参数的失真度。
结合第一方面,在第四种可能的实现方式中,根据目标自适应扩展因子对主要声道信号量化后的LSF参数进行频谱扩展得到的量化LSF参数与次要声道信号的LSF参数之间的加权距离最小。
该实现方式中,由于目标自适应扩展因子是使得主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离最小的自适应扩展因子β,因此,根据目标自适应扩展因子β确定次要声道信号量化后的LSF参数,有助于进一步降低次要声道信号的量化LSF参数的失度,从而进一步有助于降低出现失真偏差较大的帧的比例。
结合第一方面,在第五种可能的实现方式中,根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数,与所述次要声道信号的LSF参数之间的加权距离最小;
其中,根据如下步骤获得根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数:
根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行转换得到线性预测系数;
对所述线性预测系数进行修正得到修正后的线性预测系数;
对所述修正后的线性预测系数进行转换得到所述根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数。
该实现方式中,由于目标自适应扩展因子是使得主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离最小的目标自适应扩展因子β,因此,根据目标自适应扩展因子β确定次要声道信号量化后的LSF参数,有助于进一步降低次要声道信号的量化LSF参数的失度,从而进一步有助于降低出现失真偏差较大的帧的比例。
其中,由于次要声道信号量化后的LSF参数为根据目标自适应因子对主要声道信号量化后的线谱参数进行频谱扩展得到的LSF参数,因此可以降低复杂度。
也就是说,根据目标自适应因子对主要声道信号量化后的LSF参数进行单级预测,将单级预测的结果作为次要声道信号量化后的LSF参数。
结合第一方面或上述任意一种可能的实现方式,在第六种可能的实现方式中,根据当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子之前,所述编码方法还包括:确定次要声道信号的LSF参数符合复用条件。
其中,确定次要声道信号的LSF参数是否符合复用条件可以参考现有技术,例如适用背景技术部分描述的判断方式。
第二方面,提供了一种立体声信号的解码方法。该解码方法包括:解码得到当前帧的主要声道信号量化后的LSF参数;解码得到当前帧立体声信号的目标自适应扩展因子;根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行扩展,以得到所述主要声道信号扩展后的LSF参数,所述主要声道信号扩展后的LSF参数即为所述当前帧的次要声道信号量化后的LSF参数或者所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数。
该方法中,根据该目标自适应扩展因子来确定次要声道信号量化后的LSF参数,与直接将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数相比,利用了主要声道信号的线性预测谱包络与次要声道信号的线性预测包络谱之间的相似性,有助于降低次要声道信号量化后的LSF参数的失真度,从而有助于降低出现失真偏差较大的帧的比例。
结合第二方面,在第一种可能的实现方式中,根据目标自适应扩展因子,对当前帧的主要声道信号量化后的LSF参数进行频谱扩展,以得到主要声道信号扩展后的LSF参数,包括:根据目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到主要声道信号扩展后的量化LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000041
其中,LSFSB表示主要声道信号扩展后的LSF参数,LSFP(i)表示主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示目标自适应扩展因子,
Figure BDA0001717117100000042
表示次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数。
该实现方式中,可以通过对主要声道信号量化后的LSF参数进行拉伸到平均处理来得到次要声道信号量化后的LSF参数,有助于进一步减小次要声道信号量化后的LSF参数的失真度。
结合第二方面,在第二种可能的实现方式中,根据目标自适应扩展因子,对当前帧的主要声道信号量化后的LSF参数进行频谱扩展,以得到主要声道信号扩展后的LSF参数,包括:对主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;根据目标自适应扩展因子对线性预测系数进行修正,以得到修正后的线性预测系数;对修正后的线性预测系数进行转换,以得到转化后的LSF参数,并将转换后的LSF参数作为主要声道信号扩展后的LSF参数。
该实现方式中,可以通过对主要声道信号量化后的LSF参数进行线性预测来得到次要声道信号量化后的LSF参数,有助于进一步减小次要声道信号量化后的LSF参数的失真度。
结合第二方面或上述任意一种可能的实现方式,在第三种可能的实现方式中,次要声道信号量化后的LSF参数为主要声道信号扩展后的LSF参数。
该实现方式可以降低复杂度。
第三方面,提供了一种立体声信号的编码装置,该编码装置包括用于执行第一方面或第一方面的任意一种可能的实现方式中的编码方法的模块。
第四方面,提供了一种立体声信号的解码装置,该解码装置包括用于执行第二方面或第二方面的任意一种可能的实现方式中的解码方法的模块。
第五方面,提供了一种立体声信号的编码装置,该编码装置包括存储器和处理器,存储器用于存储程序,处理器用于执行程序,当处理器执行存储器中的程序时,实现第一方面或第一方面的任意一种可能的实现方式中的编码方法。
第六方面,提供了一种立体声信号的解码装置,该解码装置包括存储器和处理器,存储器用于存储程序,处理器用于执行程序,当处理器执行存储器中的程序时,实现第二方面或第二方面的任意一种可能的实现方式中的解码方法。
第七方面,提供一种计算机可读存储介质,该计算机可读存储介质存储用于装置或设备执行的程序代码,该程序代码包括用于实现第一方面或第一方面的任意一种可能的实现方式中的编码方法的指令。
第八方面,提供一种计算机可读存储介质,该计算机可读存储介质存储用于装置或设备执行的程序代码,该程序代码包括用于实现第二方面或第二方面的任意一种可能的实现方式中的解码方法的指令。
第九方面,提供一种芯片,该芯片包括处理器和通信接口,该通信接口用于与外部器件进行同行,该处理器用于实现第一方面或第一方面的任意一种可能的实现方式中的编码方法。
可选地,该芯片还可以包括存储器,该存储器中存储有指令,处理器用于执行存储器中存储的指令,当该指令被执行时,处理器用于实现第一方面或第一方面的任意一种可能的实现方式中的编码方法。
可选地,该芯片可以集成在终端设备或网络设备上。
第十方面,提供一种芯片,该芯片包括处理器和通信接口,该通信接口用于与外部器件进行同行,该处理器用于实现第二方面或第二方面的任意一种可能的实现方式中的解码方法。
可选地,该芯片还可以包括存储器,该存储器中存储有指令,处理器用于执行存储器中存储的指令,当该指令被执行时,处理器用于实现第二方面或第二方面的任意一种可能的实现方式中的解码方法。
可选地,该芯片可以集成在终端设备或网络设备上。
第十一方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第一方面所述的编码方法。
第十二方面,本申请实施例提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行第二方面所述的解码方法。
附图说明
图1是本申请实施例的时域上的立体声编解码系统的结构示意图;
图2是本申请实施例的移动终端的示意图;
图3是本申请实施例的网元的示意图;
图4是对主要声道信号的LSF参数和次要声道信号的LSF参数进行量化编码的方法的示意性流程图;
图5是本申请一个实施例的立体声信号的编码方法的示意性流程图;
图6是本申请另一个实施例的立体声信号的编码方法的示意性流程图;
图7是本申请另一个实施例的立体声信号的编码方法的示意性流程图;
图8是本申请另一个实施例的立体声信号的编码方法的示意性流程图;
图9是本申请另一个实施例的立体声信号的编码方法的示意性流程图;
图10是本申请一个实施例的立体声信号的解码方法的示意性流程图;
图11是本申请一个实施例的立体声信号的编码装置的示意性结构图;
图12是本申请另一个实施例的立体声信号的解码装置的示意性结构图;
图13是本申请另一个实施例的立体声信号的编码装置的示意性结构图;
图14是本申请另一个实施例的立体声信号的解码装置的示意性结构图;
图15是主要声道信号和次要声道信号的线性预测谱包络示意图;
图16是本申请另一个实施例的立体声信号的编码方法的示意性流程图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1示出了本申请一个示例性实施例提供的时域上的立体声编解码系统的结构示意图。立体声编解码系统包括编码组件110和解码组件120。
应理解,本申请中涉及的立体声信号可以是原始的立体声信号,也可以是多声道信号中包含的两路信号组成的立体声信号,还可以是由多声道信号中包含的多路信号联合产生的两路信号组成的立体声信号。
编码组件110用于对立体声信号在时域上进行编码。可选地,编码组件110可以通过软件实现;或者,也可以通过硬件实现;或者,还可以通过软硬件结合的形式实现,本申请实施例对此不作限定。
编码组件110对立体声信号在时域上进行编码可以包括如下几个步骤:
1)对获取到的立体声信号进行时域预处理,得到时域预处理后的左声道信号和时域预处理后的右声道信号。
立体声信号可以由采集组件采集到并发送至编码组件110。可选地,采集组件可以与编码组件110设置于同一设备中;或者,也可以与编码组件110设置于不同设备中。
其中,时域预处理后的左声道信号和时域预处理后的右声道信号是预处理后的立体声信号中的两路信号。
可选地,时域预处理可以包括高通滤波处理、预加重处理、采样率转换、声道转换中的至少一种,本申请实施例对此不作限定。
2)根据时域预处理后的左声道信号和时域预处理后的右声道信号进行时延估计,得到时域预处理后的左声道信号和时域预处理后的右声道信号之间的声道间时间差。
例如,可以根据时域预处理后的左声道信号和时域预处理后的右声道信号计算左声道信号和右声道信号间的互相关函数;然后,搜索互相关函数的最大值,并将该最大值作为时域预处理后的左声道信号和预测预处理后的右声道信号之间的声道间时延差。
又如,可以根据时域预处理后的左声道信号和时域预处理后的右声道信号计算左声道信号和右声道信号间的互相关函数;然后,根据当前帧的前L帧(L为大于或等于1的整数)的左声道信号和右声道信号间的互相关函数,对当前帧的左声道信号和右声道信号间的互相关函数进行长时平滑处理,得到平滑后的互相关函数;再搜索平滑后的互相关系数的最大值,并将该最大值对应的索引值作为当前帧时域预处理后的左声道信号和时域预处理后的右声道信号间的声道间时延差。
又如,可以根据当前帧的前M帧(M为大于或等于1的整数)的声道间时延差对当前帧已经估计出的声道间时延差进行帧间平滑处理,并将平滑后的声道间时延差作为当前帧时域预处理后的左声道信号和时域预处理后的右声道信号间最终的声道间时延差。
应理解,上述声道间时延差的估计方法仅是示例,本申请实施例不限于以上所述的声道间时延差估计方法。
3)根据声道间时延差对时域预处理后的左声道信号和时域预处理后的右声道信号进行时延对齐处理,得到时延对齐处理后的左声道信号和时延对齐处理后的右声道信号。
例如,可以根据当前帧估计出的声道间时延差以及前一帧的声道间时延差,对当前帧的左声道信号或右声道信号中的一路或者两路信号进行压缩或拉伸处理,使得时延对齐处理后的左声道信号和时延对齐后的右声道信号之间不存在声道间时延差。
4)对声道间时延差进行编码,得到声道间时延差的编码索引。
5)计算用于时域下混处理的立体声参数,并对该用于时域下混处理的立体声参数进行编码,得到用于时域下混处理的立体声参数的编码索引。
其中,用于时域下混处理的立体声参数用于对时延对齐处理后的左声道信号和时延对齐处理后的右声道信号进行时域下混处理。
6)根据用于时域下混处理的立体声参数对时延对齐处理后的左声道信号和时延对齐处理后的右声道信号进行时域下混处理,得到主要声道信号和次要声道信号。
主要声道信号用于表征信道间的相关信息,也可以称为下混信号或中央声道信号;次要声道信号用于表征声道间的差异信息,也可以称为残差信号或边声道信号。
当时延对齐处理后的左声道信号和时延对齐处理后的右声道信号在时域上对齐时,次要声道信号最小,此时,立体声信号的效果最好。
7)分别对主要声道信号和次要声道信号进行编码,得到主要声道信号对应的第一单声道编码码流以及次要声道信号对应的第二单声道编码码流。
8)将声道间时延差的编码索引、立体声参数的编码索引、第一单声道编码码流和第二单声道编码码流写入立体声编码码流。
解码组件120用于对编码组件110生成的立体声编码码流进行解码,得到立体声信号。
可选地,编码组件110与解码组件120可以通过有线或无线的方式相连,解码组件120可以通过其与编码组件110之间的连接,获取编码组件110生成的立体声编码码流;或者,编码组件110可以将生成的立体声编码码流存储至存储器,解码组件120读取存储器中的立体声编码码流。
可选地,解码组件120可以通过软件实现;或者,也可以通过硬件实现;或者,还可以通过软硬件结合的形式实现,本申请实施例对此不作限定。
解码组件120对立体声编码码流进行解码,得到立体声信号的过程可以包括以下几个步骤:
1)对立体声编码码流中的第一单声道编码码流以及第二单声道编码码流进行解码,得到主要声道信号和次要声道信号。
2)根据立体声编码码流获取用于时域上混处理的立体声参数的编码索引,对主要声道信号和次要声道信号进行时域上混处理,得到时域上混处理后的左声道信号和时域上混处理后的右声道信号。
3)根据立体声编码码流获取声道间时延差的编码索引,对时域上混处理后的左声道信号和时域上混处理后的右声道信号进行时延调整,得到立体声信号。
可选地,编码组件110和解码组件120可以设置在同一设备中;或者,也可以设置在不同设备中。设备可以为手机、平板电脑、膝上型便携计算机和台式计算机、蓝牙音箱、录音笔、可穿戴式设备等具有音频信号处理功能的移动终端,也可以是核心网、无线网中具有音频信号处理能力的网元,本申请实施例对此不作限定。
示意性地,如图2所示,以编码组件110设置于移动终端130中、解码组件120设置于移动终端140中,移动终端130与移动终端140是相互独立的具有音频信号处理能力的电子设备,例如可以是手机,可穿戴设备,虚拟现实(virtual reality,VR)设备,或增强现实(augmented reality,AR)设备等等,且移动终端130与移动终端140之间通过无线或有线网络连接为例进行说明。
可选地,移动终端130可以包括采集组件131、编码组件110和信道编码组件132,其中,采集组件131与编码组件110相连,编码组件110与编码组件132相连。
可选地,移动终端140可以包括音频播放组件141、解码组件120和信道解码组件142,其中,音频播放组件141与解码组件120相连,解码组件120与信道编码组件142相连。
移动终端130通过采集组件131采集到立体声信号后,通过编码组件110对该立体声信号进行编码,得到立体声编码码流;然后,通过信道编码组件132对立体声编码码流进行编码,得到传输信号。
移动终端130通过无线或有线网络将该传输信号发送至移动终端140。
移动终端140接收到该传输信号后,通过信道解码组件142对传输信号进行解码得到立体声编码码流;通过解码组件110对立体声编码码流进行解码得到立体声信号;通过音频播放组件141播放该立体声信号。
示意性地,如图3所示,本申请实施例以编码组件110和解码组件120设置于同一核心网或无线网中具有音频信号处理能力的网元150中为例进行说明。
可选地,网元150包括信道解码组件151、解码组件120、编码组件110和信道编码组件152。其中,信道解码组件151与解码组件120相连,解码组件120与编码组件110相连,编码组件110与信道编码组件152相连。
信道解码组件151接收到其它设备发送的传输信号后,对该传输信号进行解码得到第一立体声编码码流;通过解码组件120对立体声编码码流进行解码得到立体声信号;通过编码组件110对该立体声信号进行编码,以得到第二立体声编码码流;通过信道编码组件152对该第二立体声编码码流进行编码得到传输信号。
其中,其它设备可以是具有音频信号处理能力的移动终端;或者,也可以是具有音频信号处理能力的其它网元,本申请实施例对此不作限定。
可选地,网元中的编码组件110和解码组件120可以对移动终端发送的立体声编码码流进行转码。
可选地,本申请实施例中可以将安装有编码组件110的设备称为音频编码设备,在实际实现时,该音频编码设备也可以具有音频解码功能,本申请实施对此不作限定。
可选地,本申请实施例仅以立体声信号为例进行说明,在本申请中,音频编码设备还可以处理多声道信号,该多声道信号包括至少两路声道信号。
编码组件110可以采用代数码本激励线性预测(algebraic code excited linearprediction,ACELP)编码的方法对主要声道信号和次要声道信号进行编码。
ACELP编码方法通常包括:确定主要声道信号的LPC系数和次要声道信号的LPC系数,分别将主要声道信号的LCP系数和次要声道信号的LCP系数转换成为LSF参数,对主要声道信号的LSF参数和次要声道信号的LSF参数进行量化编码;搜索自适应码激励确定基音周期及自适应码本增益,并对基音周期及自适应码本增益分别进行量化编码;搜索代数码激励确定代数码激励的脉冲索引及增益,并对代数码激励的脉冲索引及增益分别进行量化编码。
其中,编码组件110对于主要声道信号的LSF参数和次要声道信号的LSF参数进行量化编码的一种示例性方法如图4所示。
S410,根据主要声道信号确定主要声道信号的LSF参数。
S420,根据次要声道信号确定次要声道信号的LSF参数。
其中,步骤S410和步骤S420没有执行上的先后。
S430,根据主要声道信号的LSF参数和次要声道信号的LSF参数,判断次要声道信号的LSF参数是否符合复用判决条件。复用判决条件也可以简称为复用条件。
在次要声道信号的LSF参数不符合复用判决条件的情况下,进入步骤S440;在次要声道信号的LSF参数符合复用判决条件的情况下,进入步骤S450。
复用指可以通过主要声道信号量化后的LSF参数得到次要声道信号量化后的LSF参数。例如,将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数,即将主要声道信号量化后的LSF参数复用为次要声道信号量化为的LSF参数。
判断次要声道信号的LSF参数是否符合复用判决条件,可以称为对次要声道信号的LSF参数进行复用判决。
例如,复用判决条件为主要声道信号的原始LSF参数与次要声道信号的原始LSF参数之间的距离小于或等于预设的阈值时,如果主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离大于预设的阈值,则判定次要声道信号的LSF参数不符合复用判决条件,否则可以判定次要声道信号的LSF参数符合复用判决条件。
应理解,上述复用判决中使用的判定条件仅是一种示例,本申请对此并不限定。
主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离可以用于表征主要声道信号的LSF参数与次要声道信号的LSF参数之间的差异大小。
主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离可以通过多种方式来计算。
例如,可以通过下面的公式计算主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离
Figure BDA0001717117100000091
Figure BDA0001717117100000092
其中,LSFp(i)为主要声道信号的LSF参数矢量,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,wi为第i个加权系数。
Figure BDA0001717117100000093
也可以称为加权距离。上述公式只是计算主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离的一种示例性方法,还可以通过其他方法计算主要声道信号的LSF参数与次要声道信号的LSF参数之间的距离。例如,可以将主要声道信号的LSF参数与次要声道信号的LSF参数相减,等等。
对次要声道信号的原始LSF参数进行复用判决也可以称为次要声道信号的LSF参数进行量化判决。如果判决结果为进行次要声道信号的LSF参数量化,则可以对次要声道信号的原始LSF参数进行量化编码,写入码流,得到次要声道信号量化后的LSF参数。
该步骤中的判决结果可以写入码流中,以传输给解码端。
S440,对次要声道信号的LSF参数进行量化,以得到次要声道信号量化后的LSF参数;对主要声道信号的LSF参数进行量化,以得到主要声道信号量化后的LSF参数。
应理解,次要声道信号的LSF参数不符合复用判决条件的情况下,对次要声道信号的LSF参数进行量化得到次要声道信号量化后的LSF参数仅是一种示例,当然也可以使用其他方法得到次要声道信号量化后的LSF参数,本申请实施例对此不作限制。
S450,对主要声道信号的LSF参数进行量化,以得到主要声道信号量化后的LSF参数。
直接将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数,可以减少需要从编码端传递到解码端的数据量,从而减少对网络带宽的占用。
图5是本申请一个实施例的立体声信号的编码方法的示意性流程图。在编码组件110得到复用判决结果符合复用判决条件的情况下可以执行图5所示的方法。
S510,根据当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子。
当前帧的主要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数可以通过现有技术中的各个方法获取,此处不再赘述。
S530,将当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流。
该方法中,目标自适应扩展因子是根据当前帧的主要声道信号量化后的LSF参数确定的,即可以利用主要声道信号的线性预测谱包络与次要声道信号的线性预测谱包络之间的相似性(如图15所示),使得编码组件110可以不用将次要声道信号量化后的LSF参数写入码流,而是可以将目标自适应扩展因子写入码流,即可以使得解码组件120端可以根据主要声道信号量化后的LSF参数和目标自适应扩展因子得到次要声道信号量化后的LSF参数,从而有助于提高编码效率。
本申请实施例中,可选地,如图16所示,还可以包括S520,即根据所述目标自适应扩展因子和主要声道信号量化后的LSF参数,确定次要声道信号量化后的LSF参数。
应注意的是,在编码端确定次要声道信号量化后的LSF参数是用于编码端的后续处理的。例如该次要声道信号量化后的LSF参数可以用于帧间预测,获得其他参数等等。
在编码端,根据该目标自适应扩展因子和主要声道信号量化后的LSF参数来确定该次要声道量化后的LSF参数,可以使得后续操作中使用该次要声道量化后的LFS参数所得到的处理结果可以与解码端的处理结果保持一致。
在一些可能的实现方式中,如图6所示,S510可以包括:S610,采用帧内预测的方法,根据主要声道信号量化后的LSF参数,对次要声道信号的LSF参数进行预测,以得到自适应扩展因子;S620,对自适应扩展因子进行量化,以得到目标自适应扩展因子。
相应地,S520可以包括:S630,根目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到主要声道信号扩展后的LSF参数;S640,将主要声道信号扩展后的LSF参数作为次要声道信号量化后的LSF参数。
S610中对主要声道信号量化后的LSF参数进行拉伸到平均处理的过程中所采用自适应扩展因子β,应使得主要声道信号量化后的LSF参数进行频谱扩展后得到的LSF参数与次要声道信号的LSF参数之间的谱失真较小。
进一步地,对主要声道信号量化后的LSF参数进行拉伸到平均处理的过程中所采用自适应扩展因子β,可以使得主要声道信号量化后的LSF参数进行频谱扩展后得到的LSF参数与次要声道信号的LSF参数之间的谱失真最小。
为了后续描述简便,可以将主要声道信号量化后的LSF参数进行频谱扩展后得到的LSF参数称为主要声道信号频谱扩展后的LSF参数。
可以通过计算主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离来估计主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的谱失真。
主要声道信号频谱扩展后的量化LSF参数与次要声道的LSF参数之间的加权距离满足:
Figure BDA0001717117100000101
其中,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,wi为第i个加权系数。
通常情况下,可以根据编码采样率的不同而设置不同的线性预测阶数。例如,编码采样率为16KHz时,可以采用20阶线性预测,即M=20。编码采样率为12.8KHz时,可以采用16阶线性预测,即M=16。LSF参数矢量也可简称为LSF参数。
加权系数的选择对估计主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的谱失真的准确性有很大的影响。
加权系数wi可以是根据次要声道信号的LSF参数对应的线性预测滤波器的能量谱计算出来的。例如,加权系数可以满足:
wi=||A(LSFS(i))||-p
其中,A(·)表示次要声道信号的线性预测谱,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,||·||-p表示求矢量的二范数的-p次方,p为大于0且小于1的小数。通常情况下,p为取值范围可以在[0.1,0.25]之间,例如,p=0.18,p=0.25等等。
将上述公式展开后,加权系数满足:
Figure BDA0001717117100000111
其中,bi表示次要声道信号的第i个线性预测系数,i=1,……,M,M为线性预测阶数,LSFS(i)为次要声道信号的第i个LSF参数,FS为编码采样率。例如,编码采样率为16KHz,线性预测阶数M=20。
当然,也可以使用其他用于估计主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的谱失真的加权系数,本申请实施例不作限定。
假设频谱扩展后的LSF参数,满足:
Figure BDA0001717117100000112
其中,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,β为自适应扩展因子,LSFP为主要声道信号量化后的LSF参数矢量,
Figure BDA0001717117100000113
为次要声道信号的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,
那么,使得主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离最小的自适应扩展因子β满足:
Figure BDA0001717117100000114
其中,LSFS为次要声道信号的LSF参数矢量,LSFP为主要声道信号量化后的LSF参数矢量,
Figure BDA0001717117100000115
为次要声道信号的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。
也就是说,可以根据该公式计算得到自适应扩展因子。根据该公式计算得到自适应扩展因子后,可以对该自适应扩展因子进行量化,以得到目标自适应扩展因子。
S620中对自适应扩展因子进行量化的方法可以是线性的标量量化,也可以是非线性的标量量化。
例如,可以使用比较少的比特数量化该自适应扩展因子,例如1比特或者2比特。
例如,采用1比特来对自适应扩展因子进行量化时,1比特量化自适应扩展因子的码书可以用{β01}来表示。码书可以是通过预先训练得到的,例如码书中可以包括{0.95,0.70}。
量化的过程就是在码书中逐个搜索,找到码书中与计算得到的自适应扩展因子β距离最小的码字,作为目标自适应扩展因子,记作βq。码书中与计算得到的自适应扩展因子β距离最小的码字对应的索引经过编码,写入码流。
S630中,使用目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到主要声道信号扩展后的LSF参数时;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000121
其中,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,βq为目标自适应扩展因子,LSFP为主要声道信号量化后的LSF参数矢量,
Figure BDA0001717117100000122
为次要声道的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。
在一些可能的实现方式中,如图7所示,S510可以包括S710和S720,S520可以包括S730和S740。
S710,采用帧内预测的方法,根据主要声道信号量化后的LSF参数,对次要声道信号的LSF参数进行预测,以得到自适应扩展因子。
S720,对自适应扩展因子进行量化,以得到目标自适应扩展因子。
S730,根目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到主要声道信号扩展后的LSF参数。
S710至S730可以参考S610至S630,此处不再赘述。
S740,根据主要声道信号扩展后的LSF参数对次要声道信号的LSF参数进行二级预测,以得到次要声道量化后的LSF参数。
可选地,可以根据主要声道信号扩展后的LSF参数对次要声道信号的LSF参数进行二级预测,以得到次要声道信号的LSF参数的预测矢量,并将次要声道信号的LSF参数的预测矢量作为次要声道信号量化后的LSF参数。次要声道信号的LSF参数的预测矢量满足:
P_LSFS(i)=Pre{LSFSB(i)}
其中,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,P_LSFS为次要声道信号的LSF参数的预测矢量,Pre{LSFSB(i)}表示对次要声道信号的LSF参数进行二级预测。
可选地,可以根据前一帧次要声道信号量化后的LSF参数和当前帧的次要声道信号的LSF参数,采用帧间预测的方法,对次要声道信号的LSF参数进行二级预测,以得到次要声道信号的LSF参数的二级预测矢量,并根据次要声道信号的LSF参数的二级预测矢量和主要声道信号频谱扩展后的LSF参数得到次要声道信号的LSF参数的预测矢量,以及将次要声道信号的LSF参数的预测矢量作为次要声道信号量化后的LSF参数。次要声道信号的LSF参数的预测矢量满足:
P_LSFS(i)=LSFSB(i)+LSF′S(i)
其中,P_LSFS为次要声道信号的LSF参数的预测矢量,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,LSF′S为次要声道信号的LSF参数的二级预测矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。LSF参数矢量也可简称为LSF参数。
在一些可能的实现方式中,如图8所示,S510可以包括:S810,根据用于量化自适应扩展因子的码书中的码字计算主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离,以得到与各个码字对应的加权距离;S820,将与最小加权距离对应的码字作为目标自适应扩展因子。
相应地,S520可以包括:S830,将与最小加权距离对应的主要声道信号频谱扩展后的LSF参数作为次要声道信号量化后的LSF参数。
S830也可以理解为:将与目标自适应扩展因子对应的主要声道信号频谱扩展后的LSF参数作为次要声道信号量化后的LSF参数
应理解,此处将与最小加权距离对应的码字作为目标自适应扩展因子只是一种示例。例如,也可以将小于或等于预设阈值的加权距离对应的码字作为目标自适应扩展因子。
假设采用N_BITS比特来对自适应扩展因子进行量化编码,那么用于量化自适应扩展因子的码书中可以包含2N_BITS个码字,用于量化自适应扩展因子的码书可以表示为
Figure BDA0001717117100000137
根据用于量化自适应扩展因子的码书中的第n个码字βn,可以得到第n个码字对应的频谱扩展后的LSF参数LSFSB_n,进而可以计算出第n个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离WDn 2
第n个码字对应的频谱扩展后的LSF参数矢量,满足:
Figure BDA0001717117100000131
其中,LSFSB_n为第n个码字对应的频谱扩展后的LSF参数矢量,βn为用于量化自适应扩展因子的码书中的第n个码字,LSFP为主要声道信号量化后的LSF参数矢量,
Figure BDA0001717117100000132
为次要声道信号的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。
第n个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离满足:
Figure BDA0001717117100000133
其中,LSFSB_n为第n个码字对应的频谱扩展后的LSF参数矢量,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,wi为第i个加权系数。
通常情况下,可以根据编码采样率的不同设置不同的线性预测阶数。例如,编码采样率为16KHz时,可以采用20阶线性预测,即M=20;编码采样率为12.8KHz时,可以采用16阶线性预测,即M=16。
该实现方式中的加权系数的确定方法与第一种可能的实现方式中的加权系数的确定方法可以相同,此处不再赘述。
用于量化自适应扩展因子的码书中的各个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离可以表示为
Figure BDA0001717117100000134
搜索
Figure BDA0001717117100000135
中的最小值。最小值对应的码字索引beta_index满足:
Figure BDA0001717117100000136
该最小值对应的码字就是量化后的自适应扩展因子,即:βq=βbeta_index
下面以采用1比特来对自适应扩展因子进行量化编码为例,介绍根据主要声道信号量化后的LSF参数和次要声道信号的LSF参数,确定目标自适应扩展因子的第二种可能的实现方式。
1比特用于量化自适应扩展因子的码书可以用{β01}来表示。码书可以通过预先训练得到,如{0.95,0.70}。
根据用于量化自适应扩展因子的码书中的第1个码字β0,可以得到第1个码字对应的频谱扩展后的LSF参数LSFSB_0
Figure BDA0001717117100000141
根据用于量化自适应扩展因子的码书中的第2个码字β1,可以得到第2个码字对应的频谱扩展后的LSF参数LSFSB_1
Figure BDA0001717117100000142
其中,LSFSB_0为第1个码字对应的频谱扩展后的LSF参数矢量,β0为用于量化自适应扩展因子的码书中的第1码字,LSFSB_1为第2个码字对应的频谱扩展后的LSF参数矢量,β1为用于量化自适应扩展因子的码书中的第2个码字,LSFP为主要声道信号量化后的LSF参数矢量,
Figure BDA0001717117100000143
为次要声道信号的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。
然后,可以计算出第1个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离WD0 2,WD0 2满足:
Figure BDA0001717117100000144
第2个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离WD1 2满足:
Figure BDA0001717117100000145
其中,LSFSB_0为第1个码字对应的频谱扩展后的LSF参数矢量,LSFSB_1为第1个码字对应的频谱扩展后的LSF参数矢量,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,wi为第i个加权系数。
通常情况下,可以根据编码采样率的不同设置不同的线性预测阶数。例如,编码采样率为16KHz时,可以采用20阶线性预测,即M=20;编码采样率为12.8KHz时,可以采用16阶线性预测,即M=16。LSF参数矢量也可简称为LSF参数。
用于量化自适应扩展因子的码书中的各个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离可以表示为{WD0 2,WD1 2}。搜索{WD0 2,WD1 2}中的最小值。该最小值对应的码字索引beta_index满足:
Figure BDA0001717117100000146
最小值对应的码字就是目标自适应扩展因子,即:βq=βbeta_index
在一些可能的实现方式中,如图9所示,S510可以包括:S910和S920,S520可以包括S930。
S910,根据用于量化自适应扩展因子的码书中的码字计算主要声道信号频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离,以得到与各个码字对应的加权距离。
S920,将与最小加权距离对应的码字作为目标自适应扩展因子。
S910和S920可以参考S810和S820,此处不再赘述。
S930,根据主要声道信号频谱扩展后、与最小加权距离对应LSF,对次要声道信号的LSF参数进行二级预测,以得到次要声道信号量化后的LSF参数。
该步骤可以参考S740,此处不再赘述。
在一些可能的实现方式中,S510可以包括:将用于量化自适应扩展因子的码书中的第二码字确定为目标自适应扩展因子,其中,根据第二码字对主要声道信号量化后的LSF参数转换得到线性预测系数,对线性预测系数进行修正得到频谱扩展后的的线性预测系数,并对所述频谱扩展后的线性预测系数进行转换后得到的频谱扩展后的LSF参数,与次要声道信号的LSF参数之间的加权距离最小;S520可以包括:将根据目标自适应因子对主要声道信号量化后的LSF参数进行频谱扩展得到的LSF参数,作为次要声道信号量化后的LSF参数。
其中,将用于量化自适应扩展因子的码书中的第二码字确定为目标自适应扩展因子,可以通过以下几个步骤来实现。
步骤一,将主要声道信号量化后的LSF参数转换到线性预测系数。
步骤二,根据用于量化自适应扩展因子的码书中的各个码字,对线性预测系数进行修正,以得到各个码字对应的频谱扩展后的线性预测系数。
假设采用N_BITS比特来对自适应扩展因子进行量化编码,那么用于量化自适应扩展因子的码书中可以包含2N_BITS个码字,用于量化自适应扩展因子的码书可以表示为
Figure BDA0001717117100000151
若将主要声道信号量化后的LSF参数转换到线性预测系数后获得的线性预测系数记作{ai},i=1,…,M,M为线性预测阶数。
则2N_BITS个码字中的第n个码字对应的修正后的线性预测器的传递函数满足:
Figure BDA0001717117100000152
其中,ai为将主要声道信号量化后的LSF参数转换到线性预测系数后获得的线性预测系数,βn为用于量化自适应扩展因子的码书中的第n个码字,M为线性预测阶数,n=0,1,…,2N_BITS-1。
那么,第n个码字对应的频谱扩展后的线性预测满足:
an′i=aiβn i,i=1,……,M
α′0=1
其中,ai为将主要声道信号量化后的线谱频谱参数转换到线性预测系数后获得的线性预测系数,an′i为第n个码字对应的频谱扩展后的线性预测系数,βn为用于量化自适应扩展因子的码书中的第n个码字,M为线性预测阶数,n=0,1,…,2N_BITS-1。
步骤三,将各个码字对应的频谱扩展后的线性预测系数转换到LSF参数,从而得到各个码字对应的频谱扩展后的LSF参数。
将线性预测系数转换到LSF参数的方法可以参考现有技术,此处不再赘述。第n个码字对应的频谱扩展后的LSF参数可以记作LSFSB_n,n=0,1,…,2N_BITS-1。
步骤四,计算各个码字对应的频谱扩展后的LSF参数与次要声道信号的线谱频谱参数之间的加权距离,以得到量化后的自适应扩展因子和次要声道信号的LSF参数的帧内预测矢量。
第n个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离满足:
Figure BDA0001717117100000161
其中,LSFSB_n为第n个码字对应的频谱扩展后的LSF参数矢量,LSFS为次要声道信号的LSF参数矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数,wi为第i个加权系数。
通常情况下,可以根据编码采样率不同而设置不同的线性预测阶数。例如,编码采样率为16KHz时,可以采用20阶线性预测,即M=20。编码采样率为12.8KHz时,可以采用16阶线性预测,即M=16。LSF参数矢量也可简称为LSF参数。
加权系数可以满足:
Figure BDA0001717117100000162
其中,bi表示次要声道信号的第i个线性预测系数,i=1,……,M,M为线性预测阶数,LSFS(i)为次要声道信号的第i个LSF参数,FS为编码采样率或线性预测处理的采样率。例如,线性预测处理的采样率为可以取12.8KHz,线性预测阶数M=16。
用于量化自适应扩展因子的码书中各个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离可以表示为
Figure BDA0001717117100000163
搜索用于量化自适应扩展因子的码书中各个码字对应的频谱扩展后的LSF参数与次要声道信号的LSF参数之间的加权距离中的最小值。该最小值对应的码字索引beta_index满足:
Figure BDA0001717117100000164
该最小值对应的码字可以作为量化后的自适应扩展因子,即:
βq=βbeta_index
码字索引beta_index对应的频谱扩展后的LSF参数,可以作为次要声道的LSF参数的帧内预测矢量,即
LSFSB(i)=LSFSB_beta_index(i)。
其中,LSFSB为次要声道信号的LSF参数的帧内预测矢量,LSFSB_beta_index为码字索引beta_index对应的频谱扩展后的LSF参数,i=1,……,M,M为线性预测阶数。
通过上述步骤得到次要声道信号的LSF参数的帧内预测矢量后,可以将次要声道信号的LSF参数的帧内预测矢量作为次要声道信号量化后的LSF参数。
可选地,也可以将次要声道信号的LSF参数进行二级预测,从而得到次要声道信号量化后的LSF参数。具体实现方式可以参考S740,此处不再赘述。
应理解,S520中,可选地,还可以对次要声道信号的LSF参数进行二级预测以上的多级预测。进行二级预测以上的预测时,可以使用现有技术中现有的任意方法,此处不再赘述。
上述内容介绍了在编码组件110端,如何根据主要声道信号量化后的LSF参数和次要声道信号的原始LSF参数获得用于编码端确定次要声道信号量化后的LSF参数的自适应扩展因子,以降低编码端根据该自适应扩展因子确定得到的次要声道信号量化后的LSF参数的失真度,从而降低帧的失真率。
应理解,编码组件110确定得到该自适应扩展因子后,可以对该自适应扩展因子进行量化编码,写入码流,以传输给解码端,让解码端可以根据该自适应扩展因子和主要声道信号量化后的LSF参数确定次要声道信号量化后的LSF参数,从而可以提高解码端得到的次要声道信号量化后的LSF参数的失真度,从而降低帧失真率。
通常情况下,解码组件120解码主要声道信号的解码方法与编码组件110编码主要声道信号的方法相对应,同理,解码组件120解码次要声道信号的解码方法与编码组件110编码次要声道信号的方法相对应。
例如,编码组件110如果采用了ACELP编码方法,则解码组件120也要相应的采用ACELP解码方法。采用ACELP解码方法包解码主要声道信号包括对主要声道信号的LSF参数进行解码,同样,采用ACELP解码方法次要声道信号的包括了对次要声道信号的LSF参数进行解码。
其中,对主要声道信号的LSF参数和次要声道信号的LSF参数进行解码的过程可以包括如下步骤:
解码主要声道信号的LSF参数,以得到主要声道信号量化后的LSF参数;
解码次要声道信号的LSF参数的复用判决结果;
如果复用判决结果不符合复用判决条件,则对次要声道信号的LSF参数进行解码,以得到次要声道信号量化后的LSF参数(仅是一种示例);
如果复用判决结果符合复用判决条件,则将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数。
解码组件120在复用判决结果符合复用判决条件的情况下,直接将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数,会增大次要声道信号量化后的LSF参数的失真度,从而增大帧失真率。
针对上述次要声道信号的LSF参数失真度较大,从而增大帧失真率的技术问题,本申请提出了一种新的解码方法。
图10是本申请一个实施例的解码方法的示意性流程图。在解码组件120得到复用判决结果符合复用条件的情况下可以执行图10所示的解码方法。
S1010,解码得到当前帧的主要声道信号量化后的LSF参数。
例如,解码组件120根据接收到的码流解码得到自适应扩展因子的编码索引beta_index,并根据自适应扩展因子的编码索引beta_index,在码书中找到编码索引beta_index对应的码字,即为目标自适应扩展因子,记作βq,βq满足:
βq=βbeta_index
其中,βbeta_index为码书中编码索引beta_index对应的码字。
S1020,解码得到当前帧立体声信号的目标自适应扩展因子。
S1030,根据目标自适应扩展因子,对当前帧的主要声道信号量化后的LSF参数进行频谱扩展,以得到主要声道信号扩展后的LSF参数。
在一些可能的实现方式中,可以根据下面的公式计算得到主要声道信号扩展后的LSF参数:
Figure BDA0001717117100000171
其中,LSFSB为主要声道信号频谱扩展后的LSF参数矢量,βq为量化后的自适应扩展因子,LSFP为量化后的主要声道的LSF参数矢量,
Figure BDA0001717117100000172
为次要声道的LSF参数的均值矢量,i为矢量的索引,i=1,……,M,M为线性预测阶数。
在另一些可能的实现方式中,根据目标自适应扩展因子,对当前帧的主要声道信号量化后的LSF参数进行频谱扩展,以得到主要声道信号扩展后的LSF参数,可以包括:对主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;根据目标自适应扩展因子对线性预测系数进行修正,以得到修正后的线性预测系数;对修正后的线性预测系数进行转换,以得到转化后的LSF参数,转换后的LSF参数作为主要声道信号扩展后的LSF参数。
在一些可能的实现方式中,所述主要声道信号扩展后的LSF参数即为所述当前帧的次要声道信号量化后的LSF参数,即可以将主要声道信号扩展后的LSF参数,直接作为次要声道信号量化后的LSF参数。
在另一些可能的实现方式中,所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数,例如可以对次要声道信号的LSF参数进行二级预测或多级预测,以得到次要声道信号量化后的LSF参数。例如,可以使用现有技术中的预测方式对主要声道信号扩展后的LSF参数再次进行预测,以得到次要声道信号量化后的LSF参数。该步骤可以参考编码组件110中的实现方式,此处不再赘述。
本申请实施例中,利用主要声道信号的之间在谱结构和共振峰位置具有相似性的特点,来根据主要声道信号量化后的LSF参数来确定次要声道信号的LSF参数。这与直接将主要声道信号量化后的LSF参数作为次要声道信号量化后的LSF参数相比,不仅可以充分利用主要声道信号量化后的LSF参数,以节省编码效率,还有助于保留次要声道信号的LSF参数的特征,从而可以提高次要声道信号的LSF参数的失真度。
图11是本申请实施例的编码装置1100的示意性框图。应理解,编码装置1100仅是一种示例。
在一些实施方式中,确定模块1110和编码模块1120可以包括在移动终端130或网元150的编码组件110中。
确定模块1110,用于根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子。
编码模块1120,用于将当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流。
可选地,确定模块具体用于:
根据所述主要声道信号量化后的LSF参数和所述次要声道信号的LSF参数,计算自适应扩展因子,所述主要声道信号量化后的LSF参数、所述次要声道信号的LSF参数和所述自适应扩展因子之间满足如下关系:
Figure BDA0001717117100000181
其中,LSFS为所述次要声道信号的LSF参数的矢量,LSFP为所述主要声道信号量化后的LSF参数的矢量,
Figure BDA0001717117100000182
为所述次要声道信号的LSF参数的均值矢量,i为矢量的索引,1≤i≤M,i为整数,M为线性预测阶数,w为加权系数;
对所述自适应扩展因子进行量化,以得到所述目标自适应扩展因子。
可选地,确定模块具体用于:
使用所述目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000191
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure BDA0001717117100000192
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数;
根据所述主要声道信号扩展后的LSF参数,确定所述次要声道信号量化后的LSF参数。
可选地,根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行频谱扩展得到的LSF参数,与所述次要声道信号的LSF参数之间的加权距离最小。
可选地,根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数,与所述次要声道信号的LSF参数之间的加权距离最小。
其中,确定模块具体用于根据如下步骤获得根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数:
根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行转换得到线性预测系数;
对所述线性预测系数进行修正得到修正后的线性预测系数;
对所述修正后的线性预测系数进行转换得到所述根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数。
可选地,所述确定模块还用于根据所述目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定所述次要声道信号量化后的LSF参数。
可选地,所述次要声道信号量化后的LSF参数为根据所述目标自适应因子对所述主要声道信号量化后的LSF参数进行频谱扩展得到的LSF参数。
所述确定模块根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子之前,还用于:确定所述次要声道信号的LSF参数符合复用条件。
编码装置1100可以执行图5描述的方法,为了简洁,此处不再赘述。
图12是本申请实施例的解码装置1200的示意性框图。应理解,解码装置1200仅是一种示例。
在一些实施方式中,解码模块1220、频谱扩展模块1230和确定模块1240均可以包括在移动终端140或网元150的解码组件120中。
解码模块1220,用于解码得到所述当前帧的主要声道信号量化后的LSF参数。
解码模块1220还用于解码得到当前帧立体声信号的目标自适应扩展因子。
频谱扩展模块1230,用于所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数。
可选地,频谱扩展模块1230具体用于:
根据所述目标自适应扩展因子,对所述主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000201
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure BDA0001717117100000202
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数。
可选地,频谱扩展模块1230具体用于:对所述主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;根据所述目标自适应扩展因子对所述线性预测系数进行修正,以得到修正后的线性预测系数;对所述修正后的线性预测系数进行转换,以得到转化后的LSF参数,所述转换后的LSF参数作为所述主要声道信号扩展后的LSF参数。
可选地,所述次要声道信号量化后的LSF参数为所述主要声道信号扩展后的LSF参数。
解码装置1200可以执行图10描述的解码方法,为了简洁,此处不再赘述。
图13是本申请实施例的编码装置1300的示意性框图。应理解,编码装置1300仅是一种示例。
存储器1310用于存储程序。
处理器1320用于执行所述存储器中存储的程序,当所述存储器中的程序被执行时,处理器1320用于:根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子;将所述当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流。
可选地,所述处理器用于:
根据所述主要声道信号量化后的LSF参数和所述次要声道信号的LSF参数,计算自适应扩展因子,所述主要声道信号量化后的LSF参数、所述次要声道信号的LSF参数和所述自适应扩展因子之间满足如下关系:
Figure BDA0001717117100000203
其中,LSFS为所述次要声道信号的LSF参数的矢量,LSFP为所述主要声道信号量化后的LSF参数的矢量,
Figure BDA0001717117100000204
为所述次要声道信号的LSF参数的均值矢量,i为矢量的索引,1≤i≤M,i为整数,M为线性预测阶数,w为加权系数;
对所述自适应扩展因子进行量化,以得到所述目标自适应扩展因子。
可选地,所述处理器用于:
使用所述目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000205
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure BDA0001717117100000206
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数;
根据所述主要声道信号扩展后的LSF参数,确定所述次要声道信号量化后的LSF参数。
可选地,根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行频谱扩展得到的LSF参数,与所述次要声道信号的LSF参数之间的加权距离最小。
可选地,根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数,与所述次要声道信号的LSF参数之间的加权距离最小。
其中,所述处理器具体用于根据如下步骤获得根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数:根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行转换得到线性预测系数;对所述线性预测系数进行修正得到修正后的线性预测系数;对所述修正后的线性预测系数进行转换得到所述根据所述目标自适应扩展因子对所述主要声道信号进行频谱扩展得到的LSF参数。
可选地,所述次要声道信号量化后的LSF参数为根据所述目标自适应因子对所述主要声道信号量化后的LSF参数进行频谱扩展得到的LSF参数。
可选地,所述处理器根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子之前,还用于:确定所述次要声道信号的LSF参数符合复用条件。
编码装置1300可以用于执行图5描述的编码方法方法,为了简洁,此处不再赘述。
图14是本申请实施例的解码装置1400的示意性框图。应理解,解码装置1400仅是一种示例。
存储器1410用于存储程序。
处理器1420用于执行所述存储器中存储的程序,当所述存储器中的程序被执行时,所述处理器用于:解码得到当前帧的主要声道信号量化后的LSF参数;解码得到所述当前帧立体声信号的目标自适应扩展因子;所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数。
可选地,所述处理器用于:
根据所述目标自适应扩展因子,对所述主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure BDA0001717117100000211
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure BDA0001717117100000212
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数。
可选地,所述处理器用于:对所述主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;根据所述目标自适应扩展因子对所述线性预测系数进行修正,以得到修正后的线性预测系数;对所述修正后的线性预测系数进行转换,以得到转化后的LSF参数,所述转换后的LSF参数作为所述主要声道信号扩展后的LSF参数。
可选地,所述次要声道信号量化后的LSF参数为所述主要声道信号扩展后的LSF参数。
解码装置1400可以用于执行图10描述的解码方法,为了简洁,此处不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM,)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种立体声信号的编码方法,其特征在于,包括:
根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子,所述目标自适应扩展因子用于确定所述当前帧的次要声道信号量化后的LSF参数;
将所述当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流;
其中,所述根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子,包括:
根据所述主要声道信号量化后的LSF参数和所述次要声道信号的LSF参数,计算自适应扩展因子,所述主要声道信号量化后的LSF参数、所述次要声道信号的LSF参数和所述自适应扩展因子之间满足如下关系:
Figure FDA0003569539740000011
其中,LSFS为所述次要声道信号的LSF参数的矢量,LSFP为所述主要声道信号量化后的LSF参数的矢量,
Figure FDA0003569539740000012
为所述次要声道信号的LSF参数的均值矢量,i为矢量的索引,1≤i≤M,i为整数,M为线性预测阶数,w为加权系数;
对所述自适应扩展因子进行量化,以得到所述目标自适应扩展因子。
2.根据权利要求1所述的编码方法,其特征在于,所述编码方法还包括:
根据所述目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定所述次要声道信号量化后的LSF参数。
3.根据权利要求2所述的编码方法,其特征在于,所述根据所述目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定所述次要声道信号量化后的LSF参数,包括:
使用所述目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure FDA0003569539740000013
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure FDA0003569539740000014
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数;
根据所述主要声道信号扩展后的LSF参数,确定所述次要声道信号量化后的LSF参数。
4.根据权利要求1所述的编码方法,其特征在于,所述根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子之前,所述编码方法还包括:
确定所述次要声道信号的LSF参数符合复用条件。
5.一种立体声信号的解码方法,其特征在于,包括:
解码得到当前帧的主要声道信号量化后的LSF参数;
解码得到所述当前帧立体声信号的目标自适应扩展因子,所述目标自适应扩展因子用于确定所述当前帧的次要声道信号量化后的LSF参数;
根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行扩展,以得到所述主要声道信号扩展后的LSF参数,所述主要声道信号扩展后的LSF参数即为所述当前帧的次要声道信号量化后的LSF参数或者所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数;
其中,所述根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行扩展,以得到所述主要声道信号扩展后的LSF参数,包括:
根据所述目标自适应扩展因子,对所述主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure FDA0003569539740000021
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure FDA0003569539740000022
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数。
6.根权利要求5所述的解码方法,其特征在于,所述根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行扩展,以得到所述主要声道信号扩展后的LSF参数,包括:
对所述主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;
根据所述目标自适应扩展因子对所述线性预测系数进行修正,以得到修正后的线性预测系数;
对所述修正后的线性预测系数进行转换,以得到转化后的LSF参数,所述转换后的LSF参数作为所述主要声道信号扩展后的LSF参数。
7.一种立体声信号的编码装置,其特征在于,包括存储器和处理器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中存储的程序,当所述存储器中的程序被执行时,所述处理器用于:
根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子,所述目标自适应扩展因子用于确定所述当前帧的次要声道信号量化后的LSF参数;
将所述当前帧的主要声道信号量化后的LSF参数和所述目标自适应扩展因子写入码流;
其中,所述处理器用于根据如下计算式计算自适应扩展因子:
Figure FDA0003569539740000023
其中,LSFS为所述次要声道信号的LSF参数的矢量,LSFP为所述主要声道信号量化后的LSF参数的矢量,
Figure FDA0003569539740000024
为所述次要声道信号的LSF参数的均值矢量,i为矢量的索引,1≤i≤M,i为整数,M为线性预测阶数,w为加权系数;
对所述自适应扩展因子进行量化,以得到所述目标自适应扩展因子。
8.根据权利要求7所述的编码装置,其特征在于,所述处理器还用于:
根据所述目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定所述次要声道信号量化后的LSF参数。
9.根据权利要求8所述的编码装置,其特征在于,在根据所述目标自适应扩展因子和所述主要声道信号量化后的LSF参数,确定所述次要声道信号量化后的LSF参数时,所述处理器用于:
使用所述目标自适应扩展因子,对主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure FDA0003569539740000031
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure FDA0003569539740000032
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数;
根据所述主要声道信号扩展后的LSF参数,确定所述次要声道信号量化后的LSF参数。
10.根据权利要求7所述的编码装置,其特征在于,所述处理器还用于:
确定所述次要声道信号的LSF参数是否符合复用条件;
在确定所述次要声道信号的LSF参数符合所述复用条件时,所述处理器才根据当前帧的主要声道信号量化后的LSF参数和所述当前帧的次要声道信号的LSF参数,确定目标自适应扩展因子。
11.一种立体声信号的解码装置,其特征在于,包括存储器和处理器;
所述存储器用于存储程序;
所述处理器用于执行所述存储器中存储的程序,当所述存储器中的程序被执行时,所述处理器用于:
解码得到当前帧的主要声道信号量化后的LSF参数;
解码得到所述当前帧立体声信号的目标自适应扩展因子,所述目标自适应扩展因子用于确定所述当前帧的次要声道信号量化后的LSF参数;
根据所述目标自适应扩展因子对所述主要声道信号量化后的LSF参数进行扩展,以得到所述主要声道信号扩展后的LSF参数,所述主要声道信号扩展后的LSF参数即为所述当前帧的次要声道信号量化后的LSF参数或者所述主要声道信号扩展后的LSF参数被用于确定所述当前帧的次要声道信号量化后的LSF参数;
其中,所述处理器用于:
根据所述目标自适应扩展因子,对所述主要声道信号量化后的LSF参数进行拉伸到平均处理,以得到所述主要声道信号扩展后的LSF参数;其中,所述拉伸到平均处理采用如下公式进行:
Figure FDA0003569539740000033
其中,LSFSB表示所述主要声道信号扩展后的LSF参数,LSFP(i)表示所述主要声道信号量化后的LSF参数的矢量,i表示矢量索引,βq表示所述目标自适应扩展因子,
Figure FDA0003569539740000034
表示所述次要声道信号的LSF参数的均值矢量,1≤i≤M,i为整数,M表示线性预测参数。
12.根权利要求11所述的解码装置,其特征在于,所述处理器用于:
对所述主要声道信号量化后的LSF参数进行转换,以得到线性预测系数;
根据所述目标自适应扩展因子对所述线性预测系数进行修正,以得到修正后的线性预测系数;
对所述修正后的线性预测系数进行转换,以得到转化后的LSF参数,所述转换后的LSF参数作为所述主要声道信号扩展后的LSF参数。
CN201810713020.1A 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置 Active CN110660400B (zh)

Priority Applications (11)

Application Number Priority Date Filing Date Title
CN202210696787.4A CN115132214A (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置
CN201810713020.1A CN110660400B (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置
PCT/CN2019/093403 WO2020001569A1 (zh) 2018-06-29 2019-06-27 立体声信号的编码、解码方法、编码装置和解码装置
BR112020026954-9A BR112020026954A2 (pt) 2018-06-29 2019-06-27 Método e aparelho de codificação de sinal estéreo, e método e aparelho de decodificação de sinal estéreo
EP19826542.3A EP3800637B1 (en) 2018-06-29 2019-06-27 Encoding and decoding method for stereo audio signal, encoding device, and decoding device
KR1020237035513A KR20230152156A (ko) 2018-06-29 2019-06-27 스테레오 오디오 신호에 대한 인코딩 및 디코딩 방법, 인코딩 디바이스, 및 디코딩 디바이스
KR1020217001234A KR102592670B1 (ko) 2018-06-29 2019-06-27 스테레오 오디오 신호에 대한 인코딩 및 디코딩 방법, 인코딩 디바이스, 및 디코딩 디바이스
EP24163267.8A EP4404193A2 (en) 2018-06-29 2019-06-27 Stereo signal encoding method and apparatus, and stereo signal decoding method and apparatus
US17/135,548 US11501784B2 (en) 2018-06-29 2020-12-28 Stereo signal encoding method and apparatus, and stereo signal decoding method and apparatus
US17/962,878 US11776553B2 (en) 2018-06-29 2022-10-10 Audio signal encoding method and apparatus
US18/451,975 US20230395084A1 (en) 2018-06-29 2023-08-18 Audio Signal Encoding Method and Apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810713020.1A CN110660400B (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210696787.4A Division CN115132214A (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置

Publications (2)

Publication Number Publication Date
CN110660400A CN110660400A (zh) 2020-01-07
CN110660400B true CN110660400B (zh) 2022-07-12

Family

ID=68986261

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210696787.4A Pending CN115132214A (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置
CN201810713020.1A Active CN110660400B (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210696787.4A Pending CN115132214A (zh) 2018-06-29 2018-06-29 立体声信号的编码、解码方法、编码装置和解码装置

Country Status (6)

Country Link
US (3) US11501784B2 (zh)
EP (2) EP3800637B1 (zh)
KR (2) KR20230152156A (zh)
CN (2) CN115132214A (zh)
BR (1) BR112020026954A2 (zh)
WO (1) WO2020001569A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101335000A (zh) * 2008-03-26 2008-12-31 华为技术有限公司 编码、解码的方法及装置
WO2010086194A2 (en) * 2009-01-30 2010-08-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
CN101933087A (zh) * 2008-01-31 2010-12-29 弗劳恩霍夫应用研究促进协会 用于音频信号带宽扩展的设备和方法
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN105593931A (zh) * 2013-07-22 2016-05-18 弗劳恩霍夫应用研究促进协会 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序
WO2017125544A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
EP1912206B1 (en) 2005-08-31 2013-01-09 Panasonic Corporation Stereo encoding device, stereo decoding device, and stereo encoding method
WO2008016098A1 (fr) * 2006-08-04 2008-02-07 Panasonic Corporation dispositif de codage audio stéréo, dispositif de décodage audio stéréo et procédé de ceux-ci
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置
EP2671222B1 (en) * 2011-02-02 2016-03-02 Telefonaktiebolaget LM Ericsson (publ) Determining the inter-channel time difference of a multi-channel audio signal
JP6063555B2 (ja) * 2012-04-05 2017-01-18 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオエンコーダ及びマルチチャネルオーディオ信号を符号化する方法
EP2838086A1 (en) * 2013-07-22 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. In an reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment
EP3084761B1 (en) * 2013-12-17 2020-03-25 Nokia Technologies Oy Audio signal encoder
EP4235659A3 (en) * 2015-09-25 2023-09-06 VoiceAge Corporation Method and system using a long-term correlation difference between left and right channels for time domain down mixing a stereo sound signal into primary and secondary channels
PT3539125T (pt) * 2016-11-08 2023-01-27 Fraunhofer Ges Forschung Aparelho e método para codificar ou descodificar um sinal multicanal utilizando um ganho side e um ganho residual

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101933087A (zh) * 2008-01-31 2010-12-29 弗劳恩霍夫应用研究促进协会 用于音频信号带宽扩展的设备和方法
CN101335000A (zh) * 2008-03-26 2008-12-31 华为技术有限公司 编码、解码的方法及装置
WO2010086194A2 (en) * 2009-01-30 2010-08-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
CN105593931A (zh) * 2013-07-22 2016-05-18 弗劳恩霍夫应用研究促进协会 使用联合编码残余信号的音频编码器、音频解码器、方法及计算机程序
CN105336333A (zh) * 2014-08-12 2016-02-17 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器
WO2017125544A1 (en) * 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for mdct m/s stereo with global ild with improved mid/side decision

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Audio coding using a psychoacoustic pre- and post-filter";B. Edler 等;《 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing》;20020806;全文 *
"基于码激励线性预测的低速率语音编码算法的设计和实现";龚柱;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20160415;全文 *

Also Published As

Publication number Publication date
WO2020001569A1 (zh) 2020-01-02
CN110660400A (zh) 2020-01-07
CN115132214A (zh) 2022-09-30
EP4404193A2 (en) 2024-07-24
KR20210019546A (ko) 2021-02-22
US20230395084A1 (en) 2023-12-07
EP3800637A4 (en) 2021-08-25
US11776553B2 (en) 2023-10-03
KR102592670B1 (ko) 2023-10-24
KR20230152156A (ko) 2023-11-02
EP3800637B1 (en) 2024-05-08
US20230039606A1 (en) 2023-02-09
US20210118455A1 (en) 2021-04-22
EP3800637A1 (en) 2021-04-07
US11501784B2 (en) 2022-11-15
BR112020026954A2 (pt) 2021-03-30

Similar Documents

Publication Publication Date Title
JP2024102106A (ja) ステレオ信号符号化方法および装置、ならびにステレオ信号復号方法および装置
US20240274136A1 (en) Method and apparatus for determining weighting factor during stereo signal encoding
CN109427338B (zh) 立体声信号的编码方法和编码装置
KR102353050B1 (ko) 스테레오 신호 인코딩에서의 신호 재구성 방법 및 디바이스
US20220335961A1 (en) Audio signal encoding method and apparatus, and audio signal decoding method and apparatus
CN110660400B (zh) 立体声信号的编码、解码方法、编码装置和解码装置
US12057130B2 (en) Audio signal encoding method and apparatus, and audio signal decoding method and apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant