CN110050304A - 用于处理包络表示系数的方法、编码器和解码器 - Google Patents

用于处理包络表示系数的方法、编码器和解码器 Download PDF

Info

Publication number
CN110050304A
CN110050304A CN201780075965.9A CN201780075965A CN110050304A CN 110050304 A CN110050304 A CN 110050304A CN 201780075965 A CN201780075965 A CN 201780075965A CN 110050304 A CN110050304 A CN 110050304A
Authority
CN
China
Prior art keywords
envelope
coefficient
indicates
residual error
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780075965.9A
Other languages
English (en)
Other versions
CN110050304B (zh
Inventor
乔纳斯·斯韦德贝里
马丁·绍尔斯戴德
斯蒂芬·布鲁恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Priority to CN202211569599.1A priority Critical patent/CN116343804A/zh
Publication of CN110050304A publication Critical patent/CN110050304A/zh
Application granted granted Critical
Publication of CN110050304B publication Critical patent/CN110050304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

提出了用于处理输入包络表示系数的机制。一种由通信系统的编码器执行的方法。该方法包括根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数。该方法包括将包络表示残差系数变换到变形域,以获得变换的包络表示残差系数。该方法包括对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中该多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中。该方法包括通过通信信道向解码器发送第一压缩包络表示系数、增益形状编码的包络表示残差系数以及关于所应用的至少一个增益形状编码方案的信息的表示。

Description

用于处理包络表示系数的方法、编码器和解码器
技术领域
本实施例一般涉及语音以及音频编码和解码,尤其涉及对包络表示系数的处理。
背景技术
当在发送单元的编码器处处理诸如语音信号的音频信号时,使用例如线性预测编码LPC以压缩形式来数字地表示音频信号。由于LPC系数对失真(通信网络中从发送单元发送给接收单元的信号可能发生失真)敏感,因此LPC系数可以被变换为编码器处的包络表示系数。此外,包络表示系数可以被压缩(即编码),以节省发送单元和接收单元之间的通信接口上的带宽。
频谱包络的另一使用是:基于量化的频谱包络,应用去除均值的归一化频率包络以在量化之前缩放频域信号,以控制频率位置和在这些频率位置的频谱线量化中引入的频谱线量化误差的幅度。去除均值的归一化频率包络可被表示为比例因子的矢量。
LSF系数提供频谱包络的紧凑表示,特别适用于语音信号。在语音和音频编码器中使用LSF系数来表示和发送要编码的信号的包络。LSF通常是基于线性预测的表示。LSF包括范围从0到pi的角度的有序集合,或等效的从0到Fs/2的频率的集合,其中Fs是时域信号的采样频率。可以在编码器侧量化LSF系数,然后将其发送给解码器侧。由于LSF系数的排序属性,LSF系数对于量化误差是鲁棒的。作为另一个好处,输入LSF系数值被容易地用于权衡每个单独LSF系数的量化误差,这一权衡原则与下述愿望相吻合:在感知上重要的频率区域中比在不太重要的区域中更多地减小编解码器量化误差。
传统方法,如AMR-VVB(自适应多速率宽带),在若干级(例如用于LSF或导纳频谱频率(ISF)量化的多级矢量量化器(MSVQ)或分裂MSVQ中)使用大型存储码本或若干中型码本,并且通常在码本中进行详尽的搜索(这在计算上是昂贵的)。
或者,可以使用算法VQ,例如,在EVS(增强语音服务)中,使用缩放的D8+格点VQ,其应用整形的(shaped)网格来编码LSF系数。使用结构化格点VQ的好处在于:可以简化码本中的搜索并且可以降低码本的存储要求,因为可以使用算法格点VQ的结构化特性。格点的其他例子是D8、RE8。在一些EVS操作模式中,格状(Trellis)编码量化TCQ被用于LSF量化。TCQ也是一种结构化算法VQ。
存在对实现编码器处的计算复杂度要求低的有效压缩技术的兴趣。
发明内容
本文实施例的目的是提供一种在编码器处的需要低计算复杂度的有效压缩。
根据第一方面,提出了一种由通信系统的编码器执行的用于处理输入包络表示系数的方法。该方法包括根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数。该方法包括将包络表示残差系数变换到变形(warped)域,以获得变换的包络表示残差系数。该方法包括对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中该多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中。该方法包括通过通信信道向解码器发送下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码方案的信息。
根据第二方面,提出了一种用于处理输入包络表示系数的编码器。编码器包括处理电路,该处理电路配置成执行根据第一方面的方法。
根据一个实施例,编码器还包括存储介质,该存储介质存储由编码器根据第一方面执行的动作所定义的一组操作。处理电路被配置为从存储介质检索该组操作以使编码器执行该组操作。
根据第三方面,提出了一种用于处理输入包络表示系数的编码器。编码器包括被配置为执行根据第一方面的方法的模块。
根据第四方面,提出了一种用于处理输入包络表示系数的计算机程序,该计算机程序包括计算机程序代码,该计算机程序代码当在编码器的处理电路上运行时使编码器执行根据第一方面的方法。
根据第五方面,提出了一种由通信系统的解码器执行的用于处理包络表示残差系数的方法。该方法包括通过通信信道从编码器接收下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码方案的信息,该应用的增益形状编码方案由编码器应用。该方法包括:根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用多个增益形状解码方案中的至少一个,以获得包络表示残余系数,其中该多个增益形状解码方案对于该增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中。该方法包括:将包络表示残差系数从变形域变换为包络表示原始域,以获得变换的包络表示残差系数。该方法包括根据将变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。
根据第六方面,提出了一种用于处理包络表示残差系数的解码器。解码器包括处理电路,处理电路被配置为执行根据第五方面的方法。
根据一个实施例,解码器还包括存储介质,其存储由解码器根据第五方面执行的动作所定义的一组操作。处理电路被配置为从存储介质检索该组操作以使解码器执行该组操作。
根据第七方面,提出了一种用于处理输入包络表示系数的解码器。解码器包括被配置为执行根据第五方面的方法的模块。
根据第八方面,提出了一种用于处理包络表示残差系数的计算机程序,该计算机程序包括计算机程序代码,该计算机程序代码当在解码器的处理电路上运行时使解码器执行根据第五方面的方法。
根据第九方面,提出了一种计算机程序产品,该计算机程序产品包括根据第四方面和第八方面中的至少一个方面的计算机程序以及存储该计算机程序的计算机可读存储介质。计算机可读存储介质可以是非暂时性的计算机可读存储介质。
根据以下详细公开、所附的从属权利要求以及附图,所附实施例的其他目的、特征和优点将变得显而易见。
通常,除非本文另有明确定义,否则所列举的实施例中使用的所有术语将根据它们在技术领域中的普通含义来解释。除非另有明确说明,否则对“一/一个/所述元件、设备、组件、装置、步骤等”的所有引用应被开放地解释为指代元件、设备、组件、装置、步骤等中的至少一个实例。除非明确说明,否则本文公开的任何方法的步骤不必以所公开的确切顺序来执行。
附图说明
下面参考附图以示例方式来描述本发明构思。
图1示出了包括发送单元和接收单元的通信网络。
图2示出了在其中可以实现本文的实施例的示例性无线通信网络。
图3示出了包括第一和第二支持短程无线电的通信设备的示例性通信网络。
图4示出了可以由编码器执行的动作的示例。
图5示出了可以由解码器执行的动作的示例。
图6示出了具有通用MSE最小化循环的编码器的示例。
图7示出了解码器的示例。
图8是级2形状搜索流程的示例实施例的流程图说明。
图9示出了包络表示系数的38比特量化的频谱失真方面的示例结果。
图10示出了时域信号的示例。
图11示出图10中的时间信号的MDCT域信号的示例。
图12示出了图11中的MDCT域信号的对数带能量。
图13示出了图12中的对数带能量的包络表示系数。
图14示出了具有在变换域中的增益和形状搜索的编码器的示例。
图15示出了解码器的示例。
图16示出了说明编码器的示例实施例的框图。
图17示出了说明编码器的另一示例实施例的框图。
图18示出了说明解码器的示例实施例的框图。
图19示出了说明解码器的另一示例实施例的框图。
具体实施方式
现在将在下文参考其中示出发明构思的特定实施例的附图来更全面地描述发明构思。然而,本发明构思可以按多种不同形式来体现,并且不应当被解释为受限于本文阐述的实施例。相反,通过示例的方式给出这些实施例,使得本公开将透彻和完整,并且向本领域技术人员充分地传达本发明构思的范围。在说明书全文中,相似的标记指代相似的要素。为了清楚起见,附图是示意性的且是简化的,且它们仅示出用于理解本文呈现的实施例的细节,而其他细节已被省略。
图1示出了包括发送单元10和接收单元20的通信网络100。发送单元10经由通信信道30可操作地连接到接收单元20。通信信道30可以是直接连接或经由一个或多个路由器或交换机的间接连接。通信信道30可以通过有线连接(例如,通过一根或多根光缆或金属电缆)或通过无线连接(例如,直接无线连接或经由包括多于一个链路的无线网络的连接)。发送单元10包括编码器1600。接收单元20包括解码器1800。
图2描绘了其中可以实现本文的实施例的示例性无线通信网络100。无线通信网络100可以是诸如以下网络的无线通信网络:LTE(长期演进)、高级LTE、下一演进、WCDMA(宽带码分多址)、GSM/EDGE(全球移动通信系统/GSM演进增强数据速率)、UMTS(通用移动电信系统)或WiFi(无线保真)、或任何其他类似的蜂窝网络或系统。
无线通信网络100包括网络节点110。网络节点110服务于至少一个小区112。例如取决于无线电接入技术和使用的术语,网络节点110可以是基站、无线电基站、节点B、eNodeB、家庭节点B、家庭eNode B、或能够与网络节点服务的小区112内的无线设备通信的任何其他网络单元。网络节点还可以是基站控制器、网络控制器、中继节点、转发器、接入点、无线电接入点、远程无线电单元RRU、或远程无线电头RRH。
在图2中,无线设备121位于第一小区112内。设备121被配置为:当存在于由网络节点110服务的小区112中时,在无线通信网络100内通过无线电链路(也称为无线通信信道)经由网络节点110进行通信。无线设备121可以例如是任何类型的无线设备,例如移动电话、蜂窝电话、个人数字助理PDA、智能电话、平板电脑、配备有无线通信能力的传感器、膝上型电脑安装设备LME(例如,USB)、膝上型电脑嵌入式设备LEE、机器类型通信MTC设备、机器到机器M2M设备、无绳电话(例如,DECT(数字增强型无绳电信)电话)或客户驻地设备CPE等。在本文的实施例中,所提及的编码器1600可以位于网络节点110中,所提及的解码器1800可以位于无线设备121中,或者编码器1600可以位于无线设备121中而解码器1800可以位于网络节点110。
本文描述的实施例还可以在诸如基于蓝牙的网络之类的短程无线电无线通信网络中实现。在短程无线电无线通信网络中,可以在不同的支持短程无线电通信的通信设备之间执行通信,所述通信设备可以具有关系,如接入点/基站和无线设备之间的关系。然而,支持短程无线电的通信设备也可以是彼此直接通信的两个无线设备,这使得图2的蜂窝网络讨论变得过时。图3示出了示例性通信网络100,其包括通过短程无线电通信信道彼此直接通信的第一和第二支持短程无线电的通信设备131,132。在本文描述的实施例中,所提到的编码器1600可以位于第一支持短程无线电的通信设备131中,并且所提到的解码器1800可以位于第二支持短程无线电的通信设备132中,反之亦然。自然,两个通信设备都包括编码器以及解码器以实现双向通信。
或者,通信网络可以是有线通信网络。
作为本文描述的实施例开发的一部分,将首先确认并讨论一个问题。
当从包括编码器的发送单元向包括解码器的接收单元发送包络表示系数时,有兴趣实现更好的压缩技术,该压缩技术对用于发送信号的带宽要求低并且对编码器和解码器处的计算复杂度要求低。
根据一个实施例,这样的问题可以通过如上所述的由通信系统的编码器执行的用于处理输入包络表示系数的方法来解决。
图4是可由编码器或包括编码器的发送单元采取或执行的动作或操作的示出示例。在本公开中,“编码器”可以相应于“包括编码器的发送单元”。图4中示出的示例的方法可以包括以下动作中的一个或多个:
动作202:使用第一数量的比特来量化输入包络表示系数。
动作204:根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数。
动作206:将包络表示残差系数变换到变形域,以获得变换的包络表示残差系数。
动作208:对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
动作210:通过通信信道向解码器发送下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码方案的信息。
根据一个实施例,这样的问题可以通过如上所述的由通信系统的解码器执行的用于处理包络表示残差系数的方法来解决。
图5是可以由解码器或包括解码器的接收单元采取或执行的动作或操作的图示示例。在本公开中,“解码器”可以相应于“包括解码器的接收单元”。图5中示出的示例的方法可以包括以下动作中的一个或多个:
动作301:通过通信信道从编码器(1600)接收下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码方案的信息。
动作302:通过通信信道从编码器接收在编码器的量化器上使用的比特的第一数量。
动作304:根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
动作306:将包络表示残差系数从变形域变换到包络表示原始域,以获得变换的包络表示残差系数。
动作307:使用与在编码器的量化器处用于量化包络表示系数的比特数量相应的第一数量的比特来逆量化包络表示系数。
动作308:根据将变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。
根据一些实施例,编码器执行以下动作:
编码器将低比特率第一级量化器应用于去除均值的包络表示系数,得到包络表示残差系数。与高于所述低比特率的比特率相比,较低的比特率要求较小的存储设备。去除均值的包络表示系数是:去除了平均值的输入包络表示系数。
编码器将包络表示残差系数变换到变形域(例如,应用Hadamard变换、旋转DCT变换或DCT变换来实现)。
编码器对变换的包络表示残差系数选择性地应用多个子模式增益形状编码方案中的至少一个,其中子模式方案在系数(即,跨变换的包络表示残差系数)的增益分辨率和/或形状分辨率方面具有不同的折中。
增益形状子模式可以针对不同子集使用不同的分辨率(以比特/系数为单位)。子集合{A/B}的示例:{even+last}/{odd-last}Hadamard系数、DCT{0-9}和DCT{10-15}。异常值模式可以具有残差中的所有系数构成的一个单个全集,而常规模式可以具有覆盖的不同维度的具有不同分辨率(比特/系数)的若干个或受限的子集。
在一些示例中,通过下述操作的组合来进行子模式方案选择:低复杂性金字塔矢量量化器PVQ投影和形状精细搜索选择,然后跟着可选的全局均方误差MSE优化。在增益和形状二者以及所有子模式都被评估的意义上,MSE优化是全局的。这节省了平均复杂度。该动作产生子模式索引,并且可能产生用于所选子模式的增益码字和形状码字。可以通过搜索初始异常值子模式并后续搜索非异常值模式来实现该选择性应用。
在一些示例中,增益形状子模式选择是通过下述操作的组合来执行的:低复杂性金字塔VQ(PVQ)形状精细搜索选择和然后的可选的全局(均方误差)MSE优化(在增益和形状二者以及所有子模式都被评估的意义上,其是全局的)。这节省了平均复杂度并且得到形状增益子模式索引j,并且可能得到针对所选的形状增益子模式j的增益码字i和形状码字。
在一些示例中,编码器搜索初始异常值子模式并最终搜索非异常值模式。
在一些示例中,编码器通过信道将第一级VQ码字发送给解码器。
在一些示例中,编码器通过信道将高级子模式信息发送给解码器。
在一些示例中,编码器将增益码字与形状索引组合,并且在需要的情况下通过信道将该组合通过所选的增益形状子模式j发送给解码器。
在一些示例中对形状PVQ码字进行索引,可选地由编码器将形状PVQ码字与增益码字的一部分和/或子模式索引的一部分组合,并且由编码器通过信道向解码器发送。
通过本发明的一个或多个实施例,可以实现以下优点中的一个或多个:
可以实现非常低的复杂度。
结构化(能量压缩)变换的应用允许极大地减小第一级VQ。例如,第一级VQ可被减少到其原始码本大小的25%,从而降低表ROM(只读存储器)的大小和第一级搜索复杂度。例如,从R=0.875比特/系数减小到R=0.625比特/系数。例如,对于维度8,比特率可以从8*.875=7比特降低到8*.625=5比特,这相应于维度8从128个矢量下降到32个矢量。
即使存在针对包络表示系数的若干增益形状组合子模式可用,可以利用扩展(低复杂性)线性搜索来搜索基于结构化PVQ的子模式。
基于结构化PVQ的子模式可被优化以既处理异常值也处理具有足够分辨率的非异常值目标矢量,其中异常值(outlier)是具有非典型高和低的能量的包络表示残差系数。
在下文中,呈现了一个实施例。所提出的方法要求以包络表示系数的矢量作为输入。
编码器侧目标比例因子的包络确定
图10描绘了时域信号的示例s(t)。示出的示例是20ms的16kHz采样信号。一般而言,使用已知的MDCT变换将时间信号s(t)变换为频域信号,其中频域信号的分量n表示为c(n)并根据下式确定:c(n)=MDCT(s(t))。图11示出了针对图10中的时间信号获得的频谱系数c(n)(也称为谱线)。
在一些方面,该时间信号是音频信号,例如语音信号。可以在MDCT之前应用分析窗口,参见例如ITU-T G.719编码器中的MDCT应用和定义。在该实施例中,频谱系数c(n),n=0...(Ncoded-1)(其中Ncoded例如可以是来自编码器侧MDCT的400个系数)被分组为Nbands=16个、长度Lbands=Ncoded/16的均匀频带(band)。备选地,频带大小可以是对数的或半对数的频带大小(如前述文献ITU-T G.719中所述)。所获得的对数频谱带能量enLog(band),通过去除所有enLog(band)值的平均值,被归一化为目标比例因子scf(band)的矢量:
其中start={0,1·Lband,2·Lband,...,(Nbands-1)·Lband}
其中band={1...Nbands-1} (2)
这些频带=0…15的目标比例因子scf(band)现在表示原始时域输入信号s(t)的频谱包络的平均电平归一化均方根(RMS)形状的近似值。图12示出了根据等式(1)从频谱系数c(n)获得的对数频谱带能量enLog(band)。图13示出了根据等式(2)从对数频谱带能量enLog(band)获得的比例因子scf(n)。
编码器侧比例因子量化
概述
使用两级矢量量化器采用总共38比特(R=2.375比特/系数)对根据上述获得的目标比例因子scf(n)进行量化。第一级是10比特分裂VQ,第二级是低复杂性算法金字塔VQ(PVQ)。为了保持较低的整体VQ复杂度,在变换域中以增益/形状方式分析金字塔VQ,使得能够进行有效的仅形状搜索,然后在组合的增益和形状确定步骤中进行低复杂的总MSE评估。通常可以在20-60比特的范围内实现所提出的VQ方案,而不会随着比特率的增加使复杂性急剧增加。
图14示意性地示出了采用上面公开的级1和级2VQ的编码器的功能模块。在图6中示出了该编码器的互补表示。
级1
第一级是采用两个离线训练的随机码本LFCB和HFCB分裂VQ。每个码本行具有维度8,并且码本列的数量限制为32,每个分裂需要5比特来传输。两个码本的MSE失真定义如下:
根据下式找到低频分裂的最佳索引(模块601;SCF VQ-stage 1短/低复杂度搜索):
根据下式找到高频分裂的最佳索引(模块601;SCF VQ-stage 1短/低复杂度搜索):
第一级矢量构成如下:
其中n=[0...7], (7)
其中n=[0...7], (8)
如下计算第一级残差信号(模块602):
r1(n)=scf(n)-st1(n),其中n=[0...15], (9)
级2增益形状VQ一般说明
参考图8,其示出了具有动作801-810的级2形状搜索流程的示例实施例:
801:将r1维度排列到r1linear中的线性搜索部分(可选)
802:将目标投影到Koutl(例如,对于形状j=2或者j=3,Koutl=K)处或之下的子金字塔
803:精细搜索目标到Koutl
804A:去除矢量youtl中的属于集合B维度的任何脉冲
804B:保存中间结果矢量youtl,A(并重新计算有关的相关性和能量值)
805:将异常值整数矢量youtl归一化为单位能量矢量xq,outl
806:基于youtl A,即针对集合A中的维度的形状结果,在从K1-Koutl,A到K1的目标中精细搜索集合A维度
807:保存中间结果矢量y1(及其有关的相关性和能量值)
808:基于y1,在到KB的目标中精细形状搜索集合B维度
809:保存结果矢量y0
810:将矢量y1归一化为xq,1,并将矢量y0归一化为xq,0
图6中的相应模块是模块611(整体方向)、模块612(异常值形状)、模块613(规则形状),其中模块611实现动作801至810,并且模块612实现动作803和805(然而动作803先针对j=3运行,之后针对j=2运行,然后针对每个j运行归一化动作805),因为模块612导致两个异常值矢量)。
在高级别上,第二级最小化(616)的总均方误差是:
其中GgainInd,shapeInd是标量值,D是16乘16的旋转矩阵且xq,shape是长度为16的单位能量归一化矢量。索引shapeInd,gainInd,unitShapeIdxs导致总共228种可能的增益形状组合,第二级搜索的目标是找到得到最小dMSE失真值的索引集合。在图6中,通过归一化形状选择器模块614、调整增益应用模块615、减法模块618和MSE最小化模块616来实现该整体增益形状MSE最小化和分析。如图6中所描绘的MSE最小化模块616还可包括改变形状yj(单位能量归一化yj将是xq,shape)。在图6中表示的以及通过等式10表示的该总误差最小化环路指示在原始比例因子域中评估MSE误差,但是在所实现的分析变换和合成变换具有足够高的数值精度的情况下,可以优选地在变换的比例因子域中进行增益形状MSE优化(参见图14和等式11),以节省编码器侧处理复杂度。
级2变换
第二级采用使用16×16矩阵D的16维DCT旋转。已经针对有效的比例因子量化离线确定了矩阵D,它具有DT.D=I的性质,其中I是单位矩阵。为了降低编码器侧搜索复杂度,可以在形状和增益确定之前使用逆(即,分析)变换(即,DCT),而在解码器侧仅需要前向(合成)变换DT(即,IDCT)。下面列出了完整D旋转矩阵的系数。应该注意,可以使用传统的DCT()和IDCT()函数来实现这些变换。同样能够处理残差信号中的平均值分量的可能的替代方案是使用例如具有非常低的处理和存储要求的Hadamard变换或者甚至是训练好的旋转矩阵。在图6中,候选信号从变换的比例因子域到原始比例因子域的移动由合成变换模块617实现。图14示出了如何通过模块1402中的分析变换优选地将MSE形状和增益搜索移动到变换域(这也在等式11中明确示出)。
级2形状候选
评估了四个不同的16维单位能量归一化形状候选,其中归一化总是在16个系数上执行。表1中给出了每个候选形状索引j的比例因子的两个集合(表示为A和B)的脉冲配置。
表1:比例因子VQ第二级形状候选脉冲配置
形状索引j=0脉冲配置是混合PVQ形状配置,其中在NA=10个比例因子上KA=10,而在剩余NB=6个比例因子上KA=1。对于形状索引0,两个单位脉冲集合是在整个目标维度N=NA+NB=16上归一化的单位能量,尽管针对每个比例因子集合分别执行PVQ整数脉冲和符号枚举。
级2目标准备
形状搜索目标准备包括如下所示的16x16维矩阵分析旋转(使用矩阵D实现的DCT):
t2rot(n)=r1(n)·D(n,m),其中n=[0...15],m=[0...15] (11)
级2形状搜索
通用PVQ(N,K)形状搜索过程的目标是找到最佳归一化矢量xq(n)。
在矢量表示中,xq(n)定义为:
其中y=yN.K属于PVQ(N,K)并且是在N维超金字塔表面上的确定点,yN,K的L1范数是K。换言之,yN.K是根据下式所选的整数形状码字矢量(大小为N):
即xq是单位能量归一化整数矢量y,单位能量超球面上的确定点。最佳整数y矢量是最小化在第二级目标矢量t2rot(n)=x(n)和归一化的量化输出矢量xq之间的均方形状误差的矢量。通过最小化以下失真来实现该形状搜索:
等效地,通过对分子和分母求平方,最大化商QPVQ-shape
其中corrxy是矢量x和矢量y之间的相关性。在L1范数为K搜索最佳PVQ矢量形状y(n)时,对于每个单位脉冲位置候选nc的QPVQ.-shape变量的迭代更新可以在N维空间中的所有正“象限”中根据下式进行:
corrxy(k,nc)=corrxy(k-1)+1·|x(nc)| (16)
energyy(k,nc)=energyy(k-1)+2·12·y(k-1,nc)+12, (17)
其中corrxy(k-1)表示通过放置先前的k-1个单位脉冲到目前为止所实现的相关性,而energyy(k-1)表示通过放置先前的k-1个单位脉冲而实现的累积能量,和y(k-1,nc)表示根据先前的总共k-1个单位脉冲的放置,位置nc处的y的幅度:
通过将nc从0增加到N-1来迭代更新第k个单位脉冲的最佳位置nbest
nbest=nc,如果QPVQ-shape(k,nc)<QPVQ-shape(k,nbest) (19)
为了避免除法运算(这在定点运算中可能尤其重要),可以使用到目前为止保存的最佳平方相关性分子bestCorrSq和到目前为止保存的最佳能量分母bestEn的交叉乘法来执行QPVQ-shape最大化更新决策:如果corrxy(k,nc)2·bestEn>bestCorrSq·energyy(k,nc) (20)
QPVQ-shape(k,nc)的迭代最大化可以从初始放置零个数量的单位脉冲(ystart(n)=0,其中n=0...15)开始,或者可选地基于到第K’个金字塔表面以下的整数值点的投影(其中,在目标L1范数为K的情况下保证单位脉冲的下冲),从低成本的预置数量的单位脉冲开始。这样的投影可以如下进行:
其中n=0...15 (22)
也可以使用到K(在PVQ(N,K)金字塔表面上)的投影。数值精度问题导致金字塔表面上方的点,需要执行在表面处或表面下方的新的有效投影,或者可选地去除单位脉冲直到达到金字塔表面。
对于形状j=0,集合B位置仅包含一个具有固定能量贡献的单个非堆叠单位脉冲。这意味着,在集合B中对该单个脉冲的搜索可以简化为仅搜索六个集合B位置中的最大绝对值。
通过使用失真测量dPVQ-shape建立四个带符号整数脉冲配置矢量yj,然后根据等式(12)计算它们相应的单位能量形状矢量xq,j。由于每个总脉冲配置yj始终跨16个系数,因此即使针对y0整数矢量的枚举使用两个较短的集合,能量归一化也始终在维度16上执行。
可以通过下述方式,通过按照从形状j=3到形状j=0的顺序搜索形状来实现有效的整体单位脉冲搜索(对于所有四个形状候选):首先投影到金字塔K=6处或下面的点,然后顺序添加单位脉冲并保存中间形状结果,直到K对于具有较高单位脉冲数量K的每个候选形状是正确的。请注意,由于规则集合A形状j=0,1跨的允许比例因子区域与两个异常值形状(j=2,3)跨的允许比例因子区域不同,因此通过去除不可能在规则形状集合A中索引(对于j=0,1))的任何单位脉冲来处理针对这两个规则形状的搜索起始脉冲配置。当在所有正象限中执行脉冲搜索时,执行基于目标矢量x(n)的相应符号来设置yj(n)中的非零项的符号的最后步骤。
表2中总结了与上述针对所描述的基于PVQ的形状的PVQ搜索策略相应的搜索过程的示例。
表2:所描述的基于PVQ的形状的PVQ搜索策略的信息示例。
在表3中总结了在PVQ搜索后可能可获得的整数矢量yj和单位能量归一化矢量xq,j的示例。
表3:在PVQ搜索之后,可能可获得的整数矢量yj和单位能量归一化矢量xq,j的信息示例。
调整增益候选
存在四个不同的调整增益候选集合,每个整体形状候选j对应一个集合。表4中给出了每个形状的调整增益配置。
表4:比例因子VQ第二级调整增益集合包括全局公共增益因子2.5
形状和增益组合确定
在可能的形状候选和每个相应的增益集合中确定最佳的可能的形状和增益。为了最小化复杂度,可以在旋转域(即,与执行形状搜索所在的域相同的域)中如下评估MSE与目标的对比:
在总共18(2+4+4+8)个可能的增益形状组合中,选择产生最小MSE的shape_index(=j)和调整增益索引gain_index(=i)用于后续的枚举和复用:
所选的PVQ脉冲配置的枚举
使用有效方案枚举所选形状的脉冲配置,该方案将每个PVQ(N,K)脉冲配置分成两个短码字:前导符号索引比特和整数MPVQ索引码字。该MPVQ索引比特空间通常是部分的(即,脉冲配置的总数量不是2的幂)。在图6中,由MPVQ枚举模块621实现所选的整数矢量yj到前导符号索引比特LS_indA和MPVQ索引idxA的枚举(以及额外地,对于形状j=0,yj到前导符号索引比特LS_indB和MPVQ索引idxB的枚举)。
最大大小的MPVQ整数形状索引(j=2,‘outlier_near’)适合于在24位无符号字内使用,使得能够在支持24位或更高位的无符号整数运算平台上快速实现MPVQ的枚举和逆枚举(inverse enumeration)。
枚举方案使用索引偏移表A(n,k),其可以在下面找到表格化的无符号整数值。A(维度n,L1范数k)中的偏移值以递归方式定义为:
A(n,k)=A(n-1,k-1)+A(n,k-1)+A(n-1,k),# (25)
初始条件为:对于n>=0,A(n,k=0)=0;对于k>0,A(n=0,k)=1。
在下面以伪代码示出带符号整数矢量y(=vec_in)在L1范数为K(=k_val_in)的情况下在维度N(=dim_in)上到MPVQ形状索引index和前导符号索引lead_sign_ind的实际枚举:
表5总结了针对所选的形状(j)的MPVQ枚举调用:
表5:针对每个可能选择的形状索引j,整数矢量yj到前导符号索引和MPVQ形状索引的比例因子VQ第二级形状枚举。
比例因子VQ码字的复用
第一级复用:
级1索引按以下顺序复用:ind_LF(5比特),后面跟着ind_HF(5比特)。
第二级复用:
为了有效地使用比例因子量化器的可用的总比特空间(38比特),与MPVQ索引(其大小是总尺寸的一部分)组合,形状索引j、第二级形状码字和可能的增益码字的LSB被联合编码。表6中示出了第二级复用分量的整体参数编码顺序。
表6:第二级的复用顺序和参数。
在前导符号LeadSignA和/或LeadSignB的复用中,每个前导符号被复用如下:如果前导符号为负,则复用为1;以及如果前导符号为正,则复用为0。表7针对每个形状索引(j)示出了子模式比特值、各种第二级MPVQ形状索引的大小以及调整增益划分部分。
表7:每个形状索引(j)的子模式比特值、各种第二级MPVQ形状索引的大小、以及调整增益划分部分。
对增益或增益的MSB的编码:
对于对应形状索引j=0和j=2的所选形状,针对增益值Gi,j,所选的增益索引在没有修改的情况下作为索引i发送,当j=0时需要1比特,而当j=2时需要2比特。
对于对应形状索引j=1和j=3的所选形状和对应增益索引i的所选增益值Gi,j,通过去除LSBgain比特来首先发送增益索引的MSB部分。即,iMSBs=i>>1;LSBgain=i&0x1;对于j=1,iMSBs的复用将需要1比特,对于j=3,iMSBs的复用将需要2比特。LSBgain比特将被复用到联合索引中。
在图6中,由联合索引构成模块622执行基于所选形状j和所选增益索引i和枚举的前导符号比特LS_indA和MPVQ索引idxA(以及,对于形状j=0,前导符号索引比特LS_indB和MPVQ索引idxB)的联合索引构成,并且联合构成的结果被发送给编码器的复用器模块623供随后传输给解码器。
联合索引构成:
所选形状索引j=0(’regular′)的联合索引的构成被确定为:
indexjoint,0=(2·indexshapeB+LeadSignB+2)·SZshapeA,0+indexshapeA,0 (26)
所选形状索引j=1(′regular_lf′)的联合索引的构成被确定为:
indexjoint,1=LSBgain·SZshapeA,1+indexshapeA,1 (27)
所选形状索引j=2(′outlier_near′)的联合索引的构成被确定为:
indexjoint,2=indexshapeA,2# (28)
所选形状索引j=3(′outlier_far′)的联合索引的构成被确定为:
indexjoint,3=SZshapeA,2+(SZshapeA,3·LSBgain)+indexshapeA,3 (29)
量化比例因子矢量的合成
使用量化的第一级矢量st1、量化的第二级单位能量形状矢量xq,j和量化的调整增益Gi,j(对应增益索引i)来如下建立量化比例因子矢量scfQ(n):
st2(n)=Gi,j·[xq,j(n)·DT],其中n=0...15 (30)
scfQ(n)=st1(n)+st2(n),其中n=0...15 (31)
在等式(30中,矢量与矩阵的乘法xq,j(n)·DT实现IDCT合成变换。尽管该(等式30和31)量化比例因子的生成发生在编码器侧,但是在解码器中也以相同的方式执行相应的步骤,参见图7的模块702:SCF VQ-stage 1贡献;706:逆变形/变换;模块707中的调整增益以及模块708中的相加。
比例因子应用和归一化频谱的量化
现在量化比例因子矢量scfQ(n)被用于将MDCT系数c(n)缩放/归一化为cnorm(n),如下所示:
其中n=[0...(Ncoded-1)} (32)
可以使用对数PCM量化器将归一化系数cnorm(n)量化为normQ(n)(其中n=(0..Ncoded-1)),如ITU-T G.711,其中G.711定义了为每个系数使用8比特。并且G711mu-law可以处理14比特的动态范围。
所得的残差频谱参数字节spec(n),其中n=(0...Ncoded-1),在传输信道上转发,其中每个spec(n)是G.711定义的8比特索引。
解码器侧比例因子逆量化
在一些方面,解码器执行以下步骤。首先如针对编码器中所描述的那样,对16个量化的比例因子构成的集合进行解码。这些量化的比例因子与在编码器中获得的量化的比例因子相同。然后使用量化的比例因子来对接收的MDCT归一化频谱系数进行整形,如下所述。
图15示意性地示出了与采用上面公开的级1和级2VQ的编码器相对应的解码器的功能模块。在图7中示出了该解码器的互补表示。
级1比例因子VQ解码
解码第一级参数,在图7中这由解复用器模块701执行;而在图14中,这由比特流解复用器模块1501如下执行:
根据上述等式(7)和(8)将第一级索引ind_LF和ind_HF转换为信号st1(n),在图7中这是在级1贡献模块702中执行的;而在图14中,这由级1逆分裂VQ模块1502执行。
级2比例因子VQ解码
为了有效地使用比例因子量化器的可用的总比特空间(38比特),与MPVQ索引(其大小是总尺寸的一部分)组合,形状选择、第二级形状码字和调整增益最低有效比特被联合编码,如表7中所述。在解码器/接收器侧,发生相反的过程。首先从如下解码的比特流中读取第二级子模式比特、初始增益索引和前导符号索引:
如果subModeMSB等于0,对应于形状中的一个(j=0或j=1),遵循以下解复用程序:
如果subModeMSB等于1,(′outlier_near′或′outlier_far′子模式),则遵循以下解复用过程:
最后,如下确定分解/解复用出的第二级索引j和i:
在图7中,从解复用模块701读取24或25比特的联合索引,其中在上面的伪代码中联合索引被表示为tmp32,并且由联合形状索引分解模块703执行该分解。得到的解码出的形状索引j和得到的形状索引(idxA,LS_indB,indxB))被转发给逆枚举模块704。当LS_indA索引比特是单个比特时,它可以直接从解复用模块701获得。对于j=1和j=3,联合形状索引分解模块703还输出最低有效增益比特gainLSB并将其组合进最终增益索引i。在逆枚举模块704已经执行MPVQ-逆枚举之后,由PVQ单位能量归一化模块705将矢量yj归一化为单位能量矢量xq,j。随后,由逆变形/变换模块706应用前向合成变换(DCT),然后得到的矢量由调整增益模块707以增益Gi,j进行缩放。通过由加法器模块708将缩放后的矢量添加到SCF VQ级1贡献模块702,获得量化的比例因子信号。
形状索引的逆枚举(de-enumeration)
如果shape_j为0,则两个形状A(LS_indA,idxA)、B(LS_indB,idxB)逆被枚举成带符号整数矢量,否则(shape_j不为0),仅一个形状被逆枚举。表1中描述了四种可能的形状配置的设置。
在下面的伪代码中示出了前导符号索引LS_ind和MPVQ形状索引MPVQ_ind到在L1范数为K(表示为k_val_in)情况下在维度N(表示为dim_in)上的带符号整数矢量y(表示为vec out)的实际逆枚举。
针对解复用出的形状(j)进行根据表8的MPVQ逆枚举调用。
表8:针对每个可能的接收到的形状索引j,到整数矢量yj的比例因子VQ第二级形状逆枚举。
接收到的形状的单位能量归一化
根据等式(12),将逆枚举的带符号整数矢量yj归一化为在维度16上的单位能量矢量xq,j
量化比例因子的重构
基于表查找(参见编码器表4)来确定针对增益索引i和形状索引j的调整增益值Gi,j
最后,以与编码器侧相同的方式执行量化比例因子矢量scfQ(n)的合成(参见等式30和31)。
图7中的最终量化比例因子的生成由模块702(级1贡献)、706(前向合成变换)和707(增益应用)以及模块708中的矢量加法一起执行。量化的比例因子的生成也在图15的模块1502(级1逆VQ)、1505(逆合成变换)、1506(调整增益应用)和1507(矢量加法)中示出。
解码器侧的归一化频谱的逆量化和比例因子应用。
使用逆对数pcm量化器对通过通信信道接收的频谱参数字节spec(n)(其中n=(0..Ncoded-1))进行逆量化得到normQ(n)(对于n=(0..Ncoded-1)),如ITU-T G.711(每系数使用8比特)。现在使用量化的比例因子矢量scfQ(n)如下缩放量化的归一化MDCT系数cnormQ(n)得到cQ(n):
其中n=[0...(Ncoded-1)} (33)
最后,对缩放的量化频谱如下应用逆MDCT(参见例如ITU-TG.719解码器):
sQ(t)=IMDCT(cQ(n)) (34)
此外,在IMDCT之后,信号sQ(t)被加窗,并且执行所需的MDCT重叠相加(OLA)操作以获得最终的合成的时域信号(参见例如ITU-T G.719解码器,其中在MDCT OLA之前应用正弦窗)。
图9示出了包络表示系数的38比特量化的频谱失真(SD)方面的示例结果。在图中,作为参考的基于38比特的多级分裂VQ(‘MSVQ’)的VQ的性能(具有较低的中值SD,约为1.2dB)比所提出的示例量化器的性能(具有略高的中值SD,约为1.25dB)略好。在这些统计的SD箱框(boxplot)图中,中值作为每个框中的中心线示出,而完整框示出了25和75百分位数,交叉示出了异常值点。完全量化的“PVQ-D-Q”38比特量化器的示例在加权的每秒百万次操作(WMOPS)和所需的表只读存储器(ROM)方面提供低得多的复杂度。从图9中可以看出,当第一级和第二级都被使用时,第二级使得SD从第一级SD(3.5dB)降低到约1.25dB。
下面列出了第一级比例因子(LFCB和HFCB)、MPVQ索引偏移表A和DCT旋转矩阵D.
根据以上所述,提供了一种有效的低复杂度的用于量化包络表示系数的方法。
根据实施例,对包络表示残差系数应用变换使得能够在不牺牲性能的情况下在VQ中实现非常低速率和低复杂的第一级。
根据实施例,选择多模式PVQ量化器中的异常值子模式使得能够有效地处理包络表示残差系数异常值。异常值具有非常高或非常低的能量/增益或非典型形状。
根据实施例,选择多模式PVQ量化器中的规则子模式使得能够对最频繁出现/典型的包络表示残差系数/形状进行更高分辨率的编码。
根据实施例,为了实现有效的PVQ搜索方案,异常值模式采用非分裂VQ,而规则的非异常值子模式采用分裂VQ(在每个分裂段中具有不同的比特/系数)。此外,优选地,分裂段可以是变换矢量的非线性采样。
根据实施例,应用有效的双模式/多模式PVQ搜索使得能够在基于多模式PVQ的增益形状结构中进行非常有效的搜索和子模式选择。
根据实施例,这里公开的方法,通过使用形状索引、LSB增益和子模式指示的LSB的联合组合,使得能够有效地利用部分(fractional)比特空间。
为了执行本文的方法和动作,提供了编码器1600和解码器1800。图16至17是描绘编码器1600的框图。图18至19是描绘解码器1800的框图。编码器1600被配置为执行在本文描述的实施例中的针对编码器1600描述的方法,而解码器1800被配置为执行在本文描述的实施例中的针对解码器1800描述的方法。
对于编码器,实施例可以通过图16和图17所示的编码器中的一个或多个处理器1603与用于执行本文实施例的功能和/或方法动作的计算机程序代码1605一起来实现。以上提到的程序代码也可以被提供为计算机程序产品,该计算机程序产品例如具有承载计算机程序代码的数据载体的形式,所述计算机程序代码用于在加载到编码器1600中时执行本文的实施例。一种这样的载体可以是CD ROM盘的形式。然而还可以是诸如存储棒之类的其它数据载体。此外,计算机程序代码可被提供为服务器上的纯程序代码并被下载到编码器1600。编码器1600还可以包括:通信单元1602,用于与例如解码器1800进行有线或无线通信。通信单元可以是有线或无线的接收器和发射器或有线或无线的收发器。编码器1600还包括存储器1604。例如,存储器1604可以用于存储执行本文的方法的应用或程序和/或被这些应用或程序使用的任何信息。计算机程序代码可下载到存储器1604中。
根据图17的实施例,编码器1600可以包括:确定模块1702,用于根据从输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数;变换模块1704,用于将包络表示残余系数变换到变形域,以获得变换的包络表示残差系数;应用模块1706,用于对变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及发送模块1708,用于通过通信信道向解码器发送对第一压缩包络表示系数、增益形状编码的包络表示残差系数以及关于所应用的至少一个增益形状编码方案的信息的表示。可选地,编码器1600还可以包括:量化模块1710,用于使用第一数量的比特来量化输入包络表示系数。
对于解码器1800,本文的实施例可以通过图18和图19所示的解码器1800中的一个或多个处理器1803以及用于执行本文实施例的功能和/或方法动作的计算机程序代码1805一起来实现。以上提到的程序代码也可以被提供为计算机程序产品,该计算机程序产品例如具有承载计算机程序代码的数据载体的形式,所述计算机程序代码用于在加载到解码器1800中时执行本文的实施例。一种这样的载体可以是CD ROM盘的形式。然而还可以是诸如存储棒之类的其它数据载体。此外,计算机程序代码可被提供为服务器上的纯程序代码并被下载到解码器1800。解码器1800还可以包括:通信单元1802,用于与例如编码器1600进行有线或无线通信。通信单元可以是有线或无线的接收器和发射器或收发器。解码器1800还包括存储器1804。存储器1804例如可以用于存储执行本文的方法的应用或程序和/或被这些应用或程序使用的任何信息。计算机程序代码可下载到存储器1804中。
根据图19的实施例,解码器1800可以包括:接收模块1902,用于通过通信信道从编码器1600接收对第一压缩包络表示系数、增益形状编码的包络表示残差系数以及关于所应用的至少一个增益形状编码方案的信息的表示;应用模块1904,用于根据接收的关于所应用的至少一个增益形状编码方案的信息来对接收的增益形状编码的包络表示残差系数应用多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;变换模块1906,用于将包络表示残差系数从变形域变换为包络表示原始域,以获得变换的包络表示残差系数;以及确定模块1908,用于根据将变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。可选地,解码器1800还可以包括:逆量化模块1910,用于使用与在编码器的量化器处用于量化包络表示系数的比特数相对应的第一数量的比特来对量化的包络表示系数进行逆量化。
熟悉通信设计的人员将容易理解,可以使用数字逻辑和/或一个或多个微控制器、微处理器或其他数字硬件来实现来自其他电路的功能。在一些实施例中,各个功能中的若干或全部可被一起实现,诸如在单个专用集合成电路(ASIC)中实现,或者在两个或多个分离的设备(其间具有适当的硬件和/或软件接口)中实现。
从上文可以看出,实施例还可以包括计算机程序产品,该计算机程序产品包括指令,所述指令当在至少一个处理器上(例如,处理器1603或1803)执行时使所述至少一个处理器执行所述方法中的任一个。此外,如上所述,一些实施例还可以包括包含所述计算机程序的载体,其中所述载体是下述之一:电信号、光信号、无线电信号或计算机可读存储介质。
尽管上面的描述包含多个特征,但是这些特征不应该被解释为限制本文所描述的概念的范围,而是仅提供对所描述的概念的一些示例性实施例的说明。应当理解,当前描述的概念的范围完全覆盖对于本领域技术人员来说可变得显然的其他实施例,并因此不限制当前描述的概念的范围。除非明确阐述,对单数形式的元素的参考不旨在表示“一个且仅一个”,而是“一个或多个”。通过引用,明确地将本领域的普通技术人员已知的上述实施例的要素的所有结构和功能上的等同物并入本文,并旨在被本文覆盖。此外,设备或方法不必解决本文描述的概念所要解决的所有问题,其用于被包含于此。在示例性附图中,虚线通常表示虚线内的特征是可选的。
示例实施例
1、一种由通信系统(100)的编码器(1600)执行的用于处理输入包络表示系数的方法,所述方法包括:
根据从所述输入包络表示系数中减去第一压缩包络表示系数来确定(204)包络表示残差系数;
将所述包络表示残差系数变换(206)到变形域,以获得变换的包络表示残差系数;
对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于所述变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及
通过通信信道向解码器发送(210)对下述项的表示:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数以及关于所应用的所述至少一个增益形状编码方案的信息。
处理包络表示残差系数的步骤具有的优点在于:提供了计算上有效的处理,同时得到对包络表示残差系数的有效压缩。因此,该方法实现对包络表示系数的计算有效的和压缩有效的处理。
包络表示系数也可以称为包络表示系数矢量。类似地,包络表示残差系数可以称为包络表示残差系数矢量。变形域可以是变形的量化域。可以基于每个包络表示残差系数来执行多个增益形状编码方案中的一个方案的应用。例如,可以针对第一组包络表示残差系数应用第一方案,可以针对第二组包络表示残差系数应用第二方案。
上面的措辞“分辨率”表示用于系数的比特数量。换言之,增益分辨率表示用于定义系数的增益的比特数量,形状分辨率表示用于定义系数的形状的比特数量。
2、根据实施例1所述的方法,还包括:
使用第一数量的比特来量化(202)所述输入包络表示系数,
其中,确定(204)包络表示残差系数包括:从所述输入包络表示系数中减去量化的包络表示系数,并且所发送的第一压缩包络表示系数是所述量化的包络表示系数。
上述方法的优点在于使得在量化步骤中使用的比特的第一数量能够为低。
3、根据前述实施例中任一实施例所述的方法,其中,对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个包括:选择性地应用所述多个增益形状编码方案中的所述至少一个。
通过选择性地应用增益形状编码方案,编码器可以为各个系数选择最适合于的增益形状编码方案。
4、根据实施例3所述的方法,其中,选择性地应用(208)所述多个增益形状编码方案中的所述至少一个中的选择是通过如下方式执行的:以每个包络表示残差系数为基础,通过组合PVQ形状投影和形状精细搜索以在可用维度上达到第一PVQ的金字塔代码点。
上述实施例具有降低平均计算复杂度的优点。
5、根据实施例3所述的方法,其中,选择性地应用(208)所述多个增益形状编码方案中的所述至少一个中的选择是通过如下方式执行的:组合PVQ形状投影和形状精细搜索以在可用维度上达到第一PVQ金字塔代码点,随后跟着另一形状精细搜索以在受限维度集合内达到第二PVQ金字塔代码点。
6、根据前述实施例中任一实施例所述的方法,所述多个增益形状编码方案中的至少一些针对包络表示残差系数的不同子集使用互不相同的比特分辨率。
7、根据前述实施例中任一实施例所述的方法,其中所述输入包络表示系数是去除均值的包络表示系数。
8、根据前述实施例中任一实施例所述的方法,其中对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个包括应用两级VQ。
9、根据实施例8所述的方法,其中,所述两级VQ包括第一级分裂VQ和第二级PVQ。
10、根据实施例9所述的方法,其中所述分裂VQ采用两个离线训练的随机码本。
11、根据实施例10所述的方法,其中所述两个离线训练的随机码本不大于在所述第二级PVQ期间使用的码本的大小的一半。
也就是说,第一级分裂VQ的码本可以以可量化的方式具有比在第二级PVQ期间使用的码本小得多的尺寸。
12、根据实施例9所述的方法,其中所述PVQ采用:DCT旋转矩阵的应用、形状搜索的应用、调整增益和子模式量化的应用、以及形状枚举的应用。
13、根据实施例12所述的方法,其中所述两级VQ采用总共38比特。
14、根据前述权利要求中任一项所述的方法,其中,通过将联合形状码字划分为多个子部分来使用用于增益形状复用的整数比特空间,并且其中特定子部分指示子模式最低有效比特、增益最低有效比特或者附加形状码字。
15、一种由通信系统(100)的解码器(1800)执行的用于处理包络表示残差系数的方法,所述方法包括:
通过通信信道从编码器(1600)接收(301)对下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码方案的信息;
根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用(304)多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
将所述包络表示残差系数从变形域变换(306)到包络表示原始域,以获得变换的包络表示残差系数,以及
根据将所述变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定(308)包络表示系数。
将系数从变形域变换为包络表示系数原始域表示:系数被变形回包络表示残差系数域(其中系数在编码器处被变换到变形域之前所在的域)。
16、根据实施例15所述的方法,其中,接收的第一压缩包络表示系数是量化的包络表示系数,所述方法还包括:
使用与用于在编码器的量化器处量化包络表示系数的比特数量相应的第一数量的比特来逆量化(307)所述量化的包络表示系数,并且其中根据将所述变换的包络表示残差系数与逆量化的包络表示系数相加来确定(308)包络表示系数。
17、根据实施例15所述的方法,还包括:
通过通信信道从编码器接收(S302)在编码器的量化器处使用的比特的第一数量。
可以在编码器和解码器之间预先确定比特的第一数量。如果没有预先确定,则从编码器向解码器发送关于比特的第一数量的信息。
18、根据实施例15至17中任一实施例所述的方法,其中所述输入包络表示系数是去除均值的包络表示系数。
19、根据实施例15至18中任一实施例所述的方法,其中对所述变换的包络表示残差系数应用(304)多个增益形状解码方案中的至少一个包括应用逆两级VQ。
20、根据实施例19所述的方法,其中,所述逆两级VQ包括第一级逆PVQ和第二级逆分裂VQ。
21、根据实施例20所述的方法,其中所述逆PVQ采用:子模式和增益解码的应用、形状逆枚举和归一化的应用、调整增益的应用、以及IDCT旋转矩阵的应用。
22、根据实施例15至21中任一实施例所述的方法,其中,接收的联合编码的形状码字被分解以指示子模式最低有效比特、或增益最低有效比特、或附加形状码字。
23、根据前述实施例中任一实施例所述的方法,其中所述表示由对码本的索引来定义。
24、根据前述实施例中任一实施例所述的方法,其中所述表示由下述项本身来定义:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数、以及所述关于至少一个应用的增益形状编码方案的信息。
25、根据前述实施例中任一实施例所述的方法,其中所述包络表示系数表示比例因子。
26、根据前述实施例中任一实施例所述的方法,其中所述包络表示系数表示编码的音频波形。
27、一种通信系统(100)中的用于处理输入包络表示系数的编码器(1600),所述编码器被配置为执行根据实施例1至14和23至26中任一实施例所述的方法。
28、一种通信系统(100)中的用于处理包络表示残差系数的解码器(1800),所述解码器被配置为执行根据实施例15至26中任一实施例所述的方法。
缩写
LSF 线谱频率
LSP 线谱对
ISP 导纳光谱对
ISF 导纳谱频率
VQ 矢量量化器
MS-SVQ 多级分裂矢量量化器
PVQ 金字塔VQ
NPVQ PVQ索引的数量
MPVQ 带符号模块化PVQ枚举方案
MSE 均方误差
RMS 均方根
WMSE 加权MSE
LSB 最低有效比特
MSB 最高有效比特
DCT 离散余弦变换
IDCT 逆离散余弦变换
RDCT 旋转(基于ACF)的DCT
LOG2 以2为底的对数
SD 频谱失真
EVS 增强型语音服务
WB 宽带(通常为以16kHz采样的音频信号)
WMOPS 加权的每秒百万次操作
WC-WMOPS 最坏情况WMOPS
AMR-WB 自适应多速率宽带
DSP 数字信号处理器
TCQ 格状编码量化
MUX MUltipleXor (复用单元)
DEMUX DE-MUltipleXor (解复用单元)
ARE 算术/范围编码器
ARD 算术/范围解码器
以上已经主要参考一些实施例描述了本发明构思。然而,本领域技术人员容易理解的是:与上述公开的实施例不同的其它实施例同样可能落在如由所附专利权利要求所限定的本发明构思的范围内。

Claims (35)

1.一种由通信系统(100)的编码器(1600)执行的用于处理输入包络表示系数的方法,所述方法包括:
根据从所述输入包络表示系数中减去第一压缩包络表示系数来确定(204)包络表示残差系数;
将所述包络表示残差系数变换(206)到变形域,以获得变换的包络表示残差系数;
对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于所述变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及
通过通信信道向解码器发送(210)对下述项的表示:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数以及关于所应用的所述至少一个增益形状编码方案的信息。
2.根据权利要求1所述的方法,还包括:
使用第一数量的比特来量化(202)所述输入包络表示系数,
其中,确定(204)包络表示残差系数包括:从所述输入包络表示系数中减去量化的包络表示系数,并且所发送的第一压缩包络表示系数是所述量化的包络表示系数。
3.根据前述权利要求中任一项所述的方法,其中,对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个包括:选择性地应用所述多个增益形状编码方案中的所述至少一个。
4.根据权利要求3所述的方法,其中,选择性地应用(208)所述多个增益形状编码方案中的所述至少一个中的选择是通过如下方式执行的:以每个包络表示残差系数为基础,通过组合PVQ形状投影和形状精细搜索以在可用维度上达到第一PVQ的金字塔代码点。
5.根据权利要求3所述的方法,其中,选择性地应用(208)所述多个增益形状编码方案中的所述至少一个中的选择是通过如下方式执行的:组合PVQ形状投影和形状精细搜索以在可用维度上达到第一PVQ金字塔代码点,随后跟着另一形状精细搜索以在受限维度集合内达到第二PVQ金字塔代码点。
6.根据前述权利要求中任一项所述的方法,其中,所述多个增益形状编码方案中的至少一些针对包络表示残差系数的不同子集使用互不相同的比特分辨率。
7.根据前述权利要求中任一项所述的方法,其中,所述输入包络表示系数是去除均值的包络表示系数。
8.根据前述权利要求中任一项所述的方法,其中,对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个包括应用两级VQ。
9.根据权利要求8所述的方法,其中,所述两级VQ包括第一级分裂VQ和第二级PVQ。
10.根据权利要求9所述的方法,其中,所述分裂VQ采用两个离线训练的随机码本。
11.根据权利要求10所述的方法,其中,所述两个离线训练的随机码本不大于在所述第二级PVQ期间使用的码本的大小的一半。
12.根据权利要求9所述的方法,其中,所述PVQ采用:DCT旋转矩阵的应用、形状搜索的应用、调整增益和子模式量化的应用、以及形状枚举的应用。
13.根据权利要求12所述的方法,其中,所述两级VQ采用总共38个比特。
14.根据前述权利要求中任一项所述的方法,其中,通过将联合形状码字划分为多个子部分来使用用于增益形状复用的整数比特空间,并且其中特定子部分指示子模式最低有效比特、增益最低有效比特或者附加形状码字。
15.一种由通信系统(100)的解码器(1800)执行的用于处理包络表示残差系数的方法,所述方法包括:
通过通信信道从编码器(1600)接收(301)对下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码方案的信息;
根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用(304)多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
将所述包络表示残差系数从变形域变换(306)到包络表示原始域,以获得变换的包络表示残差系数,以及
根据将所述变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定(308)包络表示系数。
16.根据权利要求15所述的方法,其中,接收的第一压缩包络表示系数是量化的包络表示系数,所述方法还包括:
使用与用于在编码器的量化器处量化包络表示系数的比特数量相对应的第一数量的比特来逆量化(307)所述量化的包络表示系数,并且其中根据将所述变换的包络表示残差系数与逆量化的包络表示系数相加来确定(308)包络表示系数。
17.根据权利要求15所述的方法,还包括:
通过通信信道从编码器接收(S302)在编码器的量化器处使用的比特的第一数量。
18.根据权利要求15至17中任一项所述的方法,其中,所述输入包络表示系数是去除均值的包络表示系数。
19.根据权利要求15至18中任一项所述的方法,其中,对所述变换的包络表示残差系数应用(304)多个增益形状解码方案中的至少一个包括应用逆两级VQ。
20.根据权利要求19所述的方法,其中,所述逆两级VQ包括第一级逆PVQ和第二级逆分裂VQ。
21.根据权利要求20所述的方法,其中,所述逆PVQ采用:子模式和增益解码的应用、形状逆枚举和归一化的应用、调整增益的应用、以及IDCT旋转矩阵的应用。
22.根据权利要求15至21中任一项所述的方法,其中,接收的联合编码的形状码字被分解以指示子模式最低有效比特、或增益最低有效比特、或附加形状码字。
23.根据前述权利要求中任一项所述的方法,其中,所述表示由对码本的索引来定义。
24.根据前述权利要求中任一项所述的方法,其中,所述表示由下述项本身来定义:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数、以及所述关于所应用的至少一个增益形状编码方案的信息。
25.根据前述权利要求中任一项所述的方法,其中,所述包络表示系数表示比例因子。
26.根据前述权利要求中任一项所述的方法,其中,所述包络表示系数表示编码的音频波形。
27.一种用于处理输入包络表示系数的通信系统(100)的编码器(1600),所述编码器包括处理电路(1603),所述处理电路被配置为使所述编码器(1600):
根据从所述输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数;
将所述包络表示残差系数变换到变形域,以获得变换的包络表示残差系数;
对所述变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于所述变换的包络表示残差系数中一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及
通过通信信道向解码器发送对下述项的表示:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码方案的信息。
28.一种用于处理输入包络表示系数的通信系统(100)的编码器(1600),所述编码器(1600)包括:
确定模块(1702),被配置为根据从所述输入包络表示系数中减去第一压缩包络表示系数来确定包络表示残差系数;
变换模块(1704),被配置为将所述包络表示残差系数变换到变形域,以获得变换的包络表示残差系数;
应用模块(1706),被配置为对所述变换的包络表示残差系数应用多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及
发送模块(1708),被配置为通过通信信道向解码器发送对下述项的表示:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码的信息。
29.根据权利要求27或28所述的编码器(1600),所述编码器还被配置为执行根据权利要求1至14和23至26中任一项所述的方法。
30.一种用于处理包络表示残差系数的通信系统(100)的解码器(1800),所述解码器(1800)包括处理电路(1803),所述处理电路被配置为使所述解码器(1800):
通过通信信道从编码器(1600)接收下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码方案的信息;
根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于所述增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
将所述包络表示残差系数从变形域变换到包络表示原始域,以获得变换的包络表示残差系数;
根据将变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。
31.一种用于处理包络表示残差系数的通信系统(100)的解码器(1800),所述解码器(1800)包括:
接收模块(1902),被配置为通过通信信道从编码器(1600)接收下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码的信息;
应用模块(1904),被配置为根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用多个增益形状解码方案中的至少一个,以获得包络表示残差系数,其中所述多个增益形状解码方案对于所述增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
变换模块(1906),被配置为将所述包络表示残差系数从变形域变换到包络表示原始域,以获得变换的包络表示残差系数,
确定模块(1908),被配置为根据变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。
32.根据权利要求30或31所述的解码器(1800),所述解码器还被配置为执行根据权利要求15至26中任一项所述的方法。
33.一种用于处理输入包络表示系数的计算机程序(1605),所述计算机程序包括计算机代码,所述计算机代码当在编码器(1600)的处理电路(1603)上运行时使所述编码器(1600):
根据从所述输入包络表示系数中减去第一压缩包络表示系数来确定(204)包络表示残差系数;
将所述包络表示残差系数变换(206)到变形域,以获得变换的包络表示残差系数;
对所述变换的包络表示残差系数应用(208)多个增益形状编码方案中的至少一个,以获得增益形状编码的包络表示残差系数,其中所述多个增益形状编码方案对于所述变换的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;以及
通过通信信道向解码器发送(210)下述项的表示:所述第一压缩包络表示系数、所述增益形状编码的包络表示残差系数、以及关于所应用的至少一个增益形状编码方案的信息。
34.一种用于处理包络表示残差系数的计算机程序(1805),所述计算机程序包括计算机代码,所述计算机代码当在解码器(1800)的处理电路(1803)上运行时使所述解码器(1800):
通过通信信道从编码器(1600)接收(301)下述项的表示:第一压缩包络表示系数、增益形状编码的包络表示残差系数、以及关于所述编码器所应用的至少一个增益形状编码方案的信息的表示;
根据接收的关于所应用的至少一个增益形状编码方案的信息,对接收的增益形状编码的包络表示残差系数应用(304)多个增益形状解码方案中的至少一个,以实现包络表示残差系数,其中所述多个增益形状解码方案对于增益形状编码的包络表示残差系数中的一个或多个在增益分辨率和形状分辨率中的一个或多个中具有互不相同的折中;
将所述包络表示残差系数从变形域变换(306)到包络表示原始域,以获得变换的包络表示残差系数,以及
根据将变换的包络表示残差系数与接收的第一压缩包络表示系数相加来确定包络表示系数。
35.一种计算机程序产品,包括根据权利要求33和34中的至少一项所述的计算机程序(1605,1805),以及存储所述计算机程序的计算机可读存储介质(1604,1804)。
CN201780075965.9A 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器 Active CN110050304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211569599.1A CN116343804A (zh) 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662435173P 2016-12-16 2016-12-16
US62/435,173 2016-12-16
US201762583791P 2017-11-09 2017-11-09
US62/583,791 2017-11-09
PCT/EP2017/082951 WO2018109143A1 (en) 2016-12-16 2017-12-15 Methods, encoder and decoder for handling envelope representation coefficients

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211569599.1A Division CN116343804A (zh) 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器

Publications (2)

Publication Number Publication Date
CN110050304A true CN110050304A (zh) 2019-07-23
CN110050304B CN110050304B (zh) 2022-11-29

Family

ID=60702783

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211569599.1A Pending CN116343804A (zh) 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器
CN201780075965.9A Active CN110050304B (zh) 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211569599.1A Pending CN116343804A (zh) 2016-12-16 2017-12-15 用于处理包络表示系数的方法、编码器和解码器

Country Status (8)

Country Link
US (3) US10580422B2 (zh)
EP (2) EP3555885B1 (zh)
CN (2) CN116343804A (zh)
ES (1) ES2821141T3 (zh)
MX (1) MX2019006535A (zh)
PL (1) PL3555885T3 (zh)
PT (1) PT3555885T (zh)
WO (1) WO2018109143A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735449A (zh) * 2020-12-30 2021-04-30 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180676A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
CN101588182A (zh) * 2008-05-19 2009-11-25 华为技术有限公司 矢量规整的方法及装置和矢量规整的解码方法及装置
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US20140025375A1 (en) * 2011-04-15 2014-01-23 Telefonaktiebolaget L M Ericsson (Publ) Adaptive Gain-Shape Rate Sharing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
ATE318405T1 (de) * 2002-09-19 2006-03-15 Matsushita Electric Ind Co Ltd Audiodecodierungsvorrichtung und -verfahren
KR100487719B1 (ko) 2003-03-05 2005-05-04 한국전자통신연구원 광대역 음성 부호화를 위한 엘에스에프 계수 벡터 양자화기
DE602005003358T2 (de) * 2004-06-08 2008-09-11 Koninklijke Philips Electronics N.V. Audiokodierung
US20060136202A1 (en) * 2004-12-16 2006-06-22 Texas Instruments, Inc. Quantization of excitation vector
CA2603255C (en) 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
BRPI0818927A2 (pt) * 2007-11-02 2015-06-16 Huawei Tech Co Ltd Método e aparelho para a decodificação de áudio
CN101925953B (zh) * 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
EP2357649B1 (en) * 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
NO2669468T3 (zh) * 2011-05-11 2018-06-02
EP3111560B1 (en) * 2014-02-27 2021-05-26 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for pyramid vector quantization indexing and de-indexing of audio/video sample vectors
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US20200402523A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Psychoacoustic audio coding of ambisonic audio data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180676A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
CN101185127A (zh) * 2005-04-01 2008-05-21 高通股份有限公司 用于编码和解码语音信号的高频带部分的方法和设备
CN101588182A (zh) * 2008-05-19 2009-11-25 华为技术有限公司 矢量规整的方法及装置和矢量规整的解码方法及装置
CN102222505A (zh) * 2010-04-13 2011-10-19 中兴通讯股份有限公司 可分层音频编解码方法系统及瞬态信号可分层编解码方法
US20140025375A1 (en) * 2011-04-15 2014-01-23 Telefonaktiebolaget L M Ericsson (Publ) Adaptive Gain-Shape Rate Sharing

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735449A (zh) * 2020-12-30 2021-04-30 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置
CN112735449B (zh) * 2020-12-30 2023-04-14 北京百瑞互联技术有限公司 优化频域噪声整形的音频编码方法及装置

Also Published As

Publication number Publication date
BR112019008054A2 (pt) 2019-07-02
US20190362730A1 (en) 2019-11-28
EP3555885B1 (en) 2020-06-24
PT3555885T (pt) 2020-07-20
US20200176005A1 (en) 2020-06-04
US11990145B2 (en) 2024-05-21
US11430455B2 (en) 2022-08-30
ES2821141T3 (es) 2021-04-23
CN110050304B (zh) 2022-11-29
EP3723087A1 (en) 2020-10-14
MX2019006535A (es) 2019-08-21
PL3555885T3 (pl) 2021-01-11
EP3555885A1 (en) 2019-10-23
US20230072546A1 (en) 2023-03-09
US10580422B2 (en) 2020-03-03
WO2018109143A1 (en) 2018-06-21
CN116343804A (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
US7729905B2 (en) Speech coding apparatus and speech decoding apparatus each having a scalable configuration
CN105993178B (zh) 用于音频/视频采样矢量的棱椎矢量量化编索引和解索引的方法和装置
WO2006062202A1 (ja) 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
US8386267B2 (en) Stereo signal encoding device, stereo signal decoding device and methods for them
MXPA04011841A (es) Metodo y sistema para la cuantificacion vectorial reticular multivelocidad de una senal.
CN110050304A (zh) 用于处理包络表示系数的方法、编码器和解码器
JP2006518873A5 (zh)
KR20120043160A (ko) 다단계 양자화 방법 및 장치
KR20040028750A (ko) 음성 코덱의 선스펙트럼 주파수 벡터 양자화 방법 및 시스템
WO2010080663A1 (en) Method and apparatus for vector quantization codebook search
CN1216365C (zh) 多信道语音信号编码和解码
EP2202727B1 (en) Vector quantizer, vector inverse quantizer, and the methods
WO2007114290A1 (ja) ベクトル量子化装置、ベクトル逆量子化装置、ベクトル量子化方法及びベクトル逆量子化方法
EP2398149B1 (en) Vector quantization device, vector inverse-quantization device, and associated methods
US8335260B2 (en) Method and device for vector quantization
US20100274556A1 (en) Vector quantizer, vector inverse quantizer, and methods therefor
WO2009153995A1 (ja) 量子化装置、符号化装置およびこれらの方法
US10991376B2 (en) Methods, encoder and decoder for handling line spectral frequency coefficients
KR101369064B1 (ko) 음성 부호화 장치 및 음성 부호화 방법
KR20130112869A (ko) 양자화 장치 및 양자화 방법
CN101630510B (zh) Amr语音编码中lsp系数量化的快速码本搜索的方法
CN1244903C (zh) 用于语音编码的线谱对加权量化矢量快速搜索方法
US8949117B2 (en) Encoding device, decoding device and methods therefor
CN108028045A (zh) 用于音频信号解码器的位错误检测器
BR112019008054B1 (pt) Métodos para tratar coeficientes de representação de envelope de entrada e coeficientes residuais de representação de envelope, codificador, e, decodificador

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant