CN110619884A - 音频编码方法和装置 - Google Patents
音频编码方法和装置 Download PDFInfo
- Publication number
- CN110619884A CN110619884A CN201911085013.2A CN201911085013A CN110619884A CN 110619884 A CN110619884 A CN 110619884A CN 201911085013 A CN201911085013 A CN 201911085013A CN 110619884 A CN110619884 A CN 110619884A
- Authority
- CN
- China
- Prior art keywords
- region
- encoding
- frequency band
- energy
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 230000005236 sound signal Effects 0.000 claims abstract description 44
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 230000003595 spectral effect Effects 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013139 quantization Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 33
- 230000015654 memory Effects 0.000 description 17
- 238000004891 communication Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 108091026890 Coding region Proteins 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000007561 Acacia citrinoviridis Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000008672 reprogramming Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/54—Store-and-forward switching systems
- H04L12/56—Packet switching systems
- H04L12/5601—Transfer mode dependent, e.g. ATM
- H04L2012/5629—Admission control
- H04L2012/5631—Resource management and allocation
- H04L2012/5632—Bandwidth allocation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
Abstract
用于对音频信号进行编码的编码器和其中的方法,其中音频信号的频谱被分成第一区域和第二区域,其中至少第二区域包括多个频带。此外,通过第一编码方法对第一区域中的谱峰进行编码。本文提供的方法包括:针对音频信号的片段,确定第二区域中的频带的能量和第一区域的能量估计之间的关系;确定第二区域的中的频带的能量和第二区域中的相邻频带的能量之间的关系;确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的频带进行编码。此外,当上述关系满足各自的预定准则且比特数量足够时,使用第二编码方法对第二区域中的频带和第一区域的至少一个片段进行编码。否则,代之为对第二区域中的频带进行BWE或噪声填充。
Description
本申请是国际申请日为2015年3月13日的国际申请PCT/EP2015/055306进入中国国家阶段的对应的申请号为201580013802.9的中国发明专利申请“音频编码方法和装置”的分案申请。
技术领域
所提出的技术大体上涉及用于音频编码的编码器和方法。
本文的实施例大体上涉及音频编码,其中由于比特率限制,使得部分频谱无法进行编码。具体地,实施例涉及带宽扩展技术,其中使用来自已编码的感知上较为重要的频带的参数表示和近似来重建在感知上不那么重要的频带。
背景技术
大多数现有电信系统操作在受限的音频带宽上。源于陆线电话系统的限制,大多数语音服务被局限于仅发送频谱的低端。尽管受限的音频带宽对于大多数会话是足够的,但是仍希望增加音频带宽以提高清晰度和存在感。虽然电信网络的容量持续增加,但是限制每通信信道所需的带宽仍然具有很大吸引力。在移动网络中,用于每个呼叫的传输带宽越小,则在移动设备和基站二者中产生的功耗越低。对于移动运营商,这转化为能量和成本的节约,同时终端用户将体验到延长的电池寿命和增加的通话时间。此外,在每用户消耗带宽较小的情况下,移动网络能够并行地服务于更大数量的用户。
人类听觉系统的特性是:知觉与频率相关。具体而言,我们的听力对于较高频率不太精确。这启发了所谓的带宽扩展(BWE)技术,其中使用少量传输的参数根据低频带来重建高频带。
传统的BWE使用高频带信号的参数表示(例如频谱包络和时间包络),并通过使用产生的噪声或低频带信号的修改版本来再现信号的频谱精细结构。如果高频带包络由滤波器表示,则精细结构信号通常被称为激励信号。高频带包络的精确表示在感知上比精细结构更为重要。因此,下述情况是常见的:以比特为单位的可用资源被花费在包络表示上,而精细结构在没有额外辅助信息的情况下根据编码的低频带信号来重建。
BWE技术已经被应用于各种音频编码系统中。例如,3GPP AMR-WB+使用基于低频带编码器的时域BWE,该低频带编码器在编码激励线性预测(CELP)语音编码和变换编码的残差(TCX)编码之间切换。另一示例是基于音频编解码器的3GPP eAAC变换,该音频编解码器执行BWE的变换域变体(称为频谱带复制(SBR))。
虽然通常在感知上诱导分割为低频带和高频带,但是它可能不太适合某些信号类型。作为示例,如果特定信号的高频带在感知上比较低频带更为重要,则花费在较低频带上的大多数比特将被浪费,而较高频带将以差的精度表示。通常,如果频谱的一部分被固定编码,而其它部分没被编码,则可能总是存在不符合先验假设的信号。最差的情况将是:信号的全部能量被包含在未编码部分中,这将产生非常差的性能。
发明内容
本申请的目的旨在提供更灵活的音频编码方案。通过所提出的技术的实施例来满足该目的以及其他目的。
所提出的技术涉及增加决策逻辑,其用于将先验假设不重要的一个或多个频带包括进精细结构编码中。该决策逻辑被设计为:对于针对编码的BWE区域的边界的先验假设为有效的信号,维持其“传统”行为;同时对于落在该组之外的信号,将先验假设不重要的BWE区域的部分包括在的编码区域中。
所提出的技术的优点是:维持基于先验知识的部分编码频带的有利结构,同时将其扩展用于处理信号的特殊情况。
当阅读以下详细说明时,将理解其他优点。
根据第一方案,提供了一种用于编码音频信号的方法,其中音频信号的频谱至少被分成第一区域和第二区域,其中至少第二区域包括多个频带。此外,通过第一编码方法对第一区域中的谱峰进行编码。本文提供的方法包括:针对音频信号的片段:确定第二区域中的频带的能量和第一区域的能量估计之间的关系。所述方法还包括:确定第二区域中的所述频带的能量和第二区域中的相邻频带的能量之间的关系。所述方法还包括:确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的所述频带进行编码。此外,当上述关系满足各自的预定准则且比特数量足够时,使用第二编码方法对第二区域中的所述频带和第一区域的所述至少一个片段进行编码。否则,代之为对第二区域中的所述频带进行BWE或噪声填充。
根据第二方案,提供了一种用于编码音频信号的编码器,其中音频信号的频谱至少被分成第一区域和第二区域,其中至少第二区域包括多个频带。所述编码器被配置为:使用第一编码方法对第一区域中的谱峰进行编码。所述编码器还被配置为:针对音频信号的片段:确定第二区域中的频带的能量和第一区域的能量估计之间的关系;确定第二区域中的所述频带的能量和第二区域中的相邻频带的能量之间的关系;确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的所述频带进行编码。所述编码器还被配置为:当上述关系满足各自的预定准则且比特数量足够时:使用第二编码方法对第二区域中的所述频带和第一区域的所述至少一个片段进行编码,否则,对第二区域中的所述频带进行扩展BWE或噪声填充。
根据第三方案,提供了一种通信设备,所述通信设备包括根据第二方案所述的编码器。
根据第四方案,提供了一种计算机程序,所述计算机程序包括指令,当在至少一个处理器上执行所述指令时使所述至少一个处理器执行根据第一方案和/或第二方案的方法。
根据第五方案,提供了一种载体,所述载体包括第四方案的计算机程序。
附图说明
根据以下对附图中示出的实施例的更具体的描述,本文公开的技术的前述或其他目的、特征、优点将变得明显。附图不一定按比例绘制,而是重点在于示意此处公开的技术的原理。
图1是所介绍的编码原理针对的谐波频谱的示例。为了比较,底部图示出了具有缓慢变化的频谱包络的音频频谱;
图2a是MDCT频谱的编码区域的四种不同类型的结构图;
图2b是模仿谱峰之间的空间的LF编码区域的示例;
图3是示出了根据示例实施例的方法的流程图;
图4示出了在BWE区域中引入编码频带;
图5a-c示出了根据示例实施例的编码器的实现。
图6示出了编码器的实施例;
图7示出了编码器的计算机实现的实施例;
图8是示出了包括功能模块组的编码器的实施例的示意框图;以及
图9示出了编码方法的实施例。
具体实施方式
所提出的技术旨在在编解码器中实现,所述编解码器即编码器和对应的解码器(常缩写为编解码器)。音频信号由编码器接收并进行编码。所得的编码信号被输出,并通常被发送到接收器,在接收器处去由对应的解码器进行解码。在一些情况下,编码信号被代之为存储在存储器中供以后检索。
所提出的技术可以应用于编码器和/或解码器,例如用户终端或用户设备的编码器和/或解码器,该用户终端或用户设备可以是有线设备或无线设备。本文描述的所有备选设备和节点以术语“通信设备”来概括,在通信设备中,可以应用本文描述的解决方案。
如本文所使用的,非限制性术语“用户设备”和“无线设备”可以指移动电话、蜂窝电话、配备有无线通信能力的个人数字助理(PDA)、智能电话、膝上型计算机或配备有内部或外部的移动宽带调制解调器的个人计算机(PC),具有无线通信能力的平板PC、目标设备、设备到设备UE、机器类型的UE或支持机器到机器通信的UE、iPAD、客户端设备(CPE)、膝上型嵌入式设备(LEE)、膝上安装的设备(LME)、USB加密狗、便携式电子无线通信设备、配备有无线通信能力的传感器设备等。具体地,术语“UE”和术语“无线装置”应当理解为非限制性的术语,包括:在蜂窝或移动通信系统中与无线网络节点通信的任意类型的无线设备,或配备有用于根据用于在蜂窝或移动通信系统内进行通信的任意相关标准进行无线通信的无线电路的任何设备。
如本文使用的,术语“有线设备”可以指被配置为或准备好有线连接至网络的任意设备。具体地,当被配置为有线连接时,有线设备可以是具有或不具有无线通信能力的上述设备中的至少一些。
所提出的技术还可以应用于无线网络节点的编码器和/或解码器。如本文所使用的,非限制性术语“无线网络节点”可以指基站、网络控制节点(例如网络控制器、无线网络控制器、基站控制器等)。具体地,术语“基站”可以涵盖不同类型的无线电基站,无线电基站包括标准化基站(例如,节点B或演进节点B(eNB)),还可以包括宏/微/微微无线电基站、家庭基站(也称为毫微微基站)、中继节点、中继器、无线接入点、基站收发机(BTS)、甚至控制一个或多个远程无线单元(RRU)的无线电控制节点等。
关于与要被编码的音频信号的频谱有关的术语,这里我们将尝试解释所使用的一些术语。如上所述,音频频率通常分为所谓的“低频带”(LB)或“低频频带”(LF);以及所谓的“高频带”(HB)或“高频频带”(HF)。通常,高频带不以与低频带相同的方式进行编码,而代之为进行BWE。如上所述,BWE可以包括频谱包络和时间包络的编码。然而,在本文中带宽扩展的高频带仍可被称为未编码。换言之,“未编码的高频带”仍可以与例如包络的某种编码相关联,但是该编码可被假定关联的比特比编码区域中的编码少得多。
本文中,将使用术语“第一区域”和“第二区域”,指代音频频谱的部分。在优选实施例中,如在使用BWE的传统音频编码中一样,第一区域可被假定为低频带,且第二区域可被假定为高频带。然而,可以存在超过两个区域,且各区域可以被不同地配置。
所提出的技术被嵌入音频编解码器的背景中,所述音频编解码器针对具有强谐波内容的信号。在图1中呈现音频信号的图示。图1中的上部音频频谱是谐波频谱的示例,即具有强谐波内容的音频信号的频谱的示例。为了比较,图1中的底部频谱示出了具有缓慢变化的频谱包络的音频频谱。
在示例实施例中,使用改进的离散余弦变换(MDCT)在频率变换域中执行编码和解码。谐波结构的建模如下:在所谓的“低频带”中使用特定峰值编码方法,其以矢量量化器(VQ)和BWE区域作为补充,所述矢量量化器(VQ)针对MDCT频谱的重要的低频(LF)系数,在所述BWE区域中根据低频带合成来产生较高频率。在图2a和2b中示出了本系统的概述。
图2a示出了MDCT频谱的编码区域的四种不同类型的结构视图。在低频带中,使用基于峰值的编码方法对谱峰进行编码。在高频带中,应用BWE(点虚线),BWE可以包括编码,即涉及频谱包络和时间包络的信息的某种参数表示。图2a中标记为“编码的LF”的区域(双实线)使用增益形状编码方法进行编码,即与用于峰值的编码方法不同的编码方法。当峰值已经被编码时,编码的LF区域取决于比特预算之外的可用于编码的剩余比特数量,在该意义上编码的LF区域是动态的。在图2b中,可以看到与图2a中的相同区域,但这里还可以看到编码的LF区域在已编码峰值之间扩展。换言之,取决于目标频谱的峰值位置和可用比特数量,位于峰值之间的低频带频谱的部分也可以通过增益形状编码方法来建模。包括已编码峰值的频谱的部分被排除在较低频率区域的增益形状编码外,即被排除在编码的LF区域外。当可用比特被花费在峰值编码和LF编码上时仍保持未编码的低频带的部分将进行噪声填充。
假定上述结构,即第一区域和第二区域(在第一区域中峰值和重要的非峰值部分/系数被编码,第二区域也可以表示为BWE区域,并且存在这样的先验假设,第二区域不包括与第一区域中一样的在感知上重要的信息),提出了在BWE区域中增加频谱成分的编码的新技术。该想法在于:如果满足一定需求,则在BWE区域中引入编码频带(看图3)。如果合适,则还可以引入不止一个编码频带。
由于目标在于维持编码区域(例如频谱的低频部分)和第二区域(例如对于大多数信号而言频谱的高频部分被带宽扩展)的结构,在一个实施例中,仅当满足关于频带的一定条件时,才应当引入第二区域中的编码频带。用于第二区域中的被评估用于编码的候选频带的条件或准则可被如下构想:
1.候选频带(例如,频谱的高频部分中的一频带)中的能量与峰值编码区域(例如在频谱的较低部分中的峰值编码区域)的能量估计相比,应该是相对较高的。这种能量关系指示第二区域中的可听见的且因此感知上相关的频带。
2.该候选频带与第二区域中的相邻频带比较,应该具有相对较高的能量。这表明:使用BWE技术可能无法良好地对第二区域中的峰值结构进行建模。
3.用于对候选频带进行编码的资源(即比特)不应当与编码区域的部分的编码中的更重要的成分(参见图2a和2b中的编码的LF)进行竞争。
示例实施例
以下,将参考图3描述涉及用于对音频信号进行编码的方法的示例实施例。音频信号的频谱至少被分为第一区域和第二区域,其中至少第二区域包括多个频带,且其中第一区域中的谱峰通过第一编码方法进行编码。该方法将由编码器执行,其中在解码器中将执行对应方法。编码器和解码器可被配置为服从针对音频编码和解码的一个或多个标准。该方法包括:针对音频信号的片段,
-确定第二区域中的频带的能量和第一区域的能量估计之间的关系(301);
-确定在第二区域中的该频带的能量和第二区域中的相邻频带的能量之间的关系(302);
-确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的该频带进行编码(303、305);以及,当上述关系满足各自的预定准则(304)且比特数量足够时(305):
-使用第二编码方法对第二区域中的该频带和第一区域的该至少一个片段进行编码(306);以及否则:
-对第二区域中的该频带进行BWE或噪声填充(307)。
与第二区域相比,第一区域通常是频谱的较低部分。如先前所提到的,第一区域可以是所谓的低频带,第二区域可以是所谓的高频带。区域之间不重叠,且可以是毗邻的。其它区域也是可能的,其它区域可以例如分隔第一区域和第二区域。
使用相同的第二编码方法对第一区域的至少一个片段(参见图2a和图2b中的“编码的LF”的部分)和第二区域中的选定用于编码的候选频带进行编码。该第二编码方法可以包括矢量量化或金字塔矢量量化。由于第二区域中的频带的能量包络或增益已被编码以辅助BWE技术,将形状量化器应用于选定候选频带的精细结构作为该编码的补充是有利于。以此方式,实现对选定候选频带的增益形状编码。在一些优选实施例中,如上所述,第一区域中的谱峰通过第一编码方法进行编码。第一编码方法优选地是基于峰值的编码方法,例如在3GPP TS 26.445,5.3.4.2.5节中所描述的编码方法。在相同文档中的5.3.4.2.7节中例示了第二编码方法。
图4示出了应用上述方法的实施例的可能的结果。在图4中,第二区域中的频带BHB被编码而不是进行BWE(如图2a和图2b中所示),如果没用应用该方法的实施例,则频带BHB原本是进行BWE。对频带BHB的编码使用与用于图4中标记为“编码的LF”部分的编码方法相同的编码方法。然而,标记为“编码的峰值”的第一区域中的峰值使用另一编码方法进行编码,该另一编码方法优选地是基于峰值的。注意:由于第二区域的内容不是使用BWE或其它频谱填充技术进行严格填充的,所以编码频带和未编码频带的先验假设不再成立。由于这个原因,更适合将该填充策略称为噪声填充。术语噪声填充更常用于区域中的频谱填充,噪声填充可以出现在频谱中的任何地方和/或在频谱的编码部分之间的任何地方。
关于能量之间的关系和可用于编码的比特数量的充足性的确定对应于上述编号为1-3的三个条件。以下将描述可以如何执行所述确定的示例。针对第二区域中的候选频带来描述评估。
条件1的评估
第一条件涉及:候选频带中的能量应当与峰值编码区域的能量估计具有特定关系。本文中,该关系被描述为:与第一区域的能量估计相比,候选频带能量应当相对较高。
作为示例,假定在频率变换域中使用改进的离散余弦变换执行编码,其中如下计算MDCT系数:
其中x(n)表示输入音频样本中的具有帧索引i的一帧。这里,n是时间域样本的索引,且k是频率域系数的索引。为了表示简单,当所有的计算在同一帧内进行,则帧索引i将被忽略。一般而言,应当理解:来自输入音频帧x(n)的所有计算将在帧的基础上执行,且所有跟随变量可以标注有索引i。
第二区域的频带对数(log)能量E(j),例如高频带区域,可以被定义为:
其中,bj是该频带j中的第一系数,且Nj指该频带中的MDCT系数的数量。针对高频区域的典型数量是每频带24-64个系数。应当注意:2log2(·)只是被发现适用于目标音频编码系统的示例,且可以使用其它对数底和缩放因子。使用其它对数底和缩放因子将给出不同的绝对对数能量值,且将需要不同阈值,但是该方法在其他方面将保持相同。
如先前描述的,第一区域中的谱峰优选地使用基于峰值的编码方法进行编码。在本示例中,第一区域(例如较低频率区域)的编码峰值使用下述参数进行建模:峰值位置p(m)、幅度(包括符号)G(m)(其被设置为匹配在给定位置的MDCT箱(bin)Y(p(m)))、以及表示相邻峰值的形状矢量V(m)(例如四个相邻的MDCT箱),其中m=1..Npeaks,并且Npeaks是在第一区域的表示中使用的峰值数量。
为了评估是否满足上面条件1,我们想对第一区域中的能量作出估计,以与候选频带能量进行对比。假定在所建模的峰值内包含了第一区域中的能量的大部分,帧i的第一区域中的能量的估计Epeak(i)可以被推导为:
现在,条件1可以通过设定针对候选频带j的包络能量E(j)的阈值来如下评估:
E(j)-Epeak(i)>T1 (5)
其中T1是通过条件1(即满足条件1)的阈值对数能量。由于对数函数的计算复杂性,可以使用以下数学上等价的备选方式:
或
该阈值应当被设置为使得其对应于频带的感知重要性。实际值可以取决于频带结构。在一个示例实施例中,针对合适的值被发现是10-5。
条件2的评估
第二条件涉及:候选频带中的能量应当与第二区域中的相邻频带的能量具有特定关系。本文中,这种关系被表示为:与第二区域中的相邻频带相比,候选频带应该具有相对较高的能量。
如何评估条件2是否满足的示例是将候选频带的对数能量与整个第二区域(例如高频带)的平均对数能量进行比较。首先,第二区域的平均对数能量可以被定义为:
然后,条件2的表示可以构想为:
其中T2表示通过条件2的对数能量阈值。等价地,与针对条件1的情况一样,如果从计算复杂性方面而言被视作有益的,其可以在能量域中而不是在对数域中进行构造,参见方程(6)。在一个示例实施例中,针对T2合适的值被发现是3。作为使用整个第二区域的平均对数能量的备选方案,可以仅使用第二区域的部分,例如在候选频带周围的多个频带。
条件3的评估
第三条件涉及:可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的该频带进行编码。否则,第二区域中的频带不该被编码。
条件3涉及目标编码方法,上文标为“第二编码方法”,目标编码方法是增益形状编码。根据实施例,针对编码的LF区域(即第一区域的非峰值部分)的通用VQ被配置为:还覆盖第二区域(例如高频区域)中的选定的频带。然而,由于第一区域(通常是低频区域)对MDCT域编码敏感,所以应当确保分配一些资源(比特)对该频率范围的至少一部分进行编码。由于针对第一区域的非峰值部分(参见图2a和图2b中的“编码的LF”)的编码的优选的通用金字塔矢量量化(PVQ)在划分为多个频带的目标频谱上操作,所以通过确保针对第一区域分配至少一个频带来满足该要求,即:
Nband≥1 (10)
其中Nband表示目标信号中的针对编码的LF部分的频带数量。这些频带与第二区域中的频带类型不同。这里的频带Nband是具有由编码器给出的宽度的频带,且该频带包括不是通过峰值编码方法进行编码的第一区域的部分。
在具有足够的可用比特对第一区域的至少一个非峰值部分和满足上面的条件1-2的选定的频带二者进行编码的情况下,选定的频带可以与第一区域的至少一个非峰值部分一起使用第二编码方法(增益形状)进行编码。用于避免资源浪费的另一有用条件是确保用于选定的频带的比特率足够高,足以以可接受的质量表示该频带。如果比特率不够高,对选定的频带进行编码所花费的比特将被浪费,且将这些比特花费用于对第一区域的更多低频部分(参见图2a中的其他编码LF)进行编码将更好。在示例实施例中,使用PVQ来处理对第一区域的非峰值部分的编码,该PVQ在脉冲数量、矢量长度和由函数pulses2bits(Wj,Pmin)定义的所需比特率之间具有明确关系,其中Wj表示选定的频带的带宽,而Pmin是应当被表示的脉冲的最小数量。假定Blast表示分配给针对PVQ编码器的目标矢量中的最后一个频带的比特数量,则用于避免浪费资源的条件可以写为:
Blast>pulses2bits(Wj,Pmin) (11)
脉冲Pmin的最小数量是调整参数,但其必须至少满足Pmin≥1。在示例实施例中,方程(10)和(11)一起满足条件3。
本文描述的实施例的新颖部分是用于评估是否对BWE区域中的频带进行编码的决策逻辑。这里,通过BWE区域来表示这样的区域(例如以频率定义的这样的区域):没有本文建议的功能的编码器原本将对该区域进行BWE。例如BWE区域的频率可以是在5、6kHz以上、或在8kHz以上。
上述示例实施例建议了这样的结构:所称的“低频带”被编码,而所称的“高频带”根据低频带来扩展。术语“低频带”和“高频带”指代在特定频率处进行划分的频谱的部分。即,在特定频率(例如5、6或8kHz)处频谱被划分为较低部分(“低频带”)和较高部分(“高频带”)。然而,本文描述的解决方案不限于这种频率划分,而是可以应用到编码区域和未编码区域(即估计的区域)的其它分布,其中编码区域和估计的区域或其部分是例如基于关于手头的资源和信号的感知重要性的先验知识来判决的。
用于对音频信号进行编码的方法的示例实施例包括:接收音频信号;以及进一步分析音频信号的至少一部分。该方法还包括:基于分析,确定是否将音频信号的频谱的高频带区域与频谱的低频带区域一起进行编码。该示例方法还包括:基于确定是否对高频带区域进行编码,对音频信号进行编码供在通信网络中的链路上传输。
上述分析还可以针对编码器中的量化和重建参数来执行。在那种情况下,对数能量E(j)将被方程(8)中的其量化副本替代,而峰值增益G(冽)将被方程(3)中的量化峰值增益替代。由于量化参数对编码器和解码器均可用,所以使用量化参数允许上述方法在编码器和对应的解码器中以相同方式实现。即,上述方法也在解码器中执行,以便确定如何解码和重构音频信号。这种设置的好处是:不需要从编码器向解码器传送指示第二区域中的频带是否已经被编码的额外信息。传送信息的解决方案也是可能的,其指示第二区域的频带是否被编码。
以下将描述用于对音频信号进行解码的方法,其对应于上述用于对音频信号进行编码的方法。像前述一样,音频信号的频谱至少被分为第一区域和第二区域,其中至少第二区域包括多个频带,且其中第一区域中的谱峰使用第一编码方法进行解码。该方法将由解码器执行,该方法包括:针对音频信号的片段,
-确定第二区域中的频带的能量和第一区域的能量估计之间的关系;
-确定在第二区域中的频带的能量和第二区域中的相邻频带的能量之间的关系;
-确定可用比特的数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的该频带进行编码。该方法还包括:
当上述关系满足各自的预定准则(304)且比特数量足够时:
-使用第二编码方法对第二区域中的该频带和第一区域的该至少一个片段进行解码;以及否则
-基于BWE或噪声填充重建第二区域中的该频带。
实现
上述方法和技术可以在编码器和/或解码器中实现,编码器和/或解码器可以是例如通信设备的部分。
编码器,图5a-5c
在图5a中以通用方式示出编码器的示例实施例。通过编码器指代被配置为对音频信号进行编码的编码器。编码器还可能进一步被配置为对其它类型的信号进行编码。编码器500被配置为执行参考例如图3描述的方法实施例中的至少一个。编码器500与先前描述的方法实施例的相同的技术特征、目标和优点相关联。编码器可被配置为服从针对音频编码的一个或多个标准。为了避免不必要的重复,将简要描述编码器。
可以如下实现和/或描述编码器:
编码器500被配置为对音频信号进行编码,其中音频信号的频谱至少被分为第一区域和第二区域,其中至少第二区域包括多个频带,且其中第一区域中的谱峰通过第一编码方法进行编码。编码器500包括处理电路或处理装置501和通信接口502。处理电路501被配置为使得编码器500针对音频信号的片段:确定第二区域中的频带的能量和第一区域的能量估计之间的关系。处理电路501还被配置为使得编码器确定第二区域的中的频带的能量和第二区域中的相邻频带的能量之间的关系。处理电路501还被配置为使得编码器确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的该频带进行编码。当上述关系满足各自的预定准则且比特数量足够时,处理电路501还被配置为使得编码器使用第二编码方法对第二区域中的该频带和第一区域的该至少一个片段进行编码。否则,当至少一个关系不满足预定准则时和/或当比特数量不够时,对第二区域中的频带进行BWE或噪声填充。通信接口502还可以被表示为输入/输出(I/O)接口,其包括用于向其它实体或模块发送数据以及从其它实体或模块接收数据的接口。
如图5b所示,处理电路501可以包括:处理装置,例如处理器503(例如CPU);以及,用于存储或容纳指令的存储器504。存储器则将包括指令,例如具有计算机程序505的形式的指令,当其由处理装置503执行时使得编码器500执行上述操作。
在图5c中示出了处理电路501的备选实现。这里,处理电路包括第一确定单元506,第一确定单元506被配置为使得编码器500:确定第二区域中的频带的能量和第一区域的能量估计之间的关系。处理电路还包括第二确定单元507,第二确定单元507被配置为使得编码器确定第二区域的中的频带的能量和第二区域中的相邻频带的能量之间的关系。处理电路501还包括第三确定单元508,第三确定单元508被配置为使得编码器确定可用的比特数量是否足以用于对第一区域的至少一个非峰值片段和第二区域中的该频带进行编码。处理电路还包括编码单元,当关系满足各自的预定准则且比特数量足够时,编码单元被配置为使得编码器使用第一编码方法对第二区域中的该频带和第一区域的该至少一个片段进行编码。处理电路501可以包括更多单元,例如确定单元,该确定单元被配置为使得编码器确定所确定的关系是否满足准则。该任务可以备选地由其它单元中的一个或多个来执行。
上述的编码器或编解码器可被配置用于本文描述的不同方法实施例,例如使用不同的增益形状编码方法作为第二编码方法;使用不同的峰值编码方法对第一区域中的峰值进行编码;在不同的变换域等中进行操作,等等
可以假定编码器500包括用于执行普通编码器功能的更多功能。
图6示出了编码器的实施例。接收音频信号,并对第一区域(通常是低频区域)的频带进行编码。并且,对第二区域(通常是高频区域,排除第一区域)的至少一个频带进行编码。取决于上面进一步讨论的条件,可以确定第二区域中的频带的编码是否被包含在最终编码信号中。最终编码信号通常被提供给接收方,在接收方处编码信号被解码为音频信号。UE或网络节点还可以包括用于与一个或多个其他节点通信(包括发送和/或接收信息)的无线电路。
在下文中,将参照图7描述计算机实现的示例。编码器包括处理电路(例如一个或多个处理器或存储器)。在这个特定示例中,在计算机程序中实现本文描述的步骤、功能、过程、模块和/或框的至少一部分,计算机程序被加载到存储器中用于由处理电路执行。处理电路和存储器彼此互联以支持常规软件执行。可选的输入/输出设备还可以与处理电路和/或存储器互连,以实现相关数据(例如,输入参数和/或得到的输出参数)的输入和/或输出。如图8所示,可以备选地使用功能模块实现编码器。
可以如下描述用于对音频信号进行编码的编码器的示例实施例:
编码器包括处理器;以及用于存储指令的存储器,当处理器执行所述指令时,使得编码器:接收音频信号;分析音频信号的至少一部分;以及:基于分析,确定是否将音频信号的频谱的高频带区域与频谱的低频带区域一起进行编码;以及进一步:基于确定是否对高频带区域进行编码,对音频信号进行编码供在通信网络中的链路上传输。
编码器可以包括在操作于无线通信网络中的用户设备中。
术语“计算机”应当在一般意义上解释为能够执行程序代码或计算机程序指令以执行特定处理、确定或计算任务的任意系统或设备。
在特定实施例中,计算机程序包括指令,当由至少一个处理器执行所述指令时,使得处理器对第一频率区域的频带进行编码;对第二区域的至少一个频带进行编码;并基于指定条件来确定第二区域中的频带的编码是否要被包括在最终编码信号中。
将理解的是,本文所描述的方法和设备可以用各种方式组合和重新布置。例如,实施例可以用硬件,或用由合适的处理电路执行的软件,或其组合来实现。
本文所述的步骤、功能、过程、模块和/或框可以使用任何常规技术在硬件中实现,例如使用分立式电路或集成电路技术,包括通用电子电路和专用电路二者。
特定示例包括一个或多个合适配置的数字信号处理器和其它已知电子电路,例如用于执行专用功能的互连的分立逻辑门、或者专用集成电路(ASIC)。
备选地,本文描述的步骤、功能、过程、模块和/或框的至少一部分可以在软件中实现,例如由合适的处理电路(例如一个或多个处理器或处理单元)来执行的计算机程序。
因此,当由一个或多个处理器执行时,本文提出的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的装置可定义为一组功能模块,其中由处理器执行的每个步骤对应于一个功能模块。在这种情况下,功能模块实现为在处理器上运行的计算机程序。
还应该注意的是,在一些替代实施例中,在框中标记的功能/动作可以不以流程图中标记的顺序发生。例如,基于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者有时候框可以按照相反的顺序执行。此外,可以将流程图和/或方框图中的给定模块的功能分离成多个框和/或流程图的两个或更多框的功能和/或可以至少部分地集成方框图。最后,可以在示出的方框之间添加/插入其它方框,和/或可以在不脱离发明概念范围的前提下忽略方框/操作。
应当理解,在本公开内对交互单元的选择以及单元的命名仅用于示例目的,并且可通过多个备选方式来配置适合于执行上述任何方法的节点,从而能够执行所建议的处理动作。
还应当注意,本公开中描述的单元应被认为是逻辑实体,并且不必是分离的物理实体。
处理电路的示例包括但不限于:一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)、视频加速硬件、和/或任意合适的可编程逻辑电路(例如一个或多个现场可编程门阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC))。
也应当理解,可以重用其中实现了所提出的技术的任意传统设备或单元的通用处理能力。还可以例如通过重新编程现有的软件或者通过添加新的软件组件来重新使用现有的软件。
所提出的技术提供在配置为对音频信号进行编码的UE或网络节点中可用的编码器,其中,所述编码器被配置为执行必要功能。
在特定示例中,编码器包括处理器和存储器,包括指令的存储器可由处理器执行,由此装置/处理器可操作地执行编码和决定步骤。
所提出的技术还提供了一种包括计算机程序的载体,其中所述载体是电信号、光信号、电磁信号、磁信号、电子信号、无线电信号、微波信号或计算机可读存储介质之一。
软件或计算机程序因此可实现为计算机程序产品,其通常携带于或存储在计算机可读介质上。计算机可读介质可包括一个或多个可移除或不可移除的存储器设备,包括但不限于只读存储器(ROM)、随机访问存储器(RAM)、紧致盘(CD)、数字多用途盘(DVD)、蓝光光盘、通用串行总线(USB)存储器、硬盘驱动(HDD)存储设备、闪存、磁带、或者任意其他常规存储器设备。计算机程序可以因此被加载到计算机或等效处理设备的操作存储器中,用于由其处理电路执行。即,在网络节点中的计算机程序使用的过程中或在其使用之前,软件可由载体承载,例如电子信号、光信号、无线电信号、或计算机可读存储介质。
例如,存储在存储器中的计算机程序包括由处理电路执行的程序指令,由此处理电路能够或可操作地执行上述步骤、功能、过程和/或模块。因此,编码器被配置为:在运行所述计算机程序时执行例如本文描述的那些明确定义的处理任务。计算机或处理电路不是必须专用于仅执行上述步骤、功能、过程和/或块,而是还可以执行其他任务。
如本文所指出的,编码器可以备选地定义为一组功能模块,其中功能模块实现为在至少一个处理器上运行的计算机程序。图8是示出了包括处理器和关联的存储器的编码器的示例的示意框图。驻留在存储器中的计算机程序可以因此被组织为合适的功能模块,所述功能模块被配置为,当被处理器执行时,执行本文所述步骤和/或任务的至少一部分。图6中示出了这些功能模块的示例。
图8是示出了包括功能模块组的编码器的示例的示意框图。
上述实施例仅是作为示例给出的,并且应当理解,所提出的技术不限于此。本领域技术人员将理解,在不背离由随附权利要求限定的本公开范围的情况下,可以对实施例做出各种修改、组合和改变。特别地,在技术可行的情况下,不同实施例中的不同部分的方案可以在其他配置中进行组合。
Claims (15)
1.一种用于对音频信号进行编码的方法,其中所述音频信号的频谱至少被分为第一区域和第二区域,其中至少所述第二区域包括多个频带,并且其中第一区域中的频谱峰值片段通过第一编码方法进行编码,并且其中每个频谱峰值片段包括峰值和确定数量的相邻的MDCT箱,所述方法包括:
针对所述音频信号的片段:
-确定所述第二区域中的频带的能量和所述第一区域的能量估计之间的关系(301);
-确定所述第二区域中的所述频带的能量和所述第二区域的平均能量之间的关系(302);
-确定可用的比特数量是否足以用于对所述第一区域的至少一个非峰值片段和所述第二区域中的所述频带进行编码(303、305);以及
当所述关系满足各自的预定准则(304)且所述比特数量足够(305)时:
-使用与第一编码方法不同的第二编码方法对所述第二区域中的所述频带和所述第一区域的所述至少一个非峰值片段进行编码(306)。
2.根据权利要求1所述的方法,其中,所述第一编码方法是基于峰值的编码方法,所述基于峰值的编码方法包括对峰值位置、峰值的幅度和符号、以及表示相邻的MDCT箱的形状矢量进行编码。
3.根据权利要求1或2所述的方法,其中,所述第一区域的能量估计基于所述第一区域中的谱峰的能量。
4.根据前述权利要求中的任一项所述的方法,其中,关于比特数量是否足以用于对所述第二区域中的所述频带进行编码的确定考虑了对所述第二区域中的所述频带的至少一个系数进行编码所需的最小比特数量。
5.根据前述权利要求中的任一项所述的方法,其中,当比特数量不足时,不对所述第二区域中的所述频带进行编码。
6.根据前述权利要求中的任一项所述的方法,其中,所述第二编码方法包括矢量量化或金字塔矢量量化。
7.一种用于对音频信号进行编码的编码器,其中所述音频信号的频谱至少被分为第一区域和第二区域,其中至少所述第二区域包括多个频带,所述编码器被配置为使用第一编码方法对所述第一区域中的频谱峰值片段进行编码,其中每个频谱峰值片段包括峰值和确定数量的相邻的MDCT箱,并且所述编码器还被配置为:
针对所述音频信号的片段:
-确定所述第二区域中的频带的能量和所述第一区域的能量估计之间的关系;
-确定所述第二区域中的所述频带的能量和所述第二区域的平均能量之间的关系;
-确定可用的比特数量是否足以用于对所述第一区域的至少一个非峰值片段和所述第二区域中的所述频带进行编码;以及
当所述关系满足各自的预定准则且所述比特数量足够时:
-使用与第一编码方法不同的第二编码方法对所述第二区域中的所述频带和所述第一区域的所述至少一个非峰值片段进行编码。
8.根据权利要求7所述的编码器,其中,所述第一编码方法是基于峰值的编码方法,所述基于峰值的编码方法包括对峰值位置、峰值的幅度和符号、以及表示相邻的MDCT箱的形状矢量进行编码。
9.根据权利要求7或8所述的编码器,其中,所述第一区域的能量估计是基于所述第一区域中的谱峰的能量。
10.根据权利要求7-9中的任一项所述的编码器,其中,所述比特数量是否足以用于对所述第二区域中的所述频带进行编码的确定考虑了对所述第二区域中的所述频带的至少一个系数进行编码所需的最小比特数量。
11.根据权利要求7-10中的任一项所述的编码器,其中,当所述比特数量不足够时,不对所述第二区域中的所述频带进行编码。
12.根据权利要求7-11中的任一项所述的编码器,其中,所述第二编码方法包括矢量量化或金字塔矢量量化。
13.一种用户设备,包括根据权利要求7-12中的任一项所述的编码器。
14.一种网络节点,包括根据权利要求7-12中的任一项所述的编码器。
15.一种包括指令的计算机程序,所述指令当在至少一个处理器上执行时使得所述至少一个处理器执行根据权利要求1-6中任一项所述的方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461953331P | 2014-03-14 | 2014-03-14 | |
US61/953,331 | 2014-03-14 | ||
CN201580013802.9A CN106104685B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
PCT/EP2015/055306 WO2015136078A1 (en) | 2014-03-14 | 2015-03-13 | Audio coding method and apparatus |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580013802.9A Division CN106104685B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619884A true CN110619884A (zh) | 2019-12-27 |
CN110619884B CN110619884B (zh) | 2023-03-07 |
Family
ID=52697386
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911085013.2A Active CN110619884B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
CN201580013802.9A Active CN106104685B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
CN201911085012.8A Active CN110808056B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580013802.9A Active CN106104685B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
CN201911085012.8A Active CN110808056B (zh) | 2014-03-14 | 2015-03-13 | 音频编码方法和装置 |
Country Status (12)
Country | Link |
---|---|
US (4) | US9741349B2 (zh) |
EP (3) | EP4109445B1 (zh) |
CN (3) | CN110619884B (zh) |
AR (2) | AR099761A1 (zh) |
BR (1) | BR112016020988B1 (zh) |
DK (1) | DK3518237T3 (zh) |
ES (2) | ES2930366T3 (zh) |
IL (3) | IL247337A0 (zh) |
MX (3) | MX369614B (zh) |
PL (1) | PL3117432T3 (zh) |
TR (1) | TR201907596T4 (zh) |
WO (1) | WO2015136078A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539281A (zh) * | 2020-04-21 | 2021-10-22 | 华为技术有限公司 | 音频信号编码方法和装置 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) * | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113192517B (zh) * | 2020-01-13 | 2024-04-26 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
CN118053437A (zh) * | 2022-11-17 | 2024-05-17 | 抖音视界有限公司 | 音频编码方法、解码方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202042A (zh) * | 2006-12-14 | 2008-06-18 | 中兴通讯股份有限公司 | 可扩展的数字音频编码框架及其扩展方法 |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
US20120029923A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
CN103380455A (zh) * | 2011-02-09 | 2013-10-30 | 瑞典爱立信有限公司 | 对音频信号的高效编码/解码 |
US20130290003A1 (en) * | 2012-03-21 | 2013-10-31 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US126445A (en) * | 1872-05-07 | Improvement in door-checks | ||
US5263119A (en) * | 1989-06-29 | 1993-11-16 | Fujitsu Limited | Gain-shape vector quantization method and apparatus |
US7027391B2 (en) * | 2001-04-26 | 2006-04-11 | Mitsubishi Electric Research Laboratories, Inc. | Adaptive bandwidth allocation by wavelet decomposition and energy analysis of network traffic |
CN1279512C (zh) * | 2001-11-29 | 2006-10-11 | 编码技术股份公司 | 用于改善高频重建的方法和装置 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
JP4871894B2 (ja) * | 2007-03-02 | 2012-02-08 | パナソニック株式会社 | 符号化装置、復号装置、符号化方法および復号方法 |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
JP5308519B2 (ja) * | 2008-06-24 | 2013-10-09 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | 改善されたオーディオ符号化のマルチモード方式 |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
CN101853663B (zh) * | 2009-03-30 | 2012-05-23 | 华为技术有限公司 | 比特分配方法、编码装置及解码装置 |
EP2539893B1 (en) * | 2010-03-10 | 2014-04-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context |
ES2810824T3 (es) * | 2010-04-09 | 2021-03-09 | Dolby Int Ab | Sistema decodificador, método de decodificación y programa informático respectivo |
KR101826331B1 (ko) * | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
CN102800317B (zh) * | 2011-05-25 | 2014-09-17 | 华为技术有限公司 | 信号分类方法及设备、编解码方法及设备 |
BR112013031816B1 (pt) * | 2011-06-30 | 2021-03-30 | Telefonaktiebolaget Lm Ericsson | Método e codificador de transformada de áudio para codificar um segmento de tempo de um sinal de áudio, e método e decodificador de transformada de áudio para decodificar um segmento de tempo codificado de um sinal de áudio |
CN102208188B (zh) * | 2011-07-13 | 2013-04-17 | 华为技术有限公司 | 音频信号编解码方法和设备 |
CN106847295B (zh) * | 2011-09-09 | 2021-03-23 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
CN104025190B (zh) * | 2011-10-21 | 2017-06-09 | 三星电子株式会社 | 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备 |
RU2725416C1 (ru) * | 2012-03-29 | 2020-07-02 | Телефонактиеболагет Лм Эрикссон (Пабл) | Расширение полосы частот гармонического аудиосигнала |
KR20140130248A (ko) * | 2012-03-29 | 2014-11-07 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 하모닉 오디오 신호의 변환 인코딩/디코딩 |
CN103516440B (zh) * | 2012-06-29 | 2015-07-08 | 华为技术有限公司 | 语音频信号处理方法和编码装置 |
CN106941004B (zh) * | 2012-07-13 | 2021-05-18 | 华为技术有限公司 | 音频信号的比特分配的方法和装置 |
EP2830061A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping |
JP6383000B2 (ja) * | 2014-03-03 | 2018-08-29 | サムスン エレクトロニクス カンパニー リミテッド | 帯域幅拡張のための高周波復号方法及びその装置 |
-
2015
- 2015-03-13 MX MX2018000022A patent/MX369614B/es unknown
- 2015-03-13 DK DK19162514.4T patent/DK3518237T3/da active
- 2015-03-13 AR ARP150100778A patent/AR099761A1/es active IP Right Grant
- 2015-03-13 WO PCT/EP2015/055306 patent/WO2015136078A1/en active Application Filing
- 2015-03-13 CN CN201911085013.2A patent/CN110619884B/zh active Active
- 2015-03-13 TR TR2019/07596T patent/TR201907596T4/tr unknown
- 2015-03-13 PL PL15711107T patent/PL3117432T3/pl unknown
- 2015-03-13 US US14/440,700 patent/US9741349B2/en active Active
- 2015-03-13 MX MX2016011328A patent/MX353200B/es active IP Right Grant
- 2015-03-13 EP EP22189260.7A patent/EP4109445B1/en active Active
- 2015-03-13 EP EP19162514.4A patent/EP3518237B1/en active Active
- 2015-03-13 CN CN201580013802.9A patent/CN106104685B/zh active Active
- 2015-03-13 ES ES19162514T patent/ES2930366T3/es active Active
- 2015-03-13 BR BR112016020988-5A patent/BR112016020988B1/pt active IP Right Grant
- 2015-03-13 ES ES15711107T patent/ES2741506T3/es active Active
- 2015-03-13 CN CN201911085012.8A patent/CN110808056B/zh active Active
- 2015-03-13 EP EP15711107.1A patent/EP3117432B1/en active Active
-
2016
- 2016-08-18 IL IL247337A patent/IL247337A0/en active IP Right Grant
- 2016-09-02 MX MX2019012777A patent/MX2019012777A/es unknown
-
2017
- 2017-07-20 US US15/655,252 patent/US10147435B2/en active Active
- 2017-11-30 AR ARP170103355A patent/AR110293A2/es active IP Right Grant
-
2018
- 2018-10-23 US US16/167,831 patent/US10553227B2/en active Active
-
2019
- 2019-03-17 IL IL265424A patent/IL265424B/en active IP Right Grant
- 2019-08-06 IL IL268543A patent/IL268543B/en active IP Right Grant
- 2019-12-20 US US16/722,569 patent/US20200126573A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101202042A (zh) * | 2006-12-14 | 2008-06-18 | 中兴通讯股份有限公司 | 可扩展的数字音频编码框架及其扩展方法 |
CN102089808A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、音频解码器、用于编码及解码音频信号的方法、音频流与计算机程序 |
CN102089806A (zh) * | 2008-07-11 | 2011-06-08 | 弗劳恩霍夫应用研究促进协会 | 噪声填充器、噪声填充参数计算器、用于提供噪声填充参数的方法/用于提供音频信号的填充了噪声的频谱表示的方法、以及相应的计算机程序和经编码的音频信号表示 |
US20120029923A1 (en) * | 2010-07-30 | 2012-02-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
CN103380455A (zh) * | 2011-02-09 | 2013-10-30 | 瑞典爱立信有限公司 | 对音频信号的高效编码/解码 |
US20130290003A1 (en) * | 2012-03-21 | 2013-10-31 | Samsung Electronics Co., Ltd. | Method and apparatus for encoding and decoding high frequency for bandwidth extension |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113539281A (zh) * | 2020-04-21 | 2021-10-22 | 华为技术有限公司 | 音频信号编码方法和装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619884B (zh) | 音频编码方法和装置 | |
KR102409305B1 (ko) | 비트할당방법, 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 기록매체와 이를 채용하는 멀티미디어 기기 | |
RU2668111C2 (ru) | Классификация и кодирование аудиосигналов | |
JP2019165439A (ja) | 符号化及び復号化のための符号化装置、復号化装置、システム及び方法 | |
US11335355B2 (en) | Estimating noise of an audio signal in the log2-domain | |
KR102480710B1 (ko) | 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 | |
US11710492B2 (en) | Speech encoding using a pre-encoded database |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |