CN112119457A - 可截断的预测编码 - Google Patents

可截断的预测编码 Download PDF

Info

Publication number
CN112119457A
CN112119457A CN201980031508.9A CN201980031508A CN112119457A CN 112119457 A CN112119457 A CN 112119457A CN 201980031508 A CN201980031508 A CN 201980031508A CN 112119457 A CN112119457 A CN 112119457A
Authority
CN
China
Prior art keywords
prediction
residual
vector
decoding
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980031508.9A
Other languages
English (en)
Inventor
艾力克·诺维尔
弗雷德里克·扬森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN112119457A publication Critical patent/CN112119457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W76/00Connection management
    • H04W76/20Manipulation of established connections
    • H04W76/28Discontinuous transmission [DTX]; Discontinuous reception [DRX]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereophonic System (AREA)

Abstract

用于对基于频带应用的声道相干参数进行编码和解码的方法、系统和计算机程序,其中每个频带的相干参数形成相干性矢量。使用预测方案对相干性矢量进行编码和解码,然后进行可变比特率熵编码。

Description

可截断的预测编码
技术领域
公开了与预测编码和解码相关的实施例,该预测编码和解码通常与音频信号处理相关。
背景技术
尽管电信网络中的容量在不断增加,但是限制每个通信信道所需的带宽仍然令人非常感兴趣。针对每个呼叫的传输带宽较小,允许移动网络并行服务于大量用户。此外,降低传输带宽会在移动设备和移动网络的基站两者中产生较低的功耗。这样的较低功耗导致移动运营商节约了能源和成本,而最终用户可以经历延长的电池寿命和增加的通话时间。
用于减少语音通信中的传输带宽的一种方法是利用语音中的自然停顿。在大多数对话中,一次只有一个讲话者是活跃的,并且在一个方向上讲话者在语音中的自然停顿通常会占据信号的一半以上。为了减小传输带宽的目的而利用典型对话的这一属性的方法是采用不连续传输(DTX)方案,其中在语音停顿期间不进行活跃信号编码。DTX方案针对所有3GPP移动电话标准(例如2G、3G和VoLTE)进行了标准化。DTX方案也通常用于IP语音系统中。
在实现DTX方案时,通常会发送背景噪声的非常低比特率编码,以允许接收端的舒适噪声发生器(CNG)使用所生成的具有与原始背景噪声相似特性的背景噪声来填充语音停顿。CNG使呼叫听起来更加自然,因为所生成的背景噪声不会根据DTX方案随语音一起打开和关闭。语音停顿期间完全静音被认为对听众来说是烦人的,并经常导致误解呼叫已断开。
DTX方案还依赖于语音活动检测器(VAD),该语音活动检测器向系统指示何时使用活跃信号编码方法或低速率背景噪声编码方法。通过使用通用声音活动检测器(GSAD,也被称为SAD),可以将系统概括为在其他来源类型之间进行鉴别,它不仅可以从背景噪声中鉴别语音,还可以检测音乐或其他相关信号类型。
通过支持立体声或多声道音频传输,可以进一步增强通信服务。在这种情况下,DTX和CNG系统可能需要考虑音频信号的空间特性,以便提供听起来令人愉快的舒适噪声。
发明内容
传统上,电信利用单个信道进行语音通信,其中每个通信端点处的单个麦克风用于捕获扬声器发出的声音。因此,需要通过提供对扬声器的空间环境的更精确的重构来增强通信体验。这样的增强可以增加语音的清晰度,因为如果以空间的方式分离语音和背景噪声,则更容易将语音与背景噪声分离。此外,对于具有两个以上参与者的电话会议场景,将扬声器在音频空间中分离是有益的。
在3GPP语音编解码中使用的常见的舒适噪声(CN)生成方法是,将有关针对语音停顿的背景噪声的能量和频谱形状的信息发送给接收机。与语音段的常规编码相比,可以使用数量明显更少的比特来发送有关背景噪声的信息。
在接收机端,通过以下方式生成CN:创建伪随机信号,并基于接收到的有关针对语音停顿的背景噪声的信息来使用滤波器对所创建的信号的频谱进行整形。这样的信号生成和频谱整形可以在时域或频域中完成。
用于立体声DTX系统的CN生成的常规方法使用单声道编码器,DTX系统在每个声道上单独工作。例如,双单声道编码用于双声道立体声DTX系统。因此,对于左信号和右信号,发送给接收机的背景噪声的能量和频谱形状可以不同。在大多数情况下,在左信号和右信号之间,所发送的背景噪声的能量和频谱形状的差异可能不会很大,这样的差异可能会导致听众感知到信号的立体图像“宽”的程度存在显著差异。也就是说,如果用于生成CN的伪随机信号在左声道和右声道之间是同步的,则结果将是听起来很“窄”的立体声信号,从而给出一种源自听众头部内的声音的感觉。相反,如果伪随机信号不同步,则将给听众非常相反的感觉,即宽信号。
在大多数情况下,原始背景噪声将具有能量和频谱形状(也被称为立体声图像),其介于这两个极端(即窄信号和宽信号)之间。当系统在活跃(语音)编码和非活跃(噪声)编码之间切换时,这会导致背景噪声的立体声图像中的可检测的差异。
原始背景噪声的立体声图像在呼叫期间也可能会改变。例如,用户可能正在四处移动和/或用户周围的环境可能正在改变。常规的CN生成方法,例如双单声道编码系统,无法提供任何机制来适应这种改变。
使用常规的CN生成方法(如双单声道编码)的另一个缺点是VAD决策将不会在声道之间同步。例如,当左声道使用活跃编码进行编码,而右声道使用低比特率CN编码进行编码时,这可能会导致可听见的伪像。声道之间的VAD决策缺乏同步可能使用于在左声道和右声道中生成CN的伪随机信号在一些时刻中同步,而在其他时刻中不同步。结果,所生成的CN的立体声图像可能随着时间的推移在极宽和极窄之间切换。
如上所示,仍然需要一种改进的CN生成方法。
因此,本文公开的某些实施例提供了用于对基于频带应用的声道相干参数进行编码的方法,其中每个频带的相干参数形成相干性矢量。使用预测方案对相干性矢量进行编码,然后进行可变比特率熵编码。编码方案还通过自适应帧间预测改进性能。
例如,在一个方面,提供了由编码器执行的用于对矢量进行编码的方法。该方法包括编码器形成预测加权因子。针对矢量的每个元素,编码器形成矢量元素的第一预测和矢量元素的第二预测。编码器使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。编码器使用所述矢量元素和所述已合并预测来形成预测残差。编码器使用可变比特率方案对预测残差进行编码。编码器发送已编码预测残差。在一些实施方案中,矢量是一系列矢量中的一个。在一些实施例中,编码器基于已合并预测和已重构预测残差来重构矢量。在一些实施例中,编码器编码并发送预测加权因子。
在一些实施例中,第一预测是基于已重构矢量元素的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧内预测:从预测器的集合中选择预测器;将所选择的预测器应用于已重构矢量元素;以及对与所选择的预测器相对应的索引进行编码。
在一些实施例中,第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧间预测:从预测器的集合中选择预测器;将所选择的预测器应用于所述一个或多个先前重构的矢量;以及对与所选择的预测器相对应的索引进行编码。在一些实施例中,来自先前重构的矢量的值被用于帧间预测。
在一些实施例中,编码器对预测残差进行量化以形成第一残差量化器索引,其中,第一残差量化器索引与第一码字相关联。
在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度不超过剩余比特量的结果,对第一残差量化器索引进行编码。
在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度超过剩余比特量的结果,获得第二残差量化器索引,其中,第二残差量化器索引与第二码字相关联,并且其中,第二码字的长度短于第一码字的长度。在这样的实施例中,编码器确定第二码字的长度是否超过所确定的剩余比特量。
在一些实施例中,编码器还被配置为:在第一输入声道上接收第一信号;在第二输入声道上接收第二信号;确定第一信号和第二信号的频谱特性;基于所确定的第一信号和第二信号的频谱特性来确定空间相干性;以及基于空间相干性确定矢量。
在一些实施例中,该方法由包括至少两个输入声道的音频编码器和解码器系统中的编码器执行。在一些实施例中,编码器还被配置为通过执行包括变换输入声道和分析频带中的输入声道的过程来创建频谱。在一些实施例中,矢量包括相干性值的集合,并且其中,每个值与频带中的所述至少两个输入声道中的两个输入声道之间的相干性相对应。
在另一方面,提供了一种由解码器执行的用于对矢量进行解码的方法。该方法包括解码器获得加权因子。针对矢量的每个元素,解码器形成矢量的第一预测和矢量的第二预测。解码器使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。解码器对接收到的已编码预测残差进行解码。解码器基于已合并预测和已解码预测残差来重构矢量元素。在一些实施方案中,所述矢量是一系列矢量中的一个。
在一些实施例中,第一预测是基于已重构矢量元素的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧内预测:接收并解码预测器;以及将已解码预测器应用于已重构矢量元素。
在一些实施例中,第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。在这样的实施例中,帧间预测是通过执行可以包括以下操作的过程来形成的:接收并解码预测器;以及将已解码预测器应用于所述一个或多个先前重构的矢量。在一些实施例中,来自先前重构的矢量的值被用于帧间预测。
在一些实施例中,对已编码预测残差进行解码的步骤包括:确定可用于解码的剩余比特量;以及确定对已编码预测残差进行解码是否超过剩余比特量。
在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码超过剩余比特量的结果,将预测残差设置为零。
在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码不超过剩余比特量的结果,基于残差量化器索引导出预测残差,其中,残差量化器索引是预测残差的量化。
在一些实施例中,获得预测加权因子的步骤包括(i)导出预测加权因子或(ii)接收并解码预测加权因子。
在一些实施例中,解码器基于已重构矢量来生成针对至少两个输出声道的信号。
在又一方面,提供了一种包括处理电路的编码器。处理电路被配置为使编码器:形成加权因子;形成矢量元素的第一预测;形成矢量元素的第二预测;并使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。处理电路还被配置为使编码器:使用所述矢量元素和所述已合并预测来形成预测残差;使用可变比特率方案对预测残差进行编码;以及发送已编码预测残差。
在又一方面,提供了一种包括处理电路的解码器。处理电路被配置为使解码器:获得加权因子;形成矢量元素的第一预测;形成矢量元素的第二预测;以及使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。处理电路还被配置为使解码器:对接收到的已编码预测残差进行解码;以及基于已合并预测和已解码预测残差来重构矢量元素。
本文公开的实施例提供预测和残差编码,其提供适合于可变比特预算的速率可伸缩性。相对于预测方案,残差编码可以被截断。自适应帧间预测在帧间冗余的优点之间找到平衡,同时在帧丢失的情况下将误差传播的风险最小化。
附图说明
本文中所包含并形成说明书一部分的附图示出了各种实施例。
图1示出了根据一些实施例的立体声编码和解码系统。
图2示出了根据一些实施例的立体声编码和解码系统。
图3是示出了根据一些实施例的编码过程的流程图。
图4示出了根据一些实施例的截断方案。
图5是示出了根据一些实施例的解码过程的流程图。
图6是示出了根据一个实施例的过程的流程图。
图7是示出了根据一个实施例的过程的流程图。
图8是根据一个实施例的编码器的框图。
图9是根据一个实施例的解码器的框图。
图10是示出了根据一个实施例的编码器的功能单元的图。
图11是示出了根据一个实施例的解码器的功能单元的图。
具体实施方式
一种实现信号的空间表示的方法是使用多个麦克风并对立体声或多声道信号进行编码。图1示出了参数化立体声编码器102和解码器104的图示。编码器102执行对输入声道对106A-106B的分析,并通过参数化分析108获得立体声图像的参数化表示,并通过降混110将声道减少为单个声道,从而获得降混信号。通过单声道编码器112来使用单声道编码算法对降混信号进行编码,并且通过参数编码器114对立体声图像的参数化表示进行编码。已编码降混信号和立体声图像的参数化表示通过比特流116发送。解码器104采用单声道解码器118来应用单声道解码算法并获得合成的降混信号。参数解码器120对接收到的立体声图像的参数化表示进行解码。解码器104使用立体声图像的已解码参数化表示通过参数化合成122将合成的降混信号变换为合成的声道对。
图2示出了根据一些实施例的参数化立体声编码和解码系统200。如图2所示,参数化立体声编码和解码系统200包括:单声道编码器112,其包括CNG编码器204;以及单声道解码器118,其包括CNG解码器206。在一些实施例中,输入信号106A-106B包括表示为[l(m,n)r(m,n)]的声道对,其中l(m,n)和r(m,n)分别表示针对帧m的样本索引n的左声道和右声道的输入信号。信号以采样频率Fs在长度为N个样本的帧中进行处理,其中帧的长度可包括重叠,例如前瞻和对过去样本的记忆。
参数化立体声编码和解码系统200还包括参数化分析108中的相干性分析202和参数化合成122中的相干性合成208。参数化分析108包括分析输入信号106A-106B的相干性的能力。当单声道编码器112被配置为用作CNG编码器204时,参数化分析108可以分析输入信号106A-106B。在一些实施例中,可以借助于例如DFT或任何其他合适的滤波器组或诸如QMF、混合QMF和MDCT的变换将输入信号106A-106B变换到频域。在一些实施例中,DFT或MDCT变换可以用于将输入信号106A-106B变换到频域。在这样的实施例中,输入信号106A-106B通常在变换之前被加窗。窗口的选择取决于各种参数,例如时间和频率分辨率特性、算法延迟(重叠长度)、重构属性等。作为示例,由[l(m,n)r(m,n)]表示的DFT变换声道对由下式给出:
Figure BDA0002769968640000081
针对频率f的声道相干性Cgen(f)的一般定义由下式给出:
Figure BDA0002769968640000082
其中Sxx(f)和Syy(f)表示两个声道106A-106B的功率谱,而Sxy(f)是互功率谱。在示例性的基于DFT的解决方案中,声道相干频谱可以通过下式给出的DFT频谱来表示:
Figure BDA0002769968640000083
其中*表示复共轭。为了减少编码相干性值所需的比特数,将频谱划分为子频带(也被称为相干频带)。在一些实施例中,子频带的带宽被配置为与所感知的频率分辨率相匹配,对于低频,带宽窄,而对于更高的频率,带宽增加。要注意的是,贯穿说明书,术语声道相干性和空间相干性可互换使用。
因此,相干性的分析提供了针对每个子频带的值,从而形成了相干性值的矢量
Figure BDA0002769968640000084
其中Nbnd是相干频带的数量,b是频带索引,并且m是帧索引。然后对相干性值Cb,m进行编码以存储或发送给解码器。在一些实施例中,可以对功率谱在时间上进行平均或进行低通滤波以形成功率谱的更稳定的估计。关于相干性分析的更多细节在国际申请公开No.WO 2015/122809中被描述。
当对CNG帧进行解码时,解码器104产生与两个合成声道210A-210B相对应的两个CNG帧。在一些实施例中,生成两个CNG帧以具有最小的相干性/相关性。根据一些实施例,可以通过用相同的参数两次单独操作CNG解码器206但使用两个不同的伪随机数生成器来生成具有最小相干性/相关性的这种CNG帧。在一些实施例中,可以通过应用解相关器函数来生成具有最小相干性/相关性的两个CNG帧,该解相关器函数修改CNG帧的精细结构,同时保持对幅度谱的最小影响。然后,使用国际申请公开No.WO 2015/122809中描述的方法,通过将两个生成的CNG信号进行合并来获得目标相干性。
本文公开的所提出的解决方案适用于在声道对中考虑声道相干性的立体声编码器和解码器架构或适用于多声道编码器和解码器。返回参考图2,根据一些实施例,单声道编码器112可以包括立体声编码器VAD。立体声编码器VAD可以向CNG编码器204指示信号包含背景噪声,从而激活CNG编码器204。因此,在参数化分析108中激活包括相干性分析202的CNG分析,并且单声道编码器112启动CNG编码器204。结果,相干性的编码表示和单声道CNG在比特流116中被捆绑在一起以用于传输和/或存储。解码器104识别比特流116中的立体声CNG帧,解码单声道CNG和相干性值,并合成目标相干性,例如在国际申请公开No.WO 2015/122809中所描述的。
本文描述的所公开的实施例涉及针对CNG帧的相干性值的编码和解码。
本文描述的相干性矢量的编码考虑以下属性:(1)能适应变化的每帧比特预算Bm的编码,(2)相干性矢量示出很强的帧间相似度,以及(3)对于丢失的帧,应将误差传播保持在较低水平。
为了解决变化的每帧比特预算,实施粗精编码策略。更具体地,首先以低比特率实现粗编码,并且当达到比特限制时,可以截断随后的精细编码。
在一些实施例中,利用预测方案来执行粗编码。在这样的实施例中,预测器针对于增加的频带b沿着相干性矢量工作,并基于矢量的先前值来估计每个相干性值。也就是说,执行相干性矢量的帧内预测,且其由下式给出:
Figure BDA0002769968640000091
每个预测器集P(q)由(Nbnd-1)个预测器组成,每个预测器包括每个频带(b-1)个预测器系数,其中q=1,2,...Nq并且Nq指示预测器集的总数。如上所示,当b=1时,没有先前的值,且相干性的帧内预测为零。作为示例,当存在六个相干频带(Nbnd=6)时,预测器集数量q由下式给出:
Figure BDA0002769968640000101
作为另一示例,预测器集的总数可以是四个,即Nq=4,其指示可以使用2个比特来发信号通知所选择的预测器集。在一些实施例中,可以顺序寻址用于预测器集q的预测器系数,并将其存储在长度为
Figure BDA0002769968640000102
的单个矢量中。
图3是示出了根据一些实施例的编码过程301的流程图。编码过程301可以由编码器102根据以下步骤执行:
在步骤300中,对于每个帧m,用于跟踪编码所消耗的比特的比特变量(也被称为比特计数器)被初始化为零(Bcurr,m=0)。编码算法接收要编码的相干性矢量(Cb,m)、先前重构的相干性矢量
Figure BDA0002769968640000103
的副本以及比特预算Bm。在一些实施例中,在前面的编码步骤中消耗的比特可以被包括在Bm和Bcurr,m中。在这样的实施例中,下面的算法中的比特预算可以由Bm-Bcurr,m给出。
在步骤310中,从可用预测器P(q),q=1,2,...,Nq中选择给出最小预测误差的预测器集P(q*)。所选择的预测器集由下式给出
Figure BDA0002769968640000104
在一些实施例中,b=1被从预测器集中省略,因为预测为零,并且对于所有预测器集,对误差的贡献将是相同的。存储所选择的预测器集索引,并且比特计数器(Bcurrm)随所需的比特数而增加,例如如果需要两个比特来对预测器集进行编码,则Bcurr,m:=Bcurr,m+2。
在步骤320中,计算预测加权因子α。预测加权因子用于创建加权预测,如下面的步骤360中所述。预测加权因子需要在解码器104中可用。在一些实施例中,对预测加权因子α进行编码并将其发送给解码器104。在这样的实施例中,将比特计数器(Bcurr,m)增加编码预测加权因子所需的比特量。在其他实施例中,解码器可以基于解码器104中已经可用的其他参数来导出预测加权因子。
对于步骤330中的每个频带b=1,2,..Nbnd,执行以下步骤:
在步骤340中,获得帧内预测值
Figure BDA0002769968640000111
对于第一个频带(b=1),没有先前编码的相干性值。在一些实施例中,针对第一个频带的帧内预测可以被设置为零,
Figure BDA0002769968640000112
在一些实施例中,针对第一个频带的帧内预测可以被设置为平均值
Figure BDA0002769968640000113
Figure BDA0002769968640000114
在一些备选实施例中,第一个频带的相干性值可以被单独地进行编码。在这样的实施例中,使用标量量化器对第一个值进行编码以产生重构值
Figure BDA0002769968640000115
因此,针对第一个频带的帧内预测可以被设置为重构值,
Figure BDA0002769968640000116
将比特计数器Bcurr,m增加编码第一个频带的相干性值所需的比特量。例如,如果使用3个比特来编码第一个频带的相干性值,则将3个比特添加到当前的编码所消耗的比特量中,例如Bcurr,m:=Bcurr,m+3。
对于剩余频带b=2,3,...,Nbnd,帧内预测
Figure BDA0002769968640000117
基于先前编码的相干性值,即
Figure BDA0002769968640000118
在步骤350中,基于来自一个或多个先前帧的先前重构的相干性矢量元素,获得帧间预测值
Figure BDA0002769968640000119
在背景噪声稳定或缓慢改变的情况下,相干性频带值Cb,m的帧间变化将很小。因此,使用来自先前帧的值的帧间预测通常将是良好的近似,其产生小的预测残差和小的残差编码比特率。作为示例,可以将针对频带b的最后的重构值用于帧间预测值,即
Figure BDA00027699686400001110
考虑到两个或更多个先前帧的帧间线性预测器可以公式化为
Figure BDA00027699686400001111
其中
Figure BDA00027699686400001112
表示针对帧m的所有频带b的帧间预测相干性值的列矢量,
Figure BDA00027699686400001113
表示针对帧m-n的所有频带b的重构相干性值,而gn是跨越Ninter个先前帧的线性预测器系数。可以从预定义的预测器集中选择gn,在这种情况下,需要使用可以传送给解码器的索引来表示所使用的预测器。
在步骤360中,基于帧内预测
Figure BDA00027699686400001114
帧间预测
Figure BDA00027699686400001115
和预测加权因子α来形成加权预测
Figure BDA0002769968640000121
在一些实施例中,加权预测由
Figure BDA0002769968640000122
给出。
在步骤370中,预测残差被计算和编码。在一些实施例中,基于相干性矢量和加权预测来计算预测残差,即
Figure BDA0002769968640000123
在一些实施例中,使用标量量化器将预测残差量化为索引Ib,m。在这样的实施例中,索引由Ib,m=SQ(rb,m)给出,其中SQ(x)是具有合适范围的标量量化器函数。下面的表1示出了标量量化器的示例。表1示出了针对预测残差的重构级别和量化器索引的示例。
I=SQ(x) 0 1 2 3 4 5 6 7 8
重构级别 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4
表1
在一些实施例中,使用可变长度码字方案来编码索引Ib,m,该可变长度码字方案对于较小的值消耗较少的比特。用于对预测残差进行编码的一些示例是霍夫曼编码、Golomb-Rice编码和一元编码(一元编码与除数为1的Golomb-Rice编码相同)。在对预测残差进行编码的步骤中,需要考虑剩余的比特预算(Bm-Bcurr,m)。如果与索引Ib,m相对应的码字的长度Lcode(Ib,m)适合于剩余的比特预算,即Lcode(Ib,m)≤Bm-Bcurr,m,则选择索引Ib,m作为最终索引
Figure BDA0002769968640000124
如果剩余的比特不足以对索引Ib,m进行编码,则将应用比特率截断策略。在一些实施例中,假设较小的残差值花费较少的比特,则比特率截断策略包括对可能的最大残差值进行编码。这样的率截断策略可以通过如图4中的表400所示对码本重新排序来实现。图4示出了用于表1中所示的标量量化器示例的具有一元码字映射的示例性量化器表400。在一些实施例中,可以通过以2为步长在表400中向上前进直到达到码字0来实现比特率截断。也就是说,图4示出了从长码字到较短码字的向上移动的截断方案。为了保持重构值的正确符号,每个截断步骤在表400上进行两个步骤,分别由负值和正值的虚线和实线箭头指示。通过以2为步长在表400中向上移动,可以找到新的截断的码本索引
Figure BDA0002769968640000125
继续向上搜索,直到满足
Figure BDA0002769968640000131
或已经达到表400的顶部。
如果由向上搜索适合来确定的码字的长度不超过比特预算,则选择最终索引
Figure BDA0002769968640000132
并将
Figure BDA0002769968640000133
输出到比特流,并基于最终索引来形成已重构的残差,即
Figure BDA0002769968640000134
如果在向上搜索之后,码字的长度仍超过比特预算,
Figure BDA0002769968640000135
则这意味着比特限制已达到,Bm=Bcurr,m。在这种情况下,将已重构的残差设置为零,
Figure BDA0002769968640000136
并且不将索引添加到比特流。由于解码器保持同步的比特计数器Bcurr,m,因此解码器可以检测到这种情况并使用
Figure BDA0002769968640000137
而无需显式信令。
在备选实施例中,如果与初始索引相关联的码字的长度超过比特预算,则残差值立即被设置为零,从而放弃上述向上搜索。如果计算复杂性至关重要,这可能是有益的。
在步骤380中,基于已重构预测残差和加权预测来形成重构的相干性值
Figure BDA0002769968640000138
Figure BDA0002769968640000139
在步骤390中,比特计数器相应地递增。如上所述,贯穿编码过程301,增加比特计数器。
在一些实施例中,相干性矢量中的帧间变化很小。因此,使用先前帧值的帧间预测通常是良好的近似,其产生小的预测残差和小的残差编码比特率。此外,预测加权因子α用于平衡比特率与帧丢失弹性的目的。
图5是示出了根据一些实施例的解码过程501的流程图。可以由解码器104根据以下步骤来执行与编码过程301相对应的解码过程501:
在步骤500中,将配置为跟踪在解码过程501期间消耗的比特的比特计数器Bcurr,m初始化为零,即Bcurr,m=0。对于每个帧m,解码器104获得最后的已重构相干性矢量
Figure BDA00027699686400001310
的副本和比特预算Bm
在步骤510中,从比特流116解码所选择的预测器集P(q*)。比特计数器增加解码所选择的预测器集所需的比特量。例如,如果需要两个比特来解码所选择的预测器集,则比特计数器Bcurr,m增加2,即Bcurr,m:=Bcurr,m+2。
在步骤520中,导出与在编码器102中使用的加权因子相对应的预测加权因子α。
对于步骤530中的每个频带b=1,2,..Nbnd,执行以下步骤:
在步骤540中,获得帧内预测值
Figure BDA0002769968640000141
与编码过程301的步骤340类似地获得针对第一个频带的帧内预测。因此,可以将针对第一个帧的帧内预测设置为零
Figure BDA0002769968640000142
平均值
Figure BDA0002769968640000143
或者可以从比特流116解码第一个频带的相干性值,且可以将针对第一个帧的帧内预测设置为重构值
Figure BDA0002769968640000144
如果对第一个频带的相干性值进行解码,则比特计数器Bcurr,m增加解码所需的比特量。例如,如果需要三个比特来解码第一个频带的相干性值,则将比特计数器Bcurr,m增加3,即Bcurr,m:=Bcurr,m+3。
对于剩余的频带b=2,3,...,Nbnd,帧内预测
Figure BDA0002769968640000145
是基于先前解码的相干性值,即
Figure BDA0002769968640000146
在步骤550中,与编码过程301的步骤350类似地获得帧间预测值
Figure BDA0002769968640000147
作为示例,可以将针对频带b的最后重构值用于帧间预测值,即
Figure BDA0002769968640000148
在步骤560中,基于帧内预测
Figure BDA0002769968640000149
帧间预测
Figure BDA00027699686400001410
和预测加权因子α来形成加权预测
Figure BDA00027699686400001411
在一些实施例中,加权预测由
Figure BDA00027699686400001412
给出。
在步骤570中,对已重构预测残差
Figure BDA00027699686400001413
进行解码。如果比特计数器Bcurr,m低于比特限制,即Bcurr,m<Bm,则从可用的量化器索引导出已重构预测残差
Figure BDA00027699686400001414
如果比特计数器等于或超过比特限制,则将已重构预测残差设置为零,即
Figure BDA00027699686400001415
在步骤580中,基于已重构预测残差和加权预测来重构相干性值
Figure BDA00027699686400001416
Figure BDA00027699686400001417
在步骤590中,比特计数器递增。
在一些实施例中,在编码器中可能需要CNG的进一步增强。在这样的实施例中,本地解码器将在使用重构的相干性值
Figure BDA00027699686400001418
的编码器中运行。
图6是示出了根据一些实施例的由编码器102执行以对矢量进行编码的过程600的流程图。过程600可以从步骤602开始,在步骤602中,编码器形成预测加权因子。针对矢量的每个元素,可以重复接下来的步骤604至614。在步骤606中,编码器形成矢量元素的第一预测。在步骤604中,编码器形成矢量元素的第二预测。在步骤608中,编码器使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。在步骤610中,编码器使用所述矢量元素和所述已合并预测来形成预测残差。在步骤612中,编码器使用可变比特率方案对预测残差进行编码。在步骤614中,编码器基于已合并预测和已重构预测残差来重构矢量元素。在步骤616中,编码器发送已编码预测残差。在一些实施例中,编码器还对预测加权因子进行编码并且发送已编码预测加权因子。
在一些实施例中,第一预测是基于已重构矢量元素的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧内预测:从预测器的集合中选择预测器;将所选择的预测器应用于已重构矢量元素;以及对与所选择的预测器相对应的索引进行编码。
在一些实施例中,第二预测是基于先前针对一系列矢量重构的一个或多个矢量的帧间预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧间预测:从预测器的集合中选择预测器;将所选择的预测器应用于所述一个或多个先前重构的矢量;以及对与所选择的预测器相对应的索引进行编码。在实施例中,在帧间预测仅基于一个先前重构的矢量的情况下,来自该先前重构的矢量的值可以用于帧间预测,即,对于频带b,针对频带b的最后的重构值(即矢量元素)可以用于帧间预测值。
在一些实施例中,过程600包括另一步骤,其中预测残差被量化以形成第一残差量化器索引,其中,第一残差量化器索引与第一码字相关联。
在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度不超过剩余比特量的结果,对第一残差量化器索引进行编码。
在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度超过剩余比特量的结果,获得第二残差量化器索引,其中,第二残差量化器索引与第二码字相关联,并且其中,第二码字的长度短于第一码字的长度。在这样的实施例中,过程600包括另一步骤,其中编码器确定第二码字的长度是否超过所确定的剩余比特量。
在一些实施例中,过程600包括另一步骤,其中编码器在第一输入声道上接收第一信号,在第二输入声道上接收第二信号,确定第一信号和第二信号的频谱特性,基于所确定的第一信号和第二信号的频谱特性来确定空间相干性,以及基于空间相干性来确定矢量。
在一些实施例中,过程600由包括至少两个输入声道的音频编码器和解码器系统中的编码器执行。在一些实施例中,过程600包括另一步骤,其中编码器通过执行包括变换输入声道并分析频带中的输入声道的过程来创建频谱。在一些实施例中,矢量包括相干性值的集合,并且其中,每个值与频带中的所述至少两个输入声道中的两个输入声道之间的相干性相对应。
图7是示出了根据一些实施例的由解码器104执行以对矢量进行解码的过程700的流程图。过程700可以从步骤702开始,在步骤702中,解码器获得预测加权因子。针对矢量的每个元素,可以重复接下来的步骤704至712。在步骤704中,解码器形成矢量元素的第一预测。在步骤706中,解码器形成矢量元素的第二预测。在步骤708中,解码器使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。在步骤710中,解码器对接收到的已编码预测残差进行解码。在步骤712中,解码器基于已合并预测和预测残差来重构矢量元素。在一些实施例中,所述矢量是一系列矢量中的一个。
在一些实施例中,第一预测是基于已重构矢量元素的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧内预测:接收并解码预测器;以及将已解码预测器应用于已重构矢量元素。
在一些实施例中,第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。在这样的实施例中,帧间预测是通过执行可以包括以下操作的过程来形成的:接收并解码预测器;以及将已解码预测器应用于所述一个或多个先前重构的矢量。在实施例中,在帧间预测仅基于一个先前重构的矢量的情况下,来自该先前重构的矢量的值可以用于帧间预测,即,对于频带b,针对频带b的最后的重构值(即矢量元素)可以用于帧间预测值。
在一些实施例中,对已编码预测残差进行解码的步骤包括:确定可用于解码的剩余比特量;以及确定对已编码预测残差进行解码是否超过剩余比特量。
在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码超过剩余比特量的结果,将预测残差设置为零。
在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码不超过剩余比特量的结果,基于残差量化器索引导出预测残差,其中,残差量化器索引是预测残差的量化。
在一些实施例中,获得预测加权因子的步骤包括(i)导出预测加权因子或(ii)接收并解码预测加权因子。
在一些实施例中,过程700还包括以下步骤:解码器基于已重构矢量来生成针对至少两个输出声道的信号。
图8是根据一些实施例的编码器102的框图;如图8所示,编码器102可以包括:处理电路(PC)802,其可以包括一个或多个处理器(P)855(例如,通用微处理器和/或一个或多个其他处理器,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等);网络接口848,包括发射机(Tx)845和接收机(Rx)847,用于使编码器102能够向其他节点发送数据和从其他节点接收数据,该其他节点连接到网络接口848所连接到的网络110(例如,互联网协议(IP)网络);电路803(例如,包括Rx 805和Tx 806的无线电收发机电路),耦合到天线系统804以用于与UE进行无线通信;以及本地存储单元(也称为“数据存储系统”)808,其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备(例如,随机存取存储器(RAM))。在PC 802包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)841。CPP 841包括计算机可读介质(CRM)842,该计算机可读介质(CRM)842存储包括计算机可读指令(CRI)844在内的计算机程序(CP)843。CRM 842可以是非暂时性计算机可读介质,例如(但不限于),磁介质(例如,硬盘)、光介质、存储器设备(例如,随机存取存储器、闪存)等。在一些实施例中,计算机程序843的CRI 844被配置为使得当由数据处理装置802执行时,CRI使编码器102执行本文描述的步骤(例如,本文中参考流程图和/或消息流程图描述的步骤)。在其他实施例中,编码器102可被配置为在不需要代码的情况下执行本文描述的步骤。也即是说,例如,PC802可以仅由一个或多个ASIC组成。因此,本文描述的实施例的特征可以以硬件和/或软件方式来实现。
在实施例中,编码器102包括处理电路802,该处理电路被配置为使编码器形成预测加权因子,并且针对矢量的每个元素:形成矢量元素的第一预测;形成矢量元素的第二预测;形成预测加权因子;并使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。处理电路还被配置为使编码器:使用所述矢量元素和所述已合并预测来形成预测残差;使用可变比特率方案对预测残差进行编码;以及发送已编码预测残差。
图9是根据一些实施例的解码器104的框图。如图9所示,解码器104可以包括:处理电路(PC)902,其可以包括一个或多个处理器(P)955(例如,通用微处理器和/或一个或多个其他处理器,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等);网络接口948,包括发射机(Tx)945和接收机(Rx)947,用于使解码器104能够向其他节点发送数据和从其他节点接收数据,该其他节点连接到网络接口948所连接到的网络110(例如,互联网协议(IP)网络);电路903(例如,包括Rx 905和Tx 906的无线电收发机电路),耦合到天线系统904以用于与UE进行无线通信;以及本地存储单元(也称为“数据存储系统”)908,其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备(例如,随机存取存储器(RAM))。在PC 902包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)941。CPP 941包括计算机可读介质(CRM)942,该计算机可读介质(CRM)942存储包括计算机可读指令(CRI)944在内的计算机程序(CP)943。CRM 942可以是非暂时性计算机可读介质,例如(但不限于),磁介质(例如,硬盘)、光介质、存储器设备(例如,随机存取存储器、闪存)等。在一些实施例中,计算机程序943的CRI 944被配置为使得当由数据处理装置902执行时,CRI使解码器104执行本文描述的步骤(例如,本文中参考流程图和/或消息流程图描述的步骤)。在其他实施例中,解码器104可被配置为在不需要代码的情况下执行本文描述的步骤。也即是说,例如,PC902可以仅由一个或多个ASIC组成。因此,本文描述的实施例的特征可以以硬件和/或软件方式来实现。
在实施例中,解码器104包括处理电路902,该处理电路被配置为使解码器获得加权因子,并且针对矢量的每个元素:形成矢量元素的第一预测;形成矢量元素的第二预测;获得预测加权因子;并使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测。处理电路还被配置为使解码器:对接收到的已编码预测残差进行解码;以及基于已合并预测和已解码预测残差来重构矢量元素。
图10是示出了根据一些实施例的编码器102的功能单元的图。如图10所示,编码器102包括:第一形成单元1002,用于形成矢量元素的第一预测;第二形成单元1004,用于形成矢量元素的第二预测;第三形成单元1006和编码单元1008,用于形成和编码预测加权因子;合并单元1010,用于使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测;第四形成单元1012,用于使用所述矢量元素和所述已合并预测来形成预测残差;编码单元1014,用于使用可变比特率方案对预测残差进行编码;以及发送单元1016,用于发送已编码预测加权因子和已编码预测残差。
图11是示出了根据一些实施例的解码器104的功能单元的图。如图11所示,解码器104包括:第一形成单元1102,用于形成矢量元素的第一预测;第二形成单元1104,用于形成矢量元素的第二预测;获得单元1106,用于获得预测加权因子;合并单元1108,用于使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测;接收单元1110和解码单元1112,用于接收并解码已编码预测残差;以及重构单元1114,用于基于已合并预测和预测残差来重构矢量元素。
现在,这里是示例实施例的集合,以进一步描述本文提出的构思。
A1.一种用于对矢量进行编码的方法,所述方法包括:
形成矢量的第一预测;
形成矢量的第二预测;
形成并编码预测加权因子;
使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测;
使用所述矢量和所述已合并预测来形成预测残差;
使用可变比特率方案对预测残差进行编码;以及
发送已编码预测加权因子和已编码预测残差。
A2.根据实施例A1的方法,其中,所述矢量是一系列矢量中的一个。
A3.根据实施例A2的方法,还包括:
基于已合并预测和已重构预测残差来重构矢量。
A4.根据实施例A3的方法,其中,第一预测是基于已重构矢量的帧内预测。
A5.根据实施例A2或A4的方法,其中,第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。
A6.根据实施例A4中的方法,其中,帧内预测是通过执行包括以下操作的过程形成的:
从预测器的集合中选择预测器;
将所选择的预测器应用于已重构矢量;以及
对与所选择的预测器相对应的索引进行编码。
A7.根据实施例A5中的方法,其中,帧间预测是通过执行包括以下操作的过程形成的:
从预测器的集合中选择预测器;
将所选择的预测器应用于所述一个或多个先前重构的矢量;以及
对与所选择的预测器相对应的索引进行编码。
A8.根据实施例A1至A7中任一项的方法,还包括:
对预测残差进行量化以形成第一残差量化器索引,其中,第一残差量化器索引与第一码字相关联。
A9.根据实施例A8的方法,其中,使用可变比特率方案对预测残差进行编码包括:
确定可用于编码的剩余比特量;以及
确定第一码字的长度是否超过剩余比特量。
A10.根据实施例A9的方法,其中,使用可变比特率方案对预测残差进行编码包括:
作为确定第一码字的长度不超过剩余比特量的结果,对第一残差量化器索引进行编码。
A11.根据实施例A9的方法,其中,使用可变比特率方案对预测残差进行编码包括:
作为确定第一码字的长度超过剩余比特量的结果,获得第二残差量化器索引,其中,第二残差量化器索引与第二码字相关联,并且其中,第二码字的长度小于第一码字的长度;以及
确定第二码字的长度是否超过所确定的剩余比特量。
A12.根据实施例A1至A11中任一项的方法,,还包括:
在第一输入声道上接收第一信号;
在第二输入声道上接收第二信号;
确定第一信号和第二信号的频谱特性;
基于所确定的第一信号和第二信号的频谱特性来确定空间相干性;以及
基于空间相干性确定矢量。
A13.根据实施例A1至A11中任一项的方法,其中,该方法在包括至少两个输入声道的音频编码器和解码器系统中执行。
A14.根据实施例A13的方法,该方法还包括:
通过执行包括变换输入声道和分析频带中的输入声道的过程来创建频谱。
A15.根据实施例A14的方法,其中,矢量包括相干性值的集合,并且其中,每个值与频带中的所述至少两个输入声道中的两个输入声道之间的相干性相对应。
B1.一种用于对矢量进行解码的方法,该方法包括:
形成矢量的第一预测;
形成矢量的第二预测;
获得预测加权因子;
使用预测加权因子将所述第一预测和所述第二预测合并为已合并预测;
接收并解码已编码预测残差;以及
基于已合并预测和预测残差来重构矢量。
B2.根据实施例B1的方法,其中,所述矢量是一系列矢量中的一个。
B3.根据实施例B1或B2的方法,其中,第一预测是基于已重构矢量的帧内预测。
B4.根据实施例B2或B3的方法,其中,第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。
B5.根据实施例B3的方法,其中,帧内预测是通过执行包括以下操作的过程形成的:
接收并解码预测器;以及
将已解码预测器应用于已重构矢量。
B6.根据实施例B4的方法,其中,帧间预测是通过执行包括以下操作的过程形成的:
接收并解码预测器;以及
将已解码预测器应用于所述一个或多个先前重构的矢量。
B7.根据实施例B1至B6中任一项的方法,其中,对已编码预测残差进行解码还包括:
确定可用于解码的剩余比特量;以及
确定对已编码预测残差进行解码是否超过剩余比特量。
B8.根据实施例B7的方法,其中,对已编码预测残差进行解码还包括:
作为确定对已编码预测残差进行解码超过剩余比特量的结果,将预测残差设置为零。
B9.根据实施例B7的方法,其中,对已编码预测残差进行解码还包括:
作为确定对已编码预测残差进行解码不超过剩余比特量的结果,基于残差量化器索引导出预测残差,其中,残差量化器索引是预测残差的量化。
B10.根据实施例B1至B9中任一项的方法,其中,获得预测加权因子的步骤包括以下操作之一:(i)导出预测加权因子;以及(ii)接收并解码预测加权因子。
B11.根据实施例B1至B10中任一项的方法,还包括:
基于已重构矢量来生成针对至少两个输出声道的信号。
此外,尽管本文描述了本公开的各种实施例,但应当理解,它们仅仅是作为示例而不是限制来提出的。因此,本公开的宽度和范围不应当受到上述示例性实施例中任意一个的限制。此外,上述要素的以其所有可能变型进行的任意组合都包含在本公开中,除非另有指示或以其他方式与上下文明确冲突。
此外,尽管上文描述并附图中示出的过程被示为一系列步骤,但这仅用于说明目的。因此,可以想到可增加一些步骤、可省略一些步骤,可重排步骤顺序,以及可并行执行一些步骤。

Claims (35)

1.一种用于对矢量进行编码的方法(600),所述方法包括:
形成(s602)预测加权因子;
针对所述矢量的每个元素:
-形成(s604)所述矢量元素的第一预测;
-形成(s606)所述矢量元素的第二预测;
-使用所述预测加权因子将所述第一预测和所述第二预测合并(s608)为已合并预测;
-使用所述矢量元素和所述已合并预测来形成(s610)预测残差;
-使用可变比特率方案对所述预测残差进行编码(S612);以及
发送(s616)已编码预测残差。
2.根据权利要求1所述的方法,其中,所述矢量是一系列矢量中的一个。
3.根据权利要求1或2所述的方法,还包括:
基于所述已合并预测和已重构预测残差来重构(s614)所述矢量元素。
4.根据权利要求3所述的方法,其中,所述第一预测是基于已重构矢量元素的帧内预测。
5.根据权利要求2所述的方法,其中,所述第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。
6.根据权利要求4所述的方法,其中,所述帧内预测是通过执行包括以下操作的过程形成的:
从预测器的集合中选择预测器;
将所选择的预测器应用于所述已重构矢量元素;以及
对与所述所选择的预测器相对应的索引进行编码。
7.根据权利要求5所述的方法,其中,来自先前重构的矢量的值被用于所述帧间预测。
8.根据权利要求5所述的方法,其中,所述帧间预测是通过执行包括以下操作的过程形成的:
从预测器的集合中选择预测器;
将所选择的预测器应用于所述一个或多个先前重构的矢量;以及
对与所述所选择的预测器相对应的索引进行编码。
9.根据权利要求1至8中任一项所述的方法,还包括:
对所述预测残差进行量化以形成第一残差量化器索引,其中,所述第一残差量化器索引与第一码字相关联。
10.根据权利要求9所述的方法,其中,使用所述可变比特率方案对所述预测残差进行编码包括:
确定能够用于编码的剩余比特量;以及
确定所述第一码字的长度是否超过所述剩余比特量。
11.根据权利要求10所述的方法,其中,使用所述可变比特率方案对所述预测残差进行编码包括:
作为确定所述第一码字的长度不超过所述剩余比特量的结果,对所述第一残差量化器索引进行编码。
12.根据权利要求10所述的方法,其中,使用所述可变比特率方案对所述预测残差进行编码包括:
作为确定所述第一码字的长度超过所述剩余比特量的结果,获得第二残差量化器索引,其中,所述第二残差量化器索引与第二码字相关联,并且其中,所述第二码字的长度小于所述第一码字的长度;以及
确定所述第二码字的长度是否超过所确定的剩余比特量。
13.根据权利要求1至12中任一项所述的方法,还包括:
对所述预测加权因子进行编码;以及
发送已编码预测加权因子。
14.根据权利要求1至13中任一项所述的方法,还包括:
在第一输入声道上接收第一信号;
在第二输入声道上接收第二信号;
确定所述第一信号和所述第二信号的频谱特性;
基于所确定的所述第一信号和所述第二信号的频谱特性来确定空间相干性;以及
基于所述空间相干性确定所述矢量。
15.根据权利要求1至13中任一项所述的方法,其中,所述方法在包括至少两个输入声道的音频编码器和解码器系统中执行。
16.根据权利要求15所述的方法,所述方法还包括:
通过执行包括变换所述输入声道和分析频带中的所述输入声道的过程来创建频谱。
17.根据权利要求16所述的方法,其中,所述矢量包括相干性值的集合,并且其中,每个值与频带中的所述至少两个输入声道中的两个输入声道之间的相干性相对应。
18.一种用于对矢量进行解码的方法(700),所述方法包括:
获得(s702)预测加权因子;
针对所述矢量的每个元素:
-形成(s704)所述矢量元素的第一预测;
-形成(s706)所述矢量元素的第二预测;
-使用所述预测加权因子将所述第一预测和所述第二预测合并(s708)为已合并预测;
-对接收到的已编码预测残差进行解码(s710);以及
-基于所述已合并预测和已解码预测残差重构(s712)所述矢量元素。
19.根据权利要求18所述的方法,其中,所述矢量是一系列矢量中的一个。
20.根据权利要求18或19所述的方法,其中,所述第一预测是基于已重构矢量元素的帧内预测。
21.根据权利要求19或20所述的方法,其中,所述第二预测是基于先前针对所述一系列矢量重构的一个或多个矢量的帧间预测。
22.根据权利要求20所述的方法,其中,所述帧内预测是通过执行包括以下操作的过程形成的:
接收并解码预测器;以及
将已解码预测器应用于所述已重构矢量元素。
23.根据权利要求21所述的方法,其中,来自先前重构的矢量的值被用于所述帧间预测。
24.根据权利要求21所述的方法,其中,所述帧间预测是通过执行包括以下操作的过程形成的:
接收并解码预测器;以及
将已解码预测器应用于所述一个或多个先前重构的矢量。
25.根据权利要求18至24中任一项所述的方法,其中,对所述已编码预测残差进行解码还包括:
确定能够用于解码的剩余比特量;以及
确定对所述已编码预测残差进行解码是否超过所述剩余比特量。
26.根据权利要求25所述的方法,其中,对所述已编码预测残差进行解码还包括:
作为确定对所述已编码预测残差进行解码超过所述剩余比特量的结果,将所述预测残差设置为零。
27.根据权利要求25所述的方法,其中,对所述已编码预测残差进行解码还包括:
作为确定对所述已编码预测残差进行解码不超过所述剩余比特量的结果,基于残差量化器索引导出所述预测残差,其中,所述残差量化器索引是所述预测残差的量化。
28.根据权利要求18至27中任一项所述的方法,其中,获得所述预测加权因子的步骤包括以下操作之一:(i)导出所述预测加权因子;以及(ii)接收并解码所述预测加权因子。
29.根据权利要求18至28中任一项所述的方法,还包括:
基于已重构矢量来输出针对至少两个输出声道的信号。
30.一种编码器(102),被配置为执行根据权利要求1至17中至少一项所述的方法。
31.一种编码器(102),包括处理电路(802),所述处理电路被配置为使所述编码器:
形成预测加权因子,并且针对矢量的每个元素:
-形成矢量元素的第一预测;
-形成所述矢量元素的第二预测;
-使用所述预测加权因子将所述第一预测和所述第二预测合并为已合并预测;
-使用所述矢量元素和所述已合并预测来形成预测残差;
-使用可变比特率方案对所述预测残差进行编码;以及
发送已编码预测残差。
32.一种解码器(104),被配置为执行根据权利要求18至29中至少一项所述的方法。
33.一种解码器(104),包括处理电路(902),所述处理电路被配置为使所述解码器:
获得预测加权因子,并且针对矢量的每个元素:
-形成矢量元素的第一预测;
-形成所述矢量元素的第二预测;
-使用所述预测加权因子将所述第一预测和所述第二预测合并为已合并预测;
-对接收到的已编码预测残差进行解码;以及
-基于所述已合并预测和已解码预测残差来重构所述矢量元素。
34.一种包括指令的计算机程序(843),所述指令在由处理器(802)执行时使编码器(102)执行权利要求1至17中任一项所述的方法的动作。
35.一种包括指令的计算机程序(943),所述指令在由处理器(902)执行时使解码器(104)执行权利要求18至29中任一项所述的方法的动作。
CN201980031508.9A 2018-04-05 2019-04-05 可截断的预测编码 Pending CN112119457A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201862652949P 2018-04-05 2018-04-05
US201862653078P 2018-04-05 2018-04-05
US201862652941P 2018-04-05 2018-04-05
US62/653,078 2018-04-05
US62/652,941 2018-04-05
US62/652,949 2018-04-05
PCT/EP2019/058681 WO2019193173A1 (en) 2018-04-05 2019-04-05 Truncateable predictive coding

Publications (1)

Publication Number Publication Date
CN112119457A true CN112119457A (zh) 2020-12-22

Family

ID=66102706

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201980031508.9A Pending CN112119457A (zh) 2018-04-05 2019-04-05 可截断的预测编码
CN201980034376.5A Active CN112154502B (zh) 2018-04-05 2019-04-05 支持生成舒适噪声
CN202410257919.2A Pending CN118038881A (zh) 2018-04-05 2019-04-05 支持生成舒适噪声的方法和设备

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201980034376.5A Active CN112154502B (zh) 2018-04-05 2019-04-05 支持生成舒适噪声
CN202410257919.2A Pending CN118038881A (zh) 2018-04-05 2019-04-05 支持生成舒适噪声的方法和设备

Country Status (8)

Country Link
US (8) US11495237B2 (zh)
EP (6) EP3776546B1 (zh)
JP (2) JP7085640B2 (zh)
KR (3) KR102548184B1 (zh)
CN (3) CN112119457A (zh)
DK (1) DK3776547T3 (zh)
MX (1) MX2020010468A (zh)
WO (3) WO2019193156A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112119457A (zh) 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码
GB2595891A (en) * 2020-06-10 2021-12-15 Nokia Technologies Oy Adapting multi-source inputs for constant rate encoding
AU2021288690A1 (en) * 2020-06-11 2023-01-19 Dolby Laboratories Licensing Corporation Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal
GB2596138A (en) * 2020-06-19 2021-12-22 Nokia Technologies Oy Decoder spatial comfort noise generation for discontinuous transmission operation
US20230282220A1 (en) * 2020-07-07 2023-09-07 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation for multi-mode spatial audio coding
GB2598104A (en) * 2020-08-17 2022-02-23 Nokia Technologies Oy Discontinuous transmission operation for spatial audio parameters
WO2022042908A1 (en) * 2020-08-31 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
CN117223054A (zh) * 2021-04-29 2023-12-12 沃伊斯亚吉公司 经解码的声音信号中的多声道舒适噪声注入的方法及设备
WO2023031498A1 (en) * 2021-08-30 2023-03-09 Nokia Technologies Oy Silence descriptor using spatial parameters
WO2023110082A1 (en) 2021-12-15 2023-06-22 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive predictive encoding
WO2024056701A1 (en) * 2022-09-13 2024-03-21 Telefonaktiebolaget Lm Ericsson (Publ) Adaptive stereo parameter synthesis
WO2024074302A1 (en) 2022-10-05 2024-04-11 Telefonaktiebolaget Lm Ericsson (Publ) Coherence calculation for stereo discontinuous transmission (dtx)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US20110224994A1 (en) * 2008-10-10 2011-09-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy Conservative Multi-Channel Audio Coding
US9865274B1 (en) * 2016-12-22 2018-01-09 Getgo, Inc. Ambisonic audio signal processing for bidirectional real-time communication

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7920697B2 (en) 1999-12-09 2011-04-05 Broadcom Corp. Interaction between echo canceller and packet voice processing
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
RU2004118840A (ru) 2001-11-23 2005-10-10 Конинклейке Филипс Электроникс Н.В. (Nl) Способ замещения воспринимаемого шума
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2008519306A (ja) * 2004-11-04 2008-06-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号の組のエンコード及びデコード
WO2008004940A1 (en) 2006-07-07 2008-01-10 Telefonaktiebolaget Lm Ericsson (Publ) Video data management
DK3401907T3 (da) * 2007-08-27 2020-03-02 Ericsson Telefon Ab L M Fremgangsmåde og indretning til perceptuel spektral afkodning af et audiosignal omfattende udfyldning af spektrale huller
EP2283483B1 (en) * 2008-05-23 2013-03-13 Koninklijke Philips Electronics N.V. A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
US20120230405A1 (en) 2009-10-28 2012-09-13 Media Tek Singapore Pte. Ltd. Video coding methods and video encoders and decoders with localized weighted prediction
KR101690252B1 (ko) 2009-12-23 2016-12-27 삼성전자주식회사 신호 처리 방법 및 장치
EP2526546A4 (en) * 2010-01-22 2013-08-28 Agency Science Tech & Res METHOD AND DEVICE FOR DETERMINING NUMBER OF BITS FOR ENCODING AUDIO SIGNAL
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
ES2664090T3 (es) * 2011-03-10 2018-04-18 Telefonaktiebolaget Lm Ericsson (Publ) Relleno de subvectores no codificados en señales de audio codificadas por transformada
RU2571561C2 (ru) * 2011-04-05 2015-12-20 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, способ декодирования, кодер, декодер, программа и носитель записи
CN104396249B (zh) 2012-06-20 2017-12-26 寰发股份有限公司 可伸缩视频编码的层间预测的方法和设备
US9906786B2 (en) 2012-09-07 2018-02-27 Qualcomm Incorporated Weighted prediction mode for scalable video coding
DK2901715T3 (da) 2012-09-28 2017-01-02 Sonova Ag Metode til anvendelse af et binauralt høresystem og et binauralt høresystem / method for operating a binaural hearing system and binaural hearing system
CN107516530B (zh) * 2012-10-01 2020-08-25 日本电信电话株式会社 编码方法、编码装置以及记录介质
US9318092B2 (en) 2013-01-29 2016-04-19 2236008 Ontario Inc. Noise estimation control system
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
GB2515593B (en) 2013-12-23 2015-12-23 Imagination Tech Ltd Acoustic echo suppression
US10861470B2 (en) * 2014-02-14 2020-12-08 Telefonaktiebolaget Lm Ericsson (Publ) Comfort noise generation
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
EP2980793A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder, system and methods for encoding and decoding
US10366698B2 (en) * 2016-08-30 2019-07-30 Dts, Inc. Variable length coding of indices and bit scheduling in a pyramid vector quantizer
US10367948B2 (en) * 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10170134B2 (en) 2017-02-21 2019-01-01 Intel IP Corporation Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment
CN112119457A (zh) 2018-04-05 2020-12-22 瑞典爱立信有限公司 可截断的预测编码
US11025951B2 (en) 2019-01-13 2021-06-01 Tencent America LLC Method and apparatus for video coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1458646A (zh) * 2003-04-21 2003-11-26 北京阜国数字技术有限公司 一种滤波参数矢量量化和结合量化模型预测的音频编码方法
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
US20110224994A1 (en) * 2008-10-10 2011-09-15 Telefonaktiebolaget Lm Ericsson (Publ) Energy Conservative Multi-Channel Audio Coding
US9865274B1 (en) * 2016-12-22 2018-01-09 Getgo, Inc. Ambisonic audio signal processing for bidirectional real-time communication

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KOISHIDA K ET: "A 16-kbit/s bandwidth scalable audio coder based on the G.729 standard", 2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDING S(CAT.NO.00CH37100), 5 June 2020 (2020-06-05), pages 1149 *
KUO C-C ET: "NEW LSP ENCODING METHOD BASED ON TWO-DIMENSIONAL LINEAR PREDICTION", IEE PROCEEDINGS I. SOLID- STATE & ELECTRON DEVICES, INSTITUTION OF ELECTRICAL ENGINEERS, 1 December 1993 (1993-12-01), pages 415, XP000422809 *
SAIKAT CHATTERJEE ET: "Comparison of prediction based LSF quantization methods using split VQ", INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, 7 September 2006 (2006-09-07), pages 237, XP055598742 *

Also Published As

Publication number Publication date
CN112154502A (zh) 2020-12-29
EP4273858A1 (en) 2023-11-08
EP3776546B1 (en) 2022-01-19
KR20200140353A (ko) 2020-12-15
US20210151060A1 (en) 2021-05-20
EP3776547A1 (en) 2021-02-17
US20230131249A1 (en) 2023-04-27
US20210158825A1 (en) 2021-05-27
EP3776547B1 (en) 2021-08-11
MX2020010468A (es) 2020-10-22
US20210090582A1 (en) 2021-03-25
JP7438268B2 (ja) 2024-02-26
US11495237B2 (en) 2022-11-08
DK3776547T3 (da) 2021-09-13
KR102548184B1 (ko) 2023-06-28
US11862181B2 (en) 2024-01-02
JP7085640B2 (ja) 2022-06-16
KR20200138367A (ko) 2020-12-09
EP4047601A3 (en) 2022-12-21
US11978460B2 (en) 2024-05-07
JP2022126688A (ja) 2022-08-30
EP3776546A1 (en) 2021-02-17
WO2019193173A1 (en) 2019-10-10
US20230037845A1 (en) 2023-02-09
EP4047601A2 (en) 2022-08-24
WO2019193149A1 (en) 2019-10-10
US20220328055A1 (en) 2022-10-13
KR20230058546A (ko) 2023-05-03
JP2021520515A (ja) 2021-08-19
CN118038881A (zh) 2024-05-14
WO2019193156A1 (en) 2019-10-10
US11417348B2 (en) 2022-08-16
KR102535034B1 (ko) 2023-05-19
CN112154502B (zh) 2024-03-01
US11837242B2 (en) 2023-12-05
US20240161758A1 (en) 2024-05-16
US20240055008A1 (en) 2024-02-15
US11404069B2 (en) 2022-08-02
EP3776548A1 (en) 2021-02-17
EP3913626A1 (en) 2021-11-24

Similar Documents

Publication Publication Date Title
US11978460B2 (en) Truncateable predictive coding
US20230410819A1 (en) Apparatus and Method for encoding or Decoding Directional Audio Coding Parameters Using Different Time/Frequency Resolutions
KR102636396B1 (ko) 스테레오 사운드 신호를 1차 및 2차 채널로 시간 영역 다운 믹싱하기 위해 좌측 및 우측 채널들간의 장기 상관 차이를 이용하는 방법 및 시스템
RU2439718C1 (ru) Способ и устройство для обработки звукового сигнала
JPWO2006070757A1 (ja) 音声符号化装置および音声符号化方法
JP2012118205A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
CN115917645A (zh) 多模式空间音频编码的舒适噪声生成
KR20220018588A (ko) DirAC 기반 공간 오디오 코딩을 위한 패킷 손실 은닉
JP2024073419A (ja) 快適雑音の生成のサポート

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination