CN112154502B - 支持生成舒适噪声 - Google Patents
支持生成舒适噪声 Download PDFInfo
- Publication number
- CN112154502B CN112154502B CN201980034376.5A CN201980034376A CN112154502B CN 112154502 B CN112154502 B CN 112154502B CN 201980034376 A CN201980034376 A CN 201980034376A CN 112154502 B CN112154502 B CN 112154502B
- Authority
- CN
- China
- Prior art keywords
- spatial coherence
- audio channels
- frequency band
- receiving node
- coherence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 86
- 230000003595 spectral effect Effects 0.000 claims abstract description 58
- 230000005236 sound signal Effects 0.000 claims abstract description 39
- 238000004590 computer program Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 20
- 230000011664 signaling Effects 0.000 claims description 6
- 238000000638 solvent extraction Methods 0.000 claims 3
- 239000013598 vector Substances 0.000 description 56
- 230000008569 process Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W76/00—Connection management
- H04W76/20—Manipulation of established connections
- H04W76/28—Discontinuous transmission [DTX]; Discontinuous reception [DRX]
Abstract
用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法和发送节点。该方法由发送节点执行。该方法包括:确定至少两个输入音频声道上的音频信号的频谱特性;以及确定音频信号之间的空间相干性。空间相干性与感知重要性度量相关联。通过根据感知重要性度量对每个频带内的空间相干性进行加权来针对每个频带确定空间相干性的压缩表示。将关于频谱特性和每个频带的空间相干性的压缩表示的信息发信号通知给接收节点,以使得能够在接收节点处生成舒适噪声。
Description
技术领域
本文提出的实施例涉及用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法、发送节点、计算机程序和计算机程序产品。本文提出的实施例还涉及用于在接收节点处生成舒适噪声的方法、接收节点、计算机程序和计算机程序产品。
背景技术
在通信网络中,针对给定的通信协议、其参数和部署通信网络的物理环境,获得良好的性能和容量可能存在挑战。
例如,尽管电信网络中的容量在不断增加,但是限制每个用户所需的资源使用仍然是令人感兴趣的。在移动电信网络中,每个呼叫所需的资源使用越少意味着该移动电信网络可以并行地向越多的用户提供服务。降低资源使用还在用户侧的设备(如终端设备中)和网络侧的设备(如网络节点中)二者中产生较低的功耗。这转化为给网络运营商节省能源和成本,同时可以在终端设备中延长电池寿命并增加体验到的通话时间。
用于减少移动电信网络中语音通信应用所需的资源使用的一种机制是利用语音中的自然停顿。更详细地说,在大多数对话中,一次只有一个参与者是活跃的,并且因此在一个通信方向上的语音停顿通常会占据信号的一半以上。为了减少所需的资源使用,利用该属性的一种方法是采用不连续传输(DTX)系统,其中在语音停顿期间不进行活跃信号编码。
在语音停顿期间,通常会发送背景噪声的非常低比特率编码,以允许接收端的舒适噪声发生器(CNG)系统便于使用具有与原始背景噪声相似特性的背景噪声来填充上述停顿。与在语音停顿中保持静音相比,CNG使声音更自然,因为背景噪声被保持并且不会随语音一起打开和关闭。语音停顿中的完全静音通常感知起来是烦人的,并经常导致误解呼叫已断开。
DTX系统可以还依赖于语音活动检测器(VAD),该语音活动检测器向发送设备指示使用活跃信号编码还是低速率背景噪声编码。在该方面,发送设备可以被配置为通过使用(通用)声音活动检测器(GSAD或SAD)在其他源类型之间进行鉴别,该(通用)声音活动检测器不仅可以从背景噪声中鉴别语音,还可以被配置为检测音乐或其他信号类型(其被认为是相关的)。
通过支持立体声或多声道音频传输,可以进一步增强通信服务。在这些情况下,DTX/CNG系统还可能考虑信号的空间特性,以便提供听起来令人愉快的舒适噪声。
生成舒适噪声的常见机制是在语音停顿中发送有关背景噪声的能量和频谱形状的信息。这可以使用比语音段的常规编码数量明显更少的比特来完成。
在接收设备端,通过以下方式生成舒适噪声:创建伪随机信号,然后基于从发送设备接收的信息来使用滤波器对信号的频谱进行整形。该信号生成和频谱整形可以在时域或频域中执行。
发明内容
本文的实施例的目的是使得能够高效地生成针对两个或更多个声道的舒适噪声。
根据第一方面,提出了一种用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法。该方法由发送节点执行。该方法包括确定至少两个输入音频声道上的音频信号的频谱特性。该方法包括确定各个输入音频声道上的音频信号之间的空间相干性,其中,该空间相干性与感知重要性度量相关联。该方法包括将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性进行加权来针对每个频带确定空间相干性的压缩表示。该方法包括向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对至少两个音频声道的舒适噪声。
根据第二方面,提出了发送节点,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声。该发送节点包括处理电路。该处理电路被配置为使发送节点确定至少两个输入音频声道上的音频信号的频谱特性。处理电路被配置为使发送节点确定各个输入音频声道上的音频信号之间的空间相干性,其中,该空间相干性与感知重要性度量相关联。处理电路被配置为使发送节点将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性进行加权来针对每个频带确定空间相干性的压缩表示。处理电路被配置为使发送节点向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对至少两个音频声道的舒适噪声。
根据第三方面,提出了用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的计算机程序,该计算机程序包括计算机程序代码,该计算机代码当在发送节点上运行时使该发送节点执行根据至少第一方面的方法。
根据第四方面,提出了一种计算机程序产品,该计算机程序产品包括根据第三方面的计算机程序和存储有计算机程序的计算机可读存储介质。计算机可读存储介质可以是非暂时性计算机可读存储介质。
根据第五方面,提出了一种无线电收发机设备。该无线电收发机设备包括根据第二方面的发送节点。
有利地,这些方法、这些发送节点、该计算机程序、该计算机程序产品以及该无线电收发机设备使得能够针对两个或更多个声道高效地生成舒适噪声。
有利地,这些方法、这些发送节点、该计算机程序、该计算机程序产品以及该无线电收发机设备使得能够针对两个或更多个声道生成舒适噪声,而不会遭受上述问题。
有利地,这些方法、这些发送节点、该计算机程序、该计算机程序产品和该无线电收发机设备使得能够减少需要在立体声或多声道DTX系统中编码的信息量,同时保持在接收节点处重新创建逼真的立体声图像的能力。
根据以下详细公开、权利要求以及附图,所附实施例的其他目的、特征和优点将变得显而易见。
附图说明
现在参照附图以示例方式描述本发明构思,在附图中:
图1是示出了根据实施例的通信网络的示意图;
图2示意性地示出了根据实施例的DTX系统;
图3和图4是根据实施例的方法的流程图;
图5和图6示意性地示出了根据实施例的声道相干性值的频谱;
图7是示出了根据一些实施例的编码过程的流程图;
图8示出了根据一些实施例的截断方案;
图9是示出了根据一些实施例的解码过程的流程图;
图10是示出了根据一个实施例的过程的流程图;
图11是示出了根据一个实施例的过程的流程图;
图12是示出了根据实施例的发送节点的功能单元的示意图;
图13是示出了根据实施例的发送节点的功能模块的示意图;
图14示出了根据实施例的包括计算机可读存储介质的计算机程序产品的一个示例;以及
图15示出了根据一些实施例的立体声编码和解码系统。
具体实施方式
现在将在下文中参考示出本发明构思的某些实施例的附图更全面地描述本发明构思。然而,本发明构思可以以许多不同的形式实现,并且不应被解释为限于本文阐述的实施例;相反,这些实施例以示例方式提供,使得本公开将全面和完整,并且将本发明构思的范围完全传达给本领域技术人员。在说明书全文中,相似的标记指代相似的元素。由虚线示出的任何步骤或特征应当被视为可选的。
空间相干性构成多声道音频表示的空间属性,并且由于它表示音频声道之间的相干性,因此也可以称为声道相干性。在以下描述中,术语声道相干性和空间相干性可互换使用。
当使用两个单声道编码器,这两个单声道编码器各自具有自己的分别对两个立体声声道中的每一个立体声声道中的信号进行工作的DTX系统时,将在两个不同信号中发送不同的能量和频谱形状,。
在大多数实际情况下,在左声道中的信号和右声道中的信号之间,能量和频谱形状中的差异将不会很大,但是在感知到的信号的立体声图像的宽度上仍然可能存在很大差异。
如果用于生成舒适噪声的随机序列在左声道的信号和右声道的信号之间是同步的,则结果将是立体声信号声音听起来具有非常窄的立体声图像,并且其给出声音源自听众头部中心的感觉。相反,如果左声道中的信号和右声道中的信号会是不同步的,则会给出相反的效果,即具有非常宽的立体声图像的信号。
在大多数情况下,原始背景噪声将具有介于这两个极端之间某处的立体声图像,这意味着,无论同步随机序列还是非同步随机序列,当发送设备在活跃语音编码(具有良好的立体声宽度表示)和非活跃噪声编码之间切换时,立体声图像中会有烦人的差异。
原始背景噪声的感知立体声图像宽度也可能在呼叫期间改变,例如因为发送设备的用户正在四处移动和/或由于背景中正在发生事情。具有两个均带有自己的DTX系统的单声道编码器的系统没有机制来跟随这些改变。
使用双单声道DTX系统的另一个问题是VAD决策将不会在两个声道之间同步,例如,当左声道中的信号使用活跃编码进行编码,而右声道中的信号使用低比特率舒适噪声编码进行编码时,这可能会导致可听见的伪像。这也可能导致使随机序列在一些时刻同步,而在其他时刻不同步,导致立体声图像随着时间的推移在极宽和极窄之间切换。
因此,仍然需要改进的针对两个或更多个声道的舒适噪声的生成。
以下实施例描述了针对两个声道(立体声音频)的DTX系统,但是该方法通常可以被应用于针对多声道音频的DTX和CNG。
图1是示出了可以应用本文提出的实施例的通信网络100的示意图。通信网络100包括通过通信链路110与接收节点200b通信的发送节点200a。
发送节点200a可经由通信网络100中的一个或多个其他设备、节点或实体(例如网络节点)等,通过直接通信链路110或通过间接通信链路110与接收节点200b进行通信。
在一些方面,发送节点200a是无线电收发机设备200的一部分,而接收节点200b是另一无线电收发机设备200的一部分。此外,在一些方面,无线电收发机设备200包括发送节点200a和接收节点200b二者。可以存在无线电收发机设备的不同示例。示例包括但不限于:便携式无线设备、移动站、移动电话、手机、无线本地环路电话、用户设备(UE)、智能电话、膝上型计算机和平板计算机。
如上所述,可以使用DTX系统以便仅在需要时才发送已编码的语音/音频。图2是针对一个或多个音频声道的DTX系统300的示意框图。DTX系统300可以是发送节点200a的一部分,与发送节点200a并置或在发送节点200a中实现。输入音频被提供给VAD 310、语音/音频编码器320和CNG编码器330。当VAD指示信号包含语音或音频时,激活语音/音频编码器,而当VAD指示信号包含背景噪声时,则激活CNG编码器。对应地,VAD选择性地控制是发送来自语音/音频编码器还是CNG编码器的输出。上面已经公开了用于生成针对两个或更多个声道的舒适噪声的现有机制的问题。
因此,本文公开的实施例涉及用于支持在接收节点200b处生成针对至少两个音频声道的舒适噪声的机制,以及用于在接收节点200b处生成针对至少两个音频声道的舒适噪声的机制。为了获得这种机制,提供了一种发送节点200a、由发送节点200a执行的方法以及包括代码(例如具有计算机程序的形式)的计算机程序产品,所述代码当在发送节点200a上运行时,使发送节点200a执行所述方法。为了获得这种机制,还提供了一种接收节点200b、由接收节点200b执行的方法以及包括代码(例如具有计算机程序的形式)的计算机程序产品,所述代码当在接收节点200b的处理电路上运行时,使接收节点200b执行所述方法。
图3是示出了用于支持在接收节点200b处生成针对至少两个音频声道的舒适噪声的方法的实施例的流程图。该方法由发送节点200a来执行。这些方法有利地作为计算机程序1420来提供。
S102:发送节点200a确定至少两个输入音频声道上的音频信号的频谱特性。
S104:发送节点200a确定各个输入音频声道上的音频信号之间的空间相干性。空间相干性与感知重要性度量相关联。
在发送之前,以非常高效的方式对空间相干性进行编码,因为使用DTX系统300背后的全部理论根据是在语音/音频之间的停顿中发送尽可能少的信息。
S106:发送节点200a将空间相干性划分到频带中。通过根据感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的压缩表示。
S108:发送节点200a向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点200b处生成针对该至少两个音频声道的舒适噪声。
根据实施例,感知重要性度量是基于该至少两个输入音频声道的频谱特性的。
根据实施例,感知重要性度量是基于该至少两个输入音频声道的功率谱来确定的。
根据实施例,感知重要性度量是基于该至少两个输入音频声道的加权总和的功率谱来确定的。
根据实施例,空间相干性的压缩表示是每个频带一个单值。
图4是示出了用于支持在接收节点200b处生成针对至少两个音频声道的舒适噪声的方法的实施例的流程图。该方法由发送节点200a来执行。这些方法有利地作为计算机程序1420来提供。
S202:发送节点200a确定至少两个输入音频声道上的音频信号的频谱特性。频谱特性与感知重要性度量相关联。
S204:发送节点200a确定各个输入音频声道上的音频信号之间的空间相干性。空间相干性被划分到频带中。
在发送之前,以非常高效的方式对空间相干性进行编码,因为使用DTX系统300背后的全部理论根据是在语音/音频之间的停顿中发送尽可能少的信息。因此,每个频带确定空间相干性的一个单值。
通过对每个频带内的空间相干性值进行加权来确定空间相干性的单值。用于加权的加权函数的一个目的是对在感知上比其他频率更重要的频率上发生的空间相干性赋予更高的权重。因此,根据频谱特性的对应值的感知重要性度量来对每个频带内的空间相干性值进行加权。
S206:发送节点200a向接收节点200b发信号通知关于频谱特性的信息和关于每个频带的空间相干性的单值的信息,以使得能够在接收节点200b处生成针对该至少两个音频声道的舒适噪声。
在接收节点200b处的解码器处,重构相干性,并创建具有与原始声音相似的立体声图像的舒适噪声信号。
现在将公开由发送节点200a执行的涉及支持在接收节点200b处生成针对至少两个音频声道的舒适噪声的更多细节的实施例。
本文公开的实施例适用于立体声编码器和解码器架构且适用于多声道编码器和解码器,其中,在声道对中考虑了声道相干性。
在一些方面,立体声编码器接收声道对[l(m,n)r(m,n)]作为输入,其中l(m,n)和r(m,n)分别表示针对帧m的样本索引n的左声道和右声道的输入信号。信号以采样频率fs在长度为N个样本的帧中进行处理,其中帧的长度可包括重叠,例如前瞻和/或对过去样本的记忆。
如图2所示,当立体声编码器VAD指示信号包含背景噪声时,立体声CNG编码器被激活。信号借助于例如离散傅立叶变换(DFT)或任何其他合适的滤波器组或变换(例如正交镜像滤波器(QMF)、混合QMF或改进的离散余弦变换(MDCT))被变换到频域。如果使用DFT或MDCT变换,则输入信号通常在变换之前被加窗,导致根据下式确定的声道对[lwin(m,n)rwin(m,n)]:
[lwin(m,n)rwin(m,n)]=[l(m,n)win(n)r(m,n)win(n)],
n=0,1,2,...,N-1.
因此,根据实施例,在确定频谱特性之前,该至少两个音频声道的针对帧索引m和样本索引n的音频信号τ(m,n)、r(m,n)被加窗以形成各自的加窗信号lwin(m,n)、rwin(m,n)。窗口的选择可以通常取决于各种参数,例如时间和频率分辨率特性、算法延迟(重叠长度)、重构属性等。因此,然后根据下式来变换被这样加窗的声道对[lwin(m,n)rwin(m,n)]:
针对频率f的声道相干性Cgen(f)的一般定义由下式给出:
其中Sxx(f)和Syy(f)表示该两个声道x和y的相应功率谱,而Sxy(f)是该两个声道x和y的互功率谱。在基于DFT的解决方案中,频谱可以由DFT频谱表示。具体地,根据实施例,将针对帧索引m和频率槽索引k的空间相干性C(m,k)确定为:
其中L(m,k)是加窗音频信号lwin(m,n)的频谱,其中R(m,k)是加窗音频信号rwin(m,n)的频谱,而其中*表示复共轭。
通常使用高的频率分辨率来计算针对相干性的上面的表达式。其原因之一是频率分辨率取决于信号帧的大小,对于CNG编码,信号帧的大小通常与需要高分辨率的活跃语音/音频编码相同。另一个原因是高的频率分辨率允许感知激励的频带划分。又一个原因可以是,在典型的音频编码器中,相干性计算的元素(即L(m,k)、R(m,k)、Sxx、Sxy、Syy)可以用于需要高的频率分辨率的其他目的。对于声道相干性,采样频率为fs=48kHz且帧长度为20ms情况下的典型值是960个频率槽。
对于DTX的应用(其中至关重要的是将用于编码非活跃(即非语音)段的比特率保持较低),发送具有高的频率分辨率的声道相干性是不可行的。为了减少表示声道相干性所需的比特数,可以将频谱划分到频带中,如图5所示,其中每个频带内的声道相干性将由单值或其他某种压缩表示来表示。对于20-20000Hz的完整可听带宽,频带的数量通常大约为2-50。
所有频带可以具有相等的频率方面的宽度,但是在音频编码应用中,更常见的是使每个频带的宽度与人类对音频的感知相匹配,因此导致针对低频的频带相对较窄,而针对更高的频率,频带的带宽增加。特别地,根据实施例,空间相干性被划分到不等长的频带中。例如,可以使用ERB速率缩放创建频带,其中ERB是等效矩形频率带宽的缩写。
在一个实施例中,相干性的压缩表示由每个频带内的相干性的平均值定义,并且该针对每个频带的单值在接收节点200b处被发送给解码器,使得解码器然后在生成舒适噪声时,可以将该单值用于频带内的所有频率,或者可能伴随着在信号帧和/或频带上进行一些平滑处理,以便避免时间和/或频率的突然改变。
然而,如以上在步骤S204中公开的,在另一个实施例中,在确定针对每个频带的单个相干性值时,为频带内的不同频率给出取决于感知重要性度量的不同权重。
可以有感知重要性度量的不同示例。
在一些方面,感知重要性度量与频谱特性相关。
具体地,在一个实施例中,感知重要性度量与该至少两个输入音频信号的幅度或功率谱相关。
在另一个实施例中,感知重要性度量与该至少两个输入音频声道上的加权总和的幅度或功率谱相关。
在一些方面,高能量对应于高感知重要性,反之亦然。具体地,根据实施例,对每个频带内的空间相干性值进行加权,使得相比于与具有较低能量的频率系数相对应的空间相干性值,与具有较高功率的频率系数相对应的空间相干性值对空间相干性的该一个单值具有更大的影响。
根据实施例,取决于每个频率上的功率,频带内的不同频率被赋予不同的权重。该实施例背后的一个理论根据是,与具有较低能量的另一频率相比,具有较高能量的频率应对合并的相干性值具有更大的影响。
在其他一些方面,感知重要性度量与已编码的频谱特性相关。已编码的频谱特性可能更接近(即比未被编码的频谱特性更接近)反映在接收节点200b处重构的信号。
在其他一些方面,感知重要性度量与空间相干性相关。例如,与具有较低空间相干性的信号分量相比,更准确地表示具有较高空间相干性的信号分量可能在感知上更为重要。在另一方面,感知重要性度量可以与随时间变化的空间相干性相关,包括活跃编码的语音/音频段。其原因之一是,生成与活跃编码的语音/音频段中相似特性的空间相干性在感知上是很重要的。
还设想了其他感知重要性度量。
根据实施例,加权平均值被用于表示每个频带中的相干性,其中针对单声道信号lr(m,n)=w1l(m,n)+w2r(m,n)的变换的能量谱|LR(m,k)|2定义了帧m内的感知重要性度量,并且被用作加权函数。也就是说,在一些方面,lr(m,n)=w1l(m,n)+w2r(m,n)的能量谱|LR(m,k)|2被用于对空间相干性值进行加权。降混权重w1和w2可以在时间上是不变的或可变的,或者,如果在频域中执行类似的操作,则在频率上是不变的或可变的。在一个实施例中,声道上的权重是相等的,例如w1=w2=0.5。然后,根据实施例,每个频带在较低频率槽和较高频率槽之间延伸,并且针对帧索引m和频带b的空间相干性Cw(m,b)的该一个单值被确定为:
其中m是帧索引,b是频带的索引,Nband是频带的总数,并且其中limit(b)表示频带b的最低频率槽。因此,参数limit(b)描述了每个频带中的第一个系数,并定义了频带之间的边界。在该实施例中,还将针对频带Nband定义limit(b)以定义频带Nband-1的上限。可以有不同的方法来获得limit(b)。根据实施例,limit(b)被提供为函数或查找表。
图6示出了频带b+1中的加权。对于每个频率槽,竖直实线的点示出相干性值,并且竖直点划线的点示出频谱特性的对应值的能量。水平虚线示出在频带b+1中四个相干性值的平均值,而点划线示出加权平均值。在该示例中,频带b+1中的第三个槽具有高相干性值和高能量二者,这导致加权平均值高于非加权平均值。
假设频带中针对所有槽的能量都相同,则加权平均值和非加权均值将相等。此外,假设对于频带中的一个槽以外的所有槽,能量为零,则加权平均值将等于该一个槽的相干性值。
然后,对空间相干性值Cw(m,b)进行编码,以存储或发送给接收节点200b处的解码器,在接收节点200b处,使用已解码的相干性生成舒适噪声以创建逼真的立体声图像。
根据实施例的空间相干性编码
针对每个频带给出的相干性表示值形成了空间相干性矢量其中Nbnd是频带的数量,b是频带索引,并且m是帧索引。在实施例中,空间相干性矢量Cm的值Cb,m对应于针对帧m和频带b的加权空间相干性值Cw(m,b)。
在实施例中,使用预测方案对相干性矢量进行编码,然后进行可变比特率熵编码。编码方案还通过自适应帧间预测改进了性能。相干性矢量的编码考虑以下属性:(1)能适应变化的每帧比特预算Bm的编码,(2)相干性矢量示出很强的帧间相似度,以及(3)对于丢失的帧,应将误差传播保持在较低水平。
为了解决变化的每帧比特预算,实施粗精(coarse-fine)编码策略。更具体地,首先以低比特率实现粗编码,且当达到比特限制时,可以截断随后的精细编码。
在一些实施例中,利用预测方案来执行粗编码。在这样的实施例中,预测器针对于增加的频带b沿着相干性矢量工作,并基于矢量的先前值来估计每个系数。也就是说,执行相干性矢量的帧内预测,且其由下式给出:
每个预测器集P(q)由(Nbnd-1)个预测器组成,每个预测器包括每个频带b的(b-1)个预测器系数,其中q=1,2,...Nq并且Nq指示预测器集的总数。如上所示,当b=1时,没有先前的值,且相干性的帧内预测为零。作为示例,当存在六个相干频带(Nbnd=6)时,预测器集数量q由下式给出:
作为另一示例,预测器集的总数可以是四个,即Nq=4,其指示可以使用2个比特来发信号通知所选择的预测器集。在一些实施例中,可以顺序寻址用于预测器集q的预测器系数,并将其存储在长度为的单个矢量中。
图7是示出了根据一些实施例的编码过程701的流程图。编码过程701可以由编码器根据以下步骤执行:
在步骤700中,对于每个帧m,用于跟踪编码所消耗的比特的比特变量(也被称为比特计数器)被初始化为零(Bcurr,m=0)。编码算法接收要编码的相干性矢量(Cb,m)、先前重构的相干性矢量的副本以及比特预算Bm。在一些实施例中,在前面的编码步骤中消耗的比特可以被包括在Bm和Bcurr,m中。在这样的实施例中,下面的算法中的比特预算可以由Bm-Bcurr.m给出。
在步骤710中,从可用预测器P(q),q=1,2,...,Nq中选择给出最小预测误差的预测器集所选择的预测器集由下式给出
在一些实施例中,b=1被从预测器集中省略,因为预测为零,并且对于所有预测器集,对误差的贡献将是相同的。存储所选择的预测器集索引,并且比特计数器(Bcurr,m)随所需的比特数而增加,例如如果需要两个比特来对预测器集进行编码,则Bcurr,m:=Bcurr,m+2。
在步骤720中,计算预测加权因子α。预测加权因子用于创建加权预测,如下面的步骤760中所述。加权因子α是基于可用于对每个帧m中的空间相干性值的矢量进行编码的比特预算Bm来确定的。
一般而言,加权因子α的取值范围为0到1,即从仅使用来自当前帧的信息(α=1)到仅使用来自先前帧的信息(α=0)以及中间的任何东西(0<α<1)。在一些方面,期望使用尽可能高的加权因子α,因为较低的加权因子α可能使编码对丢失的帧更加敏感。但是,加权因子α的选择必须与每帧m的比特预算Bm平衡,因为加权因子α的较低值通常会产生较少的编码比特。
在编码中使用的加权因子α的值在接收节点200b处的解码器中必须(至少隐式地)是已知的。也就是说,在实施例中,必须对关于加权因子α的信息进行编码并将其发送(如在步骤S1016中)给解码器。在其他实施例中,解码器可以基于解码器中已经可获得的其他参数来导出预测加权因子。下面将公开如何提供关于加权因子α的信息的其他方面。
还假设在接收节点200b处的解码器中已知用于对空间相干性进行编码的针对帧m的比特预算Bm,而无需来自发送节点200a的显式信令。在这方面,不需要将比特预算Bm的值显式地发信号通知给接收节点200b。这是作为附带产物出现的,因为接收节点200b处的解码器知道如何解释比特流,所以它也知道已经解码了多少比特。通过从总比特预算(其也是已知的)中减去已解码的比特数,在接收节点200b处的解码器处简单地找到剩余比特。
在一些方面,基于比特预算Bm来选择候选加权因子的集合,并且针对所有这些候选加权因子执行具有已合并预测和残差编码方案的试验编码(而无需执行如下所述的率截断策略),以便在给定所使用的候选加权因子的情况下找到已编码比特的总数。具体地,根据实施例,通过选择具有至少两个候选加权因子的集合并对针对每个候选加权因子的空间相干性值的矢量执行试验编码,来确定加权因子α。
在一些方面,在试验编码期间要使用哪些候选加权因子是基于比特预算Bm的。在这方面,可以借助于以比特预算Bm作为输入执行表查找或通过将比特预算Bm输入到函数来确定候选加权因子。可以对表值执行表查找,该表值是通过对背景噪声的集合进行训练而获得的。
针对每个候选加权因子的试验编码产生针对于空间相干性值的矢量的相应编码比特的总数。然后可以取决于针对候选加权因子的编码比特的总数是否适合于比特预算Bm来选择加权因子α。具体地,根据实施例,将加权因子α选择为编码比特的总数适合于比特预算Bm的最大候选加权因子。根据实施例,针对任何候选加权因子,当编码比特的总数不适合比特预算Bm时,将加权因子α选择为产生最少编码比特总数的候选加权因子。
也就是说,如果所有候选加权因子都导致编码比特总数在比特预算Bm内,则选择最高的候选加权因子作为加权因子α。同样,如果只有最低的候选加权因子或没有候选加权因子导致比特预算Bm内的比特总数,则选择导致最低比特数的候选加权因子作为加权因子α。然后向解码器发信号通知选择哪个候选加权因子。
现在将公开一个说明性示例,其中针对两个候选加权因子αlow和αhigh执行试验编码,分别导致对空间相干性值的矢量进行编码所需的比特数Bcurrlow,m和Bcurrhigh,m。
使用Bcurr,m作为输入,借助于以比特预算Bm作为输入执行表查找或通过将比特预算Bm输入到函数,获得两个候选加权因子αlow和αhigh。对于每个候选加权因子αlow和αhigh,在没有以下所述的率截断策略的情况下执行试验编码,产生编码所需的比特的数量的两个值Bcurrlow,m和Bcurrhigh,m。基于此,如下选择该两个候选加权因子αlow和αhigh之一以用于编码:
使用一个比特对所选择的加权因子α进行编码,例如对于αlow,为“0”,对于αhigh.,为“1”。针对加权因子α的上面表达式中的第三个备选应解释如下:如果两个候选加权因子αlow和αhigh都产生了超过比特预算Bm的编码比特数,则选择产生最低编码比特数的候选加权因子。
对于步骤730中的每个频带b=1,2,..Nbnd,执行以下步骤:
在步骤740中,获得帧内预测值对于第一个频带(b=1),没有先前编码的相干性值。在一些实施例中,针对第一个频带的帧内预测可以被设置为零,/>在一些实施例中,针对第一个频带的帧内预测可以被设置为平均值/>
在一些备选实施例中,第一个频带的相干性值可以被单独地进行编码。在这样的实施例中,使用标量量化器对第一个值进行编码以产生重构值因此,针对第一个频带的帧内预测可以被设置为重构值,/>将比特计数器Bcurr,m增加编码系数所需的比特量。例如,如果使用3个比特来编码系数,则将3个比特添加到当前的编码所消耗的比特量中,例如Bcurr,m:=Bcurr,m+3。
对于剩余频带b=2,3,...,Nbnd,帧内预测基于先前编码的相干性值,即
在步骤750中,基于来自一个或多个先前帧的先前重构的相干性矢量元素,获得帧间预测值在背景噪声稳定或缓慢改变的情况下,相干性频带值Cb,m的帧间变化将很小。因此,使用来自先前帧的值的帧间预测通常将是良好的近似,其产生小的预测残差和小的残差编码比特率。作为示例,可以将针对频带b的最后的重构值用于帧间预测值,即考虑到两个或更多个先前帧的帧间线性预测器可以公式化为其中/>表示针对帧m的所有频带b的帧间预测相干性值的列矢量,/>表示针对帧m-n的所有频带b的重构相干性值,而gn是跨越Ninter个先前帧的线性预测器系数。可以从预定义的预测器集中选择gn,在这种情况下,需要使用可以传送给解码器的索引来表示所使用的预测器。
在步骤760中,基于帧内预测帧间预测/>和预测加权因子α来形成加权预测/>在一些实施例中,加权预测由/>给出。
在步骤770中,预测残差被计算和编码。在一些实施例中,基于相干性矢量和加权预测来计算预测残差,即在一些实施例中,使用标量量化器将预测残差量化为索引Ib,m。在这样的实施例中,索引由Ib,m=SQ(rb,m)给出,其中SQ(x)是具有合适范围的标量量化器函数。下面的表1示出了标量量化器的示例。表1示出了针对预测残差的重构级别和量化器索引的示例。
I=SQ(x) | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
重构级别 | -0.4 | -0.3 | -0.2 | -0.1 | 0 | 0.1 | 0.2 | 0.3 | 0.4 |
表1.
在一些实施例中,使用可变长度码字方案来编码索引Ib,m,该可变长度码字方案对于较小的值消耗较少的比特。用于对预测残差进行编码的一些示例是霍夫曼编码、Golomb-Rice编码和一元编码(一元编码与除数为1的Golomb-Rice编码相同)。在对预测残差进行编码的步骤中,需要考虑剩余的比特预算(Bm-Bcurr,m)。如果与索引Ib,m相对应的码字的长度Lcode(Ib,m)适合于剩余的比特预算,即Lcode(Ib,m)≤Bm-Bcurr,m,则选择索引Ib,m作为最终索引如果剩余的比特不足以对索引Ib,m进行编码,则将应用比特率截断策略。在一些实施例中,假设较小的残差值花费较少的比特,则比特率截断策略包括对可能的最大残差值进行编码。这样的率截断策略可以通过如图8中的表800所示对码本重新排序来实现。图8示出了用于表1中所示的标量量化器示例的具有一元码字映射的示例性量化器表800。在一些实施例中,可以通过以2为步长在表800中向上前进直到达到码字0来实现比特率截断。也就是说,图8示出了从长码字到较短码字的向上移动的截断方案。为了保持重构值的正确符号,每个截断步骤在表800上进行两个步骤,分别由负值和正值的虚线和实线箭头指示。通过以2为步长在表800中向上移动,可以找到新的截断的码本索引/>继续向上搜索,直到满足/>或已经达到表800的顶部。
如果由向上搜索适合来确定的码字的长度不超过比特预算,则选择最终索引并将/>输出到比特流,并基于最终索引来形成已重构的残差,即/>
如果在向上搜索之后,码字的长度仍超过比特预算,则这意味着比特限制已达到,Bm=Bcurr,m。在这种情况下,将已重构的残差设置为零,并且不将索引添加到比特流。由于解码器保持同步的比特计数器Bcurr,m,因此解码器可以检测到这种情况并使用/>而无需显式信令。
在备选实施例中,如果与初始索引相关联的码字的长度超过比特预算,则残差值立即被设置为零,从而放弃上述向上搜索。如果计算复杂性至关重要,这可能是有益的。
在步骤780中,基于已重构预测残差和加权预测来形成重构的相干性值即
在步骤790中,比特计数器相应地递增。如上所述,贯穿编码过程701,增加比特计数器。
在一些实施例中,相干性矢量中的帧间变化很小。因此,使用先前帧值的帧间预测通常是良好的近似,其产生小的预测残差和小的残差编码比特率。此外,预测加权因子α用于平衡比特率与帧丢失弹性的目的。
图9是示出了根据一些实施例的解码过程901的流程图。可以由解码器根据以下步骤来执行与编码过程701相对应的解码过程901:
在步骤900中,将配置为跟踪在解码过程901期间消耗的比特的比特计数器Bcurr,m初始化为零,即Bcurr,m=0。对于每个帧m,解码器获得最后的已重构相干性矢量的副本和比特预算Bm。
在步骤910中,从比特流解码所选择的预测器集比特计数器增加解码所选择的预测器集所需的比特量。例如,如果需要两个比特来解码所选择的预测器集,则比特计数器Bcurr,m增加2,即Bcurr,m:=Bcurr,m+2。
在步骤920中,导出与在编码器中使用的加权因子相对应的预测加权因子α。
对于步骤930中的每个频带b=1,2,..Nbnd,执行以下步骤:
在步骤940中,获得帧内预测值与编码过程701的步骤740类似地获得针对第一个频带的帧内预测。因此,可以将针对第一个帧的帧内预测设置为零/>平均值/>或者可以从比特流解码第一个频带的相干性值,且可以将针对第一个帧的帧内预测设置为重构值/>如果对系数进行解码,则比特计数器Bcurr,m增加编码所需的比特量。例如,如果需要三个比特来编码系数,则将比特计数器Bcurr,m增加3,即Bcurr,m:=Bcurr,m+3。
对于剩余的频带b=2,3,...,Nbnd,帧内预测是基于先前解码的相干性值,即/>
在步骤950中,与编码过程701的步骤750类似地获得帧间预测值作为示例,可以将针对频带b的最后的重构值用于帧间预测值,即/>
在步骤960中,基于帧内预测帧间预测/>和预测加权因子α来形成加权预测/>在一些实施例中,加权预测由/>给出。
在步骤970中,对已重构预测残差进行解码。如果比特计数器Bcurr,m低于比特限制,即Bcurr,m<Bm,则从可用的量化器索引导出已重构预测残差/>如果比特计数器等于或超过比特限制,则将已重构预测残差设置为零,即/>
在步骤980中,基于已重构预测残差和加权预测来重构相干性值即在步骤990中,比特计数器递增。
在一些实施例中,在编码器中可能需要CNG的进一步增强。在这样的实施例中,本地解码器将在使用重构的相干性值的编码器中运行。
图10是示出了根据一些实施例的由发送节点200a的编码器执行以对矢量进行编码的过程1000的流程图。过程1000可以从步骤S1002开始,在步骤S1002中,编码器形成预测加权因子。针对每个矢量元素,可以重复接下来的步骤S1004至S1014。在步骤S1004中,编码器形成矢量元素的第一预测。在一些实施例中,第一预测是基于一系列矢量中的当前矢量的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧间预测:从预测器的集合中选择预测器;将所选择的预测器应用于当前矢量的已重构元素;以及对与所选择的预测器相对应的索引进行编码。在步骤S1006中,编码器形成矢量元素的第二预测。在一些实施例中,第二预测是基于一系列已重构矢量中的一个或多个先前矢量的帧间预测。
在步骤S1008中,编码器使用预测加权因子将第一预测和第二预测合并为已合并预测。
在步骤S1010中,编码器使用矢量元素和已合并预测来形成预测残差。在步骤S1012中,编码器使用可变比特率方案对预测残差进行编码。在一些实施例中,对预测残差进行量化以形成第一残差量化器索引,其中,第一残差量化器索引与第一码字相关联。在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度不超过剩余比特量的结果,对第一残差量化器索引进行编码。在一些实施例中,使用可变比特率方案对预测残差进行编码的步骤包括:作为确定第一码字的长度超过剩余比特量的结果,获得第二残差量化器索引,其中,第二残差量化器索引与第二码字相关联,并且其中,第二码字的长度短于第一码字的长度。在这样的实施例中,过程600包括另一步骤,其中编码器确定第二码字的长度是否超过所确定的剩余比特量。
在步骤S1014中,解码器基于已合并预测和预测残差来重构矢量元素。在步骤S1016中,编码器发送已编码预测残差。在一些实施例中,编码器还对预测加权因子进行编码并且发送已编码预测加权因子。
在一些实施例中,过程1000包括另一步骤,其中编码器在第一输入声道上接收第一信号,在第二输入声道上接收第二信号,确定第一信号和第二信号的频谱特性,基于所确定的第一信号和第二信号的频谱特性来确定空间相干性,以及基于空间相干性来确定矢量。
图11是示出了根据一些实施例的由接收节点200b的解码器执行以对矢量进行解码的过程1100的流程图。过程1100可以从步骤S1102开始,在步骤S1102中,解码器获得预测加权因子。在一些实施例中,获得预测加权因子的步骤包括(i)导出预测加权因子或(ii)接收并解码预测加权因子。针对矢量的每个元素,可以重复接下来的步骤S1104至S1112。在步骤S1104中,解码器形成矢量元素的第一预测。在一些实施例中,第一预测是基于一系列矢量中的当前矢量的帧内预测。在这样的实施例中,通过执行包括以下操作的过程来形成帧内预测:接收并解码预测器;以及将已解码预测器应用于当前矢量的已重构元素。在步骤S1106中,解码器形成矢量元素的第二预测。在一些实施例中,第二预测是基于该一系列矢量中的一个或多个先前矢量的帧间预测。
在步骤S1108中,解码器使用预测加权因子将第一预测和第二预测合并为已合并预测。
在步骤S1110中,解码器对接收到的已编码预测残差进行解码。在一些实施例中,对已编码预测残差进行解码的步骤包括:确定可用于解码的剩余比特量;以及确定对已编码预测残差进行解码是否超过剩余比特量。在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码超过剩余比特量的结果,将预测残差设置为零。在一些实施例中,对已编码预测残差进行解码的步骤包括:作为确定对已编码预测残差进行解码不超过剩余比特量的结果,基于预测索引导出预测残差,其中,预测索引是预测残差的量化。
在步骤S1112中,解码器基于已合并预测和预测残差来重构矢量元素。在一些实施例中,所述矢量是一系列矢量中的一个。在一些实施例中,过程1100还包括以下步骤:解码器基于已重构矢量来生成针对至少两个输出声道的信号。
图12以多个功能单元的方式示意性地示出了根据实施例的发送节点200a的组件。使用能够执行计算机程序产品1410(如图14中)(例如,具有存储介质230的形式)中存储的软件指令的合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)等中的一种或多种的任意组合来提供处理电路210。处理电路210还可以被提供为至少一个专用集成电路(ASIC)或现场可编程门阵列(FPGA)。
具体地,处理电路210被配置为使发送节点200a执行如上所述的操作集或步骤集。例如,存储介质230可以存储该操作集,并且处理电路210可以被配置为从存储介质230取回该操作集,以使发送节点200a执行该操作集。该操作集可以被提供为可执行指令的集合。因此,处理电路210由此被布置为执行本文公开的方法。
在实施例中,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的发送节点200a包括处理电路210。处理电路被配置为使发送节点确定至少两个输入音频声道上的音频信号的频谱特性,并确定各个输入音频声道上的音频信号之间的空间相干性,其中,空间相干性与感知重要性度量相关联。还使发送节点将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性进行加权来针对每个频带确定空间相干性的压缩表示。还使发送节点向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
还可以使发送节点200a通过使用矢量和已合并预测形成矢量的第一预测、矢量的第二预测、预测加权因子和预测残差来对空间相干性矢量进行编码。还可以使发送节点使用可变比特率方案对预测残差进行编码,以及基于已合并预测和预测残差来重构矢量。还可以使发送节点向接收节点200b发送已编码预测加权因子和已编码预测残差。
存储介质230还可以包括持久性存储设备,例如,其可以是磁存储器、光存储器、固态存储器或甚至是远程安装的存储器中的任何单个存储器或任何组合。发送节点200a还可以包括通信接口220,其至少被配置用于与接收节点200b通信。因此,通信接口220可以包括一个或多个发射机和接收机,该发射机和接收机包括模拟和数字组件。处理电路210例如通过向通信接口220和存储介质230发送数据和控制信号,通过从通信接口220接收数据和报告,以及通过从存储介质230中获取数据和指令来控制发送节点200a的总体操作。省略发送节点200a的其他组件以及相关功能以不使本文提出的构思模糊。
图13以多个功能模块的方式示意性地示出了根据实施例的发送节点200a的组件。图13的发送节点300包括多个功能模块:确定模块210a,被配置为执行步骤S102、S202;确定模块210b,被配置为执行步骤S104、S204;划分模块210c,被配置为执行步骤S106;以及发信号通知模块210d,被配置为执行步骤S108、S206。图13的发送节点200a还可以包括多个可选功能模块(图13中未示出)。发送节点可以例如包括:第一形成单元,用于形成矢量的第一预测;第二形成单元,用于形成矢量的第二预测;第三形成单元和编码单元,用于形成并编码预测加权因子;合并单元,用于使用预测加权因子将第一预测和第二预测合并为已合并预测;第四形成单元,用于使用矢量和已合并预测来形成预测残差;编码单元,用于使用可变比特率方案对预测残差进行编码。发信号通知模块210d还可以被配置为发送已编码预测加权因子和已编码预测残差。
一般来说,在一个实施例中,各个功能模块210a~210d可以仅在硬件中实现,以及在另一个实施例中借助于软件来实现,即,后一个实施例具有存储在存储介质230上的计算机程序指令,该计算机程序指令当在处理电路上运行时使得发送节点200a执行以上结合图12描述的对应步骤。还应该提及的是,即使模块与计算机程序的部分相对应,它们也无需是其中的单独模块,而是它们的软件实现方式取决于所使用的编程语言。优选地,一个或多个或所有功能模块210a-210d可以由可能与通信接口220和/或存储介质230协作的处理电路210来实现。因此,处理电路210可以被配置为从存储介质230获取由功能模块210a-210d提供的指令,并且执行这些指令,从而执行如本文公开的任何步骤。
发送节点200a可以被提供为独立设备或作为至少一个另外设备的一部分。例如,如在图1的示例中,在一些方面,发送节点200a是无线电收发机设备200的一部分。因此,在一些方面,提供了一种无线电收发机设备200,其包括如本文所公开的发送节点200a。在一些方面,无线电收发机设备200还包括接收节点200b。
备选地,发送节点200a的功能可以分布在至少两个设备或节点之间。所述至少两个节点或设备可以是同一网络部件的一部分,或者可以散布在至少两个这样的网络部件之中。因此,由发送节点200a执行的指令的第一部分可以在第一设备中执行,而由发送节点200a执行的指令的第二部分可以在第二设备中执行;本文公开的实施例不限于可以在其上执行由发送节点200a执行的指令的设备的任何特定数量。因此,根据本文公开的实施例的方法适合于由驻留在云计算环境中的发送节点200a执行。因此,尽管在图12中示出了单个处理电路210,但是处理电路210可以分布在多个设备或节点中。这同样适用于图13的功能模块210a-210d和图14的计算机程序1420(见下文)。
接收节点200b包括解码器,该解码器用于重构相干性并且用于创建具有与原始声音相似的立体声图像的舒适噪声信号。解码器还可以被配置为形成矢量的第一预测和矢量的第二预测,并获得预测加权因子。解码器还可以被配置为使用预测加权因子将第一预测和第二预测合并为已合并预测。解码器还可以被配置为基于已合并预测以及接收到并解码的预测残差来重构矢量。
图14示出了包括计算机可读存储介质1430的计算机程序产品1410的一个示例。在该计算机可读存储介质1430上,可以存储计算机程序1420,该计算机程序1420可以使处理电路210和可操作地耦接至处理电路210的实体和设备(例如,通信接口220和存储介质230)执行根据本文描述的实施例的方法。计算机程序1420和/或计算机程序产品1410可以因此提供执行本文公开的任何步骤的装置。
在图14的示例中,计算机程序产品1410被示出为光盘,例如CD(紧凑盘)或DVD(数字多功能盘)或蓝光盘。计算机程序产品1410还可以体现为存储器,例如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、或电可擦除可编程只读存储器(EEPROM)和更具体地体现为外部存储器中的器件的非易失性存储介质,例如USB(通用串行总线)存储器或闪存(例如,紧凑式闪存)。因此,尽管计算机程序1420在这里被示意性地示出为所描绘的光盘上的轨道,但是计算机程序1420可以用适于计算机程序产品1410的任何方式存储。
本文公开的所提出的解决方案适用于在声道对中考虑声道相干性的立体声编码器和解码器架构或适用于多声道编码器和解码器。
图15示出了根据一些实施例的参数化立体声编码和解码系统1500。参数化立体声编码和解码系统1500包括:单声道编码器1503,其包括CNG编码器1504;以及单声道解码器1505,其包括CNG解码器1506。编码器1501执行对输入声道对1507A-1507B的分析,并通过参数化分析1508获得立体声图像的参数化表示,并通过降混1509将声道减少为单个声道,从而获得降混信号。通过单声道编码器1503来使用单声道编码算法对降混信号进行编码,并且通过参数编码器1510对立体声图像的参数化表示进行编码。已编码降混信号和立体声图像的参数化表示通过比特流1511发送。解码器1502采用单声道解码器1505来应用单声道解码算法并获得合成的降混信号。参数解码器1512对接收到的立体声图像的参数化表示进行解码。解码器1502使用立体声图像的已解码参数化表示将合成的降混信号变换为合成的声道对。参数化立体声编码和解码系统1500还包括参数化分析1508中的相干性分析1513和参数化合成1515中的相干性合成1514。参数化分析1508包括分析输入信号1507A-1507B的相干性的能力。当单声道编码器1503被配置为用作CNG编码器1504时,参数化分析1508可以分析输入信号1507A-1507B。根据一些实施例,单声道编码器1503还可以包括立体声编码器VAD。立体声编码器VAD可以向CNG编码器1504指示信号包含背景噪声,从而激活CNG编码器1504。因此,在参数分析1508中激活包括相干性分析1513的CNG分析,并且单声道编码器1503启动CNG编码器1504。结果,相干性的编码表示和单声道CNG在比特流1511中被捆绑在一起以用于传输和/或存储。解码器1502识别比特流1511中的立体声CNG帧,解码单声道CNG和相干性值,并合成目标相干性。当对CNG帧进行解码时,解码器1502产生与该两个合成声道1517A-1517B相对应的两个CNG帧。
现在,这里是示例实施例的集合,以进一步描述本文提出的构思。
1.一种用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法,所述方法由发送节点执行,所述方法包括:
确定至少两个输入音频声道上的音频信号的频谱特性;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,该空间相干性与感知重要性度量相关联;
将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的压缩表示;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
2.根据项1所述的方法,其中,感知重要性度量是基于该至少两个输入音频声道的频谱特性的。
3.根据项2所述的方法,其中,感知重要性度量是基于该至少两个输入音频声道的功率谱来确定的。
4.根据项2所述的方法,其中,感知重要性度量是基于该至少两个输入音频声道的加权总和的功率谱来确定的。
5.根据项1所述的方法,其中,空间相干性的压缩表示是每个频带一个单值。
6.一种用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法,所述方法由发送节点执行,所述方法包括:
确定至少两个输入音频声道上的音频信号的频谱特性,其中,频谱特性与感知重要性度量相关联;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,空间相干性被划分到频带中,并且其中,通过根据频谱特性的对应值的感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的一个单值;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的单值的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
7.根据项1或6所述的方法,其中,频谱特性的给定值的感知重要性度量是由至少两个输入音频声道上的音频信号之和的功率定义的。
8.根据项1或6所述的方法,其中,对每个频带内的空间相干性值进行加权,使得相比于与具有较低能量的频谱特性的值相对应的空间相干性值,与具有较高能量的频谱特性的值相对应的空间相干性值对空间相干性的所述一个单值具有更大的影响。
9.根据项1或6所述的方法,其中,在确定频谱特性之前,所述至少两个音频声道的针对帧索引m和样本索引n的音频信号l(m,n)、r(m,n)被加窗以形成各自的加窗信号lwin(m,n),rwin(m,n)。
10.根据项9所述的方法,其中,针对帧索引m和样本索引k的空间相干性C(m,k)被确定为:
其中L(m,k)是加窗音频信号lwin(m,n)的频谱,其中R(m,k)是加窗音频信号rwin(m,n)的频谱,而其中*表示复共轭。
11.根据项10所述的方法,其中,lr(m,n)=l(m,n)+r(m,n)的能量谱|LR(m,k)|2定义了帧m内的感知重要性度量,并且被用于对空间相干性值进行加权。
12.根据项11所述的方法,其中,每个频带在下边界和上边界之间延伸,并且其中,针对帧索引m和频带b的空间相干性的所述一个单值被表示为Cw(m,b)并被确定为:
其中Nband表示频带总数,而其中limit(b)表示频带b的较低频率槽。
13.根据项12所述的方法,其中,limit(b)被提供为函数或查找表。
14.根据项1或6所述的方法,其中,空间相干性被划分到不等长的频带中。
15.一种发送节点,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,该发送节点包括处理电路,该处理电路被配置为使该发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,该空间相干性与感知重要性度量相关联;
将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的压缩表示;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
16.根据项15所述的发送节点,还被配置为执行根据项2至5中任一项所述的方法。
17.一种发送节点,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,该发送节点包括处理电路,该处理电路被配置为使该发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性,其中,频谱特性与感知重要性度量相关联;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,空间相干性被划分到频带中,并且其中,通过根据频谱特性的对应值的感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的一个单值;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的单值的信息,以使得能够在接收节点处生成针对至少两个音频声道的舒适噪声。
18.根据项17所述的发送节点,还被配置为执行根据项7至14中任一项所述的方法。
19.一种无线电收发机设备,该无线电收发机设备包括根据项15至18中任一项所述的发送节点。
20.根据项19所述的无线电收发机设备,还包括接收节点。
21.一种计算机程序,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,该计算机程序包括计算机代码,当该计算机代码在发送节点的处理电路上运行时使发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,该空间相干性与感知重要性度量相关联;
将空间相干性划分到频带中,其中,通过根据感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的压缩表示;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的压缩表示的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
22.一种计算机程序,用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,该计算机程序包括计算机代码,当该计算机代码在发送节点的处理电路上运行时使发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性,其中,频谱特性与感知重要性度量相关联;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,空间相干性被划分到频带中,并且其中,通过根据频谱特性的对应值的感知重要性度量对每个频带内的空间相干性值进行加权来针对每个频带确定空间相干性的一个单值;以及
向接收节点发信号通知关于频谱特性的信息和关于每个频带的空间相干性的单值的信息,以使得能够在接收节点处生成针对该至少两个音频声道的舒适噪声。
23.一种计算机程序产品,包括根据项21和22中至少一项所述的计算机程序和存储该计算机程序的计算机可读存储介质。
通常,除非本文另有明确说明,否则示例实施例和所附权利要求中使用的所有术语根据其技术领域中的普通含义来解释。除非另有明确说明,否则对“一/一个/所述元件、设备、组件、装置、模块、步骤等”的所有引用应被开放地解释为指代元件、设备、组件、装置、模块、步骤等的至少一个实例。除非明确说明,否则本文公开的任何方法的步骤不必严格以所公开的确切顺序来执行。
已经参考一些实施例在上文中主要地描述了本发明构思。然而,本领域技术人员容易了解的是:上文公开的实施例之外的其他实施例同样可以在由所列举的实施例的所附列表所限定的本发明构思的范围之内。
Claims (14)
1.一种用于支持在接收节点处生成针对至少两个音频声道的舒适噪声的方法,所述方法由发送节点执行,所述方法包括:
确定(S102)至少两个输入音频声道上的音频信号的频谱特性;
确定(S104)各个输入音频声道上的音频信号之间的空间相干性,其中,所述空间相干性与感知重要性度量相关联;
将所述空间相干性划分(S106)到频带中,其中,通过根据所述感知重要性度量对每个频带内的所述空间相干性进行加权来针对每个频带确定所述空间相干性的压缩表示;以及
向所述接收节点发信号通知(S108)关于所述频谱特性的信息和关于每个频带的所述空间相干性的压缩表示的信息,以使得能够在所述接收节点处生成针对所述至少两个音频声道的舒适噪声。
2.根据权利要求1所述的方法,其中,所述空间相干性的压缩表示是每个频带一个单值。
3.根据权利要求1或2所述的方法,其中,所述感知重要性度量是基于所述至少两个输入音频声道的频谱特性的。
4.根据权利要求3所述的方法,其中,所述感知重要性度量是基于所述至少两个输入音频声道的功率谱来确定的。
5.根据权利要求3所述的方法,其中,所述感知重要性度量是基于所述至少两个输入音频声道的加权总和的功率谱来确定的。
6.根据权利要求1或2所述的方法,其中,所述频谱特性的给定值的感知重要性度量是基于至少两个输入音频声道上的音频信号之和的功率谱的。
7.根据权利要求2所述的方法,其中,对每个频带内的空间相干性值进行加权,使得相比于与具有较低能量的频率系数的值相对应的空间相干性值,与具有较高能量的频率系数的值相对应的空间相干性值对所述空间相干性的所述一个单值具有更大的影响。
8.根据权利要求1所述的方法,其中,lr(m,n)=l(m,n)+r(m,n)的能量谱|LR(m,k)|2定义了帧m内的感知重要性度量且被用于对空间相干性值进行加权,其中l(m,n)表示针对左声道的输入信号并且r(m,n)表示针对右声道的输入信号,n表示时域样本索引,且k表示频域样本索引。
9.根据权利要求8所述的方法,其中,针对帧索引m和频带b的所述空间相干性Cw(m,b)的一个单值被确定为:
其中Nband表示频带的总数,并且其中limit(b)表示频带b的最低频率槽。
10.一种发送节点(200a),用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,所述发送节点包括处理电路(210),所述处理电路被配置为使所述发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,所述空间相干性与感知重要性度量相关联;
将所述空间相干性划分到频带中,其中,通过根据所述感知重要性度量对每个频带内的所述空间相干性进行加权来针对每个频带确定所述空间相干性的压缩表示;以及
向所述接收节点发信号通知关于所述频谱特性的信息和关于每个频带的所述空间相干性的压缩表示的信息,以使得能够在所述接收节点处生成针对所述至少两个音频声道的舒适噪声。
11.根据权利要求10所述的发送节点,还被配置为执行根据权利要求2至9中任一项所述的方法。
12.一种无线电收发机设备,所述无线电收发机设备包括根据权利要求10或11所述的发送节点。
13.根据权利要求12所述的无线电收发机设备,还包括所述接收节点。
14.一种存储计算机程序(1420)的计算机可读存储介质,所述计算机程序用于支持在接收节点处生成针对至少两个音频声道的舒适噪声,所述计算机程序包括计算机代码,所述计算机代码当在发送节点的处理电路上运行时使所述发送节点:
确定至少两个输入音频声道上的音频信号的频谱特性;
确定各个输入音频声道上的音频信号之间的空间相干性,其中,所述空间相干性与感知重要性度量相关联;
将所述空间相干性划分到频带中,其中,通过根据所述感知重要性度量对每个频带内的所述空间相干性进行加权来针对每个频带确定所述空间相干性的压缩表示;以及
向所述接收节点发信号通知关于所述频谱特性的信息和关于每个频带的所述空间相干性的压缩表示的信息,以使得能够在所述接收节点处生成针对所述至少两个音频声道的舒适噪声。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862652949P | 2018-04-05 | 2018-04-05 | |
US201862652941P | 2018-04-05 | 2018-04-05 | |
US201862653078P | 2018-04-05 | 2018-04-05 | |
US62/652,941 | 2018-04-05 | ||
US62/653,078 | 2018-04-05 | ||
US62/652,949 | 2018-04-05 | ||
PCT/EP2019/058650 WO2019193156A1 (en) | 2018-04-05 | 2019-04-05 | Support for generation of comfort noise |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112154502A CN112154502A (zh) | 2020-12-29 |
CN112154502B true CN112154502B (zh) | 2024-03-01 |
Family
ID=66102706
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980031508.9A Pending CN112119457A (zh) | 2018-04-05 | 2019-04-05 | 可截断的预测编码 |
CN201980034376.5A Active CN112154502B (zh) | 2018-04-05 | 2019-04-05 | 支持生成舒适噪声 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980031508.9A Pending CN112119457A (zh) | 2018-04-05 | 2019-04-05 | 可截断的预测编码 |
Country Status (8)
Country | Link |
---|---|
US (6) | US11495237B2 (zh) |
EP (6) | EP4047601A3 (zh) |
JP (2) | JP7085640B2 (zh) |
KR (3) | KR20230058546A (zh) |
CN (2) | CN112119457A (zh) |
DK (1) | DK3776547T3 (zh) |
MX (1) | MX2020010468A (zh) |
WO (3) | WO2019193149A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11495237B2 (en) | 2018-04-05 | 2022-11-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Support for generation of comfort noise, and generation of comfort noise |
GB2595891A (en) * | 2020-06-10 | 2021-12-15 | Nokia Technologies Oy | Adapting multi-source inputs for constant rate encoding |
JP2023530409A (ja) * | 2020-06-11 | 2023-07-18 | ドルビー ラボラトリーズ ライセンシング コーポレイション | マルチチャンネル入力信号内の空間バックグラウンドノイズを符号化および/または復号するための方法およびデバイス |
GB2596138A (en) * | 2020-06-19 | 2021-12-22 | Nokia Technologies Oy | Decoder spatial comfort noise generation for discontinuous transmission operation |
EP4283615A3 (en) * | 2020-07-07 | 2024-01-10 | Telefonaktiebolaget LM Ericsson (publ) | Comfort noise generation for multi-mode spatial audio coding |
GB2598104A (en) * | 2020-08-17 | 2022-02-23 | Nokia Technologies Oy | Discontinuous transmission operation for spatial audio parameters |
KR20230058705A (ko) * | 2020-08-31 | 2023-05-03 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 노이즈 신호 믹싱에 의존하는 다채널 신호 발생기, 오디오 인코더, 및 관련 방법 |
WO2022226627A1 (en) * | 2021-04-29 | 2022-11-03 | Voiceage Corporation | Method and device for multi-channel comfort noise injection in a decoded sound signal |
WO2023031498A1 (en) * | 2021-08-30 | 2023-03-09 | Nokia Technologies Oy | Silence descriptor using spatial parameters |
WO2023110082A1 (en) | 2021-12-15 | 2023-06-22 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive predictive encoding |
WO2024056701A1 (en) * | 2022-09-13 | 2024-03-21 | Telefonaktiebolaget Lm Ericsson (Publ) | Adaptive stereo parameter synthesis |
WO2024074302A1 (en) | 2022-10-05 | 2024-04-11 | Telefonaktiebolaget Lm Ericsson (Publ) | Coherence calculation for stereo discontinuous transmission (dtx) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1639770A (zh) * | 2002-03-28 | 2005-07-13 | 杜比实验室特许公司 | 根据频率变换重建具有不完全频谱的音频信号的频谱 |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
CN104050969A (zh) * | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
US9865274B1 (en) * | 2016-12-22 | 2018-01-09 | Getgo, Inc. | Ambisonic audio signal processing for bidirectional real-time communication |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7920697B2 (en) | 1999-12-09 | 2011-04-05 | Broadcom Corp. | Interaction between echo canceller and packet voice processing |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
AU2002343151A1 (en) | 2001-11-23 | 2003-06-10 | Koninklijke Philips Electronics N.V. | Perceptual noise substitution |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
CN1458646A (zh) * | 2003-04-21 | 2003-11-26 | 北京阜国数字技术有限公司 | 一种滤波参数矢量量化和结合量化模型预测的音频编码方法 |
CN1677493A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
CN1677491A (zh) * | 2004-04-01 | 2005-10-05 | 北京宫羽数字技术有限责任公司 | 一种增强音频编解码装置及方法 |
US7835918B2 (en) | 2004-11-04 | 2010-11-16 | Koninklijke Philips Electronics N.V. | Encoding and decoding a set of signals |
US8811621B2 (en) * | 2008-05-23 | 2014-08-19 | Koninklijke Philips N.V. | Parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder |
CN102177542B (zh) * | 2008-10-10 | 2013-01-09 | 艾利森电话股份有限公司 | 能量保留多通道音频编码 |
US8817991B2 (en) * | 2008-12-15 | 2014-08-26 | Orange | Advanced encoding of multi-channel digital audio signals |
KR101690252B1 (ko) * | 2009-12-23 | 2016-12-27 | 삼성전자주식회사 | 신호 처리 방법 및 장치 |
SG181148A1 (en) * | 2010-01-22 | 2012-07-30 | Agency Science Tech & Res | Method and device for determining a number of bits for encoding an audio signal |
US8924222B2 (en) * | 2010-07-30 | 2014-12-30 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for coding of harmonic signals |
HUE037111T2 (hu) | 2011-03-10 | 2018-08-28 | Ericsson Telefon Ab L M | Nem-kódolt al-vektorok kitöltése transzformációsan kódolt audio jelekben |
EP3154057B1 (en) | 2011-04-05 | 2018-10-17 | Nippon Telegraph And Telephone Corporation | Acoustic signal decoding |
EP2901715B1 (en) | 2012-09-28 | 2016-11-09 | Sonova AG | Method for operating a binaural hearing system and binaural hearing system |
EP3252762B1 (en) * | 2012-10-01 | 2019-01-30 | Nippon Telegraph and Telephone Corporation | Encoding method, encoder, program and recording medium |
US9318092B2 (en) * | 2013-01-29 | 2016-04-19 | 2236008 Ontario Inc. | Noise estimation control system |
US10199044B2 (en) * | 2013-03-20 | 2019-02-05 | Nokia Technologies Oy | Audio signal encoder comprising a multi-channel parameter selector |
GB2515593B (en) | 2013-12-23 | 2015-12-23 | Imagination Tech Ltd | Acoustic echo suppression |
US10861470B2 (en) * | 2014-02-14 | 2020-12-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Comfort noise generation |
CN104978970B (zh) * | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
EP2980793A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, system and methods for encoding and decoding |
US10366698B2 (en) * | 2016-08-30 | 2019-07-30 | Dts, Inc. | Variable length coding of indices and bit scheduling in a pyramid vector quantizer |
US10367948B2 (en) * | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
US10170134B2 (en) * | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
US11495237B2 (en) | 2018-04-05 | 2022-11-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Support for generation of comfort noise, and generation of comfort noise |
-
2019
- 2019-04-05 US US17/044,740 patent/US11495237B2/en active Active
- 2019-04-05 KR KR1020237013683A patent/KR20230058546A/ko active IP Right Grant
- 2019-04-05 CN CN201980031508.9A patent/CN112119457A/zh active Pending
- 2019-04-05 JP JP2020554191A patent/JP7085640B2/ja active Active
- 2019-04-05 WO PCT/EP2019/058629 patent/WO2019193149A1/en active Application Filing
- 2019-04-05 EP EP22151769.1A patent/EP4047601A3/en not_active Withdrawn
- 2019-04-05 WO PCT/EP2019/058681 patent/WO2019193173A1/en active Application Filing
- 2019-04-05 EP EP19717452.7A patent/EP3776548A1/en active Pending
- 2019-04-05 KR KR1020207031954A patent/KR102548184B1/ko active IP Right Grant
- 2019-04-05 KR KR1020207031390A patent/KR102535034B1/ko active IP Right Grant
- 2019-04-05 EP EP19717450.1A patent/EP3776547B1/en active Active
- 2019-04-05 US US17/045,103 patent/US11404069B2/en active Active
- 2019-04-05 EP EP21185347.8A patent/EP3913626A1/en active Pending
- 2019-04-05 EP EP23180564.9A patent/EP4273858A1/en active Pending
- 2019-04-05 CN CN201980034376.5A patent/CN112154502B/zh active Active
- 2019-04-05 US US17/044,732 patent/US11417348B2/en active Active
- 2019-04-05 EP EP19716874.3A patent/EP3776546B1/en active Active
- 2019-04-05 WO PCT/EP2019/058650 patent/WO2019193156A1/en active Application Filing
- 2019-04-05 MX MX2020010468A patent/MX2020010468A/es unknown
- 2019-04-05 DK DK19717450.1T patent/DK3776547T3/da active
-
2022
- 2022-06-06 JP JP2022091269A patent/JP7438268B2/ja active Active
- 2022-06-21 US US17/844,803 patent/US11837242B2/en active Active
- 2022-11-03 US US17/980,386 patent/US11862181B2/en active Active
-
2023
- 2023-10-26 US US18/383,953 patent/US20240055008A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1639770A (zh) * | 2002-03-28 | 2005-07-13 | 杜比实验室特许公司 | 根据频率变换重建具有不完全频谱的音频信号的频谱 |
CN101809657A (zh) * | 2007-08-27 | 2010-08-18 | 爱立信电话股份有限公司 | 用于噪声填充的方法和设备 |
CN104050969A (zh) * | 2013-03-14 | 2014-09-17 | 杜比实验室特许公司 | 空间舒适噪声 |
US9865274B1 (en) * | 2016-12-22 | 2018-01-09 | Getgo, Inc. | Ambisonic audio signal processing for bidirectional real-time communication |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112154502B (zh) | 支持生成舒适噪声 | |
KR102636424B1 (ko) | 스테레오 사운드 신호의 좌측 및 우측 채널들을 디코딩하는 방법 및 시스템 | |
US9355646B2 (en) | Method and apparatus to encode and decode an audio/speech signal | |
KR102480710B1 (ko) | 다중 채널 오디오 신호 처리 방법, 장치 및 시스템 | |
KR102493482B1 (ko) | 시간-도메인 스테레오 코딩 및 디코딩 방법, 및 관련 제품 | |
EP2705516B1 (en) | Encoding of stereophonic signals | |
KR102486258B1 (ko) | 스테레오 신호 인코딩 방법 및 인코딩 장치 | |
KR20220018557A (ko) | 스테레오 코딩 방법 및 디바이스, 및 스테레오 디코딩 방법 및 디바이스 | |
US11978460B2 (en) | Truncateable predictive coding | |
KR20230020554A (ko) | 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |