CN107636757B - 多声道音频信号的编码 - Google Patents

多声道音频信号的编码 Download PDF

Info

Publication number
CN107636757B
CN107636757B CN201680029059.0A CN201680029059A CN107636757B CN 107636757 B CN107636757 B CN 107636757B CN 201680029059 A CN201680029059 A CN 201680029059A CN 107636757 B CN107636757 B CN 107636757B
Authority
CN
China
Prior art keywords
channels
coding
subset
encoding
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680029059.0A
Other languages
English (en)
Other versions
CN107636757A (zh
Inventor
哈拉尔德·波布洛斯
斯蒂芬·布鲁恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Priority to CN202110304954.1A priority Critical patent/CN113035212A/zh
Publication of CN107636757A publication Critical patent/CN107636757A/zh
Application granted granted Critical
Publication of CN107636757B publication Critical patent/CN107636757B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Abstract

根据本发明的示例实施例,公开了一种用于辅助对用于多声道音频信号编码的编码模式的选择的方法和设备,其中可以针对不同的声道选择不同的编码模式。该方法在音频编码器中执行,并且包括获得多个音频信号声道,以及协调或同步对所获得的声道中的多个声道的编码模式的选择,其中所述协调基于针对所获得的声道之一或所获得的声道中的一组声道而选择的编码模式。

Description

多声道音频信号的编码
技术领域
本公开的主题涉及音频编码,更具体地,涉及使用两个或更多个包括若干编解码模式的编解码器的实例对立体声或多声道信号进行编码。
背景技术
蜂窝通信网络朝着更高的数据速率、改进的容量和改进的覆盖演进。在第三代合作伙伴项目(3GPP)标准主体中,已经开发了并当前也正在开发若干技术。
LTE(长期演进)是标准化技术的示例。在LTE中,针对下行链路使用基于OFDM(正交频分复用)的接入技术,而针对上行链路使用基于单载波FDMA(SC-FDMA)的接入技术。通常在考虑每个无线终端的瞬时业务模式和无线电传播特征的情况下通过使用快速调度自适应地执行在下行链路和上行链路二者上对无线终端(也被称为用户设备,UE)的资源分配。LTE上的一种数据类型是例如用于语音会话或流音频的音频数据。
为了改进低比特率语音和音频编码的性能,利用关于信号特征的先验知识并采用信号建模,这是公知的。在更复杂信号的情况下,可以针对不同信号类型和信号的不同部分使用若干编码模型或编码模式。在任何时候选择适当的编码模式是有益的。
在要发送立体声或多声道信号但可用的或优选的编解码器不包括专用立体声模式的系统中,可以用当前可用的分开的编解码器实例对信号的每个声道进行编码并发送。这意味着,例如,如果在立体声情况下有两个声道,则编解码器针对左声道运行一次,针对右声道运行一次。分开的实例意味着没有左右声道编码的耦合。用“不同实例”进行的编码可以是并行的,例如,在优选的情况下可以同时进行,但也可以顺序进行。对于立体声情况,左/右表示和中/侧表示可以被认为是立体声信号的两个声道。类似地,对于多声道的情况,针对不同方式的编码,声道可以表示为它们被呈现或被捕获的样子。当在听筒处对解码信号进行时间校准时,可以使用这些信号来渲染或重建立体声或多声道信号。对于立体声的情况,这通常被称为双单声道(dual-mono)编码。
在典型的情况下,每个麦克风可以表示一个被编码并且在解码后由一个扬声器播放的声道。但是,也可以基于麦克风信号的不同组合来生成虚拟输入声道。例如在立体声的情况下,通常选择中/侧表示而不是左/右表示。在最简单的情况下,通过将左右声道信号相加来生成中间信号,而通过取差值来获得侧信号。相反地,在解码器处,可以再次进行类似的重映射,例如,从中/侧表示映射到到左/右表示。左信号(例如除了常数比例因子之外)可以通过将中间信号和侧信号相加来获得,右信号可以通过将这些信号相减来获得。一般而言,存在从N个麦克风信号到被编码的M个虚拟输入声道以及从解码器接收到的M个虚拟输出声道到K个扬声器的对应映射。这些映射可以通过映射的各个输入信号的线性组合来获得,其可以通过在数学上将输入信号与映射矩阵相乘而用公式表示。
许多新近开发的编解码器包括多个不同的编码模式,并且可以基于要被编码/解码的信号的特性来选择编码模式。为了选择最佳编码/解码模式,编码器和/或解码器可以在分析合成(analysis-by-synthesis)(也称为闭环方式)中尝试所有可用模式,或者它可以依赖于基于信号分析对编码模式做出判定(也称为开环判定)的信号分类器。包括不同可选编码模式的编解码器的示例可以是包含ACELP(语音)编码策略或模式以及MDCT(音乐)编码策略或模式两者的编解码器。主要编码模式的其他重要示例是主动信号编码与具有舒适噪声产生的不连续传输(DTX)方案。对于这种情况,通常使用语音活动检测器或信号活动检测器来选择这些编码模式之一。可以响应于检测到的音频带宽来选择其他编码模式。例如,相比于信号是宽带(信号能量高达8kHz)、超宽带(信号能量高达16kHz)或全频带(能量在完整的可听频谱上),如果输入音频带宽仅为窄带(无信号能量高于4kHz),则可以选择窄带编码模式。不同编码模式的另一示例与用于编码的比特率有关。比特率选择器可以基于音频输入信号或传输网络的要求来选择不同的比特率用于编码。
通常,主要编码策略相应地包括基于信号分类器来选择的多个子策略。这种子策略的示例可以是(当主要策略是MDCT编码和ACELP编码时)噪声类信号的MDCT编码和谐波信号的MDCT编码、和/或不同ACELP激励表示。
关于音频信号分类,语音信号的典型信号类别是浊音和清音语音言辞。对于一般的音频信号,通常在语音、音乐和潜在的背景噪声信号之间进行区分。
发明内容
根据第一方面,提供了一种用于辅助对用于多声道音频信号编码的编码模式的选择的方法,其中可以针对不同的声道选择不同的编码模式。该方法在音频编码器中执行,并且包括获得多个音频信号声道,以及协调或同步对所获得的多个声道的编码模式的选择,其中所述协调基于针对所获得的声道之一或所获得的声道中的一组声道而选择的编码模式。
根据第二方面,提供了一种用于辅助对用于多声道音频信号的编码模式的选择的设备。该设备包括处理器和用于存储指令的存储器,所述指令在被处理器执行时使该设备:获得多个音频信号声道,并且协调或同步对所获得的多个声道的编码模式的选择,其中该协调是基于为所获得的声道之一或所获得的声道中的一组声道而选择的编码模式。
根据第三方面,提供了一种用于辅助对音频编码模式的选择的计算机程序。该计算机程序包括计算机程序代码,所述计算机程序代码当在设备上运行时使所述设备:获得多个音频信号声道,并且协调或同步对所获得的多个声道的编码模式的选择,其中该协调是基于为所获得的声道之一或所获得的声道中的一组声道而选择的编码模式。
附图说明
附图示出了所公开主题的选定实施例。在附图中,相似的附图标记表示相似的特征。
图1是示出可以应用本文提出的实施例的蜂窝网的示意图。
图2是示出具有用于每个声道的独立编解码器且没有模式同步的现有技术方案的图。
图3是示出根据现有技术的编码器的一个实例内的示例性模式判定结构的图。
图4示出了根据一个实施例的使用控制所有编码器实例的外部模式判定单元的方案。
图5示出了一个编解码器被选择为主编码器的实施例,即,该编解码器的模式判定施加在所有其他编码器上。
图6和图7是根据实施例的方法的流程图。
图8a-c是示出根据示例实施例的编码器的不同实施方式的示意框图。
图9是示出了无线终端的一些组件的示意图。
图10是示出了转码节点的一些组件的示意图。
具体实施方式
以下参考各种实施例来描述所公开的主题。这些实施例作为教导示例被呈现,并且不被解释为对所公开的主题的限制。
当使用在立体声信号的两个声道上或多声道信号的不同声道上具有单独编码策略或模式的多个编码策略或模式的编解码器时,可以针对不同的声道来选择不同的编解码器模式。这是由于编解码器的不同实例的模式判定是独立的。可以针对信号的不同声道选择不同编码模式的一个示例场景是例如由AB麦克风捕获到的立体声信号,其中一个声道以讲话者为主,而另一个声道以背景音乐为主。在这种情况下,包括例如ACELP和MDCT编码模式的编解码器可能针对语音为主的一个声道选择ACELP模式,针对以音乐为主的另一声道选择MDCT模式。由这两种编码策略产生的编码失真的特征或特性可能相当不同。例如,在一种情况下,编码失真的特征可能是噪声,而由不同编码模式引起的另一个特征可能是有时在MDCT编码模式下观察到的预回声失真。具有这种不同失真特征的呈现信号可以导致未掩蔽(unmasking)效应,即,在仅向收听者提供一个信号时被合理良好掩蔽的失真,在同时向收听者提供具有不同失真特性的两个信号时(例如分别提供给左右耳)变得明显或令人厌烦。
根据所提出方案的实施例,对用于编码立体声或多声道信号的编解码器的不同实例的模式判定进行协调。协调通常意味着模式判定是同步的,但是也可能意味着选择这些模式(尽管不同),使得编码失真和未掩蔽效应被最小化。为了对多声道信号的不同声道进行编码,可以同步在编解码器的不同实例中对编解码器模式和可能的编解码器子模式的选择,使得针对所有声道选择相同的编解码器模式,或者至少使得针对多声道信号的所有声道,由编解码器实例选择具有相似失真特性的相关编解码器模式。通过同步或协调针对多声道信号的不同声道的编解码器模式的选择,对于所有声道来说,编码伪像的特征是相似的。因此,当重建多声道信号并播放它们时,将不存在未掩蔽效应或至少减少了未掩蔽。该方案的实施例可以包括判定算法,其确定或测量模式判定的同步是否必要。例如,该算法可以预测在当前多声道信号的不同声道中是否能够或者将出现如上所述的未掩蔽效应。在应用这种算法的情况下,可以选择性地激活编解码器的不同实例中的模式判定的同步或协调,例如,仅当判定算法判断出或指出这是有必要的和/或有利的时候。
通过应用与本文描述的与同步或协调的模式判定有关的实施例,可以避免或至少减轻立体声或多声道信号的不同声道中的偏离编码失真特征。这将有利地改善信号的音质和空间表示。另外,该方案的实施例能够节省计算复杂度,例如,当编解码器的所有实例只需要进行一次模式判定时。
图1中示出了示例性网络上下文,图1是可以应用本文提出的实施例的无线网络8的示意图。无线网络8包括核心网3和一个或多个无线电接入节点1,这里所述无线电接入节点1具有演进节点B(也称为eNodeB或eNB)的形式。无线电基站1也可以是节点B、BTS(基本收发机站)和/或BSS(基站子系统)等的形式。无线电基站1提供与多个无线设备2的无线电连接。术语无线设备也被称为无线通信设备或无线电通信设备,例如UE,其也被称为例如移动终端、无线终端、移动站、移动电话、蜂窝电话、智能电话和/或目标设备。不同的无线设备的其他示例包括具有无线功能的笔记本电脑、笔记本电脑嵌入式设备(LEE)、笔记本电脑安装设备(LME)、USB加密狗、用户端设备(CPE)、调制解调器、个人数字助理(PDA)、平板电脑(有时被称为具有无线能力的冲浪板、或简称为平板)、具有机器对机器(M2M)能力的设备或UE、设备到设备(D2D)UE或无线设备、配备有无线接口(例如打印机或文件存储设备)的文件存储设备、诸如传感器的机器类型通信(MTC)设备(例如配备有UE的传感器),仅仅提及一些示例。
只要下文所描述的原理适用,无线网络8可以例如符合LTE(长期演进)、W-CDMA(宽带码分多址)、EDGE(增强型数据速率GSM(全球移动通信系统)演进)、GPRS(通用分组无线电服务)、CDMA2000(码分多址2000)或任何其它当前或未来的无线网络(诸如高级LTE)中的任意一个或其组合。
在无线电接口上执行无线终端2与无线电基站1之间的来自无线终端2的上行链路(UL)4a通信和去往无线终端2的下行链路(DL)4b通信。由于衰落、多径传播、干扰等影响,针对于每个无线终端2的无线的无线电接口质量可能随时间并根据无线终端2的位置而变化。
无线电基站1还与核心网3连接,以连接到中心功能和外部网络7,例如公共交换电话网(PSTN)和/或互联网。
可以例如由无线终端2和转码节点5对诸如多声道信号的音频数据进行编码和解码,转码节点5是被布置为执行音频的转码的网络节点。可以例如在MGW(媒体网关)、SBG(会话边界网关)/BGF(边界网关功能)或MRFP(媒体资源功能处理器)中实现转码节点5。因此,无线终端2和转码节点5二者均是包括相应音频编码器和解码器的主机设备。显然,本文公开的方案可以应用于希望对多声道音频信号进行编码的任何设备或节点。
本文描述的方案至少涉及这样的系统,其中针对每个声道用同一编解码器的一个实例对多声道或立体声信号进行编码,并且每个实例从与MDCT和ACELP编码有关的多个不同操作模式中进行选择。图2和图3描绘了应用该方案的实施例将获益的这种系统的示例。图2描述了现有技术的情况,其中由编解码器的一个实例对每个输入音频声道进行单独编码。图3示出了具有多种可选编码模式(包括主模式和子模式)的编解码器实例的示例。可以根据信号特性来选择不同的模式,并且在此可以假设不同的模式判定算法来选择正确的模式。
图4和5描绘了所提出的方案的实施例。在图4中,外部(即实例外部)模式判定算法控制所有编解码器实例的模式选择。在另一实施例或场景中,外部模式判定算法可以检测或识别应该被同步/协调的一组声道。可能有意义的一个示例是何时存在以不同声源信号为主的一组声道。在外部模式判定单元中还可以仅执行模式判定的子集,并且可以仅在局部判定一些子模式。例如,在包括与图3所示的实体相似的多个实体的编解码器或装置中,主模式判定可以被同步/协调,而子模式判定可以在局部被执行。在图5中,使用来自编解码器实例之一的模式判定算法(内部)来控制所有的编解码器实例,并且外部单元选择主编解码器实例,即,应当将其模式判定施加于其他编解码器实例的编解码器实例。
图3至图5的判定模块的输入是所有声道信号或其子集。判定可以涉及识别一个或几个主要的声道,例如,基于信号能量或者其他更复杂的标准,比如,可以是度量编码要求的度量的信号的感知复杂度或感知熵。判定也可以基于输入声道信号的某些组合。一种可能性是某些声道被用于补偿其它声道中的信号分量(例如补偿背景噪声),并且所述补偿后的这些声道将被用于判定。
参照根据图4的主判定在编解码器实例的外部的实施例,即使在仅使用编解码器的单个实例的情况下,包括该实施例作为一个特定实施例是重要的,这允许仅对单个声道(单声道)信号进行编码。在该特定实施例中,可以由单独的立体声或多声道编解码器实例来生成和传送补充立体声或多声道编码信息,例如,这可以是当立体声或多声道编码是参数型时的情况。在该实施例中,单个单声道编解码器的模式判定可以由外部模式判定模块来取代/控制是重要的。
根据方案的至少一些实施例,在使用同一编解码器的多个实例(例如并行地)对立体声或其他多声道信号进行编码的情况下,一个编码器实例的编解码器或编码器模式判定被应用于或施加于其他编码器实例。
图6-7是其他实施例
下面,将参考图6描述与用于对多声道音频信号(例如立体声信号)进行编码的方法有关的实施例。该方法将由例如包括多个实例且在每个实例中包括多个不同可选择编码模式(例如ACELP和MDCT编码)的编解码器或编码器来执行。备选地,其可以是包括多个编解码器或编码器的编解码器装置,每个编解码器或编码器都包括多个可选择的编码模式。编码器或编解码器可以被配置为符合音频编码的一个或多个标准。图6所示的方法包括获得601音频信号的多个声道。所述获得可以包括例如从麦克风或某个其他实体接收音频信号声道,或者从存储器来获取。音频信号可以是立体声信号或包括多于两个声道。本文中的多声道音频信号通常是指包括多于一个声道,即至少两个声道的音频信号。所获得的不同声道被提供至编码器的各个单独实例(或者根据术语和/或实现,单独的编码器)。该方法还包括基于一个或多个声道来选择602编码模式,其中所选择的编码模式将用于对所获得的多个声道中的至少多个声道进行编码,即,不仅用于选择该编码模式所基于的一个声道。该方法还包括对所获得的声道中的多个声道(例如所有声道或子集)应用603所选择的编码模式。备选地,这可以被描述和/或被实现为:该方法包括在对所获得的声道中的多个声道进行编码时施加针对多个声道中的一个所选择的编码模式。备选地,其可以被描述为基于由编码器实例之一针对获得的声道之一所选择的编码模式来控制多个编码器实例的编码模式选择。备选地,实施例可以被描述为基于根据(或针对)声道之一做出的编码模式选择来对多声道音频信号中的多个声道进行编码。
现在将参考图7描述更详细的方法实施例。图7所示的方法包括获得音频信号的多个声道。如前所述,声道被提供至相应的编码器实例以进行编码。该方法还包括确定702对于所获得的多个频道是否存在未掩蔽(unmasking)效应或其他不想要的效应的风险,如前所述,这是因为针对不同声道选择不同的编码模式。备选地,动作702可以被描述为确定是否需要协调对多个声道进行编码的多个实例的编码模式选择。该确定可能涉及例如确定不同的声道是否属于不同的音频信号类型(例如音乐或语音)或者以它们为主,其中不同类型通常会导致选择不同的编码模式。如果不存在不想要的效应或伪像的风险或可能性(例如由于有不同的编码方式选择),则不需要协调针对不同实体的编码方式选择,并且编码过程可以按照常规过程来进行。但是,如果例如在动作702中确定需要协调针对不同音频信号声道的编码模式选择,应该进行这种协调。该方法还可以包括可选动作,确定703哪些声道实际需要根据编码模式来协调。该动作可能涉及基于声道是否属于不同的音频信号类型(诸如音乐还是语音)或以其为主,将这些声道分类成不同的组。然后,可以控制或协调704对分类为第一组的声道的编码做出的编码模式选择,使得针对第二组中的声道选择的编码模式也用于第一组。可能有两组以上的信号。然后可以使用针对一个声道或一组声道选择的协调编码模式来对音频信号声道进行编码705。
示例性实施方式
上述方法和技术可以在编码器和/或解码器中实现,编码器和/或解码器可以是例如通信设备或其他主机设备的一部分。
编码器或编解码器,图8a-8c
在图8a中以一般方式示出了编码器。编码器被配置为对音频信号进行编码,其支持多个信号(例如多声道音频信号的多个声道)的编码(例如,由编码器的多个实例进行的并行编码)。编码器还可以包括多个不同的可选编码模式,例如,如前所述的ACELP和MDCT编码及其子模式。编码器还可以被配置为对其他类型的信号进行编码。编码器800被配置为执行参考例如图4-7中任一个描述的方法实施例中的至少一个。编码器800关联于与前述方法实施例相同的技术特征,目的和优点。解码器可以被配置为符合音频编码/解码的一个或多个标准。为了避免不必要的重复,将简要描述编码器。
可以如下实现和/或描述编码器:
编码器800被配置为对包括多个声道的音频信号进行编码。编码器800包括处理电路或处理组件801和通信接口802。处理电路801可以被配置为例如使编码器800获得音频信号的多个声道,并进一步协调或同步编码模式的选择。处理电路801还可以被配置为使编码器将协调编码模式应用于所获得的多个声道的全部或至少其中多个。通信接口802,其也可以被表示为例如输入/输出(I/O)接口,包括用于向其它实体或模块发送数据和从其他实体或模块接收数据的接口。
如图8b所示,处理电路801可以包括一个或多个处理组件(例如处理器803(例如CPU))和用于存储或保持指令的存储器804。然后,存储器将包括例如具有计算机程序805的形式的指令,所述指令当由处理器803执行时,使编码器800执行上述动作。
在图8c中示出了处理电路801的备选实施方式。处理电路这里可以包括获得单元806,其被配置为使编码器800获得多个音频信号声道。处理电路还包括选择单元807,其被配置为使编码器基于音频信号声道中的一个从多个编码模式中选择编码模式。处理电路还可以包括应用单元或控制单元808,其被配置为使编码器将所选择的编码模式应用于至少多个声道。处理电路801可以包括更多单元,例如确定单元809,其被配置为使编码器确定是否需要协调所考虑的音频信号声道的编码模式选择。处理电路还包括编码单元810,其被配置为使编码器使用协调的编码模式对声道进行实际编码。在后的这些单元在图8c中用虚线轮廓示出,以强调它们相比于其他单元是可选的。可以根据需要或偏好来组合这些单元,以实现充分的实施方式。
上述编码器或编解码器可以被配置用于本文所述的不同方法实施例。
可以认为编码器800在需要时还包括用于执行常规编码器功能的其他功能。
图9是示出了图1的无线终端2的一些组件的示意图。使用能够执行存储在存储器74中的软件指令76(因此可以是计算机程序产品)的合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)、专用集成电路等中的一个或多个的任何组合来提供处理器70。处理器70可以执行软件指令76,以执行以上参照图4-7所描述的方法的一个或多个实施例。
存储器74可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。存储器74还可以包括持久存储设备,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装存储器中的任意单独一个或组合。
还提供数据存储器72,用于在处理器70中软件指令的执行期间读取和/或存储数据。数据存储器72可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。
无线终端2还包括I/O接口72,用于与其他外部实体通信。I/O接口73还包括用户接口,包括麦克风、扬声器、显示器等。可选地,外部麦克风和/或扬声器/头戴耳机可以与无线终端连接。
无线终端2还包括一个或多个收发机71,包括模拟和数字组件和合适数量的天线75,用于与图1中所示的无线终端进行无线通信。
无线终端2包括音频编码器和音频解码器。这些可以用软件指令76实现,软件指令56可以由处理器70或使用单独硬件(未示出)执行。
为了突出本文提出的构思,省略了无线终端2的其他组件。
图10是示出了图1的转码节点5的一些组件的示意图。使用能够执行存储在存储器84中的软件指令86(因此可以是计算机程序产品)的合适的中央处理单元(CPU)、多处理器、微控制器、数字信号处理器(DSP)、专用集成电路等中的一个或多个的任何组合来提供处理器80。处理器80可以被配置为执行软件指令86,以执行以上参照图4-图7所描述的方法的一个或更多个实施例。
存储器84可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。存储器84还可以包括持久存储设备,其例如可以是磁存储器、光存储器、固态存储器或甚至远程安装存储器中的任意单独一个或组合。
还提供数据存储器82,用于在处理器80中软件指令的执行期间读取和/或存储数据。数据存储器82可以是读写存储器(RAM)和只读存储器(ROM)的任意组合。
转码节点5还包括I/O接口83,用于经由无线电基站1与其他外部实体(例如图1的无线终端)通信。
转码节点5包括音频编码器和音频解码器。这些可以用软件指令86实现,软件指令56可以由处理器80或使用单独硬件(未示出)执行。
为了突出本文提出的构思,省略了转码节点5的其他组件。
本文描述的方案还涉及包括计算机可读介质的计算机程序产品。在该计算机可读介质中可以存储计算机程序,该计算机程序可以使处理器执行根据此处描述的实施例的方法。计算机程序产品可以是诸如CD(光盘)或DVD(数字多功能盘)或蓝光盘的光盘。如上所述,计算机程序产品也可以体现在设备的存储器中,例如图8b的计算机程序产品804。计算机程序可以以适合于计算机程序产品的任何方式存储。计算机程序产品可以是可移除的固态存储器,例如,通用串行总线(USB)棒。
本文所述的方案还涉及一种包含计算机程序的载体,所述计算机程序当在至少一个处理器上执行时使所述至少一个处理器执行根据例如本文所述的实施例。载体可以是电信号、光信号、无线电信号或计算机可读存储介质中的一种。
以下是进一步示出本公开主题的各个方面的某些列举实施例。
1、一种用于辅助对音频的编码模式的选择的方法,所述方法在音频编码器中执行并且包括:获得多个音频信号声道;以及协调或同步对所获得的声道中的多个声道的编码模式的选择,其中所述协调可以基于针对所获得的声道之一或所获得的声道中的一组声道而选择的编码模式。
2、根据实施例1所述的方法,还包括将针对所获得的声道之一选择的编码模式应用于对所获得的多个声道进行编码。
3、根据实施例1或2所述的方法,还包括确定是否需要协调对编码模式的选择,并且在需要时执行协调。
4、根据前述任一项实施例所述的方法,还包括确定哪些声道需要协调。
5、根据前述任一项实施例所述的方法,还包括根据协调后的编码模式选择对音频信号声道进行编码。
6、一种用于辅助对音频编码模式的选择的主机设备(2,5)和/或编码器,所述主机设备和/或编码器包括:处理器(70,80);以及存储指令(76,86)的存储器(74,84),所述指令当被处理器执行时使所述主机设备(2,5)和/或编码器:获得音频信号声道;以及协调对声道的编码模式的选择。
7、根据实施例6所述的主机设备(2,5)和/或编码器,还包括如下指令:所述指令在被所述处理器执行时使所述主机设备(2,5)和/或编码器将针对所获得的声道之一选择的编码模式应用于对所获得的声道中的多个声道进行编码。
8、根据实施例6所述的主机设备(2,5)和/或编码器,还包括如下指令:所述指令在被处理器执行时使所述主机设备(2,5)和/或编码器确定是否需要协调对编码模式的选择,并且在需要时执行协调。
9、根据实施例6至8中任一项所述的主机设备(2,5)和/或编码器,其中,用于对音频信号进行分类的指令包括如下指令:所述指令当被所述处理器执行时使所述主机设备(2,5)和/或编码器确定所获得的声道中的哪些声道需要协调。
10、一种计算机程序(66,91),用于辅助对音频的编码模式的选择,所述计算机程序包括计算机程序代码,所述计算机程序代码在主机设备(2,5)和/或编码器上运行时使所述主机设备(2,5)和/或编码器:获得音频信号声道;以及协调对声道的编码模式的选择。
11、一种计算机程序产品,包括根据实施例10所述的计算机程序和存储所述计算机程序的计算机可读介质。
本文所述的步骤、功能、过程、模块、单元和/或框可以使用任何常规技术实现在硬件中,例如使用分立式电路或集成电路技术,包括通用电子电路和专用电路二者。
特定示例包括一个或多个合适配置的数字信号处理器和其他已知电子电路,例如用于执行专门的功能的互连的分立逻辑门、或者专用集成电路(ASIC)。
备选地,上述步骤、功能、过程、模块、单元和/或框的至少一些可以实现在软件中,所述软件例如是由包括一个或多个处理单元的合适的处理电路来执行的计算机程序。在网络节点中的计算机程序的使用之前和/或期间,软件可以由诸如电子信号,光学信号,无线电信号或计算机可读存储介质的载体承载。上述网络节点和索引服务器可以在所谓的云解决方案中实现,指的是该实施方式可以是分布式的,并且因此网络节点和索引服务器可以是所谓的虚拟节点或虚拟机。
当由一个或多个处理器执行时,本文介绍的流程图(一个或多个)可被认为是计算机流程图(一个或多个)。对应的装置可定义为一组功能模块,其中由处理器执行的每个步骤对应于一个功能模块。在这种情况下,功能模块被实现为在处理器上运行的计算机程序。
处理电路的示例包括但不限于:一个或多个微处理器、一个或多个数字信号处理器(DSP)、一个或多个中央处理单元(CPU)和/或任意合适的可编程逻辑电路,例如一个或多个现场可编程门阵列(FPGA)或者一个或多个可编程逻辑控制器(PLC)。也就是说,在上述不同节点中的布置中的单元或模块可以被实施为模拟或数字电路的组合、和/或由存储在存储器中的软件和/或固件配置的一个或多个处理器。这些处理器中的一个或多个以及其它数字硬件可以包括在单个专用集成电路(ASIC)中,或者若干个处理器和各种数字硬件可以分布在若干个分离的组件上,不论是单独封装的还是组装为片上系统(SoC)的。
还应当理解,可以重新使用实现所提出技术的任何常规设备或单元的通用处理能力。也可以例如通过对现有软件进行重新编程或添加新的软件组件重新使用现有的软件。
仅作为示例,提出上述实施例,并应当理解,所提出的技术不限于此。本领域技术人员将会理解,在不背离本发明范围的情况下,可以对该实施例进行各种修改、合并和改变。具体地,在技术上可行时,不同实施例中的不同部分方案可以组合在其他配置中。
在一些备选实施方式中,方框中记录的功能/动作可能以流程图所示顺序之外的顺序发生。例如依赖于所涉及的功能/动作,连续示出的两个方框实际上可以实质上同时执行,或者方框有时候可以按照相反的顺序执行。此外,可以将流程图和/或方框图中的给定模块的功能分离成多个方框,和/或,流程图和/或方框图的两个或更多方框的功能和/或可以至少部分地集成。最后,在不脱离本公开主题的范围的情况下,可以在所示出的方框之间添加/插入其他方框,和/或可以省略方框/操作。
应当理解,在本公开内对交互单元的选择以及单元的命名仅用于示例目的,并且可通过多个备选方式来配置适合于执行上述任何方法的节点,从而能够执行所建议的处理动作。
还应当注意,本公开中描述的单元应被认为是逻辑实体,而且不必是分离的物理实体。
尽管以上已经参考各种实施例呈现了本公开的主题,但是将理解的是,在不脱离本公开的主题的总体范围的情况下,可以对所描述的实施例进行形式和细节上的各种改变。

Claims (15)

1.一种用于辅助对多声道音频信号编码的编码模式的选择的方法,所述方法在音频编码器中执行并且包括:
获得多个音频信号声道;以及
协调或同步用于至少对所获得的多个声道的子集进行编码的编码模式的使用,其中所述编码模式是基于所述子集中的少于所述子集的所有声道来选择的。
2.根据权利要求1所述的方法,还包括将基于所述子集中的一个声道选择的编码模式应用于对所述子集中的所有声道进行编码。
3.根据权利要求1所述的方法,还包括将基于所述子集中至少两个声道的组合而选择的编码模式应用于对所述子集中的所有声道进行编码。
4.根据权利要求1至3中任一项所述的方法,还包括确定是否需要协调对编码模式的使用,并且在需要时执行协调。
5.根据权利要求1至3中任一项所述的方法,还包括确定所获得的多个声道中的哪些声道需要协调。
6.根据权利要求1至3中任一项所述的方法,还包括选择主编解码器实例,其中所述主编解码器实例将其模式判定施加于其他编解码器实例。
7.根据权利要求1至3中任一项所述的方法,还包括根据协调后的编码模式选择对音频信号声道进行编码。
8.一种用于辅助对多声道音频信号的编码模式的选择的设备,所述设备包括:
处理器(70,80);以及
存储指令(76,86)的存储器(74,84),所述指令当被处理器执行时使所述设备:
获得多个音频信号声道;以及
协调或同步用于至少对所获得的多个声道的子集进行编码的编码模式的使用,其中所述编码模式是基于所述子集中的少于所述子集的所有声道来选择的。
9.根据权利要求8所述的设备,还包括如下指令:所述指令在被所述处理器执行时,使所述设备将基于所述子集中的一个声道选择的编码模式应用于对所述子集中的所有声道进行编码。
10.根据权利要求8所述的设备,还包括如下指令:所述指令在被所述处理器执行时,使所述设备将基于所述子集中至少两个声道的组合而选择的编码模式应用于对所述子集中所有声道进行编码。
11.根据权利要求8至10中任一项所述的设备,还包括如下指令:所述指令在被所述处理器执行时,使所述设备确定是否需要协调对编码模式的使用,并且在需要时执行协调。
12.根据权利要求8至10中任一项所述的设备,其中,用于对音频信号进行分类的指令包括如下指令:所述指令当被所述处理器执行时,使所述设备确定所获得的多个音频声道中的哪些声道需要协调。
13.根据权利要求8至10中任一项所述的设备,其中,所述设备是音频编码器或音频编解码器。
14.根据权利要求8至10中任一项所述的设备,其中,所述设备被包括在主机设备(2,5)中。
15.一种存储有计算机程序的计算机可读介质,所述计算机程序用于辅助对音频的编码模式的选择,所述计算机程序包括计算机程序代码,所述计算机程序代码当在设备上运行时使所述设备:
获得多个音频信号声道;以及
协调或同步用于至少对所获得的多个声道的子集进行编码的编码模式的使用,其中所述编码模式是基于所述子集中的少于所述子集的所有声道来选择的。
CN201680029059.0A 2015-05-20 2016-05-19 多声道音频信号的编码 Active CN107636757B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304954.1A CN113035212A (zh) 2015-05-20 2016-05-19 多声道音频信号的编码

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562164141P 2015-05-20 2015-05-20
US62/164141 2015-05-20
PCT/EP2016/061245 WO2016184958A1 (en) 2015-05-20 2016-05-19 Coding of multi-channel audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110304954.1A Division CN113035212A (zh) 2015-05-20 2016-05-19 多声道音频信号的编码

Publications (2)

Publication Number Publication Date
CN107636757A CN107636757A (zh) 2018-01-26
CN107636757B true CN107636757B (zh) 2021-04-09

Family

ID=56068891

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110304954.1A Pending CN113035212A (zh) 2015-05-20 2016-05-19 多声道音频信号的编码
CN201680029059.0A Active CN107636757B (zh) 2015-05-20 2016-05-19 多声道音频信号的编码

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110304954.1A Pending CN113035212A (zh) 2015-05-20 2016-05-19 多声道音频信号的编码

Country Status (8)

Country Link
US (2) US20180358024A1 (zh)
EP (2) EP3298606B1 (zh)
JP (1) JP6567691B2 (zh)
CN (2) CN113035212A (zh)
ES (1) ES2829413T3 (zh)
PL (1) PL3522155T3 (zh)
WO (1) WO2016184958A1 (zh)
ZA (1) ZA201707784B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6909301B2 (ja) * 2017-09-25 2021-07-28 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置及び符号化方法
CN110808054B (zh) * 2019-11-04 2022-05-06 思必驰科技股份有限公司 多路音频的压缩与解压缩方法及系统
BR112023003311A2 (pt) * 2020-09-09 2023-03-21 Voiceage Corp Método e dispositivo para classificação de conteúdo estéreo não correlacionado, detecção de diafonia e seleção do modo estéreo em um codec de som

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
CN103650497A (zh) * 2012-03-02 2014-03-19 松下电器产业株式会社 图像编码方法、图像解码方法、图像编码装置、图像解码装置及图像编码解码装置
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3397001B2 (ja) * 1994-06-13 2003-04-14 ソニー株式会社 符号化方法及び装置、復号化装置、並びに記録媒体
JP3951690B2 (ja) * 2000-12-14 2007-08-01 ソニー株式会社 符号化装置および方法、並びに記録媒体
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
KR101279857B1 (ko) * 2006-12-12 2013-06-28 삼성전자주식회사 적응적 멀티 레이트 코덱 모드 디코딩 방법 및 장치
MY153562A (en) * 2008-07-11 2015-02-27 Fraunhofer Ges Forschung Method and discriminator for classifying different segments of a signal
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
WO2013058686A1 (en) * 2011-10-18 2013-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for conveying additional bits with an encoded data block in a communication system
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101010724A (zh) * 2004-08-27 2007-08-01 松下电器产业株式会社 音频编码器
CN101297353A (zh) * 2005-10-26 2008-10-29 Lg电子株式会社 编码和解码多声道音频信号的方法及其装置
CN103650497A (zh) * 2012-03-02 2014-03-19 松下电器产业株式会社 图像编码方法、图像解码方法、图像编码装置、图像解码装置及图像编码解码装置
CN104205211A (zh) * 2012-04-05 2014-12-10 华为技术有限公司 多声道音频编码器以及用于对多声道音频信号进行编码的方法
CN104364842A (zh) * 2012-04-18 2015-02-18 诺基亚公司 立体声音频信号编码器

Also Published As

Publication number Publication date
JP6567691B2 (ja) 2019-08-28
EP3298606A1 (en) 2018-03-28
CN107636757A (zh) 2018-01-26
JP2018515813A (ja) 2018-06-14
ZA201707784B (en) 2019-05-29
WO2016184958A1 (en) 2016-11-24
EP3522155A1 (en) 2019-08-07
CN113035212A (zh) 2021-06-25
PL3522155T3 (pl) 2021-04-19
US20230274748A1 (en) 2023-08-31
EP3522155B1 (en) 2020-10-14
US20180358024A1 (en) 2018-12-13
ES2829413T3 (es) 2021-05-31
EP3298606B1 (en) 2019-05-01

Similar Documents

Publication Publication Date Title
US10854209B2 (en) Multi-stream audio coding
US20230274748A1 (en) Coding of multi-channel audio signals
US10885921B2 (en) Multi-stream audio coding
EP3074973B1 (en) Metadata for ducking control
RU2704747C2 (ru) Выбор процедуры маскирования потери пакета
CN111192595B (zh) 音频信号分类和编码
US10714101B2 (en) Target sample generation
US20120123775A1 (en) Post-noise suppression processing to improve voice quality
CN110808056B (zh) 音频编码方法和装置
WO2019170955A1 (en) Audio coding
KR102503904B1 (ko) 파라메트릭 오디오 디코딩
JP2020525847A (ja) チャネル間位相差パラメータ符号化方法および装置
US9437203B2 (en) Error concealment for speech decoder
KR102377434B1 (ko) 시간-도메인 스테레오 파라미터에 대한 코딩 방법, 및 관련 제품
RU2648632C2 (ru) Классификатор многоканального звукового сигнала
EP3869507B1 (en) Embedding of spatial metadata in audio signals
KR20230035089A (ko) 패킷 손실 은닉

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant