CN104380376A - 基于可变数量的接收通道的用于多通道音频呈现的平滑配置切换 - Google Patents
基于可变数量的接收通道的用于多通道音频呈现的平滑配置切换 Download PDFInfo
- Publication number
- CN104380376A CN104380376A CN201380031015.8A CN201380031015A CN104380376A CN 104380376 A CN104380376 A CN 104380376A CN 201380031015 A CN201380031015 A CN 201380031015A CN 104380376 A CN104380376 A CN 104380376A
- Authority
- CN
- China
- Prior art keywords
- time frame
- signal
- decoding
- passage
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009877 rendering Methods 0.000 title 1
- 230000005236 sound signal Effects 0.000 claims abstract description 171
- 238000002156 mixing Methods 0.000 claims abstract description 13
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 10
- 230000007246 mechanism Effects 0.000 claims description 109
- 230000009467 reduction Effects 0.000 claims description 108
- 238000000034 method Methods 0.000 claims description 47
- 230000007935 neutral effect Effects 0.000 claims description 46
- 238000010397 one-hybrid screening Methods 0.000 claims description 41
- 230000008859 change Effects 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 29
- 230000002123 temporal effect Effects 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 23
- 238000013213 extrapolation Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000009795 derivation Methods 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000977 initiatory effect Effects 0.000 claims 2
- 230000009466 transformation Effects 0.000 description 26
- 230000008569 process Effects 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 239000003607 modifier Substances 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000193935 Araneus diadematus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005562 fading Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000007727 signaling mechanism Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
解码系统基于输入信号重构n通道音频信号,所述输入信号通过参数译码表示音频信号或者将音频信号表示为n个离散译码通道。参数解码使用控制空间合成级的混合参数以及核心信号,所述空间合成级被从下混级供给下混信号。下混级基于n通道输入信号实现在下混信号上的投影,该n通道输入信号为离散译码信号或填充了中性值通道的核心信号。填充可在解码侧(缩减参数译码)或编码侧进行。在一个实施例中,解码系统中的音频解码器(110)在紧接在离散译码时间帧后面的每个缩减参数译码时间帧的起始部分期间以及在紧接在离散译码时间帧前面的每个缩减参数译码时间帧的最终部分期间填充核心信号。
Description
技术领域
本文中所公开的本发明总地涉及视听媒体发布。具体地讲,本发明涉及一种使得能够在解码期间实现高比特率模式和低比特率模式两者以及无缝模式转变的自适应发布格式。本发明还涉及用于根据发布格式对信号进行编码和解码的方法和装置。
背景技术
就收听质量而言,参数立体声和多通道译码方法已知是可伸缩的并且有效率的,这使得它们在低比特率应用中特别有吸引力。然而,在比特率限制是瞬变的性质(例如,网络抖动、载荷变化)的情况下,可以通过使用自适应发布格式来获得可供使用的网络资源的充分益处,其中,在正常状况下使用相对高的比特率,当网络运行不良时,使用较低的比特率。现有的自适应发布格式和相关联的译码(coding/码化)(解码)技术可以从它们的带宽效率、计算效率、差错恢复、算法延迟的角度来进行改进,并且进一步,在视听媒体发布中就比特率切换事件对于享用解码的媒体的人的明显程度来进行改进。
附图说明
现在将参照附图来描述本发明的实施例,其中:
图1是根据本发明的示例实施例的解码系统的总体框图;
图2类似于图1,示出根据本发明的示例实施例的编码系统;
图3例示位于编码器和解码器侧的下混级的机能;
图4示出用于部署在解码系统中的根据示例实施例的上混级的细节;
图5示出用于部署在解码系统中的根据示例实施例的空间合成级的细节;
图6例示在配备有图5的空间合成级的示例解码系统中出现的数据信号和控制信号;
图7示出用于部署在解码系统中的根据示例实施例的空间合成级的细节;
图8例示在配备有图7的空间合成级的示例解码系统中出现的数据信号和控制信号;
图9示出根据本发明的示例实施例的将信息发送到解码器装置的编码系统;
图10例示在配备有图5的空间合成级的示例解码系统中出现的数据信号和控制信号;
图11是根据本发明的示例实施例的解码系统的总体框图;和
图12示出用于部署在解码系统中的根据示例实施例的音频解码器的细节。
所有的附图都是示意性的,并且仅从大体上示出了为了阐明本发明而必需的部分,而其他部分则可以被略去或者仅仅被建议。除非另有指示,否则相似的标号在不同图中指示相似的部分。
具体实施方式
I.概述
如本文中所使用的,音频信号可以是纯音频信号、视听信号或多媒体信号的音频部分、或者与元数据组合的这些信号中的任何一个。
在本发明的第一方面内,示例性实施例提出了使得能够以改进的比特率选择能力和/或减小的延迟来自适应地发布媒体内容(诸如音频或视频内容)的方法和装置。示例实施例还提供了适合于这样的自适应媒体发布的译码格式,所述译码格式有助于比特率之间的无缝转变。
本发明的示例实施例提供具有独立权利要求中所阐述的特征的编码方法、编码系统、解码方法、解码系统、音频发布系统和计算机程序产品。
解码系统适于基于输入信号重构音频信号,所述输入信号可以直接提供给解码系统,或者可替代地可以被用解码系统所接收的比特流进行编码。输入信号被分割为与音频信号的(重叠的或相连的)时间段相应的时间帧。输入信号的一个时间帧根据译码机制表示音频信号的时间段,所述译码机制选自包括参数译码和离散译码的一组译码机制。特别地,如果编码的音频信号是n通道信号,则输入信号在所接收的它被离散译码的帧中(至少)包含相等数量的通道,即,在离散译码机制中,n个离散编码的通道被用于表示音频信号。在参数译码的所接收的帧中,输入信号包括比n个通道少的通道(但是它可以是n通道格式,其中一些通道不被使用),但是可以另外包括元数据,诸如在编码处理期间例如通过计算信号能量值或相关系数从音频信号推导的至少一个混合参数。可替代地,所述至少一个混合参数可以通过不同的通信路径(例如,经由与承载输入信号的比特流分离的元数据比特流)被供给解码系统。如所指出的,输入信号可以处于至少两种不同的机制(即,参数译码或离散译码),解码系统通过转变到——或者保持处于——参数模式或离散模式来对这些机制做出反应。系统的转变可以具有有限的持续时间,使得解码系统只有在一个或多个时间帧过去之后才进入输入信号的当前译码机制所引起的模式。因此,在操作中,解码系统的模式可能落后于输入信号的机制与一个或多个时间帧相应的时段。参数译码时间帧集合(episode)是指全都通过参数译码表示音频信号的一个或多个连续时间帧的序列。类似地,离散译码时间帧集合是具有n个离散译码通道的一个或多个连续时间帧的序列。如本文中所使用的,解码系统在如下这样的那些时间帧中处于参数模式,在那些时间帧中,解码系统输出对于帧持续时间的更大部分是通过空间合成而生成的(不管底层数据的来源如何);离散模式是指在其中解码系统不处于参数模式的任何时间帧。
解码系统包括下混级,所述下混级适于基于输入信号输出m通道下混信号。优选地,解码系统接受控制下混操作的定量和/或定性方面的下混规范(downmix specification),例如,下混级所形成的将在任何线性组合中施加的增益。优选地,下混规范是可被从数据通信或存储介质提供给至少一个进一步的下混级的数据结构,所述进一步的下混级例如是将输入信号或者对输入信号进行编码的比特流提供给解码系统的编码器中的具有类似的或不同的结构特性的下混级。这样,可以确保这些下混级在功能上是等同的,例如,它们响应于相同的输入信号提供相同的下混信号。下混规范的加载可以相当于部署之后下混级的重新配置,但是可替代地可以在其制造、初始编程、安装、部署等期间执行。下混规范可以用输入信号的特定形式或格式(包括一种格式中的通道的位置或编号)来表达。可替代地,它可以从语义上来表达(包括通道的几何意义,而不管其相对于格式的位置如何)。优选地,下混规范与输入信号的当前形式或格式和/或输入信号的机制无关地制定,从而下混操作可越过输入信号格式改变继续进行,而不中断。
解码系统还包括空间合成级,所述空间合成级适于接收下混信号,并且输出音频信号的n通道表示。空间合成级由于其算法延迟的原因与非零通过时间相关联;本发明的基础问题之一是尽管存在该延迟,但是仍然实现平滑切换。音频信号的n通道表示可以作为解码系统输出而输出;可替代地,它经受了以更忠实地和/或以更少的伪像和差错重构音频信号为总体目标的附加的处理。空间合成级接受控制空间合成操作的定量和/或定性方面的至少一个混合参数。原则上,空间合成级至少在参数模式下(例如,当下混信号可供使用时)工作(active)。在离散模式下,解码系统通过对n个离散编码的通道中的每个进行解码来从输入信号推导输出信号。
根据这个示例实施例,下混级至少在每个离散译码时间帧集合中的第一时间帧中(例如,在整个帧内)以及至少在每个离散译码时间帧集合之后的第一时间帧中(例如,在整个帧内)工作。这意味着,输入信号一从离散译码转变为参数译码,m通道下混信号就可以可供使用。因此,空间合成级可以在较短的时间内启动,即使它包括与固有的非零算法延迟相关联的处理(例如,时频变换、实复转换和/或混合分析滤波)仍如此。此外,音频信号的n通道表示在从参数模式到离散模式的整个转变中可以保持可供使用,并且可以用于使这样的转变更快速和/或更不明显。
如本文中所使用的,时间帧(或帧)是输入信号的对于其译码机制可被控制的最小单元。优选地,输入信号的非空通道通过加窗的变换而获得。例如,如MDCT中那样,每个变换窗口可以与样本相关联,并且连续变换窗口可以重叠。明确的是,如果连续窗口重叠50%,则时间帧的长度不小于变换窗口的一半长度(例如,512样本的变换窗口的一半长度等于256个样本),该长度于是等于变换步幅。因为可以使切换事件更少地被享用解码的音频的人感知到,所以这个示例实施例不需要限制操作期间的切换事件的数量,而是可以专心地对网络状况的变化做出响应。这使得可供使用的网络资源可以被更充分地利用。减小的解码系统延迟可以增强媒体的保真度,在实时媒体流传输中尤其如此。
为了本公开的目的,下混级在时间帧中工作意味着下混级至少在该时间帧的子集期间工作。下混级可以在整个帧内/期间或者仅在时间帧的子集(诸如帧的起始部分)期间工作。起始部分可以对应于帧长度的1/2、1/3、1/4、1/6;起始部分可以对应于变换步幅;可替代地,起始部分可以对应于T/p,其中,T是帧长度,p是在每个帧内开始的变换窗口的数量。输入信号中的译码机制之间的转变典型地涉及在时间帧开始时(例如,在时间帧的前1/6期间或者在1536个时间采样之中的256个时间采样期间)、在前一时间帧的译码与当前时间帧的译码之间(例如,作为当将输入信号从频域格式变换到时域时使用重叠变换窗口的结果,在频域格式中,输入信号可以从比特流获得)的交错淡变。下混级优选地可以至少在紧接在输入信号转变为离散译码或者输入信号从离散译码转变之后的时间帧的起始部分期间工作。这使得下混信号在输入信号中的交错淡变期间可供使用,由此空间合成级可以对于与输入信号中的交错淡变相关联的时间帧的部分输出音频信号的n通道表示。关于输入信号的当前机制(例如,参数译码或离散译码)的信息可以与输入信号一起(例如,其中包含输入信号的比特流中的某一位置处的比特)被接收。例如,在参数译码期间,关于空间参数的信息可以在比特流的某些位置处被找到,而在离散译码期间,这些位置/比特不被使用。通过检查这样的比特在它们的预期位置的存在与否,解码系统可以确定输入信号的当前译码机制。
在前面的示例实施例的进一步发展中,输入信号的时间段可以通过译码机制来表示音频信号的时间段,所述译码机制选自包括参数译码、离散译码和缩减(reduced)参数译码的一组译码机制。因此,在进一步的发展中,存在另外的被称为缩减参数译码的译码机制,在所述缩减参数译码中,输入信号是m通道核心信号(可以伴随有混合参数和其他元数据)。该核心信号可以通过根据下混规范进行下混从表示相同的音频信号(即,表示与第一次提及的音频信号相同的音频信号)的假定离散n通道输入信号获得。相反,基于离散译码时间帧中的输入信号,下混规范使得能够确定在缩减参数译码已经用于在这些帧内表示相同的音频信号的情况下核心信号将会是什么。
在输入信号通过缩减参数译码表示音频信号的帧中,可能不需要执行任何下混。实际上,输入信号是m通道核心信号,在它被发送到空间合成级之前,不需要进行下混。因此,空间合成级优选地可以直接接收输入信号,或者输入信号可以在到达空间合成级之前不受影响地通过下混级。在输入信号通过缩减参数译码表示音频信号的帧中,空间合成级因此可以基于输入信号和至少一个混合参数输出音频信号的n通道表示。当接收到缩减参数译码时间帧时停用下混级(或者使它置于空闲/被动/休息模式)可以节省能量,由此例如便携式装置中的电池时间可以得以延长。
在示例实施例中,下混级在其中输入信号通过参数译码表示音频信号的每个时间帧中工作。在仅存在两种译码机制(参数和离散)的例子中,这意味着,下混级至少在所有的不被离散译码的帧中工作。在存在另外的可供使用的译码机制(诸如缩减参数译码)的例子中,下混级在不被离散译码的时间帧中还可以不工作/被停用/空闲。这可以节省能量和/或延长电池时间。
在示例实施例中,解码系统适于接收输入信号,所述输入信号在参数译码时间帧期间还包括m通道核心信号(除了任何混合参数和其他元数据之外)。核心信号可以通过根据下混规范进行下混从表示相同的音频信号(即,表示与第一次提及的音频信号相同的音频信号)的假定离散n通道输入信号获得。相反,基于离散译码时间帧中的输入信号,下混规范使得能够确定在参数译码已经被用于在那些帧中表示相同的音频信号的情况下核心信号将会是什么。
然而,因为下混级在输入信号可能不包含核心信号的至少一些离散译码时间帧(诸如,离散译码时间帧集合中的第一时间帧)中工作,所以解码系统将能够预测在这些离散译码时间帧内该核心信号将会是什么。因此,即使在原则上核心信号和离散译码通道可能不能共存,输入信号中的与(参数译码或缩减参数译码与离散译码之间的)机制改变相关的任何间断也可以一起被减轻或避免。
在前面的示例实施例的进一步发展中,下混级适于通过再现输入信号中的核心信号(如果该核心信号可供使用)来产生下混信号。换句话说,下混级适于尤其通过拷贝或转发核心信号来对参数译码时间帧的接收做出响应,以使得下混级将核心信号作为下混信号输出。换句话说,如果下混信号中的m通道被认为是n通道输入信号的空间的子空间,则下混级是该子空间上的投影。特别地,存在输入信号的如下m通道子集,下混级将所述m通道子集相同地映射到下混信号中的各m个通道。这可以在下混规范中被规定。对于离散译码时间帧,基于输入信号并且根据下混规范来产生下混信号。如以上所讨论的,下混规范定义了输入信号中的n个离散译码通道与核心信号之间的关系。这意味着,输入信号中的机制改变本身不能引起间断;也就是说,如果音频信号跨越模式改变是连续的,则下混级输出将保持为连续的,并且基本上不会中断。
在可以实现为以上所概述的示例实施例的替代方案或者这些示例实施例的进一步发展的示例实施例中,解码系统适于接收如下比特流,所述比特流以在参数译码机制和离散译码机制两者中都可适用的格式对输入信号进行编码。为了适应n个离散译码通道,所接收的比特流以包括n个通道或更多个通道的格式对输入信号进行编码。因此,参数译码机制中的时间帧可以包含例如n-m个未被使用的通道。为了保持参数译码机制中的格式的均一性,未被使用的通道存在,但是被设为与无激励相应的中性值(neutral value),例如,零序列。发明人认识到,解码器产品可包含其设计不意图部署在其中格式改变可能频繁的自适应媒体发布设备中的老式组件或通用组件(例如,硬件、算法、软件库)。这样的组件可以通过停用它们自己或者使它们自己部分断电来对检测到变为低比特率格式做出响应。当这些组件回到正常操作时,这可能由于与格式改变相关的间断而阻止比特率之间的平滑转变或者使得平滑转变更难以实现。当诸如与具有重叠窗口函数的变换有关地,来自不同译码机制的帧的贡献被累计时,也可能引起困难。在本示例实施例中,因为均一格式被用于输入格式,所以解码系统中的具有这些特性的组件将典型地保持基本上不受从参数译码机制到离散译码机制的转变的影响,反之亦然。以上适用于所有的被离散译码或参数译码的时间帧。在某些示例实施例中,输入信号可以作为替代在两个参数译码时间帧集合之间以m通道格式(缩减参数译码机制)被提供,以便在没有模式转变即将发生或者正被执行时不需要下混。可选地,在所有的不被离散译码的帧中可以使用m通道格式(即,缩减参数译码机制),并且解码系统可选地可以适于至少在某些帧内将所接收的m通道格式重新格式化为n通道格式。例如,在紧接在离散译码时间帧前面或后面的缩减参数译码帧中,可以通过将n-m个中性通道附加到m通道格式来重新格式化缩减参数译码,以便获得上述在不同译码机制之间的转变期间具有相同数量的通道的优点中的至少一些。优选地,均一格式容纳混合参数和参数和/或离散模式中所使用的其他元数据。优选地,通过熵编码或类似的方法来对输入信号进行编码,以使得未被使用的通道仅将有限程度地增加所需的带宽。
在示例实施例中,解码系统还包括第一延迟线和混合器。第一延迟线接收输入信号,并且可操作为输出输入信号的延迟版本。可替代地,第一延迟线可以可操作为延迟输入信号的经处理的版本,例如,在已经从输入信号推导n个通道之后,或者在拆包之后。第一延迟线不需要在参数模式下(即,在其中通过空间合成生成解码系统输出的那些时间帧中)工作(可能除了解码系统处于离散模式的时间帧序列中的起始时间帧之外),以便利于模式转变。混合器连接到第一延迟线输出和空间合成级输出两者,并且充当这两个源之间的选择器。在参数模式中,混合器输出空间合成级输出。在离散模式中,混合器输出第一延迟线输出。当在输入信号中在离散译码机制与参数译码机制(或如上所述那样,在解码系统适于将所接收的缩减参数译码时间帧重新格式化为n通道格式的情况下的缩减参数译码机制)之间转变时,混合器执行这两个输出之间的混合转变。混合转变可以包括交错淡变类型的操作或者已知不是显然可感知到的其他混合转变。混合转变可以占据从其发生模式转变的时间帧或者时间帧的一小部分。第一延迟线的存在使得通过空间合成级提供的音频信号的n通道表示可以保持与从输入信号基于n个离散编码通道推导的信号同步。这促进了模式转变的平滑性。此外,因为不需要两个信号之间的初步对齐,混合器将能够以短的等待时间在模式之间进行转变。特别地,第一延迟线可以被配置为使输入信号延迟与下混级和空间合成级的总通过时间相应的时段。总通过时间可以是各个通过时间的和。然而,如果采取了延迟减小措施,则总通过时间可能小于该和。指出,下混级的通过时间可以是非零数字或者零,在下混级在时域中进行操作时尤其如此。
在前面的实施例的进一步发展中,解码系统还包括在混合器下游的第二延迟线。第二延迟线被配置为在参数模式和离散模式下类似地起作用(即,通过添加延迟,所述延迟为时间帧持续时间与第一延迟线所引起的延迟之间的差值)。因此,解码系统的总通过时间正好为一个时间帧。可替代地,第二延迟线所引起的延迟被选择为使得第一延迟线和第二延迟线所引起的总延迟对应于一个时间帧的长度的倍数。这两种替代方案都简化了切换。特别地,这简化了解码系统与连接实体之间的和切换相关的协作。
在示例实施例中,空间合成级适于应用通过时间内插而获得的混合参数值。在参数译码机制和缩减参数译码机制中,时间帧可以承载针对在给定时间帧中的参考点(或锚点)被明确定义的一个混合参数(多个混合参数),所述参考点诸如为该时间帧的中间点或终点(end)。基于所述明确定义的值,空间合成级通过连续的(相连的)时间帧中的各个参考点之间的内插来推导用于中间时间点的中间混合参数值。换句话说,在两个连续的(相连的)时间帧中的每一个承载混合参数值的情况下,例如,在这两个时间帧中的每一个被参数译码或缩减参数译码的情况下,可以仅在这两个时间帧之间执行内插。在该设置中,特别是如果参考点不是起始点,则空间合成级适于通过下述方式响应当前时间帧是在其中每个时间帧被参数译码或缩减参数译码的时间帧集合中的第一时间帧(即,当前时间帧前面的时间帧不承载混合参数值),即从当前时间帧中的参考点向后对混合参数值进行外插直至当前时间帧的开始。空间合成级可以被配置为用常数值对混合参数进行外插。也就是说,混合参数将被取为在帧开头具有它们的参考点值,将不变地保持该值(作为中间值)直到参考点为止,并且然后将朝着后一时间帧中的参考点发起内插。优选地,外插可以伴随有解码系统中的到参数模式的转变。空间合成单元可以在当前时间帧中被启动。在当前帧和/或其后的帧期间,解码系统可以转变为使用从空间合成单元输出的音频信号的n通道表示重构音频信号。在当前时间帧是离散译码时间帧集合中的第一时间帧时,空间合成级可以适于从紧接在当前时间帧前面的时间帧中的参考点开始执行(混合参数值的)向前外插。可以通过从最后一个参考点直到当前时间帧的终点为止保持混合参数值不变来实现向前外插。可替代地,对于在当前时间帧之后的另一个时间帧,可以继续进行外插,以便适应到离散模式的模式转变。因此,空间合成级可以将来自当前时间帧(或后一时间帧)的核心信号与从一个时间帧(紧接在当前时间帧前面的时间帧)外插的混合参数值组合使用。在当前帧之后的帧和/或其后的时间帧期间,解码系统优选地可以转变为基于输入信号中所包含的n个离散编码通道推导音频信号。
在示例实施例中,空间合成级包括对下混信号的频域表示进行操作的混合矩阵。混合矩阵可以可操作为执行m到n上混。为此,空间合成级还包括在混合矩阵上游的时频变换级以及在混合矩阵下游的频时变换级。附加地或者可替代地,混合矩阵被配置为通过包括m个下混通道的线性组合来产生其n个输出通道。线性组合优选地可以包括下混通道中的至少一些通道的去相关版本。混合矩阵接受混合参数,并且通过根据混合参数的值调整线性组合中的与下混通道中的至少一个相关的至少一个增益来做出反应。所述至少一个增益可以应用于下混信号的m通道频域表示中的通道中的一个或多个。混合参数值中的点改变可以导致立即增益变化或渐变增益变化;例如,如以上所概述的,可以通过连续帧之间的内插来实现渐变变化。指出,不管是对下混信号的时域表示还是频域表示执行上混操作,都可以实现增益的可控性。
在示例实施例中,下混级适于对输入信号的时域表示进行操作。更确切地说,为了生成m通道下混信号,下混级被供给核心信号的时域表示或者n个离散编码信号。时域中的下混是计算贫乏(computationally lean)的技术,在典型使用情况下这意味着下混级的操作将使解码系统中的总计算载荷增加非常小的程度(与没有下混级的解码器相比)。如已经描述的,下混的定量特性可以由下混规范控制。特别地,下混规范可以包括将施加的增益。
在示例实施例中,如果在解码系统中提供空间合成级和混合器,则这样的空间合成级和混合器由可以实现为例如有限状态机(FSM)的控制器控制。下混级可以独立于所述控制器进行操作,或者当不需要下混时,例如,当输入信号被缩减参数译码时或者当输入信号在当前时间帧和前一(或先前多个)时间帧中被离散译码时,下混级可以被所述控制器停用。所述控制器(例如,有限状态机)可以是处理器,其状态由当前时间帧和前一时间帧的以及可能地在所述前一时间帧之前的时间帧的译码类型/机制(参数、离散,并且如果缩减参数可供使用,缩减参数)唯一地确定。如以下将看见的,所述控制器不需要包括堆栈、隐式状态变量、或者存储除了出于能够实施本发明的目的的程序指令之外的任何内容的内部存储器。这给予了简单性、透明性(例如,在验证和测试中)和/或鲁棒性。
在示例实施例中,可以在每个时间帧中根据如下三种译码机制来表示音频信号:离散译码(D)、参数译码(P)和缩减参数译码(rP)。在目前的示例实施例(在该示例实施例中,解码系统不适于将缩减参数译码时间帧重新格式化为n通道格式,而如上所述,这在其他示例实施例中是可以的)中,可以避免以下的连续(相连)时间帧序列:
rP D或D rP,
即,缩减参数译码时间帧不(紧接)在离散译码时间帧的后面或前面。换句话说,离散译码时间帧后面为离散译码时间帧或参数译码时间帧,离散译码时间帧前面为离散译码时间帧或参数译码时间帧。可替代地或者另外地,由于编码效率,以下连续(相连)时间帧序列:
P rP P和P rP…rP P
分别优于:
P P P和P P…P P
换句话说,紧随参数译码时间帧的每个时间帧优选地可以被缩减参数译码或离散译码。例外情况可以是非常短的集合被接受的实现;在这样的情况下,可能不总是存在足以进入缩减参数译码机制的时间,由此可能出现两个连续的参数译码时间帧。
在上述的与根据不同机制译码的时间帧的次序相关的规则全都应用的示例实施例中,输入信号中的时间帧序列典型地看起来像:
D D P D D D D P rP rP rP rP rP P D D D P D P D D D P rP P D D,
其中,缩减参数译码(rP)总是分离离散译码(D)和参数(P)编码。要指出,如上所述,上述示例实施例中的至少一些的编码系统可以适于接收连续帧(的编码机制)的其他组合。
在示例实施例中,在输入信号在当前时间帧中以及在紧接在当前时间帧前面的先前两个时间帧中被离散译码的所有情况下,解码通过从输入信号推导n个离散编码通道来进行。另外地,解码通过下述方式进行,即,在音频信号在当前时间帧内被参数译码或者当前时间帧是离散译码时间帧集合中的第一时间帧的情况下,根据下混规范基于输入信号产生m通道下混信号;在音频信号在当前帧中以及在先前两个帧中被参数译码的所有情况下,基于下混信号产生音频信号的n通道表示。输入信号在当前时间帧和仅前一时间帧中被参数译码(或缩减参数译码)的时间帧中的行为在不同示例实施例中可不同。可选地,当音频信号在(紧接)该前一时间帧前面的时间帧中被参数译码时,还产生m通道下混信号。
在这个示例实施例的进一步发展中,接收输入信号(例如,通过对比特流进行解码)(所述输入信号在给定时间帧中通过参数译码或缩减参数译码来表示音频信号)的步骤包括接收对于所述给定时间帧中的非起始点的至少一个混合参数的值。如果当前时间帧是时间帧集合(在该时间帧集合中,每个时间帧被参数译码或缩减参数译码)中的第一时间帧,则对所接收的至少一个混合参数的值向后进行外插,直到当前时间帧的起点为止。另外地,或者可替代地,参数译码时间帧之后的两个连续的离散译码时间帧(当前时间帧和前一时间帧)的接收使解码系统进行参数解码(即,基于下混信号产生音频信号的n通道表示),不过这是基于与在所述前一时间帧前面的时间帧相关联的混合参数值的。因为不存在可以形成向前内插的基础的紧接在后的时间帧,所以解码系统在整个当前帧内对最后的明确的混合参数值向前进行外插。同时,例如,通过在帧的起始部分(例如,其持续时间的1/3、1/4或1/6,其长度已经在上面进行了讨论)执行交叉混合,解码系统转变为离散解码/模式。所述方法还可以包括以下步骤:响应于输入信号在当前时间帧和前一时间帧中被参数译码并且在所述前一时间帧前面的时间帧中被离散译码,在当前时间帧期间转变为基于下混信号和至少一个混合参数产生音频信号的n通道表示。
在本发明的示例实施例中,编码系统适于对分割为时间帧的n通道音频信号进行编码。编码系统适于输出比特流(P),所述比特流在给定时间帧中根据译码机制表示音频信号,所述译码机制选自包含参数译码和使用n个离散编码通道的离散译码的组。编码系统包括选择器,所述选择器适于对于给定时间帧选择哪个编码机制将用于表示音频信号。编码系统还包括参数分析级,所述参数分析级可操作为基于音频信号的n通道表示并且根据下混规范来输出在参数译码中将形成输出比特流的一部分的核心信号和至少一个混合参数。在本示例实施例的进一步发展中,译码机制的组还包括缩减参数译码。在本实施例中,参数译码使用具有n个信号通道的格式,离散译码也是如此。另一方面,缩减参数译码使用具有m个信号通道的格式,其中,n>m≥1。
在本发明的第二方面内,提供一种用于重构n通道音频信号的解码系统。解码系统适于接收对输入信号进行编码的比特流。输入信号分割为时间帧,并且在给定时间帧中根据译码机制表示音频信号,所述译码机制选自包含以下译码机制的组:使用n个离散编码通道表示音频信号的离散译码;以及使用m通道核心信号和至少一个混合参数表示音频信号的缩减参数译码,其中,n>m≥1。要指出,除了核心信号之外,缩减参数译码机制还可以例如使用诸如至少一个混合参数的元数据来表示音频信号。
本示例实施例的解码系统可操作为基于n个离散编码通道或者通过空间合成来推导音频信号。解码系统包括音频解码器,所述音频解码器适于将它从比特流提取的输入信号的频域表示变换为输入信号的时域表示。解码系统还包括下混级和空间合成级,所述下混级可操作为根据下混规范基于输入信号的时域表示来输出m通道下混信号,所述空间合成级可操作为基于下混信号和至少一个混合参数(例如,在同一比特流中被接收并且被音频解码器提取,或者例如在某些其他比特流中被分离地接收)来输出音频信号的n通道表示。
在本示例实施例的缩减参数译码时间帧中,与输入信号的频域表示是n通道信号的离散译码时间帧不同,输入信号的频域表示是m通道信号(即,核心信号)。音频解码器可以适于在将输入信号的频域表示变换到时域之前,在与离散译码时间帧相邻的缩减参数译码时间帧的至少部分中,对输入信号的频域表示进行重新格式化(也就是说,修改其格式),以便使这些部分中的输入信号的频域表示(从而,还使时域表示)具有数量与离散译码时间帧中的通道数量相同的通道。在离散译码与缩减参数译码之间转变期间具有恒定(但是在各缩减参数译码时间帧集合期间不必是恒定的)数量的通道的输入信号的时域表示可有助于在这样的转变期间仍提供平滑的收听体验。这通过促使在解码系统中的布置在更下游的解码/处理部分中进行转变来实现。例如,具有恒定数量的通道可以有助于提供输入信号的时域表示中的平滑转变。
为了这个目的,音频解码器可以适于至少在紧接在离散译码时间帧后面的各缩减参数译码时间帧的起始部分期间,以及至少对于紧接在离散译码时间帧前面的各缩减参数译码时间帧的最后部分,对输入信号的频域表示进行重新格式化。音频解码器适于通过将n-m个中性通道附加到m通道核心信号来将在这些部分的输入信号的频域表示(其用缩减参数译码时间帧中的m通道核心信号表示)重新格式化为n通道格式。中性通道可以是包含中性信号值(即,与无音频内容或无激励相应的值,诸如零)的通道。换句话说,中性值可以被选择为使得当中性通道的内容被添加到包含音频信号的通道时,通过其生成音频信号的添加不受中性值的影响(中性值加上非中性贡献等于非中性贡献),但是仍然被明确地定义为操作。以上述方式,(一些)缩减参数译码时间帧(的至少部分)中的音频信号的频域表示的m通道核心信号可以被音频解码器重新格式化为与离散译码时间帧中的输入信号的格式同质的格式,特别是包括相同数量的通道的格式。
根据示例实施例,音频解码器可以适于使用重叠变换窗口来执行频时变换,其中,每个时间帧等于变换窗口中的至少一个的一半长度(例如,具有与该一半长度相同的长度)。换句话说,每个时间帧可以对应于为等同于一个变换窗口的时间段的长度的至少一半的时间段。当变换窗口重叠时,在来自不同时间帧的变换窗口之间可能重叠,并且给定时间帧中的输入信号的时域表示的值因此可以基于来自除了给定时间帧之外的时间帧(例如,至少紧接在所述给定时间帧前面或后面的时间帧)的贡献。
在示例实施例中,音频解码器可以适于在紧接在离散译码时间帧后面的各缩减参数译码时间帧中通过下述方式来确定输入信号的时域表示的至少一个通道,即,至少对来自缩减参数译码时间帧的中性通道中的至少一个中性通道的第一贡献和来自紧接在前的离散译码时间帧的第二贡献进行求和。如关于前面的实施例所描述的,m通道核心信号在缩减参数译码时间帧中表示输入信号(在频域中),并且音频解码器可以适于在紧接在离散译码时间帧后面的缩减参数译码时间帧中(至少在这些缩减参数译码时间帧的起始部分上)将m-n个中性通道附加到m通道核心信号。输入信号的n通道时域表示可以在这样的缩减参数译码时间帧中通过下述方式获得,即,对于n个通道中的每一个,对来自前一离散译码时间帧和缩减参数译码时间帧的相应通道的贡献进行求和。对于与m通道核心信号相应的m个通道中的每一个,这可以包括对来自核心信号的通道(来自缩减参数译码时间帧)的第一贡献和来自离散译码时间帧中的相应通道的第二贡献进行求和。对于与n-m个中性通道相应的n-m个通道中的每一个,这可以对应于对来自这些中性通道之一的第一贡献(即,诸如零的中性值)和来自前一离散译码时间帧中的相应通道的第二贡献进行求和。这样,来自离散译码时间帧的所有n个通道的贡献可当在紧接在该离散译码时间帧后面的缩减参数译码时间帧中形成输入信号的时域表示时被使用。这可以使得在输入信号的时域表示中可以进行更平滑的和/或较不明显的转变。例如,在缩减参数译码中,可以使得来自离散译码时间帧的贡献可以在与n-m个中性通道相应的n-m个通道中淡出。这还可以有助于解码系统中的布置在更下游的级/单元中的输入信号的处理/解码,以便在输入信号的离散译码与缩减参数译码之间的转变期间实现改进的(或更平滑的)收听体验。
在示例实施例中,音频解码器可以适于在紧接在参数译码时间帧后面的各离散译码时间帧中通过下述方式来确定输入信号的时域表示的至少一个通道,即,至少对来自离散译码时间帧的第一贡献和来自紧接在前的缩减参数译码时间帧的中性通道中的至少一个的第二贡献进行求和。如关于前面的实施例所描述的,m通道核心信号在缩减参数译码时间帧中表示输入信号(在频域中),并且音频解码器可以适于在紧接在离散译码时间帧前面的缩减参数译码时间帧中(至少在这些缩减参数译码时间帧的最终部分上)将m-n个中性通道附加到m通道核心信号。输入信号的n通道时域表示可以在紧接在这样的缩减参数译码时间帧后面的离散译码时间帧中通过下述方式来获得,即,对于所述n个通道中的每一个,对来自离散译码时间帧和前一缩减参数译码时间帧的相应通道的贡献进行求和。对于与m通道核心信号相应的m个通道中的每一个,这可以包括对来自离散译码时间帧中的相应通道的第一贡献和来自核心信号的相应通道(来自缩减参数译码时间帧)的第二贡献进行求和。对于与n-m个中性通道相应的n-m个通道中的每一个,这可以对应于对来自离散译码时间帧中的相应通道的第一贡献和来自前一缩减参数译码时间帧的相应的中性通道的第二贡献(即,诸如零的中性值)进行求和。这样,来自缩减参数译码时间帧中的核心信号的m个通道的贡献可当在紧接在后的离散译码时间帧中形成输入信号的时域表示时被使用,例如,以使离散译码时间帧的相应通道的值在该离散译码时间帧的起始部分期间淡入。而且,在其余的n-m个通道中,附加到m通道核心信号的通道中的中性值(例如,零)可以用于使离散译码时间帧的相应通道的值淡入。特别地,在音频解码器的缓冲器/存储器中剩余的来自早先的离散译码时间帧的以及与(典型的)在各缩减参数译码集合期间不使用的n-m个通道相关的任何值可以被附加的中性通道的中性值取代,即,可能不被允许影响在这个稍后的离散译码时间帧的编码系统的音频输出。以上所提及的早先的离散译码时间帧可潜在地安置为比当前离散译码时间帧早许多个时间帧,即,它们可与当前离散译码时间帧相隔许多个缩减参数译码时间帧,并且可潜在地对应于输入信号所表示的音频信号中后退几秒或者甚至几分钟的音频内容。因此,可能可取的是当对当前离散译码时间帧进行解码时避免使用与这些早先的离散译码时间帧相关的数据和/或音频内容。
本示例性实施例可以允许输入信号的时域表示中的更平滑的和/或较不明显的转变(由从缩减参数译码到离散译码的转变引起)。它还可以有助于解码系统中的更下游的级/单元中的输入信号的进一步处理/解码,以便在输入信号的缩减参数译码与离散译码之间的转变期间实现改进的(或更平滑的)收听体验。
在示例实施例中,下混级可以适于在每一离散译码时间帧集合中的至少第一时间帧中以及在每一离散译码时间帧集合之后的至少第一时间帧中工作。下混级优选地可以在这些时间帧的起始部分中(即,在输入信号的时域表示中的到离散译码的变换以及从离散译码的变换期间)工作。它然后可以在这些转变期间提供下混信号,所述下混信号可以用于在输入信号中的到离散译码的变换以及从离散译码的变换期间使编码系统的输出具有改进的(或更平滑的)收听体验。
在示例实施例中,译码机制的组还可以包括参数译码。解码系统可以适于接收对输入信号进行编码的比特流,所述输入信号在输入信号通过参数译码表示音频信号的每个时间帧中包括m通道核心信号,所述m通道核心信号为使得在输入信号将音频信号表示为n个离散编码通道的每个时间帧中,可以使用下混规范从输入信号获得表示相同的音频信号的m通道核心信号。
在本示例实施例中,可以使用如下三种译码机制中的任何一种来对经由比特流接收的输入信号的时间帧进行译码:离散译码、参数译码和缩减参数译码。特别地,用这些译码机制中的任何一种译码的时间帧可以跟随在用这些译码机制中的任何一种译码的时间帧的后面。解码系统可以适于处理使用这三种译码机制中的任何一种译码的时间帧之间的任何转变。
在本发明的第二方面内,提供一种类似于前面的任一示例实施例中所描述的解码系统(所执行的方法)那样重构n通道音频信号的方法。所述方法可以包括:接收比特流;从所述比特流提取输入信号的频域表示;并且响应于输入信号在当前时间帧中被缩减参数译码并且在紧接在前的时间帧中被离散译码,或者输入信号在当前时间帧中被缩减参数译码并且在紧接在后的时间帧中被离散译码,将输入信号的频域表示的当前时间帧的至少一部分重新格式化为n通道格式;并且将输入信号的频域表示变换为输入信号的时域表示。所述方法还可以包括:响应于输入信号在当前时间帧和(一个或)两个紧接在前的时间帧中被离散译码,基于n个离散编码通道来推导音频信号;并且响应于输入信号在当前时间帧和(一个或)两个紧接在前的时间帧中被缩减参数译码,基于核心信号和至少一个混合参数来产生音频信号的n通道表示。
在本发明的第二方面内,提供一种用于对分割为时间帧的n通道音频信号进行编码的编码系统,其中,编码系统适于输出比特流,所述比特流在给定时间帧中根据译码机制表示音频信号,所述译码机制选自包含以下译码机制的组:使用n个离散编码通道的离散译码;以及缩减参数译码。编码系统包括:选择器,其适于对于给定时间帧选择哪个编码机制将用于表示音频信号;以及参数分析级,其可操作为基于音频信号的n通道表示并且根据下混规范来输出将由输出比特流在缩减参数译码机制中编码的m通道核心信号和至少一个混合参数。可选地,编码系统可以可操作为输出如下比特流,所述比特流在给定时间帧中也根据参数译码机制表示音频信号,并且选择器可以适于对于给定时间帧在离散译码、参数译码和缩减参数译码之间进行选择。
在本发明的第二方面内,提供一种将n通道音频信号编码为比特流的方法,所述方法类似于前面的任一实施例的编码系统(所执行的方法)。所述方法可以包括:接收音频信号的n通道表示;选择将用于在给定时间帧中表示音频信号的译码机制;响应于选择通过缩减参数译码对音频信号进行编码,基于音频信号的n通道表示并且根据下混规范来形成对m通道核心信号和至少一个混合参数进行编码的比特流;并且响应于选择通过离散译码对音频信号进行编码,输出通过n个离散编码通道对音频信号进行编码的比特流。
在本发明的第二方面内,提供一种音频传输系统,所述音频传输系统包括根据前面的编码系统和解码系统的任一实施例的编码系统和解码系统。这些系统通信地连接,并且编码系统和解码系统各自的下混规范是相同的。
要指出,与本发明的第二方面的实施例相关地描述的译码机制(离散译码、参数译码和缩减参数译码)是与关于本发明的第一方面描述的译码机制相同的译码机制,并且本发明的第二方面的另外的实施例可以通过将已经描述的本发明的第二方面的实施例(或它们的组合)与来自关于本实施例的第一方面所描述的实施例的特征组合来获得。在这样做时,要指出,对于来自根据本发明的第一方面的实施例的至少一些特征,参数译码时间帧和缩减参数译码时间帧可以互换使用,即,可能不需要区分这两种译码机制。
在从属权利要求中定义了本发明的两个方面的进一步的示例实施例。指出,本发明涉及所有特征组合,即使特征被记载在互相不同的权利要求中仍如此。
II.示例实施例
图1以框图形式例示了根据本发明的示例实施例的解码系统100。音频解码器110接收比特流P,并且在一个或多个处理步骤中从该比特流产生由加圈的字母A所指示的输入信号,所述输入信号表示n通道音频信号。作为一个例子,可以将Dolby Digital Plus格式(或Enhanced AC-3)与适于其的音频解码器110一起使用。以下将更详细地讨论音频解码器110的内部工作。输入信号A被分割为与音频信号的时间段相应的时间帧。优选地,连续时间帧是相连的,并且不重叠的。输入信号A在给定时间帧内(b)通过参数译码来表示音频信号或者(a)将音频信号表示为n个离散编码通道W。参数译码数据包括与可通过对音频信号进行下混而获得的下混信号X相应的m通道核心信号。在输入信号A中接收的参数译码数据还可以包括与下混信号X相关联的一个或多个混合参数,这些混合参数共同用α表示。可替代地,与下混信号X相关联的至少一个混合参数α可以通过在同一比特流P或不同比特流中与输入信号分离的信号被接收。关于输入信号的当前译码机制(即,参数译码或离散译码)的信息可以在比特流P中被接收或者作为单独的信号被接收。在图1中所示的解码系统中,音频信号具有六个通道,核心信号具有两个通道,即,m=2,n=6。在本公开的一些段落中,为了明确地指示一些连接线适于发送多通道信号,为这些线提供了与各自的通道数量相邻的交叉线。在离散译码机制中,输入信号A可以是音频信号的作为5.1环绕声的表示,具有通道L(左)、R(右)和C(中心)、Lfe(低频效果)、Ls(左环绕声)、Rs(右环绕声)。然而,在参数译码机制中,在2.0立体声中,L通道和R通道用于发送核心信号通道L0(核心左)和R0(核心右)。
解码系统100可以在离散模式下进行操作,在所述离散模式下,解码系统100从n个离散编码通道W推导音频信号。解码系统100还可以在参数模式下进行操作,在所述参数模式下,解码系统100通过执行包括空间合成的上混操作来从核心信号重构音频信号。
下混级140接收输入信号,根据下混规范执行输入信号的下混,并且输出m通道下混信号X。在本实施例中,下混级140将输入信号看作n通道信号,即,如果输入信号仅包含m通道核心信号,则输入信号被认为具有n-m个另外的通道,这些通道为空/零。在实践中,这可以变为用中性值(诸如零序列)填充未被占据的通道。下混级140形成n个输入通道的m通道线性组合,并且将这些作为下混信号X输出。下混规范规定了该线性组合的增益,并且与输入信号的译码无关,即,当下混级140工作时,它与输入信号的译码无关地进行操作。
在本实施例中,当音频信号被参数译码时,下混级140接收具有n-m个空通道的m通道核心信号。下混规范所规定的线性组合的增益被选择为使得当音频信号被参数译码时,下混信号X与核心信号相同,即,线性组合通过核心信号。可以如下地对下混级进行建模:
其中,每个*符号表示任意条目。
在这个示例实施例中,空间合成级150接收下混信号X。在参数模式下,空间合成级150使用至少一个混合参数α对下混信号X执行上混操作,并且输出音频信号的n通道表示Y。
空间合成级150包括第一变换级151,所述第一变换级151接收m通道下混信号X的时域表示,并且基于此,输出下混信号X的频域表示Xf。上混级155接收下混信号X的频域表示Xf和至少一个混合参数α。上混级155执行上混操作,并且输出音频信号的n通道表示的频域表示Yf。第二变换级152接收音频信号的n通道表示Y的频域表示Yf,并且基于此,输出音频信号的n通道表示的时域表示Y作为空间合成级150的输出。
解码系统100包括第一延迟线120,所述第一延迟线120接收输入信号,并且输出输入信号的延迟版本。第一延迟线120所引起的延迟量对应于与下混级140和空间合成级150相关联的总通过时间。
解码系统100还包括混合器130,所述混合器130通信地连接到空间合成级150和第一延迟线120。在参数模式下,混合器从空间合成级150接收音频信号的n通道表示Y,并且从第一延迟线120接收输入信号的延迟版本。混合器130然后输出音频信号的n通道表示Y。在离散模式下,混合器130从延迟线120接收n个离散编码通道W的延迟版本,并且输出该延迟版本。当输入信号的编码在参数译码与n个离散编码通道之间改变时,混合器130输出空间合成级输出与延迟线输出之间的转变。
在某些实施例中,解码系统100还可以包括第二延迟线160,所述第二延迟线160从混合器130接收输出,并且输出其延迟版本。第一延迟线120和第二延迟线130所引起的延迟的总和可以对应于一个时间帧或多个时间帧的长度。
可选地,解码系统100还可以包括控制器170(其可以被实现为有限状态机),所述控制器170用于基于解码系统100所接收的音频信号的译码机制(而不是基于存储器内容、缓冲器或其他存储信息)来控制空间合成级150和混合器130。控制器170(或有限状态机)基于当前时间帧中的音频信号的译码机制以及前一时间帧(即,紧接在当前时间帧前面的一个时间帧)中的译码(而不是基于其中的信号值)来控制空间合成级150和混合器130。控制器170可以进一步基于(紧接)在该前一时间帧前面的时间帧来控制空间合成级150和混合器130。控制器170可选地还可以控制下混级140;通过该可选功能,下混级140可以在如下时候被停用:当不需要它时,例如,在缩减参数译码中,当可以以直接的方式——或者甚至拷贝的方式——从输入信号推导具有适合空间合成级150的格式的核心信号时。以下参照表1和表2以及图6和图8来进一步描述根据不同示例实施例的控制器170的操作。
参照图4,上混级155可以包括下混修改处理器410,所述下混修改处理器410在上混级155的工作状态下接收下混信号X的频域表示Xf,并且输出修改的下混信号D。修改的下混信号D可以通过下混信号X的频域表示Xf的非线性处理而获得。例如,修改的下混信号D可以通过下述方式来获得:首先,形成作为下混信号X的频域表示Xf的通道的线性组合的新通道,使这些新通道通过去相关器,最后,在将结果作为修改的下混信号D输出之前,对去相关的通道进行伪像衰减。上混级155还可以包括混合矩阵420,所述混合矩阵420接收下混信号X的频域表示Xf和修改的下混信号D,仅形成所接收的下混信号通道和修改的下混信号通道的n通道线性组合,并且将之作为音频信号的n通道表示Y的频域表示Yf输出。混合矩阵420可以接受用于控制由混合矩阵420形成的线性组合的增益中的至少一个的至少一个混合参数α。可选地,下混修改处理器410可以接受可以控制下混修改处理器410的操作的至少一个混合参数α。
图2以框图的形式例示了根据本发明的示例实施例的编码系统200。编码系统200接收n通道音频信号的n通道表示W,并且产生对音频信号进行编码的输出信号P。
编码系统200包括选择器230,所述选择器230适于对于给定时间帧决定是通过参数译码、还是通过n个离散编码通道对音频信号进行编码。考虑到离散译码典型地以更大的带宽占用为代价实现更高的感知收听质量,选择器230可以被配置为使其的译码模式选择基于可供用于发送输出信号P的下游带宽的瞬时量。
编码系统200包括下混级240,所述下混级240接收音频信号的n通道表示W,并且通信地连接到选择器230。当选择器230决定要通过参数译码对音频信号进行译码时,下混级240根据下混规范执行下混操作,计算至少一个混合参数α,并且输出m通道下混信号X和至少一个混合参数α。
编码系统200包括音频编码器260。选择器230使用开关250(表征任何硬件——或软件——实现的信号选择手段)来控制音频编码器260是接收n通道音频信号的n通道表示W,还是接收下混信号X(包括m通道下混信号X和n-m个空/中性通道的n通道信号)。可替代地,编码系统200还包括组合单元(未示出),所述组合单元接收下混信号X和至少一个混合参数α,并且基于这些,输出通过参数译码表示音频信号的组合信号。在这种情况下,选择器230使用开关来控制音频编码器260是接收n通道音频信号的n通道表示W,还是接收该组合信号。组合单元可以例如是复用器。
音频编码器260对所接收的通道进行单独编码,并且将结果作为输出信号P输出。输出信号P可以例如是比特流。
在图2中所示的编码系统200的替代实施例中,选择器230适于对于给定时间帧决定是通过缩减参数译码(即,使用m通道下混信号,而不使用在参数译码中附加的额外的n-m个中性通道),还是通过n个离散编码通道对音频信号进行编码。选择器230适于通过开关250来选择音频编码器260是接收n通道音频信号的n通道表示W,还是接收m通道下混信号X(没有任何额外的中性通道)。
图9以框图的形式例示了根据本发明的示例实施例的编码系统。在本实施例中,n=6,m=2。编码系统与通信网络999一起示出,通信网络999将编码系统连接到解码系统100。
编码系统接收n通道音频信号的n通道表示W,并且生成对音频信号进行编码的输出信号P。编码系统包括接收音频信号的n通道表示W的下混级240。下混级240根据下混规范执行下混操作,并且另外计算至少一个混合参数α,并且输出m通道下混信号X和所述至少一个混合参数α。
编码系统包括第一音频编码器261,所述第一音频编码器261接收下混信号和具有中性值的n-m个空通道970,即,以该格式存在、但是不用于表示音频信号的四个通道。相反,这些通道可以被分配中性值。第一编码器261对所接收的通道进行单独编码,并且将结果作为n通道中间信号输出。编码系统还包括组合单元980,所述组合单元980接收中间信号和至少一个混合参数α,并且基于这些,输出通过参数译码表示音频信号的组合信号。组合单元可以例如是复用器。
编码系统包括第二音频编码器262,所述第二音频编码器262接收n通道音频信号的n通道表示W,并且输出n个离散编码通道。
编码系统还包括选择器230,所述选择器230通信地连接到通信网络999,输出信号P在到达解码系统100之前通过通信网络999被发送。基于网络999的当前状况(例如,瞬时载荷、可用带宽等),选择器230使用开关950(表征任何硬件——或软件——实现的信号选择手段)来控制编码系统在给定时间帧中是输出组合信号还是输出n个离散编码通道作为输出信号P。输出信号P可以例如是比特流
在本实施例中,与关于图2所描述的实施例相比,下混级240可以与选择器230的决定无关地工作。事实上,图9中的编码系统的上部部分和下部部分提供音频信号的参数表示以及离散表示,它们因此可以在每个给定时间帧中与关于挑选哪个用作输出信号P的决定无关地形成。
在图9中所示的编码系统的进一步发展中,第一音频编码器261可操作为包括n-m个空通道或者忽视这些空通道。如果第一音频编码器261处于它忽视该通道的模式下,则它将输出m通道信号。组合单元980将类似于前面的描述那样起作用,也就是说,它将形成包括m通道格式的核心信号和至少一个混合参数α的组合信号(例如,比特流)。选择器230可以被配置为就包括n-m个空通道与否来控制第一音频编码器261。因此,考虑到开关950的动作,根据这个进一步发展的图9中的编码系统可以输出三种不同类型的比特流P。这三种类型对应于上述离散译码机制、参数译码机制和缩减参数译码机制中的每一个。
参照图3,位于编码系统200中的下混级240接收音频信号的n通道信号表示W,并且(当它被选择器230启动时)根据下混规范输出m通道下混信号X。(应指出,下混级240还可以输出如前面参照图2所描述的混合参数。)位于解码系统100中的下混级140也根据相同的下混规范输出m通道下混信号X。然而,该下混级140的输入可以将音频信号表示为n个离散编码通道W或者通过参数译码来表示音频信号。当比特流P通过参数译码表示音频信号时,比特流P包含不改变地通过下混级140并且变为下混信号X的核心信号。在参数译码中,核心信号以n通道格式表示(其中n-m个通道存在,但是不被使用),而下混信号则是m通道信号。在缩减参数译码中,核心信号和下混信号两者都是m通道格式,使得不需要改变格式;相反,下混级140可以被停用,并且信号可以通过与下混级140并行地布置的线路供给空间合成级150。
现在参照图5,图1的空间合成级150可以包括按从上游到下游的次序列出的以下单元:第一变换单元501、第一变换修改器502、上混级155、第二变换修改器503和第二变换单元504。
第一变换单元501接收m通道下混信号X的时域表示,并且将它变换为实数值的频域表示。变换单元501可以利用例如实数值的QMF分析组。第一变换修改器502将该实数值的频域表示转换为部分复数的频域表示,以便例如通过减少在对临界采样的变换后信号执行处理的情况下可能出现的混叠效应来改进解码系统的性能。下混信号X的复数频域表示被供给上混级155。上混级155接收至少一个混合参数α,并且输出音频信号的n通道表示Y的频域表示。混合参数α可以与核心信号一起包括在比特流中。第二变换修改器503例如通过基于虚数谱数据更新实数谱数据以便减小混叠来将该信号修改为音频信号的n通道表示Y的实数值的频域表示,并且将它供给第二变换单元504。第二变换单元504将音频信号的n通道表示Y的时域表示输出作为空间合成级150的输出。
在这个示例实施例中,每个时间帧由1536个时域采样组成。因为不可能每次对一个时域帧执行所有的处理步骤,所以空间合成级中的单元可以与图5中的时间轴510上所指示的不同的(算法)延迟相关联。于是,所引起的延迟对于第一变换单元501可以是320个样本,对于第一变换修改器502可以是320个样本,对于上混级155可以是0个样本,对于第二变换修改器503可以是320个样本,对于第二变换单元504可以是257个样本。如前面参照图1所描述的,可以在空间合成级150的更下游的在延迟解码系统100中的两个处理路径的位置处引入第二延迟线160。第二延迟线160所引起的延迟可以被选择为319个样本,由此空间合成级150和第二延迟线160的组合延迟为1536个样本,即,一个时间帧的长度。
表1列出了(第一类型的)解码系统100的示例实施例的不同部分或方面的不同操作模式的那些组合,这些组合可出现在时间帧中。参照图1,当输入信号通过参数译码对音频信号进行编码时,空间合成级155接收至少一个混合参数α。空间合成级150中的混合参数的使用被称为方面1。空间合成级150的操作被称为方面2。解码系统100的模式作为一个整体被称为方面3。为了这个例子,假定时间帧划分为24个QMF时隙,每个QMF时隙有64个样本,在其中使用混合参数的这样的时隙的数量被指示为方面4。
在该表中以及稍后在图6和图8中,R(重置)是指清空空间合成级150中的重叠相加缓冲器;E(外插)是指用常数值进行的向后外插;K(保持)是指用常数值进行的向前外插;N(正常)是指使用针对各对连续帧中的(非起始)参考点定义的确切值进行的帧间内插。
根据编码系统100所接收的输入信号中的音频信号的译码,表1中所列的各方面将如所列出的那样操作。在本实施例中,操作模式仅取决于如表2中所列出的当前时间帧中的以及前一时间帧中的译码机制,其中,N表示当前时间帧,N-1表示前一时间帧。
表2所描述的解码系统的行为可以由控制器170控制,控制器170通信地连接到并且控制空间合成级150和混合器130。
图6例示了当示例解码系统100接收到示例输入信号时在解码系统100中出现的数据信号和控制信号。图6分割为七个时间帧601至607,对于它们在每个附图标记下指示了译码机制(像表2的顶部部分中那样,离散:D;参数:P)。符号Param1、Param2、Param3是指确切的混合参数值及其各自的锚点,在这个示例实施例中,锚点是时间帧的右端点。
数据信号来源于图1中的加圈字母A至E所指示的位置。在离散译码机制中,输入信号A可以是音频信号的作为5.1环绕声的表示,所述5.1环绕声具有在上部部分中的通道L(左)、R(右)、在下部部分中的C(中心)、Lfe(低频效果)、Ls(左环绕声)、Rs(右环绕声)。然而,在参数译码机制中,L和R通道用于发送核心信号通道L0(核心左)和R0(核心右)。在参数译码机制中,通道C、Lfe、Ls和Rs存在但是不被占用,使得信号在形式上为5.1格式。信号A可以由音频解码器110供给。信号B是核心信号的频域表示,该频域表示由第一变换级151在参数模式下输出,但是优选地不在离散模式下产生,以节省处理资源。信号C(将不与信号A中的中心通道混淆)是在参数模式下从空间合成级150接收的上混信号。信号D是输入信号A的延迟版本,其中,通道已经被关于信号A被分组,并且其中,延迟与图1中的上部处理路径中的通过时间匹配,所述上部处理路径包括空间合成级150。信号E是混合器130输出的延迟版本。此外,图6半图解式地指示了与混合器130施加于信号C的增益CxG和混合器施加于信号D的增益DxG相关的控制信号的时间值;确切地说,这些增益采用区间[0,1]中的值,并且存在在帧603期间的以及来自帧606的交叉混合转变。图6是抽象的,因为它示出了信号类型(或信号机制),同时未提及或者仅仅建议了信号值(主要是数据信号的值)。
图6被注释有为左侧弯曲箭头的形式的分离信号的延迟。
现在将参照图6来描述表1和表2中所列的不同操作模式。
当输入信号在当前时间帧602和前一时间帧601中被离散译码(表2的第一列)时,解码系统100处于离散模式(方面3:DM)。不需要空间合成级150和混合参数(方面1和2:不可应用)。在当前时间帧602的任何部分中不使用混合参数(方面4:0)。如图6中所示,输入信号A是音频信号的作为5.1环绕声的表示。如前面参照图1所描述的,混合器130接收输入信号的延迟版本D,并且将之作为解码系统100的输出E输出,所述输出E可能被更下游的第二延迟线160延迟。
当输入信号在当前时间帧606中被离散译码并且在前一时间帧605中被参数译码(表2的第二列)时,解码系统100从参数模式转变为离散模式(方面3:PM→DM)。再次,借助于可以由下混规范控制的下混级140的特性,总是可以跨越参数到离散模式转变以获得稳定的核心信号,并且模式转变可被以几乎不可察觉的方式执行。空间合成级150接收到与前一时间帧相关联的混合参数。这些混合参数在当前时间帧期间被保持(方面1:K),因为可能没有接收到可以用作用于帧间内插的第二参考值的新的混合参数。空间合成级150接收如下信号,所述信号从由编码系统100作为输入信号A接收的参数译码信号的核心信号转变为离散译码的输入信号A的下混信号。空间合成级150在当前时间帧606期间继续来自前一时间帧605的正常操作(方面2:N)。混合参数在整个时间帧期间被使用(方面4:24)。在当前时间帧606期间,混合器130从输出从空间合成级150接收的上混信号C转变为输出该输入信号的延迟版本D。因此,解码系统100的输出E(由于第二延迟线160引起319个样本的延迟,在下一时间帧607期间)从通过对下混信号进行参数上混而创建的音频信号的重构版本转变为通过n个离散编码通道表示音频信号的真实多通道信号。
当输入信号在当前时间帧603中被参数译码并且在前一时间帧602中被离散译码(表2中的第三列)时,解码系统100从离散模式转变为参数模式(方面3:DM→PM)。此时,帧603例示了,即使在原则上核心信号和离散译码通道不共存,但是输入信号中的与(参数译码与离散译码之间的)机制改变相关的任何间断被一起减轻或避免,这是因为系统可以跨越转变访问稳定的核心信号。空间合成级150在当前时间帧603的终点接收与该帧相关联的混合参数。因为不存在可供前一时间帧602使用的混合参数,所以新参数被向后外插(方面1:E)到整个当前时间帧603,并且被空间合成级150使用。因为空间合成级150在前一时间帧602中不工作,所以它通过重置来开始当前时间帧603(方面2:R)。混合参数在整个时间帧期间被使用(方面4:24)。信号C的被指示为“DC”(不关心)的部分对输出没有贡献,因为增益CxG为零;被指示为“外插”的部分在空间合成级150中使用外插的混合参数值而产生;被指示为“OK”的部分是以正常的方式使用瞬时混合参数而产生的,所述瞬时混合参数通过确切值之间的帧间内插而获得;部分“Keep1”通过下述方式而产生,即,保持最新的确切的混合参数值(来自最新的参数译码时间帧605),并且使它控制空间合成级150的定量特性。时间帧603仅仅是其中发生这样的外插的一个例子。因此,在当前时间帧603期间,混合器130从输出输入信号的延迟版本C转变为输出从空间合成级150接收的上混信号C。因此,解码系统100的输出E(由于第二延迟线160引起319个样本的延迟而在下一时间帧604期间)从通过n个离散编码通道表示音频信号的真实的多通道信号转变为音频信号的通过对下混信号进行上混而创建的重构版本。
当输入信号在当前时间帧605和前一时间帧604中被参数译码(表2的第四列)时,解码系统处于参数模式(方面3:PM)。空间合成级150已经接收到混合参数的与前一时间帧相关联的值,并且还接收到混合参数的与当前时间帧相关联的值,使得能够进行正常逐帧内插,所述正常逐帧内插提供尤其控制在上混期间施加的增益的瞬时混合参数值。这完成了与图5和图6以及表1和表2相关的讨论。
现在参照图7,示出了根据另一示例实施例的具有混合滤波器组的解码系统100的细节。在某些应用中,混合滤波器组的提高的分辨率可以是有益的。根据图7,空间合成级150中的第一变换级151包括时频变换单元701(诸如QMF滤波器组),其后面为实复转换单元702和混合分析单元705。在第一变换级151的下游,存在上混级155,其后面为第二变换级152,第二变换级152包括依次布置的混合合成单元706、复实转换单元703和频时变换单元704。各自的通过时间(按样本计)在虚线710下面指示;通过时间零要被理解为逐样本处理,
其中,算法延迟为零,并且可以通过分配足够的计算力来使得实际通过时间任意地低。混合的分析和合成级705和706的存在构成了与前一示例实施例的显著差异。在本实施例中分辨率更高,但是延迟更长,并且如果要控制编码系统100,则控制器170(或有限状态机)需要处理更复杂的状态结构(如以下表4中所示)。如表3所指示的,这些单元的可用操作模式类似于前述情况:
参照表1和随后的对进一步说明的讨论。新的平齐模式(在方面4中)使得能够实现从参数n通道输出到离散n通道输出的时域交叉淡变。
如以下表4中所示,根据本示例实施例的解码系统100可以由控制器170(或有限状态机)控制,控制器170的状态由在当前时间帧之前接收的两个时间帧中的译码机制(离散或参数)的组合确定。通过使用与表2中相同的注解,可以如下对控制器(或有限状态机)进行编程:
表4中的编程方案的应用由图8例示,图8在七个连续时间帧801至807上作为时间的函数显现了在图1中的加圈字母A至D所指示的位置处将观察到的数据信号A至D。
以上关于图6中所示的离散解码模式、参数解码模式和离散到参数转变的讨论在适当调整的情况下也适用于图8中所示的情况。一个显著差异是由于本实施例中的参数解码计算中的更大的算法延迟(1536个样本,而不是1217个样本)而导致的。在具有大于1536个样本的算法延迟的解码系统中,参数到离散转变可占据一个额外的时间帧。因此,为了对于另一个时间帧(的一小部分)提供信号C,可能需要如“Keep1”、“Keep2”所建议的那样在两个时间帧上对最新的接收的确切的混合参数值进行向前外插,以使得交叉淡变可以发生。总之,仍参照算法延迟超过1536个样本或整个帧的解码系统,从参数到离散解码模式的转变由输入信号中的从参数集合到离散集合的译码机制改变触发,其中,最新的确切的混合参数值被向前外插(保持)直到相关联时间帧之后的两个时间帧结束为止,其中,解码系统在第一个接收的离散译码时间帧之后的第二个时间帧中进入离散模式。
现在将描述如下这样的解码系统,所述解码系统具有总体结构如图5中所示(因此,算法延迟值与图6中所指示的相同)的空间合成级,但是能够对处于缩减参数机制的输入信号进行处理。缩减参数译码机制的特性在上面已经进行了概述,包括其相对于参数译码机制和离散译码机制的差异。
在这里将考虑的解码系统中,提供了额外地负责控制下混级140的操作的控制器170。在图1中,这由从控制器170到下混级140的虚线箭头暗示。本解码系统可以被说成是根据图11中所示的功能结构组织的,其中,系统的输入信号供给音频解码器110和控制器170两者。控制器170被配置为基于输入信号的检测到的译码机制来控制混合器130和参数多通道解码器1100中的每一个,在参数多通道解码器1100中包括下混级(在图11中未示出)和空间合成级(在图11中未示出)。混合器130从参数多通道解码器1100并且从第一延迟线120接收输入,参数多通道解码器1100和第一延迟线120均使它们的处理基于由音频解码器110从输入信号提取的数据。为了使解码系统受益于缩减参数译码机制,控制器170可操作为停用参数多通道解码器1100中的下混级。优选地,当输入信号处于缩减参数机制时,当将供给空间合成级的核心信号用m通道格式(而不是如常规参数模式中那样n通道格式)表示时,停用下混级。即使如所指出的那样,表示核心信号的n通道格式的那些信号不受改变地通过下混级,核心信号可以直接供给空间合成级而无需n通道格式与m通道格式之间进行转换的事实也意味着潜在的计算资源节省。
因为控制器170还适于控制下混级140,所以解码系统中的可用模式表相对于上面的表1扩展:
方面2中的R(重置)和N(正常)模式如前面那样定义。在新的NDB(正常,绕过下混)模式下,下混级140被停用,并且核心信号在不进行涉及通道数量改变的格式转换的情况下被供给空间合成级150。
控制器170的状态仍然将由当前时间帧和前一时间帧中的译码机制的组合唯一地确定。新的译码机制的存在使FSM编程表的大小与表2相比增大:
表6不对(D,rP)和(rP,D)这两种情况进行处理,根据此示例实施例,除了系统的故障状态之外这两种情况下预期不会发生。某些实现可以进一步排除第4列中所提及的情况(P,P)(或者将这种情况视为故障),因为尽快使输入信号切换到rP机制可能更加经济。然而,如果编码器被配置为非常快地切换,则两个离散译码集合可被属于其他译码机制的非常少量的时间帧隔开,并且它可变为有必要将(P,P)作为正常情况接受。换句话说,非常短的参数集合可以被实现平滑切换所必需的部分占据,结果编码系统没有时间进入缩减参数译码模式的时间。
参照图10,解码系统在时间帧1001中处于与表6的第1或第2列相应的模式;它在时间帧1002中处于与第1列相应的模式;它在时间帧1003中处于与第3列相应的模式;它在时间帧1004中处于与第7列相应的模式;它在时间帧1005中处于与第5列相应的模式;它在时间帧1006中处于与第2列相应的模式;它在时间帧1007中处于与第1列相应的模式。在这个例子中,时间帧1004是仅有的在其中所接收的输入信号处于缩减参数机制的时间帧。然而,在更现实的例子中,缩减参数译码机制中的时间帧集合典型地更长,在其端点占据比参数译码时间帧更大量的时间帧,参数译码时间帧占据的时间帧相对较少。这种类型的更现实的例子将例示解码系统响应于接收到与表6的第6列相应的两个连续rP、rP译码时间帧而进入的模式。然而,因为该表中的第6和第7列就方面1-4而言没有差别,所以相信,技术人员将能够通过研究图10和以上讨论来理解并且实现解码系统在这样的时间帧中的期望行为。
最后指出,表5-6和图10可以同样地很好地用表3-4和图7-8作为起点推导得到。事实上,虽然本文中所示的解码系统与更大的算法延迟相关联,但是接收并且处理缩减参数译码机制中的输入信号的能力可以基本上以与上述方式相同的方式实现。然而,如果算法延迟超过一个时间帧,则解码系统中的控制器170的状态将由当前时间帧和两个在前时间帧中的译码机制确定。可能的控制器状态的总数量将为33=27,但是可以不考虑这些控制器状态中的大多数(包括包含(rP,D)或(D,rP)的任何三帧序列),因为它们将仅作为编码器侧故障的结果而出现。强调的是,最后的陈述主要适用于上述示例实施例,而本身不涉及本发明的实质限制。实际上,下面在描述图12之后将讨论能够基于缩减参数和离散(可能地,还有参数)时间帧的任意序列重构音频信号的实施例。
图12示出了音频解码器110的可能的实现,音频解码器110形成图1的解码系统100或类似的解码系统的一部分。音频解码器110适于基于传入的比特流P来输出输入信号W、X的时域表示。为了这个目的,解复用器111从比特流P提取通道子流(每个通道子流可以被认为是输入信号中的通道的频域表示),所述通道子流与输入信号W、X中的每个通道相关联。各个通道子流(可以在另外的处理之后)被供给多个通道解码器113,通道解码器113提供输入信号的通道L、R…中的每一个。每个通道解码器113优选地通过对来自在当前时刻重叠的至少两个窗口的贡献进行求和来提供相关联的通道的时间值。这是许多傅立叶相关变换的情况,特别是MDCT;例如,一个变换窗口可以等于512个样本。在该图的下部部分中表明了通道解码器113的内部工作:它包括逆变换部分115,其后面是重叠相加部分116。在某些实现中,逆变换部分115可以被配置为执行逆MDCT。被标记为N-1、N和N+1的三个绘图显现了对于三个连续变换窗口的逆变换部分115的输出信号。在第(N-1)变换窗口和第N变换窗口重叠的时间段中,重叠相加部分116通过将第(N-1)变换窗口和第N变换窗口内的逆变换值相加来形成通道的时间值。在后面的时间段中,类似地,通过将与第N变换窗口和第(N+1)变换窗口相关的逆变换值相加来获得通道信号的时间值。确切地说,第(N-1)变换窗口和第N变换窗口将来源于输入信号在时间帧边界附近的不同时间帧。返回到图12的主要部分,位于通道解码器113下游的组合单元114以适合于随后的处理的方式组合通道,例如,形成如下时间帧,每个时间帧包括在该时间帧中重构所有通道所必需的数据。
如所述,音频信号可以(b)通过参数译码来表示或者(a)被表示为n个离散编码通道W(n>m)。在参数译码中,如以上所说明的,虽然m个信号用于表示音频信号,但是使用n通道格式,以使得n-m个信号不承载信息或者可以被分配中性值。在示例实现中,这可以意味着n-m个通道子流表示中性信号值。中性信号值在未被使用的通道中被接收的事实关于从参数译码到离散译码的译码机制改变是有益的,反之亦然。在这样的译码机制改变的附近,属于具有不同译码机制的帧的两个变换窗口将重叠并且对于通道的时间表示作出贡献。然而,由于存在中性值,对贡献进行求和的操作将仍明确。
在某些示例实施例中,解码系统110进一步适于接收(c)被缩减参数译码的输入信号的时间帧,其中,输入信号为m通道格式。这意味着参数译码机制中的承载中性值的n-m个通道全都不存在。为了确保通道解码器113也跨越译码机制改变而平滑起作用,通道解码器113中的至少n-m个的前面为预处理器112,预处理器112在图12的下部部分中详细示出。预处理器112可操作为生成对中性值(被表示为“0”)进行编码的通道子流,这已由可在通过模式与输出中性值的模式之间切换的选择器符号指示。输入信号W、X的相应通道将在译码机制改变的至少一侧包含中性值。
预处理器112可以由解码系统100中的控制器170控制。例如,它们可以在(b)离散译码与(c)缩减参数译码之间的这样的机制改变中被启动,其中不存在中间的参数译码时间帧。因为输入信号W、X将在与离散集合相邻的时间帧中被供给下混级140,所以在这样的情况下输入信号足够稳定是必要的。为了实现这,控制器170将通过启动预处理器112和下混级140来对检测到的这种类型的机制改变做出响应。预处理器112的共同动作是将n-m个通道附加到输入信号。从抽象的角度来讲,预处理器112实现了从m通道格式到n通道格式(例如,在Dolby Digital Plus框架中,从acmod2到acmod7)的格式转换。
以上参照图12描述的音频解码器110使得跨越从缩减参数译码到离散译码的机制改变也可供给稳定的输入信号——因此供给稳定的下混信号,反之亦然。实际上,其细节在图5和图7中描绘的解码系统可以配备有具有以上特性的音频解码器。这些系统于是将能够通过分别根据图6和图8进行操作来处理以下类型的时间帧序列:
D D D rP rP…rP D D D
具体地转到图6,时间帧603、604和605的译码机制将是缩减参数(rP)。在时间帧603中,启动音频解码器110中的至少一个预处理器112,以便将信号重新格式化为n通道格式,以使得下混级140将跨越机制改变(从L、R变为L0、R0)不中断地进行操作。优选地,预处理器仅在时间帧603的起始部分期间工作,所述起始部分对应于属于不同译码机制的变换窗口预期重叠的时间间隔。在时间帧604中,重新格式化不是必要的,但是输入信号A可以被直接转发给空间合成级151的输入侧,并且可以临时停用下混级140。然而,因为时间帧605是缩减参数集合中的最后一个并且包含在下一个帧中具有其第二端点的至少一个变换窗口,所以音频解码器110被设置为重新格式化模式(预处理器112工作)。然后在时间帧606中,当下混级140被启动时,输入信号A在该时间帧606开始时的内容改变对于下混级140将不明显,下混级140而是跨越内容改变提供间断的下混信号X。再次,预处理器112仅在时间帧605的最后部分期间工作是足够的并且确实优选的,将与第一离散译码时间帧606的第一变换窗口重叠的变换窗口的开头位于所述最后部分中。
图8的类似的变型也是可能的,其中,缩减参数译码数据(rP)在时间帧803、804和805期间被接收。适当的是,并且出于在前一段和其他地方所指出的原因,音频解码器110的格式转换功能在时间帧803(的起始部分)和时间帧805(的末尾部分)工作,以使得解码器可以跨越两种机制改变总是将同质的且稳定的信号供给下混级140。回想这个示例实施例包括混合滤波器组,但是该事实与音频解码器110的操作没有特别关系。与例如需要对混合参数α进行外插的时间段不同,由信号内容改变引起的潜在的信号间断的持续时间与系统中的算法延迟无关,并且在其通过系统的进程之中在时间上保持局部化。换句话说,在图8中所示的示例实施例中,与图6相比,不需要在更长的时间段中操作预处理器112。
III.等同、扩展、替代和其他
在研究以上描述之后,本发明的另外的实施例对于本领域的技术人员将变得清楚。即使本描述和附图公开了实施例和例子,但是本发明不限于这些特定例子。在不脱离本发明的范围的情况下,可以进行许多修改和变型,本发明的范围由所附权利要求书限定。在权利要求书中出现的任何标号不应被理解为限制它们的范围。
以上公开的系统和方法可以被实现为软件、固件、硬件或它们的组合。在硬件实现中,以上描述中所提及的功能单元之间的任务的划分不一定对应于物理单元的划分;相反,一个物理组件可以具有多种功能,并且一个任务可以由几个物理组件合作执行。某些组件或全部组件可以被实现为数字信号处理器或微处理器执行的软件,或者被实现为硬件或专用集成电路。这样的软件可以分布在计算机可读介质上,所述计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域的技术人员公知的,术语计算机存储介质包括用任何方法或技术实现的用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括,但不限于,CD-ROM、数字多功能盘(DVD)或其他光盘储存器、磁盒、磁带、磁盘储存器或其他磁性存储装置、或者可以用于存储期望信息并且可以被计算机访问的任何其他介质。此外,技术人员公知的是,通信介质典型地在调制数据信号(诸如载波)或其他传输介质中包含计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息递送介质。
Claims (32)
1.一种用于重构n通道音频信号的解码系统(100),其中,所述解码系统适于接收比特流(P),所述比特流(P)对输入信号进行编码,所述输入信号被分割为时间帧,并且在给定时间帧中根据选自以下组的译码机制表示所述音频信号,所述组包含:
b)使用n个离散编码通道的离散译码;和
c)使用m通道核心信号以及至少一个混合参数(α)的缩减参数译码,其中n>m≥1,
所述解码系统能够操作为基于所述n个离散编码通道或者通过空间合成来推导所述音频信号,
所述解码系统包括:
音频解码器(110),适于从所述比特流提取输入信号的频域表示并且将其变换为输入信号的时域表示;
下混级(140),能够操作为根据下混规范基于所述输入信号的时域表示来输出m通道下混信号(X);以及
空间合成级(150),能够操作为基于所述下混信号和所述至少一个混合参数来输出所述音频信号的n通道表示(Y),
其中,所述音频解码器进一步适于在将所述输入信号的频域表示变换为所述时域表示之前通过附加n-m中性通道来将所述输入信号的频域表示重新格式化为n通道格式,其中所述音频解码器适于至少对于紧接在离散译码时间帧后面的每个缩减参数译码时间帧的起始部分以及至少对于紧接在离散译码时间帧前面的每个缩减参数译码时间帧的最终部分期间执行所述重新格式化。
2.根据权利要求1所述的解码系统,其中,所述音频解码器使用重叠变换窗口来执行时频变换,其中,所述时间帧中的每一个等于所述变换窗口中的至少一个的一半长度。
3.根据前述任一项权利要求所述的解码系统,其中,所述音频解码器适于在紧接在离散译码时间帧后面的各缩减参数译码时间帧中、通过至少对来自缩减参数译码时间帧的所述中性通道中的至少一个中性通道的第一贡献和来自紧接在前的离散译码时间帧的第二贡献进行求和,确定输入信号的时域表示的至少一个通道。
4.根据前述任一项权利要求所述的解码系统,其中,所述音频解码器适于在紧接在参数译码时间帧后面的各离散译码时间帧中、通过至少对来自离散译码时间帧的第一贡献和来自紧接在前的缩减参数译码时间帧的所述中性通道中的至少一个中心通道的第二贡献进行求和,确定输入信号的时域表示的至少一个通道。
5.根据前述任一项权利要求所述的解码系统,其中,所述下混级适于在每个离散译码时间帧集合中的至少第一时间帧中以及在每个离散译码时间帧集合之后的至少第一时间帧中工作。
6.根据前述任一项权利要求所述的解码系统,其中,所述解码系统适于接收对输入信号进行编码的比特流,所述输入信号在其中输入信号通过缩减参数译码表示音频信号的每个时间帧中具有m通道核心信号的形式,所述m通道核心信号为使得在其中输入信号将音频信号表示为n个离散编码通道的每个时间帧中,能够使用下混规范从所述输入信号获得表示相同的音频信号的m通道核心信号。
7.根据前述任一项权利要求所述的解码系统,还包括:
第一延迟线(120),适于接收所述输入信号;和
混合器(130),通信地连接到所述空间合成级和所述第一延迟线,并且适于
-在所述系统的参数模式下,输出空间合成级输出或者从其推导的信号;
-在所述系统的离散模式下,输出第一延迟线输出;和
-响应于在所述输入信号中发生的缩减参数译码和离散译码之间的变化,输出空间合成级输出与第一延迟线输出之间的混合转变。
8.根据权利要求7所述的解码系统,其中,所述第一延迟线能够操作为引起与和所述下混级和所述空间合成级相关联的总通过时间相对应的延迟。
9.根据权利要求8所述的解码系统,还包括适于接收混合器输出的第二延迟线(160),其中,所述第一延迟线和第二延迟线所引起的总延迟对应于一个时间帧的长度的倍数。
10.根据前述任一项权利要求所述的解码系统,其中,所述空间合成级适于应用混合参数值,所述混合参数值通过如下这样的连续时间帧之间的内插而获得,在所述连续时间帧中,在缩减参数译码或者在适用的情况下的参数译码中输入信号定义了用于时间帧中的非起始点的明确的混合参数值。
11.根据权利要求10所述的解码系统,其中,所述空间合成级适于响应于当前时间帧是时间帧集合中的第一时间帧而发起离散到参数转变,在所述集合中每个时间帧被缩减参数译码或者在适用的情况下被参数译码,所述离散到参数转变包括对最早的明确的混合参数值进行向后外插直到当前时间帧的开始为止。
12.根据权利要求10或11所述的解码系统,其中,所述空间合成级适于响应于当前时间帧是离散译码时间帧集合中的第一时间帧而发起参数到离散转变,所述参数到离散转变包括对最新的明确的混合参数值进行向前外插,直到至少当前时间帧的结束为止。
13.根据前述任一项权利要求所述的解码系统,其中,所述空间合成级包括:
第一变换级(151),适于接收所述m通道下混信号的时域表示,并且基于其输出所述下混信号的频域表示(Xf);
上混级(155),适于基于所述下混信号的频域表示和所述至少一个混合参数来输出所述音频信号的所述n通道表示的频域表示(Yf);和
第二变换级(152),适于接收所述音频信号的n通道表示的频域表示,并且基于其输出所述音频信号的n通道表示的时域表示作为所述空间合成级的输出。
14.根据权利要求13所述的解码系统,其中,所述上混级适于形成包括所述下混信号的m通道频域表示中的通道的线性组合;并且将其输出作为所述音频信号的n通道表示的频域表示,所述至少一个混合参数控制所述线性组合中的所述下混信号的m通道频域表示中的至少一个通道相关的至少一个增益。
15.根据前述任一项权利要求所述的解码系统,其中,所述下混级适于形成所述输入信号的时域表示的通道的线性组合。
16.根据前述任一项权利要求所述的解码系统,还包括控制器(170),所述控制器用于基于当前时间帧和紧接在前的时间帧的译码机制来控制所述空间合成级和任何混合器。
17.根据权利要求16所述的解码系统,其中,所述控制器基于当前时间帧和两个紧接在前的时间帧的译码机制来控制所述空间合成级和任何混合器。
18.根据前述任一项权利要求所述的解码系统,其中,所述空间合成级能够操作为在其中输入信号通过缩减参数译码表示音频信号的并且紧接在缩减参数译码时间帧或者在适用的情况下的参数译码时间帧后面的每个时间帧中基于所述输入信号和所述至少一个混合参数输出所述音频信号的n通道表示。
19.根据前述任一项权利要求所述的解码系统,其中,译码机制的组还包括
a)参数译码,
所述解码系统适于接收对输入信号进行编码的比特流,输入信号在其中输入信号通过参数译码表示音频信号的每个时间帧中包括m通道核心信号,所述m通道核心信号为使得在其中输入信号将音频信号表示为n个离散编码通道的每个时间帧中,能够使用下混规范从所述输入信号获得表示相同的音频信号的m通道核心信号。
20.根据权利要求19的解码系统,其中,下混级适于通过将音频信号的参数化表示的核心信号再现为下混信号,在其中输入信号通过参数译码表示音频信号的并且在缩减参数译码时间帧或者参数译码时间帧后面的每个时间帧中生成下混信号。
21.根据权利要求19或20的解码系统,其中,解码系统适于接收对输入信号进行编码的比特流,所述输入信号在其中所述输入信号通过参数译码表示音频信号的每个时间帧中是n通道信号,其中,n-m个通道不用于表示所述音频信号。
22.一种重构n通道音频信号的方法,所述方法包括以下步骤:
接收比特流(P),所述比特流对输入信号进行编码,所述输入信号被分割为时间帧,并且在给定时间帧中根据选自以下组的译码机制表示所述音频信号,所述组包含:
b)使用n个离散编码通道的离散译码;和
c)使用m通道核心信号以及至少一个混合参数(α)的缩减参数译码,其中n>m≥1,
从所述比特流提取输入信号的频域表示;
响应于输入信号在当前时间帧中被缩减参数译码并且在紧接在前的时间帧中被离散译码,通过附加n-m中性通道到所述m通道核心信号来将所述输入信号的频域表示的当前时间帧的至少起始部分重新格式化为n通道格式;
响应于输入信号在当前时间帧中被缩减参数译码并且在紧接在后的时间帧中被离散译码,通过附加n-m中性通道到所述m通道核心信号来将所述输入信号的频域表示的当前时间帧的至少最终部分重新格式化为n通道格式;
将输入信号的所述频域表示变换为输入信号的时域表示;
响应于输入信号在当前时间帧和两个紧接在前的时间帧中被离散译码,基于所述n个离散编码通道推导所述音频信号;以及
响应于输入信号在当前时间帧和两个紧接在前的时间帧中被缩减离散译码,基于核心信号和所述至少一个混合参数生成音频信号的n通道表示。
23.根据权利要求22所述的方法,包括以下步骤:
响应于所述输入信号在当前时间帧和前一时间帧中被离散译码,基于所述n个离散编码通道推导音频信号;以及
响应于所述输入信号在当前时间帧和前一时间帧中被缩减参数译码,基于核心信号和所述至少一个混合参数产生音频信号的n通道表示。
24.根据权利要求22或23所述的方法,还包括以下步骤:
响应于当前时间帧是离散译码时间帧集合中的第一时间帧或者当前时间帧是离散译码时间帧集合之后的第一时间帧,根据下混规范基于输入信号生成m通道下混信号。
25.根据权利要求24所述的方法,其中,所述输入信号的其中所述输入信号通过缩减参数译码表示音频信号的每个时间帧包括对于给定时间帧中的非起始点的所述至少一个混合参数的值,所述方法还包括以下步骤:
响应于所述输入信号在当前时间帧中被离散译码并且在前一时间帧中被缩减参数译码,基于所述下混信号并且基于所述至少一个混合参数的与前一时间帧相关联的至少一个值来产生音频信号的n通道表示,并且在当前时间帧期间转变为基于所述n个离散编码通道推导音频信号。
26.根据权利要求22到25中任一项所述的方法,其中,所述输入信号的其中所述输入信号通过缩减参数译码表示音频信号的每个时间帧包括对于给定时间帧中的非起始点的所述至少一个混合参数的值,所述方法还包括以下步骤:
响应于当前时间帧是缩减参数译码时间帧集合中的第一时间帧,向后外插所接收的至少一个混合参数的值,直到当前时间帧的开始为止。
27.一种用于对分割为时间帧的n通道音频信号进行编码的编码系统(200),其中,所述编码系统适于输出比特流(P),所述比特流在给定时间帧中根据选自以下组的译码机制表示所述音频信号,所述组包含:
b)使用n个离散编码通道的离散译码;和
c)缩减参数译码
所述编码系统包括:
选择器(230),适于对于给定时间帧选择哪个编码机制将用于表示音频信号;和
参数分析级(240),能够操作为基于音频信号的n通道表示并且根据下混规范来输出将由输出的比特流在缩减参数译码机制中编码的m通道核心信号(X)和至少一个混合参数(α),其中,n>m≥1。
28.根据权利要求27所述的编码系统,其中,该译码机制的组还包括:
a)参数译码,
其中,在参数译码机制和离散译码机制中使用n通道信号格式,并且在缩减参数译码机制中使用m通道信号格式。
29.一种音频发布系统,所述音频发布系统包括根据权利要求27或28所述的编码系统和根据权利要求1至21中任一项所述的解码系统,所述编码系统和所述解码系统通信地连接,并且所述编码系统和所述解码系统各自的下混规范是相同的。
30.一种将n通道音频信号编码为比特流(P)的方法,所述方法包括以下步骤:
接收所述音频信号的n通道表示;
从以下组选择要用于在给定时间帧中表示所述音频信号的译码机制,所述组包括:
b)使用n个离散编码通道的离散译码;和
c)缩减参数译码,
响应于通过缩减参数译码对所述音频信号进行编码的决定,基于所述音频信号的n通道表示并且根据下混规范来形成比特流,所述比特流对m通道核心信号(X)和至少一个混合参数(α)进行编码,其中,n>m≥1;和
响应于通过离散译码对所述音频信号进行编码的决定,输出通过n个离散编码通道对所述音频信号进行编码的比特流。
31.一种包括计算机可读介质的计算机程序产品,所述计算机可读介质具有用于执行根据权利要求22至26和30中任一项所述的方法的指令。
32.一种根据前述任一项权利要求所述的装置或方法,其中,n=6,m=2。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261659602P | 2012-06-14 | 2012-06-14 | |
US61/659,602 | 2012-06-14 | ||
US201261713025P | 2012-10-12 | 2012-10-12 | |
US61/713,025 | 2012-10-12 | ||
PCT/EP2013/062340 WO2013186344A2 (en) | 2012-06-14 | 2013-06-14 | Smooth configuration switching for multichannel audio rendering based on a variable number of received channels |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104380376A true CN104380376A (zh) | 2015-02-25 |
CN104380376B CN104380376B (zh) | 2017-03-15 |
Family
ID=48626053
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380030996.4A Active CN104364843B (zh) | 2012-06-14 | 2013-06-14 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
CN201380031015.8A Active CN104380376B (zh) | 2012-06-14 | 2013-06-14 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201380030996.4A Active CN104364843B (zh) | 2012-06-14 | 2013-06-14 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US9552818B2 (zh) |
EP (2) | EP2862168B1 (zh) |
JP (2) | JP6133413B2 (zh) |
CN (2) | CN104364843B (zh) |
WO (2) | WO2013186344A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919108A (zh) * | 2017-03-23 | 2017-07-04 | 南京富岛信息工程有限公司 | 一种红外热轴音频通道信号测量方法 |
CN113539286A (zh) * | 2020-06-09 | 2021-10-22 | 深圳声临奇境人工智能有限公司 | 音频装置、音频系统和音频处理方法 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5581449B2 (ja) * | 2010-08-24 | 2014-08-27 | ドルビー・インターナショナル・アーベー | Fmステレオ無線受信機の断続的モノラル受信の隠蔽 |
JP6224850B2 (ja) | 2014-02-28 | 2017-11-01 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 会議における変化盲を使った知覚的連続性 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
WO2017207465A1 (en) * | 2016-06-01 | 2017-12-07 | Dolby International Ab | A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
US10210874B2 (en) * | 2017-02-03 | 2019-02-19 | Qualcomm Incorporated | Multi channel coding |
CN111210837B (zh) * | 2018-11-02 | 2022-12-06 | 北京微播视界科技有限公司 | 音频处理方法和装置 |
WO2020216459A1 (en) * | 2019-04-23 | 2020-10-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for generating an output downmix representation |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6205430B1 (en) * | 1996-10-24 | 2001-03-20 | Stmicroelectronics Asia Pacific Pte Limited | Audio decoder with an adaptive frequency domain downmixer |
CN1758338A (zh) * | 2001-07-10 | 2006-04-12 | 编码技术股份公司 | 用于低比特率音频编码应用的高效可标度参数立体声编码 |
CN101479786A (zh) * | 2006-09-29 | 2009-07-08 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
US20110129092A1 (en) * | 2008-07-30 | 2011-06-02 | France Telecom | Reconstruction of multi-channel audio data |
CN102099856A (zh) * | 2008-07-17 | 2011-06-15 | 弗劳恩霍夫应用研究促进协会 | 具有可切换旁路的音频编码/解码方案 |
US20120002818A1 (en) * | 2009-03-17 | 2012-01-05 | Dolby International Ab | Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE523112C2 (sv) | 2001-07-05 | 2004-03-30 | Anoto Ab | Förfaringssätt för kommunikation mellan en användarenhet som har möjlighet att läsa information från en yta, och servrar som exekverar tjänster som stöder användarenheten |
WO2003069954A2 (en) | 2002-02-18 | 2003-08-21 | Koninklijke Philips Electronics N.V. | Parametric audio coding |
EP1394772A1 (en) | 2002-08-28 | 2004-03-03 | Deutsche Thomson-Brandt Gmbh | Signaling of window switchings in a MPEG layer 3 audio data stream |
EP1427252A1 (en) | 2002-12-02 | 2004-06-09 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for processing audio signals from a bitstream |
US7519538B2 (en) * | 2003-10-30 | 2009-04-14 | Koninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
CN1890712A (zh) | 2003-12-04 | 2007-01-03 | 皇家飞利浦电子股份有限公司 | 音频信号编码 |
RU2391714C2 (ru) | 2004-07-14 | 2010-06-10 | Конинклейке Филипс Электроникс Н.В. | Преобразование аудиоканалов |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US8917874B2 (en) * | 2005-05-26 | 2014-12-23 | Lg Electronics Inc. | Method and apparatus for decoding an audio signal |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
CA2620627C (en) * | 2005-08-30 | 2011-03-15 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
US7987097B2 (en) * | 2005-08-30 | 2011-07-26 | Lg Electronics | Method for decoding an audio signal |
JP5587551B2 (ja) | 2005-09-13 | 2014-09-10 | コーニンクレッカ フィリップス エヌ ヴェ | オーディオ符号化 |
US7761289B2 (en) | 2005-10-24 | 2010-07-20 | Lg Electronics Inc. | Removing time delays in signal paths |
EP2118887A1 (en) | 2007-02-06 | 2009-11-18 | Koninklijke Philips Electronics N.V. | Low complexity parametric stereo decoder |
RU2010125221A (ru) * | 2007-11-21 | 2011-12-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. (KR) | Способ и устройство для обработки сигнала |
JP5122681B2 (ja) | 2008-05-23 | 2013-01-16 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ |
WO2010003532A1 (en) | 2008-07-11 | 2010-01-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
CA2730315C (en) | 2008-07-11 | 2014-12-16 | Jeremie Lecomte | Audio encoder and decoder for encoding frames of sampled audio signals |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
WO2010097748A1 (en) | 2009-02-27 | 2010-09-02 | Koninklijke Philips Electronics N.V. | Parametric stereo encoding and decoding |
TWI441164B (zh) | 2009-06-24 | 2014-06-11 | Fraunhofer Ges Forschung | 音訊信號解碼器、用以將音訊信號解碼之方法、以及運用級聯音訊物件處理級之電腦程式 |
TWI433137B (zh) | 2009-09-10 | 2014-04-01 | Dolby Int Ab | 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法 |
EP3779975B1 (en) | 2010-04-13 | 2023-07-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and related methods for processing multi-channel audio signals using a variable prediction direction |
MY156027A (en) | 2010-08-12 | 2015-12-31 | Fraunhofer Ges Forschung | Resampling output signals of qmf based audio codecs |
WO2012026092A1 (ja) | 2010-08-23 | 2012-03-01 | パナソニック株式会社 | 音声信号処理装置及び音声信号処理方法 |
-
2013
- 2013-06-14 EP EP13728754.6A patent/EP2862168B1/en active Active
- 2013-06-14 WO PCT/EP2013/062340 patent/WO2013186344A2/en active Application Filing
- 2013-06-14 JP JP2015516625A patent/JP6133413B2/ja active Active
- 2013-06-14 CN CN201380030996.4A patent/CN104364843B/zh active Active
- 2013-06-14 CN CN201380031015.8A patent/CN104380376B/zh active Active
- 2013-06-14 US US14/406,670 patent/US9552818B2/en active Active
- 2013-06-14 WO PCT/EP2013/062339 patent/WO2013186343A2/en active Application Filing
- 2013-06-14 US US14/406,648 patent/US9601122B2/en active Active
- 2013-06-14 JP JP2015516626A patent/JP6163545B2/ja active Active
- 2013-06-14 EP EP13728755.3A patent/EP2862165B1/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6205430B1 (en) * | 1996-10-24 | 2001-03-20 | Stmicroelectronics Asia Pacific Pte Limited | Audio decoder with an adaptive frequency domain downmixer |
CN1758338A (zh) * | 2001-07-10 | 2006-04-12 | 编码技术股份公司 | 用于低比特率音频编码应用的高效可标度参数立体声编码 |
CN101887724A (zh) * | 2001-07-10 | 2010-11-17 | 编码技术股份公司 | 用于低比特率音频编码应用的高效可标度参数立体声编码 |
CN101479786A (zh) * | 2006-09-29 | 2009-07-08 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
CN102099856A (zh) * | 2008-07-17 | 2011-06-15 | 弗劳恩霍夫应用研究促进协会 | 具有可切换旁路的音频编码/解码方案 |
US20110129092A1 (en) * | 2008-07-30 | 2011-06-02 | France Telecom | Reconstruction of multi-channel audio data |
US20120002818A1 (en) * | 2009-03-17 | 2012-01-05 | Dolby International Ab | Advanced Stereo Coding Based on a Combination of Adaptively Selectable Left/Right or Mid/Side Stereo Coding and of Parametric Stereo Coding |
Non-Patent Citations (1)
Title |
---|
MAX NEUENDORF ET AL.: "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types", 《AES CONVENTION 132》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919108A (zh) * | 2017-03-23 | 2017-07-04 | 南京富岛信息工程有限公司 | 一种红外热轴音频通道信号测量方法 |
CN113539286A (zh) * | 2020-06-09 | 2021-10-22 | 深圳声临奇境人工智能有限公司 | 音频装置、音频系统和音频处理方法 |
CN113539286B (zh) * | 2020-06-09 | 2024-06-04 | 深圳声临奇境人工智能有限公司 | 音频装置、音频系统和音频处理方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2862168A2 (en) | 2015-04-22 |
WO2013186344A2 (en) | 2013-12-19 |
US9552818B2 (en) | 2017-01-24 |
JP6133413B2 (ja) | 2017-05-24 |
US20150187361A1 (en) | 2015-07-02 |
CN104364843B (zh) | 2017-03-29 |
JP6163545B2 (ja) | 2017-07-12 |
US9601122B2 (en) | 2017-03-21 |
JP2015525375A (ja) | 2015-09-03 |
WO2013186343A2 (en) | 2013-12-19 |
WO2013186343A3 (en) | 2014-02-06 |
WO2013186344A3 (en) | 2014-02-06 |
JP2015525532A (ja) | 2015-09-03 |
EP2862165B1 (en) | 2017-03-08 |
EP2862168B1 (en) | 2017-08-09 |
EP2862165A2 (en) | 2015-04-22 |
CN104364843A (zh) | 2015-02-18 |
CN104380376B (zh) | 2017-03-15 |
US20150154970A1 (en) | 2015-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104380376A (zh) | 基于可变数量的接收通道的用于多通道音频呈现的平滑配置切换 | |
US8065136B2 (en) | Multi-channel encoder | |
US11170791B2 (en) | Systems and methods for implementing efficient cross-fading between compressed audio streams | |
US9626975B2 (en) | Audio signal processor for processing encoded multi-channel audio signals and method therefor | |
CN101223578B (zh) | 多通道音频的编码和解码 | |
JP7413418B2 (ja) | 信号をインタリーブするためのオーディオ復号器 | |
MXPA06011361A (es) | Codificador de canales multiples. | |
US9460723B2 (en) | Error concealment strategy in a decoding system | |
CN105556597A (zh) | 多声道音频内容的编码 | |
US20220328051A1 (en) | Systems and methods for implementing efficient cross-fading between compressed audio streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |