CN107112024A - 音频信号的编码和解码 - Google Patents
音频信号的编码和解码 Download PDFInfo
- Publication number
- CN107112024A CN107112024A CN201580057771.7A CN201580057771A CN107112024A CN 107112024 A CN107112024 A CN 107112024A CN 201580057771 A CN201580057771 A CN 201580057771A CN 107112024 A CN107112024 A CN 107112024A
- Authority
- CN
- China
- Prior art keywords
- bit
- stream
- data set
- audio
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 213
- 239000012634 fragment Substances 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 67
- 239000000872 buffer Substances 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 100
- 238000004458 analytical method Methods 0.000 claims description 53
- 238000006243 chemical reaction Methods 0.000 claims description 42
- 238000004904 shortening Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 19
- 230000008521 reorganization Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013480 data collection Methods 0.000 claims description 14
- 238000013139 quantization Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000010183 spectrum analysis Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 11
- 238000003860 storage Methods 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000003139 buffering effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
- H04N21/2335—Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
音频信号(X)由被分割为帧的比特流(B)表示。音频处理系统(500)包括缓冲器(510)和解码部(520)。缓冲器将由N个相应帧(F1,F2,...,FN)携载的音频数据集(D1;D2,...,DN)结合成与第一帧速率对应以及与每帧的音频信号的第一采样数目对应的一个可解码音频数据集(D)。帧具有与每帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。解码部通过基于可解码音频数据集并使用与音频信号的第一采样数目对应的步幅来至少采用信号合成,将可解码音频数据集解码为音频信号的片段。
Description
相关申请的交叉引用
本申请要求于2014年10月24日提交的美国临时专利申请第62/068,187号的优先权,其全部内容通过引用并入本文中。
技术领域
本文中公开的本发明通常涉及音频信号的编码和解码,具体地,涉及具有针对高帧速率的有利缩放行为的音频比特流格式。
背景技术
现在可用的大多数商业应用中使用的音频和视频帧速率(或帧频率)遵循单独建立的行业标准,所述行业标准表现在记录和重放软件产品、硬件部件以及用于在通信方之间传输音频和视频的商定格式方面。音频帧速率通常特定于不同的编码算法,并且与特定音频采样频率(如44.1kHz和48kHz)相关联,所述特定采样频率与其各自地理区域中的视频帧速率29.97fps(NTSC)和25fps(PAL)一样众所周知;另外的标准视频帧速率包括23.98fps、24fps和30fps,或者以更广义的形式,24fps、25fps、30fps和(24,25,30)×1000/1001fps。尽管从模拟分发转换为数字分发,但尝试联合或协调音频帧速率尚未成功,这意味着音频帧(例如,适合于通过网络传输的分组或编码单元)通常与视听数据流中的整数个视频帧不对应。
由于时钟漂移或者当从不同的源接收到几个流以用于在服务器中公共处理、编辑或接合(splice)(广播站中经常遇到的情况)时,同步视听数据流的需求重复出现。通过在一个流中复制或丢弃视频帧(例如,准备用于接合的流)来改善两个视听数据流之间的视频-视频同步性的尝试通常在音频帧的大小与视频帧的大小不匹配的情况下导致该视听数据流内的音频-视频滞后。通常,即使与视频编辑对应的音频帧被删除或复制,延迟也会持续——至少一些非零持续时间。
以更多的处理为代价,可以通过在同步期间将音频临时解码为独立于帧划分的低级格式(例如,以原始采样频率解析的基带格式或脉冲编码调制(PCM))来创建更大的机动空间。然而,这样的解码模糊了元数据对特定音频片段的精确锚定,并且通过解码为“完美的”中间格式而造成不能补救的信息丢失。作为一个示例,动态范围控制(DRC)通常是模式依赖性的和设备依赖性的,因此仅能在实际重放时被用掉;在整个音频包中管理DRC特性的数据结构在同步发生之后难以如实地恢复。因此,如果经受复杂性约束,则经过连续解码、同步和编码阶段来保存这种类型的元数据的任务不是简单的任务。
可能出现与以下遗留基础结构有关的甚至更严重的困难,所述遗留基础结构被设计成携载两通道PCM信号,从而能够处理仅以编码形式的多通道内容。
在给定帧中的数据完全对应于记录和编码的视听信号中的同一时间段的意义上,帧同步地(frame-synchronously)对音频和视频数据进行编码确实更方便。在视听流的以帧方式的操纵(frame-wise manipulation)下,即在流中复制或拒绝一个或更多个完整的独立编码单元,这保留了音频-视频同步性。Dolby ETM音频格式可用的帧长度与视频帧长度相匹配。然而,在典型的比特率为448kbps的情况下,这种格式主要是为了专业生产的目的而设计的,硬介质像数字录像带作为其首选的存储形式。
在申请人的共同待决的尚未公布的申请PCT/EP2014/056848中,提出了与以下音频格式兼容的系统和方法:该音频格式作为帧同步视听格式的一部分,适合于分发目的。
需要作为帧同步视听格式的一部分、适用于分发目的的替选音频格式,并且该替选音频格式具有针对高帧速率的改进的缩放行为。还需要适合于其使用的编码和解码设备。
附图说明
在下文中,将更详细地并参照附图描述示例实施方式,其中:
图1是根据示例实施方式的用于将音频信号表示为音频比特流的音频处理系统的一般框图;
图2是根据示例实施方式的将音频信号表示为音频比特流的方法的流程图;
图3和图4示出了根据示例性实施方式的由图1所示的音频处理系统提供的音频比特流的示例;
图5是根据示例实施方式的用于重构由比特流表示的音频信号的音频处理系统的一般框图;
图6是根据示例实施方式的重构由比特流表示的音频信号的方法的流程图;以及
图7是根据示例实施方式的用于对表示音频信号的音频比特流进行转码的音频处理系统的一般框图。
所有附图是示意性的,并且通常仅示出为了阐明本发明所必需的部分,而其他部分可以省略或仅仅是建议的。
具体实施方式
如本文中使用的,音频信号可以是独立音频信号、视听信号或多媒体信号的音频部分、或者与元数据组合的音频信号中的任何音频信号。
I.概述-编码器侧
根据第一方面,示例实施方式提出了用于将音频信号表示为音频比特流的音频处理系统、方法和计算机程序产品。根据第一方面,所提出的系统、方法和计算机程序产品通常可以共享相同的特征和优点。
根据示例实施方式,提供了将音频信号表示为音频比特流的方法。该方法包括:通过使用对应于音频信号的第一采样数目的步幅(stride)(本文中称为基本步幅)对音频信号的片段至少执行信号分析,来将音频信号的片段编码为可解码音频数据集。所述可解码音频数据集对应于第一帧速率和每帧的音频信号的第一采样数目。该方法包括:将可解码音频数据集分成N个部分,其中N≥2;以及形成携载各个部分的N个比特流帧。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。该方法包括:输出比特流,该比特流被分割成包括所形成的N个比特流帧的比特流帧。
在视听数据流中,音频帧和视频帧可以同步,并且可以具有相等的持续时间,例如有助于与接合或时钟漂移的补偿有关的帧丢弃或帧复制。为了保持用于较高视频帧速率的视听数据流中的音频-视频同步性,也可以增加音频帧速率。然而,虽然通常使用预测编码来降低增加视频帧速率的比特率成本,但是由于音频内容可能在较短的时间尺度上变化,以及与视频内容相比,可能与连续帧之间的较低相关度相关联,所以对于音频帧而言,预测编码可能效率较低。为了本公开内容的目的,除非另有说明,否则视频帧对应于一个完整的屏幕图像(例如,序列中的静止图像),而音频帧原则上可以携载与具有任何持续时间的音频信号片段对应的音频数据。
本方法的与携载与第一(较低)帧速率相关联的可解码音频数据集一起提供第二(较高)帧速率的N个比特流帧的能力允许保持较高视频帧速率的视听同步性,而没有比特率消耗的相应增加。更确切地说,根据本方法以增加的帧速率进行操作通常产生以下比特率:该比特率低于在使用具有这样的较高帧速率的常规音频帧时所需的比特率。因此,本方法可以例如有助于视听数据流的接合和/或有助于对时钟漂移的补偿。
实际上,即使N个比特流帧仍然可能需要包含对于符合帧格式(参见下文)而言必需的附加的非有效载荷数据,可解码音频数据集可以对应于由第一(较低)帧速率的常规音频帧携载的数据量,与使用具有第二(较高)帧速率的常规音频帧相比,从编码器侧传输到解码器侧的总数据量可能会减少。特别地,以基本步幅而不是以较短的步幅(例如,对应于音频信号的第二采样数目)执行信号分析,减少了在解码器侧上再次合成音频信号所需的数据量,从而降低将数据传输至解码器侧所需的比特率。
例如,可以不考虑由比特流帧携载的音频数据来执行将音频比特流与其它比特流接合。换言之,执行接合的设备或单元无需意识到以下事实:可能需要所有N个比特流帧来重构音频信号的片段,以及例如将比特流帧视为好像它们能够被独立地解码一样。可以例如通过隐藏可能不允许成功解码的这样的比特流帧来在解码器侧上处理接合比特流中的可能丢失的比特流帧。
可解码音频数据集是指足以解码音频信号的片段的音频数据集。在以下意义上可解码音频数据集可以是完整的:(在解码器侧上可以使用例如非有效载荷数据如开销位、报头或前同步码来识别可解码音频数据集时)在没有与音频信号的片段相关的附加数据的情况下,可以执行对音频信号的片段的解码。
通过使用与音频信号的第一采样数目对应的基本步幅执行信号分析意味着:信号分析在音频信号的一定采样数目的分析窗口内执行,并且当音频信号的下一个片段要被编码时,分析窗口移动与基本步幅相同数目的采样。可以例如用交叠的分析窗口来执行信号分析,在这种情况下,分析窗口可以比基本步幅更长。在另一示例中,分析窗口的长度可以与基本步幅一致。
应当理解的是,如果音频信号是多通道信号,则基本步幅可以对应于以每通道为基础的音频信号的第一采样数目,而不是作为各个通道的采样的和。
对音频信号的片段进行编码的步骤可以包括例如多个子步骤,其中的一个或更多个子步骤可以包括以基本步幅进行信号分析。
可解码音频数据集可以表示与音频信号的第一采样数目对应的音频信号的片段。可解码音频数据集可以对应于具有第一帧速率的帧。
分割可解码音频数据集可以例如包括将所述可解码数据集划分成N个至少大小大致相等的部分,例如,包括至少大致相同数目的比特。
在以下意义上N个部分中的每个部分可以是不完整的音频数据集:在不访问其他部分的情况下,一个部分可能不足以解码音频信号的片段(或子片段)。
对于N个比特流帧中的每个比特流帧,N个比特流帧可以例如是比特流帧的最小集合,该最小集合包括该比特流帧,并且来自该最小集合的音频数据可以被结合以对该比特流帧所携载的数据所表示的音频信号的片段进行解码。换言之,N个比特流帧可以是携载最初包含在相同的可解码音频数据集中的数据的那些比特流帧。
在以下意义上比特流帧对应于第二(较高)帧速率:N个比特流帧一起表示与对应于第一(较低)帧速率的可解码音频数据集相同的音频信号片段。
类似地,在以下意义上比特流帧对应于每个比特流帧的第二(较小)采样数目:N个比特流帧一起表示也由可解码音频数据集所表示的第一(较高)数目的采样。
应当理解的是,比特流帧可以例如携载音频信号的片段的频谱表示的相应部分,并且比特流帧之一与音频信号的第二(较小)数目的采样之间可以不存在关连。
在以下意义上N个比特流帧可以例如符合音频格式:比特流帧可以携载有效载荷和元数据,在初级流水平上,元数据符合音频格式,例如,如在运动图像专家组(MPEG)初级流中所提供的音频格式。应当理解的是,虽然在这种意义上符合音频格式,但是由比特流帧携载的有效载荷和至少一些元数据可以例如具有与本领域已知的音频帧中的类型和/或格式不同的类型和/或格式。
携载N个部分的N个比特流帧可以例如被输出为比特流中的N个连续的比特流帧。
在示例实施方式中,执行信号分析可以包括以基本步幅执行:频谱分析;能量分析;和/或熵分析。可以例如执行具有基本步幅的频谱分析,以将音频信号的片段从时域转换到频域。可以执行例如具有基本步幅的能量分析,以用基于能量的编码技术对音频信号的片段进行编码。可以执行例如具有基本步幅的熵分析,以用基于熵分析的编码技术对音频信号进行编码。
在示例实施方式中,对音频信号的片段进行编码可以包括:应用以基本步幅作为变换步幅的加窗变换;和/或计算下混信号以及用于根据该下混信号对音频信号进行参数重构的参数,其中基于信号分析来计算所述参数。
加窗变换可以例如是谐波变换,如例如采用交叠的变换窗口的修正离散余弦变换(MDCT)。
音频信号可以是例如多通道音频信号,下混信号可以是比多通道信号具有更少的通道的信号,例如,在多通道信号的通道的线性组合时获得的信号。下混信号可以是例如多通道音频信号的单通道或立体声下混。
在示例实施方式中,该方法可以包括:将元数据包括在携载所述部分的N个比特流帧中的至少一个比特流帧中。元数据可以指示:能够从N个比特流帧所携载的部分获得完整的可解码音频数据集。
N个比特流帧中的每个比特流帧可以例如携载用于将其标识为属于一组N个比特流帧的元数据,其中能够从该一组N个比特流帧获得可解码音频数据集。在另一示例中,比特流帧之一可以携载标识所有N个比特流帧的元数据,而该组中的其他N-1个比特流帧不一定携载这样的元数据。比特流可以例如包括不携载这样的元数据的其他比特流帧。
元数据可以允许N个比特流帧相对于彼此位于非预定的位置。元数据可以允许N个比特流帧之间的其他比特流帧。元数据可以允许检测何时例如由于接合或帧丢弃而导致N个比特流帧中的一个或更多个比特流帧在比特流中丢失。
在示例实施方式中,音频比特流可以与视频帧流相关联。该方法还可以包括:响应于包括某个类型的视频帧的视频帧的流,通过以与音频信号的第二采样数目对应的缩短步幅对与视频帧时间相关的音频信号的片段至少执行信号分析,来将与视频帧时间相关的音频信号的片段编码为第二可解码音频数据集。第二可解码音频数据集可以对应于第二帧速率和每帧的音频信号的第二采样数目。该方法可以包括:将携载第二可解码音频数据集的比特流帧包括在比特流中。
视频帧的流可以例如在与某个类型的帧(如独立编码的视频帧)相邻的点处被接合,以便于在解码器侧上对接合的视频帧序列进行解码。将与所述某个类型的视频帧时间相关的音频信号的片段编码为与第二帧速率对应的第二可解码音频数据集的方法以及将携载第二可解码音频数据集的比特流帧包括在比特流中的方法允许在解码器侧上对音频信号的该片段独立解码。因此,在以下情况下本示例实施方式可以便于对音频信号的该片段的解码:例如由于将包括音频比特流和视频帧的流的数据的视听流与一个或更多个其他视听数据流接合而导致来自音频比特流的先前或随后的比特流帧可能在解码器侧上丢失。
与某个类型的视频帧时间相关的音频信号的片段可以例如对应于想要在显示器上再现所述某个类型的视频帧的时间点。
视频帧的流可以例如包括独立编码的帧和预测编码的帧(具有对相邻帧的单向或双向依赖),并且某个类型的视频帧可以例如是独立编码的视频帧。
该方法可以例如包括:检测视频帧的流中某个类型的视频帧的存在。可以例如经由来自视频编码器的信令来检测某个类型的视频帧的存在。
以缩短的步幅执行信号分析可以例如包括以缩短的步幅执行:频谱分析;能量分析;和/或熵分析。
对与某个类型的视频帧时间相关的音频信号的片段进行编码可以例如包括:应用具有缩短的步幅作为变换步幅的加窗变换;和/或计算下混信号以及用于根据该下混信号对音频信号进行参数重构的参数,其中基于具有缩短的步幅的信号分析来计算所述参数。
在示例实施方式中,该方法可以包括:响应于包括某个类型的视频帧的视频帧的流,通过对N个连续片段中的每个片段至少应用具有缩短的步幅的信号分析,来将音频信号的N个连续片段编码为相应的可解码音频数据集。与视频帧时间相关的片段可以是N个连续片段之一。该方法可以包括:将携载与N个连续片段相关联的相应的可解码音频数据集的比特流帧包括在比特流中。
比特流可以例如包括携载能够一起解码的音频数据的相应部分的一组N个连续比特流帧。因此,在解码器侧上,可以一次对比特流的N个比特流帧进行解码。在本示例实施方式中,例如无论所述某个类型的视频帧在视频帧流中的位置相对于一组N个连续比特流帧在比特流中的位置如何,当在相关联的视频帧流中出现所述某个类型的视频帧时,都可以保留一组N个比特流帧的结构。
根据示例实施方式,提供了用于通过音频比特流表示音频信号的音频处理系统。该音频处理系统包括:编码部,其被配置成通过使用与音频信号的第一采样数目对应的基本步幅对音频信号的片段至少执行信号分析,来将音频信号的片段编码为可解码音频数据集。所述可解码音频数据集对应于第一帧速率和每帧的音频信号的第一采样数目。该音频处理系统包括:重组部,其被配置成:将可解码音频数据集分成N个部分,其中N≥2;并且形成携载相应部分的N个比特流帧。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。重组部被配置成输出被分割为包括所形成的N个比特流帧的比特流帧的比特流。
根据示例实施方式,提供了包括用于执行第一方面的任何方法的计算机可读介质的计算机程序产品。
根据示例实施方式,可以认为N=2或N=4,即N个比特流帧可以是四个比特流帧中的两个比特流帧。
II.概述-解码器侧
根据第二方面,示例实施方式提出了音频处理系统以及用于重构由比特流表示的音频信号的方法和计算机程序产品。根据第二方面,所提出的系统、方法和计算机程序产品通常可以共享相同的特征和优点。此外,根据第一方面,上面针对系统、方法和计算机程序产品的特征提出的优点通常对根据第二方面的系统、方法和计算机程序产品的相应特征是有效的。
根据示例实施方式,提供了对被分割为比特流帧的比特流所表示的音频信号进行重构的方法。该方法包括:将由N个相应的比特流帧携载的音频数据集结合成与第一帧速率对应以及与每帧的音频信号的第一采样数目对应的可解码音频数据集,其中N≥2。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。该方法包括:通过基于可解码数据集并使用与音频信号的第一采样数目对应的步幅(在本文中称为基本步幅)来至少应用信号分析,将所述可解码音频数据集解码为音频信号的片段。
在视听数据流中,音频帧和视频帧可以同步,并且可以具有相同的持续时间,例如有助于与接合或对时钟漂移的补偿有关的帧丢弃或帧复制。为了保持用于较高视频帧速率的视听数据流中的音频-视频同步性,也可以增加音频帧速率。然而,虽然通常使用预测编码来降低增加视频帧速率的比特率成本,但是由于音频内容可能在较短的时间尺度上变化,以及与视频内容相比,可能与连续帧之间的较低相关度相关联,所以对音频帧而言,预测编码可能效率较低。也应当避免音频帧长度过短,原因是它可能限制变换步幅,从而对频率分辨率设置限制。
本方法的将由第二(较高)帧速率的N个相应比特流帧携载的多个音频数据集结合为与第一(较低)帧速率相关联的可解码音频数据集的能力允许保持较高视频帧速率的视听同步性,而没有比特率消耗的相应增加。更确切地说,在根据本方法以增加的帧速率操作时的比特率可以低于在使用具有这样的较高帧速率的常规音频帧时所需的比特率。本方法可以例如有助于视听数据流的接合和/或有助于对时钟漂移的补偿。
特别地,使用具有基本步幅的信号合成,而不是具有较短步幅(例如,对应于音频信号的第二采样数目)的合成,减少了合成音频信号所需的数据量,从而减少了用于传输数据所需的比特率。
在以下意义上结合成所述可解码音频数据集的多个数据集中的每个数据集可以是不完整的音频数据集:在不访问其他集合的情况下所述多个数据集中的每个数据集可能不足以对音频信号的片段(或子片段)进行解码。
对于N个比特流帧中的每个比特流帧,N个比特流帧可以例如是比特流帧的最小集合,该最小集合包括该比特流帧,并且来自该最小集合的音频数据可以被结合以对该比特流帧所携载的数据所表示的音频信号的片段进行解码。
由可解码音频数据集来表示足以对音频信号的片段进行解码的音频数据集。在以下意义上可解码音频数据集可以是完整的:在没有附加的音频数据的情况下可以执行对音频信号的片段的解码。
将音频数据集结合成可解码音频数据集可以例如包括级联数据集,例如通过在彼此之后布置表示相应数据集的比特。
通过使用具有与音频信号的第一采样数目对应的基本步幅的信号合成意味着:对与音频信号的某个采样数目对应的音频信号的片段执行信号合成,并且当音频信号的下一个片段要被重构时,信号合成处理针对以下范围产生输出:该范围已经被移动与基本步幅相同的采样数目。
具有基本步幅的信号合成可以例如直接基于所述可解码音频数据集来使用,或者可以间接地基于所述可解码音频数据集来使用,例如,基于通过处理所述可解码音频数据集而获得的音频数据或信号。
应当理解的是,如果音频信号是多通道信号,则基本步幅可以对应于以每通道为基础的音频信号的第一采样数目,而不是作为各个通道的采样的和。
对可解码音频数据集进行解码的步骤可以例如包括多个子步骤,所述多个子步骤中的一个或更多个子步骤可以包括以基本步幅进行信号合成。
在以下意义上N个比特流帧可以例如符合音频格式:比特流帧可以携载有效载荷和元数据,在初级流水平上,元数据符合音频格式,例如,如在运动图像专家组(MPEG)初级流中所提供的音频格式。应当理解的是,虽然在这种意义上符合音频格式,但是由比特流帧携载的有效载荷和至少一些元数据可以例如具有与本领域已知的音频帧中的类型和/或格式不同的类型和/或格式。
由编码器提供的比特流可能在到达解码器侧之前例如已经与另一个比特流接合。例如,N个比特流帧中的一个或更多个比特流帧可能例如在解码器侧处接收到的比特流中丢失。在一些示例实施方式中,音频处理方法因此可以包括检测在比特流中是否丢失了N个比特流帧中的一个或更多个比特流帧,其中根据所述N个比特流帧将音频数据集结合成完整的可解码集合。该方法可以例如包括:响应于检测到在比特流中丢失了N个比特流帧中的一个或更多个比特流帧,应用错误隐藏。错误隐藏可以例如包括用零来代替由一个或更多个所接收的比特流帧所携载的音频数据,并且可选地,应用渐弱和/或渐强。
在示例实施方式中,对可解码音频数据集进行解码可以包括:应用以基本步幅作为变换步幅的加窗变换;和/或基于从可解码音频数据集获得的下混信号和相关联的参数,以基本步幅执行音频信号的片段的参数重构。
加窗变换可以例如是谐波变换,如修正的离散余弦逆变换(MDCT)。
音频信号可以例如是多通道音频信号,下混信号可以是比多通道信号具有更少的通道的信号,例如,在多通道信号的通道的线性组合时获得信号。下混信号可以例如是多通道音频信号的单通道或立体声下混。可解码音频数据集可以例如包括下混信号和用于音频信号的片段的参数重构的相关联的参数。替代地,可解码音频数据集可以包括表示下混信号和相关联的参数的数据,例如,以量化形式,可以从该数据得到下混信号和相关联的参数。
在示例实施方式中,N个比特流帧可以是N个连续的比特流帧,来自所述N个比特流帧的音频数据集被结合成可解码音频数据集。使用连续帧来携载能够结合成可解码音频数据集的音频数据集可以有助于音频信号的解码,并且可以减少对元数据的需要,该元数据用于标识对于其要将数据结合成可解码音频数据集的比特流帧。使用连续帧来携载能够结合成可解码音频数据集的音频数据集可以减少对用于执行解码的缓冲数据的需要。
在示例实施方式中,该方法还可以包括:基于比特流中的至少一些比特流帧所携载的元数据来确定一组比特流帧,其中根据所述一组比特流帧来将不完整的音频数据集结合成可解码音频数据集。元数据可以例如由所有比特流帧携载,或者按一组N个比特流帧来说由一个或更多个比特流帧来携载,以用于标识该一组N个比特流帧。还可以设想以下实施方式,在所述实施方式中,比特流包括其他帧,该其它帧携载用于标识该一组N个帧的元数据,而N个比特流帧本身可以不携载这样的元数据。
在示例实施方式中,该方法还可以包括:检测比特流帧是否携载与第二帧速率对应的可解码音频数据集;以及通过基于与第二帧速率对应的可解码音频数据集并使用与第二采样数目对应的缩短的步幅来至少采用信号合成,将与第二帧速率对应的可解码音频数据集解码为音频信号的片段。
可以使用携载能够独立解码的音频数据集的比特流帧,例如以便于在接合之后和/或在帧丢弃/复制之后对比特流进行解码。本示例实施方式中的方法使用缩短的步幅进行解码的能力可以使其与有助于音频帧和视频帧的同步的比特流格式兼容。
对与第二帧速率对应的可解码音频数据集进行解码可以例如包括:应用以缩短的步幅作为变换步幅的加窗变换;和/或基于从第二可解码音频数据集获得的下混信号和相关联的参数以缩短的步幅执行音频信号的片段的参数重构。
对比特流帧是否携载与第二帧速率对应的可解码音频数据集的检测可以例如基于由比特流帧携载的元数据,或者基于比特流帧中不存在特定类型的元数据。
在示例实施方式中,对与第二帧速率对应的可解码音频数据集进行解码可以包括:提供延迟,使得对第二帧速率的一组N个连续比特流帧的解码同时完成,如同所述一组N个比特流帧中的比特流帧各自携载了要求结合成可解码音频数据集的音频数据集一样。本示例实施方式有助于使用基本步幅重构的音频信号的片段与使用缩短的步幅重构的音频信号的片段之间的平滑转换,并且可以提高由收听者感知的重放质量。
在示例实施方式中,可以通过缓冲与第二帧速率对应的至少一个可解码音频数据集或缓冲音频信号的至少一个片段来提供延迟。也就是说,可以通过以下操作来提供延迟:在执行信号合成之前缓冲与第二帧速率对应的一个或更多个可解码音频数据集,或者在执行信号合成之后缓冲根据与第二帧速率对应的一个或更多个可解码音频数据集而重构的音频信号的一个或更多个片段。
在示例实施方式中,比特流可以与视频帧的流相关联,该视频帧具有与第二帧速率一致的帧速率。在本示例实施方式中,比特流帧的帧速率可以与视频帧的帧速率一致,这可以有助于包括比特流和视频帧的流的视听数据流与其他视听数据流的接合和/或同步。
在示例实施方式中,基于与第一帧速率对应的可解码音频数据集对音频信号的片段进行解码可以包括:接收与对应于第一帧速率的可解码音频数据集相对应的量化频谱系数;执行逆量化,随后进行频率-时间转换,从而获得中间音频信号的表示;对该中间音频信号执行频域的至少一个处理步骤;以及将经处理的音频信号的采样率改变为目标采样频率,从而获得重构音频信号的时域表示。
目标采样频率可以是预定义的量,其能够由用户或系统设计者独立于到来的比特流的属性(例如,帧速率)来配置。
可以用预定的量化等级(或重构等级,或重构点)来执行逆量化。可以基于心理声学考虑,例如关于给定频率(或频带)的量化噪声不超过掩蔽阈值的这样的方式,来在编码器侧上选择量化等级。由于掩蔽阈值是频率依赖性的,因此从经济角度来看,优选地使编码器侧选择相对于频率不均匀的量化等级。因此,通常考虑产生最佳输出的特定物理采样频率来进行量化和去量化。
至少一个处理步骤可以例如与频带复制(SBR)和/或动态范围控制(DRC)相关联。
当在频域中执行至少一个处理步骤时,该方法可以包括:执行时间-频率转换,例如由正交镜像滤波器(QMF)分析滤波器组执行的,用以获得中间音频信号的频率表示;以及执行附加的频率-时间转换,例如,由QMF合成滤波器组执行的,用于将经处理的音频信号转换回时域。
在示例实施方式中,该方法可以接受与针对第二帧速率的至少两个不同值相关联、但与针对每帧的第二采样数目的公共值相关联的比特流。第二帧速率的各个值可以相差至多5%。频率-时间转换可以在以下功能部件中执行:所述功能部件被配置成使用加窗变换,所述加窗变换以针对基本步幅的公共预定值作为针对第二帧速率的至少两个不同值的变换步幅。
在视听数据流中,音频帧速率可以适应视频帧速率(例如,可以与视频帧速率一致),例如以便于音频-视频同步和/或接合。因此,本示例实施方式中的方法的接受具有不同帧速率的音频比特流的能力可以有助于视听数据流的音频-视频同步和/或接合。
在精密采样系统中,物理采样频率对应于音频帧的物理持续时间与其中包含的频谱系数的数目的比率。执行逆量化和频率-时间转换的功能部件不需要知道可解码音频数据集中的系数的物理持续时间,而只需知道所述系数属于同一可解码音频数据集。由于第二帧速率的值相差至多5%,因此所得到的内部采样频率将变化很小(以物理单位计),最终采样率转换中使用的重采样系数将接近1。因此,内部采样频率的非恒定性通常不会导致重构音频信号的任何可感知的劣化。换句话说,中间音频信号的轻微上采样或下采样(其被产生为在与目标采样频率略有不同的采样频率上最佳)在心理声学方面不显著。特别地,只要偏差有限,执行逆量化和/或频率-时间转换的功能部件的预期物理采样频率与其下游的任何部件所被调谐到的物理采样频率之间的一些不匹配量可以是可容忍的。
根据示例实施方式,提供了音频处理系统,该音频处理系统用于重构被分割成比特流帧的比特流所表示的音频信号。该音频处理系统包括:缓冲器,其被配置成将由N个相应的比特流帧携载的音频数据集结合成与第一帧速率对应以及与每帧的音频信号的第一采样数目对应的一个可解码音频数据集,其中N≥2。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。该系统包括解码部,该解码部被配置成通过基于可解码音频数据集并使用与音频信号的第一采样数目对应的基本步幅来至少采用信号合成,将可解码音频数据集解码为音频信号的片段。
根据示例实施方式,提供了包括用于执行第二方面的任何方法的计算机可读介质的计算机程序产品。
根据示例实施方式,可以认为N=2或N=4,即,N个比特流帧可以是四个比特流帧中的两个比特流帧。
III.概述-转码
根据第三方面,示例实施方式提出了音频处理系统以及用于对表示音频信号的音频比特流进行转码的方法和计算机程序产品。根据第三方面,所提出的系统、方法和计算机程序产品通常可以共享相同的特征和优点。此外,上面针对根据第一和/或方面的系统、方法和计算机程序产品的特征提出的优点通常对根据第三方面的系统、方法和计算机程序产品的相应特征是有效的。
根据示例实施方式,提供了对表示音频信号的音频比特流进行转码的方法。比特流包括与第一帧速率和每帧的音频信号的第一采样数目对应的可解码音频数据集的序列。该方法包括:从比特流中提取可解码音频数据集;将可解码音频数据集分成N个部分,其中N≥2;以及形成携载各个部分的N个比特流帧。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。之后,输出比特流,所述比特流被分割成包括所形成的N个比特流帧的比特流帧。可选地,在将结构(set up)分成N个部分的步骤之前执行处理可解码音频数据集的步骤。根据处理的性质,这可能要求最初将音频数据解码为变换表示或波形表示。
本方法的与携载与第一(较低)帧速率相关联的可解码音频数据集一起提供第二(较高)帧速率的N个比特流帧的能力允许保持较高视频帧速率的视听同步性,而没有比特率消耗的相应增加。在根据本方法以增加的帧速率进行操作时的比特率可以低于在使用具有这样的较高帧速率的常规音频帧时所需的比特率。因此,本方法可以例如有助于视听数据流的接合和/或有助于对时钟漂移的补偿。
该方法可以例如包括将可解码音频数据集的经处理版本分成N个部分。
根据示例实施方式,提供用于对表示音频信号的音频比特流进行转码的音频处理系统,其中比特流包括与第一帧速率和每帧的音频信号的第一采样数目对应的可解码音频数据集的序列。该音频处理系统包括:接收部,其被配置成从比特流中提取可解码音频数据集;可选地,以及处理部,其被配置成处理可解码音频数据集。该音频处理系统包括:重组部,其被配置成:将可解码音频数据集分成N个部分,其中N≥2;以及形成携载相应部分的N个比特流帧。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。重组部被配置成输出比特流,该比特流被分割成包括所形成的N个比特流帧的比特流帧。
根据示例实施方式,提供了包括用于执行第三方面的任何方法的计算机可读介质的计算机程序产品。
根据示例实施方式,可以认为N=2或N=4,即,N个比特流帧可以是四个比特流帧中的两个比特流帧。
IV.概述-计算机可读介质
根据第四方面,示例实施方式提出了表示音频信号的计算机可读介质。上面针对根据第一方面、第二方面和/或第三方面的系统、方法和计算机程序产品的特征提出的优点通常对根据第四方面的计算机可读介质的相应特征是有效的。
根据示例实施方式,提供了表示音频信号并且被分割成比特流帧的计算机可读介质。在计算机可读介质中,N个比特流帧携载能够结合成一个可解码音频数据集的相应的音频数据集,该一个可解码音频数据集与第一帧速率对应以及与每帧的音频信号的第一采样数目对应,其中N≥2。通过基于可解码音频数据集并使用与音频信号的第一采样数目对应的基本步幅来至少采用信号合成,能够将可解码音频数据集解码为音频信号的片段。比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率。第一采样数目是第二采样数目的N倍。
与携载与第一(较低)帧速率相关联的可解码音频数据集一起,第二(较高)帧速率的N个比特流帧允许保持较高视频帧速率的视听同步性,而没有比特率消耗的相应增加。更确切地说,在根据本计算机可读介质以增加的帧速率进行操作时的比特率可能低于在使用具有这样的较高帧速率的常规音频帧时所需的比特率。因此,本计算机可读介质可以例如有助于视听数据流的接合和/或有助于对时钟漂移的补偿。
携载能够结合成一个可解码音频数据集的各个音频数据集的N个比特流帧可以例如是N个连续的比特流帧。
在示例实施方式中,N个比特流帧中的至少一个比特流帧可以携载指示一组比特流帧的元数据,其中根据所述一组比特流帧将音频数据集结合成可解码音频数据集。
在示例实施方式中,计算机可读介质还可以包括携载第二音频数据集的比特流帧,通过基于第二音频数据集并使用与音频信号的第二采样数目对应的缩短的步幅来至少采用信号合成,能够将所述第二音频数据集解码成音频信号的片段。
根据本示例实施方式,可以使用携载能够独立解码的音频数据集的比特流帧,例如以便于在接合之后和/或在帧丢弃/复制之后对比特流进行解码。
根据示例实施方式,可以认为N=2或N=4,即,N个比特流帧可以是四个比特流帧中的两个比特流帧。
V.示例实施方式
图1是根据示例实施方式的用于将音频信号X表示为音频比特流B的音频处理系统100的一般框图。
音频处理系统100包括编码部110和重组部120。编码部110通过以与音频信号X的第一采样数目对应的基本步幅(basic stride)对音频信号X的片段至少执行信号分析来将音频信号X的片段编码为一个可解码音频数据集D。
通过以与音频信号X的第一采样数目对应的基本步幅执行信号分析意味着在音频信号X的一定数目的采样的分析窗口内执行信号分析,并且当音频信号X的下一个片段要被编码时,分析窗口移动与基本步幅相同的采样数目。信号分析可以例如用交叠的分析窗口来执行,在这种情况下,分析窗口可以比基本步幅更长。在另一示例中,分析窗口的长度可以与基本步幅一致。
在本文中,音频信号X作为多通道音频信号的例子。在本示例实施方式中,编码部110以基本步幅作为变换步幅向音频信号X的片段应用加窗变换(例如修改的离散余弦变换(MDCT)),以提供音频信号X的该片段的频域表示。在频域中,编码部110然后计算下混信号(例如,单通道或立体声下混)作为音频信号X的各个通道的线性组合。编码部110还根据下混信号来确定用于多通道音频信号X的参数重构的参数。在本示例实施方式中,可解码音频数据集D包括下混信号和用于参数重构的参数。
可以例如基于频域表示的信号分析来确定所述参数。该信号分析可以使用基本步幅,即,它可以使用与加窗变换相同的步幅。信号分析可以例如包括多通道音频信号X的通道的能量和/或协方差的计算。
也可以设想以下实施方式:其中基于具有与加窗变换不同步幅的信号分析来确定用于参数重构的参数。例如,可以设想以下实施方式:其中加窗变换使用比基本步幅更短的变换步幅,并且其中,基于具有基本步幅的信号分析来确定用于参数重构的参数。
可解码音频数据集D与第一帧速率(例如,30fps)对应,并且与每帧的音频信号的第一采样数目对应。也就是说,可解码数据集D表示音频信号的第一采样数目,并且与符合第一帧速率的帧对应。
重组部120将可解码音频数据集D分成N个部分D1,D2,...,DN,例如通过将可解码音频数据集D划分为N个至少大小大致相等的部分D1,D2,...,DN。N可以例如为2或4,或者可以是大于或等于2的任何整数。
在本示例实施方式中,可解码音频数据集D是第一采样数目的频域表示。因此,当可解码音频数据集D被分成大小相等的部分D1,D2,...,DN时,这些部分D1,D2,...,DN可以包括频域表示的各个子集,所述各个子集不一定与音频信号的第一采样数目的任何特定子集对应。因此,在以下意义上这些部分D1,D2,...,DN是不完整的音频数据集:在不访问所有N个部分D1,D2,...,NN的情况下,部分D1,D2,...,DN中没有一个可以被解码。
重组部120形成携载各个部分D1,D2,...,DN的N个比特流帧F1,F2...FN。由于N个比特流帧F1,F2...FN表示一个可解码音频数据集D,因此比特流帧F1,F2...FN具有第二帧速率,该第二帧速率是可解码音频数据集D的帧速率的N倍。类似地,尽管比特流帧F1,F2...FN本身不表示音频信号X的某些采样,但是N个比特流帧F1,F2...FN表示可解码音频数据集D,从而与每帧的第二采样数目对应,其中每帧的第一采样数目是每帧的第二采样数目的N倍。
重组部120输出被分割成比特流帧的比特流B,所述比特流帧包括所形成的N个比特流帧F1,F2...FN,作为N个连续的比特流帧。
除了音频数据的部分D1,D2,...,DN以外,比特流帧F1,F2...FN还包括各个元数据,μ1,μ2...,μN,所述各个元数据指示可解码音频数据集D能够从由比特流帧F1,F2...FN携载的部分D1,D2,...,DN获得。比特流帧F1,F2...FN中的每个比特流帧的元数据μ1,μ2...,μN可以例如指示可解码音频数据集D的哪个部分由该比特流帧携载,可选地,还可以指示携载可解码音频数据集D的其他N-1个部分的比特流帧。
图3和图4示出了由参照图1描述的根据示例实施方式的音频处理系统100提供的比特流的示例。
由图1所示的音频处理系统100输出的比特流B可以与视频帧的流相关联。在图3中,通过比特流帧的流A1和视频帧的流V1来举例表示比特流B,其中向右方向对应于增加时间t。
视频帧的流V1包括预测的编码视频帧P(包括仅取决于先前帧的帧和/或取决于先前帧和后续帧两者的所谓的双向帧)和独立编码的视频帧I。比特流帧的流A1包括具有与视频帧相同的帧速率和相同的持续时间的比特流帧,以便于与其它视听数据流的接合和/或同步。
在本示例实施方式中,N=4,音频处理系统100在携载可解码音频数据集的各个部分的四个比特流帧311、312、313、314的组310中提供比特流帧。然而,如果视频帧的流V1要与其他视频帧的流接合,则可以在与独立编码的视频帧I相邻的点处执行接合,以便于在接合之后对视频帧进行解码。为了保持音频-视频同步性,比特流帧的流A1可以在与视频帧的流V1相同的接合点处被接合。
为了便于在与另一比特流帧的流接合之后对比特流帧进行解码,音频处理系统100通过以下操作将与独立编码的视频帧I时间上相关的音频信号X的片段编码为可解码音频数据集:以与音频信号X的第二采样数目对应的缩短的变换步幅来应用信号分析,所述音频信号X的第二采样数目可以例如与独立编码的视频帧I的持续时间相对应。
类似于使用以基本步幅进行信号分析的编码,使用以缩短的步幅进行信号分析的编码可以包括:以缩短的步幅作为变换步幅来应用加窗变换(例如,MDCT),并且根据下混信号来确定用于音频信号的片段的参数重构的参数,其中所述参数基于以缩短的步幅进行的信号分析来确定。与缩短的步幅相关联的可解码音频数据集可以包括下混信号和参数。
音频处理系统100包括携载可解码音频数据集的比特流帧321,在不访问由其他比特流帧携载的音频数据的情况下,所述可解码音频数据集可以被独立解码。在比特流帧的流A1中,比特流帧321后面是携载可解码音频数据集的相应部分的四个比特流帧331、332、333、334的另一个组330。
音频处理系统100可以例如包括附加的编码部(图1中未示出),该附加的编码部被配置成通过以缩短的步幅应用信号分析来对音频信号X的片段进行编码。替代地,编码部110可以操作成使用缩短的步幅,重组部120可以操作成将携载与缩短的步幅相关联的可解码音频数据集的比特流帧321包括在比特流B中。
在参照图3描述的示例中,可以通过以下操作来处理在某些位置处独立编码的视频帧I的存在:将携载与缩短的变换步幅相关联的可解码音频数据集的比特流帧321包括在四个比特流帧的组310、330之间。然而,在至少一些示例情景中,独立编码的视频帧I的位置可能是先验未知的,和/或独立编码的视频帧I可能出现在与四个比特流帧的组之间的位置不匹配的位置处。这样的情景在图4中示出。
在图4中,通过比特流帧的另一个比特流A2和视频帧的另一个流V2来举例表示比特流B和相关联的视频帧的流,其中时间t向右传播。
与参照图3描述的示例情景类似,比特流帧由音频处理系统100以四个比特流帧的组410、430来提供。然而,一旦在视频帧流V2中检测到独立编码的视频帧I,则四个连续的比特流帧421、422、423、424由音频处理系统100对它们中的每一个使用缩短的步幅进行编码。根据视频帧的流V2中的独立编码视频帧I的位置,独立编码的视频帧I可以与使用缩短的变换步幅而提供的四个比特流帧421、422、423、424中的任何一个比特流帧对应。在本情景中,无论视频帧的流V2中的独立编码的视频帧I相对于使用基本步幅编码的比特流A2中的四个比特流帧的任何组的位置如何,都可以在与独立编码的视频帧I对应的比特流A2中的位置处提供独立编码的比特流帧423。在本情景中,无论在视频帧的流V2中是否存在独立编码的视频帧I,都将比特流帧组织成四个比特流帧的组。
图2是根据示例实施方式的由音频比特流表示音频信号的方法200的流程图。在本文中,在此通过由参照图1描述的音频编码系统100执行的方法来举例说明方法110。
方法200包括检测210视频帧的流V1的当前帧是否被独立编码。如果当前帧未被独立编码,由流程图中的N指示,则方法200继续进行以下操作:通过至少使用具有基本步幅的信号分析来将音频信号X的片段编码220为可解码音频数据集D;将可解码音频数据集D划分230成N个部分D1,D2,...,DN;形成240携载各个部分D1,D2,...,DN的N个比特流帧F1,F2...FN;以及将所形成的比特流帧F1,F2...FN输出250为比特流B的一部分。方法200然后返回到对音频信号X的其他片段进行编码。
另一方面,相反,如果视频帧的流V1的当前帧被独立编码,由流程图中的Y指示,则方法200继续进行以下操作:通过至少使用具有缩短的步幅的信号分析将音频信号X的片段编码260为可解码音频数据集;以及将携载第二可解码音频数据集的比特流帧包括270在比特流B中。该方法200然后返回到对音频信号X的其它片段进行解码。
图5是根据示例实施方式的用于重构由比特流表示的音频信号的音频处理系统500的一般框图。
在本示例实施方式中,通过由参照图1描述的音频处理系统100输出的比特流B来举例说明所述比特流。下面还描述了示例实施方式,在该示例实施方式中,音频处理系统500接收以下比特流:所述比特流在被音频处理系统500接收之前例如已经通过帧丢弃和/或帧复制而被修改。
音频处理系统500包括缓冲器510和解码部520。缓冲器510将由N个相应的比特流帧F1,F2...FN携载的音频数据集D1,D2,...,DN结合成与第一帧速率(例如,30fps)以及每帧的音频信号的第一采样数目相对应的一个可解码音频数据集D。如参照图1所述,比特流帧F1,F2,...,FN具有与每个比特流帧的音频信号的第二采样数目相对应的第二帧速率,其中第一采样数目是第二采样数目的N倍。缓冲器510使用由比特流帧携载的元数据μ1,μ2...,μN来识别携载要结合的音频数据集D1,D2,...,DN的帧F1,F2...FN。
解码部520通过以下操作将可解码音频数据集D解码为音频信号X的片段:基于可解码音频数据集D,采用具有参照图1所描述的基本步幅的信号合成,即,所述基本步幅与音频信号X的第一采样数目对应。音频处理系统500输出音频信号X的重构版本
如参照图1所述,音频信号X是多通道音频信号,可解码音频数据集D包括用于音频信号X的参数重构的下混信号和相关联的上混参数。解码部520使用基本步幅执行音频信号X的片段的频域表示的参数重构。然后,解码部520应用具有基本步幅作为变换步幅的加窗变换(例如,逆MDCT),以用于获得音频信号X的片段的时域表示。
还可以设想实施方式:其中以与加窗变换不同的步幅来执行参数重构。例如可以设想实施方式:其中加窗变换使用比基本步幅更短的变换步幅,并且其中,用基本步幅来执行参数重构。
如参照图3和图4所述,比特流B可以包括携载可解码音频数据集(即,通过使用缩短的步幅能够彼此独立解码的音频数据集)的比特流帧。音频处理系统500可以例如包括附加的解码部(图5中未示出),其被配置成使用缩短的步幅对可解码音频数据集进行解码。替代地,解码部520能够操作成使用缩短的步幅对这样的可解码音频数据集进行解码,缓冲器510能够操作成:在不将这样的可解码音频数据集与来自其他比特流帧的音频数据结合的情况下,将其递送至解码部520。
为了允许使用缩短的步幅解码的音频信号X的片段与使用基本步幅解码的音频信号X的片段之间的平滑切换,音频处理系统500可以例如提供延迟,使得对具有第二帧速率(即,使用缩短的步幅)的一组N个连续比特流帧的解码同时完成,如同比特流帧各自携载了要求结合成可解码音频数据集的音频数据集一样,以用于解码。缓冲器510可以例如通过在将它们传输至解码部520之前对可解码音频数据集进行缓冲来提供这样的延迟。替代地,在将音频信号X的重构片段提供为输出之前,解码部520可以通过对音频信号X的重构片段进行缓冲来提供所述延迟。
参照图1所述,由音频处理系统100输出的音频比特流B可能已经被修改,例如通过与其他比特流接合,或者通过在被参照图5所描述的音频处理系统500接收之前的帧丢弃/帧复制。
如参照图3所述,比特流帧可以具有与相关联的视频帧的流V1中的相应视频帧相同的持续时间。在视听数据流中使用这样的同步的音频流A1和视频流V1便于视听流的接合和/或同步。
执行接合的设备或部件可能不需要考虑在接合之前或之后布置哪些类型的比特流帧。相反,音频处理系统500可以用于处理以下情况:例如由于接合和/或帧丢弃/复制而导致在所接收的比特流B中丢失了携载可解码音频数据集D的各个部分D1,D2,...,DN的组的N个比特流帧F1,F2...FN中的一些比特流帧。音频处理系统500可以被配置成例如基于由各个比特流帧F1,F2...FN携载的元数据μ1,μ2...,μN来检测比特流帧丢失。
一旦检测到解码所需的比特流帧丢失,则音频处理系统500可以例如使用错误隐藏策略(error concealment strategy)以继续对音频信号X进行解码。隐藏策略可以例如包括:用无声(silence)(例如,用作为音频信号X的频域系数的零)来代替不完整的一组比特流帧(即,在所接收的比特流中丢失了来自该组的一个或更多个比特流帧)中的比特流帧所携载的音频数据。例如,音频处理系统500可以使用渐弱和/或渐强,以提供音频信号X的可解码片段与代替了音频信号X的不可解码片段的无声之间更平滑的转换,如听者所感知的。
在一些示例实施方式中,音频处理系统500可以被配置成:接受与针对第二帧速率的至少两个不同的预定值相关联、但与针对每帧的第二采样数目的公共值相关联的比特流。在表1中,这通过用于第二帧速率的值59.940fps和60.000fps以及用于每帧的第二采样数目的公共值768来举例表示。这样的帧速率对于与具有这些帧速率的视频流相关联的音频流可能是有用的。
在本示例中,第二帧率的值相差小于5%。音频处理系统500可以用于:对于第二帧速率的这两个不同值,使用用于基本步幅的相同值来对音频信号X进行解码。如申请人的共同未决的尚未公开的专利申请PCT/EP2014/056848中所述(特别参见章节“II.示例实施方式”中的描述了图1和表1的部分),由第二帧速率的差异引起的解码部520的内部采样频率的变化通常可能很小,以至于由听者感知的重构音频信号X的可接受重放质量仍然可以由音频处理系统500来提供。表1中的第二帧速率的值相差小于5%的另一示例由第二帧速率的值119.880fps和120.000fps以及每帧的第二采样数目的公共值384给出。
如表1所示,如果视频帧速率为60.00fps,则可以使用具有第二帧速率60.000fps的N=2个比特流帧来表示具有第一帧速率30.000fps的一个可解码音频数据集。类似地,如果视频帧速率为59.940fps,则可以使用具有第二帧速率59.940的N=2个比特流帧来表示具有第一帧速率29.970fps的一个可解码音频数据集。表1还示出了:如果视频帧速率为120fps,则可以使用具有第二帧速率120.000的N=4个比特流帧来表示具有第一帧速率30.000fps的一个可解码音频数据集。类似地,如果视频帧速率为119.880fps,则可以使用具有第二帧速率119.880的N=4个比特流帧来表示具有第一帧速率29.970fps的一个可解码音频数据集。
图6是根据示例实施方式的对由比特流表示的音频信号进行重构的音频处理方法600的流程图。在本文中,通过参照图5描述的音频处理系统500所执行的方法来举例说明方法600。
方法600包括检测610所接收的比特流帧是否携载与第二帧速率对应的可解码音频数据集。
如果所接收的比特流帧不携载与第二帧速率对应的可解码音频数据集,由流程图中的N指示,则方法600继续进行以下操作:将由N个相应的比特流帧F1,F2...FN携载的多个音频数据集D1,D2,...,DN结合620成与第一帧速率以及每帧的音频信号的第一采样数目对应的一个可解码音频数据集D;以及通过基于可解码数据集D、至少使用具有与音频信号X的第一采样数目对应的基本步幅的信号合成,来将可解码音频数据集D解码630成音频信号X的片段。
相反,如果所接收的比特流帧携载与第二帧速率对应的可解码音频数据集,由流程图中的Y指示,则方法600继续进行以下操作:通过至少使用与音频信号X的第二采样数目对应的缩短的步幅,将与第二帧速率对应的可解码音频数据集解码640成音频数据X的片段。该方法600然后返回到检测610下一个接收的比特流帧是否携载可解码音频数据集的步骤。
图7是根据示例实施方式的用于对表示音频信号的音频比特流进行转码的音频处理系统700的一般框图。
音频处理系统700包括接收部710、可选的处理部720和重组部730。接收部710接收包括可解码音频数据集D的序列的比特流B1,该可解码音频数据集D与第一帧速率以及例如参照图1描述的每帧的音频信号的第一采样数目相对应。接收部710从比特流B1提取可解码音频数据集D。
(可选的)处理部720处理可解码音频数据集D。根据处理的性质,这可能需要最初将音频数据解码为变换表示或波形表示;处理部分720然后可以执行序列信号合成、处理、信号分析。
重组部730将经处理的可解码音频数据集D分成N个部分D1,D2,...,DN,并且形成携载相应部分D1,D2,...,DN的N个比特流帧F1,F2...FN。在本示例实施方式中,重组部730执行与参照图1描述的音频处理系统100中的重组部120相同的操作。因此,比特流帧F1,F2...FN具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率,重组部730输出比特流B2,该比特流B2被分割成包括所形成的N个比特流帧F1,F2...FN的比特流帧。
由音频处理系统700输出的比特流B2可以例如与参照图1描述的由音频处理系统100输出的比特流B一致。由音频处理系统700接收的比特流B1可以例如是由本领域已知的音频编码器提供的30fps音频比特流。
应当理解的是,根据示例实施方式,参照图1和图5描述的比特流B、参照图3描述的比特流帧的比特流A1是表示音频信号X并且被分割成比特流帧的计算机可读介质的示例。
还应当理解的是,N可以是大于1的任何整数。
VI.等同物、扩展、替代和其他
尽管本公开内容描述并描绘了具体的示例实施方式,但是本发明不限于这些具体示例。在不脱离仅由所附权利要求限定的本发明的范围的情况下,可以对上述示例实施方式进行修改和变更。
在权利要求书中,“包括”一词并不排除其他要素或步骤,并且不定冠词“一”或“一个”不排除复数。在相互不同的从属权利要求中记载某些措施的事实并不表示这些措施的组合不能被有利地使用。权利要求中出现的任何附图标记不应被理解为限制其范围。
以上公开的设备和方法可以实现为软件、固件、硬件或其组合。在硬件实现中,在上述描述中提及的功能单元之间的任务划分不一定对应于物理单元划分;相反,一个物理部件可以具有多个功能,并且可以由协作的若干物理部件以分布式方式执行一个任务。某些部件或所有部件可以实现为由数字处理器、信号处理器或微处理器执行的软件,或者实现为硬件或专用集成电路。这样的软件可以分布在包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)的计算机可读介质上。如本领域技术人员所熟知的,术语计算机存储介质包括以用于存储信息(如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪速存储器或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储所需信息并且可以由计算机访问的任何其它介质。此外,技术人员众所周知,通信介质通常体现为调制数据信号(如载波)或其他传输机制中的计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。
Claims (25)
1.一种将音频信号(X)表示为音频比特流(B)的方法(200),所述方法包括:
通过使用与所述音频信号的第一采样数目对应的基本步幅对所述音频信号的片段至少执行信号分析,来将所述音频信号的所述片段编码(220)为一个可解码音频数据集(D),所述可解码音频数据集与第一帧速率对应,以及与每帧的音频信号的第一采样数目对应;
将所述可解码音频数据集划分(230)为N个部分(D1,D2,...,DN),其中,N≥2;
形成(240)携载相应部分的N个比特流帧(F1,F2,...,FN),所述比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率,其中,所述第一采样数目是所述第二采样数目的N倍;以及
输出(250)比特流,所述比特流被分割为包括先前形成的所述N个比特流帧的比特流帧。
2.根据权利要求1所述的方法,其中,执行信号分析包括以所述基本步幅执行以下中至少之一:
频谱分析,
能量分析,
熵分析。
3.根据权利要求1或2所述的方法,其中,编码所述音频信号的片段包括以下中至少之一:
应用加窗变换,所述加窗变换以所述基本步幅作为变换步幅;
计算下混信号以及用于根据所述下混信号对所述音频信号进行参数重构的参数,其中,基于所述信号分析来计算所述参数。
4.根据前述权利要求中的任一项所述的方法,还包括:
将元数据(μ1,μ2,...,μN)包括在携载所述部分的所述N个比特流帧中的至少一个比特流帧中,所述元数据指示能够根据所述N个比特流帧所携载的所述部分获得完整的可解码音频数据集。
5.根据前述权利要求中的任一项所述的方法,其中,所述音频比特流与视频帧(V1,V2)的流相关联,所述方法还包括:
响应于包括特定类型(I)的视频帧的视频帧流,通过以下操作将与所述视频帧时间相关的音频信号的片段编码(260)为第二可解码音频数据集:使用与所述音频信号的所述第二采样数目对应的缩短的步幅对与所述视频帧时间相关的所述音频信号的所述片段至少执行信号分析,所述第二可解码音频数据集与所述第二帧速率,以及与每帧的音频信号的第二采样数目对应;以及
将携载所述第二可解码音频数据集的比特流帧(321)包括(270)在所述比特流中。
6.根据权利要求5所述的方法,包括:
响应于包括所述类型的视频帧的视频帧流,通过以所述缩短的步幅对所述音频信号的N个连续片段中的每个片段至少应用信号分析,来将所述N个连续片段编码为相应的可解码音频数据集,其中,与所述视频帧时间相关的所述片段是所述N个连续片段中的一个片段;以及
将携载与所述N个连续片段相关联的相应的可解码音频数据集的比特流帧(421,422,423,424)包括在所述比特流中。
7.一种用于通过音频比特流(B)表示音频信号(X)的音频处理系统(100),所述音频处理系统包括:
编码部(110),所述编码部被配置成:通过使用与所述音频信号的第一采样数目对应的基本步幅对所述音频信号的片段至少执行信号分析,来将所述音频信号的所述片段编码为一个可解码音频数据集(D),所述可解码音频数据集与第一帧速率对应,以及与每帧的音频信号的第一采样数目对应;
重组部(120),所述重组部被配置成:
将所述可解码音频数据集划分为N个部分(D1,D2,...,DN),其中,N≥2;
形成携载相应部分的N个比特流帧(F1,F2,...,FN),所述比特流帧具有与每个比特流帧的所述音频信号的第二采样数目对应的第二帧速率,其中,所述第一采样数目是所述第二采样数目的N倍;以及
输出比特流,所述比特流被分割为包括先前形成的所述N个比特流帧的比特流帧。
8.一种对被分割为比特流帧的比特流(B)所表示的音频信号(X)进行重构的方法(600),所述方法包括:
将由N个相应的比特流帧(F1,F2,...,FN)携载的音频数据集(D1,D2,...,DN)结合成一个可解码音频数据集(D),所述一个可解码音频数据集与第一帧速率对应,以及与每帧的音频信号的第一采样数目对应,其中,N≥2,其中,所述比特流帧具有与每个比特流帧的所述音频信号的第二采样数目对应的第二帧速率,并且其中,所述第一采样数目是所述第二采样数目的N倍;以及
通过基于所述可解码数据集并使用与所述音频信号的第一采样数目对应的基本步幅来至少采用信号合成,将所述可解码音频数据集解码(630)为所述音频信号的片段。
9.根据权利要求8所述的方法,其中,解码所述可解码音频数据集包括以下中至少之一:
应用加窗变换,所述加窗变换以所述基本步幅作为变换步幅;
基于根据所述可解码音频数据集获得的下混信号和相关联的参数,以所述基本步幅执行所述音频信号的片段的参数重构。
10.根据权利要求8或9所述的方法,其中,所述N个比特流帧是N个连续的比特流帧,其中根据所述N个比特流帧来将音频数据集结合成所述可解码音频数据集。
11.根据权利要求8至10中的任一项所述的方法,还包括:
基于所述比特流中的比特流帧中的至少一些比特流帧所携载的元数据(μ1,μ2,...,μN)来确定一组比特流帧,其中根据所述一组比特流帧来将不完整的音频数据集结合成所述可解码音频数据集。
12.根据权利要求8至11中的任一项所述的方法,还包括:
检测(610)比特流帧是否携载与所述第二帧速率对应的可解码音频数据集;以及
通过基于与所述第二帧速率对应的所述可解码音频数据集并使用与所述第二采样数目对应的缩短的步幅来至少采用信号合成,将与所述第二帧速率对应的可解码音频数据集解码(640)成所述音频信号的片段。
13.根据权利要求12所述的方法,其中,对与所述第二帧速率对应的可解码音频数据集进行解码包括提供延迟,使得对具有所述第二帧速率的一组N个连续比特流帧的解码同时完成,如同所述一组N个比特流帧中的比特流帧各自携载了要求结合成可解码音频数据集的音频数据集一样。
14.根据权利要求13所述的方法,其中,通过缓冲与所述第二帧速率对应的至少一个可解码音频数据集或缓冲所述音频信号的至少一个片段来提供所述延迟。
15.根据权利要求8至14中的任一项所述的方法,其中,所述比特流与视频帧(V1,V2)的流相关联,所述视频帧具有与所述第二帧速率一致的帧速率。
16.根据权利要求8至15中的任一项所述的方法,其中,基于与所述第一帧速率对应的可解码音频数据集对所述音频信号的片段进行解码包括:
接收与对应于所述第一帧速率的可解码音频数据集相对应的量化频谱系数;
执行逆量化,随后执行频率-时间转换,从而获得中间音频信号的表示;
对所述中间音频信号执行频域的至少一个处理步骤;以及
将经处理的音频信号的采样率改变为目标采样频率,从而获得重构音频信号的时域表示。
17.根据权利要求16所述的方法,接受与针对所述第二帧速率的至少两个不同值相关联、但与针对每帧的所述第二采样数目的公共值相关联的比特流,所述第二帧速率的各个值相差至多5%,其中,所述频率-时间转换在功能部件中执行,所述功能部件被配置成使用加窗变换,所述加窗变换以针对基本步幅的公共预定值作为针对所述第二帧速率的所述至少两个不同值的变换步幅。
18.一种用于对被分割为比特流帧的比特流(B)所表示的音频信号(X)进行重构的音频处理系统(500),所述音频处理系统包括:
缓冲器(510),所述缓冲器被配置成将由N个相应的比特流帧(F1,F2,...,FN)携载的音频数据集(D1,D2,...,DN)结合成一个可解码音频数据集(D),所述一个可解码音频数据集与第一帧速率对应,以及与每帧的音频信号的第一采样数目对应,其中,N≥2,其中,所述比特流帧具有与每个比特流帧的所述音频信号的第二采样数目对应的第二帧速率,并且其中,所述第一采样数目是所述第二采样数目的N倍;以及
解码部(520),所述解码部被配置成:通过基于所述可解码音频数据集并使用与所述音频信号的所述第一采样数目对应的基本步幅来至少采用信号合成,将所述可解码音频数据集解码成所述音频信号的片段。
19.一种对表示音频信号(X)的音频比特流(B1)进行转码的方法,其中,所述比特流包括与第一帧速率对应以及与每帧的音频信号的第一采样数目对应的可解码音频数据集的序列,所述方法包括:
从所述比特流中提取可解码音频数据集(D);
将所述可解码音频数据集划分为N个部分(D1,D2,...,DN),其中,N≥2;
形成携载相应部分的N个比特流帧(F1,F2,...,FN),所述比特流帧具有与每个比特流帧的所述音频信号的第二采样数目对应的第二帧速率,其中,所述第一采样数目是所述第二采样数目的N倍;以及
输出比特流(B2),所述比特流被分割为包括先前形成的所述N个比特流帧的比特流帧。
20.一种用于对表示音频信号(X)的音频比特流(B1)进行转码的音频处理系统(700),其中,所述比特流包括与第一帧速率以及每帧的音频信号的第一采样数目对应的可解码音频数据集的序列,所述音频处理系统包括:
接收部(710),所述接收部被配置成从所述比特流中提取可解码音频数据集(D);以及
重组部(730),所述重组部被配置成:
将所述可解码音频数据集划分为N个部分(D1,D2,...,DN),其中,N≥2;
形成携载相应部分的N个比特流帧(F1,F2,...,FN),所述比特流帧具有与每个比特流帧的音频信号的第二采样数目对应的第二帧速率,其中,所述第一采样数目是所述第二采样数目的N倍;以及
输出比特流(B2),所述比特流被分割为包括先前形成的所述N个比特流帧的比特流帧。
21.一种包括计算机可读介质的计算机程序产品,所述计算机可读介质具有用于执行根据权利要求1-6、8-17以及19中的任一项所述的方法的指令。
22.一种表示音频信号(X)并且被分割为比特流帧的计算机可读介质(B,A1,A2),其中:
N个比特流帧(F1,F2,...,FN)携载相应的音频数据集(D1,D2,...,DN),所述相应的音频数据集能够结合成一个可解码音频数据集(D),所述一个可解码音频数据集与第一帧速率对应,以及与每帧的音频信号的第一采样数目对应,其中,N≥2;
通过基于所述可解码音频数据集并使用与所述音频信号的所述第一采样数目对应的基本步幅来至少采用信号合成,能够将所述可解码音频数据集解码成所述音频信号的片段;
所述比特流帧具有与每个比特流帧的所述音频信号的第二采样数目对应的第二帧速率;以及
所述第一采样数目是所述第二采样数目的N倍。
23.根据权利要求22所述的计算机可读介质,其中,所述N个比特流帧中的至少一个比特流帧携载元数据(μ1,μ2,...,μN),所述元数据指示一组比特流帧,其中根据所述一组比特流帧将音频数据集结合成所述可解码音频数据集。
24.根据权利要求22或23所述的计算机可读介质,还包括携载第二音频数据集的比特流帧(321),其中通过基于所述第二音频数据集并使用与所述音频信号的所述第二采样数目对应的缩短的步幅来至少采用信号合成,所述第二音频数据集能够被解码成所述音频信号的片段。
25.根据权利要求1-6、8-17以及19中的任一项所述的方法、根据权利要求7、18和20中的任一项所述的系统、根据权利要求21所述的计算机程序产品、或根据权利要求22-24中的任一项所述的计算机可读介质,其中,N=2或N=4。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462068187P | 2014-10-24 | 2014-10-24 | |
US62/068,187 | 2014-10-24 | ||
PCT/EP2015/074623 WO2016062869A1 (en) | 2014-10-24 | 2015-10-23 | Encoding and decoding of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107112024A true CN107112024A (zh) | 2017-08-29 |
CN107112024B CN107112024B (zh) | 2020-07-14 |
Family
ID=54345511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580057771.7A Active CN107112024B (zh) | 2014-10-24 | 2015-10-23 | 音频信号的编码和解码 |
Country Status (8)
Country | Link |
---|---|
US (1) | US10304471B2 (zh) |
EP (1) | EP3210206B1 (zh) |
JP (1) | JP6728154B2 (zh) |
KR (1) | KR102474541B1 (zh) |
CN (1) | CN107112024B (zh) |
ES (1) | ES2709274T3 (zh) |
RU (1) | RU2708942C2 (zh) |
WO (1) | WO2016062869A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179406A1 (zh) * | 2021-02-26 | 2022-09-01 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3107096A1 (en) * | 2015-06-16 | 2016-12-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Downscaled decoding |
CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
WO2019089341A1 (en) * | 2017-11-02 | 2019-05-09 | Bose Corporation | Low latency audio distribution |
US20200020342A1 (en) * | 2018-07-12 | 2020-01-16 | Qualcomm Incorporated | Error concealment for audio data using reference pools |
US11416208B2 (en) * | 2019-09-23 | 2022-08-16 | Netflix, Inc. | Audio metadata smoothing |
US11540030B2 (en) * | 2019-12-12 | 2022-12-27 | SquadCast, Inc. | Simultaneous recording and uploading of multiple audio files of the same conversation and audio drift normalization systems and methods |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0801392A2 (en) * | 1996-04-08 | 1997-10-15 | Pioneer Electronic Corporation | Information record medium, apparatus for recording the same and apparatus for reproducing the same |
CN1484756A (zh) * | 2001-11-02 | 2004-03-24 | ���µ�����ҵ��ʽ���� | 编码设备,解码设备以及音频数据分配系统 |
CN1902697A (zh) * | 2003-11-11 | 2007-01-24 | 科斯莫坦股份有限公司 | 用于数字音频信号和数字音频/视频信号的时标修改方法和通过使用该方法的数字电视信号的可变速度再现方法 |
CN101548294A (zh) * | 2006-11-30 | 2009-09-30 | 杜比实验室特许公司 | 提取视频和音频信号内容的特征以提供信号的可靠识别 |
CN101652810A (zh) * | 2006-09-29 | 2010-02-17 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
CN103621101A (zh) * | 2011-07-01 | 2014-03-05 | 杜比实验室特许公司 | 用于自适应音频系统的同步化和切换方法及系统 |
WO2014161990A1 (en) * | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio encoder and decoder |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6009236A (en) * | 1994-09-26 | 1999-12-28 | Mitsubishi Denki Kabushiki Kaisha | Digital video signal record and playback device and method for giving priority to a center of an I frame |
US6137834A (en) * | 1996-05-29 | 2000-10-24 | Sarnoff Corporation | Method and apparatus for splicing compressed information streams |
US6262776B1 (en) * | 1996-12-13 | 2001-07-17 | Microsoft Corporation | System and method for maintaining synchronization between audio and video |
US7031348B1 (en) * | 1998-04-04 | 2006-04-18 | Optibase, Ltd. | Apparatus and method of splicing digital video streams |
US7091968B1 (en) * | 1998-07-23 | 2006-08-15 | Sedna Patent Services, Llc | Method and apparatus for encoding a user interface |
US7096487B1 (en) * | 1999-10-27 | 2006-08-22 | Sedna Patent Services, Llc | Apparatus and method for combining realtime and non-realtime encoded content |
US6651252B1 (en) * | 1999-10-27 | 2003-11-18 | Diva Systems Corporation | Method and apparatus for transmitting video and graphics in a compressed form |
US6754271B1 (en) * | 1999-04-15 | 2004-06-22 | Diva Systems Corporation | Temporal slice persistence method and apparatus for delivery of interactive program guide |
US7254824B1 (en) * | 1999-04-15 | 2007-08-07 | Sedna Patent Services, Llc | Encoding optimization techniques for encoding program grid section of server-centric interactive programming guide |
US20060093045A1 (en) * | 1999-06-29 | 2006-05-04 | Roger Anderson | Method and apparatus for splicing |
US7464394B1 (en) * | 1999-07-22 | 2008-12-09 | Sedna Patent Services, Llc | Music interface for media-rich interactive program guide |
EP1226713B1 (en) * | 1999-10-27 | 2007-04-11 | Sedna Patent Services, LLC | Multiple video streams using slice-based encoding |
US9094727B1 (en) * | 1999-10-27 | 2015-07-28 | Cox Communications, Inc. | Multi-functional user interface using slice-based encoding |
US6678332B1 (en) * | 2000-01-04 | 2004-01-13 | Emc Corporation | Seamless splicing of encoded MPEG video and audio |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7471337B2 (en) * | 2004-06-09 | 2008-12-30 | Lsi Corporation | Method of audio-video synchronization |
SE0402651D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods for interpolation and parameter signalling |
US20070071091A1 (en) | 2005-09-26 | 2007-03-29 | Juh-Huei Lay | Audio and video compression for wireless data stream transmission |
US7809018B2 (en) * | 2005-12-16 | 2010-10-05 | Coding Technologies Ab | Apparatus for generating and interpreting a data stream with segments having specified entry points |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
KR20100061908A (ko) * | 2008-12-01 | 2010-06-10 | 엘지전자 주식회사 | 영상표시장치, 영상전송장치, 영상전송방법 및 기록매체 |
TW201032597A (en) * | 2009-01-28 | 2010-09-01 | Nokia Corp | Method and apparatus for video coding and decoding |
WO2011029984A1 (en) * | 2009-09-11 | 2011-03-17 | Nokia Corporation | Method, apparatus and computer program product for audio coding |
US20110293021A1 (en) * | 2010-05-28 | 2011-12-01 | Jayant Kotalwar | Prevent audio loss in the spliced content generated by the packet level video splicer |
WO2013086027A1 (en) * | 2011-12-06 | 2013-06-13 | Doug Carson & Associates, Inc. | Audio-video frame synchronization in a multimedia stream |
RU2602332C1 (ru) | 2013-01-21 | 2016-11-20 | Долби Лабораторис Лайсэнзин Корпорейшн | Перекодировка метаданных |
CN116665683A (zh) * | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
US9685163B2 (en) * | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
-
2015
- 2015-10-23 CN CN201580057771.7A patent/CN107112024B/zh active Active
- 2015-10-23 WO PCT/EP2015/074623 patent/WO2016062869A1/en active Application Filing
- 2015-10-23 EP EP15784396.2A patent/EP3210206B1/en active Active
- 2015-10-23 JP JP2017520943A patent/JP6728154B2/ja active Active
- 2015-10-23 ES ES15784396T patent/ES2709274T3/es active Active
- 2015-10-23 KR KR1020177010760A patent/KR102474541B1/ko active IP Right Grant
- 2015-10-23 RU RU2017117896A patent/RU2708942C2/ru active
- 2015-10-23 US US15/519,007 patent/US10304471B2/en active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0801392A2 (en) * | 1996-04-08 | 1997-10-15 | Pioneer Electronic Corporation | Information record medium, apparatus for recording the same and apparatus for reproducing the same |
CN1484756A (zh) * | 2001-11-02 | 2004-03-24 | ���µ�����ҵ��ʽ���� | 编码设备,解码设备以及音频数据分配系统 |
CN1902697A (zh) * | 2003-11-11 | 2007-01-24 | 科斯莫坦股份有限公司 | 用于数字音频信号和数字音频/视频信号的时标修改方法和通过使用该方法的数字电视信号的可变速度再现方法 |
CN101652810A (zh) * | 2006-09-29 | 2010-02-17 | Lg电子株式会社 | 用于处理混合信号的装置及其方法 |
CN101548294A (zh) * | 2006-11-30 | 2009-09-30 | 杜比实验室特许公司 | 提取视频和音频信号内容的特征以提供信号的可靠识别 |
CN103621101A (zh) * | 2011-07-01 | 2014-03-05 | 杜比实验室特许公司 | 用于自适应音频系统的同步化和切换方法及系统 |
WO2014161990A1 (en) * | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio encoder and decoder |
Non-Patent Citations (1)
Title |
---|
KIM J ET AL.: "Frame Splitting Scheme for Error-robust Audio Streaming over Packet-Switching Networks", 《COMMUNICATIONS SOCIETY》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179406A1 (zh) * | 2021-02-26 | 2022-09-01 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102474541B1 (ko) | 2022-12-06 |
JP2017532603A (ja) | 2017-11-02 |
ES2709274T3 (es) | 2019-04-15 |
EP3210206B1 (en) | 2018-12-05 |
RU2708942C2 (ru) | 2019-12-12 |
JP6728154B2 (ja) | 2020-07-22 |
EP3210206A1 (en) | 2017-08-30 |
CN107112024B (zh) | 2020-07-14 |
BR112017007833A2 (pt) | 2017-12-26 |
WO2016062869A1 (en) | 2016-04-28 |
RU2017117896A3 (zh) | 2019-08-13 |
RU2017117896A (ru) | 2018-11-26 |
US10304471B2 (en) | 2019-05-28 |
KR20170076671A (ko) | 2017-07-04 |
US20170243595A1 (en) | 2017-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1961351B (zh) | 可缩放的无损音频编解码器和创作工具 | |
CN107112024A (zh) | 音频信号的编码和解码 | |
TWI363563B (en) | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream | |
CN101189661B (zh) | 用于产生数据流和产生多通道表示的设备和方法 | |
US7974840B2 (en) | Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information | |
KR100818268B1 (ko) | 오디오 데이터 부호화 및 복호화 장치와 방법 | |
RU2380766C2 (ru) | Адаптивное остаточное аудиокодирование | |
CN1639984B (zh) | 数字信号编码方法、解码方法、编码设备、解码设备 | |
CN107430867B (zh) | 解码在至少一个填充元素中具有增强的频谱带复制元数据的音频位流 | |
US7328161B2 (en) | Audio decoding method and apparatus which recover high frequency component with small computation | |
JP4794448B2 (ja) | オーディオエンコーダ | |
US20060004566A1 (en) | Low-bitrate encoding/decoding method and system | |
US7991622B2 (en) | Audio compression and decompression using integer-reversible modulated lapped transforms | |
JP2006126826A (ja) | オーディオ信号符号化/復号化方法及びその装置 | |
CN107134280A (zh) | 多声道音频内容的编码 | |
US8086465B2 (en) | Transform domain transcoding and decoding of audio data using integer-reversible modulated lapped transforms | |
US9111524B2 (en) | Seamless playback of successive multimedia files | |
TWI241488B (en) | Method for reducing buffering demand of digital audio decoder | |
KR20070030878A (ko) | 무손실 오디오 부호화/복호화 방법 및 장치 | |
JP2003099095A (ja) | オーディオ符号化装置、方法、記録媒体及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |