CN117059111A - 多流音频译码 - Google Patents
多流音频译码 Download PDFInfo
- Publication number
- CN117059111A CN117059111A CN202311054538.6A CN202311054538A CN117059111A CN 117059111 A CN117059111 A CN 117059111A CN 202311054538 A CN202311054538 A CN 202311054538A CN 117059111 A CN117059111 A CN 117059111A
- Authority
- CN
- China
- Prior art keywords
- stream
- streams
- priority
- audio
- bit rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 57
- 230000005236 sound signal Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000872 buffer Substances 0.000 description 40
- 108091026890 Coding region Proteins 0.000 description 25
- 230000000875 corresponding effect Effects 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 13
- 238000009877 rendering Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明涉及多流音频译码。本发明提供了一种方法和装置。所述方法在音频编码器处接收音频数据的多个流;确定所述多个流中的每一流的优先级;将所述优先级指派到所述多个流中的每一流;及根据所述优先级编码所述多个流中的每一流的至少一部分。
Description
本申请是申请日为2018年6月26日、申请号为201880040059.X、发明名称为“多流音频译码”的发明专利申请的分案申请。
优先权主张
本申请案主张共同拥有的2017年7月7日申请的第62/529,770号美国临时专利申请案及2018年6月25日申请的第16/016,842号美国非临时专利申请案的优先权的权益,前述申请案中每一者的内容明确地以全文引用的方式并入本文中。
技术领域
本发明大体上涉及多个音频信号的编码。
背景技术
技术的进步己带来更小且更强大的计算装置。举例来说,多种便携式个人计算装置(包含例如移动及智能型手机的无线电话、平板计算机及膝上型计算机)体积小、重量轻且易于由用户携带。此些装置可经由无线网络传达语音及数据包。另外,许多此些装置并入额外功能,例如数字静态摄影机、数字摄像机、数字记录器及音频文件播放器。而且,此些装置可处理可执行指令,包含软件应用程序,例如可用以存取因特网的网络浏览器应用。因而,此些装置可包含显著计算能力。
计算装置可包含或可耦合到多个麦克风以接收音频信号。音频信号可根据特定音频格式经处理成音频数据流,例如二信道立体声格式、例如5.1或7.1格式的多信道格式、基于场景的音频格式,或一或多个其它格式。音频数据流可由经设计以根据音频格式编码及解码音频数据流的编码器进行编码,例如编码器/解码器(编码解码器)。因为针对特定应用提供各种益处的多种音频格式为可用的,所以此些计算装置的制造商可针对计算装置的增强型操作选择特定音频格式。然而,使用不同音频格式的装置之间的通信可由于音频格式之间缺少互操作性而受限。另外,在使用相容音频格式的装置之间的网络上传送的经编码音频数据的质量可归因于网络的有限发射带宽而降低。举例来说,音频数据可能必须在符合可用发射带宽的次优化位速率下进行编码,从而导致在接收装置处在播放期间精确地再生音频信号的能力降低。
发明内容
在特定实施方案中,一种方法包括在音频编码器处接收音频数据的多个流。所述方法包括确定所述多个流中的每一流的优先级,以及将所述优先级指派到所述多个流中的每一流。所述方法还包括根据所述优先级编码所述多个流中的每一流的至少一部分。
在另一特定实施方案中,一种装置包含经配置以基于所接收音频信号产生音频数据的多个流的音频处理器。所述装置还包括经配置以确定所述多个流中的每一流的优先级以及将所述优先级指派到所述多个流中的每一流的音频编码器。所述音频编码器还经配置以根据所述优先级编码所述多个流中的每一流的至少一部分。
在另一特定实施方案中,一种装置包含经配置以基于所接收音频信号产生音频数据的多个流的音频处理器。所述装置还包含经配置以将优先级指派到所述多个流中的每一流的音频编码器。所述音频编码器还经配置以基于所述多个流中的每一流的所述优先级确定用于编码所述多个流的置换序列,且根据所述置换序列编码所述多个流中的每一流的至少一部分。
在另一特定实施方案中,一种方法包含在音频编码器处接收音频数据的多个流,及将优先级指派到所述多个流中的每一流。所述方法包含基于所述多个流中的每一流的所述优先级确定用于编码所述多个流的置换序列。所述方法还包含根据所述置换序列编码所述多个流中的每一流的至少一部分。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由数个处理器内的一个处理器执行时使得所述处理器执行包含在所述音频编码器处接收音频数据的多个流的操作。所述操作还包含将优先级指派到所述多个流中的每一流,且基于所述多个流中的每一流的所述优先级确定用于编码所述多个流的置换序列。所述操作还包含根据所述置换序列编码所述多个流中的每一流的至少一部分。
在另一特定实施方案中,一种设备包含用于将优先级指派到音频数据的多个流中的每一流且用于基于所述多个流中的每一流的所述优先级确定用于编码所述多个流的置换序列的装置。所述设备还包含用于根据所述置换序列编码所述多个流中的每一流的至少一部分的装置。
在检阅整个申请案之后,本发明的其它实施方案、优势及特征将变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式及权利要求书。
附图说明
图1为包含用以执行多个流编码的沉浸式语音与音频服务(IVAS)编码解码器的系统的特定说明性实例的框图。
图2为包含图1的编码解码器的系统的另一特定实例的框图。
图3为可包含于图1的IVAS编码解码器中的组件的框图。
图4为说明可通过图1的IVAS编码解码器产生的输出位流帧格式的实例的图式。
图5为多流编码的方法的特定实例的流程图。
图6为用以执行多流编码的移动装置的特定说明性实例的框图。
图7为用以执行多流编码的基站的特定实例的框图。
具体实施方式
下文参看图式描述本发明的特定方面。在本说明书中,共同特征由共同参考编号指示。如本文所使用,各种术语仅仅用于描述特定实施方案的目的,且并不打算限制实施方案。举例来说,除非上下文另外明确指示,否则单数形式“一”、“一个”及“所述”打算同样包含复数形式。可进一步理解,术语“包括”及“包括着”可与“包含”或“包含着”互换使用。另外,应理解,术语“其中(wherein)”可与“在…的情况下(where)”互换使用。如本文中所使用,用以修饰元件(例如,结构、组件、操作等等)的序数术语(例如,“第一”、“第二”、“第三”等等)本身不指示元件关于另一元件的任何优先级或次序,而是仅将元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文所使用,术语“设定”指特定元件中的一或多者,且术语“多个”指特定元件中的多个元件(例如,两个或大于两个)。
在本发明中,例如“确定”、“计算”、“移位”、“调整”等的术语可用于描述如何执行一或多个操作。应注意,此些术语不应解释为限制性的且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”及“确定”可互换使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指主动地产生、计算或确定参数(或信号),或可指使用、选择或存取己(例如)由另一组件或装置产生的参数(或信号)。
本发明公开用以编码及解码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如,多个麦克风)同时及时地俘获多个音频信号。在一些实例中,通过多路复用若干同时或非同时记录的音频信道可合成地(例如,人工)产生多个音频信号(或多信道音频)。如说明性实例,音频信道的并行记录或多路复用可产生2信道配置(即,立体声:左及右)、5.1信道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)信道)、7.1信道配置、7.1+4信道配置、22.2信道配置或N信道配置。
图1描绘包含装置101的系统100的实例,所述装置具有耦合到前端音频处理器104的多个麦克风130。前端音频处理器104耦合到编码解码器102,例如沉浸式语音与音频服务(IVAS)编码解码器102。IVAS编码解码器102经配置以产生包含经由多个音频流从前端音频处理器104接收的经编码数据的位流126。IVAS编码解码器102包含流优先级模块110,其经配置以确定所接收音频流中的每一者的优先级配置且基于所确定优先级(例如,在感知上更重要、对场景而言更“关键”的声音、背景声音覆叠于场景中的其它声音上、相对于漫射性的方向性等)编码音频流以产生位流126。在另一实例实施例中,流优先级模块110可基于空间元数据124确定用于编码的优先级或置换序列。流优先级模块110也可被称作流配置模块或流预分析模块。确定音频流中的每一者的优先级配置且基于其优先级编码每一音频流使得IVAS编码解码器102能够分配不同位速率且使用不同译码模式、译码带宽。在实例实施例中,IVAS编码解码器102可相比具有较低优先级的流将更多位分配到具有较高优先级的流,从而导致更有效使用发射资源(例如,无线发射带宽),用于将位流126发送到接收装置。在另一实例实施例中,IVAS编码解码器102可针对较高优先级配置流编码达到超宽带(即,达到例如16kHz的带宽),同时针对较低优先级配置流仅编码达到宽带(即,达到例如8kHz的带宽)。
麦克风130包含第一麦克风106、第二麦克风107、第三麦克风108及第M麦克风109(M为正整数)。举例来说,装置101可包含移动电话,且麦克风106到109可定位在装置101的各种位置处,以实现俘获源自各种源的声音。为了说明,在麦克风130中的一或多者经定位以从用户俘获话音的特定实施方案中(例如,在电话呼叫或电话会议期间),麦克风130中的一或多者经定位以从其它源俘获音频(例如,在视频记录操作期间俘获三维(3D)音频),且麦克风130中的一或多者经配置以俘获背景音频。在特定实施方案中,作为说明性的非限制性实例,麦克风130中的两者或大于两者以阵列或其它配置布置,以实现例如回音消除或波束成形的音频处理技术。麦克风106到109中的每一者经配置以输出各别音频信号120到123。
前端音频处理器104经配置从麦克风130接收音频信号120到123,且处理音频信号120到123以产生多流格式化音频数据122。在特定实施方案中,作为说明性的非限制性实例,前端音频处理器104经配置以执行一或多个音频操作,例如回声抵消、噪声抑制、波束成形或其任何组合。
前端音频处理器104经配置以产生由音频操作产生的音频数据流,例如第一流131、第二流132及第N流133(N为正整数)。在特定实施方案中,流131到133包含脉冲码调制(PCM)数据,且具有与IVAS编码解码器102的输入格式相容的格式。
举例来说,在一些实施方案中,流131到133具有信道的数目“N”待译码为等于二的立体声格式。所述信道可相关或可不相关。装置101可支持两个或大于两个麦克风130,且前端音频处理器104可经配置以执行回声抵消、噪声抑制、波束成形或其一组合,以产生具有改进式信号噪声比(SNR)的立体声信号,而不需关于从麦克风130接收的原始立体声信号改变所产生立体声信号的立体声/空间质量。
在另一实施方案中,流131到133通过前端音频处理器104产生以具有基于立体混响(ambisonics)或基于场景的音频(SBA)的格式,其中信道可有时包含对应于声音场景的本征分解系数。在其它实施方案中,作为说明性的非限制性实例,通过前端音频处理器104产生流131到133以具有对应于多信道(MC)配置的格式,例如5.1或7.1环绕声配置。
在其它替代性实施方案中,可将音频流131到133提供到IVAS编码解码器102,其中己用不同于上文所说明之前端处理实例中的任一者的方式接收所述IVAS编码解码器。
在一些实施方案中,流131到133具有独立流(IS)格式,其中音频信号120到123中的两者或大于两者经处理以估计声源的空间特性(例如,方位角、仰角等)。音频信号120到123被映射到对应于声源的独立流,及对应空间元数据124。
在一些实施方案中,前端音频处理器104经配置以将优先级配置信息提供到IVAS编码解码器102,以指示流131到133中的一或多者的相对优先级或重要性。举例来说,当装置101通过用户在电话模式中操作时,与用户的话音相关联的特定流可通过前端音频处理器104指定为相较于输出到IVAS编码解码器102的其它流具有较高优先级。
IVAS编码解码器102经配置以编码多流格式化音频数据122以产生位流126〇IVAS编码解码器102经配置以使用IVAS编码解码器102内的一或多个编码器执行多流音频数据122的编码,例如用于话音的代数码激励线性预测(ACELP)编码器,及用于非话音音频的频域(例如,经修改离散余弦变换(MDCT))编码器。IVAS编码解码器102经配置以编码经由立体声格式、SBA格式、独立流(IS)格式、多信道格式、一或多个其它格式或其任何组合中的一或多者接收的数据。
流优先级模块110经配置以将优先级指派到多流格式化音频数据122中的每一流131到133。作为说明性的非限制性实例,流优先级模块110经配置以确定流中的每一者的优先级,此确定基于对应于所述流的信号的一或多个特性,例如信号能量、前景对背景、内容类型或熵。在流优先级模块110从前端音频处理器104接收流优先级信息(例如,所述信息可包含每一流的试验性的或初始位速率、流中的每一者的优先级配置或排序、基于场景分类的分组信息、流的采样率或带宽、其它信息或其一组合)的实施方案中,流优先级模块110可至少部分基于所接收流优先级信息将优先级指派给所述流131到133。参看图3更详细地描述音频流的优先级确定的说明性实例。
IVAS编码解码器102经配置以基于多个流中的每一者的优先级确定多个流的分析及编码序列(例如,多个流中的每一者的帧的编码序列)。在特定实施方案中,在编码具有较低优先级的流之前编码具有较高优先级的流。为了说明,在其它流的编码之前编码流131到133中具有最高优先级的流,且在编码其它流之后编码流131到133中具有最低优先级的流。
在一些实施方案中,IVAS编码解码器102经配置以相较于用于针对大多数帧编码具有较低优先级的流的位速率,使用较高位速率编码具有较高优先级的流。举例来说,可相较于用于编码低优先级流的相等大小部分(例如,帧)的数个位,使用两倍位来编码高优先级流的部分(例如,帧)。因为用于经编码流经由位流126的发射的整体位速率受到位流126的可用发射带宽的限制,所以用较高位速率编码较高优先级流提供较大数目个位以传递具有较高优先级流的信息,从而相较于通过传递具有较低优先级流的信息的较少数目个位所实现的较低准确度再生,在接收器处实现较高优先级流的较高准确度再生。
可针对所接收多流格式化音频数据122的每一会话或每一部分或“帧”执行优先级的确定。在特定实施方案中,每一流131到133包含在时间上与流131到133的其它流的帧对准或同步的帧序列。流优先级模块110可经配置以逐个帧处理流131到133。举例来说,流优先级模块110可经配置以接收流131到133中的每一者的第i个帧(其中i为整数),分析每一流131到133的一或多个特性以确定对应于所述第i个帧的流的优先级,基于经确定优先级产生用于编码每一流131到133的第i个帧的置换序列,及根据置换序列编码流131到133中的每一者的每一第i个帧。在编码流131到133的第i个帧之后,流优先级模块110继续处理流131到133中的每一者的下一帧(例如,帧i+1)(方法为基于第(i+1)个帧确定每一流的优先级),产生用于编码第(i+1)个帧的置换序列,及编码第(i+1)个帧中的每一者。参看图3更详细描述逐个帧流优先级确定及编码序列产生的另一实例。
在一些实施方案中,流优先级、置换序列及编码位速率为相互相依的,从而向具有较高优先级的流指派置换序列中的较早位置及较高位速率,且向具有较低优先级的流指派置换序列中的较晚位置及较低位速率。在其它实施方案中,置换序列可独立于位速率。举例来说,可向经估计为相对有效地可编码的(例如,可相对快速地编码、使用相对较少处理资源,或两者)的流指派置换序列中的第一位置,即使所述流具有相对较低优先级且在相对较低位速率下进行编码也如此,从而可通过IVAS编码解码器102相对快速且精确地确定保持用于编码且因此用于剩余流的分配的可用位速率。在实例实施方案中,流可从较高优先级的初始选择变为较低优先级,且相对应地,可基于逐个帧处理的源信号特性(例如,背景噪声)使用不同置换译码序列。作为另一实例,可向具有不确定编码估计(例如归因于流的先前帧中的编码速率的高度变化)的流指派置换序列中的第一位置,从而可精确地确定可用剩余位速率且因此确定用于其它流的位分配。因此,在一些实施方案中,具有较高位速率的流定位于置换序列中的较早处;在其它实施方案中,具有较低位速率的流定位于置换序列中的较早处;在一些实施方案中,具有相对较高编码变化性的流定位于置换序列中的较早处;且在其它实施方案中,具有相对较低编码变化性的流定位于置换序列中的较早处。IVAS编码解码器102可支持此些实施方案中的任一者或所有者,且可调整操作模式以在此些实施方案之间切换,例如基于哪个实施方案适合于音频流的给定帧的预测、基于编码音频流的先前帧的历史,或其一组合。
IVAS编码解码器102经配置以组合流131到133的经编码部分以产生位流126。在特定实施方案中,位流126具有帧结构,其中位流126的每一帧包含流131到133中的每一者的经编码帧。在说明性实例中,位流126的第i个帧包含流131到133中的每一者的经编码第i个帧,以及例如帧标头、流优先级信息或位速率信息、位置元数据等的元数据。参看图4进一步描述位流126的格式的说明性实例。
在操作期间,前端音频处理器104分别从M个麦克风106到109接收M个音频信号120到123,且执行前端处理以产生N个流131到133。在一些实施方案中,N等于M,但在其它实施方案中,N不等于M。举例来说,当来自麦克风106到109的多个音频信号经由波束成形组合成单一流时,M大于N。
流131到133的格式可基于麦克风106到109的位置、麦克风的类型或其一组合而确定。在一些实施方案中,流格式通过装置101的制造商进行配置。在一些实施方案中,流格式通过前端音频处理器104基于装置101的应用情境(例如,双向交谈式会议)控制或配置成IVAS编码解码器102。在其它状况下,在流式传输或交谈式通信使用状况的情况下,流格式也可在装置101与对应位流126接收端装置(例如,含有对位流126进行解码的IVAS解码器的装置)之间进行协商。在某些情形中,例如当流121到124具有独立流(IS)格式时,产生空间元数据124,且将其提供到IVAS编码解码器102。在其它格式(例如,立体声、SBA、MC)中,可从前端音频处理器104部分地导出空间元数据124。在实例实施例中,空间元数据可针对不同输入格式而不同,且也可嵌入于输入流中。
IVAS编码解码器102分析流131到133,且确定流131到133中的每一者的优先级配置。IVAS编码解码器102将较高位速率分配到具有最高优先级的流,且将较低位速率分配到具有较低优先级的流。IVAS编码解码器102基于优先级编码流131到133,且将所得经编码流数据组合以产生输出位流126。
确定音频流131到133中的每一者的优先级,且基于其优先级编码每一音频流使得IVAS编码解码器102能够将较高位速率分配到具有较高优先级的流,且将较低位速率分配到具有较低优先级的流。因为使用较高位速率编码信号实现在接收装置处的初始信号的较高准确度再生,所以可相较于再生例如背景噪声的较低优先级音频流的较低准确度,在例如话音或声学声音的更重要音频流的重构建期间在接收装置处获得较高准确度。因此,在将位流126发送到接收装置时更有效地使用发射资源。
尽管系统100说明为包含四个麦克风106到109(例如,M=4),但在其它实施方案中,系统100可包含不同数目个麦克风,例如两个麦克风、三个麦克风、五个麦克风或超过五个麦克风。尽管系统100说明为产生三个音频流131到133(例如,N=3),但在其它实施方案中,系统100可产生不同数目个音频流,例如两个音频流、四个音频流或超过四个音频流。尽管前端音频处理器104描述为提供空间元数据124以支持例如独立流(IS)格式的一或多个音频格式,但在其它实施方案中,前端音频处理器104可能不会将空间元数据提供到IVAS编码解码器102,例如前端音频处理器104并不提供显式空间元数据,而是合并于流自身中的实施,从而(例如)构建一个主要流及其它次要流以反映空间元数据。尽管系统100实施于单一装置101中,但在其它实施方案中,系统100的一或多个部分可实施于单独的装置中。举例来说,麦克风106到109中的一或多者可实施在耦合到前端音频处理器104的装置(例如,无线耳机)处,前端音频处理器104可实施于不同于IVAS编码解码器102但以通信方式耦合到所述IVAS编码解码器的装置中,或其一组合。
图2描绘系统200,其包含经由网络216耦合到接收编码解码器210(例如,IVAS编码解码器)的IVAS编码解码器102。呈现与双声化(binauralize)电路218耦合到接收编码解码器210的输出。IVAS编码解码器102耦合到交换器220或其它输入接口,其经配置以接收多个音频数据格式222中的一者中的音频数据的多个流。举例来说,作为说明性的非限制性实例,交换器220可经配置以从各种输入类型选择,包含具有多流立体声格式231的N=2音频流、具有SBA格式232(例如,N=4到49)的音频流、具有多信道格式233(例如,N=6(例如,5.1)到12(例如,7.1+4))的音频流,或具有独立流格式234(例如,N=1到8,加空间元数据)的音频流。尽管图2描绘特定说明性实例,但在其它实施方案中,音频数据的流中的一或多者具有其它性质。为了说明,具有独立流格式234的音频流可对应于N=1到4、N=1到12,或任何其它数目个音频流。在特定实施方案中,交换器220耦合到产生音频流的音频处理器,例如图1的前端音频处理器104,且可经配置以在输入类型当中或输入格式的组合中动态地选择(例如,运作中切换)。
IVAS编码解码器102包含耦合到核心编码器204的格式预处理器202。格式预处理器202经配置以执行一或多个预处理功能,例如降混(DMX)、解相关等。格式预处理器202的输出被提供到核心编码器204。核心编码器204包含图1的流优先级模块110,且经配置以确定每一所接收音频流的优先级并编码音频流中的每一者,从而(例如)使用较高位速率、经扩展带宽编码较高优先级流;及(例如)使用较低位速率、经缩减带宽编码较低优先级流。
接收编码解码器210经配置以经由网络216从IVAS编码解码器102接收位流126。举例来说,网络216可包含一或多个无线网络、一或多个有线网络,或其任何组合。在特定实施方案中,网络216包含4G/5G长期演进语音(VoLTE)网络或Wi-Fi语音(VoWiFi)网络。
接收编码解码器210包含耦合到格式后处理器214的核心解码器212。核心解码器212经配置以解码位流216中的经编码音频流的经编码部分,以产生经解码音频流。举例来说,核心解码器212可产生图1的第一音频流131的第一经解码版本、图1的第二音频流132的第二经解码版本,及图1的第三音频流133的第三经解码版本。音频流的经解码版本可归因于网络216中的受限发射带宽或有损压缩而不同于初始音频流131到133。然而,当用较高位速率编码具有较高优先级的音频流时,相较于较低优先级流的经解码版本,较高优先级流的经解码版本通常为初始音频流的较高准确度再生。在实例中,使用较高优先级配置或分辨率译码定向源,而使用较低优先级配置译码更扩散的源或声音。经扩散声音的译码可基于过去帧相较于定向声音更依赖于模型建立(例如,混响、扩散)。在一些实施方案中,核心解码器212经配置以接收且剖析包,所述包包含多个流的经编码帧,且还包含指示经编码流当中的位分配的标头信息,例如参看图4所描述。核心解码器212经配置以基于通过标头信息指示的位分配解码所述包中的经编码流数据。
核心解码器212经配置以将音频流的经解码版本输出到格式后处理器214。格式后处理器214经配置以处理音频流的经解码版本以具有与呈现与双声化电路218相容的格式。在特定实施方案中,格式后处理器214经配置以支持立体声格式、SBA格式、多信道格式及独立流(IS)格式,且经配置以询问呈现与双声化电路218的格式能力以选择适当输出格式。格式后处理器214经配置以将所选择格式应用于音频流的经解码版本,以产生格式化经解码流240。
呈现与双声化电路218经配置以接收格式化经解码流240,且执行呈现与双声化处理以产生一或多个输出信号242。举例来说,在对应于音频源的空间元数据经由位流126提供(例如,独立流译码实施)且通过呈现与双声化电路218支持的实施方案中,在音频信号242的产生期间使用空间元数据,从而在耦合到呈现与双声化电路218的输出装置(例如,头戴式耳机或扬声器系统)处的再生期间仿真音频源的空间特性。在另一实例中,在未提供对应于音频源的空间元数据的实施方案中,呈现与双声化电路218可在空间中局部地选择源的实体位置。
在操作期间,经由交换器220在IVAS编码解码器102处接收音频流。举例来说,可从图1的前端音频处理器104接收音频流。所接收音频流具有格式222中的与IVAS编码解码器102相容的一或多者。
格式预处理器202对音频流执行格式预处理,且将经预处理音频流提供到核心编码器204。核心编码器204对经预处理音频流执行如图1中所描述的基于优先级的编码,且产生位流126。位流126可具有基于IVAS编码解码器102与接收编码解码器210之间的经由网络216的发射位速率而确定的位速率。举例来说,IVAS编码解码器102及接收编码解码器210可基于网络216的信道条件协商位流126的位速率,且位速率可响应于改变网络条件而在位流126的发射期间进行调整。IVAS编码解码器102可基于音频流的相对优先级,分摊位以携载经预处理音频流中的每一者的经编码信息,使得位流126中的经组合的经编码音频流不超过所协商的位速率。IVAS编码解码器102可基于流的优先级配置及置换次序确定不译码一或多个流,且仅仅译码一或多个选择流,此取决于可用于译码独立流的总位速率。在一个实例实施例中,总位速率为24.4kbps,且存在三个独立的待译码流。基于网络条件,如果总位速率缩减到13.2kbps,那么IVAS编码解码器102可决定编码三个输入流中的仅仅2个独立流,以在部分地牺牲空间质量的同时保留会话的内部信号质量。基于网络特性,当总位速率再次增大到24.4kbps时,IVAS编码解码器102可恢复标称地译码全部三个流。
核心解码器212接收且解码位流126,以产生经预处理音频流的经解码版本。格式后处理器214处理经解码版本以产生具有与呈现与双声化电路218相容的格式的格式化经解码流240。呈现与双声化电路218产生音频信号242,用于通过输出装置再生(例如,头戴式耳机、扬声器等)。
在一些实施方案中,核心译码器或IVAS编码解码器102经配置以执行1到6个流
的独立译码或1到3个流或一些独立流与一些联合流的混合的联合译码,其中联合译码
为流对的共同译码,且接收器编码解码器210的核心解码器经配置以执行1到6个流的独立解码或1到3个流或一些独立流与联合流的混合的联合解码。在其它实施方案中,IVAS编码解码器102的核心译码器经配置以执行7个或更多流的独立译码或4个或更多流的联合译码,且接收器编码解码器210的核心解码器经配置以执行7个或更多流的独立解码或4个或更多流的联合解码。在另一实例实施方案中,一或多个流的低频带译码是基于独立译码,而一或多个流的高频带译码是基于联合译码。
在IVAS编码解码器102处接收的音频流的格式可能不同于经解码流240的格式。举例来说,IVAS编码解码器102可接收且编码具有第一格式(例如独立流格式234)的音频流,且接收编码解码器210可输出具有第二格式(例如多信道格式)的经解码流240。因此,IVAS编码解码器102及接收编码解码器210实现某些装置之间的多流音频数据传送,所述装置将归因于使用不相容多流音频格式而以其它方式无法进行此些传送。另外,支持多个音频流格式使得IVAS编码解码器能够实施于支持音频流格式中的一或多者的多种产品及装置中,其中对此些产品或装置进行极少重新设计或修改,甚至无重新设计或修改。
表1中描绘用于IVAS译码器(例如,IVAS编码解码器102)的伪码输入接口的说明性实例。
表1
在表1中,IVAS_ENC.exe为命令,其根据所述命令之后的命令线参数在IVAS译码器处启动编码。<N>指示待编码流的数目。“-IS”为根据独立流格式识别解码的可选旗标。-IS旗标之后的参数<1:θ1,2:θ2,/>…N:θN,/>>指示系列:流编号(例如,1)、字串编号的方位角值(例如,θ1),及字串编号的仰角值(例如,/>)。在特定实例中,此些参数对应于图1的空间元数据124。
参数<total_bitrate>对应于用于译码以<samplerate>进行采样的N个独立流的总位速率。在另一实施方案中,每一独立流可以给定位速率进行译码及/或可具有不同采样率(例如,IS1(独立流1):10千位每秒(kbps),宽带(WB)内容;IS2:20kbps,超宽带(SWB)内容;IS3:2.0kbps,SWB舒适噪声)。
参数<input>识别输入流数据(例如,来自图1的前端音频处理器104(例如,存储交错式流131到133的缓冲器)的交错式流的指标)。参数<bitstream>识别输出位流(例如,用于位流126的输出缓冲器的指标)。
IVAS_DEC.exe为命令,其根据所述命令之后的命令线参数启动IVAS译码器处的解码。“双声”为指示双声输出格式的可选命令旗标。<N>指示待解码流的数目,<samplerate>指示流的采样率(或替代地,针对流中的每一者提供不同采样率),<bitstream>指示待解码位流(例如,在图2的接收译码器210处接收的位流126),且<output>指示经解码位流的输出(例如,接收例如逐个帧交错的交错式配置中的经解码位流,或待于实体装置上实时播放的交错式数据的连续流的缓冲器的指标)。
图3描绘可实施于IVAS102中的组件的实例300。用于未经编码流数据的第一缓冲器集合306及用于经编码流数据的第二缓冲器集合308耦合到核心编码器302。流优先级模块110耦合到核心编码器302,且耦合到位速率估计器304。帧分包化器310耦合到第二缓冲器集合308。
缓冲器306经配置以经由多个分别接收或交错式流接收多流格式化音频数据122。缓冲器306中的每一者可经配置以存储对应流的至少一个帧。在说明性实例中,第一缓冲器321存储第一流131的第i个帧,第二缓冲器322存储第二流132的第i个帧,且第三缓冲器323存储第三流133的第i个帧。在第i个帧中的每一者己经编码之后,缓冲器321到323中的每一者可接收且存储对应于其各别流131到133的下一帧(第(i+1)个帧)的数据。在管线化实施方案中,缓冲器306中的每一者大小经调整以存储其各别流131到133的多个帧,以实现对音频流的一个帧执行预分析,同时对音频流的另一帧执行编码。
流优先级模块110经配置以存取缓冲器321到323中的流数据,且执行每一流的“预分析”以确定对应于单独流的优先级。在一些实施方案中,流优先级模块110经配置以将较高优先级指派到具有较高信号能量的流,且将较低优先级指派到具有较低信号能量的流。在一些实施方案中,流优先级模块110经配置以确定每一流对应于背景音频源抑或对应于前景音频源,且将较高优先级指派到对应于前景源的流且将较低优先级指派到对应于背景源的流。在一些实施方案中,流优先级模块110经配置以将较高优先级指派到具有特定类型的内容的流,例如将较高优先级指派到检测到话音内容的流,且将较低优先级指派到未检测到话音内容的流。在一些实施方案中,流优先级模块110经配置以基于流中的每一者的熵指派优先级。在说明性实例中,向较高熵流指派较高优先级,且向较低熵流指派较低优先级。在一些实施方案中,流优先级模块110也可基于(例如)在感知上更重要、对场景而言更“关键”的声音、背景声音覆叠于场景中的其它声音上、相对于漫射性的方向性、一或多个其它因数或其任何组合而配置置换次序。
在流优先级模块110接收外部优先级数据362(例如来自前端音频处理器104的流优先级信息)的实施方案中,流优先级模块110至少部分基于所接收流优先级信息将优先级指派到流。举例来说,前端音频处理器104可指示麦克风130的一或多者在电话会议应用期间对应于用户麦克风,且可向对应于用户麦克风的音频流指示相对较高优先级。尽管流优先级模块110可经配置以至少部分基于所接收优先级信息确定流优先级,但流优先级模块110可经进一步配置以确定并未精确地遵循所接收流优先级信息的流优先级信息。举例来说,尽管在电话会议应用期间,对应于用户语音输入麦克风的流可通过外部优先级数据362指示为高优先级,但在对话的一些时间段期间,用户可为静默的。响应于流归因于用户的静默而具有相对较低信号能量,流优先级模块110可将流的优先级缩减到相对较低优先级。
在一些实施方案中,流优先级模块110经配置以至少部分基于一或多个先前帧(例如,帧(i-1)、帧(i-2)等)的流的优先级或特性,针对特定帧(例如,帧i)确定每一流的优先级。举例来说,流特性及流优先级可相较于帧持续时间相对较慢地改变,且在确定流的优先级时包含历史数据可减少流的解码及播放期间的音频伪影,所述音频伪影可起因于流的编码期间的较大逐个帧位速率变化。
流优先级模块110经配置以基于优先级340确定缓冲器306中的流的译码次序。举例来说,流优先级模块110可经配置以指派范围介于5(最高优先级)到1(最低优先级)的优先级值。流优先级模块110可基于优先级将流分类,从而使得具有优先级5的流位于编码序列的开始处,继之以具有优先级4的流,继之以具有优先级3的流,继之以具有优先级2的流,继之以具有优先级1的流。
实例表372说明分别对应于流的帧(i-2)373、帧(i-1)374及帧i 375的编码序列376、377及378。对于帧i-2 373,流“2”(例如,流132)具有最高优先级,且在对应编码序列376中具有第一序列位置。流“N”(例如,流133)具有下一最高优先级,且具有编码序列376中的第二序列位置。相比流N具有较低优先级的一或多个流(未说明)可在流N之后包含于序列376中。流“1”(例如,流131)具有最低优先级,且在编码序列376中具有最后一个序列位置。因此,用于编码帧(i-2)373的流的编码序列376为:2、N、......、1。
表372还说明,对于下一序列帧(i-1)374,编码序列377与帧(i-2)373的序列376相比未发生变化。为了说明,对于帧(i-1)374,流131到133中的每一者关于彼此的优先级相比帧(i-2)373的优先级可不发生变化。对于下一序列帧i 375,流1及流N在编码序列378中的位置己交换。举例来说,流2可对应于在电话呼叫期间说话的用户,且可归因于经由外部优先级数据362指示为重要的具有相对较高信号能量的流、所检测到的话音、前景信号,或其一组合识别为高优先级(例如,优先级=5)。流1可对应于接近于在帧i-2及i-1期间沉默且在帧i期间开始说话的第二个人的麦克风。在帧i-2及i-1期间,流1可归因于未经由外部优先级数据362指示为重要的具有相对较低信号能量的流、未检测到的话音、前景信号,或其一组合识别为低优先级(例如,优先级=1)。然而,但在帧i中俘获第二个人的话音之后,流1可归因于具有相对较高信号能量、所检测到的话音及前景信号(尽管未经由外部优先级数据362指示为重要的)识别为高优先级信号(例如,优先级=4)。
位速率估计器304经配置以基于当前帧的每一流的优先级或置换次序340、当前帧的编码序列376或其一组合,确定用于编码当前帧(例如,帧i)的流中的每一者的经估计位速率。举例来说,可向具有优先级5的流指派最高经估计位速率,可向具有优先级4的流指派下一最高经估计位速率,且可向具有优先级1的流指派最低经估计位速率。经估计位速率可至少部分基于可用于输出位流126的总位速率进行确定,例如通过针对较高优先级流将总位速率分割成大小较大的位分配,且针对较低优先级流将总位速率分割成大小较小的位分配。位速率估计器304可经配置以产生使每一流343与其所指派经估计位速率344相关联的表343或其它数据结构。如先前所描述,在一些实施方案中,向具有较高优先级的流指派置换序列中的较早位置,且可具有较高经估计位速率。在其它实施方案中,置换序列中的流的位置可独立于彼流的经估计位速率。
核心编码器302经配置以根据置换序列编码流中的每一者的至少一部分。举例来说,为编码对应于帧i 375的每一流的部分,核心编码器302可从流优先级模块110接收编码序列378,且可首先编码流2,随后编码流1,且最后编码流N。在多个流可并行编码的实施方案中,例如其中核心编码器302包含多个/联合话音编码器、多个/联合MCDT编码器等,根据置换序列选择用于编码的流,但具有不同优先级的多个流可同时编码。举例来说,优先级5主要用户话音流可与优先级4次要用户话音流并联编码,而较低优先级流在较高优先级话音流之后进行编码。
核心编码器302在编码特定流的帧时对彼流的经估计位速率350做出响应。举例来说,核心编码器302可针对特定流选择未超过所述流的经估计位速率的特定译码模式或带宽。在针对特定流编码当前帧之后,将实际位速率352提供到位速率估计器304,且提供到帧分包化器310。
核心编码器302经配置以将每一流的经编码部分写入到第二缓冲器集合308的对应缓冲器中。在一些实施方案中,编码器302通过将经编码帧从缓冲器321写入到缓冲器331中,将经编码帧从缓冲器322写入到缓冲器332中,且将经编码帧从缓冲器323写入到缓冲器333中,来保持每一流的缓冲器地址。在另一实施方案中,编码器根据编码次序将经编码帧写入到缓冲器308中,从而使得最高优先级流的经编码帧被写入到第一缓冲器331中,下一最高优先级流的经编码帧被写入到缓冲器332中,等等。
位速率估计器304经配置以将实际位速率352与经估计位速率350进行比较,且基于实际位速率352与经估计位速率350之间的差异更新一或多个较低优先级流的经估计位速率。举例来说,如果流的经估计位速率超过流的经编码位速率,例如在流可高度压缩且可使用相对较少个位进行编码时,那么额外位容量可用于编码较低优先级流。如果流的经估计位速率小于流的经编码位速率,那么经减少的位容量可用于编码较低优先级流。位速率估计器304可经配置以将流的经估计位速率与流的经编码位速率之间的“增量”或差异同等地分布于所有较低优先级流当中。作为另一实例,位速率估计器304可经配置以将“增量”分布到下一最高流(增量导致可用的编码位速率减少)。应注意,可实施用于将“增量”分布到较低优先级流的其它技术。
帧分包化器310经配置以通过从缓冲器308检索经编码帧数据,且增加标头信息(例如,元数据)以实现接收编码解码器处的解码,来产生输出位流126的帧。参看图4描述输出帧格式的实例。
在操作期间,可针对流的第i个帧执行编码(例如,具有独立流译码(IS)格式的N个流)。可在缓冲器306中接收流中的每一者的第i个帧,且可通过流优先级模块110对所述第i个帧进行预分析,以指派优先级且确定编码序列378(例如,译码次序的置换)。
预分析可基于帧i以及过去帧(i-1、i-2等)的源特性。预分析可产生流可进行编码的位速率的试验性集合(例如,第n个流的第i个帧的经估计位速率可表示为IS_br_tent[i,n]),从而最高优先级流接收最多数目个位,且最小优先级流可接收最少数目个位,同时保持对总位速率的约束:IS_br_tent[i,1]+IS_br_tent[i,2]+...+IS_br_tent[i,N]<=IS_total_rate。
预分析也可产生流进行译码的置换次序(例如,帧i的置换次序:2、1、…、N;帧i+1的置换次序:1、3、N、...、2等),以及可包含(例如)核心采样率、译码器类型、译码模式、作用/非作用的初始译码配置。
流中的每一者的IS译码可基于此置换次序、试验性位速率、初始译码配置。
在特定实施方案中,编码第n个优先级独立流(例如,编码序列378的第n个位置中的流)包含:预处理以改进译码配置及第n个流实际位速率;在等于IS_br[i,n]kbps的位速率(br)下译码第n个流;估计增量,即,IS_delta[i,n]=(IS_br[i,n]–IS_br_tent[i,n]);将增量增加到下一优先级流及更新第(n+1)个优先级流的经估计(试验性)位速率,即,IS_br_tent[i,n+1]=IS_br[i,n+1]+IS_delta[i,n],或将与剩余流中的每一流的位分配成比例的增量分布到剩余流;及将与第n个流相关联的位流(例如,位数目IS_br[i,n])临时存储于缓冲器中,例如缓冲器308中的一者中。
基于所有其它流的优先级置换次序(例如,根据编码序列378),针对所述流重复上文所描述的编码。可以预定义次序将IS位缓冲器中的每一者(例如,缓冲器331到333中的每一者的内容)组装到位流126中。图4中描绘位流126的帧i、i+1、i+2的实例说明。
尽管在一些实施方案中,可(例如,通过应用处理器)从IVAS编码解码器102外部指定流优先级或位分配配置,但由IVAS编码解码器102执行的预分析具有可挠性以改变此位分配结构。举例来说,当外部信息指示一个流为高优先级且推测为使用高位速率进行编码,但所述流在特定帧中具有非作用内容时,预分析可检测非作用内容,且即使指示为高优先级,还针对彼帧缩减流的位速率。
尽管图3描绘包含编码序列376到378的表372,但应理解,表372出于解释的目的予以说明,且IVAS编码解码器102的其它实施方案并不产生表或其它数据结构以表示编码序列。举例来说,在一些实施方案中,编码序列经由搜索未经编码流的优先级及选择未经编码流的最高优先级流,直到己针对特定帧编码所有流为止进行确定,而未产生专用数据结构以存储经确定编码序列。在此些实施方案中,编码序列的确定在编码正在进行时执行,而非作为离散操作而执行。
尽管流优先级模块110描述为经配置以确定流特性数据360,但在其它实施方案中,预分析模块可实际上执行预分析(例如,以确定信号能量、熵、话音检测等),且可将流特性数据360提供到流优先级模块110。
尽管图3描绘第一缓冲器集合306及第二缓冲器集合308,但在其它实施方案中,可省略缓冲器集合306及308中的一者或两者。举例来说,可在核心编码器302经配置以从单一缓冲器检索交错式音频流数据的实施方案中省略第一缓冲器集合306。作为另一实例,可在核心编码器302经配置以将经编码音频流数据直接插入到帧分包化器310中的帧缓冲器中的实施方案中省略第二缓冲器集合308。
参看图4,针对经编码IS音频流描绘位流126的帧的实例400。第一帧(帧i)402包含帧识别符404、IS标头406、用于流1(IS-1)408的经编码音频数据、用于流2(IS-2)410的经编码音频数据、用于流3(IS-3)412的经编码音频数据、用于流4(IS-4)414的经编码音频数据,及用于流5(IS-5)416的经编码音频数据。
IS标头406携载关于IS流408到416的位分配的组合的信息。举例来说,IS标头406可包含IS流408到416中的每一者的长度。替代地,IS流408到416中的每一者可为自含的,且包含IS译码的长度(例如,IS译码的长度可经编码成每一IS流的前3个位)。替代地或另外,流408到416中的每一者的位速率可包含于IS标头406中,或可经编码成各别IS流。IS标头也可包含或指示空间元数据124。举例来说,可使用空间元数据124的经量化版本,其中每一IS流的量化的量是基于IS流的优先级。为了说明,针对高优先级流的空间元数据编码可将4个位用于方位角数据且将4个位用于仰角数据,且针对低优先级流的空间元数据编码可将3个位或较少位用于方位角数据,且将3个位或较少位用于仰角数据。应理解,提供4个位作为说明性的非限制性实例,且在其它实施方案中,可将任何其它数目个位用于方位角数据、仰角数据或其任何组合。
第二帧(帧i+1)422包含帧识别符424、IS标头426、用于流1(IS-1)428的经编码音频数据、用于流2(IS-2)430的经编码音频数据、用于流3(IS-3)432的经编码音频数据、用于流4(IS-4)434的经编码音频数据,及用于流5(IS-5)436的经编码音频数据。第三帧(帧i+2)442包含帧识别符444、IS标头446、用于流1(IS-1)448的经编码音频数据、用于流2(IS-2)450的经编码音频数据、用于流3(IS-3)452的经编码音频数据、用于流4(IS-4)454的经编码音频数据,及用于流5(IS-5)456的经编码音频数据。
优先级流中的每一者可始终使用固定数目个位,其中最高优先级流使用总位的30到40%,且最低优先级流可使用总位的5到10%。可实际上发送优先级数目个流,而非发送数个位(或IS译码的长度),从此接收器可推断第n个优先级流的IS译码的长度。在其它替代性实施方案中,可通过按特定优先级次序(例如,递增或递减)将每一流的位流放置于位流帧中,省略优先级数目的发射。
应理解,说明性帧402、422及442使用不同于参看图1到3提供的实例的流优先级及编码序列进行编码。表2说明流优先级,且表3说明对应于帧402、422及442的编码的编码序列。
表2
用于编码的置换序列 | |
帧i | 3,2,1,5,4 |
帧i+1 | 4,1,5,2,3 |
帧i+2 | 5,4,3,2,1 |
表3
图5为多流编码的方法500的特定实例的流程图。方法500可由编码器执行,例如图1到3的IVAS编码解码器102。举例来说,可在图6的移动装置600或图7的基站700执行方法500。
方法500包含在501,在音频编码器处接收音频数据的多个流。在特定实例中,多个流对应于包含N个流131到133的多流格式化音频数据122。举例来说,多个流可具有独立流译码格式、多信道格式或基于场景的音频格式。
方法500包含在503将优先级指派到多个流中的每一流。在特定实例中,流优先级模块110将优先级指派到流131到133中的每一者以产生优先级340。基于特定流的帧的一或多个信号特性指派多个流的特定流的优先级。在实例实施方案中,流优先级配置模块110可基于流中的每一者的空间元数据124确定用于编码的优先级或置换序列。在另一实例中,流优先级配置模块110可基于输入格式(例如,立体声、IS、SBA或MC)、定向或扩散声音、剧情或非剧情(例如,背景解说)内容确定优先级或置换序列。在特定实施方案中,一或多个信号特性包含信号能量、背景或前景确定、话音内容的检测或熵中的至少一者。可基于特定流的至少一个先前帧的一或多个信号特性进一步指派特定流的优先级。(例如,外部优先级数据364)也可在音频编码器处从前端音频处理器(例如,前端音频处理器104)接收流优先级信息,且至少部分基于所述流优先级信息确定特定流的优先级。
方法500包含在505基于多个流中的每一流的优先级确定用于编码多个流的置换序列。在特定实例中,流优先级110针对第一帧(帧i-2)373产生编码序列376,针对第二帧(帧i-1)374产生编码序列377,且针对第三帧(帧i)373产生编码序列378。在一些实例中,置换序列是以向具有较高优先级的流指派置换序列中的较早位置,且向具有较低优先级的流指派置换序列中的较晚位置的方式进行确定。在另一实例中,置换序列是以向一或多个较低优先级流指派置换序列中的较早位置的方式进行确定,以基于一或多个经编码较低优先级流的位速率、译码模式(即,ACELP或MDCT等)、译码器类型(即,有声或无声或转换等)产生可用于编码较高优先级流的位分配的改进式估计(例如,在相对较高位速率下)。
方法500包含在507根据置换序列编码多个流中的每一流的至少一部分。在特定实例中,所述流的部分为帧,且所述编码是逐个帧予以执行。为了说明,在图3中,根据编码序列376(即,按通过编码序列指定的置换次序)编码流中的每一者的帧i-2。在编码位流中的每一者的帧i-2之后,根据编码序列377(即,按通过编码序列指定的置换次序)编码位流中的每一者的帧i-1。在编码位流中的每一者的帧i-1之后,根据编码序列378(即,按通过编码序列指定的置换次序)编码位流中的每一者的帧i。
在说明性实例中,多个流包含第一流及第二流,且第一流指派有经指派优先级中的最高优先级,且第二流指派有经指派优先级中的最低优先级。举例来说,第一流可对应于图3的第i个帧的流2,且第二流可对应于第i个帧的流N。第一流具有编码序列中的第一序列位置(例如,流2位于编码序列378的第一序列位置处),且第二流具有编码序列中的最后一个序列位置(例如,流N位于编码序列378的最后一个序列位置处)。每一流的部分的编码包含编码第一流的帧(例如,帧i)以产生第一经编码流的第一经编码帧,及编码第二流的帧(例如,帧1)以产生第二经编码流的第二经编码帧,其中所述第一经编码帧具有第一位速率,且第二经编码帧具有小于所述第一位速率的第二位速率。
在特定实施方案中,方法400还包含在编码每一流的部分之前向每一流指派经估计位速率(例如,经估计位速率350)。经估计位速率经指派使得对于多个流中的每一特定流,相比特定流具有较低优先级的每一流的经估计位速率小于或等于特定流的经估计位速率。举例来说,帧i 375的流1、3、......、N的经估计位速率中的每一者小于或等于流2的经估计位速率。在编码特定流的一部分之后,更新相比特定流具有较低优先级的至少一个流的经估计位速率,例如参考位速率估计器304所描述。更新经估计位速率是基于特定流的经编码部分的经估计位速率与特定流的经编码位速率之间的差异。
在一些实施方案中,方法500还包含产生包含经编码部分中的每一者的帧,及将输出位流中的帧(例如图4的帧402)发送到音频解码器。帧包含指示多个流中的每一流的优先级、位长度或编码位速率中的至少一者的元数据(例如,IS标头406)。帧还可包含元数据,其包含对应多个流中的每一流的空间数据(例如图1的空间元数据124),所述空间数据包含多个流中的每一流的方位角数据及仰角数据,例如参考表1所描述。
参看图6,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且通常将所述装置指定为600。在各种实施方案中,与图6中所说明相比,装置600可具有更少或更多组件。在说明性实施方案中,装置600可对应于图1的装置101或图2的接收装置。在说明性实施方案中,装置600可执行参看图1到5的系统及方法所描述的一或多个操作。
在特定实施方案中,装置600包含处理器606(例如,中央处理单元(CPU))。装置600可包含一或多个额外处理器610(例如,一或多个数字信号处理器(DSP))。处理器610可包含媒体(例如,话音及音乐)译码器-解码器(编码解码器)608及回音消除器612。媒体编码解码器608可包含核心编码器204、核心解码器212或其一组合。在一些实施方案中,媒体编码解码器608包含格式预处理器202、格式后处理器214、呈现与双声化电路218或其一组合。
装置600可包含存储器653及编码解码器634。尽管媒体编码解码器608说明为处理器610的组件(例如,专用电路系统及/或可执行程序代码),但在其它实施方案中,媒体编码解码器608的一或多个组件(例如编码器204、解码器212或其一组合)可包含于处理器606、编码解码器634、另一处理组件或其一组合中。编码解码器634可包含一或多个数字到模拟转换器602及模拟到数字转换器604。编码解码器634可包含图1的前端音频处理器104。
装置600可包含耦合到天线642的接收器632。装置600可包含耦合到显示控制器626的显示器628。一或多个扬声器648可耦合到编码解码器634。一或多个麦克风646可经由一或多个输入接口603耦合到编码解码器534。在特定实施方案中,麦克风646可包含麦克风106到109。
存储器653可包含可由处理器606、处理器610、编码解码器634、装置600的另一处理单元或其组合执行,以执行参看图1到5所描述的一或多个操作的指令691。
装置600的一或多个组件可经由专用硬件(例如,电路系统)通过执行用以执行一或多个任务或其一组合的指令的处理器实施。作为实例,存储器653或处理器606、处理器610及/或编码解码器634的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可去除式磁盘或紧密光盘只读存储器(CD-ROM)。存储器装置可包含在由计算机(例如,编码解码器634中的处理器、处理器606及/或处理器610)执行时可使得所述计算机执行参看图1到5所描述的一或多个操作的指令(例如,指令691)。作为实例,存储器653或处理器606、处理器610及/或编码解码器634中的一或多个组件可为包含指令(例如,指令691)的非暂时性计算机可读媒体,当由计算机(例如,编码解码器634中的处理器、处理器606及/或处理器610)执行时,所述指令使得计算机执行参看图1到5所描述的一或多个操作。
在特定实施方案中,装置600可包含于系统级封装或系统单芯片装置(例如,移动台调制解调器(MSM))622中。在特定实施方案中,处理器606、处理器610、显示控制器626、存储器653、编码解码器634及接收器632包含于系统级封装或系统单芯片装置622中。在特定实施方案中,例如触控屏幕及/或小键盘的输入装置630及电力供应器644耦合到系统单芯片装置622。此外,在特定实施方案中,如图6中所说明,显示器628、输入装置630、扬声器648、麦克风646、天线642及电力供应器644在系统单芯片装置622外部。然而,显示器628、输入装置630、扬声器648、麦克风646、天线642及电力供应器644中的每一者可耦合到系统单芯片装置622的组件,例如接口或控制器。
装置600可包含:无线电话、移动通信装置、移动装置、移动电话、智能型手机、蜂窝式电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
参看图7,描绘基站700的特定说明性实例的框图。在各种实施方案中,基站700可具有比图7中所说明更多或更少的组件。在说明性实例中,基站700可包含图1的第一装置101。在说明性实例中,基站700可根据参看图1到5所描述的方法或系统中的一或多者操作。
基站700可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或某其它版本的CDMA。
无线装置也可被称作用户装备(UE)、移动台、终端机、存取终端机、订户单元、站等。所述无线装置可包含:蜂窝式电话、智能型手机、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记型计算机、迷你笔记型计算机、平板计算机、无接线电话、无线区域回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图6的装置600。
各种功能可由基站700的一或多个组件(及/或在图中未示的其它组件中)执行,例如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站700包含处理器706(例如,CPU)。基站700可包含转码器710。转码器710可包含音频编码解码器708。举例来说,转码器710可包含经配置以执行音频编码解码器708的操作的一或多个组件(例如,电路系统)。作为另一实例,转码器710可经配置以执行一或多个计算机可读指令以执行音频编码解码器708的操作。尽管音频编码解码器708经说明为转码器710的组件,但在其它实例中,音频编码解码器708的一或多个组件可包含于处理器706、另一处理组件或其组合中。举例来说,解码器738(例如,声码器解码器)可包含于接收器数据处理器764中。作为另一实例,编码器736(例如,声码器编码器)可包含于发射数据处理器782中。
转码器710可起作用以在两个或大于两个网络之间转码消息及数据。转码器710可经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。为了说明,解码器738可对具有第一格式的经编码信号进行解码,且编码器736可将经解码信号编码成具有第二格式的经编码信号。另外地或替代性地,转码器710可经配置以执行数据速率适应。举例来说,转码器710可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。为进行说明,转码器710可将64千位/秒信号降频转换成16千位/秒信号。
音频编码解码器708可包含核心编码器204及核心解码器212。音频编码解码器708还可包含格式预处理器202、格式后处理器214或其一组合。
基站700可包含存储器732。例如计算机可读存储装置的存储器732可包含指令。指令可包含可由处理器706、转码器710或其组合执行的一或多个指令,以执行参看图1到5的方法及系统所描述的一或多个操作。基站700可包含耦合到天线阵列的多个发射器及接收器(例如,收发器),例如第一收发器752及第二收发器754。天线阵列可包含第一天线742及第二天线744。天线阵列可经配置以无线方式与一或多个无线装置通信,例如图6的装置600。举例来说,第二天线744可从无线装置接收数据流714(例如,位流)。数据流714可包含消息、数据(例如,经编码话音数据),或其一组合。
基站700可包含网络连接760,例如空载发射连接。举例来说,基站700可经由网络连接760从核心网络接收第二数据流(例如,消息或音频数据)。基站700可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接760将其提供到另一基站。在特定实施方案中,作为说明性的非限制性实例,网络连接760可为广域网(WAN)连接。在一些实施方案中,核心网络可包含或对应于公众交换电话网络(PSTN)、包基干网络或两者。
基站700可包含耦合到网络连接760及处理器706的媒体网关770。媒体网关770可经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关770可在不同发射协议、不同译码方案或两者之间转换。为进行说明,作为说明性的非限制性实例,媒体网关770可从PCM信号转换成实时输送协议(RTP)信号。媒体网关770可在包交换式网络(例如,因特网语音通讯协议(VoIP)网络、IP多媒体子系统(IMS)、例如LTE、WiMax及UMB的第四代(4G)无线网络等)、电路交换式网络(例如,PSTN)及混合型网络(例如,例如GSM、GPRS及EDGE的第二代(2G)无线网络、例如WCDMA、EV-DO及HSPA的第三代(3G)无线网络等)之间转换数据。
另外,媒体网关770可包含转码且可经配置以在编码解码器不相容时转码数据。举例来说,作为说明性的非限制性实例,媒体网关770可在自适应多重速率(AMR)编码解码器与G.711编码解码器之间进行转码。媒体网关770可包含路由器及多个实体接口。在一些实施方案中,媒体网关770还可包含控制器(图中未示)。在特定实施方案中,媒体网关控制器可在媒体网关770外部、在基站700外部或在其两者外部。媒体网关控制器可控制并协调操作多个媒体网关。媒体网关770可从媒体网关控制器接收控制信号,且可起到在不同发射技术之间桥接的作用,且可添加对最终用户能力及连接的服务。
基站700可包含耦合到收发器752、收发器754、接收器数据处理器764及处理器706的解调器762,且接收器数据处理器764可耦合到处理器706。解调器762可经配置以解调制从收发器752、754所接收的经调制信号,且经配置以将经解调制数据提供到接收器数据处理器764。接收器数据处理器764可经配置以从经解调数据提取消息或音频数据,且将消息或音频数据发送到处理器706。
基站700可包含发射数据处理器782及发射多输入多输出(MIMO)处理器784。发射数据处理器782可耦合到处理器706及发射MIMO处理器784。发射MIMO处理器784可耦合到收发器752、收发器754及处理器706。在一些实施方案中,发射MIMO处理器784可耦合到媒体网关770。作为示范性的非限制性实例,发射数据处理器782可经配置以从处理器706接收消息或音频数据,且基于例如CDMA或正交分频多路复用(OFDM)的译码方案译码所述消息或所述音频数据。发射数据处理器782可提供经译码数据到发射MIMO处理器784。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用在一起以产生经多路复用数据。接着可基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-元相移键控(“M-PSK”)、M-元正交振幅调制(“M-QAM”)等)通过发射数据处理器782调制(即,符号映射)经多路复用数据以产生调制符号。在特定实施方案中,经译码数据及其它数据可使用不同调制方案调制。针对每一数据流的数据速率、译码及调制可由处理器706所执行的指令确定。
发射MIMO处理器784可经配置以从发射数据处理器782接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,发射MIMO处理器784可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从所述天线发射调制符号)。
在操作期间,基站700的第二天线744可接收数据流714。第二收发器754可从第二天线744接收数据流714,且可将所述数据流714提供到解调器762。解调器762可解调制数据流714的经调制信号,且将经解调制数据提供到接收器数据处理器764。接收器数据处理器764可从经解调制数据提取音频数据,且将经提取音频数据提供到处理器706。
处理器706可将音频数据提供到转码器710以用于转码。转码器710的解码器738可将音频数据从第一格式解码成经解码音频数据,且编码器736可将经解码音频数据编码成第二格式。在一些实施方案中,编码器736可使用比从无线装置接收的数据速率更高的数据速率(例如,升频转换)或更低的数据速率(例如,降频转换)编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)被说明为由转码器710执行,但转码操作(例如,解码及编码)可由基站700的多个组件执行。举例来说,解码可由接收器数据处理器764执行,且可由发射数据处理器782执行。在其它实施方案中,处理器706可将音频数据提供到媒体网关770以用于转换到另一发射协议、译码方案或两者。媒体网关770可经由网络连接760将经转换数据提供到另一基站或核心网络。
可经由处理器706将编码器736处产生的经编码音频数据(例如转码数据)提供到发射数据处理器782或网络连接760。可将来自转码器710的经转码音频数据提供到发射数据处理器782,用于根据例如OFDM的调制方案译码,以产生调制符号。发射数据处理器782可将调制符号提供到发射MIMO处理器784以供进一步处理及波束成形。发射MIMO处理器784可应用波束成形权重,且可经由第一收发器752将调制符号提供到天线阵列的一或多个天线,例如第一天线742。因此,基站700可将对应于从无线装置所接收的数据流714的经转码数据流716提供到另一无线装置。经转码数据流716可具有与数据流714不同的编码格式、数据速率,或前述两者。在其它实施方案中,可将经转码数据流716提供到网络连接760以供发射到另一基站或核心网络。
在特定实施方案中,本文中公开的系统及装置的一或多个组件可集成到解码系统或设备(例如,电子装置、编码解码器或其中的处理器)中、集成到编码系统或设备中,或集成到所述两者中。在其它实施方案中,本文所公开的系统及装置的一或多个组件可集成到以下各者中:无线电话、平板计算机、台式计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
结合所描述的技术,一种设备包含用于向音频数据的多个流中的每一流指派优先级,且用于基于所述多个流中的每一流的优先级确定所述多个流的编码序列的装置。举例来说,用于指派且用于确定的所述装置可对应于图1到3的流优先级模块110,一或多个其它装置、电路、模块或其任何组合。
所述设备还包含用于根据编码序列编码多个流中的每一流的至少一部分的装置。举例来说,用于编码的所述装置可包含图3的核心编码器302、一或多个其它装置、电路、模块或其任何组合。
应注意,通过本文所公开的系统及装置的一或多个组件执行的各种功能经描述为通过某些组件或模块执行。组件及模块的此划分仅用于说明。在替代性实施方案中,由特定组件或模块执行的功能可被划分于多个组件或模块之中。此外,在替代性实施方案中,两个或多于两个组件或模块可被集成到单个组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令),或其任何组合实施。
所属领域的一般技术人员将进一步了解,结合本文中所公开的实施而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或两者的组合。上文大体在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。此功能性经实施为硬件或是软件取决于特定应用及强加于整个系统的设计约束而定。对于每一特定应用而言,所属领域的一般技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,而但不应将此些实施决策解译为致使脱离本发明的范围。
结合本文中所公开的实施所描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可存在于存储器装置中,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋力矩转移(STT-MRAM)、快闪存
储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、抽取式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合到处理器,以使得处理器可从存储器装置读取信息及将信息写入到存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可驻存于专用集成电路(ASIC)中。ASIC可驻存于计算装置或用户终端机中。在替代例中,处理器及存储媒体可作为离散组件驻存于计算装置或用户终端机中。
提供对所公开实施的先前描述,以使得所属领域的一般技术人员能够制作或使用所公开的实施。所属领域的一般技术人员将容易地显而易见对此些实施方案的各种修改,且在不背离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非打算限于本文中所展示的实施方案,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。
Claims (46)
1.一种方法,其包括:
在音频编码器处接收音频数据的多个流;
确定所述多个流中的每一流的优先级;
将所述优先级指派到所述多个流中的每一流;及
根据所述优先级编码所述多个流中的每一流的至少一部分。
2.根据权利要求1所述的方法,其中:所述多个流包含第一流及第二流;
所述第一流指派有经指派优先级中的最高优先级,且所述第二流指派有所述经指派优先级中的最低优先级;
所述第一流具有在置换序列中的第一序列位置,且所述第二流具有在所述置换序列中的最后序列位置;且
每一流的所述部分的所述编码包含编码所述第一流的帧以产生第一经编码流的第一经编码帧及编码所述第二流的帧以产生第二经编码流的第二经编码帧,所述第一经编码帧具有第一位速率,且所述第二经编码帧具有小于所述第一位速率的第二位速率。
3.根据权利要求1所述的方法,其进一步包括在编码每一流的所述部分之前,将经估计位速率指派到每一流。
4.根据权利要求3所述的方法,其中所述经估计位速率经指派使得对于所述多个流中的每一特定流,相比所述特定流具有较低优先级的每一流的所述经估计位速率小于或等于所述特定流的所述经估计位速率。
5.根据权利要求3所述的方法,其进一步包括在编码特定流的一部分之后,更新相比所述特定流具有较低优先级的至少一个流的所述经估计位速率,其中更新所述经估计位速率是基于所述特定流的经编码部分的所述经估计位速率与所述特定流的所述经编码位速率之间的差异。
6.根据权利要求1所述的方法,其中所述多个流中的特定流的所述优先级是基于所述特定流的帧的一或多个信号特性而指派。
7.根据权利要求6所述的方法,其中所述一或多个信号特性包含信号能量、背景或前景确定、话音内容的检测或熵中的至少一者。
8.根据权利要求6所述的方法,其中所述特定流的所述优先级进一步基于所述特定流的至少一个先前帧的一或多个信号特性而指派。
9.根据权利要求6所述的方法,其进一步包括:
在所述音频编码器处从前端音频处理器接收流优先级信息;及
至少部分基于所述流优先级信息确定所述特定流的所述优先级。
10.根据权利要求1所述的方法,其中所述多个流具有独立流译码格式。
11.根据权利要求1所述的方法,其中所述多个流具有多信道格式。
12.根据权利要求1所述的方法,其中所述多个流具有基于场景的音频格式。
13.根据权利要求1所述的方法,其进一步包括产生包含经编码部分中的每一者的帧,及在输出位流中将所述帧发送到音频解码器。
14.根据权利要求13所述的方法,其中所述帧包含指示所述多个流中的每一流的优先级、位长度或编码位速率中的至少一者的元数据。
15.根据权利要求13所述的方法,其中所述帧包含元数据,所述元数据包含对应于所述多个流中的每一流的空间数据。
16.根据权利要求15所述的方法,其中所述空间数据针对所述多个流中的每一流包含方位角数据及仰角数据。
17.根据权利要求15所述的方法,其中所述元数据包含对应于较高优先级流的较高准确度空间数据及对应于较低优先级流的较低准确度空间数据。
18.根据权利要求1所述的方法,其中将所述优先级指派到所述多个流及编码所述多个流的所述部分是在移动装置处执行。
19.根据权利要求1所述的方法,其中将所述优先级指派到所述多个流及编码所述多个流的所述部分是在基站处执行。
20.根据权利要求1所述的方法,其中所确定的优先级基于对音频场景在感知上更重要的声音。
21.根据权利要求1所述的方法,其中所确定的优先级基于相对于音频场景中声音漫射性的方向性。
22.一种装置,其包括:
音频处理器,其经配置以基于所接收音频信号产生音频数据的多个流;及
音频编码器,其经配置以执行以下操作:
确定所述多个流中的每一流的优先级;
将所述优先级指派到所述多个流中的每一流;及
根据所述优先级编码所述多个流中的每一流的至少一部分。
23.根据权利要求22所述的装置,其进一步包括耦合到所述音频处理器且经配置以产生所述音频信号的多个麦克风。
24.根据权利要求22所述的装置,其中所述音频编码器经配置以基于所述多个流中的特定流的帧的一或多个信号特性指派所述特定流的所述优先级。
25.根据权利要求22所述的装置,其中所述音频处理器及所述音频编码器集成到基站中。
26.根据权利要求22所述的装置,其中所述音频处理器及所述音频编码器集成到移动装置中。
27.根据权利要求22所述的装置,其中:所述多个流包含第一流及第二流;
所述第一流指派有经指派优先级中的最高优先级,且所述第二流指派有所述经指派优先级中的最低优先级;
所述第一流具有在置换序列中的第一序列位置,且所述第二流具有在所述置换序列中的最后序列位置;且
每一流的所述部分的所述编码包含编码所述第一流的帧以产生第一经编码流的第一经编码帧及编码所述第二流的帧以产生第二经编码流的第二经编码帧,所述第一经编码帧具有第一位速率,且所述第二经编码帧具有小于所述第一位速率的第二位速率。
28.根据权利要求22所述的装置,其进一步包括在编码每一流的所述部分之前,将经估计位速率指派到每一流。
29.根据权利要求28所述的装置,其中所述经估计位速率经指派使得对于所述多个流中的每一特定流,相比所述特定流具有较低优先级的每一流的所述经估计位速率小于或等于所述特定流的所述经估计位速率。
30.根据权利要求28所述的装置,其进一步包括在编码特定流的一部分之后,更新相比所述特定流具有较低优先级的至少一个流的所述经估计位速率,其中更新所述经估计位速率是基于所述特定流的经编码部分的所述经估计位速率与所述特定流的所述经编码位速率之间的差异。
31.根据权利要求22所述的装置,其中所述多个流中的特定流的所述优先级是基于所述特定流的帧的一或多个信号特性而指派。
32.根据权利要求31所述的装置,其中所述一或多个信号特性包含信号能量、背景或前景确定、话音内容的检测或熵中的至少一者。
33.根据权利要求31所述的装置,其中所述特定流的所述优先级进一步基于所述特定流的至少一个先前帧的一或多个信号特性而指派。
34.根据权利要求31所述的装置,其进一步包括:
在所述音频编码器处从前端音频处理器接收流优先级信息;及
至少部分基于所述流优先级信息确定所述特定流的所述优先级。
35.根据权利要求22所述的装置,其中所述多个流具有独立流译码格式。
36.根据权利要求22所述的装置,其中所述多个流具有多信道格式。
37.根据权利要求22所述的装置,其中所述多个流具有基于场景的音频格式。
38.根据权利要求22所述的装置,其进一步包括产生包含经编码部分中的每一者的帧,及在输出位流中将所述帧发送到音频解码器。
39.根据权利要求38所述的装置,其中所述帧包含指示所述多个流中的每一流的优先级、位长度或编码位速率中的至少一者的元数据。
40.根据权利要求38所述的装置,其中所述帧包含元数据,所述元数据包含对应于所述多个流中的每一流的空间数据。
41.根据权利要求40所述的装置,其中所述空间数据针对所述多个流中的每一流包含方位角数据及仰角数据。
42.根据权利要求40所述的装置,其中所述元数据包含对应于较高优先级流的较高准确度空间数据及对应于较低优先级流的较低准确度空间数据。
43.根据权利要求22所述的装置,其中将所述优先级指派到所述多个流及编码所述多个流的所述部分是在移动装置处执行。
44.根据权利要求22所述的装置,其中将所述优先级指派到所述多个流及编码所述多个流的所述部分是在基站处执行。
45.根据权利要求22所述的装置,其中所确定的优先级基于对音频场景在感知上更重要的声音。
46.根据权利要求22所述的装置,其中所确定的优先级基于相对于音频场景中声音漫射性的方向性。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762529770P | 2017-07-07 | 2017-07-07 | |
US62/529,770 | 2017-07-07 | ||
US16/016,842 | 2018-06-25 | ||
US16/016,842 US10885921B2 (en) | 2017-07-07 | 2018-06-25 | Multi-stream audio coding |
CN201880040059.XA CN110770824B (zh) | 2017-07-07 | 2018-06-26 | 多流音频译码 |
PCT/US2018/039435 WO2019010033A1 (en) | 2017-07-07 | 2018-06-26 | MULTI-FLOW AUDIO CODING |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880040059.XA Division CN110770824B (zh) | 2017-07-07 | 2018-06-26 | 多流音频译码 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117059111A true CN117059111A (zh) | 2023-11-14 |
Family
ID=64902852
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311054538.6A Pending CN117059111A (zh) | 2017-07-07 | 2018-06-26 | 多流音频译码 |
CN201880040059.XA Active CN110770824B (zh) | 2017-07-07 | 2018-06-26 | 多流音频译码 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880040059.XA Active CN110770824B (zh) | 2017-07-07 | 2018-06-26 | 多流音频译码 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10885921B2 (zh) |
CN (2) | CN117059111A (zh) |
TW (1) | TWI753182B (zh) |
WO (1) | WO2019010033A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2575305A (en) * | 2018-07-05 | 2020-01-08 | Nokia Technologies Oy | Determination of spatial audio parameter encoding and associated decoding |
JP7553355B2 (ja) | 2018-11-13 | 2024-09-18 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ信号及び関連するメタデータによる空間オーディオの表現 |
US11221976B2 (en) | 2019-01-25 | 2022-01-11 | Microchip Technology Incorporated | Allocation of buffer interfaces for moving data, and related systems, methods and devices |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
GB201909133D0 (en) * | 2019-06-25 | 2019-08-07 | Nokia Technologies Oy | Spatial audio representation and rendering |
TWI703559B (zh) * | 2019-07-08 | 2020-09-01 | 瑞昱半導體股份有限公司 | 音效編碼解碼電路及音頻資料的處理方法 |
EP4010996A1 (en) * | 2019-08-05 | 2022-06-15 | Shure Acquisition Holdings, Inc. | Transmit antenna diversity wireless audio system |
US11514921B2 (en) * | 2019-09-26 | 2022-11-29 | Apple Inc. | Audio return channel data loopback |
US20220406318A1 (en) * | 2019-10-30 | 2022-12-22 | Dolby Laboratories Licensing Corporation | Bitrate distribution in immersive voice and audio services |
US11909795B1 (en) * | 2019-11-25 | 2024-02-20 | Amazon Technologies, Inc. | Input switching for streaming content |
CN111199743B (zh) * | 2020-02-28 | 2023-08-18 | Oppo广东移动通信有限公司 | 音频编码格式确定方法、装置、存储介质及电子设备 |
IT202000005875A1 (it) | 2020-03-19 | 2021-09-19 | Radio Dimensione Suono Spa | Sistema e metodo di arricchimento automatico di informazioni per flussi audio |
CN111787322B (zh) * | 2020-08-04 | 2022-05-13 | 北京百度网讯科技有限公司 | 视频编码的方法、装置、电子设备及计算机可读存储介质 |
IT202100017351A1 (it) | 2021-07-01 | 2023-01-01 | Artisti Riuniti S R L | Sistema e dispositivo di condivisione di contenuti artistico-teatrali in formato digitale tra account geolocalizzati |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6230130B1 (en) * | 1998-05-18 | 2001-05-08 | U.S. Philips Corporation | Scalable mixing for speech streaming |
JP3580777B2 (ja) * | 1998-12-28 | 2004-10-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置 |
US6581032B1 (en) | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US8498723B2 (en) * | 2006-05-10 | 2013-07-30 | Qualcomm Incorporated | Prioritization of audio streams for platform adaptive audio decoding |
US20100114581A1 (en) * | 2006-10-06 | 2010-05-06 | Te Li | Method for encoding, method for decoding, encoder, decoder and computer program products |
US8867622B2 (en) * | 2008-08-14 | 2014-10-21 | Broadcom Corporation | Method and system for priority-based digital multi-stream decoding |
EA024310B1 (ru) * | 2009-12-07 | 2016-09-30 | Долби Лабораторис Лайсэнзин Корпорейшн | Способ декодирования цифровых потоков кодированного многоканального аудиосигнала с использованием адаптивного гибридного преобразования |
FR2988966B1 (fr) * | 2012-03-28 | 2014-11-07 | Eurocopter France | Procede de transformation simultanee des signaux vocaux d'entree d'un systeme de communication |
KR101805630B1 (ko) * | 2013-09-27 | 2017-12-07 | 삼성전자주식회사 | 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더 |
JP6439296B2 (ja) * | 2014-03-24 | 2018-12-19 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US9847087B2 (en) * | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
US20160255348A1 (en) * | 2015-02-27 | 2016-09-01 | Arris Enterprises, Inc. | Adaptive joint bitrate allocation |
WO2016163327A1 (ja) | 2015-04-08 | 2016-10-13 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
US10152977B2 (en) * | 2015-11-20 | 2018-12-11 | Qualcomm Incorporated | Encoding of multiple audio signals |
-
2018
- 2018-06-25 US US16/016,842 patent/US10885921B2/en active Active
- 2018-06-26 WO PCT/US2018/039435 patent/WO2019010033A1/en active Application Filing
- 2018-06-26 CN CN202311054538.6A patent/CN117059111A/zh active Pending
- 2018-06-26 CN CN201880040059.XA patent/CN110770824B/zh active Active
- 2018-06-29 TW TW107122545A patent/TWI753182B/zh active
Also Published As
Publication number | Publication date |
---|---|
CN110770824B (zh) | 2023-09-08 |
US20190013028A1 (en) | 2019-01-10 |
TW201907392A (zh) | 2019-02-16 |
TWI753182B (zh) | 2022-01-21 |
US10885921B2 (en) | 2021-01-05 |
WO2019010033A1 (en) | 2019-01-10 |
CN110770824A (zh) | 2020-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110770824B (zh) | 多流音频译码 | |
CN111108556B (zh) | 多流音频译码 | |
US11127406B2 (en) | Encoding and decoding of interchannel phase differences between audio signals | |
KR102230623B1 (ko) | 다중의 오디오 신호들의 인코딩 | |
US11823689B2 (en) | Stereo parameters for stereo decoding | |
US10885922B2 (en) | Time-domain inter-channel prediction | |
US10885925B2 (en) | High-band residual prediction with time-domain inter-channel bandwidth extension |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |