CN111108556B - 多流音频译码 - Google Patents

多流音频译码 Download PDF

Info

Publication number
CN111108556B
CN111108556B CN201880061621.7A CN201880061621A CN111108556B CN 111108556 B CN111108556 B CN 111108556B CN 201880061621 A CN201880061621 A CN 201880061621A CN 111108556 B CN111108556 B CN 111108556B
Authority
CN
China
Prior art keywords
streams
stream
audio
encoded
particular stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880061621.7A
Other languages
English (en)
Other versions
CN111108556A (zh
Inventor
V·阿提
V·S·C·S·奇比亚姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111108556A publication Critical patent/CN111108556A/zh
Application granted granted Critical
Publication of CN111108556B publication Critical patent/CN111108556B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种方法,其包含在音频编码器处接收音频数据的多个流,其中N为所接收多个流的数目。所述方法包含确定所述多个流中的每一流的相似性值,以及将所述多个流中的每一流的所述相似性值与阈值进行比较。所述方法还包含基于所述比较识别所述多个流中的N个当中待编码的L(L<N)个流。所述方法包含编码所述经识别的L个流以产生经编码位流。

Description

多流音频译码
相关申请案的交叉参考
本申请案主张2018年9月26日申请的名称为“多流音频译码(MULTI-STREAM AUDIOCODING)”的美国专利申请案第16/143,150号及2017年10月3日申请的名称为“多流音频译码(MULTI_STREAM AUDIO CODING)”的美国临时申请案第62/567,663号的优先权,所述申请案以其全文引用的方式并入本文中。
技术领域
本发明大体上涉及多音频信号的编码。
背景技术
技术的进步已产生较小且功率较大的计算装置。举例来说,多种便携式个人计算装置(包含例如移动及智能型电话的无线电话、平板计算机及膝上型计算机)体积小、重量轻且易于由用户携带。此些装置可经由无线网络传达语音及数据包。另外,许多此类装置并入额外功能,例如数字静态摄影机、数字摄像机、数字记录器及音频文件播放机。而且,此类装置可处理可执行指令,所述指令包含可用以存取因特网的软件应用,例如网页浏览器应用。因而,此些装置可包含显著计算能力。
计算装置可包含或可耦合到多个麦克风以接收音频信号。音频信号可根据特定音频格式经处理成音频数据流,例如双信道立体声格式、例如5.1或7.1格式的多信道格式、基于场景的音频格式或一或多个其它格式。音频数据流可由经设计以根据音频格式编码及解码音频数据流的编码器(例如编码器/解码器(codec))编码。由于针对特定应用提供各种益处的多种音频格式为可用的,因此此类计算装置的制造商可针对计算装置的增强型操作选择特定音频格式。然而,使用不同音频格式的装置之间的通信可由于音频格式之间缺少互操作性而受限。另外,在使用兼容音频格式的装置之间的网络上传送的经编码音频数据的质量可归因于网络的有限传输带宽而降低。举例来说,音频数据可能必须在符合可用传输带宽的次优化位速率下编码,从而导致在接收装置处在播放期间精确地再生音频信号的能力降低。
发明内容
在特定实施方案中,一种装置包含音频处理器,所述音频处理器经配置以基于所接收的音频信号产生音频数据的多个流,其中N为音频数据的多个流的数目。装置亦包含音频编码器,所述音频编码器经配置以确定多个流中的每一流的相似性值;将多个流中的每一流的相似性值与阈值进行比较;基于所述比较,识别多个流中的N个当中待编码的L个流,其中L小于N;及编码经识别的L个流以产生经编码位流。
在另一特定实施方案中,一种方法包含:在音频编码器处接收音频数据的多个流,其中N为所接收多个流的数目;及确定多个流中的每一流的相似性值。所述方法包含将多个流中的每一流的相似性值与阈值进行比较,及基于所述比较识别多个流中的N个中待编码的L个流,其中L小于N。所述方法亦包含编码经识别的L个流以产生经编码位流。
在另一特定实施方案中,一种设备包含用于接收音频数据的多个流(其中N为所接收多个流的数目)且用于确定多个流中的每一流的相似性值的装置。所述设备包含用于将多个流中的每一流的相似性值与阈值进行比较且用于基于所述比较识别多个流中的N个中待编码的L个流(其中L小于N)的装置。所述设备亦包含用于编码经识别的L个流以产生经编码位流的装置。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由处理器内的处理器执行时使得所述处理器执行包含在音频编码器处接收音频数据的多个流的操作。所述操作亦包含:接收音频数据的多个流,其中N为所接收多个流的数目;及确定多个流中的每一流的相似性值。所述操作包含将多个流中的每一流的相似性值与阈值进行比较,以及基于所述比较识别多个流中的N个当中待编码的L个流,其中L小于N。所述操作亦包含编码经识别的L个流以产生经编码位流。
本发明的其它实施、优势及特征将在审阅整个申请案之后变得显而易见,所述申请案包含以下部分:图式简单说明、实施方式及权利要求书。
附图说明
图1为包含可操作以执行多个流编码的沉浸式语音与音频服务(IVAS)编解码器的系统的特定说明性实例的框图。
图2为包含图1的编解码器的系统的另一特定实例的框图。
图3为可包含于图1的IVAS编解码器中的组件的框图。
图4为说明可通过图1的IVAS编解码器产生的输出位流帧格式的实例的图式。
图5为多流编码的方法的特定实例的流程图。
图6为可操作以执行多流编码的移动装置的特定说明性实例的框图。
图7为可操作以执行多流编码的基站的特定实例的框图。
具体实施方式
下文参考图式描述本发明的特定方面。在本说明书中,共同特征通过共同附图标号指示。如本文中所使用,各种术语仅仅用于描述特定实施的目的,且并不打算限制实施。举例来说,除非上下文另外明确指示,否则单数形式“一(a/an)”及“所述”打算同样包含复数形式。可进一步理解,术语“包括(comprises/comprising)”可与“包含(includes/including)”互换地使用。另外,应理解,术语“其中(wherein)”可与“在……的情况下(where)”互换地使用。如本文中所使用,用以修饰元件(例如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身不指示元件关于另一元件的任何优先级或次序,而是仅将元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文中所使用,术语“集”指特定元件中的一或多者,且术语“多个”指特定元件中的多个(例如,两个或大于两个)。
在本发明中,例如“确定”、“计算”、“移位”、“调整”等的术语可用于描述如何执行一或多个操作。应注意,此类术语不应解释为限制性的且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”及“确定”可互换地使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指积极地产生、计算或确定参数(或信号),或可指使用、选择或存取已(例如)由另一组件或装置产生的参数(或信号)。
本发明公开可操作以编码及解码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。多个音频信号可使用多个记录装置(例如,多个麦克风)同时及时地检索。在一些实例中,多个音频信号(或多信道音频)可通过多路复用同时或非同时记录的若干音频信道来合成(例如,人工地)产生。作为说明性实例,音频信道的并行记录或多路复用可产生2信道配置(即,立体声:左及右)、5.1信道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)信道)、7.1信道配置、7.1+4信道配置、22.2信道配置或N信道配置。
图1描绘包含装置101的系统100的实例,所述装置具有耦合到前端音频处理器104的多个麦克风130。前端音频处理器104耦合到编解码器102,例如沉浸式语音与音频服务(IVAS)编解码器102。IVAS编解码器102经配置以产生包含经由多个音频流从前端音频处理器104接收的经编码数据的位流126。
IVAS编解码器102包含流优先级模块110,所述流优先级模块经配置以确定所接收音频流中的一些或所有的优先级配置且基于所确定优先级(例如,在感知上更重要、对场景而言更“关键”的声音、叠对于场景中的其它声音上方的背景声音、与漫射有关的方向性等)编码音频流以产生位流126。在另一实例实施例中,流优先级模块110可基于空间元数据124确定用于编码的优先级或置换序列。流优先级模块110也可被称作流配置模块或流预分析模块。确定多个音频流的优先级配置且基于其优先级编码音频流中的每一者使得IVAS编解码器102能够分配不同位速率及使用不同译码模式、译码带宽。在实例实施例中,IVAS编解码器102可相比具有较低优先级的流将更多位分配到具有较高优先级的流,从而导致更有效使用传输资源(例如,无线传输带宽),用于将位流126发送到接收装置。在另一实例实施例中,IVAS编解码器102可针对较高优先级配置流编码达到超宽带(即,达到(例如)16kHz的带宽),同时针对较低优先级配置流编码仅仅达到宽带(即,达到(例如)8kHz的带宽)。
IVAS编解码器102包含流选择模块115,所述流选择模块经配置以选择将由IVAS编解码器102内的音频编码器编码的所接收音频流的子集。流选择模块115确定所接收音频流中的一些或所有的相似性值且基于所述相似性值确定(或选择)所接收音频流中的哪些需要编码或不需要编码。流选择模块115将多个流中的每一流的相似性值与阈值进行比较且基于所述比较识别所接收多个音频流中的N个当中可能需要编码的仅L个流。IVAS编解码器102接着编码经识别的L个流以产生经编码位流。由IVAS编解码器102编码所接收音频流(例如,N)的子集(例如,L)可导致提高经译码(编码且随后接着解码)音频流的质量的潜在益处,或通过允许用比最初针对所有所接收的编码分配的更多位编码所选择的L个流减少译码失真。在一些实施方案中,IVAS编解码器102仍可编码所有所接收多个音频流中的N个,但其可基于相似性值调整编码参数。
相似性值为指示IVAS编解码器102是否可以绕过所接收音频流当中的特定流的编码而在包含音频解码器的接收装置处无质量影响(或具有最小质量影响)的值。可替代地,相似性值可为指示所接收音频流中的特定流是否可通过所接收音频流中的另一流容易地重现的值。另外,相似性值可为指示特定流是否可基于来自不同时刻(例如,过去)的相同流或流群在解码器处充分重现(或合成)的值。相似性值也可被称作“临界值”、“可重现值”、“空间相关值”或“可预测值”。参考图3到4进一步详细描述相似性值的更多细节。
麦克风130包含第一麦克风106、第二麦克风107、第三麦克风108及第M麦克风109(M为正整数)。举例来说,装置101可包含移动电话,且麦克风106到109可定位于装置101的各个位置处,以允许检索源自各种源的声音。为了说明,在麦克风130中的一或多者经定位以从用户检索语音的特定实施方案中(例如,在电话呼叫或电话会议期间),麦克风130中的一或多者经定位以从其它源检索音频(例如,在视频记录操作期间检索三维(3D)音频),且麦克风130中的一或多者经配置以检索背景音频。在特定实施方案中,作为说明性非限制性实例,麦克风130中的两者或大于两者以阵列或其它配置布置,以实现例如回音消除或波束成形的音频处理技术。麦克风106到109中的每一者经配置以输出各别音频信号120到123。
前端音频处理器104经配置从麦克风130接收音频信号136到139,且处理音频信号136到139以产生多流格式化音频数据122。在特定实施方案中,作为说明性非限制性实例,前端音频处理器104经配置以执行一或多个音频操作,例如回音消除、噪声抑制、波束成形或其任何组合。
前端音频处理器104经配置以产生由音频操作产生的音频数据流,例如第一流131、第二流132及第N流133(N为正整数)。在特定实施方案中,流131到133包含脉码调制(PCM)数据,且具有与IVAS编解码器102的输入格式兼容的格式。
举例来说,在一些实施方案中,流131到133具有信道的数目“N”待译码为等于二的立体声格式。所述信道可相关或可不相关。装置101可支持两个或大于两个麦克风130,且前端音频处理器104可经配置以执行回音消除、噪声抑制、波束成形或其组合,以产生具有改进式信噪比(SNR)的立体声信号,而不需关于从麦克风130接收的初始立体声信号改变所产生立体声信号的立体声/空间质量。
在另一实施方案中,通过前端音频处理器104产生流131到133以具有基于立体混响(ambisonics)或基于场景的音频(SBA)的格式,其中信道可有时包含对应于声音场景的本征分解系数。在其它实施方案中,作为说明性非限制性实例,通过前端音频处理器104产生流131到133以具有对应于多信道(MC)配置的格式,例如5.1或7.1环绕声配置。
在其它替代性实施方案中,可将音频流131到133提供到IVAS编解码器102,其中已用不同于上文所说明的前端处理实例中的任一者的方式接收所述IVAS编解码器。
在一些实施方案中,流131到133具有独立流(IS)格式,其中音频信号136到139中的两者或大于两者经处理以估计声源的空间特性(例如,方位角、仰角等)。音频信号136到139经映射到对应于声源的独立流及对应空间元数据124。
在一些实施方案中,前端音频处理器104经配置以将优先级配置信息提供到IVAS编解码器102,以指示流131到133中的一或多者的相对优先级或重要性。举例来说,当装置101由用户在电话模式中操作时,与用户的语音相关联的特定流可通过前端音频处理器104指定为相较于输出到IVAS编解码器102的其它流具有较高优先级。
在一些实施方案中,前端音频处理器104经配置以基于其分析将流131到133中的每一者或多者的相似性值提供到IVAS编解码器102,以基于1)相同特定流(例如,第一流131)的先前帧(例如,帧i-1),2)其它流(例如,第二流132或第N流133)中的任一者的对应帧(例如,帧i),或3)其任何组合指示任何特定流(例如,第一流131)的任何特定帧(例如,帧i)的预测或重现为困难的抑或容易的。
IVAS编解码器102经配置以编码多流格式化音频数据122以产生位流126。IVAS编解码器102经配置以使用IVAS编解码器102内的一或多个编码器执行多流音频数据122的编码,例如用于语音的代数码激励线性预测(ACELP)编码器及用于非语音音频的频域(例如,经修改离散余弦变换(MDCT))编码器。IVAS编解码器102经配置以编码经由立体声格式、SBA格式、独立流(IS)格式、多信道格式、一或多个其它格式或其任何组合中的一或多者接收的数据。
流优先级模块110经配置以将优先级指派到多流格式化音频数据122中的一些或所有流131到133。作为说明性非限制性实例,流优先级模块110经配置以基于对应于流的信号的一或多个特性(例如信号能量、前景对比背景、内容类型或熵)来确定多个流的优先级。在流优先级模块110从前端音频处理器104接收流优先级信息(例如,所述信息可包含每一流的试验性的或初始位速率、流中的每一者的优先级配置或排序、基于场景分类的分组信息、流的采样率或带宽、其它信息或其组合)的实施方案中,流优先级模块110可至少部分基于所接收流优先级信息将优先级指派到多个流131到133。参考图3进一步详细描述音频流的优先级确定的说明性实例。
IVAS编解码器102经配置以基于多个流中的每一者的优先级确定多个流的分析及编码序列(例如,多个流中的每一者的帧的编码序列)。在特定实施方案中,在编码具有较低优先级的流之前编码具有较高优先级的流。为了说明,在其它流的编码之前编码流131到133中具有最高优先级的流,且在编码其它流之后编码流131到133中具有最低优先级的流。
IVAS编解码器102经配置以对大部分帧使用比用于编码具有较低优先级的流较高的位速率编码具有较高优先级的流。举例来说,相比于用于编码低优先级流的相等大小的部分(例如,帧)的许多位,可使用两倍位来编码高优先级流的部分(例如,帧)。由于用于经编码流经由位流126的传输的整体位速率受到位流126的可用传输带宽的限制,因此用较高位速率编码较高优先级流提供较大数目个位以传递具有较高优先级流的信息,从而相较于通过传递具有较低优先级流的信息的较少数目个位所允许的较低精确性重现,在接收器处允许较高优先级流的较高精确性重现。
可对多个所接收多流格式化音频数据122中的每一会话或每一部分或“帧”执行优先级的确定。在特定实施方案中,每一流131到133包含在时间上与流131到133的其它流的帧对准或同步的帧序列。流优先级模块110可经配置以逐个帧处理流131到133。举例来说,流优先级模块110可经配置以接收流131到133中的每一者的第i个帧(其中i为整数),分析每一流131到133的一或多个特性以确定对应于所述第i个帧的流的优先级,基于经确定优先级产生用于编码每一流131到133的第i个帧的置换序列,及根据置换序列编码流131到133中的每一者的每一第i个帧。在编码流131到133的第i个帧之后,流优先级模块110继续流131到133中的每一者的下一帧(例如,帧i+1)的处理:通过基于第(i+1)个帧确定每一流的优先级,产生用于编码第(i+1)个帧的置换序列,及编码第(i+1)个帧中的每一者。参考图3进一步详细描述逐个帧流优先级确定及编码序列产生的另一实例。
流选择模块115可确定多流格式化音频数据122中的每一流131到133的相似性值。流选择模块115可基于对应于流的信号的一或多个特性确定所述流中的每一者的相似性值。信号特性的非限制性实例可包含自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜。
在一些实施方案中,流选择模块115可通过将第一特定流的第一帧的第一信号特性与第一特定流的至少一个先前帧的第二信号特性相比较来确定流131到133中的任一者的相似性值(例如,与其自身流的先前帧的时间相似性)。另外或替代地,流选择模块115可通过将第一特定流的第一帧的第一信号特性与第二特定流(其不同于第一特定流)的第二帧的第二信号特性相比较来确定流131到133中的任一者的相似性值(例如,与另一流的对应帧的时间相似性)。另外或替代地,流选择模块115可基于流131到133之间的空间邻近度确定流131到133中的每一者的相似性值。在一些实施方案中,前端音频处理器104可将指示各流131到133的源的空间特性(例如,方位角、仰角、到达方向等)的信息提供到流选择模块115。可替代地,流选择模块115可基于流131到133之间的时间相似性及空间邻近度的组合确定流131到133的特定流的相似性值。
流选择模块115可将流131到133中的每一者的相似性值与阈值进行比较。基于所述比较,流选择模块115可识别所接收音频流(例如,N)当中需由IVAS编解码器102中的音频编码器编码的音频流的子集(例如,L)。流选择模块115可对多流格式化音频数据122中的流131到133中的一些使用不同阈值。由IVAS编解码器102编码所接收音频流的子集可导致提高经译码(编码且随后接着解码)音频流的质量的潜在益处,或通过允许用比最初针对所有所接收的编码分配的更多位编码所选择的L个流减少译码失真。在一些实施方案中,流选择模块115可响应于第一特定流的第一相似性值不满足阈值(例如,第一相似性值=0)的确定而识别不经编码的第一特定流。另外或替代地,流选择模块115可响应于第二特定流的第二相似性值满足阈值(例如,第二相似性值=1)的确定而识别待编码的第二特定流。
在一些实施方案中,流选择模块115可基于空间邻近度满足阈值(例如,第一特定流及第二特定流具有类似空间特性)的确定来识别将与第二特定流组合或合并的第一特定流。编码经组合的第一流及第二流。另外或替代地,流选择模块115可响应于第二特定流的第二相似性值满足阈值(例如,第二相似性值=1)的确定而识别待编码的第二特定流。
在一些实施方案中,哪些流将经编码或不经编码的确定(例如,每一所接收音频流的相似性值的确定)可通过IVAS编解码器102以叠代方式确定。举例来说,IVAS编解码器102可在将基于第一准则经译码(或未经译码)的所接收音频流当中选择流的第一子集。接着,IVAS编解码器102可在将基于第二准则经译码(或未经译码)的流的第一子集当中选择流的第二子集。可替代地,哪些流将经编码或不经编码的确定(例如,每一所接收音频流的相似性值的确定)可通过IVAS编解码器102以封闭回路方式确定。举例来说,封闭回路确定可通过IVAS编解码器102内具有部分音频解码器或合成来实施。
IVAS编解码器102经配置以组合流131到133的经编码部分以产生位流126。在特定实施方案中,位流126具有帧结构,其中位流126的每一帧包含流131到133中的每一者的经编码帧。在说明性实例中,位流126的第i个帧包含流131到133中的每一者的经编码第i个帧,以及例如帧标头、流优先级信息或位速率信息、位置元数据等之元数据。参考图4进一步详细描述位流126的格式的说明性实例。
在操作期间,前端音频处理器104分别从M个麦克风106到109接收M个音频信号136到139,且执行前端处理以产生N个流131到133。在一些实施方案中,N等于M,但在其它实施方案中,N不等于M。举例来说,当来自麦克风106到109的多个音频信号经由波束成形组合成单一流时,M大于N。
流131到133的格式可基于麦克风106到109的位置、麦克风的类型或其组合来确定。在一些实施方案中,流格式通过装置101的制造商进行配置。在一些实施方案中,流格式由前端音频处理器104基于装置101的应用情境(例如,双向交谈式会议)控制或配置成IVAS编解码器102。在其它状况下,在流或交谈式通信使用状况的情况下,流格式也可在装置101与对应位流126接收端装置(例如,含有解码位流126的IVAS解码器的装置)之间进行协商。在某些情形中,例如当流121到124具有独立流(IS)格式时,产生空间元数据124,且将其提供到IVAS编解码器102。在其它格式(例如,立体声、SBA、MC)中,可从前端音频处理器104部分地导出空间元数据124。在实例实施例中,空间元数据可针对不同输入格式而不同,且也可嵌入于输入流中。
IVAS编解码器102分析流131到133,且确定流131到133中的每一者的优先级配置。IVAS编解码器102将较高位速率分配到具有较高优先级的流,且将较低位速率分配到具有较低优先级的流。IVAS编解码器102基于优先级编码流131到133,且将所得经编码流数据组合以产生输出位流126。
确定指示音频流131到133中的每一者的优先级(“优先级值”)的优先级或值且基于其优先级编码每一音频流使得IVAS编解码器102能够将较高位速率分配到具有较高优先级的流且将较低位速率分配到具有较低优先级的流。由于使用较高位速率编码信号允许在接收装置处的初始信号的较高精确性重现,因此可相较于重现例如背景噪声的较低优先级音频流的较低精确性,在例如语音的更重要音频流的重构建期间在接收装置处获得较高精确性。因此,在将位流126发送到接收装置时更有效地使用传输资源。
尽管系统100说明为包含四个麦克风106到109(例如,M=4),但在其它实施方案中,系统100可包含不同数目个麦克风,例如两个麦克风、三个麦克风、五个麦克风或大于五个麦克风。尽管系统100说明为产生三个音频流131到133(例如,N=3),但在其它实施方案中,系统100可产生不同数目个音频流,例如两个音频流、四个音频流或大于四个音频流。尽管前端音频处理器104描述为提供空间元数据124以支持例如独立流(IS)格式的一或多个音频格式,但在其它实施方案中,前端音频处理器104可能不会将空间元数据提供到IVAS编解码器102,例如前端音频处理器104并不提供显式空间元数据,而是合并于流自身中的实施,从而(例如)构建一个主要流及其它次要流以反映空间元数据。尽管系统100实施于单一装置101中,但在其它实施方案中,系统100的一或多个部分可实施于单独的装置中。举例来说,麦克风106到109中的一或多者可实施于耦合到前端音频处理器104的装置(例如,无线耳机)处,前端音频处理器104可实施于与IVAS编解码器102分离但以通信方式耦合到所述IVAS编解码器的装置中,或其组合。
图2描绘系统200,其包含经由网络216耦合到接收编解码器210(例如,IVAS编解码器)的IVAS编解码器102。呈现与双耳道化(binauralize)电路218耦合到接收编解码器210的输出端。IVAS编解码器102耦合到开关220或其它输入接口,所述开关或其它输入接口经配置以接收多个音频数据格式222中的一者中的音频数据的多个流。举例来说,作为说明性非限制性实例,开关220可经配置以从包含具有多流立体声格式的N=2音频流231、具有SBA格式的音频流232(例如,N=4到49)、具有多信道格式的音频流233(例如,N=6(例如,5.1)到12(例如,7.1+4))或具有独立流格式的音频流234(例如,N=1到8,加上空间元数据)的各种输入类型中进行选择。在特定实施方案中,开关220耦合到产生音频流的音频处理器(例如图1的前端音频处理器104),且可经配置以在输入类型或输入格式的组合当中动态地进行选择(例如,高速切换)。
IVAS编解码器102包含耦合到核心编码器204的格式预处理器202。格式预处理器202经配置以执行一或多个预处理功能,例如降混(DMX)、解相关等。格式预处理器202的输出经提供到核心编码器204。核心编码器204包含图1的流优先级模块110,且经配置以确定每一所接收音频流的优先级且编码音频流中的每一者,从而(例如)使用较高位速率、经扩展带宽编码较高优先级流;及(例如)使用较低位速率、经缩减带宽编码较低优先级流。核心编码器204包含图1的流选择模块115,且经配置以确定每一所接收音频流的相似性值及识别所接收音频流当中待编码的音频流的子集。
接收编解码器210经配置以经由网络216从IVAS编解码器102接收位流126。举例来说,网络216可包含一或多个无线网络、一或多个有线网络或其任何组合。在特定实施方案中,网络216包含4G/5G长期演进语音(VoLTE)网络或Wi-Fi语音(VoWiFi)网络。
接收编解码器210包含耦合到格式后处理器214的核心解码器212。核心解码器212经配置以解码位流216中的经编码音频流的经编码部分,以产生经解码音频流。举例来说,核心解码器212可产生图1的第一音频流131的第一经解码版本、图1的第二音频流132的第二经解码版本及图1的第三音频流133的第三经解码版本。音频流的经解码版本可归因于网络216中的受限传输带宽或有损压缩而不同于初始音频流131到133。然而,由于用较高位速率编码具有较高优先级的音频流,相较于较低优先级流的经解码版本,较高优先级流的经解码版本通常为初始音频流的较高精确性重现。举例来说,使用较高优先级配置或分辨率译码定向源,而使用较低优先级配置译码较扩散的源或声音。经扩散声音的译码可基于过去帧相较于定向声音更依赖于模型建立(例如,混响、扩散)。
核心解码器212经配置以基于包含于位流216中的信息执行帧擦除方法以产生经解码音频流。举例来说,核心解码器212可通过解码位流216内的经编码音频流131、132的经编码部分产生图1的第一音频流131的第一经解码版本及图1的第二音频流132的第二经解码版本。核心解码器212可通过执行帧擦除方法产生图1的第三音频流133的第三经解码版本。核心解码器可基于包含于位流216中的信息执行帧擦除方法。举例来说,此信息可包含第三音频流133的相似性值。
核心解码器212经配置以将音频流的经解码版本输出到格式后处理器214。格式后处理器214经配置以处理音频流的经解码版本以具有与呈现与双耳道化电路218兼容的格式。在特定实施方案中,格式后处理器214经配置以支持立体声格式、SBA格式、多信道格式及独立流(IS)格式,且经配置以询问显现与双耳道化电路218的格式能力以选择适当输出格式。格式后处理器214经配置以将所选择格式应用于音频流的经解码版本,以产生格式化经解码流240。
呈现与双耳道化电路218经配置以接收格式化经解码流240,且执行呈现与双耳道化处理以产生一或多个输出信号242。举例来说,在对应于音频源的空间元数据经由位流126提供(例如,独立流译码实施)且通过呈现与双耳道化电路218支持的实施方案中,在音频信号242的产生期间使用空间元数据,从而在耦合到呈现与双耳道化电路218的输出装置(例如,头戴式耳机或扬声器系统)处的重现期间仿真音频源的空间特性。在另一实例中,在未提供对应于音频源的空间元数据的实施方案中,呈现与双耳道化电路218可在空间中局部地选择源的实体位置。
在操作期间,经由开关220在IVAS编解码器102处接收音频流。举例来说,可从图1的前端音频处理器104接收音频流。所接收音频流具有与IVAS编解码器102兼容的格式222中的一或多者。
格式预处理器202对音频流执行格式预处理,且将经预处理音频流提供到核心编码器204。核心编码器204对经预处理音频流执行如图1中所描述的基于优先级的编码,且产生位流126。位流126可具有基于IVAS编解码器102与接收编解码器210之间的经由网络216的传输位速率而确定的位速率。举例来说,IVAS编解码器102及接收编解码器210可基于网络216的信道条件协商位流126的位速率,且位速率可响应于改变网络条件而在位流126的传输期间进行调整。IVAS编解码器102可基于音频流的相对优先级,分摊位以携载经预处理音频流中的每一者的经编码信息,使得位流126中的经组合的经编码音频流不超出所协商的位速率。IVAS编解码器102可基于流的优先级配置及置换次序确定不译码一或多个流,且译码仅一或多个所选择流,此取决于可用于译码独立流的总位速率。在一个实例实施例中,总位速率为24.4kbps,且存在三个独立的待译码流。基于网络条件,如果总位速率缩减到13.2kbps,那么IVAS编解码器102可确定编码三个输入流中的仅2个独立流,以在部分地牺牲空间质量的同时保留会话的固有信号质量。基于网络特性,当总位速率再次增大到24.4kbps时,那么IVAS编解码器102可恢复标称地译码所有三个流。
核心解码器212接收且解码位流126,以产生经预处理音频流的经解码版本。格式后处理器214处理经解码版本以产生具有与呈现与双耳道化电路218兼容的格式的格式化经解码流240。呈现与双耳道化电路218产生音频信号242,用于由输出装置(例如,头戴式耳机、扬声器等)重现。
在一些实施方案中,核心译码器或IVAS编解码器102经配置以执行1到6个流的独立译码或1到3个流或一些独立流与一些联合流的混合的联合译码,其中联合译码为流对的共同译码,且接收器编解码器210的核心解码器经配置以执行1到6个流的独立解码或1到3个流或一些独立流与联合流的混合的联合解码。在其它实施方案中,IVAS编解码器102的核心译码器经配置以执行7个或大于7个流的独立译码或4个或大于4个流的联合译码,且接收器编解码器210的核心解码器经配置以执行7个或大于7个流的独立解码或4个或大于4个流的联合解码。
在IVAS编解码器102处接收的音频流的格式可能不同于经解码流240的格式。举例来说,IVAS编解码器102可接收且编码具有第一格式(例如独立流格式234)的音频流,且接收编解码器210可输出具有第二格式(例如多信道格式)的经解码流240。因此,IVAS编解码器102及接收编解码器210允许装置之间的多流音频数据传送,所述装置将归因于使用不兼容多流音频格式而以其它方式无法进行此类传送。另外,支持多个音频流格式使得IVAS编解码器能够实施于支持音频流格式中的一或多者的多种产品及装置中,其中对此类产品或装置进行极少重新设计或修改,甚至不重新设计或修改。
表1中描绘用于IVAS译码器(例如,IVAS编解码器102)的假码输入接口的说明性实例。
表1
在表1中,IVAS_ENC.exe为命令,其根据所述命令之后的命令线参数启动IVAS译码器处的编码。<N>指示待编码流的数目。
“-IS”为根据独立流格式识别解码的可选旗标。-IS旗标之后的参数
指示系列:流编号(例如,1)、字串编号的方位角值(例如,θ1)及字串编号的仰角值(例如,/>)。在特定实例中,此些参数对应于图1的空间元数据124。
参数<total_bitrate>对应于用于译码以<samplerate>进行采样的N个独立流的总位速率。在另一实施方案中,每一独立流可以给定位速率译码及/或可具有不同采样率(例如,IS1(独立流1):10千位/秒(kbps),宽带(WB)内容;IS2:20kbps,超宽带(SWB)内容;IS3:2.0kbps,SWB舒适噪声)。
参数<input>识别输入流数据(例如,来自图1的前端音频处理器104(例如,存储交错式流131到133的缓冲器)的交错式流的指标)。参数<bitstream>识别输出位流(例如,用于位流126的输出缓冲器的指标)。
IVAS_DEC.exe为命令,其根据所述命令之后的命令线参数启动IVAS译码器处的编码。“-双耳”为指示双耳输出格式的可选命令旗标。<N>指示待解码流的数目,<samplerate>指示流的采样率(或替代地,针对流中的每一者提供不同采样率),<bitstream>指示待解码的位流(例如,在图2的接收经译码210处接收的位流126),且<output>指示经解码位流的输出(例如,接收例如逐个帧交错的交错式配置中的经解码位流,或待于实体装置上实时播放的交错式数据的连续流的缓冲器的指标)。
图3描绘可实施于IVAS编解码器102中的组件的实例300。用于未经编码流数据的第一组缓冲器306及用于经编码流数据的第二组缓冲器308耦合到核心编码器302。流优先级模块110耦合到核心编码器302,且耦合到位速率估计器304。流选择模块115耦合到核心编码器302。帧包化器310耦合到第二组缓冲器308。
缓冲器306经配置以经由多个分别接收或交错式流接收多流格式化音频数据122。缓冲器306中的每一者可经配置以存储对应流的至少一个帧。在说明性实例中,第一缓冲器321存储第一流131的第i个帧,第二缓冲器322存储第二流132的第i个帧,且第三缓冲器323存储第三流133的第i个帧。在第i个帧中的每一者已经编码之后,缓冲器321到323中的每一者可接收且存储对应于其各别流131到133的下一帧(第(i+1)个帧)的数据。在流水线式实施方案中,缓冲器306中的每一者大小经调整以存储其各别流131到133的多个帧,以允许对音频流的一个帧执行预分析,同时对音频流的另一帧执行编码。
流优先级模块110经配置以存取缓冲器321到323中的流数据,且执行每一流的“预分析”以确定对应于单独流的优先级。在一些实施方案中,流优先级模块110经配置以将较高优先级指派到具有较高信号能量的流,且将较低优先级指派到具有较低信号能量的流。在一些实施方案中,流优先级模块110经配置以确定每一流对应于背景音频源抑或对应于前景音频源,且将较高优先级指派到对应于前景源的流且将较低优先级指派到对应于背景源的流。在一些实施方案中,流优先级模块110经配置以将较高优先级指派到具有特定类型的内容的流,例如将较高优先级指派到检测到语音内容的流,且将较低优先级指派到未检测到语音内容的流。在一些实施方案中,流优先级模块110经配置以基于流中的每一者的熵指派优先级。在说明性实例中,向较高熵流指派较高优先级,且向较低熵流指派较低优先级。在一些实施方案中,流优先级模块110还可基于(例如)在感知上更重要、对场景而言更“关键”的声音、叠对于场景中的其它声音上方的背景声音、与漫射有关的方向性、一或多个其它因数或其任何组合配置置换次序。
在流优先级模块110接收外部优先级数据362(例如来自前端音频处理器104的流优先级信息)的实施方案中,流优先级模块110至少部分基于所接收流优先级信息将优先级指派到流。举例来说,前端音频处理器104可指示麦克风130中的一或多者在电话会议应用期间对应于用户麦克风,且可向对应于用户麦克风的音频流指示相对较高优先级。尽管流优先级模块110可经配置以至少部分基于所接收优先级信息确定流优先级,但流优先级模块110可经进一步配置以确定并不精确地黏附于所接收流优先级信息的流优先级信息。举例来说,尽管在电话会议应用期间,对应于用户语音输入麦克风的流可通过外部优先级数据362指示为高优先级,但在对话的一些时间段期间,用户可为沉默的。响应于流归因于用户的静默而具有相对较低信号能量,流优先级模块110可将流的优先级缩减到相对较低优先级。
在一些实施方案中,流优先级模块110经配置以至少部分地基于一或多个前述帧(例如,帧(i-1)、帧(i-2)等)的流的优先级或特性来确定特定帧(例如,帧i)的每一流的优先级。举例来说,流特性及流优先级可相比于帧持续时间相对较慢地改变,且在确定流的优先级时包含历史数据可减少流的解码及播放期间的音频伪影,所述音频伪影可起因于流的编码期间的较大逐个帧位速率变化。
流优先级模块110经配置以基于优先级340确定缓冲器306中的流的译码次序。举例来说,流优先级模块110可经配置以指派范围介于5(最高优先级)到1(最低优先级)的优先级值。流优先级模块110可基于优先级将流分类,从而使得具有优先级5的流位于编码序列的开始处,继之以具有优先级4的流,继之以具有优先级3的流,继之以具有优先级2的流,继之以具有优先级1的流。
实例表372说明分别对应于流的帧(i-2)373、帧(i-1)374及帧i 375的编码序列376、377及378。针对帧i-2 373,流“2”(例如,流132)具有最高优先级且具有对应的编码序列376中的第一序列位置。流“N”(例如,流133)具有下一最高优先级,且具有编码序列376中的第二序列位置。相比流N具有较低优先级的一或多个流(未说明)可在流N之后包含于序列376中。流“1”(例如,流131)具有最低优先级,且具有编码序列376中的最后一个序列位置。因此,用于编码帧(i-2)373的流的编码序列376为:2、N、……、1。
表372还说明,针对下一序列帧(i-1)374,编码序列377针对帧(i-2)373从序列376不变。为了说明,针对帧(i-1)374,流131到133中的每一者关于彼此的优先级相比帧(i-2)373的优先级未发生变化。针对下一序列帧i 375,流1及流N在编码序列378中的位置已交换。举例来说,流2可对应于在电话呼叫期间说话的用户,且可归因于具有相对较高信号能量的流,所检测到语音、前景信号,经由外部优先级数据362指示为重要的或其组合而经识别为高优先级(例如,优先级=5)。流1可对应于接近于在帧i-2及i-1期间沉默且在帧i期间开始说话的第二个人的麦克风。在帧i-2及i-1期间,流1可归因于具有相对较低的信号能量,未检测到语音、背景信号,未经由外部优先级数据362指示为重要的或其组合而经识别为低优先级(例如,优先级=1)。然而,在检索帧i内的第二个人的语音之后,流1可归因于具有相对较高的信号能量,检测到语音及前景信号但未经由外部优先级数据362指示为重要的而经识别为高优先级信号(例如,优先级=4)。
流选择模块115经配置以存取缓冲器321到323中的流数据,且执行每一流的另一“预分析”以确定每一对应的单独流的相似性值345。相似性值345可指示所接收音频流当中特定流的编码是否可绕过核心编码器302而在接收装置处无质量影响(或具有最小质量影响)。可替代地,相似性值345可指示所接收音频流中的特定流是否可通过所接收音频流中的另一流容易地再现或预测。相似性值345可具有二进制值(例如,1或0)或多级值(例如,1到5)。相似性值345也可被称作“临界值”、“可再现值”或“可预测值”。举例来说,如果特定流的帧i可通过接收装置处的音频解码器基于相同特定流的先前帧中的至少一者或另一流中的至少一者的对应帧i容易地再现,那么核心编码器302可有利地绕过(或跳过)特定流的帧i的编码。在一些实施方案中,如果传输装置处的核心编码器302跳过帧i的编码,那么核心编码器302可有利地在位流126中嵌入值,以使得接收装置处的音频解码器基于所述值可执行擦除,例如包丢失擦除或帧丢失擦除方法。在一些实施方案中,核心编码器302可替代地减小特定流的帧i的位速率(从最初经指派位速率减小到较低位速率)。
在一些实施方案中,核心编码器302仍可编码所接收多个音频流中的N个中的所有,但其可基于相似性值345调整编码参数。举例来说,确定所接收音频流中的每一者的相似性值345可使得IVAS编解码器102能够分配不同位速率且使用不同译码模式或译码带宽。在示范性实施例中,IVAS编解码器102可相比具有较高相似性值的流将更多位分配到具有较低相似性值的流,从而导致更有效使用传输资源(例如,无线传输带宽),用于将位流126发送到接收装置。在另一实例实施例中,IVAS编解码器102可对具有较低相似性值的音频流编码升频到超宽带(即,带宽高达例如16kHz),而将具有较高相似性值的音频流编码降频到仅宽带(即,带宽高达例如8kHz)或窄频(即,带宽高达例如4kHz)。
流选择模块115可基于对应于缓冲器306中的流的信号(例如,帧i)的一或多个特性确定缓冲器306中的流中的每一者的相似性值。信号特性的非限制性实例可包含自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜。可对每一帧或子帧计算发声因数,且所述发声因数可指示特定帧或子帧将成为具有周期性特性(例如,音调)的有声帧或有声子帧的可能性。举例来说,可基于正规化音调相关性计算发声因数。静止电平或非静止电平可指示特定帧或子帧具有多少静止或非静止信号特性。正常有声语音信号通常被视为在短时间段(例如,20ms)内为准静止的。归因于正常有声语音信号的准周期性性质,有声语音信号相比于仅有噪声(noisy/noise)的信号通常展示出高度可预测性,所述仅有噪声的信号通常被视为比有声语音信号更不稳定。频谱倾斜可为指示关于能量的频率分布的信息的参数。频谱倾斜可在频域中经估计为集中在低频率的能量与集中在高频率的能量之间的比率。可对每一帧或每一子帧计算频谱倾斜。可替代地,可对每一帧计算两次频谱倾斜。
在一些实施方案中,流选择模块115可通过将第一特定流的第一帧的第一信号特性与第一特定流的至少一个先前帧的第二信号特性相比较来确定缓冲器306中的流的相似性值。举例来说,流选择模块115可通过将第一特定流(例如,第一缓冲器321中的第一流131)的第一帧(例如,帧i)的第一信号特性(例如,发声因数)与第一特定流(例如,第一缓冲器321中的第一流131)的至少一个先前帧(例如,帧i-1)的第二信号特性(例如,发声因数)相比较来确定第一缓冲器321中的流131的相似性值。另外或替代地,流选择模块115可通过将第一特定流的第一帧的第一信号特性与第二特定流(其不同于第一特定流)的第二帧的第二信号特性相比较来确定流131到133中的任一者的相似性值。举例来说,流选择模块115可通过将第一特定流(例如,第一缓冲器321中的第一流131)的第一帧(例如,帧i)的第一信号特性(例如,自适应码簿增益)与第二特定流(例如,第二缓冲器322中的第二流132)的第二帧(例如,帧i)的第二信号特性(例如,自适应码簿增益)相比较来确定第一缓冲器321中的流131的相似性值。
另外或替代地,流选择模块115可基于缓冲器306中的流之间的空间邻近度确定缓冲器306中的流中的每一者的相似性值345。缓冲器306中的流之间的空间邻近度可由流选择模块115确定,或在一些实施方案中,图1的前端音频处理器104可将指示缓冲器306中的各流131到133的源的空间特性(例如,方位角、仰角、到达方向等)的信息提供到所述流选择模块115。举例来说,空间元数据124可包含流131到133中的每一者的声源的经估计空间特性或经估计方向信息,例如方位角值或仰角值。举例来说,如果第一缓冲器321中的第一流131与第二缓冲器322中的第二流132在空间上较接近(例如,两个流的空间邻近度高),那么将第一缓冲器321中的第一流131及第二流132分组(组合或合并)且将经分组流编码为一个流可为有利的。流选择模块115可进一步基于第一帧131的空间元数据与第二帧132的空间元数据的组合产生新的空间元数据。举例来说,新的空间元数据可为两个流131、132的空间元数据的平均值或加权平均值。在替代性实施方案中,如果第一缓冲器321中的第一流131与第二流132在空间上较接近(例如,两个流的空间邻近度高),那么编码第一流131及第二流132中的仅一者可为有利的。举例来说,流选择模块115可将第一流131的第一相似性值与阈值进行比较且响应于第一特定流的第一相似性值不满足所述阈值的确定而识别第一流131不经编码。另外或替代地,流选择模块115可将第二流132的第二相似性值与阈值进行比较且响应于第二特定流的第二相似性值满足所述阈值的确定而识别第二流132将经编码。
另外或替代地,哪些流将经编码或不经编码的确定(例如,缓冲器036中的每一流的相似性值345的确定)可由流选择模块115以叠代方式进行确定。举例来说,流选择模块115可选择将基于第一准则经译码(或未经译码)的存储于缓冲器306中的流当中的流的第一子集。接着,流选择模块115可选择将基于第二准则经译码(或未经译码)的流的第一子集当中的流的第二子集。举例来说,第一准则可基于第一特定流(例如,第一缓冲器321中的第一流131)的第一帧(例如,帧i)的第一信号特性(例如,自适应码簿增益)与第二特定流的第二帧的第二信号特性(例如,自适应码簿增益)的比较,其中第二帧可对应于第一帧(例如,帧i)或对应于另一帧(例如,帧i-1)且第二特定流可或替代地可不与第一特定流相同。第二准则可基于缓冲器321到323中的流131到133之间的空间邻近度。在一些实施方案中,流131到133之间的空间邻近度可基于各流131到133的源的空间特性(例如,方位角、仰角等)确定。空间特性可包含于空间元数据124中。
另外或替代地,哪些流将经编码或不经编码的确定(例如,缓冲器036中的每一流的相似性值345的确定)可由核心编码器302或IVAS编解码器102以封闭回路方式确定。举例来说,封闭回路确定可通过在IVAS编解码器102中的核心编码器302内具有音频解码器来实施。此方法通常被称作合成式分析方法。核心编码器302内的音频解码器可包含其中的包错误隐蔽或帧错误隐蔽模块。通过利用合成式分析方法(或通过封闭回路确定方法),核心编码器302可对缓冲器306中的流131到133中的至少一些执行包错误隐蔽或帧错误隐蔽,以识别所接收音频流131到133中的哪个最适合于由接收装置处的音频解码器强制擦除(例如,不由核心编码器302编码)。在流选择模块115从前端音频处理器104接收流相似性信息的实施方案中,流选择模块115可至少部分地基于所接收流相似性信息确定缓冲器306中的流131到133的相似性值345。
另外或替代地,哪些流将经编码或不经编码的确定(例如,缓冲器036中的每一流的相似性值345的确定)可由流选择模块115或由IVAS编解码器102基于速率选择或其改变来确定。举例来说,视特定时序处可用于译码独立流的总位速率而定,IVAS编解码器102可将一或多个流识别为不编码(例如,将其相似性值设定为0)或将一或多个其它流识别为编码(例如,将其相似性值设定为1)。在一些实施方案中,流选择模块115或IVAS编解码器102可基于速率选择或最初分配的位速率模式(或预算)调整所选择流的数目(L)。举例来说,流选择模块115可积极地减小所选择流的数目(L),当位速率预算小或信道条件不良(例如,用于特定无线通信的位速率选择低)时,所选择流将由核心编码器302编码。
另外或替代地,哪些流将经编码或不经编码的确定(例如,缓冲器036中的每一流的相似性值345的确定)可由流选择模块115或由IVAS编解码器102基于所关注的空间区域(例如,目标视角)来确定。在一些实施方案中,IVAS编解码器102可确定特定流在目标视角之内或之外(例如,角度在θ1度或θ2度之间)。此确定可基于特定流的到达方向(其可由IVAS编解码器102或前端音频处理器104进行估计)的估计,或可基于各流的先前统计信息。举例来说,如果任何特定流的源经确定在所关注的特定空间区域外部(例如,角度在30度或-30度之间),那么流选择模块115或IVAS编解码器102可识别未经编码(例如,相似性值=0)或以低于其它流的位速率编码的此特定流,以便在整体信号质量与空间降级之间进行权衡。在一些实施方案中,流选择模块115或IVAS编解码器102可识别从待编码方向的单侧接收的所有流及/或识别从不经编码或用较少位编码的方向的其它侧接收的所有流。举例来说,流选择模块115或IVAS编解码器102可将来自方向左侧的所有流识别为目标视点的外部,且借此将其相似性值设定为零以停用其编码或用较少位编码。类似地,流选择模块115或IVAS编解码器102可将来自方向右侧的所有流识别为在目标视点之内,且借此将其相似性值设定为一以启用其编码或用较少位编码。
位速率估计器304经配置以基于当前帧的每一流的优先级或置换次序340、当前帧的编码序列376或其组合,确定用于编码当前帧(例如,帧i)的流中的每一者的经估计位速率。举例来说,可向具有优先级5的流指派最高经估计位速率,可向具有优先级4的流指派下一最高经估计位速率,且可向具有优先级1的流指派最低经估计位速率。经估计位速率可至少部分基于可用于输出位流126的总位速率进行确定,例如通过针对较高优先级流将总位速率分割成大小较大的位分配,且针对较低优先级流将总位速率分割成大小较小的位分配。位速率估计器304可经配置以产生使每一流343与其所指派经估计位速率344相关联的表343或其它数据结构。
核心编码器302经配置以根据流中的每一者的置换序列及相似性值编码流中的每一者的至少一部分。举例来说,为编码对应于帧i 375的每一流的部分,核心编码器302可从流优先级模块110接收编码序列378,且可首先编码流2,继之以编码流1,且最后编码流N。在多个流可并行编码的实施方案中,例如其中核心编码器302包含多个/联合语音编码器、多个/联合MDCT编码器等,根据置换序列选择用于编码的流,但具有不同优先级的多个流可同时编码。举例来说,优先级5主要用户语音流可与优先级4次要用户语音流并行编码,而较低优先级流在较高优先级语音流之后进行编码。
核心编码器302在编码特定流的帧时对彼流的经估计位速率350做出响应。举例来说,核心编码器302可针对特定流选择未超出所述流的经估计位速率的特定译码模式或带宽。在针对特定流编码当前帧之后,将实际位速率352提供到位速率估计器304,且提供到帧包化器310。
核心编码器302经配置以根据缓冲器306中的流中的每一者的相似性值345编码流中的每一者的至少一部分。可替代地或另外,核心编码器302经配置以根据相似性值345及置换序列(或置换次序)两者编码流中的每一者的至少一部分。举例来说,为编码对应于帧i375的每一流的部分,核心编码器302可从流优先级模块110接收编码序列378,且可首先编码流2,继之以编码流1,且最后编码流N。然而,核心编码器302可基于流1的相似性值345不满足阈值(例如,相似性值=0)的流选择模块的确定而跳过或绕过特定流(例如,流1)。
核心编码器302经配置以将每一流的经编码部分写入到第二组缓冲器308的对应缓冲器中。在一些实施方案中,编码器302通过将经编码帧从缓冲器321写入到缓冲器331中,将经编码帧从缓冲器322写入到缓冲器332中,以及将经编码帧从缓冲器323写入到缓冲器333中来保持每一流的缓冲器地址。在另一实施方案中,编码器根据编码次序将经编码帧写入到缓冲器308中,从而使得最高优先级流的经编码帧被写入到第一缓冲器331中,下一最高优先级流的经编码帧被写入到缓冲器332中,等等。
位速率估计器304经配置以将实际位速率352与经估计位速率350进行比较,且基于实际位速率352与经估计位速率350之间的差异更新一或多个较低优先级流的经估计位速率。举例来说,如果流的经估计位速率超过流的经编码位速率,例如在流可高度压缩且可使用相对较少个位进行编码时,那么额外位容量可用于编码较低优先级流。如果流的经估计位速率小于流的经编码位速率,那么经减少的位容量可用于编码较低优先级流。位速率估计器304可经配置以将流的经估计位速率与流的经编码位速率之间的“增量(delta)”或差异同等地分布于所有较低优先级流当中。作为另一实例,位速率估计器304可经配置以将“增量”分布到下一最高优先级流(在增量导致可用的编码位速率减少时)。应注意,可实施用于将“增量”分布到较低优先级流的其它技术。
帧包化器310经配置以通过从缓冲器308检索经编码帧数据且增加标头信息(例如,元数据)以允许接收编解码器处的解码来产生输出位流126的帧。参考图4描述输出帧格式的实例。
在操作期间,可针对流(例如,具有独立流译码(IS)格式的N个流)的第i个帧执行编码。流中的每一者的第i个帧可经接收于缓冲器306中,且可由流优先级模块110预分析以指派优先级且确定编码序列378(例如,译码的置换次序)。
预分析可基于帧i以及过去帧(i-1、i-2等)的源特性。预分析可产生可对流进行编码的位速率的试验性集合(例如,第n个流的第i个帧的经估计位速率可表示为IS_br_tent[i,n]),以使得最高优先级流接收最多数目个位且最小优先级流可接收最少数目个位,同时保持对总位速率的约束:IS_br_tent[i,1]+IS_br_tent[i,2]+…+IS_br_tent[i,N]<=IS_total_rate。
预分析还可产生对流译码的置换次序(例如,帧i的置换次序:2,1,…N;帧i+1的置换次序:1,3,N,…2等),以及可包含(例如)核心采样率、译码器类型、译码模式、作用中/不在作用中的初始译码配置。
流中的每一者的IS译码可基于此置换次序、试验性位速率、初始译码配置。在特定实施方案中,编码第n个优先级独立流(例如,编码序列378的第n个位置中的流)包含:预处理以改进译码配置及第n个流的实际位速率;以等于IS_br[i,n]kbps的位速率(br)译码第n个流;估计增量,即IS_delta[i,n]=(IS_br[i,n]-IS_br_tent[i,n]);将增量添加到下一优先级流且更新第(n+1)个优先级流的经估计(试验性)位速率,即IS_br_tent[i,n+1]=IS_br[i,n+1]+IS_delta[i,n],或将增量分布到其余流,与其余流中的每一流的位分配成比例;及将与第n个流相关联的位流(例如,IS_br[i,n]位的数目)暂时存储于缓冲器中,例如缓冲器308中的一者中。
基于所有其它流的优先级置换次序(例如,根据编码序列378)对所述流重复上文所描述的编码。IS位缓冲器中的每一者(例如,缓冲器331到333中的每一者的内容)可以预定义次序装配到位流126中。图4中描绘位流126的帧i、i+1、i+2的实例说明。
尽管在一些实施方案中,可(例如,通过应用处理器)从IVAS编解码器102外部指定流优先级或位分配配置,但由IVAS编解码器102执行的预分析具有改变此位分配结构的灵活性。举例来说,当外部信息指示一个流为高优先级且推测为使用高位速率进行编码,但所述流在特定帧中具有非作用内容时,预分析可检测非作用内容,且即使指示为高优先级,还针对彼帧缩减流的位速率。
尽管图3描绘包含编码序列376到378的表372,但应理解,表372是出于解释的目的予以说明,且IVAS编解码器102的其它实施方案并不产生表或其它数据结构以表示编码序列。举例来说,在一些实施方案中,经由搜索未经编码流的优先级及选择未经编码流的最高优先级流,直到已针对特定帧编码所有流为止确定编码序列,而未产生专用数据结构以存储经确定编码序列。在此些实施方案中,编码序列的确定在编码正在进行时执行,而非作为离散操作执行。
尽管流优先级模块110描述为经配置以确定流特性数据360,但在其它实施方案中,预分析模块可实际上执行预分析(例如,以确定信号能量、熵、语音检测等),且可将流特性数据360提供到流优先级模块110。
尽管图3描绘第一组缓冲器306及第二组缓冲器308,但在其它实施方案中,可省略所述组缓冲器306及308中的一者或两者。举例来说,可在核心编码器302经配置以从单一缓冲器检索交错式音频流数据的实施方案中省略第一组缓冲器306。作为另一实例,可在核心编码器302经配置以将经编码音频流数据直接插入到帧包化器310中的帧缓冲器中的实施方案中省略第二组缓冲器308。
参考图4,针对经编码IS音频流描绘位流126的帧的实例400。第一帧(帧i)402包含帧识别符404、IS标头406、流1(IS-1)408的经编码音频数据、流2(IS-2)410的经编码音频数据、流3(IS-3)412的经编码音频数据、流4(IS-4)414的经编码音频数据及流5(IS-5)416的经编码音频数据。
IS标头406可包含IS流408到416中的每一者的长度。可替代地,IS流408到416中的每一者可为独立的且包含IS译码的长度(例如,IS译码的长度可经编码成每一IS流的前3个位)。替代地或另外,流408到416中的每一者的位速率可包含于IS标头406中,或可经编码成各别IS流。IS流还可包含或指示空间元数据124。举例来说,可使用空间元数据124的经量化版本,其中每一IS流的量化的量是基于IS流的优先级。为了说明,针对高优先级流的空间元数据编码可将4个位用于方位角数据且将4个位用于仰角数据,且针对低优先级流的空间元数据编码可将3个位或较少位用于方位角数据且将3个位或较少位用于仰角数据。应理解,提供4个位作为说明性非限制性实例,且在其它实施方案中,可将任何其它数目个位用于方位角数据、仰角数据或其任何组合。IS流还可包含或指示经编码流中的每一者的相似性值。
第二帧(帧i+1)422包含帧识别符424、IS标头426、流1(IS-1)428的经编码音频数据、流2(IS-2)430的经编码音频数据、流3(IS-3)432的经编码音频数据、流4(IS-4)434的经编码音频数据及流5(IS-5)436的经编码音频数据。第三帧(帧i+2)442包含帧识别符444、IS标头446、流1(IS-1)448的经编码音频数据、流2(IS-2)450的经编码音频数据、流3(IS-3)452的经编码音频数据、流4(IS-4)454的经编码音频数据及流5(IS-5)456的经编码音频数据。
优先级流中的每一者可始终使用固定数目个位,其中最高优先级流使用总位的30到40%,且最低优先级流可使用总位的5到10%。可实际上发送流的优先级数目个而非发送位的数目个(或IS译码的长度),从此接收器可推断第n个优先级流的IS译码的长度。在其它替代性实施方案中,可通过按特定优先级次序(例如,递增或递减)将每一流的位流放置于位流帧中而省略优先级数目的传输。
应理解,说明性帧402、422及442使用不同于参考图1到3提供的实例的流优先级及编码序列进行编码。表2说明流优先级,且表3说明对应于帧402、422及442的编码的编码序列。
表2
用于编码的置换序列
帧i 3,2,1,5,4
帧i+1 4,1,5,2,3
帧i+2 5,4,3,2,1
表3
位流462说明作为第三帧(帧i+2)442的基于相似性的流的结果的示范性位流。位流462包含帧识别符464、IS标头466、流1(IS-1)468的经编码音频数据、流2(IS-2)470的经编码音频数据、流3(IS-3)472的经编码音频数据、流4(IS-4)474的经编码音频数据及流5(IS-5)476的经编码音频数据。基于流5(IS-5)456的帧i+2的高优先级值或优先级次序(例如,优先级=1),其在位流442中以12kbps位速率进行编码,然而由于流4(IS-4)454的帧i+2的较低优先级值或优先级次序(例如,优先级=2),其以较少位速率(例如,8kbps)进行编码。然而,在位流462中,由于流5(IS-5)的经编码数据的相似性值为零,其大小小于1kbps。在此特定实例中,相似性值为零在此实例中打算指示流选择模块115所识别的流5(IS-5)的帧i+2归因于其高时间相似性或其与其它帧的高空间邻近度而容易由至少一个其它帧可预测(或可再现)。流5(IS-5)的经编码数据的大小小于1kbps打算指示核心编码器204跳过流5(IS-5)的编码或替代地用较少位速率编码流5(IS-5)(例如,编码降频)。在一些替代性实施方案中,位流462可包含指示流5(IS-5)不由核心编码器204编码的信息,而非包含流5(IS-5)的经编码音频数据。举例来说,帧识别符464或IS标头466可包含指示流5(IS-5)未经编码的信息(例如,至少一个参数)。
在一些实施方案中,位流462可进一步包含指示流5未经编码的原因(例如,由于高时间相似性或与其它帧的高空间邻近度)或如何在包含音频解码器的接收侧处重构建流5(IS-5)的信息(例如,至少一个参数)。举例来说,位流462可包含指示流5(IS-5)的帧i+2由于其与流5(IS-5)436的帧i+1的时间相似性高(例如,与其自身流的先前帧的时间相似性高)而未经编码的信息。此信息可迫使核心解码器212基于流5(IS-5)的帧i+1的经解码数据重构建流5(IS-5)的帧i+2。在另一实例中,位流462可包含指示流5(IS-5)的帧i+2由于其与流3(IS-3)472的帧i+2的时间相似性高(例如,与另一流的对应帧的时间相似性高)而未经编码的信息。此信息可迫使核心解码器212基于流3(IS-3)472的帧i+2的经解码数据重构建流5(IS-5)的帧i+2。类似地,位流462可包含指示流5(IS-5)的帧i+2由于其与流2(IS-2)470的帧i+2的空间邻近度高而未经编码的信息。此信息可迫使核心解码器212基于流2(IS-2)470的帧i+2的经解码数据重构建流5(IS-5)的帧i+2。
图5为多流编码的方法500的特定实例的流程图。方法500可由编码器执行,例如图1到3的IVAS编解码器102。举例来说,可在图6的移动装置600或图7的基站700处执行方法500。
方法500包含在501处,在音频编码器处接收音频数据的多个流,其中N为所接收音频数据的多个流的数目。在特定实例中,多个流对应于包含N个流131到133的多流格式化音频数据122。举例来说,多个流可具有独立流译码格式、多信道格式或基于场景的音频格式。
方法500包含在503处,确定对应于所接收多个流当中的多个流的多个相似性值。在特定实例中,流选择模块115确定流131到133中的所有或子集中的每一者的相似性值以产生相似性值345。多个流中的特定流的相似性值基于特定流的帧的一或多个信号特性来确定。在实例中,流选择模块115可基于流中的每一者的空间元数据124(例如,高空间邻近度或低空间邻近度)来确定多个流中的特定流的。在另一实例中,流选择模块115可基于与特定流的先前帧或另一流的对应帧的时间相似性来确定多个流中的特定流的相似性值。可替代地,流选择模块115可基于时间相似性与空间邻近度的组合来确定特定流的相似性值。在特定实施方案中,一或多个信号特性包含自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜中的至少一者。流相似性信息(例如,外部相似性数据364)还可在音频编码器处从前端音频处理器(例如,前端音频处理器104)接收,且特定流的相似性值至少部分地基于所述流相似性信息来确定。
方法500包含在505处,将对应于多个流当中的每一流的相似性值与阈值进行比较。在特定实例中,流选择模块115可将相似性值中的每一者与阈值进行比较。基于所述比较,流选择模块115可识别所接收音频流(例如,N)当中需由核心编码器204、302编码的音频流的子集(例如,L)。流选择模块115可对所接收音频流当中的流中的一些使用不同阈值。
方法500包含在506处,基于所述比较识别所接收多个流中的N个当中待编码的L个流(L<N)。在特定实例中,流选择模块115可响应于第一特定流的第一相似性值不满足阈值(例如,第一相似性值=0)的确定而识别第一特定流不经编码。另外或替代地,流选择模块115可响应于第二特定流的第二相似性值满足阈值(例如,第二相似性值=1)的确定而识别第二特定流待编码。为了说明,流选择模块115可接收5个流(IS1到IS5),且可识别待编码(例如,相似性值=1)的4个流(IS1到IS4),且识别不经编码(例如,相似性值=0)的IS-5。
方法500包含在507处,编码经识别的L个流以产生经编码位流。在特定实例中,核心编码器204、302或IVAS编解码器102可基于由流选择模块115所确定的其相似性值(例如,相似性值=1)且另外基于如表2中所说明的流优先级及如表3中所说明的编码序列378(例如,译码的置换次序)编码4个流(IS1到IS4)。
在特定实施方案中,方法500可包含在编码经识别的L个流之前,将优先级值指派到所接收多个流的一部分。举例来说,将优先级值指派到所接收多个流的部分可在确定对应于所接收多个流当中的多个流的多个相似性值之前或之后执行。在另一实施方案中,方法500可进一步包含基于经指派到所接收多个流的部分的优先级值来确定置换序列。在一些实施方案中,方法500可将经估计位速率(例如,经估计位速率350)指派到所接收多个流当中的流(例如,经识别的L个流)中的至少一些。在编码特定流的部分(例如,帧i)之后,可更新相比特定流具有较低优先级的至少一个流的经估计位速率,例如参考位速率估计器304所描述的。更新经估计位速率可基于特定流的经编码部分的经估计位速率与特定流的经编码位速率之间的差异。
在一些实施方案中,方法500还包含经由网络216将经编码位流传输到音频解码器(例如,核心解码器212)。位流126包含指示优先级值、相似性值、位长度或经编码流中的每一流的编码位速率中的至少一者的元数据(例如,IS标头406)。位流126还可包含元数据,所述元数据包含对应经编码流中的每一流的空间数据(例如图1的空间元数据124),所述空间数据包含经编码多个流中的每一流的方位角数据及仰角数据,例如参考表1所描述的。
参考图6,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且通常将所述装置指定为600。在各种实施方案中,装置600相比图6中所说明可具有较少或较多组件。在说明性实施方案中,装置600可对应于图1的装置101或图2的接收装置。在说明性实施方案中,装置600可执行参考图1到5的系统及方法所描述的一或多个操作。
在特定实施方案中,装置600包含处理器606(例如,中央处理单元(CPU))。装置600可包含一或多个其它处理器610(例如,一或多个数字信号处理器(DSP))。处理器610可包含媒体(例如,语音及音乐)译码器-解码器(coder-decoder,CODEC)608及回音消除器612。媒体CODEC 608可包含核心编码器204、核心解码器212或其组合。在一些实施方案中,媒体CODEC 608包含格式预处理器202、格式后处理器214、呈现与双耳道化电路218或其组合。
装置600可包含存储器653及CODEC 634。尽管媒体CODEC 608说明为处理器610的组件(例如,专用电路及/或可执行程式码),但在其它实施例中,媒体CODEC 608的一或多个组件(例如编码器204、解码器212或其组合)可包含于处理器606、CODEC 634、另一处理组件或其组合中。CODEC 634可包含一或多个数字/模拟转换器(DAC)602及模拟/数字转换器(ADC)604。CODEC 634可包含图1的前端音频处理器104。
装置600可包含耦合到天线642的接收器632。装置600可包含耦合到显示控制器626的显示器628。一或多个扬声器648可耦合到CODEC 634。一或多个麦克风646可经由一或多个输入接口603耦合到编解码器534。在特定实施方案中,麦克风646可包含麦克风106到109。
存储器653可包含可由处理器606、处理器610、CODEC 634、装置600的另一处理单元或其组合执行,以执行参考图1到5所描述的一或多个操作的指令691。
装置600的一或多个组件可经由专用硬件(例如,电路)、由执行指令以执行一或多个任务的处理器或其组合实施。作为实例,存储器653或处理器606、处理器610及/或CODEC634的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可去除式磁盘或紧密光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令691),当由计算机(例如,CODEC 634中的处理器、处理器606及/或处理器610)执行时,所述指令可使计算机执行参考图1到5所描述的一或多个操作。作为实例,存储器653或处理器606、处理器610及/或CODEC 634中的一或多个组件可为包含指令(例如,指令691)的非暂时性计算机可读媒体,当由计算机(例如,CODEC 634中的处理器、处理器606及/或处理器610)执行时,所述指令使得计算机执行参考图1到5所描述的一或多个操作。
在特定实施方案中,装置600可包含于系统级封装或系统单芯片装置(例如,移动台调制解调器(MSM))622中。在特定实施方案中,处理器606、处理器610、显示控制器626、存储器653、CODEC 634及接收器632包含于系统级封装或系统单芯片装置622中。在特定实施方案中,例如触控屏幕及/或小键盘的输入装置630及电力供应器644耦合到系统单芯片装置622。此外,在特定实施方案中,如图6中所说明,显示器628、输入装置630、扬声器648、麦克风646、天线642及电力供应器644在系统单芯片装置622外部。然而,显示器628、输入装置630、扬声器648、麦克风646、天线642及电力供应器644中的每一者可耦合到系统单芯片装置622的组件,例如接口或控制器。
装置600可包含:无线电话、移动通信装置、移动电话、智能型手机、蜂窝式电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放机、收音机、视频播放机、娱乐单元、通信装置、固定位置数据单元、个人媒体播放机、数字视频播放机、数字视频光盘(DVD)播放机、调谐器、摄影机、导航装置、解码器系统、编码器系统或其任何组合。
参考图7,描绘基站700的特定说明性实例的框图。在各种实施方案中,基站700可相比图7中所说明具有较多组件或较少组件。在说明性实例中,基站700可包含图1的第一装置101。在说明性实例中,基站700可根据参考图1到5所描述的方法或系统中的一或多者操作。
基站700可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信(GSM)系统、无线网络局域网(WLAN)系统或一些其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA)或一些其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动台、终端机、存取终端机、用户单元、工作台等。无线装置可包含蜂窝式电话、智能型电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记型计算机、迷你笔记型计算机、平板计算机、无接线电话、无线区域回路(WLL)站、蓝芽装置等。无线装置可包含或对应于图6的装置600。
各种功能可由基站700(及/或在未展示的其它组件中)中的一或多个组件执行,例如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站700包含处理器706(例如,CPU)。基站700可包含转码器710。转码器710可包含音频CODEC 708。举例来说,转码器710可包含经配置以执行音频CODEC 708的操作的一或多个组件(例如电路)。作为另一实例,转码器710可经配置以执行一或多个计算机可读指令以执行音频CODEC708的操作。尽管音频CODEC 708说明为转码器710的组件,但在其它实例中,音频CODEC 708的一或多个组件可包含于处理器706、另一处理组件或其组合中。举例来说,解码器738(例如声码器解码器)可包含于接收器数据处理器764中。作为另一实例,编码器736(例如,声码器编码器)可包含于传输数据处理器782中。
转码器710可起到在两个或大于两个网络之间转码消息及数据的作用。转码器710可经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。为了说明,解码器738可解码具有第一格式的经编码信号,且编码器736可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器710可经配置以执行数据速率调适。举例来说,转码器710可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。为了说明,转码器710可将64千位/秒信号降频转换成16千位/秒信号。
音频CODEC 708可包含核心编码器204及核心解码器212。音频CODEC 708还可包含格式预处理器202、格式后处理器214或其组合。
基站700可包含存储器732。例如计算机可读存储装置的存储器732可包含指令。指令可包含可由处理器706、转码器710或其组合执行的一或多个指令,以执行参考图1到5的方法及系统所描述的一或多个操作。基站700可包含耦合到天线阵列的多个传输器及接收器(例如,收发器),例如第一收发器752及第二收发器754。天线阵列可包含第一天线742及第二天线744。天线阵列可经配置以无线方式与一或多个无线装置通信,例如图6的装置600。举例来说,第二天线744可从无线装置接收数据流714(例如,位流)。数据流714可包含消息、数据(例如,经编码语音数据)或其组合。
基站700可包含网络连接760,例如空载传输连接。网络连接760可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站700可经由网络连接760从核心网络接收第二数据流(例如,消息或音频数据)。基站700可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接760将消息或音频数据提供到另一基站。在特定实施方案中,作为说明性非限制性实例,网络连接760可为广域网(WAN)连接。在一些实施方案中,核心网络可包含或对应于公众交换电话网络(PSTN)、包骨干网络或两者。
基站700可包含耦合到网络连接760及处理器706的媒体网关770。媒体网关770可经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关770可在不同传输协议、不同译码方案或两者之间转换。为了说明,作为说明性非限制性实例,媒体网关770可从PCM信号转换成实时输送协议(RTP)信号。媒体网关770可在包交换式网络(例如,因特网通讯协议语音(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络(例如LTE、WiMax及UMB)等)、电路切换网络(例如,PSTN)及混合式网络(例如,第二代(2G)无线网络(例如GSM、GPRS及EDGE)、第三代(3G)无线网络(例如WCDMA、EV-DO及HSPA)等)之间转换数据。
另外,媒体网关770可包含转码,且可经配置以在编解码器不兼容时转码数据。举例来说,作为说明性非限制性实例,媒体网关770可在自适应多重速率(AMR)编解码器与G.711编解码器之间转码。媒体网关770可包含路由器及多个实体接口。在一些实施方案中,媒体网关770还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关770外部、在基站700外部或在两者外部。媒体网关控制器可控制及协调多个媒体网关的操作。媒体网关770可从媒体网关控制器接收控制信号,且可在不同传输技术之间起到桥接器的作用,且可将服务添加到终端用户能力及连接。
基站700可包含耦合到收发器752、收发器754、接收器数据处理器764及处理器706的解调器762,且接收器数据处理器764可耦合到处理器706。解调器762可经配置以解调从收发器752、754接收的经调制信号,且经配置以将经解调制数据提供到接收器数据处理器764。接收器数据处理器764可经配置以从经解调数据检索消息或音频数据,且将消息或音频数据发送到处理器706。
基站700可包含传输数据处理器782及传输多输入多输出(MIMO)处理器784。传输数据处理器782可耦合到处理器706及传输MIMO处理器784。传输MIMO处理器784可耦合到收发器752、收发器754及处理器706。在一些实施方案中,传输MIMO处理器784可耦合到媒体网关770。作为示范性非限制性实例,传输数据处理器782可经配置以从处理器706接收消息或音频数据,且基于例如CDMA或正交分频多路复用(OFDM)的译码方案译码所述消息或所述音频数据。传输数据处理器782可提供经译码数据到传输MIMO处理器784。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用在一起以产生多路复用数据。接着可基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-元相移键控(“M-PSK”)、M-元正交振幅调制(“M-QAM”)等)由传输数据处理器782调制(即,符号映射)多路复用数据以产生调制符号。在特定实施方案中,经译码数据及其它数据可使用不同调制方案调制。针对每一数据流的数据速率、译码及调制可由处理器706所执行的指令确定。
传输MIMO处理器784可经配置以从传输数据处理器782接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,传输MIMO处理器784可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线,调制符号利用所述一或多个天线传输。
在操作期间,基站700的第二天线744可接收数据流714。第二收发器754可从第二天线744接收数据流714,且可将数据流714提供到解调器762。解调器762可解调数据流714的经调制信号,且将经解调数据提供到接收器数据处理器764。接收器数据处理器764可从经解调制数据检索音频数据,且将经检索音频数据提供到处理器706。
处理器706可将音频数据提供到转码器710以供转码。转码器710的解码器738可将音频数据从第一格式解码成经解码音频数据,且编码器736可将经解码音频数据编码成第二格式。在一些实施方案中,编码器736可使用相比从无线装置接收的较高数据速率(例如,升频转换)或较低数据速率(例如,降频转换)编码音频数据。在其它实施方案中,音频数据可不经转码。尽管转码(例如,解码及编码)说明为由转码器710执行,但转码操作(例如,解码及编码)可由基站700的多个组件执行。举例来说,解码可由接收器数据处理器764执行,且编码可由传输数据处理器782执行。在其它实施方案中,处理器706可将音频数据提供到媒体网关770用于转换成另一传输协议、译码方案或两者媒体网关770可经由网络连接760将经转换数据提供到另一基站或核心网络。
编码器736处产生的经编码音频数据(例如经转码数据)可经由处理器706提供到传输数据处理器782或网络连接760。可将来自转码器710的经转码音频数据提供到传输数据处理器782,以供根据例如OFDM的调制方案译码,以产生调制符号。传输数据处理器782可将调制符号提供到传输MIMO处理器784以供进一步处理及波束成形。传输MIMO处理器784可应用波束成形权重,且可经由第一收发器752将调制符号提供到天线阵列中的一或多个天线,例如第一天线742。因此,基站700可将对应于从无线装置所接收的数据流714的经转码数据流716提供到另一无线装置。经转码数据流716可具有与数据流714不同的编码格式、数据速率或两者。在其它实施方案中,可将经转码数据流716提供到网络连接760以供传输到另一基站或核心网络。
在特定实施方案中,本文中所公开的系统及装置的一或多个组件可集成到解码系统或设备(例如,电子装置、CODEC或其中的处理器)中,集成到编码系统或设备中或两者。在其它实施方案中,本文中所公开的系统及装置的一或多个组件可集成到以下各者中:无线电话、平板计算机、台式计算机、膝上型计算机、机顶盒、音乐播放机、视频播放机、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放机或另一类型的装置。
结合所描述技术,一种设备包含用于确定多个流中的每一流的相似性值且用于将多个流中的每一流的相似性值与阈值进行比较的装置。所述设备包含用于基于所述比较识别多个流中的N个当中待编码的L个流的装置,其中L小于N。举例来说,用于确定、比较及识别的装置可对应于图1到3的流选择模块115、一或多个其它装置、电路、模块或其任何组合。
所述设备还包含用于根据经识别的L个流中的每一者的相似性值编码多个流当中经识别的L个流的装置。举例来说,用于编码的装置可包含图3的核心编码器302、一或多个其它装置、电路、模块或其任何组合。
应注意,通过本文中所公开的系统及装置的一或多个组件执行的各种功能经描述为通过某些组件或模块执行。组件及模块的此划分仅是为了说明。在替代性实施方案中,由特定组件或模块执行的功能可划分于多个组件或模块之中。此外,在替代性实施方案中,两个或大于两个组件或模块可集成到单个组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合实施。
所属领域的一般技术人员将进一步了解,结合本文中所公开的实施方案而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或两者的组合。上文已大体上就其功能性而言描述各种说明性组件、块、配置、模块、电路及步骤。此功能性经实施为硬件抑或可执行软件取决于特定应用及强加于整个系统的设计约束。所属领域的一般技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,但不应将此些实施决策解释为致使脱离本发明的范围。
结合本文中所公开的实施方案所描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可驻存于存储器装置中,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可去除式磁盘或紧密光盘只读存储器(CD-ROM)。示范性存储器装置耦合到处理器,以使得处理器可从存储器装置读取信息及将信息写入到存储器装置。在替代方案中,存储器装置可集成到处理器中。处理器及存储媒体可驻存于专用集成电路(ASIC)中。ASIC可驻存于计算装置或用户终端机中。在替代例中,处理器及存储媒体可作为离散组件驻存于计算装置或用户终端机中。
提供所公开的实施方案的先前描述以使所属领域的一般技术人员能够制备或使用所公开的实施方案。所属领域的一般技术人员将显而易见对此些实施方案的各种修改,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非打算限于本文中所展示的实施方案,而应符合可能与如所附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (28)

1.一种用于多流音频编码的方法,其包括:
在音频编码器处接收音频数据的多个流,其中N为所述所接收多个流的数目;
确定对应于所述所接收多个流当中的多个流的多个相似性值;
将所述多个相似性值中的每一者与阈值进行比较;
基于所述比较识别所述所接收多个流中的N个当中待编码的L个流,其中L小于N;及
编码经识别的L个流以产生经编码位流。
2.根据权利要求1所述的方法,其中确定所述多个相似性值包括基于第一特定流的第一帧的第一信号特性来确定所述所接收多个流中的第一特定流的第一相似性值。
3.根据权利要求2所述的方法,其中确定所述第一特定流的所述第一相似性值包括将所述第一特定流的所述第一帧的所述第一信号特性与所述第一特定流的至少一个先前帧的第二信号特性进行比较。
4.根据权利要求3所述的方法,其中所述第一及所述第二信号特性包括自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜中的至少一者。
5.根据权利要求2所述的方法,其中确定所述第一特定流的所述第一相似性值包括将所述第一特定流的所述第一帧的所述第一信号特性与第二特定流的第二帧的第二信号特性进行比较,其中所述第二特定流不同于所述第一特定流。
6.根据权利要求5所述的方法,其中所述第一及所述第二信号特性对应于指示仰角值及方位角值中的至少一者的空间元数据。
7.根据权利要求2所述的方法,其中所述经编码位流包含指示对应所述第一特定流的空间数据的元数据。
8.根据权利要求1所述的方法,其中基于所述比较识别所述所接收多个流中的所述N个当中待编码的L个流包括:
响应于第一特定流的第一相似性值不满足所述阈值的确定,识别不经编码的所述第一特定流;及
响应于第二特定流的第二相似性值满足所述阈值的确定,识别待编码的所述第二特定流。
9.根据权利要求1所述的方法,其中识别所述所接收多个流中的所述N个当中待编码的L个流包括:
组合所述所接收多个流中的所述N个当中的多个流以产生经组合流;及
将第一相似性值指派到所述经组合流。
10.根据权利要求1所述的方法,其进一步包括在编码所述经识别的L个流之前,将优先级值指派到所述所接收多个流的一部分且基于经指派到所述所接收多个流的所述部分的所述优先级值确定置换序列。
11.一种用于多流音频编码的装置,其包括:
音频处理器,其经配置以基于所接收音频信号产生音频数据的多个流,其中N为所述音频数据的多个流的数目;及
音频编码器,其经配置以:
确定对应于所述多个流当中的多个流的多个相似性值;
将所述多个相似性值中的每一者与阈值进行比较;
基于所述比较识别所述多个流中的所述N个当中待编码的L个流,其中L小于N;及
编码所述经识别的L个流以产生经编码位流。
12.根据权利要求11所述的装置,其进一步包括传输器,所述传输器经配置以经由无线网络将所述经编码位流传输到音频解码器,其中所述经编码位流包含第一特定流的第一相似性值。
13.根据权利要求11所述的装置,其中所述音频编码器经配置以通过将第一特定流的第一帧的第一信号特性与所述第一特定流的至少一个先前帧的第二信号特性进行比较来确定所述第一特定流的第一相似性值。
14.根据权利要求13所述的装置,其中所述第一及所述第二信号特性包括自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜中的至少一者。
15.根据权利要求11所述的装置,其中所述音频编码器经配置以通过将第一特定流的第一帧的第一信号特性与第二特定流的第二帧的第二信号特性进行比较来确定所述第一特定流的第一相似性值,其中所述第二特定流不同于所述第一特定流。
16.根据权利要求15所述的装置,其中所述第一及所述第二信号特性对应于指示仰角值及方位角值中的至少一者的空间元数据。
17.根据权利要求11所述的装置,其中所述音频编码器经配置以:
响应于第一特定流的第一相似性值不满足所述阈值的确定,识别不经编码的所述第一特定流;及
响应于第二特定流的第二相似性值满足所述阈值的确定,识别待编码的所述第二特定流。
18.根据权利要求11所述的装置,其中所述多个流当中的至少一个流包含独立流译码格式。
19.根据权利要求11所述的装置,其中所述音频编码器经配置以基于来自前端音频处理器的信息确定所述多个相似性值。
20.根据权利要求11所述的装置,其中所述音频编码器进一步经配置以:
将优先级值指派到所述多个流的一部分;及
基于经指派到所述多个流的所述部分的所述优先级值确定置换序列。
21.一种用于多流音频编码的设备,其包括:
用于接收音频数据的多个流的装置,其中N为所述所接收多个流的数目;
用于确定对应于所述所接收多个流当中的所述多个流的多个相似性值的装置;
用于将所述多个相似性值中的每一者与阈值进行比较的装置;
用于基于所述比较识别所述所接收多个流中的所述N个当中待编码的L个流的装置,其中L小于N;及
用于编码所述经识别的L个流以产生经编码位流的装置。
22.根据权利要求21所述的设备,其中用于确定所述多个相似性值的所述装置包括用于基于第一特定流的第一帧的第一信号特性确定所述多个流的所述第一特定流的第一相似性值的装置。
23.根据权利要求22所述的设备,其中用于确定所述第一特定流的所述第一相似性值的所述装置包括用于将所述第一特定流的所述第一帧的所述第一信号特性与所述第一特定流的至少一个先前帧的第二信号特性进行比较的装置。
24.根据权利要求23所述的设备,其中所述第一及所述第二信号特性包括自适应码簿增益、静止电平、非静止电平、发声因数、音调变化、信号能量、语音内容的检测、噪声底限电平、信噪比、稀疏性电平及频谱倾斜中的至少一者。
25.根据权利要求22所述的设备,其中用于确定所述第一特定流的所述第一相似性值的所述装置包括用于将所述第一特定流的所述第一帧的所述第一信号特性与第二特定流的第二帧的第二信号特性进行比较的装置,其中所述第二特定流不同于所述第一特定流。
26.根据权利要求25所述的设备,其中所述第一及所述第二信号特性对应于指示仰角值及方位角值中的至少一者的空间元数据。
27.根据权利要求21所述的设备,其进一步包括:
用于将优先级值指派到所述多个流的一部分的装置;及
用于基于经指派到所述多个流的所述部分的所述优先级值确定置换序列的装置。
28.一种非暂时性计算机可读媒体,其包括在由音频编码器内的处理器执行时使所述处理器执行包括以下各者的操作的指令:
接收音频数据的多个流,其中N为所述所接收多个流的数目;
确定对应于所述所接收多个流当中的多个流的多个相似性值;
将所述多个相似性值中的每一者与阈值进行比较;
基于所述比较识别所述所接收多个流中的所述N个当中待编码的L个流,其中L小于N;及
编码所述经识别的L个流以产生经编码位流。
CN201880061621.7A 2017-10-03 2018-09-27 多流音频译码 Active CN111108556B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762567663P 2017-10-03 2017-10-03
US62/567,663 2017-10-03
US16/143,150 2018-09-26
US16/143,150 US10854209B2 (en) 2017-10-03 2018-09-26 Multi-stream audio coding
PCT/US2018/053185 WO2019070506A1 (en) 2017-10-03 2018-09-27 MULTI-STREAM AUDIO CODING

Publications (2)

Publication Number Publication Date
CN111108556A CN111108556A (zh) 2020-05-05
CN111108556B true CN111108556B (zh) 2023-11-21

Family

ID=65896161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880061621.7A Active CN111108556B (zh) 2017-10-03 2018-09-27 多流音频译码

Country Status (6)

Country Link
US (1) US10854209B2 (zh)
EP (1) EP3692524B1 (zh)
CN (1) CN111108556B (zh)
ES (1) ES2888627T3 (zh)
TW (1) TWI779104B (zh)
WO (1) WO2019070506A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020047298A1 (en) * 2018-08-30 2020-03-05 Dolby International Ab Method and apparatus for controlling enhancement of low-bitrate coded audio
WO2020102156A1 (en) 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
EP3751567B1 (en) * 2019-06-10 2022-01-26 Axis AB A method, a computer program, an encoder and a monitoring device
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
US20200402522A1 (en) * 2019-06-24 2020-12-24 Qualcomm Incorporated Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding
CN114072874A (zh) * 2019-07-08 2022-02-18 沃伊斯亚吉公司 用于编解码音频流中的元数据和用于对音频流编解码的有效比特率分配的方法和系统
TWI703559B (zh) * 2019-07-08 2020-09-01 瑞昱半導體股份有限公司 音效編碼解碼電路及音頻資料的處理方法
MX2022001152A (es) * 2019-08-01 2022-02-22 Dolby Laboratories Licensing Corp Codificacion y decodificacion de flujos de bits ivas.
US20220406318A1 (en) * 2019-10-30 2022-12-22 Dolby Laboratories Licensing Corporation Bitrate distribution in immersive voice and audio services
US11269589B2 (en) 2019-12-23 2022-03-08 Dolby Laboratories Licensing Corporation Inter-channel audio feature measurement and usages
GB202002900D0 (en) * 2020-02-28 2020-04-15 Nokia Technologies Oy Audio repersentation and associated rendering
CN113593585A (zh) 2020-04-30 2021-11-02 华为技术有限公司 音频信号的比特分配方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1767394A (zh) * 2004-10-26 2006-05-03 三星电子株式会社 对音频信号进行编码和解码的方法和设备
CN101326726A (zh) * 2005-11-21 2008-12-17 三星电子株式会社 对多声道音频信号进行编码/解码的系统、介质和方法
WO2009129822A1 (en) * 2008-04-22 2009-10-29 Nokia Corporation Efficient encoding and decoding for multi-channel signals
WO2011020065A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. Object-oriented audio streaming system
WO2017139190A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Encoding of multiple audio signals

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
ATE430360T1 (de) * 2004-03-01 2009-05-15 Dolby Lab Licensing Corp Mehrkanalige audiodekodierung
US9064499B2 (en) 2009-02-13 2015-06-23 Nec Corporation Method for processing multichannel acoustic signal, system therefor, and program
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
EA024310B1 (ru) * 2009-12-07 2016-09-30 Долби Лабораторис Лайсэнзин Корпорейшн Способ декодирования цифровых потоков кодированного многоканального аудиосигнала с использованием адаптивного гибридного преобразования
US9881628B2 (en) * 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1767394A (zh) * 2004-10-26 2006-05-03 三星电子株式会社 对音频信号进行编码和解码的方法和设备
CN101326726A (zh) * 2005-11-21 2008-12-17 三星电子株式会社 对多声道音频信号进行编码/解码的系统、介质和方法
WO2009129822A1 (en) * 2008-04-22 2009-10-29 Nokia Corporation Efficient encoding and decoding for multi-channel signals
WO2011020065A1 (en) * 2009-08-14 2011-02-17 Srs Labs, Inc. Object-oriented audio streaming system
WO2017139190A1 (en) * 2016-02-12 2017-08-17 Qualcomm Incorporated Encoding of multiple audio signals

Also Published As

Publication number Publication date
US10854209B2 (en) 2020-12-01
TWI779104B (zh) 2022-10-01
CN111108556A (zh) 2020-05-05
WO2019070506A1 (en) 2019-04-11
TW201923739A (zh) 2019-06-16
EP3692524B1 (en) 2021-08-11
ES2888627T3 (es) 2022-01-05
US20190103118A1 (en) 2019-04-04
EP3692524A1 (en) 2020-08-12

Similar Documents

Publication Publication Date Title
CN111108556B (zh) 多流音频译码
CN110770824B (zh) 多流音频译码
US11127406B2 (en) Encoding and decoding of interchannel phase differences between audio signals
US11823689B2 (en) Stereo parameters for stereo decoding
US10366695B2 (en) Inter-channel phase difference parameter modification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant