CN110447072A - 声道间带宽扩展 - Google Patents

声道间带宽扩展 Download PDF

Info

Publication number
CN110447072A
CN110447072A CN201880020626.5A CN201880020626A CN110447072A CN 110447072 A CN110447072 A CN 110447072A CN 201880020626 A CN201880020626 A CN 201880020626A CN 110447072 A CN110447072 A CN 110447072A
Authority
CN
China
Prior art keywords
frequency band
high frequency
sound channel
parameter
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880020626.5A
Other languages
English (en)
Other versions
CN110447072B (zh
Inventor
V·S·C·S·奇比亚姆
V·阿提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110447072A publication Critical patent/CN110447072A/zh
Application granted granted Critical
Publication of CN110447072B publication Critical patent/CN110447072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Display Devices Of Pinball Game Machines (AREA)

Abstract

一种方法包含解码低频带中间声道位流以产生低频带中间信号及低频带中间激励信号。所述方法进一步包含解码高频带中间声道带宽扩展位流以产生经合成高频带中间信号。所述方法还包含确定对应于所述经合成高频带中间信号的声道间带宽扩展ICBWE增益映射参数。所述ICBWE增益映射参数是基于从立体声降混/升混参数位流提取的所选择频域增益参数。所述方法进一步包含基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道。所述方法包含输出第一音频声道及第二音频声道。所述第一音频声道是基于所述参考高频带声道,且所述第二音频声道是基于目标高频带声道。

Description

声道间带宽扩展
优先权主张
本申请案主张2017年4月5日申请的标题为“INTER-CHANNEL BANDWIDTHEXTENSION”的美国临时专利申请案第62/482,150号的权益,所述申请案明确地以全文引用的方式并入本文中。
技术领域
本发明大体上是关于多个音频信号的编码。
背景技术
技术的进步已带来更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动及智能电话)、平板计算机及膝上型计算机,所述便携式个人计算装置为小的、轻质的且容易由用户携载。这些装置可经由无线网络传达语音及数据包。另外,许多此类装置并入额外功能,例如数字静态相机、数字摄像机、数字记录器及音频文件播放器。而且,这些装置可处理可执行指令,包含软件应用程序,例如可用以存取因特网的网络浏览器应用程序。由此因而,这些装置可包含显著计算能力。
计算装置可包含接收音频声道的多个麦克风。举例来说,第一麦克风可接收左音频声道,且第二麦克风可接收对应右音频声道。在立体声编码中,编码器可将左音频声道及对应右音频声道变换到频域,以分别产生左频域声道及右频域声道。编码器可将频域声道降混以产生中间声道。反变换可应用于中间声道以产生时域中间声道,且低频带编码器可编码时域中间声道的低频带部分以产生经编码低频带中间声道。中间声道带宽扩展(BWE)编码器可基于时域中间声道及经编码低频带中间声道的激励产生中间声道BWE参数(例如,线性预测系数(LPC)、增益形状、增益帧等)。编码器可产生包含经编码低频带中间声道及中间声道BWE参数的位流。
编码器也可从频域声道(例如,左频域声道及右频域声道)提取立体声参数(例如,离散傅立叶变换(DFT)降混参数)。立体声参数可包含频域增益参数(例如,侧边增益)、声道间相位差(IPD)参数、声道间层级差(ILD)、扩散散布/增益及声道间BWE(ICBWE)增益映射参数。立体声参数还可包含基于左及右立体声声道的时域及/或频域分析进行估计的声道间时间差(ITD)。立体声参数可插入(例如,包含或编码)于位流中,且位流可从编码器传输到解码器。
发明内容
根据一个实施,一种装置包含接收器,其经配置以从编码器接收位流。所述位流包含至少一低频带中间声道位流、高频带中间声道带宽扩展(BWE)位流及立体声降混/升混参数位流。所述装置还包含经配置以解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号的解码器。所述解码器经进一步配置以产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展。所述解码器经进一步配置以解码所述高频带中间声道BWE位流,以至少基于所述非线性谐波激励信号及高频带中间声道BWE参数(例如,线性预测系数(LPC)、增益形状及增益帧参数)产生经合成高频带中间信号。所述解码器还经配置以确定对应于所述经合成高频带中间信号的声道间带宽扩展(ICBWE)增益映射参数。所述ICBWE增益映射参数是基于从所述立体声降混/升混参数位流提取的所选择频域(例如,对应于所述高频带BWE部分的子频带群组或频率区间)增益参数进行确定(例如,预测、导出、引导或映射)。对于宽带内容,所述解码器经进一步配置以基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道。所述装置还包含经配置以输出第一音频声道及第二音频声道的一或多个扬声器。所述第一音频声道是基于所述参考高频带声道,且所述第二音频声道是基于目标高频带声道。
根据另一实施,一种解码信号的方法包含从编码器接收位流。所述位流包含至少一低频带中间声道位流、高频带中间声道带宽扩展(BWE)位流及立体声降混/升混参数位流。所述方法还包含解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号。所述方法还包含产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展。所述方法还包含解码所述高频带中间声道BWE位流,以至少基于所述非线性谐波激励信号及高频带中间声道BWE参数(例如,线性预测系数(LPC)、增益形状及增益帧参数)产生经合成高频带中间信号。所述方法还包含确定对应于所述经合成高频带中间信号的声道间带宽扩展(ICBWE)增益映射参数。所述ICBWE增益映射参数是基于从所述立体声降混/升混参数位流提取的所选择频域(例如,对应于所述高频带BWE部分的子频带群组或频率区间)增益参数进行确定(例如,预测、导出、引导或映射)。所述方法进一步包含基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道。所述方法还包含输出第一音频声道及第二音频声道。所述第一音频声道是基于所述参考高频带声道,且所述第二音频声道是基于目标高频带声道。
根据另一实施,一种非暂时性计算机可读媒体包含用于解码信号的指令。所述指令在由解码器内的处理器执行时,使得所述处理器执行包含从编码器接收位流的操作。所述位流包含至少一低频带中间声道位流、高频带中间声道带宽扩展(BWE)位流及立体声降混/升混参数位流。所述操作还包含解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号。所述操作还包含产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展。所述操作还包含解码所述高频带中间声道BWE位流,以至少基于所述非线性谐波激励信号及高频带中间声道BWE参数(例如,线性预测系数(LPC)、增益形状及增益帧参数)产生经合成高频带中间信号。所述操作还包含确定对应于所述经合成高频带中间信号的声道间带宽扩展(ICBWE)增益映射参数。所述ICBWE增益映射参数是基于从所述立体声降混/升混参数位流提取的所选择频域(例如,对应于所述高频带BWE部分的子频带群组或频率区间)增益参数进行确定(例如,预测、导出、引导或映射)。所述操作进一步包含基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道。所述操作还包含输出第一音频声道及第二音频声道。所述第一音频声道是基于所述参考高频带声道,且所述第二音频声道是基于目标高频带声道。
根据另一实施,一种设备包含用于从编码器接收位流的装置。所述位流包含至少一低频带中间声道位流、高频带中间声道带宽扩展(BWE)位流及立体声降混/升混参数位流。所述设备还包含用于解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号的装置。所述设备还包含用于产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展的装置。所述设备还包含用于解码所述高频带中间声道BWE位流,以至少基于所述非线性谐波激励信号及高频带中间声道BWE参数(例如,线性预测系数(LPC)、增益形状及增益帧参数)产生经合成高频带中间信号的装置。所述设备还包含用于确定对应于所述经合成高频带中间信号的声道间带宽扩展(ICBWE)增益映射参数的装置。所述ICBWE增益映射参数是基于从所述立体声降混/升混参数位流提取的所选择频域(例如,对应于所述高频带BWE部分的子频带群组或频率区间)增益参数进行确定(例如,预测、导出、引导或映射)。所述设备还包含用于基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道的装置。所述设备还包含用于输出第一音频声道及第二音频声道的装置。所述第一音频声道是基于所述参考高频带声道,且所述第二音频声道是基于目标高频带声道。
在检阅整个申请案之后,本发明的其它实施方案、优势及特征将变得显而易见,所述整个申请案包含以下章节:图式简单说明、实施方式及权利要求书。
附图说明
图1为包含可操作以基于从编码器传输的频域增益参数确定声道间带宽扩展(ICBWE)映射参数的解码器的系统的特定说明性实例的框图;
图2为说明图1的编码器的图式;
图3为说明图1的解码器的图式;
图4为说明基于从编码器传输的频域增益参数确定ICBWE映射参数的特定方法的流程图;
图5为可操作以基于从编码器传输的频域增益参数确定ICBWE映射参数的装置的特定说明性实例的框图;及
图6为可操作以基于从编码器传输的频域增益参数确定ICBWE映射参数的基站的框图。
具体实施方式
下文参考图式描述本发明的特定方面。在描述中,共同特征由共同附图标记指示。如本文所使用,各种术语仅仅用于描述特定实施的目的,且并不意图限制实施。举例来说,除非上下文以其它方式明确地指示,否则单数形式“一”、“一个”及“所述”意图同样包含复数形式。可进一步理解,术语“包括”及“包括着”可与“包含”或“包含着”互换使用。另外,应理解,术语“其中”可与“在…的情况下”互换使用。如本文中所使用,用以修饰元件(例如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身不指示元件关于另一元件的任何优先权或次序,而是仅将元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文所使用,术语“集合”指特定元件中的一或多个,且术语“多个”指特定元件中的多个(例如,两个或更多个)。
在本发明中,例如“确定”、“计算”、“移位”、“调整”等术语可用于描述如何执行一或多个操作。应注意,这些术语不应解释为限制性的且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”、“识别”及“确定”可互换地使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指积极地产生、计算或确定参数(或信号),或可指使用、选择或存取已(例如)由另一组件或装置产生的参数(或信号)。
公开可操作以编码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如,多个麦克风)同时及时地俘获多个音频信号。在一些实例中,通过多工若干同时或非同时记录的音频声道可合成地(例如,人工)产生多个音频信号(或多声道音频)。如说明性实例,音频声道的并行记录或多工可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或远程呈现室)中的音频俘获装置可包含获取空间音频的多个麦克风。空间音频可包含语音以及经编码且经传输的背景音频。视如何配置麦克风以及给定来源(例如,讲话者)位于相对于麦克风及房间大小的位置,来自所述来源(例如,讲话者)的话语/音频可于不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如讲话者)可更接近与装置相关联的第一麦克风。因此,与第二麦克风相比,从声源发出的声音可更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中侧(MS)译码及参数立体声(PS)译码为可提供优于双单声道译码技术的经改进性能的立体声译码技术。在双单声道译码中,左(L)声道(或信号)及右(R)声道(或信号)经独立地译码,而不利用声道间相关。在译码之前,通过将左声道及右声道变换为总声道及差声道(例如,旁声道),MS译码减少相关L/R声道对之间的冗余。总信号及差信号经波形译码或基于MS译码中的模型而译码。总信号比侧信号耗费相对更多的位。PS译码通过将L/R信号变换成总信号及一组旁参数而减少每一子频带或频带中的冗余。旁参数可指示声道间强度差(IID)、声道间相位差(IPD)、声道间时差(ITD)、旁或残余预测增益等。总信号为经译码的波形且与侧参数一起传输。在混合型系统中,旁声道可在较低频带中经波形译码(例如,小于2千赫兹(kHz))且在较高频带中经PS译码(例如,大于或等于2kHz),其中声道间相位保持在感知上不重要。在一些实施中,PS译码也可在波形译码之前用于较低频带中以减少声道间冗余。
可在频域或子频带域中进行MS译码及PS译码。在一些实例中,左声道及右声道可不相关。举例来说,左声道及右声道可包含不相关的合成信号。当左声道及右声道不相关时,MS译码、PS译码或两者的译码效率可接近于双单声道译码的译码效率。
取决于记录配置,在左声道与右声道之间可存在时间失配以及其它空间效果(例如回声及室内回响)。如果并不补偿声道之间的时间移位及相位失配,那么总声道及差声道可含有减少与MS或PS技术相关的译码增益的可比能量。译码增益的减少可基于时间(或相位)移位的量。总信号及差信号的可比能量可限制声道经时间移位但高度相关的某些帧中的MS译码的使用。在立体声译码中,中间声道(例如,总声道)及旁声道(例如,差声道)可基于以下公式产生:
M=(L+R)/2,S=(L-R)/2,公式1
其中M对应于中间声道,S对应于旁声道,L对应于左声道,且R对应于右声道。
在一些情况中,中间声道及旁声道可基于以下公式产生:
M=c(L+R),S=c(L-R),公式2
其中c对应于频率相关的复合值。基于公式1或公式2产生的中间声道及旁声道可被称为执行“降混”算法。基于公式1或公式2从中间声道及侧声道而产生左声道及右声道的反向过程可被称为执行“升混”算法。
在一些情况中,中间声道可是基于其它公式,例如:
M=(L+gDR)/2,或公式3
M=g1L+g2R公式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在频带中执行,其中中间(b)=c1L(b)+c2R(b),其中c1及c2为复数,其中旁(b)=c3L(b)-c4R(b),且其中c3及c4为复数。
用以对于特定帧在MS译码或双单声道译码之间选择的特用方法可包含产生中间声道及旁声道,计算中间声道及旁声道的能量,及基于所述能量确定是否执行MS译码。举例来说,可响应于旁声道与中间声道的能量比小于阈值的确定执行MS译码。为了说明,如果右声道经移位至少第一时间(例如,约0.001秒或在48kHz下48个样本),那么针对有声语音帧,中间声道的第一能量(对应于左信号及右信号的总和)可与旁声道的第二能量(对应于左信号与右信号之间的差)相当。当第一能量与第二能量相当时,较高数目的位可用于编码旁声道,由此减少相对于双单声道译码的MS译码的译码性能。可因此在第一能量与第二能量相当时使用双单译码(例如,在第一能量及第二能量的比大于或等于阈值时)。在替代途径中,可基于左声道与右声道的阈值及正规化交叉相关值的比较来在MS译码与双单声道译码之间决定哪一个用于特定帧。
在一些实例中,编码器可确定指示第一音频信号与第二音频信号之间的时间失配量的失配值。如本文所使用,“时间移位值”、“移位值”及“失配值”可被互换地使用。举例来说,编码器可确定指示第一音频信号相关于第二音频信号的移位(例如,时间失配)的时间移位值。移位值可对应于第一音频信号在第一麦克风处的接收与第二音频信号在第二麦克风处的接收之间的时间延迟的量。另外,编码器可在逐帧的基础上(例如,基于每一20毫秒(ms)话语/音频帧)确定移位值。举例来说,移位值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,移位值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当声源距第一麦克风的距离比距第二麦克风的距离更近时,第二音频信号的帧可相对于第一音频信号的帧经延迟。在此情况下,第一音频信号可被称为“参考音频信号”或“参考声道”,且经延迟第二音频信号可被称为“目标音频信号”或“目标声道”。替代地,当声源距第二麦克风的距离比距第一麦克风的距离更近时,第一音频信号的帧可相对于第二音频信号的帧经延迟。在此情况下,第二音频信号可被称为参考音频信号或参考声道,且经延迟第一音频信号可被称为目标音频信号或目标声道。
视声源(例如,讲话者)位于会议室或远程呈现室内的位置及声源(例如,讲话者)位置如何相对于麦克风改变而定,参考声道及目标声道可从一个帧改变到另一帧;类似地,时间失配值也可从一个帧改变到另一帧。然而,在一些实施中,移位值可始终为正,以指示“目标”声道相对于“参考”声道的延迟的量。另外,移位值可对应于“非因果移位(non-causal shift)”值,经延迟目标声道由所述“非因果移位”值在时间上“经拉回”,以使得目标声道与“参考”声道在编码器处对准(例如,最大限度地对准)。可对参考声道及经非因果移位的目标声道执行确定中间声道及旁声道的降混算法。
编码器可基于参考音频声道及应用于目标音频声道的多个移位值而确定移位值。举例来说,可在第一时间(m1)处接收参考音频声道的第一帧X。可在对应于第一移位值的第二时间(n1)处接收目标音频声道的第一特定帧Y,(例如)shift1=n1-m1。另外,可在第三时间(m2)接收参考音频声道的第二帧。可在对应于第二移位值的第四时间(n2)处接收目标音频声道的第二特定帧Y,(例如)shift2=n2-m2
装置可以第一采样速率(例如,32kHz采样速率(即,640个样本每帧))进行成帧或缓冲算法,以产生帧(例如,20ms样本)。响应于确定第一音频信号的第一帧及第二音频信号的第二帧同时到达装置,编码器可估计移位值(例如,shift1)为等于零样本。可在时间上对准左声道(例如,对应于第一音频信号)及右声道(例如,对应于第二音频信号)。在一些状况下,即使当对准时,左声道及右声道可归因于各种原因(例如麦克风校准)而在能量方面存在不同。
在一些实例中,左声道及右声道可由于各种原因(例如,与麦克风中的另一个相比,声源(例如讲话者)可更接近麦克风中的一个,且两个麦克风相隔距离可大于阈值(例如,1到20厘米)距离)在时间上未对准。声源相对于麦克风的部位可在第一声道及第二声道中引入不同延迟。另外,在第一声道与第二声道之间可存在增益差、能量差或电平差。
在一些实例中,在存在超过两个声道的情况下,参考声道最初基于声道的电平或能量而被选择,且随后基于不同声道对之间的时间失配值(例如,t1(ref,ch2),t2(ref,ch3),t3(ref,ch4),…t3(ref,chN))而被改进,其中ch1为最初参考声道且t1(.)、t2(.)等为估计失配值的函数。如果所有时间失配值为正,那么ch1被视为参考声道。如果失配值中的任一个为负值,那么参考声道经重配置成与产生负值的失配值相关联的声道且上述过程继续直到实现参考声道的最佳选择(即,基于最大限度地去相关最大数目的旁声道)为止。迟滞可用以克服参考声道选择中的任何急剧变化。
在一些实例中,当多个讲话者交替地讲话时(例如,在不重叠情况下),音频信号从多个声源(例如,讲话者)到达麦克风的时间可变化。在此情况下,编码器可基于讲话者来动态调整时间移位值,以识别参考声道。在一些其它实例中,多个讲话者可同时讲话,取决于哪个讲话者最大声、距麦克风最近等,此可产生变化的时间移位值。在此情况下,参考及目标声道的识别可基于当前帧中的变化的时间移位值、先前帧中的经估计时间失配值,及第一及第二音频信号的能量(或时间演进)。
在一些实例中,当两种信号可能展示较少(例如,无)相关时,可合成或人工产生第一音频信号及第二音频信号。应理解,本文所描述的实例为说明性且可在类似或不同情境中确定第一音频信号与第二音频信号之间的关系中具指导性。
编码器可基于第一音频信号的第一帧及第二音频信号的多个帧的比较产生比较值(例如,差值或交叉相关值)。多个帧中的每一帧可对应于特定移位值。编码器可基于比较值产生第一经估计移位值。举例来说,第一经估计移位值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间的较高时间类似性(或较低差)的比较值。
编码器可通过在多个阶段中改进一系列经估计移位值而确定最终移位值。举例来说,编码器可首先基于从第一音频信号及第二音频信号的经立体声预处理及经重采样版本产生的比较值而估计“暂定”移位值。编码器可生成与邻近于经评估的“暂定”移位值相关的移位值的内插比较值。编码器可基于内插比较值确定第二经估计“内插”移位值。举例来说,第二经估计“内插”移位值可对应于指示相较于剩余内插比较值及第一经估计“暂定”移位值的较高时间相似性(或较小差)的特定内插比较值。如果当前帧(例如,第一音频信号的第一帧)的第二经估计“内插”移位值不同于先前帧(例如,先于第一帧的第一音频信号的帧)的最终移位值,那么当前帧的“内插”移位值经进一步“修正”,以改进第一音频信号与经移位第二音频信号之间的时间相似性。特定来说,通过在当前帧的第二经评估“内插”移位值及先前帧的最终经评估移位值周围搜索,第三经评估“修正”移位值可对应于时间相似性的较精确测量值。第三经估计“修正”移位值经进一步调节以通过限制帧之间的移位值中的任何伪改变来估计最终移位值,且经进一步控制以在如本文所描述的两个相继(或连续)帧中不将负移位值切换到正移位值(或反过来)。
在一些实例中,编码器可避免在连续帧中或相邻帧中在正移位值与负移位值之间切换或反过来。举例来说,编码器可基于第一帧的经估计“内插”或“修正”移位值及先于第一帧的特定帧中的对应经估计“内插”或“修正”或最终移位值,将最终移位值设定成指示无时间移位的特定值(例如,0)。为了说明,响应于确定当前帧的经估计“暂定”或“内插”或“修正”移位值中的一个为正且先前帧(例如,先于第一帧的帧)的经估计“暂定”或“内插”或“修正”或“最终”经估计移位值中的另一个为负,编码器可设定当前帧(例如,第一帧)的最终移位值以指示无时间移位,即shift1=0。替代地,为响应当前帧的经估计“暂定”或“内插”或“修正”移位值中的一个为负且先前帧(例如,先于第一帧的帧)的经估计“暂定”或“内插”或“修正”或“最终”经估计移位值中的另一个为正的确定,编码器也可设定当前帧(例如,第一帧)的最终移位值以指示无时间性移位,即shift1=0。
应注意,在一些实施中,可在变换域中执行最终移位值的估计,其中可在频域中估计声道间交叉相关性。作为一实例,最终移位值的估计可很大程度上基于广义交叉相关性相位变换(GCC-PHAT)算法。
编码器可基于移位值来选择第一音频信号或第二音频信号的帧作为“参考”或“目标”。举例来说,响应于确定最终移位值为正,编码器可产生参考声道或具有指示第一音频信号为“参考”声道且第二音频信号为“目标”声道的第一值(例如,0)的信号指示符。替代地,响应于确定最终移位值为负,编码器可产生参考声道,或具有指示第二音频信号为“参考”声道且第一音频信号为“目标”声道的第二值(例如,1)的信号指示符。
编码器可估计与参考声道及非因果经移位目标声道相关联的相对增益(例如,相对增益参数)。举例来说,响应于确定最终移位值为正,编码器可估计增益值以正规化或均衡第一音频信号相对于偏移了非因果移位值(例如,最终移位值的绝对值)的第二音频信号的能量或功率电平。替代地,为响应确定最终移位值为负,编码器可估计增益值以正规化或均衡第一音频信号相对于第二音频信号的功率或振幅电平。在一些实例中,编码器可估计增益值以正规化或均衡“参考”声道相对于非因果经移位“目标”声道的振幅或功率电平。在其它实例中,编码器可基于相对于目标声道(例如,未移位目标声道)的参考声道估计增益值(例如,相对增益值)。
编码器可基于参考声道、目标声道、非因果移位值及相对增益参数产生至少一经编码信号(例如,中间声道、旁声道或两者)。在其它实施中,编码器可基于参考声道及经时间失配调整的目标声道产生至少一经编码信号(例如,中间声道、旁声道或两者)。旁声道可对应于第一音频信号的第一帧的第一样本与第二音频信号的所选择帧的所选择样本之间的差。编码器可基于最终移位值选择所选择的帧。由于第一样本与所选择的样本之间的减小的差,相比于对应于第二音频信号的帧(与第一帧同时由装置接收)的第二音频信号的其它样本,更少的位可用于编码侧声道信号。装置的传输器可传输所述至少一个经编码信号、所述非因果移位值、所述相对增益参数、所述参考声道或信号指示符或其组合。
编码器可基于参考声道、目标声道、非因果移位值、相对增益参数、第一音频信号的特定帧的低频带参数、特定帧的高频带参数或其组合产生至少一经编码信号(例如,中间声道、旁声道或两者)。特定帧可先于第一帧。来自一或多个前面帧的某些低频带参数、高频带参数或其组合可用于编码第一帧的中间声道、旁声道或两者。基于低频带参数、高频带参数或其组合编码中间声道、旁声道或两者可包含非因果移位值及声道间相对增益参数的估计。低频带参数、高频带参数或其组合可包含音调参数、语音参数、译码器类型参数、低频带能量参数、高频带能量参数、倾角参数、音调增益参数、FCB增益参数、译码模式参数、语音活动参数、噪声估计参数、信号噪声比参数、共振峰成形参数、语音/音乐决策参数、非因果移位、声道间增益参数或其组合。装置的传输器可传输至少一个经编码信号、非因果移位值、相对增益参数、参考声道(或信号)指示符或其组合。
根据一些编码实施,编码器可将左音频声道及对应右音频声道变换到频域,以分别产生左频域声道及右频域声道。编码器可将频域声道降混以产生中间声道。反变换可应用于中间声道以产生时域中间声道,且低频带编码器可编码时域中间声道的低频带部分以产生经编码低频带中间声道。中间声道带宽扩展(BWE)编码器可产生中间声道BWE参数(例如,线性预测系数(LPC)、增益形状、增益帧等)。在一些实施中,中间声道BWE编码器基于时域中间声道及经编码低频带中间声道的激励产生中间声道BWE参数。编码器可产生包含经编码低频带中间声道及中间声道BWE参数的位流。
编码器也可从频域声道(例如,左频域声道及右频域声道)提取立体声参数(例如,离散傅立叶变换(DFT)降混参数)。立体声参数可包含频域增益参数(例如,侧边增益或声道间电平差(ILD))、声道间相位差(IPD)参数、立体声充填增益等。立体声参数可插入(例如,包含或编码)于位流中,且位流可从编码器传输到解码器。根据一个实施,立体声参数可包含声道间BWE(ICBWE)增益映射参数。然而,ICBWE增益映射参数可相对于其它立体声参数略“冗余”。因此,为减少译码复杂性及冗余传输,可能不会从频域声道提取ICBWE增益映射参数。举例来说,编码器可旁路从频域声道确定ICBWE增益参数。
当从编码器接收位流时,解码器可解码经编码低频带中间声道以产生低频带中间信号及低频带中间激励信号。可使用低频带中间声道激励解码(从编码器接收的)中间声道BWE参数,以产生经合成高频带中间信号。可通过将ICBWE增益映射参数应用于经合成高频带中间信号来产生左高频带声道及右高频带声道。然而,因为并非包含ICBWE增益映射参数作为位流的部分,所以解码器可基于频域增益参数(例如,侧边增益或ILD)产生ICBWE增益映射参数。解码器也可基于高频带中间合成信号、低频带中间合成(或激励)信号及低频带侧(例如,残余预测)合成信号产生ICBWE增益映射参数。
举例来说,解码器可从位流提取频域增益参数,且选择与经合成高频带中间信号的频率范围相关联的频域增益参数。为了说明,对于宽带译码,经合成高频带中间信号可具有介于6.4千赫兹(kHz)与8kHz之间的频率范围。如果特定频域增益参数与介于5.2KHz与8.56KHz之间的频率范围相关联,那么可选择特定频域增益参数以产生ICBWE增益映射参数。在另一实例中,如果一或多组频域增益参数与一或多组频率范围(例如6.0-7.0kHz、7.0-8.0kHz)相关联,那么选择一或多组立体声降混/升混增益参数以产生ICBWE增益映射参数。根据一个实施,可基于所选择频域增益参数(sidegain)使用以下实例来确定ICBWE增益映射参数(gsMapping):
ICBWE增益映射参数,gsMapping=(1-sidegain)
一旦ICBWE增益映射参数得以确定(例如,提取),那么左高频带声道及右高频带声道便可使用增益缩放操作进行合成。举例来说,经合成高频带中间信号可由ICBWE增益映射参数按比例缩放以产生目标高频带声道,且经合成高频带中间信号可由经修改ICBWE增益映射参数(例如,2-gsMapping或)按比例缩放以产生参考高频带声道。
可基于与低频带中间信号的频域版本相关联的升混操作产生左低频带声道及右低频带声道。举例来说,低频带中间信号可转换成频域,立体声参数可用以将低频带中间信号的频域版本升混以产生频域左低频带声道及右低频带声道,且可对频域左低频带声道及右低频带声道执行反变换操作以分别产生左低频带声道及右低频带声道。左低频带声道可与左高频带声道合并以产生大体上类似于左音频声道的左声道,且右低频带声道可与右高频带声道合并以产生(即,大体上类似于右音频声道的右声道。
因此,可通过省略取决于输入内容带宽在编码器处提取及传输ICBWE增益映射参数来减少编码复杂性及传输带宽。举例来说,可能不会针对WB多声道译码传输ICBWE增益映射参数,然而,所述参数针对超宽带或全频带多声道译码进行传输。详细来说,可基于包含于位流中的其它立体声参数(例如,频域增益参数)在解码器针对宽带信号产生ICBWE增益映射参数。在其它实施中,也可基于高频带(即,BWE)中间合成信号、低频带中间合成(或激励)信号及低频带侧(例如,残余预测)合成信号产生ICBWE增益映射参数。
参看图1,公开系统的特定说明性实例且所述系统整体指定为100。系统100包含经由网络120以通信方式耦合到第二装置106的第一装置104。网络120可包含:一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含编码器114、传输器110、一或多个输入接口112或其组合。输入接口112的第一输入接口可耦合到第一麦克风146。一或多个输入接口112的第二输入接口可耦合到第二麦克风148。第一装置104还可包含经配置以存储分析数据191的存储器153。第二装置106可包含解码器118。解码器118可包含声道间带宽扩展(ICBWE)增益映射参数产生器322。第二装置106可耦合到第一扬声器142、第二扬声器144或两者。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频声道130,并可经由第二输入接口从第二麦克风148接收第二音频声道132。第一音频声道130可对应于右声道信号或左声道信号中的一个。第二音频声道132可对应于右声道信号或左声道信号中的另一个。为便于描述及说明,除非另行说明,否则第一音频声道130对应于左音频声道,且第二音频声道132对应于右音频声道。与第二麦克风148相比,声源152(例如,用户、扬声器、环境噪声、乐器等)可更接近第一麦克风146。因此,相比于经由第二麦克风148,来自声源152的音频信号可在较早时间经由第一麦克风146在输入接口112处接收。经由多个麦克风的多声道信号获取中的此自然延迟可在第一音频声道130与第二音频声道132之间引入时间移位。
编码器114可经配置以确定指示音频声道130、132之间的时间移位的移位值(例如,最终移位值116)。最终移位值116可存储于存储器153中作为分析数据191,且经编码到立体声降混/升混参数位流290中作为立体声参数。编码器114也可经配置以将音频声道130、132变换为频域以产生频域音频声道。频域音频声道可经降混以产生中间声道,且中间声道的时域版本的低频带部分可经编码到低频带中间声道位流292中。编码器114也可基于时域中间声道及经编码低频带中间声道的激励产生中间声道BWE参数(例如,线性预测系数(LPC)、增益形状、增益帧等)。编码器114可编码中间声道BWE参数作为高频带中间声道BWE位流294。
编码器114也可从频域音频声道提取立体声参数(例如,离散傅立叶变换(DFT)降混参数)。立体声参数可包含频域增益参数(例如,侧边增益)、声道间相位差(IPD)参数、立体声充填增益等。立体声参数可插入于立体声降混/升混参数位流290中。因为ICBWE增益映射参数可使用其它立体声参数进行确定或估计,所以可能不会从频域音频声道提取ICBWE增益映射参数以减少译码复杂性及冗余传输。传输器可经由网络120将立体声降混/升混参数位流290、低频带中间声道位流292及高频带中间声道BWE位流294传输到第二装置106。关于图2更详细地描述与编码器114相关联的操作。
解码器118可基于立体声降混/升混参数位流290、低频带中间声道位流292及高频带中间声道BWE位流294执行解码操作。解码器118可解码低频带中间声道位流292以产生低频带中间信号及低频带中间激励信号。高频带中间声道BWE位流294可使用低频带中间激励信号进行解码以产生经合成高频带中间信号。可通过将ICBWE增益映射参数应用于经合成高频带中间信号来产生左高频带声道及右高频带声道。然而,因为并非包含ICBWE增益映射参数作为位流的部分,所以解码器118可基于与立体声降混/升混参数位流290相关联的频域增益参数产生ICBWE增益映射参数。
举例来说,解码器118可包含经配置以从立体声降混/升混参数位流290提取频域增益参数,且经配置以选择与经合成高频带中间信号的频率范围相关联的频域增益参数的ICBWE空间增益映射参数产生器322。为了说明,对于宽带译码,经合成高频带中间信号可具有介于6.4千赫兹(kHz)与8kHz之间的频率范围。如果特定频域增益参数与介于5.2KHz与8.56KHz之间的频率范围相关联,那么可选择特定频域增益参数以产生ICBWE增益映射参数。根据一个实施,可基于所选择频域增益参数(sidegain)使用以下等式来确定ICBWE增益映射参数(gsMapping):
一旦ICBWE增益映射参数得以确定,那么左高频带声道及右高频带声道便可使用增益缩放操作进行合成。可基于与低频带中间信号的频域版本相关联的升混操作产生左低频带声道及右低频带声道。左低频带声道可与左高频带声道合并以产生大体上类似于第一音频声道130的第一输出声道126(例如,左声道),且右低频带声道可与右高频带声道合并以产生大体上类似于第二音频声道132的第二输出声道128(例如,右声道)。第一扬声器142可输出第一输出声道126,且第二扬声器144可输出第二输出声道128。关于图3更详细地描述与解码器118相关联的操作。
因此,可通过省略在编码器处提取及传输ICBWE增益映射参数来减少编码复杂性及传输带宽。ICBWE增益映射参数可在解码器处基于包含于位流中的其它立体声参数(例如,频域增益参数)而产生。
参考图2,展示编码器114的特定实施。编码器114包含变换单元202、变换单元204、立体声提示估计器206、中间声道产生器208、反变换单元210、中间声道编码器212及中间声道BWE编码器214。
第一音频声道130(例如,左声道)可提供到变换单元202,且第二音频声道132(例如,右声道)可提供到变换单元204。变换单元202可经配置以对第一音频声道130执行开窗操作及变换操作以产生第一频域音频声道Lfr(b)252,且变换单元204可经配置以对第二音频声道132执行开窗操作及变换操作以产生第二频域音频声道Rfr(b)254。举例来说,变换单元202、204可将离散傅立叶变换(DFT)操作、快速傅立叶变换(FFT)操作、MDCT操作等分别应用于音频声道130、132。根据一些实施,正交镜像滤波器组(QMF)操作可用以将音频声道130、132分裂成多个子频带。第一频域音频声道252被提供到立体声提示估计器206,且被提供到中间声道产生器208。第二频域音频声道254还被提供到立体声提示估计器206,且被提供到中间声道产生器208。
立体声提示估计器206可经配置以从频域音频声道252、254提取(例如,产生)立体声提示以产生立体声降混/升混参数位流290。经编码成立体声降混/升混参数位流290的立体声提示(例如,DFT降混参数)的非限制性实例可包含频域增益参数(例如,侧边增益)、声道间相位差(IPD)参数、立体声充填或残余预测增益等。根据一个实施,立体声提示可包含ICBWE增益映射参数。然而,ICBWE增益映射参数可基于其它立体声提示进行确定或估计。因此,为减少译码复杂性及冗余传输,可能不会提取ICBWE增益映射参数(例如,不会将ICBWE增益映射参数编码成立体声降混/升混参数位流290)。立体声提示可插入(例如,包含或编码)于立体声降混/升混参数位流290中,且立体声降混/升混参数位流290可从编码器114传输到解码器118。立体声提示也可提供到中间声道产生器208。
中间声道产生器208可基于频域第一频域音频声道252及第二频域音频声道254产生频域中间声道Mfr(b)256。根据一些实施,频域中间声道Mfr(b)256也可基于立体声提示而产生。如下为一些基于频域音频声道252、254及立体声提示产生频域中间声道256的方法。
Mfr(b)=(Lfr(b)+Rfr(b))/2
Mfr(b)=c1(b)*Lfr(b)+c2*Rfr(b),其中c1(b)及c2(b)为每频带降混参数。
在一些实施中,降混参数c1(b)及c2(b)是基于立体声提示。举例来说,在IPD进行估计的中间侧降混的一个实施中,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示平方根-1的虚数。在其它实例中,中间声道也可基于移位值(例如,最终移位值116)。在这些实施中,左声道及右声道可在频域中间声道的估计之前基于移位值的估计而在时间上对准。在一些实施中,可在时域中直接对第一及第二音频声道130、132实施此时间对准。在其它实施中,可通过应用相位旋转以获得时间移位的效果,来在变换域中对Lfr(b)及Rfr(b)执行时间对准。在一些实施中,可执行声道的时间对准,作为对目标声道执行的非因果移位操作。而在其它实施中,可分别地对参考声道执行时间对准作为关联移位操作,或对参考/目标声道执行时间对准作为关联/非因果移位操作。在一些实施中,可俘获关于参考及目标声道的信息作为参考声道指示符(其可基于最终移位值116的正负号进行估计)。在一些实施中,可包含关于参考声道指示符及移位值的信息作为编码器的位流输出的部分。
频域中间声道256被提供到反变换单元210。反变换单元210可对频域中间声道256执行反变换操作以产生时域中间声道M(t)258。因此,频域中间声道256可经反变换到时域,或经变换到MDCT域以供译码。时域中间声道258被提供到中间声道编码器212且被提供到中间声道BWE编码器214。
中间声道编码器212可经配置以编码时域中间声道258的低频带部分以产生低频带中间声道位流292。低频带中间声道位流292可从编码器114传输到解码器118。中间声道编码器212可经配置以产生低频带中间声道的低频带中间声道激励260。低频带中间声道激励260被提供到中间声道BWE编码器214。
中间声道BWE编码器214可基于时域中间声道258及低频带中间声道激励260产生中间声道BWE参数(例如,线性预测系数(LPC)、增益形状、增益帧等)。中间声道BWE编码器214可将中间声道BWE参数编码成高频带中间声道BWE位流294。高频带中间声道BWE位流294可从编码器114传输到解码器116。
根据一个实施,中间声道BWE编码器214可基于时域带宽扩展(TBE)模型使用高频带译码算法编码中间高频带声道。中间高频带声道的TBE译码可产生一组LPC参数、高频带整体增益参数及高频带时间增益形状参数。中间声道BWE编码器214可产生对应于中间高频带声道的一组中间高频带增益参数。举例来说,中间声道BWE编码器214可基于LPC参数产生经合成中间高频带声道,且可基于中间高频带信号与经合成中间高频带信号的比较产生中间高频带增益参数。如本文中所描述,中间声道BWE编码器214也可产生至少一个调整增益参数、至少一个调整频谱形状参数或其组合。中间声道BWE编码器214可传输LPC参数(例如,中间高频带LPC参数)、中间高频带增益参数集合、至少一调整增益参数、至少一频谱形状参数或其组合。LPC参数、中间高频带增益参数或两者可对应于中间高频带信号的经编码版本。
因此,编码器114可产生立体声降混/升混参数位流290、低频带中间声道位流292及高频带中间声道BWE位流294。位流290、292、294可经多工到单个位流中,且所述单个位流可传输到解码器118。为了减少译码复杂性及冗余传输,不将ICBWE增益映射参数编码成立体声降混/升混参数位流290。如关于图3详细描述,可基于其它立体声提示(例如,DFT降混立体声参数)在解码器118产生ICBWE增益映射参数。
参考图3,展示解码器118的特定实施。解码器118包含低频带中间声道解码器302、中间声道BWE解码器304、变换单元306、ICBWE空间平衡器308、立体声升混器310、反变换单元312、反变换单元314、组合器316及移位器320。
低频带中间声道位流292可从图2的编码器114被提供到低频带中间声道解码器302。低频带中间声道解码器302可经配置以解码低频带中间声道位流292以产生低频带中间信号350。低频带中间声道解码器302也可经配置以产生低频带中间信号350的激励。举例来说,低频带中间声道解码器302可产生低频带中间激励信号352。低频带中间信号350被提供到变换单元306,且低频带中间激励信号352被提供到中间声道BWE解码器304。
变换单元306可经配置以对低频带中间信号350执行变换操作以产生频域低频带中间信号354。举例来说,变换单元306可将低频带中间信号350从时域变换到频域。频域低频带中间信号354被提供到立体声升混器310。
立体声升混器310可经配置以使用从立体声降混/升混参数位流290提取的立体声提示对频域低频带中间信号354执行升混操作。举例来说,立体声降混/升混参数位流290可被(从编码器114)提供到立体声升混器310。立体声升混器310可将与立体声降混/升混参数位流290相关联的立体声提示用以升混频域低频带中间信号354且产生第一频域低频带声道356及第二频域低频带声道358。第一频域低频带声道356被提供到反变换单元312,且第二频域低频带声道358被提供到反变换单元314。
反变换单元312可经配置以对第一频域低频带声道356执行反变换操作以产生第一低频带声道360(例如,时域声道)。第一低频带声道360(例如,左低频带声道)被提供到组合器316。反变换单元314可经配置以对第二频域低频带声道358执行反变换操作以产生第二低频带声道362(例如,时域声道)。第二低频带声道362(例如,右低频带声道)也被提供到组合器316。
中间声道BWE解码器304可经配置以基于低频带中间激励信号352及经编码成高频带中间声道BWE位流294的中间声道BWE参数产生经合成高频带中间信号364。举例来说,高频带中间声道BWE位流294被(从编码器114)提供到中间声道BWE解码器304。可通过将中间声道BWE参数应用于低频带中间激励信号352在中间声道BWE解码器304执行合成操作。基于合成操作,中间声道BWE解码器304可产生经合成高频带中间信号364。经合成高频带中间信号364被提供到ICBWE空间平衡器308。在一些实施中,中间声道BWE解码器304可包含于ICBWE空间平衡器308中。在其它实施中,ICBWE空间平衡器308可包含于中间声道BWE解码器304中。在一些特定实施中,可能不会显式地确定中间声道BWE参数,而是可能直接产生第一及第二高频带声道。
立体声降混/升混参数位流290被(从编码器114)提供到解码器118。如图2中所描述,ICBWE增益映射参数并非包含于被提供到解码器118的位流(例如,立体声降混/升混参数位流290)中。因此,为了使用ICBWE空间平衡器308产生第一高频带声道366及第二高频带声道,ICBWE空间平衡308(或解码器118的另一组件)可基于被经编码成立体声降混/升混参数位流290的其它立体声提示(例如,DFT立体声参数)产生ICBWE增益映射参数332。
ICBWE空间平衡器308包含ICBWE增益映射参数产生器322。尽管ICBWE增益映射参数产生器322包含于ICBWE空间平衡器308中,但在其它实施中,ICBWE增益映射参数产生器322可包含于解码器118的不同组件内、可位于解码器118外部,或可为解码器118的单独组件。ICBWE增益映射参数产生器322包含提取器324及选择器326。提取器324可经配置以从立体声降混/升混参数位流290提取一或多个频域增益参数328。选择器326可经配置以选择一组频域增益参数330(从一或多个经提取频域增益参数328)以供用于ICBWE增益映射参数332的产生。
根据一个实施,ICBWE增益映射参数产生器322可使用以下假码产生用于宽带内容的ICBWE增益映射参数332:
所选择频域增益参数330可基于所选择频域增益参数330的频率范围与经合成高频带中间信号364的频率范围的频谱近接性进行选择。举例来说,第一特定频域增益参数的第一频率范围可与经合成高频带中间信号364的频率范围重叠第一量,且第二特定频域增益参数的第二频率范围可与经合成高频带中间信号364的频率范围重叠第二量。举例来说,如果第一量大于第二量,那么可选择第一特定频域增益参数作为所选择频域增益参数330。在无具有与经合成高频带中间信号364的频率范围重叠的频率范围的(经提取频域增益参数328的)频域增益参数的实施中,可选择具有最接近经合成高频带中间信号364的频率范围的频率范围的频域增益参数作为所选择频域增益参数330。
作为频域增益参数选择的非限制性实例,对于宽带译码,经合成高频带中间信号364可具有介于6.4千赫兹(kHz)与8kHz之间的频率范围。如果频域增益参数330与介于5.2kHz与8.56kHz之间的频率范围相关联,那么可选择频域增益参数330以产生ICBWE增益映射参数332。举例来说,在当前实施中,频带数目(b)=9对应于介于5.28与8.56kHz之间的频率范围。由于所述频带包含频率范围(6.4-8khz),因此此频带的sidegain可直接用以导出ICBWE增益映射参数322。在不存在横跨对应于高频带(6.4-8kHz)的频率范围的频带情况下,可使用最接近高频带的频率范围的频带。在存在对应于高频带的多个频率范围的实例实施中,随后根据带宽将频率范围中的每一个的侧边增益加权以产生最终ICBWE增益映射参数,即gsMapping=权重[b]*sidegain[b]+权重[b+1]*sidegain[b+1]。
在选择器326选择频域增益参数330之后,ICBWE增益映射参数产生器322可使用频域增益参数330产生ICBWE增益映射参数332。根据一个实施,可基于所选择频域增益参数(sidegain)330使用以下等式来确定ICBWE增益映射参数(gsMapping)332:
gsMapping=(1-sidegain)
举例来说,侧增益可为ILD的替代性表示。可基于频域音频声道252、254在频带中提取ILD(由立体声提示估计器206)。ILD与侧增益之间的关系可大约为:
因此,ICBWE增益映射参数322也可表示为:
一旦ICBWE增益映射参数产生器322产生ICBWE增益映射参数(gsMapping)322,ICBWE空间平衡器308便可产生第一高频带声道366及第二高频带声道368。举例来说,ICBWE空间平衡器308可经配置以基于ICBWE增益映射参数(gsMapping)322对经合成高频带中间信号364执行增益缩放操作以产生高频带声道366。为了说明,ICBWE空间平衡器308可将经合成高频带中间信号364按比例缩放二与ICBWE增益映射参数332之间的差(例如,2-gsMapping或),以产生第一高频带声道366(例如,左高频带声道),且ICBWE空间平衡器308可将经合成高频带中间信号364按比例缩放ICBWE增益映射参数332,以产生第二高频带声道368(例如,右高频带声道)。高频带声道366、368被提供到组合器316。为了用ICBWE增益映射最小化帧间增益变体伪影,当从第i个帧的gsMapping参数变换到第(i+1)个帧的gsMapping参数时,可在帧边界使用具有逐渐变窄窗(例如,正弦(.)窗或三角窗)的叠加。
ICBWE参考声道可用于组合器316处。举例来说,组合器316可确定哪些高频带声道366、368对应于左声道且哪些高频带声道366、368对应于右声道。因此,可将参考声道指示符提供到ICBWE空间平衡器308,以指示左高频带声道对应于第一高频带声道366或对应于第二高频带声道368。组合器316可经配置以将第一高频带声道366及第一低频带声道360组合以产生第一声道370。举例来说,组合器316可将左高频带声道及左低频带声道360组合以产生左声道。组合器316也可经配置以将第二高频带声道368及第二低频带声道362组合以产生第二声道372。举例来说,组合器316可将右高频带声道及右低频带声道组合以产生右声道。第一及第二声道370、372被提供到移位器320。
作为一实例,可指定第一声道为参考声道,且可指定第二声道为非参考声道或“目标”声道。因此,第二声道372可经历移位器320处的移位操作。移位器320可从立体声降混/升混参数位流290提取移位值(例如,最终移位值116),且可将第二声道372移位所述移位值以产生第二输出声道128。移位器320可传递第一高频带声道366作为第一输出声道126。在一些实施中,移位器320可经配置以对目标声道执行关联移位。在其它实施中,移位器320可经配置以对参考声道执行非因果移位。而在其它实施中,移位器320可经配置以分别对目标/参考声道执行关联/非因果移位。可包含指示哪个声道为目标声道且哪个声道为参考声道的信息作为所接收位流的部分。在一些实施中,移位器320可在时域中执行移位操作。在其它实施中,可在频域中执行移位操作。在一些实施中,移位器320可包含于立体声升混器310中。因此,可对低频带信号执行移位操作。
根据一个实施,移位操作可独立于ICBWE操作。举例来说,高频带的参考声道指示符可能不会与用于移位器320的参考声道指示符相同。为了说明,高频带的参考声道(例如,与ICBWE操作相关联的参考声道)可不同于移位器320处的参考声道。根据一些实施,可能不会在移位器320指定参考声道,且移位器320可经配置以移位声道370、372两者。
因此,可通过省略在编码器114处提取及传输ICBWE增益映射参数来减少编码复杂性及传输带宽。ICBWE增益映射参数332可在解码器118基于包含于位流290中的其它立体声参数(例如,频域增益参数328)而产生。
参看图4,展示基于从编码器传输的频域增益参数确定ICBWE映射参数的方法400。方法400可由图1及3的解码器118执行。
方法400包含在402处从编码器接收位流。位流可包含至少低频带中间声道位流、高频带中间声道BWE位流及立体声降混/升混参数位流。举例来说,参考图3,解码器118可接收立体声降混/升混参数位流290、低频带中间声道位流292及高频带中间声道BWE位流294。
方法400还包含在404处解码低频带中间声道位流以产生低频带中间信号及低频带中间激励信号。举例来说,参考图3,低频带中间声道解码器302可解码低频带中间声道位流292以产生低频带中间信号350。低频带中间声道解码器302也可产生低频带中间激励信号352。
方法400进一步包含在406处解码高频带中间声道BWE位流以基于低频带中间激励信号的非线性谐波扩展且基于高频带声道BWE参数产生经合成高频带中间信号。举例来说,中间声道BWE解码器304可基于低频带中间激励信号352及经编码成高频带中间声道BWE位流294的中间声道BWE参数产生经合成高频带中间信号364。为了说明,可通过将中间声道BWE参数应用于低频带中间激励信号352在中间声道BWE解码器304执行合成操作。基于合成操作,中间声道BWE解码器304可产生经合成高频带中间信号364。
方法400还包含在408处基于从立体声降混/升混参数位流提取的所选择频域增益参数确定用于经合成高频带中间信号的ICBWE增益映射参数。所选择频域增益参数可基于所选择频域增益参数的频率范围与经合成高频带中间信号的频率范围的频谱近接性进行选择。举例来说,参考图3,提取器可从立体声降混/升混参数位流290提取频域增益参数328,且选择器326可选择频域增益参数330(从一或多个经提取频域增益参数328)以供用于ICBWE增益映射参数332的产生。因此,根据一个实施,方法400还可包含从立体声参数位流提取一或多个频域增益参数。所选择频域增益参数可选自一或多个频域增益参数。
所选择频域增益参数330可基于所选择频域增益参数330的频率范围与经合成高频带中间信号364的频率范围的频谱近接性进行选择。为了说明,对于宽带译码,经合成高频带中间信号364可具有介于6.4千赫兹(kHz)与8kHz之间的频率范围。如果频域增益参数330与介于5.2kHz与8.56kHz之间的频率范围相关联,那么可选择频域增益参数330以产生ICBWE增益映射参数332。
在选择器326选择频域增益参数330之后,ICBWE增益映射参数产生器322可使用频域增益参数330产生ICBWE增益映射参数332。根据一个实施,可基于所选择频域增益参数(sidegain)330使用以下等式来确定ICBWE增益映射参数(gsMapping)332:
方法400进一步包含在410处基于ICBWE增益映射参数对经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道。执行增益缩放操作可包含将经合成高频带中间信号按比例缩放ICBWE增益映射参数以产生右高频带声道。举例来说,参考图3,ICBWE空间平衡器308可将经合成高频带中间信号364按比例缩放ICBWE增益映射参数332,以产生第二高频带声道368(例如,右高频带声道)。执行增益缩放操作还可包含将经合成高频带中间信号按比例缩放二与ICBWE增益映射参数之间的差,以产生左高频带声道。举例来说,参考图3,ICBWE空间平衡器308可将经合成高频带中间信号364按比例缩放二与ICBWE增益映射参数332的差(例如,2-gsMapping),以产生第一高频带声道366(例如,左高频带声道)。
方法400还包含在412处输出第一音频声道及第二音频声道。第一音频声道可基于参考高频带声道,且第二音频声道可基于目标高频带声道。举例来说,参考图1,第二装置106可输出第一输出声道126(例如,基于左声道370的第一音频声道)及第二输出声道128(例如,基于右声道372的第二音频声道)。
因此,根据方法400,可通过省略在编码器114处提取及传输ICBWE增益映射参数来减少编码复杂性及传输带宽。ICBWE增益映射参数332可在解码器118基于包含于位流290中的其它立体声参数(例如,频域增益参数328)而产生。
参考图5,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且通常将所述装置指定为500。在各种实施中,装置500可相比图5中所说明的具有较多或较少组件。在说明性实施中,装置500可对应于图1的第二装置106。在说明性实施中,装置500可执行参考图1到4的系统及方法所描述的一或多个操作。
在一特定实施中,装置500包含处理器506(例如,中央处理单元(CPU))。装置500可包含一或多个额外处理器510(例如,一或多个数字信号处理器(DSP))。处理器510可包含媒体(例如,语音及音乐)译码器-解码器(编解码器(CODEC))508及回音消除器512。媒体编解码器508可包含图1的解码器118、编码器114或所述两者。解码器118可包含ICBWE增益映射参数产生器322。
装置500可包含存储器153及编解码器534。尽管媒体编解码器508经说明为处理器510的组件(例如,专用电路及/或可执行代码),但在其它实施中,媒体编解码器508的一或多个组件(例如解码器118、编码器114或两者)可包含于处理器506、编解码器534、另一处理组件或其组合中。
装置500可包含耦合到天线542的收发器590。装置500可包含耦合到显示器控制器526的显示器528。一或多个扬声器548可耦合到编解码器534。一或多个麦克风546可经由输入接口592耦合到编解码器534。在一特定实施中,扬声器548可包含图1的第一扬声器142、第二扬声器144,或其组合。编解码器534可包含数字到模拟转换器(DAC)502及模拟到数字转换器(ADC)504。
存储器153可包含可由解码器118、处理器506、处理器510、编解码器534、装置500的另一处理单元或其组合执行的指令560,以执行参考图1到4所描述的一或多个操作。
举例来说,指令560可为可执行的以使得处理器510解码低频带中间声道位流292以产生低频带中间信号350及低频带中间激励信号352。指令560可进一步为可执行的以使得处理器510基于低频带中间激励信号352解码高频带中间声道BWE位流294以产生经合成高频带中间信号364。指令560也可为可执行的以使得处理器510基于从立体声降混/升混参数位流290提取的所选择频域增益参数330确定用于经合成高频带中间信号364的ICBWE增益映射参数332。所选择频域增益参数330可基于所选择频域增益参数330的频率范围与经合成高频带中间信号364的频率范围的频谱近接性进行选择。指令560可进一步为可执行的以使得处理器510基于ICBWE增益映射参数332对经合成高频带中间信号364执行增益缩放操作以产生第一高频带声道366(例如,左高频带声道)及第二高频带声道368(例如,右高频带声道)。指令560也可为可执行的以使得处理器510产生第一输出声道326及第二输出声道328。
装置500的一或多个组件可由用以执行一或多个任务或其组合的处理器执行指令经由专用硬件(例如,电路)实施。作为一实例,存储器153或处理器506、处理器510及/或编解码器534的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令560),所述指令在由计算机(例如,编解码器534中的处理器、解码器118、处理器506及/或处理器510)执行时可使得计算机执行参考图1到4所描述的一或多个操作。作为一实例,存储器153或处理器506、处理器510及/或编解码器534中的一或多个组件可为包含指令(例如,指令560)的非暂时性计算机可读媒体,当由计算机(例如,编解码器534中的处理器、解码器118、处理器506及/或处理器510)执行时,所述指令使得计算机执行参考图1到4所描述的一或多个操作。
在一特定实施中,装置500可包含于系统级封装或芯片上系统装置(例如,移动台调制解调器(MSM))522中。在一特定实施中,处理器506、处理器510、显示器控制器526、存储器153、编解码器534及收发器590包含于系统级封装或芯片上系统装置522中。在一特定实施中,例如触摸屏及/或小键盘的输入装置530及电力供应器544耦合到芯片上系统装置522。此外,在一特定实施中,如图5中所说明,显示器528、输入装置530、扬声器548、麦克风546、天线542及电力供应器544位于芯片上系统装置522外部。然而,显示器528、输入装置530、扬声器548、麦克风546、天线542及电力供应器544中的每一个可耦合到芯片上系统装置522的组件,例如接口或控制器。
装置500可包含:无线电话、移动通信装置、移动电话、智能电话、蜂窝式电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
在一特定实施中,本文中公开的系统及装置的一或多个组件可集成于解码系统或设备(例如,其中的电子装置、编解码器或处理器)、编码系统或设备,或所述两者中。在其它实施中,本文所公开的系统及装置的一或多个组件可集成到以下各者中:无线电话、平板计算机、台式计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
应注意,由本文所公开的系统及装置的一或多个组件执行的各种功能经描述为由某些组件或模块执行。组件及模块的此划分仅用于说明。在替代性实施中,由特定组件或模块执行的功能可被划分于多个组件或模块中。此外,在替代性实施中,两个或多于两个组件或模块可被集成到单个组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合实施。
结合所描述的实施,设备包含用于从编码器接收位流的装置。位流可包含低频带中间声道位流、中间声道BWE位流及立体声参数位流。举例来说,用于接收的所述装置可包含图1的第二装置106、图5的天线542、图5的收发器590、一或多个其它装置、模块、电路、组件或其组合。
设备也可包含用于解码低频带中间声道位流以产生低频带中间信号及低频带中间信号的低频带中间声道激励的装置。举例来说,用于解码低频带中间声道位流的所述装置可包含图1、3及5的解码器118、图3的低频带中间声道解码器302、图5的编解码器508、图5的处理器510、处理器506、装置500、可由处理器执行的指令560、一或多个其它装置、模块、电路、组件或其组合。
设备也可包含用于基于低频带中间声道激励解码中间声道BWE位流以产生经合成高频带中间信号的装置。举例来说,用于解码中间声道BWE位流的所述装置可包含图1、3及5的解码器118、图3的中间声道BWE解码器304、图5的编解码器508、图5的处理器510、处理器506、装置500、可由处理器执行的指令560、一或多个其它装置、模块、电路、组件或其组合。
设备也可包含用于基于从立体声参数位流提取的所选择频域增益参数确定用于经合成高频带中间信号的ICBWE增益映射参数的装置。所选择频域增益参数可基于所选择频域增益参数的频率范围与经合成高频带中间信号的频率范围的频谱近接性进行选择。举例来说,用于确定ICBWE增益映射参数的所述装置可包含图1、3及5的解码器118、图3的ICBWE空间平衡器308、图3的ICBWE增益映射参数产生器322、图3的提取器324、图3的选择器326、图5的编解码器508、图5的处理器510、处理器506、装置500、可由处理器执行的指令560、一或多个其它装置、模块、电路、组件或其组合。
设备也可包含用于基于ICBWE增益映射参数对经合成高频带中间信号执行增益缩放操作以产生左高频带声道及右高频带声道的装置。举例来说,用于执行增益缩放操作的所述装置可包含图1、3及5的解码器118、图3的ICBWE空间平衡器308、图5的编解码器508、图5的处理器510、处理器506、装置500、可由处理器执行的指令560、一或多个其它装置、模块、电路、组件或其组合。
设备也可包含用于输出第一音频声道及第二音频声道的装置。第一音频声道可基于左高频带声道,且第二音频声道可基于右高频带声道。举例来说,用于输出的所述装置可包含图1的第一扬声器142、图1的第二扬声器144、图5的扬声器548、一或多个其它装置、模块、电路、组件或其组合。
参考图6,描绘基站600的特定说明性实例的框图。在各种实施中,基站600可相比图6中所说明的具有较多组件或较少组件。在示范性实例中,基站600可包含图1的第二装置106。在说明性实例中,基站600可根据参看图1到5所描述的方法或系统中的一或多个操作。
基站600可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或一些其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或一些其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动台、终端、存取终端、用户单元、工作台等。所述无线装置可包含:蜂窝式电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能本、迷你笔记型计算机、平板计算机、无接线电话、无线区域回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图5的装置500。
各种功能可由基站600(及/或图中未示的其它组件)的一或多个组件执行,例如发送及接收消息及数据(例如,音频数据)。在一特定实例中,基站600包含处理器606(例如,CPU)。基站600可包含转码器610。转码器610可包含音频编解码器608。举例来说,转码器610可包含经配置以执行音频编解码器608的操作的一或多个组件(例如,电路)。作为另一实例,转码器610可经配置以执行一或多个计算机可读指令以执行音频编解码器608的操作。尽管音频编解码器608说明为转码器610的组件,但在其它实例中,音频编解码器608的一或多个组件可包含于处理器606、另一处理组件,或其组合中。举例来说,解码器638(例如,声码器解码器)可包含于接收器数据处理器664中。作为另一实例,编码器636(例如,声码器编码器)可包含于传输数据处理器682中。编码器636可包含图1的编码器114。解码器638可包含图1的解码器118。
转码器610可起到在两个或更多个网络之间转码消息及数据的作用。转码器610可经配置以将消息及音频数据从第一格式(例如,数字格式)转换到第二格式。为了说明,解码器638可对具有第一格式的经编码信号进行解码,且编码器636可将经解码信号编码成具有第二格式的经编码信号。另外或替代性地,转码器610可经配置以执行数据速率适应。举例来说,转码器610可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。为进行说明,转码器610可将64kbit/s信号降频转换成16kbit/s信号。
基站600可包含存储器632。例如计算机可读存储装置的存储器632可包含指令。指令可包含可由处理器606、转码器610或其组合执行的一或多个指令,以执行参考图1到5的方法及系统所描述的一或多个操作。
基站600可包含耦合到天线阵列的多个传输器及接收器(例如,收发器),例如第一收发器652及第二收发器654。天线阵列可包含第一天线642及第二天线644。天线阵列可经配置以无线方式与一或多个无线装置通信,例如图5的装置500。举例来说,第二天线644可从无线装置接收数据流614(例如,位流)。数据流614可包含消息、数据(例如,经编码语音数据),或其组合。
基站600可包含网络连接660,例如空载传输连接。网络连接660可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站600可经由网络连接660从核心网络接收第二数据流(例如,消息或音频数据)。基站600可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接660将其提供到另一基站。在特定实施中,网络连接660可为广域网(WAN)连接,作为说明性的非限制性实例。在一些实施中,核心网络可包含或对应于公众交换电话网络(PSTN)、包基干网络或两者。
基站600可包含耦合到网络连接660及处理器606的媒体网关670。媒体网关670可经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关670可在不同传输协议、不同译码方案或两者之间转换。为进行说明,作为说明性非限制性实例,媒体网关670可从PCM信号转换成实时输送协议(RTP)信号。媒体网关670可在包交换式网络(例如,因特网协议上的语音(VoIP)网络、IP多媒体子系统(IMS)、例如LTE、WiMax及UMB的第四代(4G)无线网络等)、电路切换式网络(例如,PSTN)及混合型网络(例如,例如GSM、GPRS及EDGE的第二代(2G)无线网络、例如WCDMA、EV-DO及HSPA的第三代(3G)无线网络等)之间转换数据。
另外,媒体网关670可包含例如转码器610的转码器,且可经配置以在编码解码器不相容时转码数据。举例来说,作为说明性非限制性实例,媒体网关670可在自适应多重速率(AMR)编解码器与G.711编解码器之间进行转码。媒体网关670可包含路由器及多个物理接口。在一些实施中,媒体网关670还可包含控制器(图中未示)。在特定实施中,媒体网关控制器可在媒体网关670外部、在基站600外部或在其两者外部。媒体网关控制器可控制并协调操作多个媒体网关。媒体网关670可从媒体网关控制器接收控制信号,且可起到在不同传输技术之间桥接器的作用,且可添加对最终用户能力及连接的服务。
基站600可包含耦合到收发器652、654、接收器数据处理器664及处理器606的解调器662,且接收器数据处理器664可耦合到处理器606。解调器662可经配置以解调制从收发器652、654所接收的经调制信号,且可经配置以将经解调制数据提供到接收器数据处理器664。接收器数据处理器664可经配置以从经解调数据提取消息或音频数据,且将所述消息或音频数据发送到处理器606。
基站600可包含传输数据处理器682及传输多输入多输出(MIMO)处理器684。传输数据处理器682可耦合到处理器606及传输MIMO处理器684。传输MIMO处理器684可耦合到收发器652、654及处理器606。在一些实施中,传输MIMO处理器684可耦合到媒体网关670。传输数据处理器682可经配置以从处理器606接收消息或音频数据,且基于例如CDMA或正交分频多工(OFDM)的译码方案译码消息或音频数据,作为示范性的非限制性实例。传输数据处理器682可将经译码数据提供到传输MIMO处理器684。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多工在一起以产生经多工数据。经多工数据接着可基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-元相移键控(“M-PSK”)、M-元正交振幅调制(“M-QAM”)等)由传输数据处理器682调制(即,符号映射)以产生调制符号。在特定实施中,可使用不同调制方案调制经译码数据及其它数据。用于每一数据流的数据速率、译码,及调制可由处理器606所执行的指令来确定。
传输MIMO处理器684可经配置以从传输数据处理器682接收调制符号,且可进一步处理调制符号,且可对所述数据执行波束成形。举例来说,传输MIMO处理器684可将波束成形权重应用于调制符号。
在操作期间,基站600的第二天线644可接收数据流614。第二收发器654可从第二天线644接收数据流614,且可将数据流614提供到解调器662。解调器662可解调数据流614的经调制信号,且将经解调数据提供到接收器数据处理器664。接收器数据处理器664可从经解调数据提取音频数据,且将经提取音频数据提供到处理器606。
处理器606可将音频数据提供到转码器610以供转码。转码器610的解码器638可将音频数据从第一格式解码成经解码音频数据且编码器636可将经解码音频数据编码成第二格式。在一些实施中,编码器636可使用比从无线装置接收的更高数据速率(例如,升频转换)或更低数据速率(例如,降频转换)编码音频数据。在其它实施中,音频数据可未经转码。尽管转码(例如,解码及编码)被说明为由转码器610执行,但转码操作(例如,解码及编码)可由基站600的多个组件执行。举例来说,解码可由接收器数据处理器664执行,且编码可由传输数据处理器682执行。在其它实施中,处理器606可将音频数据提供到媒体网关670以供转换成另一传输协议、译码方案或两者。媒体网关670可借助于网络连接660将经转换数据提供到另一基站或核心网络。
可经由处理器606将在编码器636产生的经编码音频数据提供到传输数据处理器682或网络连接660。可将来自转码器610的经转码音频数据提供到传输数据处理器682,用于根据例如OFDM的调制方案译码,以产生调制符号。传输数据处理器682可将调制符号提供到传输MIMO处理器684,以供进一步处理及波束成形。传输MIMO处理器684可应用波束成形权重,且可经由第一收发器652将调制符号提供到天线阵列的一或多个天线,例如第一天线642。因此,基站600可将对应于从无线装置接收的数据流614的经转码数据流616提供到另一无线装置。经转码数据流616可具有与数据流614不同的编码格式、数据速率,或所述两者。在其它实施中,可将经转码数据流616提供到网络连接660,用于传输到另一基站或核心网络。
所属领域的技术人员将进一步了解,结合本文中所公开的实施而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或两者的组合。上文大体在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。此功能性经实施为硬件或是软件取决于特定应用及强加于整个系统的设计约束。对于每一特定应用来说,所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,而不应将这些实施决策解释为致使脱离本发明的范围。
结合本文中所公开的实施所描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可驻存于存储器装置中,例如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合到处理器,以使得处理器可从存储器装置读取信息及将信息写入到存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可驻存于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻存于计算装置或用户终端中。
提供对所公开实施的先前描述,以使得所属领域的技术人员能够制作或使用所公开的实施。所属领域的技术人员将容易地显而易见对这些实施方案的各种修改,且在不背离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非意图限于本文中所展示的实施,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (30)

1.一种装置,其包括:
接收器,其经配置以从编码器接收位流,所述位流包括至少一低频带中间声道位流、高频带中间声道带宽扩展BWE位流及立体声降混/升混参数位流;
解码器,其经配置以:
解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号;
产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展;
解码所述高频带中间声道BWE位流以基于所述低频带中间激励信号的所述非线性谐波扩展且基于高频带中间声道BWE参数产生经合成高频带中间信号;
确定对应于所述经合成高频带中间信号的声道间带宽扩展ICBWE增益映射参数,所述ICBWE增益映射参数基于从所述立体声降混/升混参数位流提取的增益参数集合;及
基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道;及
一或多个扬声器,其经配置以输出第一音频声道及第二音频声道,所述第一音频声道基于所述参考高频带声道且所述第二音频声道基于所述目标高频带声道。
2.根据权利要求1所述的装置,其中所述增益参数集合是基于所述增益参数集合的频率范围与所述经合成高频带中间信号的频率范围的频谱近接性进行选择。
3.根据权利要求1所述的装置,其中所述增益参数集合对应于所述立体声降混/升混参数位流的侧边增益或所述立体声降混/升混参数位流的声道间层级差异ILD。
4.根据权利要求1所述的装置,其中所述参考高频带声道对应于左高频带声道或右高频带声道,且其中所述目标高频带声道对应于所述左高频带声道或所述右高频带声道中的另一个。
5.根据权利要求4所述的装置,其中所述解码器经进一步配置以基于所述低频带中间信号产生左低频带声道及右低频带声道。
6.根据权利要求5所述的装置,其中所述解码器经进一步配置以:
将所述左低频带声道与所述左高频带声道组合以产生所述第一音频声道;及
将所述右低频带声道与所述右高频带声道组合以产生所述第二音频声道。
7.根据权利要求1所述的装置,其中所述解码器经进一步配置以从所述立体声降混/升混参数位流提取一或多个频域增益参数,其中所述增益参数集合是选自所述一或多个频域增益参数。
8.根据权利要求1所述的装置,其中所述解码器经配置以将所述经合成高频带中间信号按比例缩放所述ICBWE增益映射参数以产生所述目标高频带声道。
9.根据权利要求1所述的装置,其中来自高频带的多个频率范围的侧边增益基于所述多个频率范围中的每一频率范围的频率带宽进行加权以产生所述ICBWE增益映射参数。
10.根据权利要求1所述的装置,其中所述解码器集成于基站中。
11.根据权利要求1所述的装置,其中所述解码器集成于移动装置中。
12.一种解码信号的方法,所述方法包括:
从编码器接收位流,所述位流包括至少一低频带中间声道位流、高频带中间声道带宽扩展BWE位流及立体声降混/升混参数位流;
在解码器解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号;
产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展;
解码所述高频带中间声道BWE位流以基于所述低频带中间激励信号的所述非线性谐波扩展且基于高频带中间声道BWE参数产生经合成高频带中间信号;
确定对应于所述经合成高频带中间信号的声道间带宽扩展ICBWE增益映射参数,所述ICBWE增益映射参数基于从所述立体声降混/升混参数位流提取的所选择频域增益参数;
基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生参考高频带声道及目标高频带声道;及
输出第一音频声道及第二音频声道,所述第一音频声道基于所述参考高频带声道且所述第二音频声道基于所述目标高频带声道。
13.根据权利要求12所述的方法,其中所述所选择频域增益参数是基于所述所选择频域增益参数的频率范围与所述经合成高频带中间信号的频率范围的频谱近接性进行选择。
14.根据权利要求12所述的方法,其中所述参考高频带声道对应于左高频带声道或右高频带声道,且其中所述目标高频带声道对应于所述左高频带声道或所述右高频带声道中的另一个。
15.根据权利要求14所述的方法,进一步包括基于所述低频带中间信号产生左低频带声道及右低频带声道。
16.根据权利要求15所述的方法,其进一步包括:
将所述左低频带声道与所述左高频带声道组合以产生所述第一音频声道;及
将所述右低频带声道与所述右高频带声道组合以产生所述第二音频声道。
17.根据权利要求12所述的方法,其进一步包括从所述立体声降混/升混参数位流提取一或多个频域增益参数,其中所述所选择频域增益参数是选自所述一或多个频域增益参数。
18.根据权利要求12所述的方法,其中执行所述增益缩放操作包括将所述经合成高频带中间信号按比例缩放所述ICBWE增益映射参数以产生所述目标高频带声道。
19.根据权利要求12所述的方法,其中确定用于所述经合成高频带中间信号的所述ICBWE增益映射参数在基站处执行。
20.根据权利要求12所述的方法,其中确定用于所述经合成高频带中间信号的所述ICBWE增益映射参数在移动装置处执行。
21.一种非暂时性计算机可读媒体,其包括用于解码信号的指令,所述指令在由解码器内的处理器执行时使得所述处理器执行以下操作,所述操作包括:
从编码器接收位流,所述位流包括至少一低频带中间声道位流、高频带中间声道带宽扩展BWE位流及立体声降混/升混参数位流;
解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号;
产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展;
解码所述高频带中间声道BWE位流以基于所述低频带中间激励信号的所述非线性谐波扩展且基于高频带中间声道BWE参数产生经合成高频带中间信号;
确定对应于所述经合成高频带中间信号的声道间带宽扩展ICBWE增益映射参数,所述ICBWE增益映射参数基于从所述立体声降混/升混参数位流提取的所选择频域增益参数;
基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生左高频带声道及右高频带声道;及
产生第一音频声道及第二音频声道,所述第一音频声道基于所述左高频带声道且所述第二音频声道基于所述右高频带声道。
22.根据权利要求21所述的非暂时性计算机可读媒体,其中所述所选择频域增益参数是基于所述所选择频域增益参数的频率范围与所述经合成高频带中间信号的频率范围的频谱近接性进行选择。
23.根据权利要求21所述的非暂时性计算机可读媒体,其中所述参考高频带声道对应于左高频带声道或右高频带声道,且其中所述目标高频带声道对应于所述左高频带声道或所述右高频带声道中的另一个。
24.根据权利要求23所述的非暂时性计算机可读媒体,其中所述操作进一步包括基于所述低频带中间信号产生左低频带声道及右低频带声道。
25.根据权利要求24所述的非暂时性计算机可读媒体,其中所述操作进一步包括:
将所述左低频带声道与所述左高频带声道组合以产生所述第一音频声道;及
将所述右低频带声道与所述右高频带声道组合以产生所述第二音频声道。
26.根据权利要求21所述的非暂时性计算机可读媒体,其中所述操作进一步包括从所述立体声降混/升混参数位流提取一或多个频域增益参数,其中所述所选择频域增益参数是选自所述一或多个频域增益参数。
27.根据权利要求21所述的非暂时性计算机可读媒体,其中执行所述增益缩放操作包括将所述经合成高频带中间信号按比例缩放所述ICBWE增益映射参数以产生所述目标高频带声道。
28.一种设备,其包括:
用于从编码器接收位流的装置,所述位流包括至少一低频带中间声道位流、高频带中间声道带宽扩展BWE位流及立体声降混/升混参数位流;
用于解码所述低频带中间声道位流以产生低频带中间信号及低频带中间激励信号的装置;
用于产生对应于高频带BWE部分的所述低频带中间激励信号的非线性谐波扩展的装置;
用于解码所述高频带中间声道BWE位流以基于所述低频带中间激励信号的所述非线性谐波扩展且基于高频带中间声道BWE参数产生经合成高频带中间信号的装置;
用于确定对应于所述经合成高频带中间信号的声道间带宽扩展ICBWE增益映射参数的装置,所述ICBWE增益映射参数基于从所述立体声降混/升混参数位流提取的所选择频域增益参数;
用于基于所述ICBWE增益映射参数对所述经合成高频带中间信号执行增益缩放操作以产生左高频带声道及右高频带声道的装置;及
用于输出第一音频声道及第二音频声道的装置,所述第一音频声道基于所述左高频带声道且所述第二音频声道基于所述右高频带声道。
29.根据权利要求28所述的设备,其中用于确定所述ICBWE增益映射参数的所述装置集成于基站中。
30.根据权利要求28所述的设备,其中用于确定所述ICBWE增益映射参数的所述装置集成于移动装置中。
CN201880020626.5A 2017-04-05 2018-03-27 声道间带宽扩展 Active CN110447072B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762482150P 2017-04-05 2017-04-05
US62/482,150 2017-04-05
US15/935,952 US10573326B2 (en) 2017-04-05 2018-03-26 Inter-channel bandwidth extension
US15/935,952 2018-03-26
PCT/US2018/024500 WO2018187082A1 (en) 2017-04-05 2018-03-27 Inter-channel bandwidth extension

Publications (2)

Publication Number Publication Date
CN110447072A true CN110447072A (zh) 2019-11-12
CN110447072B CN110447072B (zh) 2020-11-06

Family

ID=63711139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880020626.5A Active CN110447072B (zh) 2017-04-05 2018-03-27 声道间带宽扩展

Country Status (8)

Country Link
US (1) US10573326B2 (zh)
EP (1) EP3607549B1 (zh)
KR (1) KR102208602B1 (zh)
CN (1) CN110447072B (zh)
BR (1) BR112019020643A2 (zh)
SG (1) SG11201907670UA (zh)
TW (1) TWI724290B (zh)
WO (1) WO2018187082A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116459A (zh) * 2021-03-22 2022-09-27 炬芯科技股份有限公司 差分环绕音频信号生成方法、装置、存储介质及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535357B2 (en) * 2017-10-05 2020-01-14 Qualcomm Incorporated Encoding or decoding of audio signals
WO2020216459A1 (en) * 2019-04-23 2020-10-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating an output downmix representation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014005327A1 (zh) * 2012-07-06 2014-01-09 深圳广晟信源技术有限公司 对多声道数字音频编码的方法
CN105580073A (zh) * 2013-07-22 2016-05-11 弗劳恩霍夫应用研究促进协会 音频解码器、音频编码器、用于基于已编码表示提供至少四个音频声道信号的方法、用于基于至少四个音频声道信号提供已编码表示的方法、及使用带宽扩展的计算机程序
CN107408389A (zh) * 2015-03-09 2017-11-28 弗劳恩霍夫应用研究促进协会 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
CA2327041A1 (en) * 2000-11-22 2002-05-22 Voiceage Corporation A method for indexing pulse positions and signs in algebraic codebooks for efficient coding of wideband signals
US8605911B2 (en) * 2001-07-10 2013-12-10 Dolby International Ab Efficient and scalable parametric stereo coding for low bitrate audio coding applications
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8015368B2 (en) * 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
EP2077551B1 (en) * 2008-01-04 2011-03-02 Dolby Sweden AB Audio encoder and decoder
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8355921B2 (en) * 2008-06-13 2013-01-15 Nokia Corporation Method, apparatus and computer program product for providing improved audio processing
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
PL3246919T3 (pl) 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
US9070361B2 (en) * 2011-06-10 2015-06-30 Google Technology Holdings LLC Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10109284B2 (en) * 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals
US10157621B2 (en) 2016-03-18 2018-12-18 Qualcomm Incorporated Audio signal decoding
US10249307B2 (en) 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
US10431231B2 (en) * 2017-06-29 2019-10-01 Qualcomm Incorporated High-band residual prediction with time-domain inter-channel bandwidth extension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014005327A1 (zh) * 2012-07-06 2014-01-09 深圳广晟信源技术有限公司 对多声道数字音频编码的方法
CN105580073A (zh) * 2013-07-22 2016-05-11 弗劳恩霍夫应用研究促进协会 音频解码器、音频编码器、用于基于已编码表示提供至少四个音频声道信号的方法、用于基于至少四个音频声道信号提供已编码表示的方法、及使用带宽扩展的计算机程序
CN107408389A (zh) * 2015-03-09 2017-11-28 弗劳恩霍夫应用研究促进协会 用于编码多声道信号的音频编码器及用于解码经编码的音频信号的音频解码器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115116459A (zh) * 2021-03-22 2022-09-27 炬芯科技股份有限公司 差分环绕音频信号生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
TW201903754A (zh) 2019-01-16
US10573326B2 (en) 2020-02-25
CN110447072B (zh) 2020-11-06
EP3607549B1 (en) 2022-09-28
BR112019020643A2 (pt) 2020-04-28
WO2018187082A1 (en) 2018-10-11
KR20190134641A (ko) 2019-12-04
SG11201907670UA (en) 2019-10-30
TWI724290B (zh) 2021-04-11
EP3607549A1 (en) 2020-02-12
US20180293992A1 (en) 2018-10-11
KR102208602B1 (ko) 2021-01-27

Similar Documents

Publication Publication Date Title
US9978381B2 (en) Encoding of multiple audio signals
CN108292505A (zh) 多重音频信号的编码
US11705138B2 (en) Inter-channel bandwidth extension spectral mapping and adjustment
CN110537222A (zh) 在多源环境中的非谐波语音检测及带宽扩展
US10885922B2 (en) Time-domain inter-channel prediction
US10885925B2 (en) High-band residual prediction with time-domain inter-channel bandwidth extension
CN109844858A (zh) 多个音频信号的解码
CN110168637A (zh) 多个音频信号的译码
CN110447072A (zh) 声道间带宽扩展
CN110100280A (zh) 信道间相位差参数的修改

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40009598

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant