CN109844858B - 多个音频信号的解码 - Google Patents

多个音频信号的解码 Download PDF

Info

Publication number
CN109844858B
CN109844858B CN201780065060.3A CN201780065060A CN109844858B CN 109844858 B CN109844858 B CN 109844858B CN 201780065060 A CN201780065060 A CN 201780065060A CN 109844858 B CN109844858 B CN 109844858B
Authority
CN
China
Prior art keywords
signal
frequency domain
channel
domain
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780065060.3A
Other languages
English (en)
Other versions
CN109844858A (zh
Inventor
V·S·C·S·奇比亚姆
V·阿提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Priority to CN202310604775.9A priority Critical patent/CN116504255A/zh
Publication of CN109844858A publication Critical patent/CN109844858A/zh
Application granted granted Critical
Publication of CN109844858B publication Critical patent/CN109844858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提供一种装置,其包含经配置以从第二装置接收经编码位流的接收器。所述经编码位流包含基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定的时间失配值。所述装置还包含经配置以解码所述经编码位流以产生第一频域输出信号及第二频域输出信号的解码器。所述解码器经配置以对所述频域输出信号执行逆变换操作以产生第一时域信号及第二时域信号。基于所述时间失配值,所述解码器经配置以将所述时域信号映射至经解码目标声道及经解码参考声道。所述解码器还经配置以基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道。

Description

多个音频信号的解码
优先权主张
本申请案主张2016年10月31日申请的名为“多个音频信号的编码(ENCODING OFMULTIPLE AUDIO SIGNALS)”的共同拥有的美国临时专利申请案第62/415,369号及2017年9月21日申请的名为“多个音频信号的编码(ENCODING OF MULTIPLE AUDIO SIGNALS)”美国非临时专利申请案第15/711,538号的优先权益,前述申请案中的每一者的内容的全文以引用的方式明确地并入本文中。
技术领域
本发明大体上涉及多个音频信号的编码。
背景技术
技术的进步已带来了更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动及智能电话)、平板计算机及膝上型计算机,所述便携式个人计算装置小而轻质且容易由用户携带。这些装置可经由无线网络传达语音及数据包。另外,许多此类装置结合额外功能性,例如数字静态相机、数字视频相机、数字记录器及音频文件播放器。此外,此类装置可处理可执行指令,包含软件应用程序,例如可用以存取互联网的网络浏览器应用程序。因而,这些装置可包含显著的计算能力。
计算装置可包含接收音频信号的多个麦克风。一般来说,与多个麦克风中的第二麦克风相比,声源更接近于第一麦克风。因此,由于麦克风距声源的相应距离,从第二麦克风接收的第二音频信号可相对于从第一麦克风接收的第一音频信号延迟。在其它实施方案中,第一音频信号可相对于第二音频信号延迟。在立体声编码中,来自麦克风的音频信号可经编码以产生中间声道信号及一或多个旁声道信号。中间声道可对应于第一音频信号及第二音频信号的总和。旁声道信号可对应于第一音频信号与第二音频信号之间的差。由于接收第二音频信号相对于第一音频信号的延迟,第一音频信号可能不与第二音频信号对准。第一音频信号相对于第二音频信号的未对准可增加两种音频信号之间的差。由于差增加,所以可能会使用较高数目的位来编码旁声道信号。
发明内容
在特定实施方案中,一种装置包含接收器,其经配置以从第二装置接收经编码位流。所述经编码位流包含时间失配值及立体声参数。所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定。所述装置还包含解码器,其经配置以解码所述经编码位流以产生第一频域输出信号及第二频域输出信号。所述解码器还经配置以对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号。所述解码器经进一步配置以对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号。所述解码器还经配置以基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道。所述解码器经进一步配置以将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道。所述解码器还经配置以基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道。所述装置还包含输出装置,其经配置以输出第一输出信号及第二输出信号。所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
所述装置还包含立体声解码器,其经配置以解码所述经编码位流以产生经解码中间信号。所述装置进一步包含变换单元,其经配置以对所述经解码中间信号执行变换操作以产生频域经解码中间信号。所述装置还包含升混器,其经配置以对所述频域经解码中间信号执行升混操作以产生所述第一频域输出信号及所述第二频域输出信号。所述立体声参数在所述升混操作期间应用于所述频域经解码中间信号。
在另一特定实施方案中,一种方法包含在装置的接收器处从第二装置接收经编码位流。所述经编码位流包含时间失配值及立体声参数。所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定。所述方法还包含在所述装置的解码器处解码所述经编码位流以产生第一频域输出信号及第二频域输出信号。所述方法还包含对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号。所述方法进一步包含对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号。所述方法还包含基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道。所述方法进一步包含将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道。所述方法还包含输出第一输出信号及第二输出信号。所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
所述方法还包含解码所述经编码位流以产生经解码中间信号。所述方法进一步包含对所述经解码中间信号执行变换操作以产生频域经解码中间信号。所述方法还包含对所述频域经解码中间信号执行升混操作以产生所述第一频域输出信号及所述第二频域输出信号。所述立体声参数在所述升混操作期间应用于所述频域经解码中间信号。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由解码器内的处理器执行时致使所述解码器执行操作,所述操作包含解码从第二装置接收的经编码位流以产生第一频域输出信号及第二频域输出信号。所述经编码位流包含时间失配值及立体声参数。所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定。所述操作还包含对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号。所述操作还包含对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号。所述操作还包含基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道。所述操作还包含将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道。所述操作还包含输出第一输出信号及第二输出信号。所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
所述操作还包含解码所述经编码位流以产生经解码中间信号。所述操作进一步包含对所述经解码中间信号执行变换操作以产生频域经解码中间信号。所述操作还包含对所述频域经解码中间信号执行升混操作以产生所述第一频域输出信号及所述第二频域输出信号。所述立体声参数在所述升混操作期间应用于所述频域经解码中间信号。
在另一特定实施方案中,一种设备包含用于从第二装置接收经编码位流的装置。所述经编码位流包含时间失配值及立体声参数。所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定。所述设备还包含用于解码所述经编码位流以产生第一频域输出信号及第二频域输出信号的装置。所述设备进一步包含用于对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号的装置。所述设备还包含用于对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号的装置。所述设备进一步包含用于基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道的装置。所述设备还包含用于将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道的装置。所述设备进一步包含用于基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道的装置。所述设备还包含用于输出第一输出信号及第二输出信号的装置。所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
本发明的其它实施方案、优势及特征将在审阅整个申请案之后变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式及权利要求书。
附图说明
图1为包含可操作以编码多个音频信号的编码器的系统的特定说明性实例的框图;
图2为绘示图1的编码器的图解;
图3为绘示图1的编码器的频域立体声译码器的第一实施方案的图解;
图4为绘示图1的编码器的频域立体声译码器的第二实施方案的图解;
图5为绘示图1的编码器的频域立体声译码器的第三实施方案的图解;
图6为绘示图1的编码器的频域立体声译码器的第四实施方案的图解;
图7为绘示图1的编码器的频域立体声译码器的第五实施方案的图解;
图8为绘示图1的编码器的信号预处理器的图解;
图9为绘示图1的编码器的移位估计器204的图解;
图10为绘示编码多个音频信号的特定方法的流程图;
图11为绘示可操作以解码音频信号的解码器的图解;
图12为包含可操作以编码多个音频信号的编码器的系统的特定说明性实例的另一框图;
图13为绘示图12的编码器的图解;
图14为绘示图12的编码器的另一图解;
图15为绘示图12的编码器的频域立体声译码器的第一实施方案的图解;
图16为绘示图12的编码器的频域立体声译码器的第二实施方案的图解;
图17绘示补零技术;
图18为绘示编码多个音频信号的特定方法的流程图;
图19绘示可操作以解码音频信号的解码系统;
图20包含绘示解码音频信号的特定方法的流程图;
图21为可操作以编码多个音频信号的装置的特定说明性实例的框图;且
图22为基站的特定说明性实例的框图。
具体实施方式
揭示了可操作以编码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如,多个麦克风)在时间上同时捕获多个音频信号。在一些实例中,可通过多路复用若干同时或非同时记录的音频声道合成地(例如,人工地)产生多个音频信号(或多声道音频)。作为说明性实例,音频声道的并行记录或多路复用可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或远程呈现室)中的音频捕获装置可包含获取空间音频的多个麦克风。空间音频可包含话音以及经编码并经传输的背景音频。视如何布置麦克风以及来源(例如,讲话者)相对于麦克风及房间尺寸所处的位置,来自给定来源(例如,讲话者)的话音/音频可于不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如,讲话者)可更接近与装置相关联的第一麦克风。因此,与第二麦克风相比,从声源发出的声音可在时间上更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中旁(MS)译码及参数立体声(PS)译码为可提供优于双单声道译码技术的经改善效率的立体声译码技术。在双单声道译码中,左(L)声道(或信号)及右(R)声道(或信号)经独立地译码,而不利用声道间相关。在译码之前,通过将左声道及右声道变换为总和声道及差声道(例如,旁声道),MS译码减少了相关L/R声道对之间的冗余。总和信号及差信号为以MS译码的经译码的波形。总和信号比旁信号耗费相对更多的位。PS译码通过将L/R信号变换为总和信号及一组旁参数来减少每一子频带中的冗余。旁参数可指示声道间强度差(IID)、声道间相位差(IPD)、声道间时差(ITD)等等。总和信号为经译码的波形且连同旁参数传输。在混合系统中,旁声道可为以较低频带(例如,小于2千赫兹(kHz))译码及以较高频带(例如,大于或等于2kHz)PS译码(其中间声道间相位保持在感知上不太关键)的波形。
可在频域或子频带域中完成MS译码及PS译码。在一些实例中,左声道及右声道可能不相关。举例来说,左声道及右声道可包含不相关的合成信号。当左声道及右声道不相关时,MS译码、PS译码或两者的译码效率可接近于双单声道译码的译码效率。
取决于记录配置,可在左声道与右声道之间存在时间移位以及其它空间效应(例如回音及室内回响)。如果并不补偿声道之间的时间移位及相位失配,那么总和声道及差声道可含有减少与MS或PS技术相关的译码增益的可比能量。译码增益的减少可基于时间(或相位)移位的量。总和信号及差信号的可比能量可限制声道经时间移位但高度相关的某些帧中的MS译码的使用。在立体声译码中,中间声道(例如,总和声道)及旁声道(例如,差声道)可基于下列式而产生:
M=(L+R)/2,S=(L-R)/2, 式1
其中M对应于中间声道,S对应于旁声道,L对应于左声道,且R对应于右声道。
在一些状况下,可基于下列式产生中间声道及旁声道:
M=c(L+R),S=c(L-R), 式2
其中c对应于频率相依的复合值。基于式1或式2产生中间声道及旁声道可被称为执行“降混”算法。基于式1或式2从中间声道及旁声道来产生左声道及右声道的反向处理可被称为执行“升混”算法。
在一些状况下,中间声道可基于其它式,例如:
M=(L+gDR)/2,或 式3
M=g1L+g2R 式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在频带中执行,其中mid(b)=c1L(b)+c2R(b),其中c1及c2为复数,其中side(b)=c3L(b)-c4R(b),且其中c3及c4为复数。
用以在MS译码或双单声道译码之间选择特定帧的特别途径可包含:产生中间信号及旁信号,计算中间信号及旁信号的能量,并基于能量确定是否执行MS译码。举例来说,可执行MS译码以响应旁信号与中间信号的能量比小于阈值的确定。举例来说,如果右声道经移位至少第一时间(例如,约0.001秒或在48kHz下的48个样本),那么中间信号(对应于左信号及右信号的总和)的第一能量可与有声话音帧的旁信号(对应于左信号与右信号之间的差)的第二能量相当。当第一能量与第二能量相当时,较高数目的位可用于编码旁声道,由此减少了相对于双单声道译码的MS译码的译码效率。双单声道因此可在第一能量与第二能量相当时(例如,在第一能量与第二能量的比大于或等于阈值时)使用。在替代途径中,可针对特定帧基于阈值与左声道及右声道的归一化交叉相关值的比较来在MS译码与双单声道译码之间作出决定。
在一些实例中,编码器可确定指示第一音频信号相对于第二音频信号的移位的时间移位值。移位值可对应于在第一麦克风处第一音频信号的接收与在第二麦克风处第二音频信号的接收之间的时间延迟的量。另外,编码器可在逐帧的基础上(例如,基于每一20毫秒(ms)话音/音频帧)确定移位值。举例来说,移位值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,移位值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当与第二麦克风相比,声源更接近第一麦克风时,第二音频信号的帧可相对于第一音频信号的帧延迟。在此状况下,第一音频信号可被称为“参考音频信号”或“参考声道”,且经延迟的第二音频信号可被称为“目标音频信号”或“目标声道”。替代地,当与第一麦克风相比,声源更接近第二麦克风时,第一音频信号的帧可相对于第二音频信号的帧延迟。在此状况下,第二音频信号可被称为参考音频信号或参考声道,且经延迟的第一音频信号可被称为目标音频信号或目标声道。
视声源(例如,讲话者)位于会议室或远程呈现室内的位置及声源(例如,讲话者)位置如何相对于麦克风改变,参考声道及目标声道可从一个帧改变至另一帧;类似地,时间延迟值也可从一个帧改变至另一帧。然而,在一些实施方案中,移位值可始终为正,以指示“目标”声道相对于“参考”声道的延迟的量。另外,移位值可对应于“非因果移位”值,经延迟目标声道通过所述“非因果移位”值在时间上“经拉回”,使得目标声道与“参考”声道对准(例如,最大限度地对准)。可对参考声道及非因果经移位目标声道执行确定中间声道及旁声道的降混算法。
编码器可基于参考音频声道及应用于目标音频声道的多个移位值而确定移位值。举例来说,可在第一时间(m1)时接收参考音频声道的第一帧X。可在对应于第一移位值(例如,shift1=n1-m1)的第二时间(n1)时接收目标音频声道的第一特定帧Y。另外,可在第三时间(m2)时接收参考音频声道的第二帧。可在对应于第二移位值(例如,shift2=n2-m2)的第四时间(n2)时接收目标音频声道的第二特定帧。
装置可以第一取样速率(例如,32kHz取样速率(即,640个样本每帧))进行成帧或缓冲算法,以产生帧(例如,20ms样本)。响应于对第一音频信号的第一帧及第二音频信号的第二帧同时到达装置的确定,编码器可将移位值(例如,shift1)估计为等于零样本。可在时间上对准左声道(例如,对应于第一音频信号)及右声道(例如,对应于第二音频信号)。在一些状况下,即使当对准时,左声道及右声道也可由于各种原因(例如麦克风校准)而在能量方面存在不同。
在一些实例中,左声道及右声道可由于各种原因(例如,与麦克风中的另一者相比,声源(例如讲话者)可更接近麦克风中的一者,且两个麦克风可大于阈值(例如,1至20厘米)距离间隔)在时间上不对准。相对于麦克风的声源的位置可在左声道及右声道中引入不同延迟。另外,在左声道与右声道之间可存在增益差、能量差或声级差。
在一些实例中,当多个讲话者交替地讲话时(例如,在不重叠情况下),音频信号从多个声源(例如,讲话者)到达麦克风的时间可变化。在此类状况下,编码器可基于讲话者动态地调整时间移位值以识别参考声道。在一些其它实例中,多个讲话者可同时讲话,取决于哪个讲话者最大声、距麦克风最近等等,这可产生变化的时间移位值。
在一些实例中,当两个信号可能展示较少(例如,无)相关时,可合成或人工地产生第一音频信号及第二音频信号。应理解,本文中所描述的实例为说明性的,且可在类似或不同情形中确定第一音频信号与第二音频信号之间的关系中具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较而产生比较值(例如,差值或交叉相关值)。多个帧中的每一帧可对应于特定移位值。编码器可基于比较值产生第一经估计移位值。举例来说,第一经估计移位值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间的较高时间类似性(或较小差)的比较值。
编码器可通过在多个阶段中改进一系列经估计移位值而确定最终移位值。举例来说,基于由第一音频信号及第二音频信号的经立体声预处理且经重取样的版本产生的比较值,编码器可首先估计“试验性”移位值。编码器可产生与接近经估计“试验性”移位值的移位值相关联的经内插比较值。编码器可基于经内插比较值确定第二经估计“内插”移位值。举例来说,第二经估计“内插”移位值可对应于指示相较于剩余经内插比较值及第一经估计“试验性”移位值具有较高时间类似性(或较小差)的特定经内插比较值。如果当前帧(例如,第一音频信号的第一帧)的第二经估计“内插”移位值不同于前一帧(例如,先于第一帧的第一音频信号的帧)的最终移位值,那么当前帧的“内插”移位值经进一步“修正”,以改善第一音频信号与经移位的第二音频信号之间的时间类似性。特定地说,通过在当前帧的第二经估计“内插”移位值及前一帧的最终经估计移位值周围搜索,第三经估计“修正”移位值可对应于时间类似性的较精确测量值。进一步调节第三经估计“修正”移位值以通过限制帧之间的移位值中的任何伪改变来估计最终移位值,且进一步控制第三经估计“修正”移位值以不在如本文中所描述的两个相继(或连续)帧中将负移位值切换成正移位值(或反之亦然)。
在一些实例中,编码器可避免在连续帧中或相邻帧中的正移位值与负移位值之间的切换(或反之亦然)。举例来说,基于第一帧的经估计“内插”或“修正”移位值及先于第一帧的特定帧中的对应经估计“内插”或“修正”或最终移位值,编码器可将最终移位值设定为指示无时间移位的特定值(例如,0)。举例来说,为响应当前帧的经估计“试验性”或“内插”或“修正”移位值中的一者为正且前一帧(例如,先于第一帧的帧)的经估计“试验性”或“内插”或“修正”或“最终”经估计移位值中的另一者为负的确定,编码器可设定当前帧(例如,第一帧)的最终移位值以指示无时间移位,即,shift1=0。替代地,为响应当前帧的经估计“试验性”或“内插”或“修正”移位值中的一者为负且前一帧(例如,先于第一帧的帧)的经估计“试验性”或“内插”或“修正”或“最终”估计移位值中的另一者为正的确定,编码器还可设定当前帧(例如,第一帧)的最终移位值以指示无时间移位,即,shift1=0。
编码器可基于移位值来选择第一音频信号或第二音频信号的帧作为“参考”或“目标”。举例来说,为响应最终移位值为正的确定,编码器可产生具有第一值(例如,0)的参考声道或信号指示符,所述第一值指示第一音频信号为“参考”信号且第二音频信号为“目标”信号。替代地,为响应最终移位值为负的确定,编码器可产生具有第二值(例如,1)的参考声道或信号指示符,所述第二值指示第二音频信号为“参考”信号且第一音频信号为“目标”信号。
编码器可估计与参考信号及非因果经移位目标信号相关联的相对增益(例如,相对增益参数)。举例来说,为响应最终移位值为正的确定,编码器可估计增益值以相对于通过非因果移位值(例如,最终移位值的绝对值)偏移的第二音频信号归一化或均衡第一音频信号的能量或功率电平。替代地,响应于最终移位值为负的确定,编码器可估计增益值以相对于第二音频信号归一化或均衡非因果经移位的第一音频信号的功率电平。在一些实例中,编码器可估计增益值以相对于非因果经移位“目标”信号归一化或均衡“参考”信号的能量或功率电平。在其它实例中,编码器可相对于目标信号(例如,未移位的目标信号)基于参考信号来估计增益值(例如,相对增益值)。
编码器可基于参考信号、目标信号、非因果移位值及相对增益参数产生至少一个经编码信号(例如,中间信号、旁信号或两者)。旁信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的所选择帧的所选择样本之间的差。编码器可基于最终移位值选择所选帧。由于第一样本与所选择样本之间的减小的差,相比于对应于第二音频信号的帧(与第一帧同时由装置接收)的第二音频信号的其它样本,更少的位可用于编码旁声道信号。装置的发射器可传输至少一个经编码信号、非因果移位值、相对增益参数、参考声道或信号指示符或其组合。
编码器可基于参考信号、目标信号、非因果移位值、相对增益参数、第一音频信号的特定帧的低频带参数、特定帧的高频带参数或其组合而产生至少一个经编码信号(例如,中间信号、旁信号或两者)。特定帧可先于第一帧。来自一或多个前述帧的某些低频带参数、高频带参数或其组合可用于编码第一帧的中间信号、旁信号或两者。基于低频带参数、高频带参数或其组合来编码中间信号、旁信号或两者可改善非因果移位值的估计值及声道间相对增益参数。低频带参数、高频带参数或其组合可包含:音调参数、发声参数、译码器类型参数、低频带能量参数、高频带能量参数、倾斜参数、音调增益参数、FCB增益参数、译码模式参数、语音活动参数、噪声估计参数、信噪比参数、共振峰参数、话音/音乐决策参数、非因果移位、声道间增益参数或其组合。装置的发射器可传输至少一个经编码信号、非因果移位值、相对增益参数、参考声道(或信号)指示符或其组合。
在本发明中,例如“确定”、“计算”、“移位”、“调整”等等的术语可用于描述如何执行一或多个操作。应注意,此类术语不应被理解为限制性的,且其它技术可用以执行类似操作。
参看图1,揭示了系统的特定说明性实例且将其整体上指定为100。系统100包含经由网络120以通信方式耦合至第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含编码器114、发射器110、一或多个输入接口112或其组合。输入接口112的第一输入接口可耦合至第一麦克风146。输入接口112的第二输入接口可耦合至第二麦克风148。编码器114可包含时间均衡器108及频域立体声译码器109,且可经配置以降混及编码多个音频信号,如本文中所描述。第一装置104还可包含经配置以存储分析数据191的存储器153。第二装置106可包含解码器118。解码器118可包含经配置以升混及呈现多个声道的时间平衡器124。第二装置106可耦合至第一喇叭142、第二喇叭144或两者。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频信号130,并可经由第二输入接口从第二麦克风148接收第二音频信号132。第一音频信号130可对应于右声道信号或左声道信号中的一者。第二音频信号132可对应于右声道信号或左声道信号中的另一者。与第二麦克风148相比,声源152(例如,用户、扬声器、环境噪声、乐器等等)可更接近第一麦克风146。因此,来自声源152的音频信号可在与经由第二麦克风148相比较早时间时经由第一麦克风146在输入接口112处接收。经由多个麦克风获取的多声道信号的此固有延迟可在第一音频信号130与第二音频信号132之间引入时间移位。
时间均衡器108可确定指示第一音频信号130(例如,“目标”)相对于第二音频信号132(例如,“参考”)的移位(例如,非因果移位)的最终移位值116(例如,非因果移位值)。举例来说,最终移位值116的第一值(例如,正值)可指示第二音频信号132相对于第一音频信号130延迟。最终移位值116的第二值(例如,负值)可指示第一音频信号130相对于第二音频信号132延迟。最终移位值116的第三值(例如,0)可指示第一音频信号130与第二音频信号132之间无延迟。
在一些实施方案中,最终移位值116的第三值(例如,0)可指示第一音频信号130与第二音频信号132之间的延迟已切换正负号。举例来说,第一音频信号130的第一特定帧可先于第一帧。第二音频信号132的第一特定帧及第二特定帧可对应于由声源152发出的同一声音。第一音频信号130与第二音频信号132之间的延迟可从第一特定帧相对于第二特定帧延迟切换至第二帧相对于第一帧延迟。替代地,第一音频信号130与第二音频信号132之间的延迟可从第二特定帧相对于第一特定帧延迟切换至第一帧相对于第二帧延迟。为响应第一音频信号130与第二音频信号132之间的延迟已切换正负号的确定,时间均衡器108可设定最终移位值116以指示第三值(例如,0)。
时间均衡器108可基于最终移位值116产生参考信号指示符。举例来说,为响应最终移位值116指示第一值(例如,正值)的确定,时间均衡器108可产生具有指示第一音频信号130为“参考”信号190的第一值(例如,0)的参考信号指示符。时间均衡器108可响应于最终移位值116指示第一值(例如,正值)的确定而确定第二音频信号132对应于“目标”信号(未展示)。替代地,为响应最终移位值116指示第二值(例如,负值)的确定,时间均衡器108可产生具有指示第二音频信号132为“参考”信号190的第二值(例如,1)的参考信号指示符。时间均衡器108可响应于最终移位值116指示第二值(例如,负值)的确定而确定第一音频信号130对应于“目标”信号。为响应最终移位值116指示第三值(例如,0)的确定,时间均衡器108可产生具有指示第一音频信号130为“参考”信号190的第一值(例如,0)的参考信号指示符。时间均衡器108可响应于最终移位值116指示第三值(例如,0)的确定而确定第二音频信号132对应于“目标”信号。替代地,为响应最终移位值116指示第三值(例如,0)的确定,时间均衡器108可产生具有指示第二音频信号132为“参考”信号190的第二值(例如,1)的参考信号指示符。时间均衡器108可响应于最终移位值116指示第三值(例如,0)的确定而确定第一音频信号130对应于“目标”信号。在一些实施方案中,为响应最终移位值116指示第三值(例如,0)的确定,时间均衡器108可使参考信号指示符不变。举例来说,参考信号指示符可与对应于第一音频信号130的第一特定帧的参考信号指示符相同。时间均衡器108可产生指示最终移位值116的绝对值的非因果移位值。
时间均衡器108可基于目标信号、参考信号190、第一移位值(例如,用于前一帧的移位值)、最终移位值116、参考信号指示符或其组合而产生目标信号指示符。目标信号指示符可指示第一音频信号130或第二音频信号132中的哪一者为目标信号。时间均衡器108可基于目标信号指示符、目标信号或两者产生经调整目标信号192。举例来说,时间均衡器108可基于从第一移位值至最终移位值116的时间移位演进调整目标信号(例如,第一音频信号130或第二音频信号132)。时间均衡器108可内插目标信号,使得对应于帧边界的目标信号的样本的子集经由平滑及缓慢移位丢弃以产生经调整目标信号192。
因此,时间均衡器108可将目标信号时间移位以产生经调整目标信号192,使得参考信号190与经调整目标信号192大体上同步。时间均衡器108可产生时域降混参数168。时域降混参数可指示目标信号与参考信号190之间的移位值。在其它实施方案中,时域降混参数可包含类似于降混增益等等的额外参数。举例来说,时域降混参数168可包含第一移位值262、参考信号指示符264或两者,如参考图2进一步所描述。关于图2更详细地描述时间均衡器108。时间均衡器108可提供参考信号190及经调整目标信号192至频域立体声译码器109,如图所示。
频域立体声译码器109可将一或多个时域信号(例如,参考信号190及经调整目标信号192)变换成频域信号。频域信号可用以估计立体声参数162。立体声参数162可包含使得能够呈现与左声道及右声道相关联的空间性质的参数。根据一些实施方案,立体声参数162可包含例如以下各者的参数:声道间强度差(IID)参数(例如,声道间声级差(ILD))、声道间时差(ITD)参数、声道间相位差(IPD)参数、声道间相关(ICC)参数、非因果移位参数、频谱倾斜参数、声道间发声参数、声道间音调参数、声道间增益参数等等。立体声参数162可在频域立体声译码器109处在其它信号产生期间使用。立体声参数162还可作为经编码信号的部分而传输。关于图3至7更详细地描述立体声参数162的估计及使用。
频域立体声译码器109还可至少部分地基于频域信号而产生旁频带位流164及中频带位流166。出于说明的目的,除非另外指出,否则假定参考信号190为左声道信号(l或L)且经调整目标信号192为右声道信号(r或R)。参考信号190的频域表示可被标示为Lfr(b)且经调整目标信号192的频域表示可被标示为Rfr(b),其中b表示频域表示的频带。根据一个实施方案,旁频带信号Sfr(b)可从参考信号190及经调整目标信号192的频域表示在频域中产生。举例来说,旁频带信号Sfr(b)可被表达为(Lfr(b)-Rfr(b))/2。旁频带信号Sfr(b)可经提供至旁频带编码器以产生旁频带位流164。根据一个实施方案,中频带信号m(t)可在时域中产生且变换成频域。举例来说,中频带信号m(t)可被表达为(l(t)+r(t))/2。关于图3、4及7更详细地描述在产生频域中的中频带信号之前产生时域中的中频带信号。根据另一实施方案,中频带信号Mfr(b)可由频域信号产生(例如,略过时域中频带信号产生)。关于图5至6更详细地描述从频域信号产生中频带信号Mfr(b)。时域/频域中频带信号可经提供至中频带编码器以产生中频带位流166。
可使用多个技术来对旁频带信号Sfr(b)及中频带信号m(t)或Mfr(b)进行编码。根据一个实施方案,时域中频带信号m(t)可使用时域技术(例如代数码激励线性预测(ACELP))编码,从而带宽扩展以用于较高频带译码。在旁频带译码之前,中频带信号m(t)(经译码或未经译码)可转换为频域(例如,变换域)以产生中频带信号Mfr(b)。
旁频带译码的一个实施方案包含使用频率中频带信号Mfr(b)及对应于频带(b)的立体声参数162(例如,ILD)中的信息从频域中频带信号Mfr(b)预测旁频带SPRED(b)。举例来说,预测旁频带SPRED(b)可被表达为Mfr(b)*(ILD(b)-1)/(ILD(b)+1)。频带(b)中的错误信号e(b)可依据旁频带信号Sfr(b)及预测旁频带SPRED(b)而计算。举例来说,错误信号e(b)可被表达为Sfr(b)-SPRED(b)。可使用变换域译码技术译码错误信号e(b)以产生经译码错误信号eCODED(b)。对于较高频带,错误信号e(b)可被表达为来自前一帧的频带(b)中的中频带信号M_PASTfr(b)的缩放版本。举例来说,经译码错误信号eCODED(b)可被表达为gPRED(b)*M_PASTfr(b),其中gPRED(b)可经估计使得e(b)-gPRED(b)*M_PASTfr(b)的能量基本上减少(例如,减至最小)。
发射器110可经由网络120将立体声参数162、旁频带位流164、中频带位流166、时域降混参数168或其组合传输至第二装置106。替代地或另外,发射器110可将立体声参数162、旁频带位流164、中频带位流166、时域降混参数168或其组合存储于网络120的装置或本地装置处以供稍后进一步处理或解码。因为非因果移位(例如,最终移位值116)可在编码过程期间被确定,因此除每一频带中的非因果移位以外传输IPD(例如,作为立体声参数162的部分)可为冗余的。因此,在一些实施方案中,可针对相同帧但在互斥频带中估计IPD及非因果移位。在其它实施方案中,除用于每频带较精细调整的移位以外还可估计较低分辨率IPD。替代地,可能不针对其中确定非因果移位的帧确定IPD。
解码器118可基于立体声参数162、旁频带位流164、中频带位流166及时域降混参数168执行解码操作。举例来说,频域立体声解码器125及时间平衡器124可执行升混以产生第一输出信号126(例如,对应于第一音频信号130)、第二输出信号128(例如,对应于第二音频信号132),或两者。第二装置106可经由第一喇叭142输出第一输出信号126。第二装置106可经由第二喇叭144输出第二输出信号128。在替代实例中,第一输出信号126及第二输出信号128可作为立体声信号对传输至单个输出喇叭。
系统100因此可使得频域立体声译码器109能够将参考信号190及经调整目标信号192变换为频域以产生立体声参数162、旁频带位流164及中频带位流166。时间均衡器108的将第一音频信号130在时间上移位以与第二音频信号132对准的时间移位技术可结合频域信号处理来实施。举例来说,时间均衡器108在编码器114处估计每一帧的移位(例如,非因果移位值),根据非因果移位值移位(例如,调整)目标声道,并使用移位的经调整声道用于变换域中的立体声参数估计。
参看图2,展示了第一装置104的编码器114的说明性实例。编码器114包含时间均衡器108及频域立体声译码器109。
时间均衡器108包含经由移位估计器204耦合至帧间移位变化分析器206、耦合至参考信号指定器208或两者的信号预处理器202。在特定实施方案中,信号预处理器202可对应于重取样器。帧间移位变化分析器206可经由目标信号调整器210耦合至频域立体声译码器109。参考信号指定器208可耦合至帧间移位变化分析器206。
在操作期间,信号预处理器202可接收音频信号228。举例来说,信号预处理器202可从输入接口112接收音频信号228。音频信号228可包含第一音频信号130、第二音频信号132或两者。信号预处理器202可产生第一经重取样信号230、第二经重取样信号232或两者。关于图8更详细地描述信号预处理器202的操作。信号预处理器202可将第一经重取样信号230、第二经重取样信号232或两者提供至移位估计器204。
移位估计器204可基于第一经重取样信号230、第二经重取样信号232或两者产生最终移位值116(T)、非因果移位值或两者。关于图9更详细地描述移位估计器204的操作。移位估计器204可向帧间移位变化分析器206、参考信号指定器208或两者提供最终移位值116。
参考信号指定器208可产生参考信号指示符264。参考信号指示符264可指示音频信号130、132中的哪一者为参考信号190,且信号130、132中的哪一者为目标声道242。参考信号指定器208可向帧间移位变化分析器206提供参考信号指示符264。
帧间移位变化分析器206可基于目标信号242、参考信号190、第一移位值262(Tprev)、最终移位值116(T)、参考信号指示符264或其组合产生目标信号指示符266。帧间移位变化分析器206可向目标信号调整器210提供目标信号指示符266。
目标信号调整器210可基于目标信号指示符266、目标信号242或两者产生经调整目标信号192。基于从第一移位值262(Tprev)至最终移位值116(T)的时间移位演进,目标信号调整器210可调整目标信号242。举例来说,第一移位值262可包含对应于前一帧的最终移位值。为响应最终移位值从具有小于对应于前一帧的最终移位值116(例如,T=4)的对应于前一帧的第一值(例如,Tprev=2)的第一移位值262变化的确定,目标信号调整器210可内插目标信号242,使得对应于帧边界的目标信号242的样本的子集经由平滑及缓慢移位丢弃,以产生经调整目标信号192。替代地,为响应最终移位值从大于最终移位值116(例如,T=2)的第一移位值262(例如,Tprev=4)变化的确定,目标信号调整器210可内插目标信号242,使得对应于帧边界的目标信号242的样本的子集经由平滑及缓慢移位进行重复以产生经调整目标信号192。基于混合正弦及拉格朗日内插器(hybrid Sinc-and Lagrange-interpolator),可执行平滑及缓慢移位。为响应最终移位值并未从第一移位值262改变成最终移位值116(例如,Tprev=T)的确定,目标信号调整器210可在时间上偏移目标信号242以产生经调整目标信号192。目标信号调整器210可向频域立体声译码器109提供经调整目标信号192。
在附录A中进一步描述与音频处理组件(包含但不限于信号预处理器、移位估计器、帧间移位变化分析器、参考信号指定器、目标信号调整器等等)相关联的操作的额外实施例。
参考信号190还可经提供至频域立体声译码器109。频域立体声译码器109可基于参考信号190及经调整目标信号192产生立体声参数162、旁频带位流164及中频带位流166,如关于图1所描述及如关于图3至7进一步所描述。
参看图3至7,展示了如图2中所描述的与时域降混一起工作的频域立体声译码器109的几个实例详述实施方案109a至109e。在一些实例中,参考信号190可包含左声道信号且经调整目标信号192可包含右声道信号。然而,应理解,在其它实例中,参考信号190可包含右声道信号且经调整目标信号192可包含左声道信号。在其它实施方案中,参考声道190可为在逐帧的基础上选择的左或右声道中的任一者,且类似地,经调整目标信号192可为在经调整用于时间移位之后的左声道或右声道中的另一者。出于下文描述的目的,我们提供了当参考信号190包含左声道信号(L)且经调整目标信号192包含右声道信号(R)时的特定状况的实例。对于其它状况的类似描述可经平常地扩展。还应理解,图3至7中所绘示的各个组件(例如,变换、信号产生器、编码器、估计器等等)可使用硬件(例如,专用电路)、软件(例如,由处理器执行的指令)或其组合而实施。
在图3中,可对参考信号190执行变换302且可对经调整目标信号192执行变换304。变换302、304可通过产生频域(或子频带域)信号的变换操作而执行。作为非限制性实例,执行变换302、304可包含执行离散傅里叶变换(DFT)操作、快速傅里叶变换(FFT)操作等等。根据一些实施方案,正交镜滤波器组(QMF)操作(使用滤波器组,例如复杂低延迟滤波器组)可用于将输入信号(例如,参考信号190及经调整目标信号192)分裂成多个子频带,且可使用另一频域变换操作将子频带转换为频域。变换302可应用于参考信号190以产生频域参考信号(Lfr(b))330,且变换304可应用于经调整目标信号192以产生频域经调整目标信号(Rfr(b))332。频域参考信号330及频域经调整目标信号332可经提供至立体声参数估计器306及旁频带信号产生器308。
立体声参数估计器306可基于频域参考信号330及频域经调整目标信号332提取(例如,产生)立体声参数162。举例来说,IID(b)可取决于频带(b)中的左声道的能量EL(b)及频带(b)中的右声道的能量ER(b)。举例来说,IID(b)可被表达为20*log10(EL(b)/ER(b))。在编码器处估计及传输的IPD可提供在频带(b)中的左声道与右声道之间的频域中的相位差的估计。立体声参数162可包含额外(或替代)参数,例如ICC、ITD等等。立体声参数162可经传输至图1的第二装置106,提供至旁频带信号产生器308,且提供至旁频带编码器310。
旁频带产生器308可基于频域参考信号330及频域经调整目标信号332产生频域旁频带信号(Sfr(b))334。可在频域区间/频带中估计频域旁频带信号334。在每一频带中,增益参数(g)是不同的且可基于声道间声级差(例如,基于立体声参数162)。举例来说,频域旁频带信号334可被表达为(Lfr(b)-c(b)*Rfr(b))/(1+c(b)),其中c(b)可为ILD(b)或ILD(b)的函数(例如,c(b)=10^(ILD(b)/20))。频域旁频带信号334可经提供至旁频带编码器310。
参考信号190及经调整目标信号192还可经提供至中频带信号产生器312。中频带信号产生器312可基于参考信号190及经调整目标信号192产生时域中频带信号(m(t))336。举例来说,时域中频带信号336可被表达为(l(t)+r(t))/2,其中l(t)包含参考信号190且r(t)包含经调整目标信号192。变换314可应用于时域中频带信号336以产生频域中频带信号(Mfr(b))338,且频域中频带信号338可经提供至旁频带编码器310。时域中频带信号336还可经提供至中频带编码器316。
旁频带编码器310可基于立体声参数162、频域旁频带信号334及频域中频带信号338产生旁频带位流164。中频带编码器316可通过对时域中频带信号336进行编码来产生中频带位流166。在特定实例中,旁频带编码器310及中频带编码器316可包含用以分别产生旁频带位流164及中频带位流166的ACELP编码器。对于较低频带,频域旁频带信号334可使用变换域译码技术来编码。对于较高频带,频域旁频带信号334可被表达为从前一帧的中频带信号(经量化或未经量化)的预测。
参看图4,展示了频域立体声译码器109的第二实施方案109b。频域立体声译码器109的第二实施方案109b可以基本上类似于频域立体声译码器109的第一实施方案109a的方式操作。然而,在第二实施方案109b中,变换404可应用于中频带位流166(例如,时域中频带信号336的经编码版本)以产生频域中频带位流430。旁频带编码器406可基于立体声参数162、频域旁频带信号334及频域中频带位流430产生旁频带位流164。
参看图5,展示了频域立体声译码器109的第三实施方案109c。频域立体声译码器109的第三实施方案109c可以基本上类似于频域立体声译码器109的第一实施方案109a的方式操作。然而,在第三实施方案109c中,可将频域参考信号330及频域经调整目标信号332提供至中频带信号产生器502。根据一些实施方案,立体声参数162还可经提供至中频带信号产生器502。中频带信号产生器502可基于频域参考信号330及频域经调整目标信号332产生频域中频带信号Mfr(b)530。根据一些实施方案,频域中频带信号Mfr(b)530还可基于立体声参数162而产生。基于频域参考声道330产生中频带信号530、经调整目标声道332及立体声参数162的一些方法如下。
Mfr(b)=(Lfr(b)+Rfr(b))/2
Mfr(b)=c1(b)*Lfr(b)+c2*Rfr(b),其中c1(b)及c2(b)为复值。
在一些实施方案中,复值c1(b)及c2(b)是基于立体声参数162。举例来说,在中旁降混的一个实施方案中,当估计IPD时,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示-1的平方根的虚数。
出于有效旁频带信号编码的目的,频域中频带信号530可经提供至中频带编码器504及旁频带编码器506。在此实施方案中,中频带编码器504可在编码之前进一步将中频带信号530变换至任何其它变换/时域。举例来说,中频带信号530(Mfr(b))可经逆变换回至时域,或变换至MDCT域以用于译码。
旁频带编码器506可基于立体声参数162、频域旁频带信号334及频域中频带信号530产生旁频带位流164。中频带编码器504可基于频域中频带信号530产生中频带位流166。举例来说,中频带编码器504可编码频域中频带信号530以产生中频带位流166。
参看图6,展示了频域立体声译码器109的第四实施方案109d。频域立体声译码器109的第四实施方案109d可以基本上类似于频域立体声译码器109的第三实施方案109c的方式操作。然而,在第四实施方案109d中,中频带位流166可经提供至旁频带编码器602。在替代实施方案中,基于中频带位流的经量化中频带信号可经提供至旁频带编码器602。旁频带编码器602可经配置以基于立体声参数162、频域旁频带信号334及中频带位流166产生旁频带位流164。
参看图7,展示了频域立体声译码器109的第五实施方案109e。频域立体声译码器109的第五实施方案109e可以基本上类似于频域立体声译码器109的第一实施方案109a的方式操作。然而,在第五实施方案109e中,可将频域中频带信号338提供至中频带编码器702。中频带编码器702可经配置以编码频域中频带信号338以产生中频带位流166。
参看图8,展示了信号预处理器202的说明性实例。信号预处理器202可包含耦合至重取样因数估计器830、去加重器804、去加重器834或其组合的解多路复用器(DeMUX)802。去加重器804可经由重取样器806耦合至去加重器808。去加重器808可经由重取样器810耦合至倾斜平衡器812。去加重器834可经由重取样器836耦合至去加重器838。去加重器838可经由重取样器840耦合至倾斜平衡器842。
在操作期间,deMUX 802可通过解多路复用音频信号228来产生第一音频信号130及第二音频信号132。deMUX 802可向重取样因数估计器830提供与第一音频信号130、第二音频信号132或两者相关联的第一取样速率860。deMUX 802可向去加重器804提供第一音频信号130,向去加重器834提供第二音频信号132,或两者。
重取样因数估计器830可基于第一取样速率860、第二取样速率880或两者产生第一因数862(d1)、第二因数882(d2)或两者。重取样因数估计器830可基于第一取样速率860、第二取样速率880或两者确定重取样因数(D)。举例来说,重取样因数(D)可对应于第一取样速率860与第二取样速率880的比(例如,重取样因数(D)=第二取样速率880/第一取样速率860或重取样因数(D)=第一取样速率860/第二取样速率880)。第一因数862(d1)、第二因数882(d2)或两者可为重取样因数(D)的因数。举例来说,重取样因数(D)可对应于第一因数862(d1)与第二因数882(d2)的乘积(例如,重取样因数(D)=第一因数862(d1)*第二因数882(d2))。在一些实施方案中,如本文中所描述,第一因数862(d1)可具有第一值(例如,1),第二因数882(d2)可具有第二值(例如,1),或两者,此举略过了重取样阶段。
去加重器804可通过基于IIR滤波器(例如,一阶IIR滤波器)滤波第一音频信号130产生去加重信号864。去加重器804可将经去加重信号864提供至重取样器806。重取样器806可通过基于第一因数862(d1)重取样经去加重信号864产生经重取样信号866。重取样器806可向去加重器808提供经重取样信号866。去加重器808可通过基于IIR滤波器滤波经重取样信号866产生经去加重信号868。去加重器808可将经去加重信号868提供至重取样器810。重取样器810可通过基于第二因数882(d2)重取样经去加重信号868产生经重取样信号870。
在一些实施方案中,第一因数862(d1)可具有第一值(例如,1),第二因数882(d2)可具有第二值(例如,1),或两者,此举略过了重取样阶段。举例来说,当第一因数862(d1)具有第一值(例如,1)时,经重取样信号866可与经去加重信号864相同。作为另一实例,当第二因数882(d2)具有第二值(例如,1)时,经重取样信号870可与经去加重信号868相同。重取样器810可向倾斜平衡器812提供经重取样信号870。倾斜平衡器812可通过对经重取样信号870执行倾斜平衡而产生第一经重取样信号230。
去加重器834可通过基于IIR滤波器(例如,一阶IIR滤波器)滤波第二音频信号132产生经去加重信号884。去加重器834可将经去加重信号884提供至重取样器836。重取样器836可通过基于第一因数862(d1)重取样经去加重信号884产生经重取样信号886。重取样器836可向去加重器838提供经重取样信号886。去加重器838可通过基于IIR滤波器滤波经重取样信号886产生经去加重信号888。去加重器838可将经去加重信号888提供至重取样器840。重取样器840可通过基于第二因数882(d2)重取样经去加重信号888产生经重取样信号890。
在一些实施方案中,第一因数862(d1)可具有第一值(例如,1),第二因数882(d2)可具有第二值(例如,1),或两者,此举略过了重取样阶段。举例来说,当第一因数862(d1)具有第一值(例如,1)时,经重取样信号886可与经去加重信号884相同。作为另一实例,当第二因数882(d2)具有第二值(例如,1)时,经重取样信号890可与经去加重信号888相同。重取样器840可向倾斜平衡器842提供经重取样信号890。倾斜平衡器842可通过对经重取样信号890执行倾斜平衡而产生第二经重取样信号532。在一些实施方案中,倾斜平衡器812及倾斜平衡器842可分别补偿由于去加重器804及去加重器834的低通(LP)效应。
参看图9,展示了移位估计器204的说明性实例。移位估计器204可包含信号比较器906、内插器910、移位改进器911、移位变化分析器912、绝对移位产生器913或其组合。应理解,移位估计器204可包含比图9中所绘示的组件更少或更多的组件。
信号比较器906可产生比较值934(例如,不同值、类似性值、相干值或交叉相关值)、试验性移位值936,或两者。举例来说,信号比较器906可基于第一经重取样信号230及应用于第二经重取样信号232的多个移位值产生比较值934。信号比较器906可基于比较值934确定试验性移位值936。第一经重取样信号230可包含比第一音频信号130更少的样本或更多的样本。第二经重取样信号232可包含比第二音频信号132更少的样本或更多的样本。相比于基于原始信号(例如,第一音频信号130及第二音频信号132)的样本,基于经重取样信号(例如,第一经重取样信号230及第二经重取样信号232)的较少样本确定比较值934可使用更少的资源(例如,时间、操作的数目,或两者)。相比于基于原始信号(例如,第一音频信号130及第二音频信号132)的样本,基于经重取样信号(例如,第一经重取样信号230及第二经重取样信号232)的更多样本确定比较值934可增加精确度。信号比较器906可向内插器910提供比较值934、试验性移位值936或两者。
内插器910可扩展试验性移位值936。举例来说,内插器910可产生经内插移位值938。举例来说,通过内插比较值934,内插器910可产生对应于接近试验性移位值936的移位值的经内插比较值。内插器910可基于经内插比较值及比较值934确定经内插移位值938。比较值934可基于移位值的较粗略粒度。举例来说,比较值934可基于移位值的集合的第一子集,使得第一子集的第一移位值与第一子集的每一第二移位值之间的差大于或等于阈值(例如,≥1)。阈值可基于重取样因数(D)。
经内插比较值可基于接近于经重取样试验性移位值936的移位值的较精细粒度。举例来说,经内插比较值可基于移位值的集合的第二子集,使得第二子集的最大移位值与经重取样试验性移位值936之间的差小于阈值(例如,≥1),且第二子集的最小移位值与经重取样试验性移位值936之间的差小于阈值。相比于基于移位值的集合的较精细粒度(例如,所有)确定比较值934,基于移位值的集合的较粗略粒度(例如,第一子集)确定比较值934可使用更少的资源(例如,时间、操作或两者)。在不确定对应于移位值的集合的每一移位值的比较值情况下,基于接近于试验性移位值936的移位值的较小集合的较精细粒度,确定对应于移位值的第二子集的经内插比较值可扩展试验性移位值936。因此,基于移位值的第一子集确定试验性移位值936及基于经内插比较值确定经内插移位值938可平衡资源使用率及经估计移位值的改进。内插器910可将经内插移位值938提供至移位改进器911。
移位改进器911可通过改进经内插移位值938产生经修正移位值940。举例来说,移位改进器911可确定经内插失配值938是否指示第一音频信号130与第二音频信号132之间的移位变化大于移位变化阈值。移位变化可由经内插移位值938及与前一帧相关联的第一移位值之间的差指示。为响应差小于或等于阈值的确定,移位改进器911可将经修正移位值940设定为经内插移位值938。替代地,为响应差大于阈值的确定,移位改进器911可确定对应于小于或等于移位变化阈值的差的多个移位值。移位改进器911可基于第一音频信号130及应用于第二音频信号132的多个移位值确定比较值。移位改进器911可基于比较值确定经修正移位值940。举例来说,移位改进器911可基于比较值及经内插移位值938选择多个移位值的移位值。移位改进器911可设定经修正移位值940以指示所选择移位值。对应于前一帧的第一移位值与经内插移位值938之间的非零差可指示第二音频信号132的一些样本对应于两个帧。举例来说,可在编码期间复制第二音频信号132的一些样本。替代地,非零差可指示第二音频信号132的一些样本既不对应于前一帧也不对应于当前帧。举例来说,第二音频信号132的一些样本可在编码期间丢失。将经修正移位值940设定为多个移位值中的一者可防止在连续(或相邻)帧之间的大移位变化,由此减少了在编码期间样本丢失或样本复制的量。移位改进器911可将经修正移位值940提供至移位变化分析器912。
在一些实施方案中,移位改进器911可调整经内插移位值938。移位改进器911可基于经调整内插移位值938确定经修正移位值940。在一些实施方案中,移位改进器911可确定经修正移位值940。
移位变化分析器912可确定经修正移位值940是否指示第一音频信号130与第二音频信号132之间的时序切换或反向,如参看图1所描述。详细地说,时序反向或切换可指示对于前一帧,第一音频信号130是在第二音频信号132之前在输入接口112处接收,且对于后续帧,第二音频信号132是在第一音频信号130之前在输入接口处接收。替代地,时序反向或切换可指示对于前一帧,第二音频信号132是在第一音频信号130之前在输入接口112处接收,且对于后续帧,第一音频信号130是在第二音频信号132之前在输入接口处接收。换句话说,时序切换或反向可指示对应于前一帧的最终移位值具有不同于对应于当前帧的经修正移位值940的第二正负号的第一正负号(例如,正至负转变或反之亦然)。移位变化分析器912可基于经修正移位值940及与前一帧相关联的第一移位值确定第一音频信号130与第二音频信号132之间的延迟是否已切换正负号。为响应确定第一音频信号130与第二音频信号132之间的延迟已切换正负号,移位变化分析器912可将最终移位值116设定为指示无时间移位的值(例如,0)。替代地,为响应第一音频信号130与第二音频信号132之间的延迟并未切换正负号的确定,移位变化分析器912可将最终移位值116设定为经修正移位值940。移位变化分析器912可通过改进经修正移位值940产生经估计移位值。移位变化分析器912可将最终移位值116设定为经估计移位值。通过避免第一音频信号130的连续(或相邻)帧的第一音频信号130及第二音频信号132在相对方向上的时间移位,将最终移位值116设定为指示无时间移位可降低解码器处的失真。绝对移位产生器913可通过将绝对函数应用于最终移位值116来产生非因果移位值162。
参看图10,展示了通信的方法1000。方法1000可由图1的第一装置104、图1至2的编码器114、图1至7的频域立体声译码器109、图2及8的信号预处理器202、图2及9的移位估计器204或其组合执行。
方法1000包含在1002处在第一装置处确定指示第一音频信号相对于第二音频信号的移位的移位值。举例来说,参看图2,时间均衡器108可确定指示第一音频信号130(例如,“目标”)相对于第二音频信号132(例如,“参考”)的移位(例如,非因果移位)的最终移位值116(例如,非因果移位值)。举例来说,最终移位值116的第一值(例如,正值)可指示第二音频信号132相对于第一音频信号130延迟。最终移位值116的第二值(例如,负值)可指示第一音频信号130相对于第二音频信号132延迟。最终移位值116的第三值(例如,0)可指示第一音频信号130与第二音频信号132之间无延迟。
在1004处,可基于移位值对第二音频信号执行时间移位操作以产生经调整第二音频信号。举例来说,参看图2,目标信号调整器210可基于从第一移位值262(Tprev)至最终移位值116(T)的时间移位演进调整目标信号242。举例来说,第一移位值262可包含对应于前一帧的最终移位值。为响应最终移位值从具有小于对应于前一帧的最终移位值116(例如,T=4)的对应于前一帧的第一值(例如,Tprev=2)的第一移位值262变化的确定,目标信号调整器210可内插目标信号242,使得对应于帧边界的目标信号242的样本的子集经由平滑及缓慢移位丢弃,以产生经调整目标信号192。替代地,为响应最终移位值从大于最终移位值116(例如,T=2)的第一移位值262(例如,Tprev=4)变化的确定,目标信号调整器210可内插目标信号242,使得对应于帧边界的目标信号242的样本的子集经由平滑及缓慢移位进行重复以产生经调整目标信号192。基于混合正弦及拉格朗日内插器,可执行平滑及缓慢移位。为响应最终移位值并未从第一移位值262改变成最终移位值116(例如,Tprev=T)的确定,目标信号调整器210可在时间上偏移目标信号242以产生经调整目标信号192。
在1006处,可对第一音频信号执行第一变换操作以产生频域第一音频信号。在1008处,可对经调整第二音频信号执行第二变换操作以产生频域经调整第二音频信号。举例来说,参看图3至7,可对参考信号190执行变换302且可对经调整目标信号192执行变换304。变换302、304可包含频域变换操作。作为非限制性实例,变换302、304可包含DFT操作、FFT操作等等。根据一些实施方案,QMF操作(例如,使用复杂低延迟滤波器组)可用于将输入信号(例如,参考信号190及经调整目标信号192)分裂成多个子频带,且在一些实施方案中,可使用另一频域变换操作将子频带进一步转换为频域。变换302可应用于参考信号190以产生频域参考信号Lfr(b)330,且变换304可应用于经调整目标信号192以产生频域经调整目标信号Rfr(b)332。
在1010处,可基于频域第一音频信号及频域经调整第二音频信号估计一或多个立体声参数。举例来说,参看图3至7,频域参考信号330及频域经调整目标信号332可经提供至立体声参数估计器306及旁频带信号产生器308。立体声参数估计器306可基于频域参考信号330及频域经调整目标信号332提取(例如,产生)立体声参数162。举例来说,IID(b)可取决于频带(b)中的左声道的能量EL(b)及频带(b)中的右声道的能量ER(b)。举例来说,IID(b)可被表达为20*log10(EL(b)/ER(b))。在编码器处估计及传输的IPD可提供在频带(b)中的左声道与右声道之间的频域中的相位差的估计。立体声参数162可包含额外(或替代)参数,例如ICC、ITD等等。
在1012处,可将一或多个立体声参数发送至第二装置。举例来说,参看图1,第一装置104可将立体声参数162传输至图1的第二装置106。
方法1000还可包含基于第一音频信号及经调整第二音频信号产生时域中频带。举例来说,参看图3、4及7,中频带信号产生器312可基于参考信号190及经调整目标信号192产生时域中频带信号336。举例来说,时域中频带信号336可被表达为(l(t)+r(t))/2,其中l(t)包含参考信号190且r(t)包含经调整目标信号192。方法1000还可包含编码时域中频带信号以产生中频带位流。举例来说,参看图3及4,中频带编码器316可通过编码时域中频带信号336产生中频带位流166。方法1000可进一步包含将中频带位流发送至第二装置。举例来说,参看图1,发射器110可将中频带位流166发送至第二装置106。
方法1000还可包含基于频域第一音频信号、频域经调整第二音频信号及一或多个立体声参数产生旁频带信号。举例来说,参看图3,旁频带产生器308可基于频域参考信号330及频域经调整目标信号332产生频域旁频带信号334。可在频域区间/频带中估计频域旁频带信号334。在每一频带中,增益参数(g)是不同的且可基于声道间声级差(例如,基于立体声参数162)。举例来说,频域旁频带信号334可被表达为(Lfr(b)-c(b)*Rfr(b))/(1+c(b)),其中c(b)可为ILD(b)或ILD(b)的函数(例如,c(b)=10^(ILD(b)/20))。
方法1000还可包含对时域中频带信号执行第三变换操作以产生频域中频带信号。举例来说,参看图3,变换314可应用于时域中频带信号336以产生频域中频带信号338。方法1000还可包含基于旁频带信号、频域中频带信号及一或多个立体声参数产生旁频带位流。举例来说,参看图3,旁频带编码器310可基于立体声参数162、频域旁频带信号334及频域中频带信号338产生旁频带位流164。
方法1000还可包含基于频域第一音频信号及频域经调整第二音频信号及另外或替代地基于立体声参数产生频域中频带信号。举例来说,参看图5至6,中频带信号产生器502可基于频域参考信号330及频域经调整目标信号332及另外或替代地基于立体声参数162产生频域中频带信号530。方法1000还可包含编码频域中频带信号以产生中频带位流。举例来说,参看图5,中频带编码器504可编码频域中频带信号530以产生中频带位流166。
方法1000还可包含基于频域第一音频信号、频域经调整第二音频信号及一或多个立体声参数产生旁频带信号。举例来说,参看图5至6,旁频带产生器308可基于频域参考信号330及频域经调整目标信号332产生频域旁频带信号334。根据一个实施方案,方法1000包含基于旁频带信号、中频带位流及一或立体声参数产生旁频带位流。举例来说,参看图6,中频带位流166可经提供至旁频带编码器602。旁频带编码器602可经配置以基于立体声参数162、频域旁频带信号334及中频带位流166产生旁频带位流164。根据另一实施方案,方法1000包含基于旁频带信号、频域中频带信号及一或多个立体声参数产生旁频带位流。举例来说,参考图5,旁频带编码器506可基于立体声参数162、频域旁频带信号334及频域中频带信号530产生旁频带位流164。
根据一个实施方案,方法1000还可包含通过下取样第一音频信号产生第一经下取样信号及通过下取样第二音频信号产生第二经下取样信号。方法1000还可包含基于第一经下取样信号及应用于第二经下取样信号的多个移位值确定比较值。移位值可基于比较值。
根据另一实施方案,方法1000还可包含确定对应于先于第一样本的第一音频信号的第一特定样本的第一移位值及基于对应于第一音频信号及第二音频信号的比较值确定经修正移位值。移位值可基于经修正移位值与第一移位值的比较。
图10的方法1000可使得频域立体声译码器109能够将参考信号190及经调整目标信号192变换为频域以产生立体声参数162、旁频带位流164及中频带位流166。时间均衡器108的将第一音频信号130在时间上移位以与第二音频信号132对准的时间移位技术可结合频域信号处理来实施。举例来说,时间均衡器108在编码器114处估计每一帧的移位(例如,非因果移位值),根据非因果移位值移位(例如,调整)目标声道,并使用移位的经调整声道用于变换域中的立体声参数估计。
参看图11,展示了绘示解码器118的特定实施方案的图解。经编码音频信号经提供至解码器118的解多路复用器(DEMUX)1102。经编码音频信号可包含立体声参数162、旁频带位流164及中频带位流166。解多路复用器1102可经配置以从经编码音频信号提取中频带位流166,且将中频带位流166提供至中频带解码器1104。解多路复用器1102还可经配置以从经编码音频信号提取旁频带位流164及立体声参数162(例如,ILD、IPD)。可将旁频带位流164及立体声参数162提供至旁频带解码器1106。
中频带解码器1104可经配置以对中频带位流166进行解码以产生中频带信号(mCODED(t))1150。如果中频带信号1150为时域信号,那么可将变换1108应用于中频带信号1150以产生频域中频带信号(MCODED(b))1152。频域中频带信号1152可经提供至升混器1110。然而,如果中频带声道1150为频域信号,那么中频带信号1150可直接提供至升混器1110且变换1108可被略过或可能不存在于解码器118中。
旁频带解码器1106可基于旁频带位流164及立体声参数162产生旁频带信号(SCODED(b))1154。举例来说,可针对低频带及高频带解码错误(e)。旁频带信号1154可被表达为SPRED(b)+eCODED(b),其中SPRED(b)=MCODED(b)*(ILD(b)-1)/(ILD(b)+1)。旁频带信号1154还可经提供至升混器1110。
升混器1110可基于频域中频带信号1152及旁频带信号1154执行升混操作。举例来说,升混器1110可基于频域中频带信号1152及旁频带信号1154产生第一升混信号(Lfr)1156及第二升混信号(Rfr)1158。因此,在所描述的实例中,第一升混信号1156可为左声道信号,且第二升混信号1158可为右声道信号。第一升混信号1156可被表达为MCODED(b)+SCODED(b),且第二升混信号1158可被表达为MCODED(b)-SCODED(b)。可将升混信号1156、1158提供至立体声参数处理器1112。
立体声参数处理器1112可将立体声参数162(例如,ILD、IPD)应用于升混信号1156、1158以产生信号1160、1162。举例来说,立体声参数162(例如,ILD、IPD)可应用于频域中的升混左声道及右声道。当可用时,IPD(相位差)可在左及右声道上扩展以维持声道间相位差。逆变换1114可应用于信号1160以产生第一时域信号l(t)1164,且逆变换1116可应用于信号1162以产生第二时域信号r(t)1166。逆变换1114、1116的非限制性实例包含逆离散余弦变换(IDCT)操作、快速傅里叶逆变换(IFFT)操作等等。根据一个实施方案,第一时域信号1164可为参考信号190的重构版本,且第二时域信号1166可为经调整目标声道192的重构版本。
根据一个实施方案,在升混器1110处执行的操作可在立体声参数处理器1112处执行。根据另一实施方案,在立体声参数处理器1112处执行的操作可在升混器1110处执行。根据又一个实施方案,升混器1110及立体声参数处理器1112可实施于单个处理元件(例如,单个处理器)内。
另外,可将第一时域信号1164及第二时域信号1166提供至时域升混器1120。时域升混器1120可对时域信号1164、1166(例如,经逆变换的左及右信号)执行时域升混。时域升混器1120可执行逆移位调整以撤销在时间均衡器108(更特定地说,目标信号调整器210)中执行的移位调整。时域升混可基于时域降混参数168。举例来说,时域升混可基于第一移位值262及参考信号指示符264。另外,时域升混器1120可执行在可存在的时域降混模块处执行的其它操作的逆操作。
参看图12,揭示了系统的特定说明性实例且将其整体上指定为1200。系统1200包含经由网络120以通信方式耦合至第二装置1206的第一装置1204。第一装置1204可对应于图1的第一装置104,且第二装置1206可对应于图1的第二装置106。举例来说,图1的第一装置104的组件还可包含于第一装置1204中,且图1的第二装置106的组件还可包含于第二装置1206中。因此,除关于图12所描述的译码技术以外,第一装置1204可以基本上类似于图1的第一装置104的方式操作,且第二装置1206可以基本上类似于图1的第二装置106的方式操作。
第一装置1204可包含编码器1214、发射器1210、输入接口1212或其组合。根据一个实施方案,编码器1214可对应于图1的编码器114且可以基本上类似方式操作,发射器1210可对应于图1的发射器110且可以基本上类似方式操作,且输入接口1212可对应于图1的输入接口112且可以基本上类似方式操作。输入接口1212中的第一输入接口可耦合至第一麦克风1246。输入接口1212中的第二输入接口可耦合至第二麦克风1248。编码器1214可包含频域移位器1208及频域立体声译码器1209,且可经配置以降混及编码多个音频信号,如本文中所描述。第一装置1204还可包含经配置以存储分析数据1291的存储器1253。第二装置1206可包含解码器1218。解码器1218可包含经配置以升混及呈现多个声道的时间平衡器1224。第二装置1206可耦合至第一喇叭1242、第二喇叭1244或两者。
在操作期间,第一装置1204可经由第一输入接口从第一麦克风1246接收第一音频信号1230,并可经由第二输入接口从第二麦克风1248接收第二音频信号1232。第一音频信号1230可对应于右声道信号或左声道信号中的一者。第二音频信号1232可对应于右声道信号或左声道信号中的另一者。与第二麦克风1248相比,声源1252可更接近于第一麦克风1246。因此,来自声源1252的音频信号可在与经由第二麦克风1248相比较早时间时经由第一麦克风1246在输入接口1212处接收。经由多个麦克风获取的多声道信号的此固有延迟可在第一音频信号1230与第二音频信号1232之间引入时间失配。
频域移位器1208可经配置以执行左声道及右声道的变换操作(例如,变换分析)以估计变换域(例如,频域)中的非因果移位值。举例来说,频域移位器1208可对左声道及右声道执行窗口化操作。举例来说,频域移位器1208可对左声道执行窗口化操作以分析第一音频信号1230的特定窗口,且频域移位器1208可对右声道执行窗口化操作以分析第二音频信号1232的对应窗口。频域移位器1208可对第一音频信号1230执行第一变换操作(例如,DFT操作)以将第一音频信号1230从时域转换成变换域,且频域移位器1208可对第二音频信号1232执行第二变换操作(例如,DFT操作)以将第二音频信号1232从时域转换成变换域。
频域移位器1208可基于变换域中的第一音频信号1230与变换域中的第二音频信号1232之间的相位差估计非因果移位值(例如,最终移位值1216)。最终移位值1216可为与声道指示符相关联的非负值。声道指示符可指示哪一音频信号1230、1232为参考信号(例如,参考声道)且哪一音频信号1230、1232为目标信号(例如,目标声道)。替代地,可估计移位值(例如,正值、零值或负值)。如本文中所使用,“移位值”也可被称作“时间失配值”。移位值可经传输至第二装置1206。
根据另一实施方案,移位值的绝对值可为最终移位值1216(例如,非因果移位值),且移位值的正负号可指示哪一音频信号1230、1232为参考信号且哪一音频信号1230、1232为目标信号。时间失配值的绝对值(例如,最终移位值1216)以及失配值的正负号可经传输至第二装置1206,所述失配值的正负号指示哪一声道为参考声道且哪一声道为目标声道。
在确定最终移位值1216之后,频域移位器1208通过执行变换域(例如,频域)中的目标信号的相位旋转在时间上对准目标信号及参考信号。举例来说,如果第一音频信号1230为参考信号,那么频域信号1290可对应于变换域中的第一音频信号1230。频域移位器1208可执行变换域中的第二音频信号1232的相位旋转以产生在时间上与频域信号1290对准的频域信号1292。频域信号1290及频域信号1292可经提供至频域立体声译码器1209。
因此,频域移位器1208可在时间上对准第二音频信号1232(例如,目标信号)的变换域版本以产生信号1292,使得第一音频信号1230的变换域版本及信号1292基本上同步。频域移位器1208可产生频域降混参数1268。频域降混参数1268可指示目标信号与参考信号之间的移位值。在其它实施方案中,频域降混参数1268可包含类似于降混增益等等的额外参数。
频域立体声译码器1209可基于频域信号(例如,频域信号1290、1292)估计立体声参数1262。立体声参数1262可包含使得能够呈现与左声道及右声道相关联的空间性质的参数。根据一些实施方案,立体声参数1262可包含各种参数,例如声道间强度差(IID)参数(例如,声道间声级差(ILD))、被称为旁频带增益的ILD的替代、声道间时差(ITD)参数、声道间相位差(IPD)参数、声道间相关(ICC)参数、非因果移位参数、频谱倾斜参数、声道间发声参数、声道间音调参数、声道间增益参数等等。应理解,除非明确地提及,否则ILD还可指替代旁频带增益。ITD参数可对应于时间失配值或最终移位值1216。立体声参数1262可在频域立体声译码器1209处在其它信号产生期间使用。立体声参数1262还可作为经编码信号的部分而传输。根据一个实施方案,由频域立体声译码器1209执行的操作也可由频域移位器1208执行。作为非限制性实例,频域移位器1208可确定ITD参数并使用ITD参数作为最终移位值1216。
频域立体声译码器1209还可至少部分地基于频域信号产生旁频带位流1264及中频带位流1266。出于说明的目的,除非另外指出,否则假定频域信号1290(例如,参考信号)为左声道信号(l或L)且频域信号1292为右声道信号(r或R)。频域信号1290可被标示为Lfr(b)且频域信号1292可被标示为Rfr(b),其中b表示频域表示的频带。根据一个实施方案,旁频带信号Sfr(b)可在频域中由频域信号1290及频域信号1292产生。举例来说,旁频带信号Sfr(b)可被表达为(Lfr(b)-Rfr(b))/2。旁频带信号Sfr(b)可经提供至旁频带编码器以产生旁频带位流1264。中频带信号Mfr(b)还可由频域信号1290、1292产生。
可使用多个技术来对旁频带信号Sfr(b)及中频带信号Mfr(b)进行编码。旁频带译码的一个实施方案包含使用频率中频带信号Mfr(b)及对应于频带(b)的立体声参数1262(例如,ILD)中的信息从频域中频带信号Mfr(b)预测旁频带SPRED(b)。举例来说,预测旁频带SPRED(b)可被表达为Mfr(b)*(ILD(b)-1)/(ILD(b)+1)。频带(b)中的错误信号e(b)可依据旁频带信号Sfr(b)及预测旁频带SPRED(b)而计算。举例来说,错误信号e(b)可被表达为Sfr(b)-SPRED(b)。可使用变换域译码技术译码错误信号e(b)以产生经译码错误信号eCODED(b)。对于较高频带,错误信号e(b)可被表达为来自前一帧的频带(b)中的中频带信号M_PASTfr(b)的缩放版本。举例来说,经译码错误信号eCODED(b)可被表达为gPRED(b)*M_PASTfr(b),其中gPRED(b)可经估计使得e(b)-gPRED(b)*M_PASTfr(b)的能量基本上减少(例如,减至最小)。
发射器1210可经由网络120将立体声参数1262、旁频带位流1264、中频带位流1266、频域降混参数1268或其组合传输至第二装置1206。替代地或另外,发射器1210可将立体声参数1262、旁频带位流1264、中频带位流1266、频域降混参数1268或其组合存储于网络120的装置或本地装置处以供稍后进一步处理或解码。因为非因果移位(例如,最终移位值1216)可在编码过程期间被确定,因此除每一频带中的非因果移位以外传输IPD及/或ITD(例如,作为立体声参数1262的部分)可为冗余的。因此,在一些实施方案中,可针对相同帧但在互斥频带中估计IPD及/或ITD及非因果移位。在其它实施方案中,除用于每频带较精细调整的移位以外还可估计较低分辨率IPD。替代地,可能不针对其中确定非因果移位的帧确定IPD及/或ITD。
解码器1218可基于立体声参数1262、旁频带位流1264、中频带位流1266及频域降混参数1268执行解码操作。解码器1218(例如,第二装置1206)可因果地移位再生目标信号以撤销由编码器1214执行的非因果移位。因果移位可在频域中(例如,通过相位旋转)或在时域中执行。解码器1218可执行升混,以产生(例如,对应于第一音频信号1230的)第一输出信号1226、(例如,对应于第二音频信号1232的)第二输出信号1228或两者。第二装置1206可经由第一喇叭1242输出第一输出信号1226。第二装置1206可经由第二喇叭1244输出第二输出信号1228。在替代实例中,第一输出信号1226及第二输出信号1228可作为立体声信号对传输至单个输出喇叭。
系统1200因此可使得频域立体声译码器1209能够产生立体声参数1262、旁频带位流1264及中频带位流1266。频域移位器1208的频率移位技术可结合频域信号处理而实施。举例来说,频域移位器1208在编码器1214处估计每一帧的移位(例如,非因果移位值),根据非因果移位值移位(例如,调整)目标声道,并使用移位的经调整声道用于变换域中的立体声参数估计。
参看图13,展示了第一装置1204的编码器1214的说明性实例。编码器1214包含频域移位器1208的第一实施方案1208a及频域立体声译码器1209。频域移位器1208a包含窗口化电路1302、变换电路1304、窗口化电路1306、变换电路1308、声道间移位估计器1310及移位器1312。
在操作期间,第一音频信号1230(例如,时域信号)可经提供至窗口化电路1302,且第二音频信号1232(例如,时域信号)可经提供至窗口化电路1306。窗口化电路1302可对左声道(例如,对应于第一音频信号1230的声道)执行窗口化操作以分析第一音频信号1230的特定窗口。窗口化电路1306可对右声道(例如,对应于第二音频信号1232的声道)执行窗口化操作以分析第二音频信号1232的对应窗口。
变换电路1304可对第一音频信号1230执行第一变换操作(例如,离散傅里叶变换(DFT)操作)以将第一音频信号1230从时域转换成变换域。举例来说,变换电路1304可对第一音频信号1230执行第一变换操作以产生频域信号1290。频域信号1290可经提供至声道间移位估计器1310及频域立体声译码器1209。变换电路1308可对第二音频信号1232执行第二变换操作(例如,DFT操作)以将第二音频信号1232从时域转换成变换域。举例来说,变换电路1308可对第二音频信号1232执行第二变换操作以产生时域信号1350。时域信号1350可经提供至声道间移位估计器1310及移位器1312。
声道间移位估计器1310可基于频域信号1290与频域信号1350之间的相位差估计最终移位值1216(例如,非因果移位值或ITD值)。最终移位值1216可经提供至移位器1312。如本文中所使用,“最终移位值”可被称作“最终时间失配值”。因此,术语“移位值”及“时间失配值”可在本文中互换使用。根据一个实施方案,最终移位值1216经译码并提供至第二装置1206。移位器1312对变换域信号1350执行相移操作(例如,相位旋转操作)以产生频域信号1292。频域信号1292的相位是使得频域信号1292及频域信号1290在时间上对准。
在图13中,假定第二音频信号1232为目标信号。然而,如果目标信号未知,那么频域信号1350及频域信号1290可经提供至移位器1312。最终移位值1216可指示哪一频域信号1350、1290对应于目标信号,且移位器1312可对对应于目标信号的频域信号1350、1290执行相位旋转操作。基于最终移位值的相位旋转操作可对另一信号略过。应注意,还可执行基于经计算IPD的其它相位旋转操作(如果可用的话)。频域信号1292可经提供至频域立体声译码器1209。关于图15至16描述频域立体声译码器1209的操作。
参看图14,展示了第一装置1204的编码器1214的另一说明性实例。编码器1214包含频域移位器1208的第二实施方案1208b及频域立体声译码器1209。频域移位器1208b包含窗口化电路1302、变换电路1304、窗口化电路1306、变换电路1308及非因果移位器1402。
窗口化电路1302、1306及变换电路1304、1308可以基本上类似于关于图13所描述的方式操作。举例来说,窗口化电路1302、1306及变换电路1304、1308可分别基于音频信号1230、1232产生频域信号1290、1350。频域信号1290、1350可经提供至非因果移位器1402。
非因果移位器1402可在时间上对准频域中的目标声道及参考声道。举例来说,非因果移位器1402可执行目标声道的相位旋转以非因果地移位目标声道以与参考声道对准。最终移位值1216可从存储器1253提供至非因果移位器1402。根据一些实施方案,来自前一帧的移位值(基于时域技术或频域技术而估计)可用作最终移位值1216。因此,来自前一帧的移位值可在逐帧的基础上使用,其中时域降混技术及频域降混技术是基于特定量度在编解码器(CODEC)中选择。最终移位值1216(例如,非因果移位值)可指示非因果移位且可指示目标声道。最终移位值1216可在时域中或在变换域中估计。举例来说,最终移位值1216可指示右声道(例如,与频域信号1350相关联的声道)为目标声道。非因果移位器1402可将频域信号1350的相位旋转在最终移位值1216中指示的移位量以产生频域信号1292。频域信号1292可经提供至频域立体声译码器1209。非因果移位器1402可将频域信号1290(例如,在此实例中的参考声道)传递至频域立体声译码器1209。最终移位值1216指示频域信号1290为可基于频域信号1290的最终移位值导致略过相位旋转的参考声道。应注意,可执行基于经计算IPD的其它相位旋转操作(如果可用的话)。关于图15至16描述频域立体声译码器1209的操作。
参看图15,展示了频域立体声译码器1209的第一实施方案1209a。频域立体声译码器1209的第一实施方案1209a包含立体声参数估计器1502、旁频带信号产生器1504、中频带信号产生器1506、中频带编码器1508及旁频带编码器1510。
频域信号1290、1292可经提供至立体声参数估计器1502。立体声参数估计器1502可基于频域信号1290、1292提取(例如,产生)立体声参数1262。举例来说,IID(b)可取决于频带(b)中的左声道的能量EL(b)及频带(b)中的右声道的能量ER(b)。举例来说,IID(b)可被表达为20*log10(EL(b)/ER(b))。在编码器处估计并由编码器传输的IPD可提供在频带(b)中的左声道与右声道之间的频域中的相位差的估计。立体声参数1262可包含额外(或替代)参数,例如ICC、ITD等等。立体声参数1262可经传输至图12的第二装置1206,提供至旁频带信号产生器1504,且提供至旁频带编码器1510。
旁频带产生器1504可基于频域信号1290、1292产生频域旁频带信号(Sfr(b))1534。可在频域区间/频带中估计频域旁频带信号1534。在每一频带中,增益参数(g)是不同的且可基于声道间声级差(例如,基于立体声参数1262)。举例来说,频域旁频带信号1534可被表达为(Lfr(b)-c(b)*Rfr(b))/(1+c(b)),其中c(b)可为ILD(b)或ILD(b)的函数(例如,c(b)=10^(ILD(b)/20))。频域旁频带信号1534可经提供至旁频带编码器1510。
频域信号1290、1292还可经提供至中频带信号产生器1506。根据一些实施方案,立体声参数1262还可经提供至中频带信号产生器1506。中频带信号产生器1506可基于频域信号1290、1292产生频域中频带信号Mfr(b)1530。根据一些实施方案,频域中频带信号Mfr(b)1530还可基于立体声参数1262而产生。基于频域信号1290、1292及立体声参数162产生中频带信号1530的一些方法如下。
Mfr(b)=(Lfr(b)+Rfr(b))/2
Mfr(b)=c1(b)*Lfr(b)+c2*Rfr(b),其中c1(b)及c2(b)为复值。
在一些实施方案中,复值c1(b)及c2(b)是基于立体声参数162。举例来说,在中旁降混的一个实施方案中,当估计IPD时,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示-1的平方根的虚数。
出于有效旁频带信号编码的目的,频域中频带信号1530可经提供至中频带编码器1508及旁频带编码器1510。在此实施方案中,中频带编码器1508可在编码之前进一步将中频带信号1530变换至任何其它变换/时域。举例来说,中频带信号1530(Mfr(b))可经逆变换回至时域,或变换至MDCT域以用于译码。
旁频带编码器1510可基于立体声参数1262、频域旁频带信号1534及频域中频带信号1530产生旁频带位流1264。中频带编码器1508可基于频域中频带信号1530产生中频带位流1266。举例来说,中频带编码器1508可编码频域中频带信号1530以产生中频带位流1266。
参看图16,展示了频域立体声译码器1209的第二实施方案1209b。频域立体声译码器1209的第二实施方案1209b包含立体声参数估计器1502、旁频带信号产生器1504、中频带信号产生器1506、中频带编码器1508及旁频带编码器1610。
频域立体声译码器1209的第二实施方案1209b可以基本上类似于频域立体声译码器1209的第一实施方案1209a的方式操作。然而,在第二实施方案1209b中,中频带位流1266可经提供至旁频带编码器1610。在替代实施方案中,基于中频带位流的经量化中频带信号可经提供至旁频带编码器1610。旁频带编码器1610可经配置以基于立体声参数1262、频域旁频带信号1534及中频带位流1266产生旁频带位流1264。
参看图17,展示了补零目标信号的实例。关于图17所描述的补零技术可由图12的编码器1214执行。
在1702处,展示第二音频信号1232(例如,目标信号)的窗口。在1702处,编码器1214可对第二音频信号1232的两旁执行补零。举例来说,窗口中的第二音频信号1232的内容可经补零。然而,如果第二音频信号1232(或第二音频信号1232的频域版本)经历因果或非因果移位(例如,时间移位或相位移位),那么窗口中的第二音频信号1232的非零部分可经旋转且可在时间域中发生不连续性。因此,为避免与补零两旁相关联的不连续性,可增加补零的量。然而,增加补零的量可增加窗口大小及变换操作的复杂度。增加补零的量还可增加立体声或多声道译码系统的端对端延迟。
然而,在1704处,使用非对称补零展示第二音频信号1232的窗口。非对称补零的一个实例为单旁补零。在所绘示的实例中,第二音频信号1232的窗口的右手旁被补零相对大量,且第二音频信号1232的窗口的左手旁被补零相对少量(或未被补零)。结果,第二音频信号1232可被移位相对大量而不导致不连续性。另外,窗口的大小相对较小,这可导致与变换操作相关联的减少的复杂度。
在1706处,使用单旁(或非对称)补零展示第二音频信号1232的窗口。在所绘示的实例中,第二音频信号1232的左手旁被补零相对大量,且第二音频信号1232的右手旁未被补零。结果,第二音频信号1232可被移位(向左)相对大量而不导致不连续性。另外,窗口的大小相对较小,这可导致与变换操作相关联的减少的复杂度。
因此,相较于补零窗口的两旁,关于图17所描述的补零技术可通过基于移位的方向补零窗口的一旁在编码器处实现目标声道的相对大移位(例如,相对大时间移位或相对大相位旋转/移位)。举例来说,因为编码器非因果地移位目标声道,因此窗口的一个旁可经补零(如在1704及1706处所绘示)以促进相对大移位,且窗口的大小可等于具有双旁补零的窗口的大小。另外,解码器可响应于编码器处的非因果移位而执行因果移位。结果,解码器可补零窗口的与编码器相对的旁以促进相对大因果移位。
参看图18,展示了通信的方法1800。方法1800可由图1的第一装置104、图1至2的编码器114、图1至7的频域立体声译码器109、图2及8的信号预处理器202、图2及9的移位估计器204、图12的第一装置1204、图12的编码器1214、图12的频域移位器1208、图12的频域立体声译码器1209或其组合执行。
方法1800包含在1802处在第一装置处使用编码器侧窗口化方案对参考声道执行第一变换操作以产生频域参考声道。举例来说,参看图13,变换电路1304可对第一音频信号1230(例如,根据方法1800的参考声道)执行第一变换操作以产生频域信号1290(例如,根据方法1800的频域参考声道)。
方法1800还包含在1804处使用编码器侧窗口化方案对目标声道执行第二变换操作以产生频域目标声道。举例来说,参看图13,变换电路1308可对第二音频信号1232(例如,根据方法1800的目标声道)执行第二变换操作以产生频域信号1350(例如,根据方法1800的频域目标声道)。
方法1800还包含在1806处确定指示频域参考声道与频域目标声道之间的声道间相位未对准(例如,相移或相位旋转)的量的失配值。举例来说,参看图13,声道间移位估计器1310可确定指示频域信号1290与频域信号1350之间的相移的量的最终移位值1216(例如,根据方法1800的失配值)。
方法1800还包含在1808处基于失配值调整频域目标声道以产生频域经调整目标声道。举例来说,参看图13,移位器1312可基于最终移位值1216调整频域信号1350以产生频域信号1292(例如,根据方法1800的频域经调整目标声道)。
方法1800还包含在1810处基于频域参考声道及频域经调整目标声道估计一或多个立体声参数。举例来说,参看图15至16,立体声参数估计器1502可基于频域声道1290、1292估计立体声参数1262。方法1800还包含在1812处将一或多个立体声参数传输至接收器。举例来说,参看图12,发射器1210可将立体声参数1262传输至第二装置1206的接收器。
根据一个实施方案,方法1800包含基于频域参考声道及频域经调整目标声道产生频域中频带声道。举例来说,参看图15,中频带信号产生器1506可基于频域信号1290、1292产生中频带信号1530(例如,根据方法1800的频域中频带声道)。方法1800还可包含编码频域中频带声道以产生中频带位流。举例来说,参看图15,中频带编码器1508可编码频域中频带信号1530以产生中频带位流1266。方法1800还可包含将中频带位流传输至接收器。举例来说,参看图12,发射器1210可将中频带位流1266传输至第二装置1206的接收器。
根据一个实施方案,方法1800包含基于频域参考声道、频域经调整目标声道及一或多个立体声参数产生旁频带声道。举例来说,参看图15,旁频带信号产生器1504可基于频域信号1290、1292及立体声参数1262产生频域旁频带信号1534(例如,根据方法1800的旁频带声道)。方法1800还可包含基于旁频带声道、频域中频带声道及一或多个立体声参数产生旁频带位流。举例来说,参看图15,旁频带编码器1510可基于立体声参数1262、频域旁频带信号1534及频域中频带信号1530产生旁频带位流1264。方法1800还可包含将旁频带位流传输至接收器。举例来说,参看图12,发射器可将旁频带位流1264传输至第二装置1206的接收器。
根据一个实施方案,方法1800可包含通过下取样频域参考声道产生第一经下取样信号及通过下取样频域目标声道产生第二经下取样信号。方法1800还可包含基于第一经下取样信号及应用于第二经下取样信号的多个相移值确定比较值。失配可基于比较值。
根据另一实施方案,方法1800包含在执行第二变换操作之前对频域目标声道执行补零操作。可对目标声道的窗口的两旁执行补零操作。根据另一实施方案,可对目标声道的窗口的单旁执行补零操作。根据另一实施方案,可对目标声道的窗口的任一旁不对称地执行补零操作。在每一实施方案中,相同窗口化方案还可用于参考声道。
图18的方法1800可使得频域立体声译码器1209能够产生立体声参数1262、旁频带位流1264及中频带位流1266。频域移位器1214的相移技术可结合频域信号处理而实施。举例来说,频域移位器1214在编码器1214处估计每一帧的移位(例如,非因果移位值),根据非因果移位值移位(例如,调整)目标声道,并使用移位的经调整声道用于变换域中的立体声参数估计。
参看图19,展示了第一解码器系统1900及第二解码器系统1950。第一解码器系统1900包含解码器1902、移位器1904(例如,因果移位器或非因果移位器)、逆变换电路1906及逆变换电路1908。第二解码器系统1950包含解码器1902、逆变换电路1906、逆变换电路1908及移位器1952(例如,因果移位器或非因果移位器)。根据一个实施方案,第一解码器系统1900可对应于图12的解码器1218。根据另一实施方案,第二解码器系统1950可对应于图12的解码器1218。
经编码位流1901可经提供至解码器1902。经编码位流1901可包含立体声参数1262、旁频带位流1264、中频带位流1266、频域降混参数1268、最终移位值1216等等。在解码器系统1900、1950处接收的最终移位值1216可为用声道指示符(例如,目标声道指示符)多路复用的非负移位值,或表示负或非负移位的单个移位值。解码器1902可经配置以基于经编码位流1901解码中频带声道及旁频带声道。解码器1902还可经配置以对中频带声道及旁频带声道执行DFT分析。解码器1902可解码立体声参数1262。
解码器1902可解码经编码位流1901以产生经解码频域左声道1910及经解码频域右声道1912。应注意,解码器1902经配置以执行紧密对应于编码器的逆操作的操作,直到在非因果移位操作之前为止。因此,在一些实施方案中,经解码频域左声道1910及经解码频域右声道1912可对应于编码器侧频域参考声道(1290)及编码器侧频域经调整目标声道(1292),或反之亦然;而在其它实施方案中,经解码频域左声道1910及经解码频域右声道1912可对应于编码器侧时域参考声道(190)及编码器侧时域经调整目标声道(192)的频率变换版本,或反之亦然。经解码频域左声道1910及经解码频域右声道1912可经提供至移位器1904(例如,因果移位器)。解码器1902还可基于经编码位流1901确定最终移位值1216。最终移位值可为指示参考声道(例如,第一音频信号1230)与目标声道(例如,第二音频信号1232)之间的相移的失配值。最终移位值1216可对应于时间移位。最终移位值1216可经提供至因果移位器1904。
移位器1904(例如,因果移位器)可经配置以基于最终移位值1216的目标声道指示符确定经解码频域左声道1910是目标声道还是参考声道。类似地,移位器1904可经配置以基于最终移位值1216的目标声道指示符确定经解码频域右声道1912是目标声道还是参考声道。为易于说明,经解码频域右声道1912经描述为目标声道。然而,应理解,在其它实施方案中(或对于其它帧),经解码频域左声道1910可为目标声道,且下文所描述的移位操作可对经解码频域左声道1910执行。
移位器1904可经配置以基于最终移位值1216对经解码频域右声道1912(例如,在所绘示的实例中的目标声道)执行频域移位操作(例如,因果移位操作)以产生经调整解码频域目标声道1914。经调整解码频域目标声道1914可经提供至逆变换电路1908。因果移位器1904可基于与最终移位值1216相关联的目标声道指示符略过对经解码频域左声道1910的移位操作。举例来说,最终移位值1216可指示目标声道(例如,执行频域因果移位所针对的声道)为经解码频域右声道1912。经解码频域左声道1910可经提供至逆变换电路1906。
逆变换电路1906可经配置以对经解码频域左声道1910执行第一逆变换操作以产生经解码时域左声道1916。根据一个实施方案,经解码时域左声道1916可对应于图12的第一输出信号1226。逆变换电路1908可经配置以对经调整解码频域目标声道1914执行第二逆变换操作以产生经调整解码时域目标声道1918(例如,时域右声道)。根据一个实施方案,经调整解码时域目标声道1918可对应于图12的第二输出信号1228。
在第二解码器系统1950处,经解码频域左声道1910可经提供至逆变换电路1906,且经解码频域右声道1912可经提供至逆变换电路1908。逆变换电路1906可经配置以对经解码频域左声道1910执行第一逆变换操作以产生经解码时域左声道1962。逆变换电路1908可经配置以对经解码频域右声道1912执行第二逆变换操作以产生经解码时域右声道1964。经解码时域左声道1962及经解码时域右声道1964可经提供至移位器1952。
在第二解码器系统1950处,解码器1902可将最终移位值1216提供至移位器1952。最终移位值1216可对应于相移量,且可指示哪一声道(用于每一帧)为参考声道及哪一声道为目标声道。举例来说,移位器1904(例如,因果移位器)可经配置以基于最终移位值1216的目标声道指示符确定经解码时域左声道1962是目标声道还是参考声道。类似地,移位器1904可经配置以基于最终移位值1216的目标声道指示符确定经解码时域右声道1964是目标声道还是参考声道。为易于说明,经解码时域右声道1964经描述为目标声道。然而,应理解,在其它实施方案中(或对于其它帧),经解码时域左声道1962可为目标声道,且下文所描述的移位操作可对经解码时域左声道1962执行。
移位器1952可基于最终移位值1216对经解码时域右声道1964执行时域移位操作以产生经调整解码时域目标声道1968。时域移位操作可包含非因果移位或因果移位。根据一个实施方案,经调整解码时域目标声道1968可对应于图12的第二输出信号1228。移位器1952可基于与最终移位值1216相关联的目标声道指示符略过对经解码时域左声道1962的移位操作。经解码时域参考声道1962可对应于图12的第一输出信号1226。
本文中所描述的每一解码器118、1218及每一解码系统1900、1950可结合本文中所描述的每一编码器114、1214及每一编码系统而使用。作为非限制性实例,图12的解码器1218可从图1的编码器114接收位流。为响应接收到位流,解码器1218可在频域中对目标声道执行相位旋转操作以撤销在编码器114处在时域中执行的时间移位操作。作为另一非限制性实例,图1的解码器118可从图12的编码器1214接收位流。为响应接收到位流,解码器118可在频域中对目标声道执行时间移位操作以撤销在编码器1214处在频域中执行的相位旋转操作。
参看图20,展示了通信的第一方法2000及通信的第二方法2020。方法2000、2020可由图1的第二装置106、图12的第二装置1206、图19的第一解码器系统1900、图19的第二解码器系统1950或其组合执行。
第一方法2000包含在2002处在第一装置处从第二装置接收经编码位流。经编码位流可包含指示在第二装置处捕获的参考声道与在第二装置处捕获的目标声道之间的移位量的失配值。移位量可对应于时间移位。举例来说,参看图19,解码器1902可接收经编码位流1901。经编码位流1901可包含指示参考声道与目标声道之间的移位量的失配值(例如,最终移位值1216)。移位量可对应于时间移位。
第一方法2000还可包含在2004处解码经编码位流以产生经解码频域左声道及经解码频域右声道。举例来说,参看图19,解码器1902可解码经编码位流1901以产生经解码频域左声道1910及经解码频域右声道1912。
方法2000还可包含在2006处基于与失配值相关联的目标声道指示符,将经解码频域左声道或经解码频域右声道中的一者映射为经解码频域目标声道且将另一者映射为经解码频域参考声道。举例来说,参看图19,移位器1904将经解码频域左声道1910映射至经解码频域参考声道且将经解码频域右声道1912映射至经解码频域目标声道。应理解,在其它实施方案中或对于其它帧,移位器1904可将经解码频域左声道1910映射至经解码频域目标声道且将经解码频域右声道1912映射至经解码频域参考声道。
第一方法2000还可包含在2008处基于失配值对经解码频域目标声道执行频域因果移位操作以产生经调整解码频域目标声道。举例来说,参看图19,移位器1904可基于最终移位值1216对经解码频域右声道1912(例如,经解码频域目标声道)执行频域因果移位操作以产生经调整解码频域目标声道1914。
第一方法2000还可包含在2010处对经解码频域参考声道执行第一逆变换操作以产生经解码时域参考声道。举例来说,参看图19,逆变换电路1906可对经解码频域左声道1910执行第一逆变换操作以产生经解码时域参考声道1916。
第一方法2000还可包含在2012处对经调整解码频域目标声道执行第二逆变换操作以产生经调整解码时域目标声道。举例来说,参看图19,逆变换电路1908可对经调整解码频域目标声道1914执行第二逆变换操作以产生经调整解码时域目标声道1918。
第二方法2020包含在2022处从第二装置接收经编码位流。经编码位流可包含时间失配值及立体声参数。时间失配值及立体声参数是基于在第二装置处捕获的参考声道及在第二装置处捕获的目标声道而确定。举例来说,参看图19,解码器1902可接收经编码位流1901。经编码位流1901可包含时间失配值、失配值(例如,最终移位值1216)及立体声参数1262(例如,IPD及ILD)。
第二方法2020还可包含在2024处解码经编码位流以产生第一频域输出信号及第二频域输出信号。举例来说,参看图19,解码器1902可解码经编码位流1901以产生经解码频域左声道1910及经解码频域右声道1912。
第二方法2020还可包含在2026处对第一频域输出信号执行第一逆变换操作以产生第一时域信号。举例来说,参看图19,逆变换电路1906可对经解码频域左声道1910执行第一逆变换操作以产生经解码时域左声道1962。
第二方法2020还可包含在2028处对第二频域输出信号执行第二逆变换操作以产生第二时域信号。举例来说,参看图19,逆变换电路1908可对经解码频域右声道1912执行第二逆变换操作以产生经解码时域右声道1964。
第二方法2020还可包含在2030处基于时间失配值,将第一时域信号或第二时域信号中的一者映射为经解码目标声道且将另一者映射为经解码参考声道。举例来说,参看图19,移位器1952将经解码时域左声道1962映射为经解码时域参考声道且将经解码时域右声道1964映射为经解码时域频道。应理解,在其它实施方案中或对于其它帧,移位器1904可将经解码时域左声道1962映射至经解码时域目标声道且将经解码时域右声道1964映射至经解码时域参考声道。
第二方法2020还可包含在2032处基于时间失配值对经解码目标声道执行因果时域移位操作以产生经调整解码目标声道。对经解码目标声道执行的因果时域移位操作可基于时间失配值的绝对值。举例来说,参看图19,移位器1952可基于最终移位值1216对经解码时域右声道1964执行时域移位操作以产生经调整解码时域目标声道1968。时域移位操作可包含非因果移位或因果移位。
第二方法2020还可包含在2032处输出第一输出信号及第二输出信号。第一输出信号可基于经解码参考声道且第二输出信号可基于经调整目标声道。举例来说,参看图12,第二装置可输出第一输出信号1226及第二输出信号1228。
根据第二方法2020,可在第二装置(例如,编码器侧装置)处使用编码器侧窗口化方案确定时间失配值及立体声参数。编码器侧窗口化方案可使用具有第一重叠大小的第一窗口,且在解码器1218处解码器侧窗口化方案可使用具有第二重叠大小的第二窗口。第一重叠大小不同于第二重叠大小。举例来说,第二重叠大小小于第一重叠大小。编码器侧窗口化方案的第一窗口具有第一补零量,且解码器侧窗口化方案的第二窗口具有第二补零量。第一补零量不同于第二补零量。举例来说,第二补零量小于第一补零量。
根据一些实施方案,第二方法2020还包含解码经编码位流以产生经解码中间信号及对经解码中间信号执行变换操作以产生频域经解码中间信号。第二方法2020还可包含对频域经解码中间信号执行升混操作以产生第一频域输出信号及第二频域输出信号。立体声参数在升混操作期间应用于频域经解码中间信号。立体声参数可包含在第二装置处基于参考声道及目标声道估计的ILD值的集合及IPD值的集合。ILD值的集合及IPD值的集合经传输至解码器侧接收器。
参看图21,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且将所述装置整体上指定为2100。在各种实施例中,装置2100可具有比图21中所绘示的组件更少或更多的组件。在说明性实施例中,装置2100可对应于图1的第一装置104、图1的第二装置106、图12的第一装置1204、图12的第二装置1206或其组合。在说明性实施例中,装置2100可执行参考图1至20的系统及方法所描述的一或多个操作。
在特定实施例中,装置2100包含处理器2106(例如,中央处理单元(CPU))。装置2100可包含一或多个额外处理器2110(例如,一或多个数字信号处理器(DSP))。处理器2110可包含媒体(例如,话音及音乐)编码器-解码器(编解码器)2108及回音消除器2112。媒体编解码器2108可包含解码器118、编码器114、解码器1218、编码器1214或其组合。编码器114可包含时间均衡器108。
装置2100可包含存储器153及编解码器2134。尽管媒体编解码器2108经绘示为处理器2110的组件(例如,专用电路及/或可执行编程代码),但在其它实施例中,媒体编解码器2108的一或多个组件(例如解码器118、编码器114、解码器1218、编码器1214或其组合)可包含于处理器2106、编解码器2134、另一处理组件或其组合中。
装置2100可包含耦合至天线2142的发射器110。装置2100可包含耦合至显示控制器2126的显示器2128。一或多个扬声器2148可耦合至编解码器2134。一或多个麦克风2146可经由一或多个输入接口112耦合至编解码器2134。在特定实施方案中,扬声器2148可包含图1的第一喇叭142、第二喇叭144,或其组合。在特定实施方案中,麦克风2146可包含图1的第一麦克风146、第二麦克风148、图12的第一麦克风1246、图12的第二麦克风1248或其组合。编解码器2134可包含数模转换器(DAC)2102及模数转换器(ADC)2104。
存储器153可包含可由处理器2106、处理器2110、编解码器2134、装置2100的另一处理单元或其组合执行,以执行参看图1至20所描述的一或多个操作的指令2160。存储器153可存储分析数据191。
装置2100的一或多个组件可经由专用硬件(例如,电路)、通过执行一或多个任务的处理器执行指令或其组合来实施。作为实例,存储器153或处理器2106、处理器2110及/或编解码器2134的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、闪速存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含在由计算机(例如,编解码器2134中的处理器、处理器2106及/或处理器2110)执行时可致使计算机执行参看图1至20所描述的一或多个操作的指令(例如,指令2160)。作为实例,存储器153或处理器2106、处理器2110及/或编解码器2134中的一或多个组件可为包含指令(例如,指令2160)的非暂时性计算机可读媒体,所述指令在由计算机(例如,编解码器2134中的处理器、处理器2106及/或处理器2110)执行时致使计算机执行参考图1至20所描述的一或多个操作。
在特定实施例中,装置2100可包含于系统级封装或系统单芯片装置(例如,移动站调制解调器(MSM))2122中。在特定实施例中,处理器2106、处理器2110、显示控制器2126、存储器153、编解码器2134及发射器110包含于系统级封装或系统单芯片装置2122中。在特定实施例中,例如触摸屏及/或小键盘的输入装置2130及电源2144耦合至系统单芯片装置2122。此外,在特定实施例中,如图21中所绘示,显示器2128、输入装置2130、扬声器2148、麦克风2146、天线2142及电源2144在系统单芯片装置2122外部。然而,显示器2128、输入装置2130、扬声器2148、麦克风2146、天线2142及电源2144中的每一者可耦合至系统单芯片装置2122的组件,例如接口或控制器。
装置2100可包含:无线电话、移动通信装置、移动电话、智能电话、蜂窝电话、膝上型计算机、桌上型计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
结合所揭示的实施方案,一种设备包含用于从第二装置接收经编码位流的装置。经编码位流包含时间失配值及立体声参数。时间失配值及立体声参数是基于在第二装置处捕获的参考声道及在第二装置处捕获的目标声道而确定。举例来说,用于接收的装置可包含图12的第二装置1218、图12的解码器1218、图19的解码器1902、一或多个其它装置、电路或模块。
所述设备还包含用于解码经编码位流以产生第一频域输出信号及第二频域输出信号的装置。举例来说,用于解码的装置可包含图12的第二装置1218、图12的解码器1218、图19的解码器1902、图21的编解码器2134、图21的处理器2106、图21的处理器2110、一或多个其它装置、电路或模块。
所述设备还包含用于对第一频域输出信号执行第一逆变换操作以产生第一时域信号的装置。举例来说,用于执行的装置可包含图12的第二装置1218、图12的解码器1218、图19的逆变换单元1906、图21的编解码器2134、图21的处理器2106、图21的处理器2110、一或多个其它装置、电路或模块。
所述设备还包含用于对第二频域输出信号执行第二逆变换操作以产生第二时域信号的装置。举例来说,用于执行的装置可包含图12的第二装置1218、图12的解码器1218、图19的逆变换单元1908、图21的编解码器2134、图21的处理器2106、图21的处理器2110、一或多个其它装置、电路或模块。
所述设备还包含用于将第一时域信号或第二时域信号中的一者映射为经解码目标声道的装置,及用于将第一时域信号或第二时域信号中的另一者映射为经解码参考声道的装置。举例来说,用于映射的装置可包含图12的第二装置1218、图12的解码器1218、图19的移位器1952、图21的编解码器2134、图21的处理器2106、图21的处理器2110、一或多个其它装置、电路或模块。
所述设备还包含用于基于时间失配值对经解码目标声道执行因果时域移位操作以产生经调整解码目标声道的装置。举例来说,用于执行的装置可包含图12的第二装置1218、图12的解码器1218、图19的移位器1952、图21的编解码器2134、图21的处理器2106、图21的处理器2110、一或多个其它装置、电路或模块。
所述设备还包含用于输出第一输出信号及第二输出信号的装置。第一输出信号是基于经解码参考声道且第二输出信号是基于经调整解码目标声道。举例来说,用于输出的装置可包含图12的第二装置1218、图12的解码器1218、图21的编解码器2134、一或多个其它装置、电路或模块。
参考图22,描绘了基站2200的特定说明性实例的框图。在各种实施方案中,基站2200可具有比图22中所绘示的组件更多的组件或更少的组件。在说明性实例中,基站2200可包含图1的第一装置104、第二装置106、图12的第一装置1204、图12的第二装置1206,或其组合。在说明性实例中,基站2200可根据本文中所描述的方法操作。
基站2200可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或某其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA1X、演进数据最佳化(EVDO)、时分同步CDMA(TD-SCDMA),或某其它版本的CDMA。
无线装置还可被称作用户设备(UE)、移动站、终端、存取终端、订户单元、工作站等等。无线装置可包含蜂窝电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能本、上网本、平板计算机、无绳电话、无线本地环路(WLL)站、蓝牙装置等等。无线装置可包含或对应于图21的装置2100。
各种功能可由基站2200的一或多个组件(及/或在未展示的其它组件中)执行,例如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站2200包含处理器2206(例如,CPU)。基站2200可包含转码器2210。转码器2210可包含音频编解码器2208(例如,话音及音乐CODEC)。举例来说,转码器2210可包含经配置以执行音频编解码器2208的操作的一或多个组件(例如,电路)。作为另一实例,转码器2210经配置以执行一或多个计算机可读指令以执行音频编解码器2208的操作。尽管音频编解码器2208被绘示为转码器2210的组件,但在其它实例中,音频编解码器2208的一或多个组件可包含于处理器2206、另一处理组件或其组合中。举例来说,解码器1218(例如,声码器解码器)可包含于接收器数据处理器2264中。作为另一实例,编码器1214(例如,声码器编码器)可包含于传输数据处理器2282中。
转码器2210可用于在两个或多于两个网络之间转码消息及数据。转码器2210经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。举例来说,解码器1218可解码具有第一格式的经编码信号,且编码器1214可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器2210经配置以执行数据速率适应。举例来说,转码器2210可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。举例来说,转码器2210可将64kb/s信号降频转换成16kb/s信号。音频编解码器2208可包含编码器1214及解码器1218。
基站2200可包含存储器2232。例如计算机可读存储装置的存储器2232可包含指令。所述指令可包含可由处理器2206、转码器2210或其组合执行以执行本文中所描述的方法的一或多个指令。基站2200可包含耦合至天线阵列的多个发射器及接收器(例如,收发器),例如第一收发器2252及第二收发器2254。天线阵列可包含第一天线2242及第二天线2244。天线阵列经配置以与一或多个无线装置(例如图21的装置2100)无线地通信。举例来说,第二天线2244可从无线装置接收数据流2214(例如,位流)。数据流2214可包含消息、数据(例如,经编码话音数据),或其组合。
基站2200可包含网络连接2260,例如回程连接。网络连接2260经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站2200可经由网络连接2260从核心网络接收第二数据流(例如,消息或音频数据)。基站2200可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供至一或多个无线装置,或经由网络连接2260将其提供至另一基站。在特定实施方案中,网络连接2260可为广域网(WAN)连接,作为说明性的非限制性实例。在一些实施方案中,核心网络可包含或对应于公共交换电话网(PSTN)、分组主干网或两者。
基站2200可包含耦合至网络连接2260及处理器2206的媒体网关2270。媒体网关2270经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关2270可在不同传输协议、不同译码方案或两者之间转换。举例来说,媒体网关2270可从PCM信号转换成实时传送协议(RTP)信号,作为说明性的非限制性实例。媒体网关2270可在分组交换网(例如,基于互联网协议的语音传输(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络(例如LTE、WiMax及UMB)等等)、电路交换网(例如,PSTN)及混合网络(例如,第二代(2G)无线网络(例如GSM、GPRS及EDGE)、第三代(3G)无线网络(例如WCDMA、EV-DO及HSPA)等等)之间转换数据。
另外,媒体网关2270可包含例如转码器2210的转码器,且经配置以在编解码器不兼容时转码数据。举例来说,媒体网关2270可在自适应多重速率(AMR)编解码器与G.711编解码器之间进行转码,作为说明性的非限制性实例。媒体网关2270可包含路由器及多个物理接口。在一些实施方案中,媒体网关2270还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关2270外部,在基站2200外部,或在两者外部。媒体网关控制器可控制及协调多个媒体网关的操作。媒体网关2270可从媒体网关控制器接收控制信号,且可用于在不同传输技术之间桥接,且可添加对最终用户能力及连接的服务。
基站2200可包含耦合至收发器2252、收发器2254、接收器数据处理器2264及处理器2206的解调器2262,且接收器数据处理器2264可耦合至处理器2206。解调器2262经配置以解调从收发器2252、2254接收的经调制信号,且将经解调数据提供至接收器数据处理器2264。接收器数据处理器2264经配置以从经解调数据提取消息或音频数据,且将消息或音频数据发送至处理器2206。
基站2200可包含传输数据处理器2282及传输多输入多输出(MIMO)处理器2284。传输数据处理器2282可耦合至处理器2206及传输MIMO处理器2284。传输MIMO处理器2284可耦合至收发器2252、2254及处理器2206。在一些实施方案中,传输MIMO处理器2284可耦合至媒体网关2270。作为说明性的非限制性实例,传输数据处理器2282经配置以从处理器2206接收消息或音频数据,且基于例如CDMA或正交频分多路复用(OFDM)的译码方案译码所述消息或所述音频数据。传输数据处理器2282可将经译码数据提供至传输MIMO处理器2284。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用,以产生经多路复用数据。经多路复用数据接着可由传输数据处理器2282基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M元相移键控(“M-PSK”)、M元正交振幅调制(“M-QAM”)等等)调制(即,符号映射)以产生调制符号。在特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。针对每一数据流的数据速率、译码及调制可由处理器2206执行的指令确定。
传输MIMO处理器2284经配置以从传输数据处理器2282接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,传输MIMO处理器2284可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从所述天线传输调制符号)。
在操作期间,基站2200的第二天线2244可接收数据流2214。第二收发器2254可从第二天线2244接收数据流2214,且可向解调器2262提供数据流2214。解调器2262可解调数据流2214的经调制信号,且将经解调数据提供至接收器数据处理器2264。接收器数据处理器2264可从经解调数据提取音频数据且将所提取音频数据提供至处理器2206。
处理器2206可将音频数据提供至转码器2210以用于转码。转码器2210的解码器1218可将音频数据从第一格式解码成经解码音频数据,且编码器1214可将经解码音频数据编码成第二格式。在一些实施方案中,编码器1214可使用比从无线装置接收的数据速率更高的数据速率(例如,升频转换)或更低的数据速率(例如,降频转换)对音频数据进行编码。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)经绘示为由转码器2210执行,但转码操作(例如,解码及编码)可由基站2200的多个组件执行。举例来说,解码可由接收器数据处理器2264执行,且编码可由传输数据处理器2282执行。在其它实施方案中,处理器2206可将音频数据提供至媒体网关2270用于转换成另一传输协议、译码方案或两者。媒体网关2270可经由网络连接2260将经转换数据提供至另一基站或核心网络。
可经由处理器2206将在编码器1214处产生的经编码音频数据(例如经转码数据)提供至传输数据处理器2282或网络连接2260。可将来自转码器2210的经转码音频数据提供至传输数据处理器2282,用于根据例如OFDM的调制方案译码,以产生调制符号。传输数据处理器2282可将调制符号提供至传输MIMO处理器2284以供进一步处理及波束成形。传输MIMO处理器2284可应用波束成形权重,且可经由第一收发器2252将调制符号提供至天线阵列的一或多个天线,例如第一天线2242。因此,基站2200可将对应于从无线装置接收的数据流2214的经转码数据流2216提供至另一无线装置。经转码数据流2216可具有与数据流2214相比不同的编码格式、数据速率或两者。在其它实施方案中,可将经转码数据流2216提供至网络连接2260,以供传输至另一基站或核心网络。
在特定实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至解码系统或设备(例如,电子设备、编解码器或其中的处理器)中,集成至编码系统或设备中,或集成至两者中。在其它实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至以下各者中:无线电话、平板计算机、桌上型计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
应注意,由本文中所揭示的系统及装置的一或多个组件执行的各种功能经描述为由某些组件或模块执行。组件及模块的此划分仅是为了说明。在替代实施方案中,由特定组件或模块执行的功能可划分于多个组件或模块之中。此外,在替代实施方案中,两个或多于两个组件或模块可集成至单个组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等等)、软件(例如,可由处理器执行的指令)或其任何组合来实施。
所属领域技术人员将进一步了解,结合本文中所揭示的实施例所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可被实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件,或两者的组合。上文大体上在功能性方面描述了各种说明性组件、块、配置、模块、电路及步骤。此类功能性经实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。对于每一特定应用来说,所属领域技术人员可以变化的方式实施所描述的功能性,但不应将此类实施决策解释为导致脱离本发明的范围。
结合本文中所揭示的实施例而描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中,或两者的组合中。软件模块可驻留于存储器装置中,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移MRAM(STT-MRAM)、闪速存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合至处理器,使得处理器可从存储器装置读取信息及将信息写入至存储器装置。在替代例中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供了对所揭示的实施方案的先前描述,使得所属领域技术人员能够制作或使用所揭示的实施方案。所属领域技术人员将容易地显而易见对这些实例的各种修改,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非意图限于本文中所展示的实施方案,而应符合可能与如所附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (30)

1.一种用于处理音频信号的装置,其包括:
接收器,其经配置以从第二装置接收经编码位流,所述经编码位流包含时间失配值及立体声参数,其中所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定;
解码器,其经配置以进行以下操作:
解码所述经编码位流以产生第一频域输出信号及第二频域输出信号;
对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号;
对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号;
基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道;
将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道;及
基于所述时间失配值对所述解码目标声道执行因果时域移位操作以产生经调整解码目标声道;及
输出装置,其经配置以输出第一输出信号及第二输出信号,所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
2.根据权利要求1所述的装置,其中在所述第二装置处,所述时间失配值及所述立体声参数是使用编码器侧窗口化方案而确定。
3.根据权利要求2所述的装置,其中所述编码器侧窗口化方案使用具有第一重叠大小的第一窗口,且其中在所述解码器处的解码器侧窗口化方案使用具有第二重叠大小的第二窗口。
4.根据权利要求3所述的装置,其中所述第一重叠大小不同于所述第二重叠大小。
5.根据权利要求4所述的装置,其中所述第二重叠大小小于所述第一重叠大小。
6.根据权利要求2所述的装置,其中所述编码器侧窗口化方案使用具有第一补零量的第一窗口,且其中在所述解码器处的解码器侧窗口化方案使用具有第二补零量的第二窗口。
7.根据权利要求6所述的装置,其中所述第一补零量不同于所述第二补零量。
8.根据权利要求7所述的装置,其中所述第二补零量小于所述第一补零量。
9.根据权利要求1所述的装置,其中所述立体声参数包含基于所述第二装置处的所述参考声道及所述目标声道估计的声道间声级差ILD值的集合及声道间相位差IPD值的集合。
10.根据权利要求9所述的装置,其中ILD值的所述集合及IPD值的所述集合被传输至所述接收器。
11.根据权利要求1所述的装置,其中对所述解码目标声道执行的所述因果时域移位操作是基于所述时间失配值的绝对值。
12.根据权利要求1所述的装置,其进一步包括:
立体声解码器,其经配置以解码所述经编码位流以产生经解码中间信号;
变换单元,其经配置以对所述经解码中间信号执行变换操作以产生频域经解码中间信号;及
升混器,其经配置以对所述频域经解码中间信号执行升混操作以产生所述第一频域输出信号及所述第二频域输出信号,所述立体声参数在所述升混操作期间应用于所述频域经解码中间信号。
13.根据权利要求1所述的装置,其中所述接收器、所述解码器及所述输出装置集成至移动装置中。
14.根据权利要求1所述的装置,其中所述接收器、所述解码器及所述输出装置集成至基站中。
15.一种用于处理音频信号的方法,其包括:
在装置的接收器处从第二装置接收经编码位流,所述经编码位流包含时间失配值及立体声参数,其中所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定;
在所述装置的解码器处解码所述经编码位流以产生第一频域输出信号及第二频域输出信号;
对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号;
对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号;
基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道;
将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道;
基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道;及
输出第一输出信号及第二输出信号,所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
16.根据权利要求15所述的方法,其中在所述第二装置处,所述时间失配值及所述立体声参数是使用编码器侧窗口化方案而确定。
17.根据权利要求16所述的方法,其中所述编码器侧窗口化方案使用具有第一重叠大小的第一窗口,且其中在所述解码器处的解码器侧窗口化方案使用具有第二重叠大小的第二窗口。
18.根据权利要求17所述的方法,其中所述第一重叠大小不同于所述第二重叠大小。
19.根据权利要求18所述的方法,其中所述第二重叠大小小于所述第一重叠大小。
20.根据权利要求16所述的方法,其中所述编码器侧窗口化方案使用具有第一补零量的第一窗口,且其中在所述解码器处的解码器侧窗口化方案使用具有第二补零量的第二窗口。
21.根据权利要求15所述的方法,其进一步包括:
解码所述经编码位流以产生经解码中间信号;
对所述经解码中间信号执行变换操作以产生频域经解码中间信号;及
对所述频域经解码中间信号执行升混操作以产生所述第一频域输出信号及所述第二频域输出信号,所述立体声参数在所述升混操作期间应用于所述频域经解码中间信号。
22.根据权利要求15所述的方法,其中对所述经解码目标声道的所述因果时域移位操作是在移动装置处执行。
23.根据权利要求15所述的方法,其中对所述解码目标声道的所述因果时域移位操作是在基站处执行。
24.一种非暂时性计算机可读媒体,其包括指令,所述指令在由解码器内的处理器执行时致使所述处理器执行包括以下各者的操作:
解码从第二装置接收的经编码位流以产生第一频域输出信号及第二频域输出信号,所述经编码位流包含时间失配值及立体声参数,其中所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定;
对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号;
对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号;
基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道;
将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道;
基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道;及
输出第一输出信号及第二输出信号,所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
25.根据权利要求24所述的非暂时性计算机可读媒体,其中在所述第二装置处,所述时间失配值及所述立体声参数是使用编码器侧窗口化方案而确定。
26.根据权利要求25所述的非暂时性计算机可读媒体,其中所述编码器侧窗口化方案使用具有第一重叠大小的第一窗口,且其中在所述解码器处的解码器侧窗口化方案使用具有第二重叠大小的第二窗口。
27.根据权利要求26所述的非暂时性计算机可读媒体,其中所述第一重叠大小不同于所述第二重叠大小。
28.一种用于处理音频信号的设备,其包括:
用于从第二装置接收经编码位流的装置,所述经编码位流包含时间失配值及立体声参数,其中所述时间失配值及所述立体声参数是基于在所述第二装置处捕获的参考声道及在所述第二装置处捕获的目标声道而确定;
用于解码所述经编码位流以产生第一频域输出信号及第二频域输出信号的装置;
用于对所述第一频域输出信号执行第一逆变换操作以产生第一时域信号的装置;
用于对所述第二频域输出信号执行第二逆变换操作以产生第二时域信号的装置;
用于基于所述时间失配值将所述第一时域信号或所述第二时域信号中的一者映射为经解码目标声道的装置;
用于将所述第一时域信号或所述第二时域信号中的另一者映射为经解码参考声道的装置;
用于基于所述时间失配值对所述经解码目标声道执行因果时域移位操作以产生经调整解码目标声道的装置;及
用于输出第一输出信号及第二输出信号的装置,所述第一输出信号是基于所述经解码参考声道且所述第二输出信号是基于所述经调整解码目标声道。
29.根据权利要求28所述的设备,其中所述用于执行所述因果时域移位操作的装置集成至移动装置中。
30.根据权利要求28所述的设备,其中所述用于执行所述因果时域移位操作的装置集成至基站中。
CN201780065060.3A 2016-10-31 2017-09-22 多个音频信号的解码 Active CN109844858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310604775.9A CN116504255A (zh) 2016-10-31 2017-09-22 多个音频信号的解码

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662415369P 2016-10-31 2016-10-31
US62/415,369 2016-10-31
US15/711,538 2017-09-21
US15/711,538 US10224042B2 (en) 2016-10-31 2017-09-21 Encoding of multiple audio signals
PCT/US2017/053040 WO2018080683A1 (en) 2016-10-31 2017-09-22 Decoding of multiple audio signals

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310604775.9A Division CN116504255A (zh) 2016-10-31 2017-09-22 多个音频信号的解码

Publications (2)

Publication Number Publication Date
CN109844858A CN109844858A (zh) 2019-06-04
CN109844858B true CN109844858B (zh) 2023-06-02

Family

ID=62022507

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780065060.3A Active CN109844858B (zh) 2016-10-31 2017-09-22 多个音频信号的解码
CN202310604775.9A Pending CN116504255A (zh) 2016-10-31 2017-09-22 多个音频信号的解码

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310604775.9A Pending CN116504255A (zh) 2016-10-31 2017-09-22 多个音频信号的解码

Country Status (8)

Country Link
US (2) US10224042B2 (zh)
EP (2) EP3533055A1 (zh)
KR (2) KR20230035430A (zh)
CN (2) CN109844858B (zh)
BR (1) BR112019007968A2 (zh)
SG (1) SG11201901942TA (zh)
TW (1) TWI806839B (zh)
WO (1) WO2018080683A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3011915C (en) 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN108269577B (zh) * 2016-12-30 2019-10-22 华为技术有限公司 立体声编码方法及立体声编码器
US10304468B2 (en) * 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10878879B2 (en) * 2017-06-21 2020-12-29 Mediatek Inc. Refresh control method for memory system to perform refresh action on all memory banks of the memory system within refresh window
US10932122B1 (en) * 2019-06-07 2021-02-23 Sprint Communications Company L.P. User equipment beam effectiveness

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003140692A (ja) * 2001-11-02 2003-05-16 Matsushita Electric Ind Co Ltd 符号化装置及び復号化装置
CN102099856A (zh) * 2008-07-17 2011-06-15 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方案
CN102257563A (zh) * 2009-04-08 2011-11-23 弗劳恩霍夫应用研究促进协会 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序
CN102292767A (zh) * 2009-01-22 2011-12-21 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
CN102655593A (zh) * 2011-03-04 2012-09-05 Vixs系统公司 具有通用视频解码装置的视频解码器和与该解码器一起使用的方法
CN103262158A (zh) * 2010-09-28 2013-08-21 华为技术有限公司 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
WO2016135132A1 (en) * 2015-02-26 2016-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5557647A (en) * 1993-01-06 1996-09-17 Kabushiki Kaisha Toshiba Baseband signal demodulator
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
JP4714416B2 (ja) * 2002-04-22 2011-06-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 空間的オーディオのパラメータ表示
DE60311794C5 (de) * 2002-04-22 2022-11-10 Koninklijke Philips N.V. Signalsynthese
EP3561810B1 (en) * 2004-04-05 2023-03-29 Koninklijke Philips N.V. Method of encoding left and right audio input signals, corresponding encoder, decoder and computer program product
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
WO2009081003A1 (fr) 2007-12-21 2009-07-02 France Telecom Codage/decodage par transformee, a fenetres adaptatives
WO2009084920A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing a signal
MX2010012580A (es) * 2008-05-23 2010-12-20 Koninkl Philips Electronics Nv Aparato de mezcla ascendente estereo parametrico, decodificador estereo parametrico, aparato de mezcla descendente estereo parametrico, codificador estereo parametrico.
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2476113B1 (en) * 2009-09-11 2014-08-13 Nokia Corporation Method, apparatus and computer program product for audio coding
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
WO2013149671A1 (en) * 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Multi-channel audio encoder and method for encoding a multi-channel audio signal
EP2856776B1 (en) * 2012-05-29 2019-03-27 Nokia Technologies Oy Stereo audio signal encoder
US9865269B2 (en) * 2012-07-19 2018-01-09 Nokia Technologies Oy Stereo audio signal encoder
EP2959479B1 (en) * 2013-02-21 2019-07-03 Dolby International AB Methods for parametric multi-channel encoding
RU2625444C2 (ru) * 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
GB2518823A (en) * 2013-09-25 2015-04-08 Sony Corp Data encoding and decoding
JP6345780B2 (ja) * 2013-11-22 2018-06-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンドコーディングにおける選択的位相補償
CA3011915C (en) * 2016-01-22 2021-07-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for estimating an inter-channel time difference
US9978381B2 (en) * 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10224042B2 (en) 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003140692A (ja) * 2001-11-02 2003-05-16 Matsushita Electric Ind Co Ltd 符号化装置及び復号化装置
CN102099856A (zh) * 2008-07-17 2011-06-15 弗劳恩霍夫应用研究促进协会 具有可切换旁路的音频编码/解码方案
CN102292767A (zh) * 2009-01-22 2011-12-21 松下电器产业株式会社 立体声音响信号编码装置、立体声音响信号解码装置及它们的编解码方法
CN102257563A (zh) * 2009-04-08 2011-11-23 弗劳恩霍夫应用研究促进协会 使用相位值平滑对下混频音频信号进行上混频的装置、方法和计算机程序
CN103262158A (zh) * 2010-09-28 2013-08-21 华为技术有限公司 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
CN102655593A (zh) * 2011-03-04 2012-09-05 Vixs系统公司 具有通用视频解码装置的视频解码器和与该解码器一起使用的方法
WO2016135132A1 (en) * 2015-02-26 2016-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal to obtain a processed audio signal using a target time-domain envelope

Also Published As

Publication number Publication date
BR112019007968A2 (pt) 2019-07-09
CN116504255A (zh) 2023-07-28
EP3533055A1 (en) 2019-09-04
US20190147896A1 (en) 2019-05-16
WO2018080683A1 (en) 2018-05-03
KR102505148B1 (ko) 2023-02-28
KR20230035430A (ko) 2023-03-13
TW201818398A (zh) 2018-05-16
KR20190067825A (ko) 2019-06-17
US20180122385A1 (en) 2018-05-03
SG11201901942TA (en) 2019-05-30
EP3855431A1 (en) 2021-07-28
CN109844858A (zh) 2019-06-04
US10891961B2 (en) 2021-01-12
TWI806839B (zh) 2023-07-01
US10224042B2 (en) 2019-03-05

Similar Documents

Publication Publication Date Title
CN108701464B (zh) 多个音频信号的编码
CN109844858B (zh) 多个音频信号的解码
CN111164681B (zh) 音频信号的解码
CN110622242B (zh) 用于立体声解码的立体声参数
CN110337691B (zh) 信道间带宽扩展频谱映射及调整
CN111149158B (zh) 音频信号的解码
CN110800051B (zh) 具有时域信道间带宽延展的高频带残值预测
CN110770825B (zh) 时域通道间预测
CN110168637B (zh) 多个音频信号的译码
CN111149156B (zh) 音频信号的解码
KR102581558B1 (ko) 채널간 위상차 파라미터 수정
CN110447072B (zh) 声道间带宽扩展
EP3577647B1 (en) Multi channel decoding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40001808

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant