CN111095404B - 时间偏移估计 - Google Patents

时间偏移估计 Download PDF

Info

Publication number
CN111095404B
CN111095404B CN201880058500.7A CN201880058500A CN111095404B CN 111095404 B CN111095404 B CN 111095404B CN 201880058500 A CN201880058500 A CN 201880058500A CN 111095404 B CN111095404 B CN 111095404B
Authority
CN
China
Prior art keywords
value
comparison
long
channel
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880058500.7A
Other languages
English (en)
Other versions
CN111095404A (zh
Inventor
V·S·C·S·奇比亚姆
V·阿提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN111095404A publication Critical patent/CN111095404A/zh
Application granted granted Critical
Publication of CN111095404B publication Critical patent/CN111095404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2227/00Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
    • H04R2227/003Digital PA systems using, e.g. LAN or internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Steroid Compounds (AREA)

Abstract

本发明提供一种用于多声道音频信号的译码方法,其包含在编码器处估计比较值,所述比较值指示参考声道与对应目标声道之间的时间失配量。所述方法包含使所述比较值平滑以产生短期平滑比较值及第一长期平滑比较值。所述方法包含计算所述比较值与所述短期平滑比较值之间的交叉相关值。所述方法还包含响应于比较所述交叉相关值与阈值而调整所述第一长期平滑比较值。所述方法进一步包含估计暂定移位值,及将所述目标声道非因果地移位非因果移位值以产生经调整目标声道。所述非因果移位值是基于所述暂定移位值。所述方法进一步包含基于参考声道及所述经调整目标声道产生中带声道或旁带声道中的至少一者。

Description

时间偏移估计
相关申请案的交叉参考
本申请案主张2017年9月11日申请的名为“时间偏移估计(TEMPORAL OFFSETESTIMATION)”的美国临时专利申请案第62/556,653号及2018年8月28日申请的名为“时间偏移估计(TEMPORAL OFFSET ESTIMATION)”的美国专利申请案第16/115,129号的优先权,所述专利申请案的全文以引用的方式并入本文中。
技术领域
本发明大体上涉及估计多个声道的时间偏移。
背景技术
技术的进步已产生更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动电话及智能电话)、平板计算机及膝上型计算机,所述便携式个人计算装置小型、轻质且容易由用户携带。这些装置可经由无线网络传达语音及数据包。另外,许多此类装置并入有额外功能,例如数字静态相机、数字视频相机、数字记录器及音频文件播放器。此外,这些装置可处理可执行指令,所述指令包含可用以访问互联网的软件应用程序,例如网页浏览器应用程序。因而,这些装置可包含显著计算能力。
计算装置可包含接收音频信号的多个麦克风。一般来说,相比于多个麦克风中的第二麦克风,声源更接近于第一麦克风。因此,从第二麦克风接收的第二音频信号相对于从第一麦克风接收的第一音频信号可延迟。在立体声编码中,来自麦克风的音频信号可经编码以产生中声道及一或多个旁声道。中声道可对应于第一音频信号及第二音频信号的总和。旁声道可对应于第一音频信号与第二音频信号之间的差。由于第二音频信号的接收相对于第一音频信号延迟,故第一音频信号可未与第二音频信号在时间上对准。第一音频信号相对于第二音频信号的未对准(或“时间偏移”)可增大旁声道的量值。由于旁声道的量值的增大,可需要更大数目的位来编码旁声道。
另外,不同帧类型可促使计算装置产生不同时间偏移或移位估计。举例来说,计算装置可确定第一音频信号的有声帧相对于第二音频信号中的对应有声帧偏移特定量。然而,归因于相对高噪音量,计算装置可确定:第一音频信号的转变帧(或无声帧)相对于第二音频信号的对应转变帧(或对应无声帧)偏移不同量。移位估计的变化可引起帧边界处的样本重复及伪影跳过。另外,移位估计的变动可导致较高旁声道能量,其可降低译码效率。
发明内容
根据本文中所揭示的技术的一个实施方案,一种估计在多个麦克风处捕获的音频之间的时间偏移的方法包含在第一麦克风处捕获参考声道,及在第二麦克风处捕获目标声道。所述参考声道包含参考帧,且所述目标声道包含目标帧。所述方法还包含估计所述参考帧与所述目标帧之间的延迟。所述方法进一步包含基于比较值的交叉相关值估计所述参考声道与所述目标声道之间的时间偏移。
根据本文中所揭示的技术的另一实施方案,一种用于估计在多个麦克风处捕获的音频之间的时间偏移的设备包含经配置以捕获参考声道的第一麦克风,及经配置以捕获目标声道的第二麦克风。所述参考声道包含参考帧,且所述目标声道包含目标帧。所述设备还包含处理器及存储器,所述存储器存储可执行以促使所述处理器估计所述参考帧与所述目标帧之间的延迟的指令。所述指令还可执行以促使所述处理器基于比较值的交叉相关值估计所述参考声道与所述目标声道之间的时间偏移。
根据本文中所揭示的技术的另一实施方案,一种非暂时性计算机可读媒体包含用于估计在多个麦克风处捕获的音频之间的时间偏移的指令。所述指令在由处理器执行时促使所述处理器执行包含估计参考帧与目标帧之间的延迟的操作。所述参考帧包含于在第一麦克风处捕获的参考声道中,且所述目标帧包含于在第二麦克风处捕获的目标声道中。所述操作还包含基于比较值的交叉相关值估计所述参考声道与所述目标声道之间的时间偏移。
根据本文中所揭示的技术的另一实施方案,一种用于估计在多个麦克风处捕获的音频之间的时间偏移的设备包含用于捕获参考声道的装置,及用于捕获目标声道的装置。所述参考声道包含参考帧,且所述目标声道包含目标帧。所述设备还包含用于估计所述参考帧与所述目标帧之间的延迟的装置。所述设备进一步包含用于基于比较值的交叉相关值估计所述参考声道与所述目标声道之间的时间偏移的装置。
根据本文中所揭示的技术的另一实施方案,一种非因果地移位声道的方法包含在编码器处估计比较值。每一比较值指示先前所捕获参考声道与对应先前所捕获目标声道之间的时间失配量。所述方法还包含使所述比较值平滑以产生短期平滑比较值及第一长期平滑比较值。所述方法还包含计算所述比较值与所述短期平滑比较值之间的交叉相关值。所述方法还包含比较所述交叉相关值与阈值,及响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值。所述方法进一步包含基于所述平滑比较值估计暂定移位值。所述方法还包含将目标声道非因果地移位非因果移位值以产生与参考声道在时间上对准的经调整目标声道。所述非因果移位值是基于所述暂定移位值。所述方法进一步包含基于所述参考声道及所述经调整目标声道产生中带声道或旁带声道中的至少一者。
根据本文中所揭示的技术的另一实施方案,一种用于非因果地移位声道的设备包含经配置以捕获参考声道的第一麦克风,及经配置以捕获目标声道的第二麦克风。所述设备还包含经配置以估计比较值的编码器。每一比较值指示先前所捕获参考声道与对应先前所捕获目标声道之间的时间失配量。所述编码器还经配置以使所述比较值平滑以产生短期平滑比较值及第一长期平滑比较值。所述编码器经进一步配置以计算所述比较值与所述短期平滑比较值之间的交叉相关值。所述编码器经进一步配置以比较所述交叉相关值与阈值,及响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值。所述编码器经进一步配置以基于所述平滑比较值估计暂定移位值。所述编码器还经配置以将目标声道非因果地移位非因果移位值以产生与参考声道在时间上对准的经调整目标声道。所述非因果移位值是基于所述暂定移位值。所述编码器经进一步配置以基于所述参考声道及所述经调整目标声道产生中带声道或旁带声道中的至少一者。
根据本文中所揭示的技术的另一实施方案,一种非暂时性计算机可读媒体包含用于非因果地移位声道的指令。所述指令在由编码器执行时促使所述编码器执行包含估计比较值的操作。每一比较值指示先前所捕获参考声道与对应先前所捕获目标声道之间的时间失配量。所述操作还包含使所述比较值平滑以产生短期平滑比较值及第一长期平滑比较值。所述操作还包含计算所述比较值与所述短期平滑比较值之间的交叉相关值。所述操作还包含响应于确定所述交叉相关值超过阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值。所述操作还包含基于所述平滑比较值估计暂定移位值。所述操作还包含将目标声道非因果地移位非因果移位值以产生与参考声道在时间上对准的经调整目标声道。所述非因果移位值是基于所述暂定移位值。所述操作还包含基于所述参考声道及所述经调整目标声道产生中带声道或旁带声道中的至少一者。
根据本文中所揭示的技术的另一实施方案,一种用于非因果地移位声道的设备包含用于估计比较值的装置。每一比较值指示先前所捕获参考声道与对应先前所捕获目标声道之间的时间失配量。所述设备还包含用于使所述比较值平滑以产生短期平滑比较值的装置,及用于使所述比较值平滑以产生第一长期平滑比较值的装置。所述设备还包含用于计算所述比较值与所述短期平滑比较值之间的交叉相关值的装置。所述设备还包含用于比较所述交叉相关值与阈值的装置,及用于响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值的装置。所述设备还包含用于基于所述平滑比较值估计暂定移位值的装置。所述设备还包含用于将目标声道非因果地移位非因果移位值以产生与参考声道在时间上对准的经调整目标声道的装置。所述非因果移位值是基于所述暂定移位值。所述设备还包含用于基于所述参考声道及所述经调整目标声道产生中带声道或旁带声道中的至少一者的装置。
附图说明
图1为包含可操作以编码多个声道的装置的系统的特定说明性实例的框图;
图2为绘示包含图1的装置的系统的另一实例的图式;
图3为绘示可由图1的装置编码的样本的特定实例的图式;
图4为绘示可由图1的装置编码的样本的特定实例的图式;
图5为绘示时间均衡器及存储器的特定实例的图式;
图6为绘示信号比较器的特定实例的图式;
图7为绘示基于特定比较值的交叉相关值调整长期平滑比较值的子集的特定实例的图式;
图8为绘示调整长期平滑比较值的子集的另一特定实例的图式;
图9为绘示基于特定增益参数调整长期平滑比较值的子集的特定方法的流程图;
图10描绘绘示有声帧、转变帧及无声帧的比较值的图形;
图11为绘示基于在多个麦克风处捕获的音频之间的时间偏移非因果地移位声道的特定方法的流程图;
图12为绘示基于在多个麦克风处捕获的音频之间的时间偏移非因果地移位声道的另一特定方法的流程图;
图13为可操作以编码多个声道的装置的特定说明性实例的框图;及
图14为可操作以编码多个声道的基站的框图。
具体实施方式
揭示了可操作以编码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如多个麦克风)在时间上同时捕获多个音频信号。在一些实例中,可通过对若干同时或非同时记录的音频声道进行多路复用来合成地(例如人工地)产生多个音频信号(或多声道音频)。作为说明性实例,音频声道的同时记录或多路复用可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频强调(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或远程呈现室)中的音频捕获装置可包含获取空间音频的多个麦克风。空间音频可包含经编码及发送的话音及背景音频。取决于如何布置麦克风以及源(例如讲话者)相对于麦克风及房间大小所处的位置,来自给定源(例如讲话者)的话音/音频可在不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如讲话者)可更接近与装置相关联的第一麦克风。因此,相比于第二麦克风,从声源发出的声音可更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中侧(MS)译码及参数立体声(PS)译码为可提供优于双单声道译码技术的经改进效率的立体声译码技术。在双单声道译码中,左(L)声道(或信号)及右(R)声道(或信号)被独立地译码,而不利用声道间相关。在译码之前,通过将左声道及右声道变换成总和声道及差声道(例如旁声道),MS译码减少相关L/R声道对之间的冗余。总和信号及差信号在MS译码中被波形译码。总和信号比旁信号耗费相对更多的位。PS译码通过将L/R信号变换成总和信号及一组旁参数来减少每一子频带中的冗余。旁参数可指示声道间强度差(IID)、声道间相位差(IPD)、声道间时间差(ITD)等等。总和信号与旁参数一起被波形译码及发送。在混合系统中,旁声道可在较低频带(例如小于2千赫(kHz))中被波形译码,且在较高频带(例如大于或等于2kHz)中被PS译码,其中声道间相位保留在感知上较不重要。
MS译码及PS译码可在频域中或在子频带域中进行。在一些实例中,左声道及右声道可不相关。举例来说,左声道及右声道可包含不相关的合成信号。当左声道及右声道不相关时,MS译码、PS译码或两者的译码效率可接近于双单声道译码的译码效率。
取决于记录配置,可在左声道与右声道之间存在时间移位以及其它空间效应(例如回音及室内混响)。如果未补偿声道之间的时间移位及相位失配,那么总和声道及差声道可含有减少与MS或PS技术相关联的译码增益的可比能量。译码增益的减少可基于时间(或相位)移位的量。总和信号及差信号的可比能量可限制声道被时移但高度相关的某些帧中的MS译码的使用。在立体声译码中,中声道(例如总和声道)及旁声道(例如差声道)可基于以下公式产生:
M=(L+R)/2,S=(L-R)/2, 公式1
其中M对应于中声道,S对应于旁声道,L对应于左声道且R对应于右声道。
在一些情况下,中声道及旁声道可基于以下公式产生:
M=c·(L+R),S=c·(L-R), 公式2
其中c对应于频率相依的复合值。基于公式1或公式2产生中声道及旁声道可被称为执行“降混”算法。基于公式1或公式2从中声道及旁声道而产生左声道及右声道的反向过程可被称为执行“升混”算法。
用以在MS译码或双单声道译码之间选择特定帧的特别途径可包含:产生中信号及旁信号,计算中信号及旁信号的能量,及基于所述能量确定是否执行MS译码。举例来说,可响应于确定旁信号与中信号的能量比小于阈值而执行MS译码。举例来说,对于有声话音频帧,如果右声道被移位至少第一时间(例如约0.001秒或48kHz下的48个样本),那么中信号(对应于左信号与右信号的总和)的第一能量可与旁信号(对应于左信号与右信号之间的差)的第二能量相当。当第一能量与第二能量相当时,较高数目的位可用以编码旁声道,由此降低了MS译码相对于双单声道译码的译码效率。因此可在第一能量与第二能量相当时(例如当第一能量与第二能量的比大于或等于阈值时)使用双单声道译码。在替代途径中,可针对特定帧基于阈值与左声道及右声道的归一化交叉相关值的比较在MS译码与双单声道译码之间作出决策。
在一些实例中,编码器可确定指示第一音频信号相对于第二音频信号的时间移位的时间失配值。失配值可对应于在第一麦克风处接收第一音频信号与在第二麦克风处接收第二音频信号之间的时间延迟量。此外,编码器可以逐个帧为基础确定失配值,例如基于每一20毫秒(ms)话音/音频帧。举例来说,失配值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,失配值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当相比于第二麦克风,声源更接近第一麦克风时,第二音频信号的帧相对于第一音频信号的帧可延迟。在此情况下,第一音频信号可被称为“参考音频信号”或“参考声道”,且经延迟第二音频信号可被称为“目标音频信号”或“目标声道”。替代地,当相比于第一麦克风,声源更接近第二麦克风时,第一音频信号的帧相对于第二音频信号的帧可延迟。在此情况下,第二音频信号可被称为参考音频信号或参考声道,且经延迟第一音频信号可被称为目标音频信号或目标声道。
取决于声源(例如讲话者)位于会议室或远程呈现室内的位置及声源(例如讲话者)位置相对于麦克风如何改变,参考声道及目标声道可从一个帧改变至另一帧;类似地,时间延迟值也可从一个帧改变至另一帧。然而,在一些实施方案中,失配值可始终为正以指示“目标”声道相对于“参考”声道的延迟量。此外,失配值可对应于“非因果移位”值,经延迟目标声道在时间上被“后拉”所述“非因果偏移”值,使得目标声道与“参考”声道对准(例如最大限度地对准)。可对参考声道及经非因果移位的目标声道执行确定中声道及旁声道的降混算法。
编码器可基于参考音频声道及应用于目标音频声道的多个失配值确定失配值。举例来说,可在第一时间(m1)接收参考音频声道的第一帧X。可在对应于第一失配值的第二时间(n1)接收目标音频声道的第一特定帧Y,例如shift1=n1-m1。另外,可在第三时间(m2)接收参考音频声道的第二帧。可在对应于第二失配值的第四时间(n2)接收目标音频声道的第二特定帧,例如shift2=n2-m2
装置可在第一取样速率(例如32kHz取样速率(即,640个样本每帧))下执行成帧或缓冲算法,以产生帧(例如20ms样本)。响应于确定第一音频信号的第一帧及第二音频信号的第二帧同时到达装置,编码器可将失配值(例如shift1)估计为等于零个样本。左声道(例如对应于第一音频信号)及右声道(例如对应于第二音频信号)可在时间上对准。在一些情况下,即使当对准时,左声道及右声道也可归因于各种原因(例如麦克风校准)而在能量方面存在不同。
在一些实例中,左声道及右声道可归因于各种原因(例如相比于麦克风中的一者,声源(例如讲话者)可更接近麦克风中的另一者,且两个麦克风相隔距离可大于阈值(例如1至20厘米)距离)在时间上未对准。声源相对于麦克风的位置可在左声道及右声道中引入不同的延迟。另外,可在左声道与右声道之间存在增益差、能量差或电平差。
在一些实例中,当多个讲话者交替地讲话时(例如在不重叠的情况下),音频信号从多个声源(例如讲话者)到达麦克风的时间可变化。在此情况下,编码器可基于讲话者动态地调节时间失配值以识别参考声道。在一些其它实例中,多个讲话者可同时讲话,取决于哪一讲话者最大声、距麦克风最近等等,这可导致变化的时间失配值。
在一些实例中,当两种信号可能展示较少(例如无)相关时,可合成或人工地产生第一音频信号及第二音频信号。应理解,本文中所描述的实例为说明性的且在类似或不同情境中确定第一音频信号与第二音频信号之间的关系方面可具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较产生比较值(例如差值或交叉相关值)。多个帧中的每一帧可对应于特定失配值。编码器可基于比较值产生第一经估计失配值。举例来说,第一经估计失配值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间的较高时间类似性(或较低差)的比较值。
编码器可通过在多个阶段中细化一系列经估计失配值来确定最终失配值。举例来说,编码器可首先基于从第一音频信号及第二音频信号的经立体声预处理及经重取样版本产生的比较值来估计“暂定”失配值。编码器可产生与接近经估计“暂定”失配值的失配值相关联的经内插比较值。编码器可基于经内插比较值确定第二经估计“经内插”失配值。举例来说,第二经估计“经内插”失配值可对应于指示比剩余经内插比较值及第一经估计“暂定”失配值更高的时间类似性(或更低的差)的特定经内插比较值。如果当前帧(例如第一音频信号的第一帧)的第二经估计“经内插”失配值与前一帧(例如先于第一帧的第一音频信号的帧)的最终失配值不同,那么当前帧的“经内插”失配值进一步“经修正”以改进第一音频信号与经移位第二音频信号之间的时间类似性。具体地说,第三经估计“经修正”失配值可通过搜索当前帧的第二经估计“经内插”失配值及前一帧的最终经估计失配值来对应于时间类似性的更准确量度。第三经估计“经修正”失配值通过限制帧之间的失配值的任何杂散变化而经进一步调节以估计最终失配值,且经进一步控制以在如本文中所描述的两个连续(或相连)帧中不将负失配值切换至正失配值(或反之亦然)。
在一些实例中,编码器可避免在相连帧中或邻近帧中的正失配值与负失配值之间的切换(反之亦然)。举例来说,基于第一帧的经估计“经内插”或“经修正”失配值及先于第一帧的特定帧中的对应经估计“经内插”或“经修正”或最终失配值,编码器可将最终失配值设定为指示无时间移位的特定值(例如0)。举例来说,响应于确定当前帧(例如第一帧)的经估计“暂定”或“经内插”或“经修正”失配值中的一者为正且前一帧(例如先于第一帧的帧)的经估计“暂定”或“经内插”或“经修正”或“最终”经估计失配值中的另一者为负,编码器可将当前帧的最终失配值设定为指示无时间移位,即,shift1=0。替代地,响应于确定当前帧(例如第一帧)的经估计“暂定”或“经内插”或“经修正”失配值中的一者为负且前一帧(例如先于第一帧的帧)的经估计“暂定”或“经内插”或“经修正”或“最终”经估计失配值中的另一者为正,编码器也可将当前帧的最终失配值设定为指示无时间移位,即,shift1=0。
编码器可基于失配值选择第一音频信号或第二音频信号的帧作为“参考”或“目标”。举例来说,响应于确定最终失配值为正,编码器可产生具有指示第一音频信号为“参考”信号且第二音频信号为“目标”信号的第一值(例如0)的参考声道或信号指示符。替代地,响应于确定最终失配值为负,编码器可产生具有指示第二音频信号为“参考”信号且第一音频信号为“目标”信号的第二值(例如1)的参考声道或信号指示符。
编码器可估计与参考信号及非因果移位目标信号相关联的相对增益(例如相对增益参数)。举例来说,响应于确定最终失配值为正,编码器可估计增益值以归一化或均衡相对于第二音频信号偏移所述非因果失配值(例如最终失配值的绝对值)的第一音频信号的能量或功率电平。替代地,响应于确定最终失配值为负,编码器可估计增益值以归一化或均衡经非因果移位的第一音频信号相对于第二音频信号的功率电平。在一些实例中,编码器可估计增益值以归一化或均衡“参考”信号相对于经非因果移位“目标”信号的能量或功率电平。在其它实例中,编码器可基于参考信号估计相对于目标信号(例如未经移位目标信号)的增益值(例如相对增益值)。
编码器可基于参考信号、目标信号、非因果失配值及相对增益参数产生至少一个经编码信号(例如中信号、旁信号或两者)。旁信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的所选帧的所选样本之间的差。编码器可基于最终失配值选择所选帧。由于与对应于与第一帧同时由装置接收的第二音频信号的帧的第二音频信号的其它样本相比较,第一样本与所选样本之间的差减小,故可使用更少位来编码旁声道。装置的发送器可发送至少一个经编码信号、非因果失配值、相对增益参数、参考声道或信号指示符,或其组合。
编码器可基于参考信号、目标信号、非因果失配值、相对增益参数、第一音频信号的特定帧的低频带参数、特定帧的高频带参数或其组合产生至少一个经编码信号(例如中信号、旁信号或两者)。特定帧可先于第一帧。来自一或多个先前帧的某些低频带参数、高频带参数或其组合可用于编码第一帧的中信号、旁信号或两者。基于低频带参数、高频带参数或其组合编码中信号、旁信号或两者可改进非因果失配值及声道间相对增益参数的估计。低频带参数、高频带参数或其组合可包含音调参数、发声参数、译码器类型参数、低频带能量参数、高频带能量参数、倾斜参数、音调增益参数、FCB增益参数、译码模式参数、语音活动参数、噪音评估参数、信噪比参数、共振峰参数、话音/音乐决策参数、非因果移位、声道间增益参数或其组合。装置的发送器可发送至少一个经编码信号、非因果失配值、相对增益参数、参考声道(或信号)指示符,或其组合。
参考图1,揭示系统的特定说明性实例且所述系统被整体上标示为100。系统100包含经由网络120以通信方式耦合至第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含编码器114、发送器110、一或多个输入接口112或其组合。输入接口112中的第一输入接口可耦合至第一麦克风146。输入接口112中的第二输入接口可耦合至第二麦克风148。编码器114可包含时间均衡器108且可经配置以对多个音频信号进行降混及编码,如本文中所描述。第一装置104还可包含经配置以存储分析数据190的存储器153。第二装置106可包含解码器118。解码器118可包含经配置以升混及显现多个声道的时间平衡器124。第二装置106可耦合至第一扩音器142、第二扩音器144或两者。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频信号130(例如第一声道),且可经由第二输入接口从第二麦克风148接收第二音频信号132(例如第二声道)。如本文中所使用,“信号”及“声道”可互换地使用。第一音频信号130可对应于右声道或左声道中的一者。第二音频信号132可对应于右声道或左声道中的另一者。在图1的实例中,第一音频信号130为参考声道且第二音频信号132为目标声道。因此,根据本文中所描述的实施方案,第二音频信号132可经调整以与第一音频信号130在时间上对准。然而,如下文所描述,在其它实施方案中,第一音频信号130可为目标声道且第二音频信号132可为参考声道。
相比于第二麦克风148,声源152(例如用户、说话者、环境噪音、乐器等等)可更接近第一麦克风146。因此,相比于经由第二麦克风148,来自声源152的音频信号可在更早的时间经由第一麦克风146在输入接口112处被接收。经由多个麦克风获取的多声道信号的此固有延迟可在第一音频信号130与第二音频信号132之间引入时间移位。
时间均衡器108可经配置以估计在麦克风146、148处捕获的音频之间的时间偏移。可基于第一音频信号130的第一帧131(例如“参考帧”)与第二音频信号132的第二帧133(例如“目标帧”)之间的延迟估计时间偏移,其中第二帧133包含与第一帧131大致上类似的内容。举例来说,时间均衡器108可确定第一帧131与第二帧133之间的交叉相关。交叉相关可依据一个帧相对于另一帧的滞后而测量两个帧的类似性。基于交叉相关,时间均衡器108可确定第一帧131与第二帧133之间的延迟(例如滞后)。时间均衡器108可基于所述延迟及历史延迟数据来估计第一音频信号130与第二音频信号132之间的时间偏移。
历史数据可包含从第一麦克风146捕获的帧与从第二麦克风148捕获的对应帧之间的延迟。举例来说,时间均衡器108可确定相关联于第一音频信号130的先前帧与相关联于第二音频信号132的对应帧之间的交叉相关(例如滞后)。
每一滞后可由“比较值”表示。即,比较值可指示第一音频信号130的帧与第二音频信号132的对应帧之间的时间移位(k)。根据本文中的揭示内容,比较值可另外指示时间失配量或参考声道的第一参考帧与目标声道的对应第一目标帧之间的类似性或相异性的量度。在一些实施方案中,参考帧与目标帧之间的交叉相关函数可用以依据一个帧相对于另一帧的滞后来测量两个帧的类似性。根据一个实施方案,先前帧的比较值(例如交叉相关值)可存储于存储器153处。时间均衡器108的平滑器190可使在长期帧组内的比较值“平滑”(或平均)且将长期平滑比较值用于估计第一音频信号130与第二音频信号132之间的时间偏移(例如“移位”)。
举例来说,如果CompValN(k)表示帧N在移位k处的比较值,那么帧N可具有k=T_MIN(最小移位)至k=T_MAX(最大移位)的比较值。可执行平滑,使得长期平滑比较值
Figure BDA0002404875680000111
Figure BDA0002404875680000112
表示。以上方程式中的函数f可随移位(k)处的过去比较值中的全部(或子集)而变化。所述的替代表示可为
Figure BDA0002404875680000113
函数f或g可分别为简单有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。举例来说,函数g可为单抽头IIR滤波器,使得长期平滑比较值
Figure BDA0002404875680000114
Figure BDA0002404875680000115
Figure BDA0002404875680000116
表示,其中α∈(0,1.0)。因此,长期平滑比较值
Figure BDA0002404875680000117
可基于帧N的瞬时比较值CompValN(k)与一或多个先前帧的长期平滑比较值
Figure BDA0002404875680000118
的加权混合。随着α的值增大,长期平滑比较值的平滑量增大。在一些实施方案中,比较值可为归一化交叉相关值。在其它实施方案中,比较值可为非归一化交叉相关值。
上文所描述的平滑技术可大致上归一化有声帧、无声帧及转变帧之间的移位估计。归一化移位估计可减少帧边界处的样本重复及伪影跳过。另外,归一化移位估计可引起旁声道能量减少,其可改进译码效率。
时间均衡器108可确定指示第一音频信号130(例如“参考”)相对于第二音频信号132(例如“目标”)的移位(例如非因果失配或非因果移位)的最终失配值116(例如非因果失配值)。最终失配值116可基于瞬时比较值CompValN(k)及长期平滑比较
Figure BDA0002404875680000119
举例来说,可对暂定失配值、对经内插失配值、对经修正失配值或对其组合执行上文所描述的平滑操作,如关于图5所描述。第一失配值116可基于暂定失配值、经内插失配值及经修正失配值,如关于图5所描述。最终失配值116的第一值(例如正值)可指示第二音频信号132相对于第一音频信号130被延迟。最终失配值116的第二值(例如负值)可指示第一音频信号130相对于第二音频信号132被延迟。最终失配值116的第三值(例如0)可指示第一音频信号130与第二音频信号132之间无延迟。
在一些实施方案中,最终失配值116的第三值(例如0)可指示第一音频信号130与第二音频信号132之间的延迟已切换正负号。举例来说,第一音频信号130的第一特定帧可先于第一帧131。第一特定帧及第二音频信号132的第二特定帧可对应于由声源152发出的同一声音。第一音频信号130与第二音频信号132之间的延迟可在使第一特定帧相对于第二特定帧延迟与使第二帧133相对于第一帧131延迟之间切换。替代地,第一音频信号130与第二音频信号132之间的延迟可在使第二特定帧相对于第一特定帧延迟与使第一帧131相对于第二帧133延迟之间切换。响应于确定第一音频信号130与第二音频信号132之间的延迟已切换正负号,时间均衡器108可将最终失配值116设定为指示第三值(例如0)。
时间均衡器108可基于最终失配值116产生参考信号指示符164。举例来说,响应于确定最终失配值116指示第一值(例如正值),时间均衡器108可产生具有指示第一音频信号130为“参考”信号的第一值(例如0)的参考信号指示符164。响应于确定最终失配值116指示第一值(例如正值),时间均衡器108可确定第二音频信号132对应于“目标”信号。替代地,响应于确定最终失配值116指示第二值(例如负值),时间均衡器108可产生具有指示第二音频信号132为“参考”信号的第二值(例如1)的参考信号指示符164。响应于确定最终失配值116指示第二值(例如负值),时间均衡器108可确定第一音频信号130对应于“目标”信号。响应于确定最终失配值116指示第三值(例如0),时间均衡器108可产生具有指示第一音频信号130为“参考”信号的第一值(例如0)的参考信号指示符164。响应于确定最终失配值116指示第三值(例如0),时间均衡器108可确定第二音频信号132对应于“目标”信号。替代地,响应于确定最终失配值116指示第三值(例如0),时间均衡器108可产生具有指示第二音频信号132为“参考”信号的第二值(例如1)的参考信号指示符164。响应于确定最终失配值116指示第三值(例如0),时间均衡器108可确定第一音频信号130对应于“目标”信号。在一些实施方案中,响应于确定最终失配值116指示第三值(例如0),时间均衡器108可使参考信号指示符164保持不变。举例来说,参考信号指示符164可与对应于第一音频信号130的第一特定帧的参考信号指示符相同。时间均衡器108可产生指示最终失配值116的绝对值的非因果失配值162。
时间均衡器108可基于“目标”信号的样本且基于“参考”信号的样本产生增益参数160(例如编码解码器增益参数)。举例来说,时间均衡器108可基于非因果失配值162选择第二音频信号132的样本。替代地,时间均衡器108可独立于非因果失配值162而选择第二音频信号132的样本。响应于确定第一音频信号130为参考信号,时间均衡器108可基于第一音频信号130的第一帧131的第一样本来确定所选样本的增益参数160。替代地,响应于确定第二音频信号132为参考信号,时间均衡器108可基于所选样本来确定第一样本的增益参数160。作为一实例,增益参数160可基于以下方程式中的一者:
Figure BDA0002404875680000131
Figure BDA0002404875680000132
Figure BDA0002404875680000133
Figure BDA0002404875680000134
Figure BDA0002404875680000135
Figure BDA0002404875680000136
其中gD对应于用于降混处理的相对增益参数160,Ref(n)对应于“参考”信号的样本,N1对应于第一帧131的非因果失配值162,且Targ(n+N1)对应于“目标”信号的样本。可例如基于方程式1a至1f中的一者来修改增益参数160(gD)以并入有长期平滑/迟滞逻辑,以避免帧之间的增益的巨大跳变。当目标信号包含第一音频信号130时,第一样本可包含目标信号的样本,且所选样本可包含参考信号的样本。当目标信号包含第二音频信号132时,第一样本可包含参考信号的样本,且所选样本可包含目标信号的样本。
在一些实施方案中,基于将第一音频信号130视为参考信号及将第二音频信号132视为目标信号,时间均衡器108可产生无关于参考信号指示符164的增益参数160。举例来说,时间均衡器108可基于方程式1a至1f中的一者产生增益参数160,其中Ref(n)对应于第一音频信号130的样本(例如第一样本)且Targ(n+N1)对应于第二音频信号132的样本(例如所选样本)。在替代实施方案中,基于将第二音频信号132视为参考信号及将第一音频信号130视为目标信号,时间均衡器108可产生无关于参考信号指示符164的增益参数160。举例来说,时间均衡器108可基于方程式1a至1f中的一者产生增益参数160,其中Ref(n)对应于第二音频信号132的样本(例如所选样本)且Targ(n+N1)对应于第一音频信号130的样本(例如第一样本)。
时间均衡器108可基于第一样本、所选样本及用于降混处理的相对增益参数160产生一或多个经编码信号102(例如中声道、旁声道或两者)。举例来说,时间均衡器108可基于以下方程式中的一者产生中信号:
M=Ref(n)+gDTarg(n+N1), 方程式2a
M=Ref(n)+Targ(n+N1), 方程式2b
其中M对应于中声道,gD对应于用于降混处理的相对增益参数160,Ref(n)对应于“参考”信号的样本,N1对应于第一帧131的非因果失配值162,且Targ(n+N1)对应于“目标”信号的样本。
时间均衡器108可基于以下方程式中的一者产生旁声道:
S=Ref(n)-gDTarg(n+N1), 方程式3a
S=gDRef(n)-Targ(n+N1), 方程式3b
其中,S对应于旁声道,gD对应于用于降混处理的相对增益参数160,Ref(n)对应于“参考”信号的样本,N1对应于第一帧131的非因果失配值162,且Targ(n+N1)对应于“目标”信号的样本。
发送器110可经由网络120将经编码信号102(例如中声道、旁声道或两者)、参考信号指示符164、非因果失配值162、增益参数160或其组合发送至第二装置106。在一些实施方案中,发送器110可将经编码信号102(例如中声道、旁声道或两者)、参考信号指示符164、非因果失配值162、增益参数160或其组合存储于网络120的装置或本地装置处以供稍后进一步处理或解码。
解码器118可解码经编码信号102。时间平衡器124可执行升混以产生第一输出信号126(例如对应于第一音频信号130)、第二输出信号128(例如对应于第二音频信号132)或两者。第二装置106可经由第一扩音器142输出第一输出信号126。第二装置106可经由第二扩音器144输出第二输出信号128。
因此,系统100可使时间均衡器108能够使用比中信号更少的位来编码旁声道。第一音频信号130的第一帧131的第一样本及第二音频信号132的所选样本可对应于由声源152发出的同一声音,且因此第一样本与所选样本之间的差可小于第一样本与第二音频信号132的其它样本之间的差。旁声道可对应于第一样本与所选样本之间的差。
参考图2,揭示系统的特定说明性实施方案且所述系统被整体上标示为200。系统200包含经由网络120耦合至第二装置106的第一装置204。第一装置204可对应于图1的第一装置104。系统200与图1的系统100不同之处在于第一装置204耦合至超过两个麦克风。举例来说,第一装置204可耦合至第一麦克风146、第N麦克风248及一或多个额外麦克风(例如图1的第二麦克风148)。第二装置106可耦合至第一扩音器142、第Y扩音器244、一或多个额外扬声器(例如第二扩音器144)或其组合。第一装置204可包含编码器214。编码器214可对应于图1的编码器114。编码器214可包含一或多个时间均衡器208。举例来说,一或多个时间均衡器208可包含图1的时间均衡器108。
在操作期间,第一装置204可接收超过两个音频信号。举例来说,第一装置204可经由第一麦克风146接收第一音频信号130,经由第N麦克风248接收第N音频信号232,且经由额外麦克风(例如第二麦克风148)接收一或多个额外音频信号(例如第二音频信号132)。
时间均衡器208可产生一或多个参考信号指示符264、最终失配值216、非因果失配值262、增益参数260、经编码信号202或其组合。举例来说,时间均衡器208可确定第一音频信号130为参考信号,并确定第N音频信号232及额外音频信号中的每一者为目标信号。时间均衡器208可产生参考信号指示符164、最终失配值216、非因果失配值262、增益参数260以及对应于第一音频信号130及第N音频信号232与额外音频信号中的每一者的经编码信号202。
参考信号指示符264可包含参考信号指示符164。最终失配值216可包含指示第二音频信号132相对于第一音频信号130的移位的最终失配值116、指示第N音频信号232相对于第一音频信号130的移位的第二最终失配值,或两者。非因果失配值262可包含对应于最终失配值116的绝对值的非因果失配值162、对应于第二最终失配值的绝对值的第二非因果失配值,或两者。增益参数260可包含第二音频信号132的所选样本的增益参数160、第N音频信号232的所选样本的第二增益参数,或两者。经编码信号202可包含经编码信号102中的至少一者。举例来说,经编码信号202可包含对应于第一音频信号130的第一样本及第二音频信号132的所选样本的旁声道信号、对应于第一样本及第N音频信号232的所选样本的第二旁声道,或两者。经编码信号202可包含对应于第一样本、第二音频信号132的所选样本及第N音频信号232的所选样本的中声道。
在一些实施方案中,时间均衡器208可确定多个参考信号及对应目标信号,如参考图11所描述。举例来说,参考信号指示符264可包含对应于每对参考信号及目标信号的参考信号指示符。举例来说,参考信号指示符264可包含对应于第一音频信号130及第二音频信号132的参考信号指示符164。最终失配值216可包含对应于每对参考信号及目标信号的最终失配值。举例来说,最终失配值216可包含对应于第一音频信号130及第二音频信号132的最终失配值116。非因果失配值262可包含对应于每对参考信号及目标信号的非因果失配值。举例来说,非因果失配值262可包含对应于第一音频信号130及第二音频信号132的非因果失配值162。增益参数260可包含对应于每对参考信号及目标信号的增益参数。举例来说,增益参数260可包含对应于第一音频信号130及第二音频信号132的增益参数160。经编码信号202可包含对应于每对参考信号及目标信号的中声道及旁声道。举例来说,经编码信号202可包含对应于第一音频信号130及第二音频信号132的经编码信号102。
发送器110可经由网络120将参考信号指示符264、非因果失配值262、增益参数260、经编码信号202或其组合发送至第二装置106。解码器118可基于参考信号指示符264、非因果失配值262、增益参数260、经编码信号202或其组合产生一或多个输出信号。举例来说,解码器118可经由第一扩音器142输出第一输出信号226,经由第Y扩音器244输出第Y输出信号228,经由一或多个额外扩音器(例如第二扩音器144)输出一或多个额外输出信号(例如第二输出信号128),或其组合。
因此,系统200可使时间均衡器208能够编码超过两个音频信号。举例来说,通过基于非因果失配值262产生旁声道,经编码信号202可包含使用比对应中声道更少的位来编码的多个旁声道。
参考图3,展示样本的说明性实例且样本被整体上标示为300。样本300的至少一子集可由第一装置104编码,如本文中所描述。样本300可包含对应于第一音频信号130的第一样本320、对应于第二音频信号132的第二样本350或两者。第一样本320可包含样本322、样本324、样本326、样本328、样本330、样本332、样本334、样本336、一或多个额外样本或其组合。第二样本350可包含样本352、样本354、样本356、样本358、样本360、样本362、样本364、样本366、一或多个额外样本或其组合。
第一音频信号130可对应于多个帧(例如帧302、帧304、帧306或其组合)。多个帧中的每一者可对应于第一样本320的样本子集(例如对应于20ms,例如32kHz下的640个样本或48kHz下的960个样本)。举例来说,帧302可对应于样本322、样本324、一或多个额外样本或其组合。帧304可对应于样本326、样本328、样本330、样本332、一或多个额外样本或其组合。帧306可对应于样本334、样本336、一或多个额外样本或其组合。
可在图1的输入接口112处在与样本352大约相同的时间接收样本322。可在图1的输入接口112处在与样本354大约相同的时间接收样本324。可在图1的输入接口112处在与样本356大约相同的时间接收样本326。可在图1的输入接口112处在与样本358大约相同的时间接收样本328。可在图1的输入接口112处在与样本360大约相同的时间接收样本330。可在图1的输入接口112处在与样本362大约相同的时间接收样本332。可在图1的输入接口112处在与样本364大约相同的时间接收样本334。可在图1的输入接口112处在与样本366大约相同的时间接收样本336。
最终失配值116的第一值(例如正值)可指示第二音频信号132相对于第一音频信号130被延迟。举例来说,最终失配值116的第一值(例如+X ms或+Y个样本,其中X及Y包含正实数)可指示帧304(例如样本326至332)对应于样本358至364。样本326至332及样本358至364可对应于由声源152发出的同一声音。样本358至364可对应于第二音频信号132的帧344。图1至14中的一或多者中具有交叉影线的样本的绘示可指示样本对应于同一声音。举例来说,在图3中以交叉影线绘示样本326至332及样本358至364以指示样本326至332(例如帧304)及样本358至364(例如帧344)对应于从声源152发出的同一声音。
应理解,如图3中所示的Y个样本的时间偏移为说明性的。举例来说,时间偏移可对应于大于或等于0的Y数目个样本。在时间偏移Y=0个样本的第一情况下,样本326至332(例如对应于帧304)及样本356至362(例如对应于帧344)可展示无任何帧偏移的高类似性。在时间偏移Y=2个样本的第二情况下,帧304及帧344可偏移2个样本。在此情况下,第一音频信号130可在输入接口112处比第二音频信号132提前Y=2个样本或X=(2/Fs)ms被接收,其中Fs对应于以kHz为单位的取样速率。在一些情况下,时间偏移Y可包含非整数值,例如Y=1.6个样本,其对应于32kHz下的X=0.05ms。
图1的时间均衡器108可通过对样本326至332及样本358至364进行编码来产生经编码信号102,如参考图1所描述。时间均衡器108可确定第一音频信号130对应于参考信号,且第二音频信号132对应于目标信号。
参考图4,展示样本的说明性实例且样本被整体上标示为400。实例400与实例300不同之处在于第一音频信号130相对于第二音频信号132被延迟。
最终失配值116的第二值(例如负值)可指示第一音频信号130相对于第二音频信号132被延迟。举例来说,最终失配值116的第二值(例如-X ms或-Y个样本,其中X及Y包含正实数)可指示帧304(例如样本326至332)对应于样本354至360。样本354至360可对应于第二音频信号132的帧344。样本354至360(例如帧344)及样本326至332(例如帧304)可对应于从声源152发出的同一声音。
应理解,如图4中所示,-Y个样本的时间偏移为说明性的。举例来说,时间偏移可对应于小于或等于0的-Y数目个样本。在时间偏移Y=0个样本的第一情况下,样本326至332(例如对应于帧304)及样本356至362(例如对应于帧344)可展示无任何帧偏移的高类似性。在时间偏移Y=-6个样本的第二情况下,帧304及帧344可偏移6个样本。在此情况下,第一音频信号130可在输入接口112处比第二音频信号132滞后Y=-6个样本或X=(-6/Fs)ms被接收,其中Fs对应于以kHz为单位的取样速率。在一些情况下,时间偏移Y可包含非整数值,例如Y=-3.2个样本,其对应于32kHz下的X=-0.1ms。
图1的时间均衡器108可通过对样本354至360及样本326至332进行编码来产生经编码信号102,如参考图1所描述。时间均衡器108可确定第二音频信号132对应于参考信号,且第一音频信号130对应于目标信号。具体地说,时间均衡器108可从最终失配值116估计非因果失配值162,如参考图5所描述。时间均衡器108可基于最终失配值116的正负号将第一音频信号130或第二音频信号132中的一者识别(例如指定)为参考信号且将第一音频信号130或第二音频信号132中的另一者识别为目标信号。
参考图5,展示时间均衡器及存储器的说明性实例,且所述实例被整体上标示为500。系统500可集成至图1的系统100中。举例来说,图1的系统100、第一装置104或两者可包含系统500的一或多个组件。时间均衡器108可包含重取样器504、信号比较器506、内插器510、移位细化器511、移位变化分析器512、绝对移位产生器513、参考信号指定器508、增益参数产生器514、信号产生器516或其组合。
在操作期间,重取样器504可产生一或多个经重取样信号。举例来说,重取样器504可通过基于重取样(例如减少取样或增加取样)因数(D)(例如≥1)重取样(例如减少取样或增加取样)第一音频信号130来产生第一经重取样信号530。重取样器504可通过基于重取样因数(D)重取样第二音频信号132来产生第二经重取样信号532。重取样器504可将第一经重取样信号530、第二经重取样信号532或两者提供至信号比较器506。可在第一取样速率(Fs)下取样第一音频信号130以产生图3的样本320。第一取样速率(Fs)可对应于与宽带(WB)带宽相关联的第一速率(例如16千赫兹(kHz))、与超宽带(SWB)带宽相关联的第二速率(例如32kHz)、与满带(FB)带宽相关联的第三速率(例如48kHz),或另一速率。可在第一取样速率(Fs)下取样第二音频信号132以产生图3的第二样本350。
信号比较器506可产生比较值534(例如差值、类似性值、相干性值,或交叉相关值)、暂定失配值536或两者,如参考图6进一步所描述。举例来说,信号比较器506可基于第一经重取样信号530及应用于第二经重取样信号532的多个失配值产生比较值534,如参考图6进一步所描述。信号比较器506可基于比较值534确定暂定失配值536,如参考图6进一步所描述。根据一个实施方案,信号比较器506可检索经重取样信号530、532的先前帧的比较值,且可使用先前帧的比较值基于长期平滑操作来修改比较值534。举例来说,比较值534可包含当前帧(N)的长期平滑比较值
Figure BDA0002404875680000181
且可由
Figure BDA0002404875680000182
表示,其中α∈(0,1.0)。因此,长期平滑比较值
Figure BDA0002404875680000183
可基于帧N的瞬时比较值CompValN(k)与一或多个先前帧的长期平滑比较值
Figure BDA0002404875680000184
的加权混合。随着α的值增大,长期平滑比较值的平滑量增大。平滑参数(例如α的值)可在静默部分期间(或在可引起移位估计的漂移的背景噪音期间)经控制/适配以限制比较值的平滑。举例来说,比较值可基于较高平滑因数(例如α=0.995)而被平滑;否则平滑可基于α=0.9。平滑参数(例如α)的控制可基于背景能量或长期能量是否低于阈值、基于译码器类型或基于比较值统计数据。
在特定实施方案中,平滑参数(例如α)的值可基于声道的短期信号电平(EST)及长期信号电平(ELT)。作为一实例,正被处理的帧(N)的短期信号电平(EST(N))可以经减少取样参考样本的绝对值的总和与经减少取样目标样本的绝对值的总和的总和的形式计算。长期信号电平可为短期信号电平的平滑版本。举例来说,ELT(N)=0.6*ELT(N-1)+0.4*EST(N)。另外,平滑参数(例如α)的值可根据如下所描述的伪码控制:
将α设定为初始值(例如0.95)。
如果EST>4*ELT,那么修改α的值(例如α=0.5)
如果EST>2*ELT且EST≤4*ELT,那么修改α的值(例如α=0.7)
在特定实施方案中,可基于短期及长期平滑比较值的相关控制平滑参数(例如α)的值。举例来说,在当前帧的比较值十分类似于长期平滑比较值时,其为静止讲话者的指示且这可用以控制平滑参数以进一步增加平滑(例如增大α的值)。另一方面,当随各种移位值变化的比较值不类似于长期平滑比较值时,平滑参数可经调整(例如经适配)以减少平滑(例如降低α的值)。
在特定实施方案中,信号比较器506可通过使正被处理的当前帧附近的帧的比较值平滑来估计短期平滑比较值
Figure BDA0002404875680000191
例如:
Figure BDA0002404875680000192
在其它实施方案中,短期平滑比较值可与在正被处理的帧中产生的比较值(CompValN(k))相同。
信号比较器506可估计短期及长期平滑比较值的交叉相关值。在一些实施方案中,短期及长期平滑比较值的交叉相关值(CrossCorr_CompValN)可为根据每一帧(N)估计的单一值,其是以
Figure BDA0002404875680000193
形式计算。其中‘Fac’为经选择使得CrossCorr_CompValN限制于0与1之间的归一化因数。作为非限制性实例,Fac可如下计算:
Figure BDA0002404875680000194
信号比较器506可估计单一帧的比较值(“瞬时比较值”)与短期平滑比较值的另一交叉相关值。在一些实施方案中,帧N的比较值(“帧N的瞬时比较值”)与短期平滑比较值(例如CrossCorr_CompValN)的交叉相关值
Figure BDA0002404875680000195
可为根据每一帧(N)估计的单一值,其是以
Figure BDA0002404875680000196
形式计算。其中‘Fac’为经选择使得CrossCorr_CompValN限制于0与1之间的归一化因数。作为非限制性实例,Fac可如下计算:
Figure BDA0002404875680000201
第一经重取样信号530可包含比第一音频信号130更少的样本或更多的样本。第二经重取样信号532可包含比第二音频信号132更少的样本或更多的样本。相比于基于原始信号(例如第一音频信号130及第二音频信号132)的样本,基于经重取样信号(例如第一经重取样信号530及第二经重取样信号532)的较少样本确定比较值534可使用更少的资源(例如时间、操作次数或两者)。相比于基于原始信号(例如第一音频信号130及第二音频信号132)的样本,基于经重取样信号(例如第一经重取样信号530及第二经重取样信号532)的较多样本确定比较值534可增加精确度。信号比较器506可将比较值534、暂定失配值536或两者提供至内插器510。
内插器510可扩大暂定失配值536。举例来说,内插器510可产生经内插失配值538。举例来说,内插器510可通过对比较值534进行内插来产生对应于接近暂定失配值536的失配值的经内插比较值。内插器510可基于经内插比较值及比较值534来确定经内插失配值538。比较值534可基于失配值的较粗粒度。举例来说,比较值534可基于一组失配值的第一子集,使得第一子集中的第一失配值与第一子集中的每一第二失配值之间的差大于或等于阈值(例如≥1)。所述阈值可基于重取样因数(D)。
经内插比较值可基于接近经重取样暂定失配值536的失配值的较细粒度。举例来说,经内插比较值可基于所述一组失配值的第二子集,使得第二子集中的最高失配值与经重取样暂定失配值536之间的差小于阈值(例如≥1),且第二子集中的最低失配值与经重取样暂定失配值536之间的差小于阈值。基于所述一组失配值的较粗粒度(例如第一子集)来确定比较值534可使用比基于所述一组失配值的较细粒度(例如全部)来确定比较值534更少的资源(例如时间、操作或两者)。在不确定对应于所述一组失配值中的每一失配值的比较值的情况下,基于接近暂定失配值536的较小失配值集合的较细粒度来确定对应于失配值的第二子集的经内插比较值可扩大暂定失配值536。因此,基于失配值的第一子集确定暂定失配值536及基于经内插比较值确定经内插失配值538可平衡经估计失配值的资源使用率及细化。内插器510可将经内插失配值538提供至移位细化器511。
根据一个实施方案,内插器510可检索先前帧的经内插失配/比较值,且可基于长期平滑操作使用先前帧的经内插失配/比较值修改经内插失配/比较值538。举例来说,经内插失配/比较值538可包含当前帧(N)的长期内插失配/比较值
Figure BDA0002404875680000202
且可由
Figure BDA0002404875680000203
表示,其中α∈(0,1.0)。因此,长期内插失配/比较值
Figure BDA0002404875680000204
可基于帧N处的瞬时内插失配/比较值InterValN(k)与一或多个先前帧的长期内插失配/比较值
Figure BDA0002404875680000211
的加权混合。随着α的值增大,长期平滑比较值的平滑量增大。
移位细化器511可通过细化经内插失配值538而产生经修正失配值540。举例来说,移位细化器511可确定经内插失配值538是否指示第一音频信号130与第二音频信号132之间的移位变化大于移位变化阈值。移位变化可由经内插失配值538与相关联于图3的帧302的第一失配值之间的差指示。移位细化器511可响应于确定差小于或等于阈值而将经修正失配值540设定为经内插失配值538。替代地,移位细化器511可响应于确定差大于阈值而确定对应于小于或等于移位变化阈值的差的多个失配值。移位细化器511可基于第一音频信号130及应用于第二音频信号132的多个失配值确定比较值。移位细化器511可基于比较值确定经修正失配值540。举例来说,移位细化器511可基于比较值及经内插失配值选择所述多个失配值中的失配值。移位细化器511可设定经修正失配值540以指示所选失配值。对应于帧302的第一失配值与经内插失配值538之间的非零差可指示第二音频信号132的一些样本对应于两个帧(例如帧302及帧304)。举例来说,可在编码期间复制第二音频信号132的一些样本。替代地,非零差可指示第二音频信号132的一些样本既不对应于帧302也不对应于帧304。举例来说,在编码期间可丢失第二音频信号132的一些样本。将经修正失配值540设定为多个失配值中的一者可防止相连(或邻近)帧之间的移位的较大变化,由此减少编码期间样本丢失或样本复制的量。移位细化器511可将经修正失配值540提供至移位变化分析器512。在一些实施方案中,移位细化器511可调整经内插失配值538。移位细化器511可基于经调整内插失配值538确定经修正失配值540。
根据一个实施方案,移位细化器可检索先前帧的经修正失配值,且可基于长期平滑操作使用先前帧的经修正失配值修改经修正失配值540。举例来说,经修正失配值540可包含当前帧(N)的长期经修正失配值
Figure BDA0002404875680000212
且可由
Figure BDA0002404875680000213
Figure BDA0002404875680000214
表示,其中α∈(0,1.0)。因此,长期经修正失配值
Figure BDA0002404875680000215
可基于帧N处的瞬时修正失配值AmendValN(k)与一或多个先前帧的长期经修正失配值
Figure BDA0002404875680000216
的加权混合。随着α的值增大,长期平滑比较值的平滑量增大。
移位变化分析器512可确定经修正失配值540是否指示第一音频信号130与第二音频信号132在时序上的切换或逆转,如参考图1所描述。具体地说,时序的逆转或切换可指示:对于帧302,先于第二音频信号132在输入接口112处接收第一音频信号130,且对于后一帧(例如帧304或帧306),先于第一音频信号130在输入接口处接收第二音频信号132。替代地,时序的逆转或切换可指示:对于帧302,先于第一音频信号130在输入接口112处接收第二音频信号132,且对于后一帧(例如帧304或帧306),先于第二音频信号132在输入接口处接收第一音频信号130。换句话说,时序的切换或逆转可指示:对应于帧302的最终失配值具有第一正负号,所述第一正负号不同于对应于帧304的经修正失配值540的第二正负号(例如正负转变或反之亦然)。移位变化分析器512可基于经修正失配值540及与帧302相关联的第一失配值确定第一音频信号130与第二音频信号132之间的延迟是否已切换正负号。响应于确定第一音频信号130与第二音频信号132之间的延迟已切换正负号,移位变化分析器512可将最终失配值116设定为指示无时间移位的值(例如0)。替代地,响应于确定第一音频信号130与第二音频信号132之间的延迟并未切换正负号,移位变化分析器512可将最终失配值116设定为经修正失配值540。移位变化分析器512可通过细化经修正失配值540产生经估计失配值。移位变化分析器512可将最终失配值116设定为所述经估计失配值。将最终失配值116设定为指示无时间移位可通过避免在第一音频信号130的相连(或邻近)帧的相反方向上时移第一音频信号130及第二音频信号132来减少解码器处的失真。移位变化分析器512可将最终失配值116提供至参考信号指定器508、绝对移位产生器513或两者。
绝对移位产生器513可通过将绝对函数应用于最终失配值116而产生非因果失配值162。绝对移位产生器513可将失配值162提供至增益参数产生器514。
参考信号指定器508可产生参考信号指示符164。举例来说,参考信号指示符164可具有指示第一音频信号130为参考信号的第一值或指示第二音频信号132为参考信号的第二值。参考信号指定器508可将参考信号指示符164提供至增益参数产生器514。
参考信号指定器508可进一步确定最终失配值116是否等于0。举例来说,响应于确定最终失配值116具有指示无时间移位的特定值(例如0),参考信号指定器508可使参考信号指示符164保持不变。举例来说,参考信号指示符164可指示同一音频信号(例如第一音频信号130或第二音频信号132)为与帧304相关联、还与帧302相关联的参考信号。
参考信号指定器508可在1202处进一步确定最终失配值116为非零,在1206处确定最终失配值116是否大于0。举例来说,响应于确定最终失配值116具有指示时间移位的特定值(例如非零值),参考信号指定器508可确定最终失配值116是具有指示第二音频信号132相对于第一音频信号130被延迟的第一值(例如正值)还是指示第一音频信号130相对于第二音频信号132被延迟的第二值(例如负值)。
增益参数产生器514可基于非因果失配值162选择目标信号(例如第二音频信号132)的样本。举例来说,响应于确定非因果失配值162具有第一值(例如+X ms或+Y个样本,其中X及Y包含正实数),增益参数产生器514可选择样本358至364。响应于确定非因果失配值162具有第二值(例如-X ms或-Y个样本),增益参数产生器514可选择样本354至360。响应于确定非因果失配值162具有指示无时间移位的值(例如0),增益参数产生器514可选择样本356至362。
增益参数产生器514可基于参考信号指示符164确定是第一音频信号130为参考信号还是第二音频信号132为参考信号。增益参数产生器514可基于帧304的样本326至332及第二音频信号132的所选样本(例如样本354至360、样本356至362或样本358至364)产生增益参数160,如参考图1所描述。举例来说,增益参数产生器514可基于方程式1a至方程式1f中的一或多者产生增益参数160,其中gD对应于增益参数160,Ref(n)对应于参考信号的样本,且Targ(n+N1)对应于目标信号的样本。举例来说,当非因果失配值162具有第一值(例如+X ms或+Y个样本,其中X及Y包含正实数)时,Ref(n)可对应于帧304的样本326至332,且Targ(n+tN1)可对应于帧344的样本358至364。在一些实施方案中,Ref(n)可对应于第一音频信号130的样本,且Targ(n+N1)可对应于第二音频信号132的样本,如参考图1所描述。在替代实施方案中,Ref(n)可对应于第二音频信号132的样本,且Targ(n+N1)可对应于第一音频信号130的样本,如参考图1所描述。
增益参数产生器514可将增益参数160、参考信号指示符164、非因果失配值162或其组合提供至信号产生器516。信号产生器516可产生经编码信号102,如参考图1所描述。举例来说,经编码信号102可包含第一经编码信号帧564(例如中声道帧)、第二经编码信号帧566(例如旁声道帧),或两者。信号产生器516可基于方程式2a或方程式2b产生第一经编码信号帧564,其中M对应于第一经编码信号帧564,gD对应于增益参数160,Ref(n)对应于参考信号的样本,且Targ(n+N1)对应于目标信号的样本。信号产生器516可基于方程式3a或方程式3b产生第二经编码信号帧566,其中S对应于第二经编码信号帧566,gD对应于增益参数160,Ref(n)对应于参考信号的样本,且Targ(n+N1)对应于目标信号的样本。
时间均衡器108可将第一经重取样信号530、第二经重取样信号532、比较值534、暂定失配值536、经内插失配值538、经修正失配值540、非因果失配值162、参考信号指示符164、最终失配值116、增益参数160、第一经编码信号帧564、第二经编码信号帧566或其组合存储于存储器153中。举例来说,分析数据190可包含:第一经重取样信号530、第二经重取样信号532、比较值534、暂定失配值536、经内插失配值538、经修正失配值540、非因果失配值162、参考信号指示符164、最终失配值116、增益参数160、第一经编码信号帧564、第二经编码信号帧566或其组合。
上文所描述的平滑技术可大致上归一化有声帧、无声帧及转变帧之间的移位估计。归一化移位估计可减少帧边界处的样本重复及伪影跳过。另外,归一化移位估计可引起旁声道能量减少,其可改进译码效率。
参考图6,展示包含信号比较器的系统的说明性实例,且所述系统被整体上标示为600。系统600可对应于图1的系统100。举例来说,图1的系统100、第一装置104或其两者可包含系统700的一或多个组件。
存储器153可存储多个失配值660。失配值660可包含第一失配值664(例如-X ms或-Y个样本,其中X及Y包含正实数)、第二失配值666(例如+X ms或+Y个样本,其中X及Y包含正实数),或两者。失配值660可在从较小失配值(例如最小失配值,T_MIN)至较大失配值(例如最大失配值,T_MAX)的范围内。失配值660可指示第一音频信号130与第二音频信号132之间的预期时间移位(例如最大预期时间移位)。
在操作期间,信号比较器506可基于第一样本620及应用于第二样本650的失配值660确定比较值534。举例来说,样本626至632可对应于第一时间(t)。举例来说,图1的输入接口112可在大约第一时间(t)接收对应于帧304的样本626至632。第一失配值664(例如-Xms或-Y个样本,其中X及Y包含正实数)可对应于第二时间(t-1)。
样本654至660可对应于第二时间(t-1)。举例来说,输入接口112可在大约第二时间(t-1)接收样本654至660。信号比较器506可基于样本626至632及样本654至660确定对应于第一失配值664的第一比较值614(例如差值或交叉相关值)。举例来说,第一比较值614可对应于样本626至632及样本654至660的交叉相关绝对值。作为另一实例,第一比较值614可指示样本626至632与样本654至660之间的差。
第二失配值666(例如+X ms或+Y个样本,其中X及Y包含正实数)可对应于第三时间(t+1)。样本658至664可对应于第三时间(t+1)。举例来说,输入接口112可在大约第三时间(t+1)接收样本658至664。信号比较器506可基于样本626至632及样本658至664确定对应于第二失配值666的第二比较值616(例如差值或交叉相关值)。举例来说,第二比较值616可对应于样本626至632及样本658至664的交叉相关绝对值。作为另一实例,第二比较值616可指示样本626至632与样本658至664之间的差。信号比较器506可将比较值534存储于存储器153中。举例来说,分析数据190可包含比较值534。
信号比较器506可识别比较值534中具有比比较值534中的其它值更大(或更小)的值的所选比较值636。举例来说,响应于确定第二比较值616大于或等于第一比较值614,信号比较器506可选择第二比较值616作为所选比较值636。在一些实施方案中,比较值534可对应于交叉相关值。响应于确定第二比较值616大于第一比较值614,信号比较器506可确定样本626至632与样本658至664的相关高于与样本654至660的相关。信号比较器506可选择指示较高相关的第二比较值616作为所选比较值636。在其它实施方案中,比较值534可对应于差值。响应于确定第二比较值616低于第一比较值614,信号比较器506可确定样本626至632与样本658至664的类似性高于与样本654至660的类似性(例如与样本658至664的差小于与样本654至660的差)。信号比较器506可选择指示较小差的第二比较值616作为所选比较值636。
所选比较值636可指示比比较值534中的其它值更高的相关(或更小的差)。信号比较器506可识别对应于所选比较值636的失配值660的暂定失配值536。举例来说,响应于确定第二失配值666对应于所选比较值636(例如第二比较值616),信号比较器506可将第二失配值666识别为暂定失配值536。
参考图7,展示调整长期平滑比较值的子集的说明性实例,且所述实例被整体上标示为700。实例700可由图1的时间均衡器108、编码器114、第一装置104、图2的时间均衡器208、编码器214、第一装置204、图5的信号比较器506或其组合执行。
参考声道(“Ref(n)”)701可对应于第一音频信号130且可包含多个参考帧,所述多个参考帧包含参考声道701的帧N 710。目标声道(“Targ(n)”)701可对应于第二音频信号132且可包含多个目标帧,所述多个目标帧包含目标声道702的帧N 720。编码器114或时间均衡器108可估计参考声道701的帧N 710及目标声道702的帧N 720的比较值730。每一比较值可指示时间失配量或参考声道701的参考帧N 710与目标声道702的对应目标帧N 720之间的类似性或相异性量度。在一些实施方案中,参考帧与目标帧之间的交叉相关值可用以依据一个帧相对于另一帧的滞后测量两个帧的类似性。举例来说,帧N的比较值(CompValN(k))735可为参考声道的帧N 710与目标声道的帧N 720之间的交叉相关值。
编码器114或时间均衡器108可使比较值平滑以产生短期平滑比较值。短期平滑比较值(例如帧N的
Figure BDA0002404875680000251
)可被估计为帧N 710、720的附近的帧的比较值的平滑版本。举例来说,短期比较值可以来自当前帧(帧N)及先前帧的多个比较值的线性组合的形式产生(例如
Figure BDA0002404875680000252
)。在替代实施方案中,可将非均匀加权应用于帧N及先前帧的多个比较值。
编码器114或时间均衡器108可基于平滑参数使比较值平滑以产生帧N的第一长期平滑比较值755。可执行平滑,使得第一长期平滑比较值
Figure BDA0002404875680000261
(例如第一长期平滑比较值755)由
Figure BDA0002404875680000262
表示。以上方程式中的函数f可随移位(k)处的过去比较值中的全部(或子集)而变化。所述的替代表示可为
Figure BDA0002404875680000263
函数f或g可分别为简单有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。举例来说,函数g可为单抽头IIR滤波器,使得第一长期平滑比较值755由
Figure BDA0002404875680000264
Figure BDA0002404875680000265
表示,其中α∈(0,1.0)。因此,长期平滑比较值
Figure BDA0002404875680000266
可基于帧N 710、720的瞬时比较值CompValN(k)与一或多个先前帧的长期平滑比较值
Figure BDA0002404875680000267
的加权混合。
编码器114或时间均衡器108可计算比较值与短期平滑比较值的交叉相关值。举例来说,编码器114或时间均衡器108可计算帧N 710、720的比较值CompValN(k)735与帧N 710、720的短期平滑比较值
Figure BDA0002404875680000268
745的交叉相关值(CrossCorr_CompValN)765。在一些实施方案中,交叉相关值(CrossCorr_CompValN)765可为以
Figure BDA0002404875680000269
形式计算的单一经估计值。其中‘Fac’为经选择使得CrossCorr_CompValN 765限制于0与1之间的归一化因数。作为非限制性实例,Fac可如下计算:
Figure BDA00024048756800002610
替代地,编码器114或时间均衡器108可计算短期及长期平滑比较值的交叉相关值。在一些实施方案中,帧N 710、720的短期平滑比较值
Figure BDA00024048756800002611
745与帧N 710、720的长期平滑比较值
Figure BDA00024048756800002612
755的交叉相关值(CrossCorr_CompValN)765可为以
Figure BDA00024048756800002613
形式计算的单一值。其中‘Fac’为经选择使得CrossCorr_CompValN765限制于0与1之间的归一化因数。作为非限制性实例,Fac可如下计算:
Figure BDA00024048756800002614
编码器114或时间均衡器108可比较比较值的交叉相关值(CrossCorr_CompValN)765与阈值,且可调整第一长期平滑比较值755中的全部或某一部分。在一些实施方案中,响应于确定比较值的交叉相关值(CrossCorr_CompValN)765超过阈值,编码器114或时间均衡器108可增大(或提高或偏置)第一长期平滑比较值755的子集的某些值。举例来说,当比较值的交叉相关值(CrossCorr_CompValN)大于或等于阈值(例如0.8)时,其可指示比较值之间的交叉相关值相当大或高,从而指示邻近帧之间的时间移位值的较小变化或无变化。因此,当前帧(例如帧N)的估计时间移位值不能与前一帧(例如帧N-1)的时间移位值或任何其它先前帧的时间移位值相差过大。时间移位值可为暂定失配值536、经内插失配值538、经修正失配值540、最终失配值116或非因果失配值162中的一者。因此,编码器114或时间均衡器108可通过例如因数1.2增大(或提高或偏置)第一长期平滑比较值755的子集的某些值(提高或增大20%)以产生第二长期平滑比较值。此提高或偏置可通过乘以缩放因数或通过将偏移与第一长期平滑比较值755的子集内的所述值相加来实施。
在一些实施方案中,编码器114或时间均衡器108可提高或偏置第一长期平滑比较值755的子集,使得所述子集可包含对应于前一帧(例如帧N-1)的时间移位值的索引。另外或替代地,所述子集可进一步包含在前一帧(例如帧N-1)的时间移位值的附近左右的索引。举例来说,所述附近可意指在前一帧(例如帧N-1)的时间移位值的-δ(例如在优选实施例中,δ在1至5个样本的范围内)至+δ内。
参考图8,展示调整长期平滑比较值的子集的说明性实例,且所述实例被整体上标示为800。实例800可由图1的时间均衡器108、编码器114、第一装置104、图2的时间均衡器208、编码器214、第一装置204、图5的信号比较器506或其组合执行。
图形830、840、850、860的x轴表示负移位值至正移位值,且图形830、840、850、860的y轴表示比较值(例如交叉相关值)。在一些实施方案中,实例800中的图形830、840、850、860的y轴可绘示任何特定帧(例如帧N)的长期平滑比较值
Figure BDA0002404875680000271
755,但替代地,其可为任何特定帧(例如帧N)的短期平滑比较值
Figure BDA0002404875680000272
745。
实例800绘示展示可调整长期平滑比较值的子集(例如第一长期平滑比较值
Figure BDA0002404875680000273
755)的案例。实例800中的调整长期平滑比较值的子集可包含通过某一因数增大长期平滑比较值的所述子集(例如第一长期平滑比较值
Figure BDA0002404875680000274
755)的某些值。本文中增大某些值可被称为“强调”(或可互换地为“提高”或“偏置”)某些值。实例800中的调整长期平滑比较值的所述子集还可包含通过某一因数减小长期平滑比较值的所述子集(例如第一长期平滑比较值
Figure BDA0002404875680000275
755)的某些值。本文中降低某些值可被称为“不再强调”某些值。
图8中的案例#1绘示负移位侧强调830的实例,其中长期平滑比较值的子集的某些值可通过某一因数被增大(强调或提高或偏置)。举例来说,编码器114或时间均衡器108可通过某一因数(例如1.2,其指示值增大或提高20%)增大对应于图形的x索引的左半部(负移位侧810)的值834(例如第一长期平滑比较值
Figure BDA0002404875680000281
755),从而产生增大值838。案例#2绘示正移位侧强调840的另一实例,其中长期平滑比较值的子集的某些值可通过某一因数被增大(强调或提高或偏置)。举例来说,编码器114或时间均衡器108可通过某一因数(例如1.2,其指示值增大或提高20%)增大对应于图形的x索引的右半部(正移位侧820)的值844(例如第一长期平滑比较值
Figure BDA0002404875680000282
755),从而产生增大值848。
图8中的案例#3绘示负移位侧不再强调850的实例,其中长期平滑比较值的子集的某些值可通过某一因数被减小(或不再强调)。举例来说,编码器114或时间均衡器108可通过某一因数(例如0.8,其指示值减小或不再强调20%)减小对应于图形的x索引的左半部(负移位侧810)的值854(例如第一长期平滑比较值755),从而产生减小值858。案例#4绘示正移位侧不再强调860的另一实例,其中长期平滑比较值的子集的值可通过某一因数被减小(或不再强调)。举例来说,编码器114或时间均衡器108可通过某一因数(例如0.8,其指示值减小或不再强调20%)减小对应于图形的x索引的右半部(正移位侧820)的值864(例如第一长期平滑比较值755),从而产生减小值868。
图8中的四个案例仅出于说明目的而提出,且因此其中使用的任何范围或值或因数并不意指为限制性实例。举例来说,图8中的全部四个案例绘示调整图形的x轴的左半部或右半部中的所有值。然而,在一些实施方案中,或许有可能的是可仅调整正或负x轴中的值的子集。在另一实例中,图8中的全部四个案例绘示通过某一因数(例如缩放因数)对值进行调整。然而,在一些实施方案中,多个因数可用于实例800中的图形的x轴的不同区域。另外,通过某一因数对值进行调整可通过乘以缩放因数或通过将偏移值与所述值相加或从所述值减去偏移值来实施。
参考图9,展示基于特定增益参数调整长期平滑比较值的子集的方法900。方法900可由图1的时间均衡器108、编码器114、第一装置104或其组合执行。
方法900包含在910处计算前一帧(例如帧N-1)的增益参数(gD)。900中的增益参数可为图1中的增益参数160。在一些实施方案中,时间均衡器108可基于目标声道的样本且基于参考声道的样本产生增益参数160(例如编码解码器增益参数或目标增益)。举例来说,时间均衡器108可基于非因果失配值162选择第二音频信号132的样本。替代地,时间均衡器108可独立于非因果失配值162而选择第二音频信号132的样本。响应于确定第一音频信号130为参考声道,时间均衡器108可基于第一音频信号130的第一帧131的第一样本确定所选样本的增益参数160。替代地,响应于确定第二音频信号132为参考声道,时间均衡器108可基于参考声道的参考帧的能量及目标声道的目标帧的能量确定增益参数160。作为一实例,可基于方程式1a、1b、1c、1d、1e或1f中的一或多者计算或产生增益参数160。在一些实施方案中,可通过任何已知平滑算法或替代地通过迟滞针对多个帧修改增益参数160(gD)或使其平滑,以避免帧之间的增益的巨大跳变。
在920、950处,编码器114或时间均衡器108可比较增益参数与阈值(例如Thr1或Thr2)。当基于方程式1a至1f中的一或多者,增益参数160(gD)大于1时,其可指示第一音频信号130(或左声道)为前导声道(“参考声道”),且因此移位值(“时间移位值”)将更可能为正值。时间移位值可为暂定失配值536、经内插失配值538、经修正失配值540、最终失配值116或非因果失配值162中的一者。因此,可能有利的是强调(或增大或提高或偏置)正移位侧中的值及/或不再强调(或减小)负移位侧中的值。
当基于方程式1a至1f中的一或多者计算的增益参数160(gD)大于1时,其可意指第一音频信号130(或左声道)为前导声道(“参考声道”),且因此移位值(“时间移位值”)将更可能为正值。时间移位值可为暂定失配值536、经内插失配值538、经修正失配值540、最终失配值116或非因果失配值162中的一者。因此,可通过强调(或增大或提高或偏置)正移位侧中的值及/或通过不再强调(或减小)负移位侧中的值来有利地改进确定正确非因果移位值的可能性。
当基于方程式1a至1f中的一或多者计算的增益参数160(gD)小于1时,其可意指第二音频信号130(或右声道)为前导声道(“参考声道”),且因此移位值(“时间移位值”)将更可能为负值。可通过强调(或增大或提高或偏置)负移位侧中的值及/或不再强调(或减小)正移位侧中的值来有利地改进确定正确非因果移位值的可能性。
在一些实施方案中,编码器114或时间均衡器108可比较增益参数160(gD)与第一阈值(例如Thr1=1.2)或另一阈值(例如Thr2=0.8)。出于说明目的,图9展示增益参数160(gD)与920处的Thr1之间的第一比较发生在增益参数160(gD)与950处的Thr2之间的第二比较之前。然而,第一比较920与第二比较950之间的次序可逆转而不丢失一般性。在一些实施方案中,可执行第一比较920及第二比较950中的任一者而不执行另一比较。
响应于比较结果,编码器114或时间均衡器108可调整第一长期平滑比较值的第一子集以产生第二长期平滑比较值。举例来说,当增益参数160(gD)大于第一阈值(例如Thr1=1.2)时,方法900可通过强调正移位侧(例如案例#2 830、930)及不再强调负移位侧(例如案例#3 840、940)中的至少一者来调整第一长期平滑比较值的子集,以避免邻近帧之间的时间移位值的正负号(正或负)的杂散跳变。在一些实施方案中,可按其任何次序执行案例#2(例如正移位侧强调)及案例#3(负移位侧不再强调)。替代地,当选择案例#2(例如正移位侧强调)而非执行案例#3来强调正移位侧时,另一侧(例如负侧)的值可归零,以降低检测到时间移位值的不正确正负号的风险。
另外,当增益参数160(gD)小于第二阈值(例如Thr2=0.8)时,方法900可通过强调负移位侧(例如案例#1 860、960)及不再强调正移位侧(例如案例#4 870、970)中的至少一者来调整第一长期平滑比较值的子集,以避免邻近帧之间的时间移位值的正负号(正或负)的杂散跳变。在一些实施方案中,可按其任何次序执行案例#1(例如负移位侧强调)及案例#4(正移位侧不再强调)。替代地,当选择案例#1(例如负移位侧强调)而非执行案例#4来强调负移位侧时,另一侧(例如正侧)的值可归零,以降低检测到时间移位值的不正确正负号的风险。
尽管方法900展示可基于增益参数160(gD)对第一长期平滑比较值的子集中的值执行调整,但可替代地对瞬时比较值或短期平滑比较值的子集中的值执行调整。在一些实施方案中,可使用平滑窗(例如平滑缩放窗)对多个滞后值执行对值的调整。在其它实施方案中,平滑窗的长度可例如基于比较值的交叉相关值而自适应地改变。举例来说,编码器114或时间均衡器108可基于帧N 710、720的瞬时比较值CompValN(k)735与帧N710、720的短期平滑比较值
Figure BDA0002404875680000301
745的交叉相关值(CrossCorr_CompValN)765调整平滑窗的长度。
参考图10,展示绘示有声帧、转变帧及无声帧的比较值的图形。根据图10,图形1002绘示在不使用所描述的长期平滑技术的情况下处理的有声帧的比较值(例如交叉相关值),图形1004绘示在不使用所描述的长期平滑技术的情况下处理的转变帧的比较值,且图形1006绘示在不使用所描述的长期平滑技术的情况下处理的无声帧的比较值。
每一图形1002、1004、1006中表示的交叉相关可大致上不同。举例来说,图形1002绘示由图1的第一麦克风146捕获的有声帧与由图1的第二麦克风148捕获的对应有声帧之间的峰值交叉相关出现在大约17样本移位处。然而,图形1004绘示由第一麦克风146捕获的转变帧与由第二麦克风148捕获的对应转变帧之间的峰值交叉相关出现在大约4样本移位处。此外,图形1006绘示由第一麦克风146捕获的无声帧与由第二麦克风148捕获的对应无声帧之间的峰值交叉相关出现在大约-3样本移位处。因此,移位估计对于转变帧及无声帧来说可归因于相对高噪音电平而不准确。
根据图10,图形1012绘示在使用所描述的长期平滑技术的情况下处理的有声帧的比较值(例如交叉相关值),图形1014绘示在使用所描述的长期平滑技术的情况下处理的转变帧的比较值,且图形1016绘示在使用所描述的长期平滑技术的情况下处理的无声帧的比较值。每一图形1012、1014、1016中表示的交叉相关可大致上类似。举例来说,每一图形1012、1014、1016绘示由图1的第一麦克风146捕获的帧与由图1的第二麦克风148捕获的对应帧之间的峰值交叉相关出现在大约17样本移位处。因此,不管噪音如何,转变帧(由图形1014绘示)及无声帧(由图形1016绘示)的移位估计对于有声帧的移位估计可相对准确(或类似)。
参考图11,展示基于多个麦克风处所捕获的音频之间的时间偏移使声道非因果地移位的方法1100。方法1100可由图1的时间均衡器108、编码器114、第一装置104或其组合执行。
方法1100包含在1110处在编码器处估计比较值。在1110处,每一比较值可指示时间失配量或参考声道的第一参考帧与目标声道的对应第一目标帧之间的类似性或相异性量度。在一些实施方案中,参考帧与目标帧之间的交叉相关函数可用以依据一个帧相对于另一帧的滞后来测量两个帧的类似性。举例来说,参考图1,编码器114或时间均衡器108可估计指示时间失配量或参考图帧(在时间上较早捕获)与对应目标帧(在时间上较早捕获)之间的类似性或相异性量度的比较值(例如交叉相关值)。举例来说,如果CompValN(k)表示帧N在移位k处的比较值,那么帧N可具有k=T_MIN(最小移位)至k=T_MAX(最大移位)的比较值。
方法1100包含在1115处使比较值平滑以产生短期平滑比较值。举例来说,编码器114或时间均衡器108可使比较值平滑以产生短期平滑比较值。短期平滑比较值(例如帧N的
Figure BDA0002404875680000311
)可被估计为正被处理的当前帧(例如帧N)附近的帧的比较值的平滑版本。举例来说,短期比较值可以来自当前及先前帧的多个比较值的线性组合的形式产生(例如
Figure BDA0002404875680000312
)。在一些实施方案中,可将非均匀加权应用于当前及先前帧的多个比较值。在其它实施方案中,短期平比较值可与在正被处理的帧中产生的比较值(CompValN(k))相同。
方法1100包含在1120处基于平滑参数使比较值平滑以产生第一长期平滑比较值。举例来说,编码器114或时间均衡器108可基于历史比较值数据及平滑参数使比较值平滑以产生平滑比较值。可执行平滑,使得长期平滑比较值
Figure BDA0002404875680000313
Figure BDA0002404875680000314
表示。以上方程式中的函数f可随移位(k)处的过去比较值中的全部(或子集)而变化。所述的替代表示可为
Figure BDA0002404875680000315
函数f或g可分别为简单有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。举例来说,函数g可为单抽头IIR滤波器,使得长期平滑比较值
Figure BDA0002404875680000316
Figure BDA0002404875680000317
Figure BDA0002404875680000321
表示,其中α∈(0,1.0)。因此,长期平滑比较值
Figure BDA0002404875680000322
可基于帧N的瞬时比较值CompValN(k)与一或多个先前帧的长期平滑比较值
Figure BDA0002404875680000323
的加权混合。
根据一个实施方案,平滑参数可为自适应的。举例来说,方法1100可包含基于短期平滑比较值与长期平滑比较值的相关而适配平滑参数。随着α的值增大,长期平滑比较值的平滑量增大。可基于输入声道的短期能量指示符及输入声道的长期能量指示符调整平滑参数(α)的值。另外,如果短期能量指示符大于长期能量指示符,那么可降低平滑参数(α)的值。根据另一实施方案,基于短期平滑比较值与长期平滑比较值的相关而调整平滑参数(α)的值。另外,如果相关超过阈值,那么可增大平滑参数(α)的值。根据另一实施方案,比较值可为经减少取样参考声道与对应经减少取样目标声道的交叉相关值。
方法1100包含在1125处计算比较值与短期平滑比较值之间的交叉相关值。举例来说,编码器114或时间均衡器108可计算单一帧的比较值(“瞬时比较值”CompValN(k))735与短期平滑比较值
Figure BDA0002404875680000324
745之间的比较值的交叉相关值(CrossCorr_CompValN)765。比较值的交叉相关值(CrossCorr_CompValN)765可为根据每一帧(N)估计的单一值,且其可对应于两个其它相关值之间的交叉相关度。举例来说,编码器114或时间均衡器108可以
Figure BDA0002404875680000325
Figure BDA0002404875680000326
形式计算(CrossCorr_CompValN)765。其中‘Fac’为经选择使得CrossCorr_CompValN限制于0与1之间的归一化因数。
在替代实施方案中,方法1100可包含在1125处计算短期平滑比较值与长期平滑比较值之间的交叉相关值。举例来说,编码器114或时间均衡器108可计算短期平滑比较值
Figure BDA0002404875680000327
745与长期平滑比较值
Figure BDA0002404875680000328
755之间的比较值的交叉相关值(CrossCorr_CompValN)765。比较值的交叉相关值(CrossCorr_CompValN)765可为根据每一帧(N)估计的单一值,且其可对应于两个其它相关值之间的交叉相关度。举例来说,编码器114或时间均衡器108可以
Figure BDA0002404875680000329
Figure BDA00024048756800003210
形式计算(CrossCorr_CompValN)765。
方法1100包含在1130处比较交叉相关值与阈值。举例来说,编码器114或时间均衡器108可比较交叉相关值(CrossCorr_CompValN)765与阈值。方法1100还包含在1135处响应于确定交叉相关值超过阈值而调整第一长期平滑比较值以产生第二长期平滑比较值。举例来说,编码器114或时间均衡器108可基于比较结果调整第一长期平滑比较值755中的全部或某一部分。在一些实施方案中,响应于确定比较值的交叉相关值(CrossCorr_CompValN)765超过阈值,编码器114或时间均衡器108可增大(或提高或偏置)第一长期平滑比较值755的子集的某些值。举例来说,当比较值的交叉相关值(CrossCorr_CompValN)大于或等于阈值(例如0.8)时,其可指示比较值之间的交叉相关值相当大或高,从而指示邻近帧之间的时间移位值的较小变化或无变化。因此,当前帧(例如帧N)的估计时间移位值不能与前一帧(例如帧N-1)的时间移位值或任何其它先前帧的时间移位值相差过大。时间移位值可为暂定失配值536、经内插失配值538、经修正失配值540、最终失配值116或非因果失配值162中的一者。因此,编码器114或时间均衡器108可通过例如因数1.2增大(或提高或偏置)第一长期平滑比较值755的子集的某些值(提高或增大20%)以产生第二长期平滑比较值。此提高或偏置可通过乘以缩放因数或通过将偏移与第一长期平滑比较值755的子集内的所述值相加来实施。在一些实施方案中,编码器114或时间均衡器108可提高或偏置第一长期平滑比较值755的子集,使得子集可包含对应于前一帧(例如帧N-1)的时间移位值的索引。另外或替代地,所述子集可进一步包含在前一帧(例如帧N-1)的时间移位值的附近左右的索引。举例来说,所述附近可意指在前一帧(例如帧N-1)的时间移位值的-δ(例如在优选实施例中,δ在1至5个样本的范围内)至+δ内。
方法1100包含在1140处基于第二长期平滑比较值估计暂定移位值。举例来说,编码器114或时间均衡器108可基于第二长期平滑比较值估计暂定移位值536。方法1100还包含在1145处基于暂定移位值确定非因果移位值。举例来说,编码器114或时间均衡器108可至少部分地基于暂定移位值(例如暂定失配值536、经内插失配值538、经修正失配值540或最终失配值116)确定非因果移位值(例如非因果失配值162)。
方法1100包含在1150处将特定目标声道非因果地移位非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道。举例来说,编码器114或时间均衡器108可将目标声道非因果地移位非因果移位值(例如非因果失配值162)以产生与参考声道在时间上对准的经调整目标声道。方法1100还包含在1155处基于特定参考声道及经调整特定目标声道产生中带声道或旁带声道中的至少一者。举例来说,参考图11,编码器114可基于参考声道及经调整目标声道至少产生中带声道及旁带声道。
参考图12,展示基于多个麦克风处所捕获的音频之间的时间偏移使声道非因果地移位的方法1200。方法1200可由图1的时间均衡器108、编码器114、第一装置104或其组合执行。
方法1200包含在1210处在编码器处估计比较值。举例来说,1210处的方法可类似于1110处的方法,如参考图11所描述。方法1200还包含在1220处基于平滑参数使比较值平滑以产生第一长期平滑比较值。举例来说,1220处的方法可类似于1120处的方法,如参考图11所描述。
方法1200包含在1225处从参考声道的先前参考帧及目标声道的对应先前目标帧计算增益参数。在一些实施方案中,来自先前帧的增益参数可基于先前参考帧的能量及先前目标帧的能量。在一些实施方案中,编码器114或时间均衡器108可基于目标声道的样本且基于参考声道的样本产生或计算增益参数160(例如编码解码器增益参数或目标增益)。举例来说,时间均衡器108可基于非因果失配值162选择第二音频信号132的样本。替代地,时间均衡器108可独立于非因果失配值162而选择第二音频信号132的样本。响应于确定第一音频信号130为参考声道,时间均衡器108可基于第一音频信号130的第一帧131的第一样本确定所选样本的增益参数160。替代地,响应于确定第二音频信号132为参考声道,时间均衡器108可基于参考声道的参考帧的能量及目标声道的目标帧的能量确定增益参数160。作为一实例,可基于方程式1a、1b、1c、1d、1e或1f中的一或多者计算或产生增益参数160。在一些实施方案中,可通过任何已知平滑算法或替代地通过迟滞针对多个帧修改增益参数160(gD)或使其平滑,以避免帧之间的增益的巨大跳变。
方法1200还包含在1230处比较增益参数与第一阈值。举例来说,在1230处,编码器114或时间均衡器108可比较增益参数与第一阈值(例如Thr1或Thr2)。当基于方程式1a至1f中的一或多者,增益参数160(gD)大于1时,其可指示第一音频信号130(或左声道)为前导声道(“参考声道”),且因此移位值(“时间移位值”)将更可能为正值。时间移位值可为暂定失配值536、经内插失配值538、经修正失配值540、最终失配值116或非因果失配值162中的一者。因此,可能有利的是强调(或增大或提高或偏置)正移位侧中的值及/或不再强调(或减小)负移位侧中的值。在一些实施方案中,编码器114或时间均衡器108可比较增益参数160(gD)与第一阈值(例如Thr1=1.2)或另一阈值(例如Thr2=0.8),如参考图9所描述。
方法1200还包含在1235处响应于比较结果而调整第一长期平滑比较值的第一子集以产生第二长期平滑比较值。举例来说,响应于比较结果,编码器114或时间均衡器108可调整第一长期平滑比较值
Figure BDA0002404875680000341
755的第一子集以产生第二长期平滑比较值。在优选实施例中,第一长期平滑比较值的第一子集对应于第一长期平滑比较值
Figure BDA0002404875680000342
755的正半部(例如正移位侧820)的负半部(例如负移位侧810),如参考图9所描述。在一些实施方案中,编码器114或时间均衡器108可根据图8中所示的四个实例,即,案例#1(负移位侧强调)830、案例#2(正移位侧强调)840、案例#3(负移位侧不再强调)850及案例#4(正移位侧不再强调)860调整第一长期平滑比较值
Figure BDA0002404875680000351
755的第一子集。
返回至图8,实例800绘示展示可基于比较结果而调整长期平滑比较值的子集(例如第一长期平滑比较值
Figure BDA0002404875680000352
755)的四个案例。实例800中的调整长期平滑比较值的子集可包含通过某一因数增大长期平滑比较值的所述子集(例如第一长期平滑比较值
Figure BDA0002404875680000353
755)的某些值。举例来说,图8至9绘示根据如前参考图9中的流程图所描述的某些示范性情况增大某些值的实例(例如图8中的案例#1及案例#2)。调整长期平滑比较值的子集还可包含通过某一因数减小长期平滑比较值的所述子集(例如第一长期平滑比较值755)的某些值。图8至9绘示根据如前参考图9中的流程图所描述的某些示范性情况减小某些值的实例(例如图8中的案例#3及案例#4)。
图8中的四个案例仅出于说明目的而提出,且因此其中使用的任何范围或值或因数并不意指为限制性实例。举例来说,图8中的全部四个案例绘示调整图形的x轴的左半部或右半部中的所有值。然而,在一些实施方案中,或许有可能的是可仅调整正或负x轴中的值的子集。在另一实例中,图8中的全部四个案例绘示通过某一因数(例如缩放因数)对值进行调整。然而,在一些实施方案中,多个因数可用于实例800中的图形的x轴的不同区域。另外,通过某一因数对值进行调整可通过乘以缩放因数或通过将偏移值与所述值相加或从所述值减去偏移值来实施。
方法1200包含在1240处基于第二长期平滑比较值估计暂定移位值。举例来说,1240处的方法可类似于1140处的方法,如参考图11所描述。方法1200还包含在1245处基于暂定移位值确定非因果移位值。举例来说,1245处的方法可类似于1145处的方法,如参考图11所描述。方法1200包含在1250处将特定目标声道非因果地移位非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道。举例来说,1250处的方法可类似于1150处的方法,如参考图11所描述。方法1200还包含在1255处基于特定参考声道及经调整特定目标声道产生中带声道或旁带声道中的至少一者。举例来说,1255处的方法可类似于1155处的方法,如参考图11所描述。
参考图13,描绘装置(例如无线通信装置)的特定说明性实例的框图,且所述装置被整体上标示为1300。在各种实施例中,装置1300可具有比图13中所绘示更少或更多的组件。在说明性实施例中,装置1300可对应于图1的第一装置104或第二装置106。在说明性实施例中,装置1300可执行参考图1至12的系统及方法所描述的一或多个操作。
在特定实施例中,装置1300包含处理器1306(例如中央处理单元(CPU))。装置1300可包含一或多个额外处理器1310(例如一或多个数字信号处理器(DSP))。处理器1310可包含媒体(例如语音及音乐)译码器-解码器(CODEC)1308及回音消除器1312。媒体CODEC 1308可包含图1的解码器118、编码器114或两者。编码器114可包含时间均衡器108。
装置1300可包含存储器153及CODEC 1334。尽管媒体CODEC 1308被绘示为处理器1310的组件(例如专用电路及/或可执行程序设计代码),但在其它实施例中,媒体CODEC1308的一或多个组件(例如解码器118、编码器114或两者)可包含于处理器1306、CODEC1334、另一处理组件或其组合中。
装置1300可包含耦合至天线1342的发送器110。装置1300可包含耦合至显示控制器1326的显示器1328。一或多个扬声器1348可耦合至CODEC 1334。一或多个麦克风1346可经由输入接口112耦合至CODEC 1334。在特定实施方案中,扬声器1348可包含图1的第一扩音器142、第二扩音器144、图2的第Y扩音器244或其组合。在特定实施方案中,麦克风1346可包含图1的第一麦克风146、第二麦克风148、图2的第N麦克风248、图11的第三麦克风1146、第四麦克风1148或其组合。CODEC 1334可包含数/模转换器(DAC)1302及模/数转换器(ADC)1304。
存储器153可包含可由处理器1306、处理器1310、CODEC 1334、装置1300的另一处理单元或其组合执行,以执行参考图1至12所描述的一或多个操作的指令1360。存储器153可存储分析数据190。
装置1300的一或多个组件可经由专用硬件(例如电路)通过执行指令以执行一或多个任务或其组合的处理器实施。作为一实例,存储器153或处理器1306、处理器1310及/或CODEC 1334的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如指令1360),所述指令在由计算机(例如CODEC1334中的处理器、处理器1306及/或处理器1310)执行时可促使计算机执行参考图1至12所描述的一或多个操作。作为一实例,存储器153或处理器1306、处理器1310及/或CODEC 1334中的一或多个组件可为包含指令(例如指令1360)的非暂时性计算机可读媒体,所述指令在由计算机(例如CODEC 1334中的处理器、处理器1306及/或处理器1310)执行时促使计算机执行参考图1至12所描述的一或多个操作。
在特定实施例中,装置1300可包含于系统级封装或系统单芯片装置(例如移动站调制解调器(MSM))1322中。在特定实施例中,处理器1306、处理器1310、显示控制器1326、存储器153、CODEC 1334及发送器110包含于系统级封装或系统单芯片装置1322中。在特定实施例中,输入装置1330(例如触摸屏及/或小键盘)及电源1344耦合至系统单芯片装置1322。此外,在特定实施例中,如图13中所绘示,显示器1328、输入装置1330、扬声器1348、麦克风1346、天线1342及电源1344在系统单芯片装置1322外部。然而,显示器1328、输入装置1330、扬声器1348、麦克风1346、天线1342及电源1344中的每一者可耦合至系统单芯片装置1322的组件,例如接口或控制器。
装置1300可包含无线电话、移动通信装置、移动电话、智能电话、蜂窝电话、膝上型计算机、桌上型计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
在特定实施方案中,本文中所描述的系统及装置1300的一或多个组件可集成至解码系统或设备(例如其中的电子装置、CODEC或处理器)中、集成至编码系统或设备中,或两者中。在其它实施方案中,本文中所描述的系统及装置1300的一或多个组件可集成至无线电话、平板计算机、桌上型计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置中。
应注意,由本文中所描述的系统及装置1300的一或多个组件执行的各种功能被描述为由某些组件或模块执行。组件及模块的此划分仅为了说明。在替代实施方案中,由特定组件或模块执行的功能可划分于多个组件或模块之中。此外,在替代实施方案中,本文中所描述的系统的两个或超过两个组件或模块可被集成为单一组件或模块。本文中所描述的系统中所绘示的每一组件或模块可使用硬件(例如现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等等)、软件(例如可由处理器执行的指令)或其任何组合来实施。
结合所描述的实施方案,设备包含用于捕获参考声道的装置。参考声道可包含参考帧。举例来说,用于捕获第一音频信号的装置可包含图1至2的第一麦克风146、图13的麦克风1346、经配置以捕获参考声道的一或多个装置/传感器(例如执行存储于计算机可读存储装置处的指令的处理器)或其组合。
设备还可包含用于捕获目标声道的装置。目标声道可包含目标帧。举例来说,用于捕获第二音频信号的装置可包含图1至2的第二麦克风148、图13的麦克风1346、经配置以捕获目标声道的一或多个装置/传感器(例如执行存储于计算机可读存储装置处的指令的处理器)或其组合。
设备还可包含用于估计参考帧与目标帧之间的延迟的装置。举例来说,用于确定延迟的装置可包含图1的时间均衡器108、编码器114、第一装置104、媒体CODEC 1308、处理器1310、装置1300、经配置以确定延迟的一或多个装置(例如执行存储于计算机可读存储装置处的指令的处理器)或其组合。
设备还可包含用于基于延迟且基于历史延迟数据估计参考声道与目标声道之间的时间偏移的装置。举例来说,用于估计时间偏移的装置可包含图1的时间均衡器108、编码器114、第一装置104、媒体CODEC 1308、处理器1310、装置1300、经配置以估计时间偏移的一或多个装置(例如执行存储于计算机可读存储装置处的指令的处理器)或其组合。
参考图14,描绘基站1400的特定说明性实例的框图。在各种实施方案中,基站1400可具有比图14中所绘示更多的组件或更少的组件。在说明性实例中,基站1400可包含图1的第一装置104、第二装置106、图2的第一装置134或其组合。在说明性实例中,基站1400可根据参考图1至13所描述的方法或系统中的一或多者操作。
基站1400可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址接入(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或某一其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA),或某一其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动站、终端、接入终端、订户单元、工作站等等。无线装置可包含蜂窝电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能本、上网本、平板计算机、无绳电话、无线本地回路(WLL)站、蓝牙装置等等。无线装置可包含或对应于图14的装置1400。
可由基站1400的一或多个组件(及/或未展示的其它组件)执行各种功能,例如传送及接收消息及数据(例如音频数据)。在特定实例中,基站1400包含处理器1406(例如CPU)。基站1400可包含转码器1410。转码器1410可包含音频CODEC 1408。举例来说,转码器1410可包含经配置以执行音频CODEC 1408的操作的一或多个组件(例如电路)。作为另一实例,转码器1410可经配置以执行一或多个计算机可读指令以执行音频CODEC 1408的操作。尽管音频CODEC 1408被绘示为转码器1410的组件,但在其它实例中,音频CODEC 1408的一或多个组件可包含于处理器1406、另一处理组件或其组合中。举例来说,解码器1438(例如声码器解码器)可包含于接收数据处理器1464中。作为另一实例,编码器1436(例如声码器编码器)可包含于发送数据处理器1482中。
转码器1410可起到在两个或多于两个网络之间转码消息及数据的作用。转码器1410可经配置以将消息及音频数据从第一格式(例如数字格式)转换成第二格式。举例来说,解码器1438可解码具有第一格式的经编码信号,且编码器1436可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器1410可经配置以执行数据速率适配。举例来说,转码器1410可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。举例来说,转码器1410可将64kbit/s信号降频转换成16kbit/s信号。
音频CODEC 1408可包含编码器1436及解码器1438。编码器1436可包含图1的编码器114、图2的编码器214,或两者。解码器1438可包含图1的解码器118。
基站1400可包含存储器1432。例如计算机可读存储装置的存储器1432可包含指令。指令可包含可由处理器1406、转码器1410或其组合执行的一或多个指令,以执行参考图1至13的方法及系统所描述的一或多个操作。基站1400可包含耦合至天线阵列的多个发送器及接收器(例如收发器),例如第一收发器1452及第二收发器1454。天线阵列可包含第一天线1442及第二天线1444。天线阵列可经配置以与一或多个无线装置(例如图14的装置1400)无线通信。举例来说,第二天线1444可从无线装置接收数据流1414(例如位流)。数据流1414可包含消息、数据(例如经编码话音数据),或其组合。
基站1400可包含网络连接1460,例如回程连接。网络连接1460可经配置以与无线通信网络的核心网络或一或多个基站通信。举例来说,基站1400可经由网络连接1460从核心网络接收第二数据流(例如消息或音频数据)。基站1400可处理第二数据流以产生消息或音频数据,且经由天线阵列中的一或多个天线将消息或音频数据提供至一或多个无线装置,或经由网络连接1460提供至另一基站。在特定实施方案中,作为说明性的非限制性实例,网络连接1460可为广域网(WAN)连接。在一些实施方案中,核心网络可包含或对应于公共交换电话网(PSTN)、分组骨干网或两者。
基站1400可包含耦合至网络连接1460及处理器1406的媒体网关1470。媒体网关1470可经配置以在不同电信技术的媒体流之间进行转换。举例来说,媒体网关1470可在不同发送协议、不同译码方案或两者之间转换。举例来说,作为说明性的非限制性实例,媒体网关1470可从PCM信号转换成实时传输协议(RTP)信号。媒体网关1470可在分组交换网(例如互联网语音协议(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络,例如LTE、WiMax及UMB等等)、电路交换网(例如PSTN)及混合网络(例如第二代(2G)无线网络,例如GSM、GPRS及EDGE,第三代(3G)无线网络,例如WCDMA、EV-DO及HSPA等等)之间转换数据。
另外,媒体网关1470可包含转码且可经配置以在编码解码器不兼容时转码数据。举例来说,作为说明性的非限制性实例,媒体网关1470可在自适应多速率(AMR)编码解码器与G.711编码解码器之间进行转码。媒体网关1470可包含路由器及多个物理接口。在一些实施方案中,媒体网关1470还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关1470外部、在基站1400外部或两者。媒体网关控制器可控制及协调多个媒体网关的操作。媒体网关1470可从媒体网关控制器接收控制信号,且可起到在不同发送技术之间桥接的作用,且可增添对最终用户能力及连接的服务。
基站1400可包含耦合至收发器1452、1454的解调器1462、接收数据处理器1464及处理器1406,且接收数据处理器1464可耦合至处理器1406。解调器1462可经配置以解调从收发器1452、1454接收的调制信号且将经解调数据提供至接收数据处理器1464。接收数据处理器1464可经配置以从经解调数据提取消息或音频数据,及将消息或音频数据传送至处理器1406。
基站1400可包含发送数据处理器1482及发送多输入多输出(MIMO)处理器1484。发送数据处理器1482可耦合至处理器1406及发送MIMO处理器1484。发送MIMO处理器1484可耦合至收发器1452、1454及处理器1406。在一些实施方案中,发送MIMO处理器1484可耦合至媒体网关1470。作为说明性的非限制性实例,发送数据处理器1482可经配置以从处理器1406接收消息或音频数据,且基于例如CDMA或正交频分多路复用(OFDM)的译码方案对所述消息或音频数据进行译码。发送数据处理器1482可将经译码数据提供至发送MIMO处理器1484。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用以产生经多路复用数据。随后可基于特定调制方案(例如二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M进制相移键控(“M-PSK”)、M进制正交振幅调制(“M-QAM”)等等)由发送数据处理器1482调制(即,符号映射)经多路复用数据以产生调制符号。在特定实施方案中,可使用不同调制方案调制经译码数据及其它数据。用于每一数据流的数据速率、译码及调制可由处理器1406所执行的指令确定。
发送MIMO处理器1484可经配置以从发送数据处理器1482接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,发送MIMO处理器1484可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列中的一或多个天线,调制符号是从所述一或多个天线发送。
在操作期间,基站1400的第二天线1444可接收数据流1414。第二收发器1454可从第二天线1444接收数据流1414,且可向解调器1462提供数据流1414。解调器1462可解调数据流1414的经调制信号,且将经解调数据提供至接收数据处理器1464。接收数据处理器1464可从经解调数据提取音频数据且将所提取音频数据提供至处理器1406。
处理器1406可将音频数据提供至转码器1410以用于转码。转码器1410的解码器1438可将音频数据从第一格式解码成经解码音频数据,且编码器1436可将经解码音频数据编码成第二格式。在一些实施方案中,编码器1436可使用比从无线装置进行接收更高的数据速率(例如升频转换)或更低的数据速率(例如降频转换)来编码音频数据。在其它实施方案中,音频数据可未被转码。尽管转码(例如解码及编码)被绘示为由转码器1410执行,但转码操作(例如解码及编码)可由基站1400的多个组件执行。举例来说,可由接收数据处理器1464执行解码且可由发送数据处理器1482执行编码。在其它实施方案中,处理器1406可将音频数据提供至媒体网关1470以供转换成另一发送协议、译码方案或两者。媒体网关1470可经由网络连接1460将经转换数据提供至另一基站或核心网络。
编码器1436可估计参考帧(例如第一帧131)与目标帧(例如第二帧133)之间的延迟。编码器1436还可基于延迟且基于历史延迟数据估计参考声道(例如第一音频信号130)与目标声道(例如第二音频信号132)之间的时间偏移。编码器1436可基于CODEC取样速率以不同分辨率量化及编码时间偏移(或最终移位)值以减少(或最小化)对系统的总延迟的影响。在一个实例实施方案中,编码器可以较高分辨率估计及使用时间偏移以供在编码器处用于多声道降混目的,然而,编码器可在较低分辨率下量化及发送以供在解码器处使用。解码器118可通过基于参考信号指示符164、非因果移位值162、增益参数160或其组合来解码经编码信号而产生第一输出信号126及第二输出信号128。可经由处理器1406将在编码器1436处产生的经编码音频数据(例如经转码数据)提供至发送数据处理器1482或网络连接1460。
可将来自转码器1410的经转码音频数据提供至发送数据处理器1482,用于根据调制方案(例如OFDM)进行译码,以产生调制符号。发送数据处理器1482可将调制符号提供至发送MIMO处理器1484,以供进一步处理及波束成形。发送MIMO处理器1484可应用波束成形权重,且可经由第一收发器1452将调制符号提供至天线阵列中的一或多个天线,例如第一天线1442。因此,基站1400可将对应于从无线装置接收的数据流1414的经转码数据流1416提供至另一无线装置。经转码数据流1416可具有与数据流1414不同的编码格式、数据速率或两者。在其它实施方案中,可将经转码数据流1416提供至网络连接1460,以供发送至另一基站或核心网络。
因此,基站1400可包含存储指令的计算机可读存储装置(例如存储器1432),所述指令在由处理器(例如处理器1406或转码器1410)执行时促使处理器执行包含估计参考帧与目标帧之间的延迟的操作。操作还包含基于延迟且基于历史延迟数据估计参考声道与目标声道之间的时间偏移。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施例所描述的各种说明性逻辑块、配置、模块、电路及算法步骤可被实施为电子硬件、由处理装置(例如硬件处理器)执行的计算机软件或两者的组合。上文已大体上在功能性方面描述了各种说明性组件、块、配置、模块、电路及步骤。此功能性被实施为硬件还是可执行软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,但不应将这些实施决策解释为造成脱离本发明的范围。
结合本文中所揭示的实施例而描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中,或两者的组合中。软件模块可驻留于存储器装置中,例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合至处理器,使得处理器可从存储器装置读取信息及将信息写入至存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代方案中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供所揭示的实施方案的先前描述以使所属领域的技术人员能够制作或使用所揭示的实施方案。所属领域的技术人员将显而易见对这些实施方案的各种修改,且在不脱离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非意欲限于本文中所展示的实施方案,而应符合可能与如所附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (52)

1.一种用于多声道音频信号在电子装置的编码器处的译码的方法,所述方法包括:
在所述编码器处估计比较值,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
在所述编码器处使所述比较值平滑以产生短期平滑比较值;
在所述编码器处基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;
在所述编码器处计算所述比较值与所述短期平滑比较值之间的交叉相关值;
在所述编码器处比较所述交叉相关值与阈值;
响应于确定所述交叉相关值超过所述阈值而在所述编码器处调整所述第一长期平滑比较值以产生第二长期平滑比较值;
在所述编码器处基于所述第二长期平滑比较值估计暂定移位值;
在所述编码器处基于所述暂定移位值确定非因果移位值;
在所述编码器处将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
在所述编码器处基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
2.根据权利要求1所述的方法,其中调整所述第一长期平滑比较值包括增大所述第一长期平滑比较值的子集的值。
3.根据权利要求2所述的方法,其中增大所述第一长期平滑比较值的所述子集的所述值包括至少增大第一索引的值,其中所述第一索引对应于第二目标帧的非因果移位值,所述第二目标帧紧接在所述第一目标帧之前。
4.根据权利要求3所述的方法,其中所述第一长期平滑比较值的所述子集包含第二索引及第三索引,其中所述第二索引比所述第一索引小一,且所述第三索引比所述第一索引大一。
5.根据权利要求1所述的方法,其中所述短期平滑比较值是进一步基于至少一个先前帧的短期平滑比较值。
6.根据权利要求5所述的方法,其中使所述比较值平滑以产生所述短期平滑比较值包括对所述比较值进行有限脉冲响应FIR滤波。
7.根据权利要求1所述的方法,其中所述第一长期平滑比较值是进一步基于所述比较值及至少一个先前帧的第二长期平滑比较值的加权混合。
8.根据权利要求7所述的方法,其中使所述比较值平滑以产生所述第一长期平滑比较值包括对所述比较值进行无限脉冲响应IIR滤波。
9.根据权利要求1所述的方法,其中计算所述交叉相关值包括用所述比较值中的每一值乘以所述短期平滑比较值中的每一值。
10.根据权利要求1所述的方法,其中所述比较值对应于经减少取样参考声道与对应经减少取样目标声道的交叉相关值。
11.根据权利要求1所述的方法,其进一步包括在所述编码器处基于所述短期平滑比较值相对于所述第二长期平滑比较值的变化而适配所述平滑参数。
12.根据权利要求1所述的方法,其中所述平滑参数的值是基于输入声道的短期能量指示符及所述输入声道的长期能量指示符而调整。
13.根据权利要求1所述的方法,其中所述电子装置包括移动装置。
14.根据权利要求1所述的方法,其中所述电子装置包括基站。
15.一种用于多声道音频信号的译码的设备,其包括:
第一麦克风,其经配置以捕获参考声道的第一参考帧;
第二麦克风,其经配置以捕获目标声道的对应第一目标帧;及
编码器,其经配置以:
估计比较值,每一比较值指示所述参考声道的所述第一参考帧与所述目标声道的所述第一目标帧之间的时间失配量;
使所述比较值平滑以产生短期平滑比较值;
基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;
计算所述比较值与所述短期平滑比较值之间的交叉相关值;
比较所述交叉相关值与阈值;
响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值;
基于所述第二长期平滑比较值估计暂定移位值;
基于所述暂定移位值确定非因果移位值;
将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
16.根据权利要求15所述的设备,其中所述编码器经配置以通过增大所述第一长期平滑比较值的子集的值来调整所述第一长期平滑比较值。
17.根据权利要求16所述的设备,其中所述编码器经配置以通过至少增大第一索引的值来调整所述第一长期平滑比较值,其中所述第一索引对应于第二目标帧的非因果移位值,所述第二目标帧紧接在所述第一目标帧之前。
18.根据权利要求17所述的设备,其中所述第一长期平滑比较值的所述子集包含第二索引及第三索引,其中所述第二索引比所述第一索引小一,且所述第三索引比所述第一索引大一。
19.根据权利要求15所述的设备,其中所述编码器经配置以通过对所述比较值进行有限脉冲响应FIR滤波来使所述比较值平滑以产生短期平滑比较值。
20.根据权利要求15所述的设备,其中所述第一长期平滑比较值是进一步基于所述比较值及至少一个先前帧的第二长期平滑比较值的加权混合。
21.根据权利要求20所述的设备,其中所述编码器经配置以通过对所述比较值进行无限脉冲响应IIR滤波来使所述比较值平滑以产生长期平滑比较值。
22.根据权利要求15所述的设备,其中所述比较值为经减少取样参考声道与对应经减少取样目标声道的交叉相关值。
23.根据权利要求15所述的设备,其中所述编码器集成至移动装置中。
24.根据权利要求15所述的设备,其中所述编码器集成至基站中。
25.一种非暂时性计算机可读介质,其包括在由编码器执行时促使所述编码器执行包括以下各者的操作的指令:
估计比较值,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
使所述比较值平滑以产生短期平滑比较值;
基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;
计算所述比较值与所述短期平滑比较值之间的交叉相关值;
比较所述交叉相关值与阈值;
响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值;
基于所述第二长期平滑比较值估计暂定移位值;
基于所述暂定移位值确定非因果移位值;
将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
26.根据权利要求25所述的非暂时性计算机可读介质,其中所述操作进一步包括调整所述第一长期平滑比较值,包括增大所述第一长期平滑比较值的子集的值。
27.根据权利要求26所述的非暂时性计算机可读介质,其中增大所述第一长期平滑比较值的所述子集的所述值包括至少增大第一索引的值,其中所述第一索引对应于第二目标帧的非因果移位值,所述第二目标帧紧接在所述第一目标帧之前。
28.根据权利要求25所述的非暂时性计算机可读介质,其中计算所述交叉相关值包括用所述比较值中的每一值乘以所述短期平滑比较值中的每一值。
29.一种用于多声道音频信号的译码的设备,其包括:
用于估计比较值的装置,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
用于使所述比较值平滑以产生短期平滑比较值的装置;
用于基于平滑参数使所述比较值平滑以产生第一长期平滑比较值的装置;
用于计算所述比较值与所述短期平滑比较值之间的交叉相关值的装置;
用于比较所述交叉相关值与阈值的装置;
用于响应于确定所述交叉相关值超过所述阈值而调整所述第一长期平滑比较值以产生第二长期平滑比较值的装置;
用于基于所述第二长期平滑比较值估计暂定移位值的装置;
用于基于所述暂定移位值确定非因果移位值的装置;
用于将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道的装置;及
用于基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者的装置。
30.根据权利要求29所述的设备,其中所述用于调整所述第一长期平滑比较值的装置包括用于增大所述第一长期平滑比较值的子集的值的装置。
31.根据权利要求30所述的设备,其中所述用于增大所述第一长期平滑比较值的所述子集的所述值的装置包括用于至少增大第一索引的值的装置,其中所述第一索引对应于第二目标帧的非因果移位值,所述第二目标帧紧接在所述第一目标帧之前。
32.根据权利要求29所述的设备,其中所述用于计算所述交叉相关值的装置包括用于用所述比较值中的每一值乘以所述短期平滑比较值中的每一值的装置。
33.一种用于多声道音频信号在电子装置的编码器处的译码的方法,所述方法包括:
在所述编码器处估计比较值,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
在所述编码器处基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;在所述编码器处计算所述参考声道的第二参考帧与所述目标声道的对应第二目标帧之间的增益参数,所述增益参数是基于所述第二参考帧的能量及所述第二目标帧的能量,其中所述第二参考帧先于所述第一参考帧且所述第二目标帧先于所述第一目标帧;
在所述编码器处比较所述增益参数与第一阈值;
响应于所述比较而在所述编码器处调整所述第一长期平滑比较值的第一子集以产生第二长期平滑比较值;
在所述编码器处基于所述第二长期平滑比较值估计暂定移位值;
在所述编码器处基于所述暂定移位值确定非因果移位值;
在所述编码器处将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
在所述编码器处基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
34.根据权利要求33所述的方法,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而强调所述第一长期平滑比较值的正移位侧。
35.根据权利要求33所述的方法,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的负移位侧。
36.根据权利要求33所述的方法,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数小于所述第一阈值的所述比较而强调所述第一长期平滑比较值的负移位侧。
37.根据权利要求33所述的方法,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的正移位侧。
38.一种用于多声道音频信号的译码的设备,其包括:
第一麦克风,其经配置以捕获参考声道的第一参考帧;
第二麦克风,其经配置以捕获目标声道的对应第一目标帧;及
编码器,其经配置以:
估计比较值,每一比较值指示所述参考声道的所述第一参考帧与所述目标声道的所述对应第一目标帧之间的时间失配量;
基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;
计算所述参考声道的第二参考帧与所述目标声道的对应第二目标帧之间的增益参数,所述增益参数是基于所述第二参考帧的能量及所述第二目标帧的能量,其中所述第二参考帧先于所述第一参考帧且所述第二目标帧先于所述第一目标帧;
比较所述增益参数与第一阈值;
响应于所述比较而调整所述第一长期平滑比较值的第一子集以产生第二长期平滑比较值;
基于所述第二长期平滑比较值估计暂定移位值;
基于所述暂定移位值确定非因果移位值;
将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
39.根据权利要求38所述的设备,其中所述编码器经配置以通过响应于所述增益参数大于所述第一阈值的所述比较而强调所述第一长期平滑比较值的正移位侧来调整所述第一长期平滑比较值的所述第一子集。
40.根据权利要求38所述的设备,其中所述编码器经配置以通过响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的负移位侧来调整所述第一长期平滑比较值的所述第一子集。
41.根据权利要求38所述的设备,其中所述编码器经配置以通过响应于所述增益参数小于所述第一阈值的所述比较而强调所述第一长期平滑比较值的负移位侧来调整所述第一长期平滑比较值的所述第一子集。
42.根据权利要求38所述的设备,其中所述编码器经配置以通过响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的正移位侧来调整所述第一长期平滑比较值的所述第一子集。
43.一种非暂时性计算机可读介质,其包括在由编码器执行时促使所述编码器执行包括以下各者的操作的指令:
估计比较值,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
基于平滑参数使所述比较值平滑以产生第一长期平滑比较值;
计算所述参考声道的第二参考帧与所述目标声道的对应第二目标帧之间的增益参数,所述增益参数是基于所述第二参考帧的能量及所述第二目标帧的能量,其中所述第二参考帧先于所述第一参考帧且所述第二目标帧先于所述第一目标帧;
比较所述增益参数与第一阈值;
响应于所述比较而在所述编码器处调整所述第一长期平滑比较值的第一子集以产生第二长期平滑比较值;
基于所述第二长期平滑比较值估计暂定移位值;
基于所述暂定移位值确定非因果移位值;
将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道;及
基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者。
44.根据权利要求43所述的非暂时性计算机可读介质,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而强调所述第一长期平滑比较值的正移位侧。
45.根据权利要求43所述的非暂时性计算机可读介质,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的负移位侧。
46.根据权利要求43所述的非暂时性计算机可读介质,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数小于所述第一阈值的所述比较而强调所述第一长期平滑比较值的负移位侧。
47.根据权利要求43所述的非暂时性计算机可读介质,其中调整所述第一长期平滑比较值的所述第一子集包括响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的正移位侧。
48.一种用于多声道音频信号在电子装置的编码器处的译码的设备,所述设备包括:
用于在所述编码器处估计比较值的装置,每一比较值指示参考声道的第一参考帧与目标声道的对应第一目标帧之间的时间失配量;
用于在所述编码器处基于平滑参数使所述比较值平滑以产生第一长期平滑比较值的装置;
用于在所述编码器处计算所述参考声道的第二参考帧与所述目标声道的对应第二目标帧之间的增益参数的装置,所述增益参数是基于所述第二参考帧的能量及所述第二目标帧的能量,其中所述第二参考帧先于所述第一参考帧且所述第二目标帧先于所述第一目标帧;
用于比较所述增益参数与第一阈值的装置;
用于响应于所述比较而在所述编码器处调整所述第一长期平滑比较值的第一子集以产生第二长期平滑比较值的装置;
用于在所述编码器处基于所述第二长期平滑比较值估计暂定移位值的装置;
用于在所述编码器处基于所述暂定移位值确定非因果移位值的装置;
用于在所述编码器处将特定目标声道非因果地移位所述非因果移位值以产生与特定参考声道在时间上对准的经调整特定目标声道的装置;及
用于在所述编码器处基于所述特定参考声道及所述经调整特定目标声道产生中带声道或旁带声道中的至少一者的装置。
49.根据权利要求48所述的设备,其中用于调整所述第一长期平滑比较值的所述第一子集的装置包括用于响应于所述增益参数大于所述第一阈值的所述比较而强调所述第一长期平滑比较值的正移位侧的装置。
50.根据权利要求48所述的设备,其中用于调整所述第一长期平滑比较值的所述第一子集的装置包括用于响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的负移位侧的装置。
51.根据权利要求48所述的设备,其中用于调整所述第一长期平滑比较值的所述第一子集的装置包括用于响应于所述增益参数小于所述第一阈值的所述比较而强调所述第一长期平滑比较值的负移位侧的装置。
52.根据权利要求48所述的设备,其中用于调整所述第一长期平滑比较值的所述第一子集的装置包括用于响应于所述增益参数大于所述第一阈值的所述比较而不再强调所述第一长期平滑比较值的正移位侧的装置。
CN201880058500.7A 2017-09-11 2018-09-10 时间偏移估计 Active CN111095404B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762556653P 2017-09-11 2017-09-11
US62/556,653 2017-09-11
US16/115,129 2018-08-28
US16/115,129 US10891960B2 (en) 2017-09-11 2018-08-28 Temporal offset estimation
PCT/US2018/050242 WO2019051399A1 (en) 2017-09-11 2018-09-10 ESTIMATION OF TIME SHIFT

Publications (2)

Publication Number Publication Date
CN111095404A CN111095404A (zh) 2020-05-01
CN111095404B true CN111095404B (zh) 2021-12-17

Family

ID=65632369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880058500.7A Active CN111095404B (zh) 2017-09-11 2018-09-10 时间偏移估计

Country Status (10)

Country Link
US (1) US10891960B2 (zh)
EP (1) EP3682446B1 (zh)
KR (1) KR102345910B1 (zh)
CN (1) CN111095404B (zh)
AU (1) AU2018329187B2 (zh)
BR (1) BR112020004703A2 (zh)
ES (1) ES2889929T3 (zh)
SG (1) SG11202001284YA (zh)
TW (1) TWI769304B (zh)
WO (1) WO2019051399A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10812310B1 (en) * 2019-10-17 2020-10-20 Sirius Xm Radio Inc. Method and apparatus for advanced OFDM triggering techniques
US11178447B1 (en) * 2020-05-05 2021-11-16 Twitch Interactive, Inc. Audio synchronization for audio and video streaming
US11900961B2 (en) * 2022-05-31 2024-02-13 Microsoft Technology Licensing, Llc Multichannel audio speech classification

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101809655A (zh) * 2007-09-25 2010-08-18 摩托罗拉公司 用于编码多信道音频信号的设备和方法
WO2010127489A1 (zh) * 2009-05-07 2010-11-11 华为技术有限公司 检测信号延迟的方法、检测装置及编码器
CN106463136A (zh) * 2014-06-26 2017-02-22 高通股份有限公司 基于高频带信号特征的时间增益调整

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US8437720B2 (en) * 2002-12-02 2013-05-07 Broadcom Corporation Variable-gain low noise amplifier for digital terrestrial applications
EP1667109A4 (en) * 2003-09-17 2007-10-03 Beijing E World Technology Co METHOD AND DEVICE FOR QUANTIFYING MULTI-RESOLUTION VECTOR FOR AUDIO CODING AND DECODING
CN1906664A (zh) * 2004-02-25 2007-01-31 松下电器产业株式会社 音频编码器和音频解码器
US7272567B2 (en) * 2004-03-25 2007-09-18 Zoran Fejzo Scalable lossless audio codec and authoring tool
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
BR112012020993A2 (pt) * 2010-02-24 2016-05-03 Nippon Telegraph & Telephone método de codificação de vídeo de múltiplas visões , método de decodificação de vídeo de múltiplas visões, aparelho de codificação de vídeo de múltiplas visões, aparelho de decodificação de vídeo de múltiplas visões , e programa
JP5947971B2 (ja) * 2012-04-05 2016-07-06 華為技術有限公司Huawei Technologies Co.,Ltd. マルチチャネルオーディオ信号の符号化パラメータを決定する方法及びマルチチャネルオーディオエンコーダ
CN104885151B (zh) * 2012-12-21 2017-12-22 杜比实验室特许公司 用于基于感知准则呈现基于对象的音频内容的对象群集
US10693936B2 (en) * 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
DK3353779T3 (da) * 2015-09-25 2020-08-10 Voiceage Corp Fremgangsmåde og system til kodning af et stereolydssignal ved at anvende kodningsparametre for en primær kanal til at kode en sekundær kanal
US10152977B2 (en) 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
US10045145B2 (en) 2015-12-18 2018-08-07 Qualcomm Incorporated Temporal offset estimation
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
US9978381B2 (en) 2016-02-12 2018-05-22 Qualcomm Incorporated Encoding of multiple audio signals
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101809655A (zh) * 2007-09-25 2010-08-18 摩托罗拉公司 用于编码多信道音频信号的设备和方法
WO2010127489A1 (zh) * 2009-05-07 2010-11-11 华为技术有限公司 检测信号延迟的方法、检测装置及编码器
CN106463136A (zh) * 2014-06-26 2017-02-22 高通股份有限公司 基于高频带信号特征的时间增益调整

Also Published As

Publication number Publication date
BR112020004703A2 (pt) 2020-09-15
TW201921338A (zh) 2019-06-01
TWI769304B (zh) 2022-07-01
AU2018329187A1 (en) 2020-03-05
KR20200051609A (ko) 2020-05-13
SG11202001284YA (en) 2020-03-30
WO2019051399A1 (en) 2019-03-14
EP3682446B1 (en) 2021-08-25
US20190080703A1 (en) 2019-03-14
EP3682446A1 (en) 2020-07-22
CN111095404A (zh) 2020-05-01
KR102345910B1 (ko) 2021-12-30
ES2889929T3 (es) 2022-01-14
AU2018329187B2 (en) 2022-09-01
US10891960B2 (en) 2021-01-12

Similar Documents

Publication Publication Date Title
KR102230623B1 (ko) 다중의 오디오 신호들의 인코딩
CN108292505B (zh) 多重音频信号的编码
EP3391371B1 (en) Temporal offset estimation
EP3692525B1 (en) Decoding of audio signals
CN108431890B (zh) 多音频信号的编码
CN111164680B (zh) 一种用于通信的装置及方法
CN110622242A (zh) 用于立体声解码的立体声参数
CN111095404B (zh) 时间偏移估计
CN111149158A (zh) 音频信号的解码
CN110800051A (zh) 具有时域信道间带宽延展的高频带残值预测
CN111149156B (zh) 音频信号的解码

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019977

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant