CN110770825B - 时域通道间预测 - Google Patents
时域通道间预测 Download PDFInfo
- Publication number
- CN110770825B CN110770825B CN201880041280.7A CN201880041280A CN110770825B CN 110770825 B CN110770825 B CN 110770825B CN 201880041280 A CN201880041280 A CN 201880041280A CN 110770825 B CN110770825 B CN 110770825B
- Authority
- CN
- China
- Prior art keywords
- channel
- band
- low
- inter
- decoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 23
- 230000003595 spectral effect Effects 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 description 78
- 230000002123 temporal effect Effects 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000003111 delayed effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000004044 response Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000009977 dual effect Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004091 panning Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供一种方法,所述方法包含解码经编码中间通道的低频带部分以产生经解码低频带中间通道。所述方法还包含根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道。所述方法还包含基于所述低频带经滤波中间通道及通道间预测增益产生通道间预测信号。所述方法进一步包含基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道。
Description
优先权主张
本申请案要求保护2017年7月3日申请的共同拥有的美国临时专利申请案第62/528,378号和2018年6月8日申请的美国非临时专利申请案第16/003,704号的优先权权益,所述申请案中的每一者以全文引用的方式并入本文中。
技术领域
本发明一般涉及多个音频信号的编码。
背景技术
技术的进步已带来更小且更强大的计算装置。举例来说,多种便携个人计算装置(包含诸如移动及智能电话的无线电话、平板计算机及膝上型计算机)体积小、重量轻且易于由用户携带。这些装置可经由无线网络传达话音及数据包。另外,许多此类装置并入额外功能,诸如数字静态相机、数字视频相机、数字记录器及音频文件播放器。又,这些装置可处理可执行指令,包含软件应用程序,诸如可用以存取因特网的网络浏览器应用程序。因而,这些装置可包含显著计算能力。
计算装置可包含或耦合至多个麦克风以接收音频信号。一般来说,与多个麦克风的第二麦克风相比,声源更接近于第一麦克风。因此,由于麦克风距声源的相应距离,从第二麦克风接收的第二音频信号可相对于从第一麦克风接收的第一音频信号延迟。在其它实施方案中,第一音频信号可相对于第二音频信号延迟。在立体编码中,来自麦克风的音频信号可经编码以产生中间通道信号及一或多个侧通道信号。中间通道信号对应于第一音频信号及第二音频信号的总和。侧通道信号对应于第一音频信号与第二音频信号之间的差。
发明内容
在特定实施方案中,一种装置包含接收器,所述接收器经配置以接收包含经编码中间通道及通道间预测增益的位流。所述装置还包含低频带中间通道解码器,所述低频带中间通道解码器经配置以解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道。所述装置还包含低频带中间通道滤波器,所述低频带中间通道滤波器经配置以根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道。所述装置还包含通道间预测器,所述通道间预测器经配置以基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号。所述装置还包含升混处理器,所述升混处理器经配置以基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道。所述装置进一步包含高频带中间通道解码器,所述高频带中间通道解码器经配置以解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道。所述装置还包含通道间预测映射器,所述通道间预测映射器经配置以基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生预测高频带侧通道。所述装置进一步包含通道间带宽延展解码器,所述通道间带宽延展解码器经配置以基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
在另一特定实施方案中,一种方法包含接收包含经编码中间通道及通道间预测增益的位流。所述方法还包含解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道。所述方法还包含根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道。所述方法还包含基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号。所述方法进一步包含基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道。所述方法还包含解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道。所述方法进一步包含基于所述通道间预测增益及所述经解码高频带中间通道的一经滤波版本产生经预测高频带侧通道。所述方法还包含基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由处理器内的处理器执行时,促使所述处理器执行包含接收位流的操作,所述位流包含经编码中间通道及通道间预测增益。所述操作还包含解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道。所述操作还包含根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道。所述操作还包含基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号。所述操作还包含基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道。所述操作还包含解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道。所述操作还包含基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道。所述操作还包含基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
在另一特定实施方案中,一种设备包含用于接收包含经编码中间通道及通道间预测增益的位流的装置。所述设备还包含用于解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道的装置。所述设备还包含用于根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道的装置。所述设备还包含用于基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号的装置。所述设备还包含用于基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道的装置。所述设备还包含用于解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道的装置。所述设备还包含用于基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道的装置。所述设备还包含用于基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道的装置。
在检阅整个申请案之后,本发明的其它实施方案、优势及特征将变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式及权利要求书。
附图说明
图1为包含可操作以执行时域通道间预测的解码器的系统的特定说明性实例的框图;
图2为说明图1的解码器的图;
图3为说明ICBWE解码器的图;
图4为执行时域通道间预测的方法的特定实例;
图5为可操作以执行时域通道间预测的移动装置的特定说明性实例的框图;及
图6为可操作以执行时域通道间预测的基站的框图。
具体实施方式
下文参考图式描述本发明的特定方面。在本说明书中,共同部件由共同参考编号指示。如本文所使用,各种术语仅仅用于描述特定实施方案的目的,且并不旨在限制实施方案。举例来说,除非上下文以其它方式明确地指示,否则单数形式“一”、“一个”及“所述”旨在同样包含复数形式。可进一步理解,术语“包括(comprises及comprising)”可与“包含(includes或including)”互换地使用。另外,应理解,术语“其中(wherein)”可与“其中(where)”互换使用。如本文所使用,用以修饰诸如结构、组件、操作等的元件的序数术语(例如,“第一”、“第二”、“第三”等)本身不指示元件关于另一元件的任何优先权或次序,而是仅将元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文所用,术语“集合”是指特定元件中的一或多者,且术语“多个”是指特定元件的多个(例如,两个或更多个)。
在本发明中,诸如“确定”、“计算”、“移位”、“调整”等的术语可用于描述如何执行一或多个操作。应注意,这些术语不应解释为限制性的且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“使用”、“选择”、“存取”及“确定”可互换地使用。举例来说,“产生”、“计算”或“确定”参数(或信号)可指主动地产生、计算或确定参数(或信号),或可指代使用、选择或存取已(诸如)由另一组件或装置产生的参数(或信号)。
本发明揭示可操作以编码及解码多个音频信号的系统及装置。装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如,多个麦克风)同时及时地捕捉多个音频信号。在一些实例中,可通过多路复用若干同时或非同时记录的音频通道合成地(例如,人工)产生多个音频信号(或多通道音频)。如说明性实例,音频通道的并行记录或多路复用可产生2通道配置(即,立体:左及右)、5.1通道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)通道)、7.1通道配置、7.1+4通道配置、22.2通道配置或N通道配置。
电话会议室(或远程呈现室)内的音频捕捉装置可包含获取空间音频的多个麦克风。空间音频可包含语音以及经编码且经发射的背景音频。视如何配置麦克风以及给定来源(例如,讲话者)位于相对于麦克风及房间大小的位置,来自所述来源(例如,讲话者)的语音/音频可于不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如,讲话者)可更接近与装置相关联的第一麦克风。因此,与第二麦克风相比,从声源发出的声音可更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中侧(MS)译码及参数立体(PS)译码为可提供优于双单通道译码技术的经改进性能的立体译码技术。在双单通道译码中,左(L)通道(或信号)及右(R)通道(或信号)经独立地译码,而不利用通道间相关。在译码的前,通过将左通道及右通道变换为总通道及差通道(例如,侧信号),MS译码减少相关L/R通道对之间的冗余。总和信号(还称作中间通道)及差信号(还称作侧通道)经波形译码或基于MS译码中的模型而译码。中间通道比侧通道耗费相对更多的位。PS译码通过将L/R信号变换成总和信号(或中间信号)及一组侧参数而减少每一子频带中的冗余。侧参数可指示通道间强度差(IID)、通道间相位差(IPD)、通道间时差(ITD)、侧或残值预测增益,等。总和信号为经译码的波形且与侧参数一起发射。在混合式系统中,侧通道可在较低频带(例如,小于2千赫兹(kHz))中经波形译码并在较高频带(例如,大于或等于2kHz)中经PS译码,其中通道间相位保持在感知上不太关键。在一些实施方案中,PS译码还可在波形译码的前用于较低频带中以减少通道间冗余。
可在频域或子频带域中完成MS译码及PS译码。在一些实例中,左通道及右通道可不相关。举例来说,左通道及右通道可包含不相关的合成信号。当左通道及右通道不相关时,MS译码、PS译码或两者的译码效率可接近于双单通道译码的译码效率。
取决于记录配置,可在左通道与右通道之间存在时间移位以及其它空间效应(诸如,回声及室内回响)。如果并不补偿通道之间的时间移位及相位失配,则总和通道及差通道可含有减少与MS或PS技术相关联的译码增益的可比能量。译码增益的减少可基于时间(或相位)移位的量。总和信号及差信号的可比能量可限制通道经时间移位但高度相关的某些帧中的MS译码的使用。在立体译码中,中间通道(例如,总和通道)及侧通道(例如,差通道)可基于以下公式产生:
M=(L+R)/2,S=(L-R)/2, 公式1
其中M对应于中间通道,S对应于侧通道,L对应于左通道,且R对应于右通道。
在一些情况下,中间通道及侧通道可基于以下公式产生:
M=c(L+R),S=c(L-R), 公式2
其中c对应于频率相关的复合值。基于公式1或公式2而产生中间通道及侧通道可被称作“降混”。基于公式1或公式2而自中间通道及侧通道产生左通道及右通道的相反过程可被称作“升混”。
在一些情况中,中间通道可是基于其它式,诸如:
M=(L+gDR)/2,或 公式3
M=g1L+g2R 公式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在频带中执行,其中中间(b)=c1L(b)+c2R(b),其中c1及c2为复数,其中侧(b)=c3L(b)-c4R(b),且其中c3及c4为复数。
用以在MS译码或双单通道译码之间选择特定帧的特别途径可包含:产生中间信号及侧信号,计算中间信号及侧信号的能量,并基于能量确定是否执行MS译码。举例来说,可执行MS译码以响应侧信号与中间信号的能量比小于阈值的确定。举例来说,如果右通道经移位至少一第一时间(例如,约0.001秒或48kHz下的48个样本),那么中间信号(对应于左信号及右信号的总和)的第一能量可与某些语音帧的侧信号(对应于左信号与右信号之间的差)的第二能量相当。当第一能量与第二能量相当时,较高数目个位可用于编码侧通道,借此减少MS译码相对于双单通道译码的译码效率。双单通道译码因此可在第一能量与第二能量相当时(例如,在第一能量与第二能量的比大于或等于阈值时)使用。在一替代途径中,可基于左通道与右通道的阈值及正规化交叉相关值的比较来在MS译码与双单通道译码之间决定何者用于特定帧。
在一些实例中,编码器可确定指示第一音频信号与第二音频信号之间的时间未对准的量的失配值。如本文所使用,“时间移位值”、“移位值”及“失配值”可被互换地使用。举例来说,编码器可确定指示第一音频信号相对于第二音频信号的移位(例如,时间失配)的时间移位值。时间失配值可对应于在第一麦克风处第一音频信号的接收与在第二麦克风处第二音频信号的接收之间的时间延迟的量。此外,编码器可在逐帧基础上(例如,基于每一20毫秒(ms)语音/音频帧)确定时间失配值。举例来说,时间失配值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,时间失配值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当声源距第一麦克风的距离比距第二麦克风的距离更近时,第二音频信号的帧可相对于第一音频信号的帧经延迟。在此情况下,第一音频信号可被称作“参考音频信号”或“参考通道”且经延迟第二音频信号可被称作“目标音频信号”或“目标通道”。替代地,当声源距离第二麦克风的距离比距第一麦克风的距离更近时,第一音频信号的帧可相对于第二音频信号的帧经延迟。在此情况下,第二音频信号可被称作参考音频信号或参考通道,且经延迟第一音频信号可被称作目标音频信号或目标通道。
视声源(例如,讲话者)位于会议室或远程呈现室内的位置及声源(例如,讲话者)位置如何相对于麦克风改变,参考通道及目标通道可自一个帧改变至另一帧;类似地,时间延迟值还可自一个帧改变至另一帧。然而,在一些实施方案中,时间失配值可始终是正的,以指示“目标”通道相对于“参考”通道的延迟量。此外,时间失配值可对应于“无关联移位”值,经延迟目标通道通过所述“无关联移位”值在时间上“经拉回”,以使得目标通道与“参考”通道对准(例如,最大限度地对准)。可对参考通道及经无关联移位的目标通道执行确定中间通道及侧通道的降混算法。
编码器可基于参考音频通道及应用于目标音频通道的多个时间失配值而确定时间失配值。举例来说,参考音频通道的第一帧X可在第一时间(m1)接收。目标音频通道的第一特定帧Y可在对应于第一时间失配值(例如,移位1=n1-m1)的第二时间(n1)处接收。另外,可在第三时间(m2)处接收参考音频通道的第二帧。目标音频通道的第二特定帧可在对应于第二时间失配值(例如,移位2=n2-m2)的第四时间(n2)处接收。
装置可以第一取样速率(例如,32kHz取样速率(即,640个样本每帧))执行组帧或缓冲算法,以产生帧(例如,20ms样本)。为响应第一音频信号的第一帧及第二音频信号的第二帧同时到达装置的确定,编码器可估计如等于零样本的时间失配值(例如,移位1)。可在时间上对准左通道(例如,对应于第一音频信号)及右通道(例如,对应于第二音频信号)。在一些情况下,即使当对准时,左通道及右通道可归因于各种原因(例如,麦克风校准)在能量方面存在不同。
在一些实例中,左通道及右通道可归因于各种原因(例如,与麦克风中的另一者相比,声源(诸如,讲话者)可更接近麦克风中的一者,且两个麦克风相隔距离可大于阈值(例如,1至20公分)距离)在时间上未对准。声源相对于麦克风的位置可在左通道及右通道中引入不同的延迟。另外,在左通道与右通道之间可存在增益差、能量差或电平差。
在一些实例中,在存在更多个通道的情况下,参考通道最初基于通道的电平或能量而被选择,且随后基于不同通道对之间的时间失配值(例如,t1(ref,ch2),t2(ref,ch3),t3(ref,ch4),…t3(ref,chN))而被优化,其中ch1为最初参考通道且t1(.)、t2(.)等为估计失配值的函数。若所有时间失配值是正的,则ch1被视为参考通道。如果失配值中的任一者为负值,那么参考通道经重配置成与产生负值的失配值相关联的通道且上述过程继续直至实现参考通道的最佳选择(例如,基于最大限度地去相关最大数目的侧通道)为止。滞后可用于克服参考通道选择中的任何急剧变化。
在一些实例中,当多个讲话者交替地讲话时(例如,在不重迭情况下),音频信号自多个声源(例如,讲话者)到达麦克风的时间可变化。在此情况下,编码器可基于讲话者动态地调节时间失配值以识别参考通道。在一些其它实例中,多个讲话者可同时讲话,取决于哪个讲话者最大声、距麦克风最近等,此可导致变化时间失配值。在此情况下,参考及目标通道的识别可基于当前帧中的变化的时间移位值及先前帧中的经估计时间失配值,及第一及第二音频信号的能量或时间演进。
在一些实例中,当两种信号可能展示较少(例如,无)相关度时,可合成或人工地产生第一音频信号及第二音频信号。应理解,本文所描述的实例为说明性且可在类似或不同情境中确定第一音频信号与第二音频信号之间的关是中具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较产生比较值(例如,差值或交叉相关值)。所述多个帧中的每一帧可对应于特定时间失配值。编码器可基于比较值产生第一经估计时间失配值。举例来说,第一经估计时间失配值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间较高时间类似性(或较低差)的比较值。
编码器可通过在多个阶段中优化一序列经估计时间失配值来确定最终时间失配值。举例来说,编码器可首先基于从第一音频信号及第二音频信号的立体经预处理及经重新取样版本产生的比较值而估计“暂订”时间失配值。编码器可产生与接近于经估计“暂订”时间失配值的时间失配值相关联的经内插比较值。编码器可基于经内插的比较值确定第二经估计“内插”时间失配值。举例来说,第二经估计“内插”时间失配值可对应于指示比剩余经内插的比较值及第一经估计“暂订”时间失配值更高的时间类似性(或较低差)的特定内插比较值。如果当前帧(例如,第一音频信号的第一帧)的第二经估计“内插”时间失配值与前一帧(例如,先于第一帧的第一音频信号的帧)的最终时间失配值不同,那么当前帧的“内插”时间失配值经进一步“修正”以改进第一音频信号与经移位第二音频信号之间的时间类似性。具体来说,第三经估计“修正”时间失配值可通过查究当前帧的第二经估计“内插”时间失配值及前一帧的最终经估计时间失配值来对应于时间类似性的更准确量度。第三经估计“修正”时间失配值经进一步调节以通过限制帧之间的时间失配值中的任何伪改变来估计最终时间失配值,且进一步受控制以不在如本文中所描述的两个连续(或相连)帧中从负时间失配值切换到正时间失配值(或反之亦然)。
在一些实例中,编码器可制止在相连帧中或在邻近帧中在正时间失配值与负时间失配值之间切换或反之亦然。举例来说,编码器可将最终时间失配值设置成特定值(例如,0),所述特定值基于第一帧的经估计“内插”或“修正”时间失配值及先于第一帧的特定帧中的对应经估计“内插”或“修正”或最终时间失配值而指示无时间移位。举例来说,为响应当前帧的经估计的“暂订”或“内插”或“修正”时间失配值中的一者为正的且前一帧(例如,先于第一帧的帧)的经估计的“暂订”或“内插”或“修正”或“最终”经估计时间失配值中的另一者为负的的确定,编码器可设置当前帧(例如,第一帧)的最终时间失配值以指示无时间移位,即移位1=0。替代地,为响应当前帧的经估计的“暂订”或“内插”或“修正”时间失配值中的一者为负的且前一帧(例如,先于第一帧的帧)的经估计的“暂订”或“内插”或“修正”或“最终”经估计时间失配值中的另一者为正的的确定,编码器还可设置当前帧(例如,第一帧)的最终时间失配值以指示无时间移位,即移位1=0。
编码器可基于时间失配值而将第一音频信号或第二音频信号的帧选作“参考”或“目标”。举例来说,为响应最终时间失配值为正的的确定,编码器可产生具有一第一值(例如,0)的参考通道或信号指示符,所述第一值指示第一音频信号为“参考”信号且第二音频信号为“目标”信号。替代地,为响应最终时间失配值为负的的确定,编码器可产生具有第二值(例如,1)的参考通道或信号指示符,所述第二值指示第二音频信号为“参考”信号且第一音频信号为“目标”信号。
编码器可估计与参考信号及无关联经移位目标信号相关联的相对增益(例如,相对增益参数)。举例来说,为响应最终时间失配值为正的的确定,编码器可估计增益值以正规化或均衡第一音频信号相对于第二音频信号的按无关联时间失配值(例如,最终时间失配值的绝对值)偏移的振幅或功率电平。替代地,为响应最终时间失配值为负的的确定,编码器可估计增益值以正规化或均衡无关联经移位第一音频信号相对于第二音频信号的功率或振幅电平。在一些实例中,编码器可估计增益值以正规化或均衡“参考”信号相对于无关联经移位“目标”信号的振幅或功率电平。在其它实例中,编码器可相对于目标信号(例如,未移位的目标信号)基于参考信号来估计增益值(例如,相对增益值)。
编码器可基于参考信号、目标信号、无关联时间失配值及相对增益参数产生至少一个经编码信号(例如,中间信号、侧信号或两者)。在其它实施方案中,编码器可基于参考通道及时间失配经调节目标通道产生至少一个经编码信号(例如,中间通道、侧通道或两者)。侧信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的所选择帧的所选择样本之间的差。编码器可基于最终时间失配值选择所选帧。由于第一样本与所选择样本之间的减小的差,相比于对应于第二音频信号的帧(与第一帧同时由装置接收)的第二音频信号的其它样本,更少的位可用于编码侧通道信号。装置的发射器可发射至少一个经编码信号、无关联时间失配值、相对增益参数、参考通道或信号指示符,或其组合。
编码器可基于参考信号、目标信号、无关联时间失配值、相对增益参数、第一音频信号的一特定帧的低频带参数、所述特定帧的高频带参数,或其组合产生至少一个经编码信号(例如,中间信号、侧信号或两者)。特定帧可先于第一帧。来自一或多个前述帧的某些低频带参数、高频带参数或其组合可用于编码第一帧的中间信号、侧信号或两者。基于低频带参数、高频带参数或其组合对中间信号、侧信号或两者进行编码可改进无关联时间失配值及通道间相对增益参数的估计值。低频带参数、高频带参数或其组合可包含:音调参数、话音参数、译码器类型参数、低频带能量参数、高频带能量参数、包络参数(例如,倾角参数)、音调增益参数、通道增益参数、译码模式参数、话音活动参数、噪音估计参数、信噪比参数、共振峰参数、语音/音乐决策参数、无关联移位、通道间增益参数或其组合。装置的发射器可发射至少一个经编码信号、无关联时间失配值、相对增益参数、参考通道(或信号)指示符或其组合。在本发明中,诸如“确定”、“计算”、“移位”、“调节”等的术语可用于描述如何执行一或多个操作。应注意,这些术语不应解释为限制性的且其它技术可用以执行类似操作。
参看图1,揭示系统的特定说明性实例且一般将其指定为100。系统100包含经由网络120以通信方式耦合至第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104包含存储器153、编码器134、发射器110及一或多个输入接口112。存储器153包含非暂时性计算机可读媒体,其包含指令191。指令191可由编码器134执行以执行本文中所描述的操作中的一或多者。输入接口112中的第一输入接口可耦合至第一麦克风146。输入接口112中的第二输入接口可耦合至第二麦克风148。编码器134可包含通道间带宽扩展(ICBWE)编码器136。
第二装置106包含接收器160及解码器162。解码器162可包含高频带中间通道解码器202、低频带中间通道解码器204、高频带中间通道滤波器207、通道间预测映射器208、低频带中间通道滤波器212、通道间预测器214、升混处理器224及ICBWE解码器226。解码器162还可包含图1中未说明的一或多个其它组件。举例来说,解码器162可包含一或多个变换单元,所述一或多个变换单元经配置以将时域通道(例如,时域信号)变换成频域(例如,变换域)。与解码器162的操作相关联的额外细节关于图2及3进行描述。
第二装置106可耦合至第一扩音器142、第二扩音器144或其两者。尽管未图示,但第二装置106可包含其它组件,此处理器(例如,中央处理单元)、麦克风、发射器、天线、存储器等。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频通道130(例如,第一音频信号)并可经由第二输入接口从第二麦克风148接收第二音频通道132(例如,第二音频信号)。第一音频通道130可对应于右通道或左通道中的一者。第二音频通道132可对应于右通道或左通道中的另一者。与第二麦克风148相比,声源152(例如,用户、扬声器、环境噪音、乐器等)可更接近第一麦克风146。因此,来自声源152的音频信号可在与经由第二麦克风148相比较早时间处经由第一麦克风146在输入接口112处接收。经由多个麦克风获取的多通道信号的此固有延迟可在第一音频通道130与第二音频通道132之间引入时间未对准。
根据一个实施方案,第一音频通道130可为“参考通道”,且第二音频通道132可为“目标通道”。目标通道可经调节(例如,经时间移位)以基本上与参考通道对准。根据另一实施方案,第二音频通道132可为参考通道,且第一音频通道130可为目标通道。根据一个实施方案,参考通道及目标通道可在逐帧基础上变化。举例来说,对于第一帧,第一音频通道130可为参考通道,且第二音频通道132可为目标通道。然而,对于第二帧(例如,后续帧),第一音频通道130可为目标通道且第二音频通道132可为参考通道。为便于描述,除非下文另外指出,否则第一音频通道130为参考通道,且第二音频通道132为目标通道。应注意关于音频通道130、132所描述的参考通道可独立于参考通道指示符192(例如,高频带参考通道指示符)。举例来说,高频带参考通道指示符192可指示通道130、132任一者的高频带为高频带参考通道,且高频带参考通道指示符192可指示可为与参考通道相同或不同的通道的一高频带参考通道。
编码器134可对第一音频通道(ch1)130及第二音频通道(ch2)132执行时域降混操作以产生中间通道(Mid)154及侧通道(Side)155。中间通道154可表达为:
Mid=α*ch1+(1-α)*ch2 公式5
且侧通道155可表达为:
Side=(1-α)*ch1-α*ch2 公式6,
其中α对应于编码器134处的降混因数及解码器162处的升混因数166。如本文中所使用,α经描述为升混因数166;然而,应理解在编码器134处,α为用于降混通道130、132的降混因数。升混因数166可在零与一之间变化。如果升混因数166为0.5,那么编码器134执行被动降混。如果升混因数166等于一,那么中间通道154映射至第一音频通道(ch1)130且侧通道155映射至第二音频通道132的负值(例如,-ch2)。在公式5及公式6中,通道130、132经通道间对准,使得无关联移位及目标增益被应用。中间通道154及侧通道155在核心(例如,0至6.4kHz或0至8kHz)中经波形译码,且与侧通道155相比,更多位经指定以译码中间通道154。编码器134可编码中间通道以产生经编码中间通道182。
编码器134还可对中间通道154进行滤波以产生经滤波中间通道(Mid_filt)156。举例来说,编码器134可根据一或多个滤波器系数对中间通道154进行滤波以产生经滤波中间通道156。如下文所描述,由编码器134使用以对中间通道154进行滤波的滤波器系数可与由解码器162的中间通道滤波器212使用的滤波器系数270相同。经滤波中间通道156可为基于滤波器(例如,预定义滤波器、适应性低通及高通滤波器,其截止频率是基于音频信号类型语音、音乐、背景噪音、用于译码的位速率,或核心取样速率)的中间通道154的调节版本。举例来说,经滤波中间通道156可为中间通道154的适应性码簿分量、中间通道154的带宽扩展版本(例如,A(z/γ1(gamma1))),或基于应用于中间通道154的激励的侧通道155的感知加权滤波(PWF)。在替代实施方案中,经滤波中间通道156可为中间通道154的经高通滤波版本,且滤波器截止频率可取决于信号类型(例如,语音、音乐或背景噪音)。滤波器截止频率还可随位速率、核心取样速率,或使用的降混算法而变。在一个实施方案中,中间通道154可包含低频带中间通道及高频带中间通道。经滤波中间通道156可对应于用于估计通道间预测增益164的经滤波(例如,经高通滤波)低频带中间通道。在替代实施方案中,经滤波中间通道156还可对应于用于估计通道间预测增益164的经滤波高频带中间通道。在另一实施方案中,低通经滤波中间通道156(低频带)用以估计经预测中间通道。经预测中间通道是自经滤波侧通道减去且经滤波误差经编码。对于当前帧,经滤波误差及通道间预测参数经编码并经发射。
编码器134可使用闭合回路分析估计通道间预测增益(g_icp)164,使得侧通道155基本上等于经预测侧通道。经预测侧通道是基于通道间预测增益164与经滤波中间通道156的乘积(例如,g_icp*Mid_filt)。因此,通道间预测增益(g_icp)164可经估计以在编码器134处减少(例如,最小化)项(Side-g_icp*Mid_filt)。根据一些实施方案,通道间预测增益(g_icp)164基于失真量测(例如,感知加权均方误差(MS)或经高通滤波误差)。根据另一实施方案,通道间预测增益164可经估计同时减少(例如,最小化)侧通道155及中间通道154的高频部分。举例来说,通道间预测增益164可经估计以减少项(HHP(z)(Side-g_icp*Mid))。
编码器134还可确定(例如,估计)侧通道预测误差(error_ICP_hat)168。侧通道预测误差168可对应于侧通道155与经预测侧通道之间的差(例如,g_icp*Mid_filt)。侧通道预测误差(error_ICP_hat)168等于项(Side-g_icp*Mid_filt)。
ICBWE编码器136可经配置以基于合成非参考高频带及非参考目标通道估计ICBWE参数184。举例来说,ICBWE编码器136可估计残值预测增益390(例如,高频带侧通道增益)、频谱映射参数392、增益映射参数394、参考通道指示符192等。频谱映射参数392将非参考高频带通道的频谱(或能量)映射至合成的非参考高频带通道的频谱。增益映射参数394可将非参考高频带通道的增益映射至合成的非参考高频带通道的增益。参考通道指示符192可在逐帧基础上指示参考通道是左通道还是右通道。
发射器110可经由网络120将位流180发射至第二装置106。位流180至少包含经编码中间通道182、通道间预测增益164、升混因数166、侧通道预测误差168、ICBWE参数184及参考通道指示符192。根据其它实施方案,位流180可包含额外立体参数(例如,通道间强度差(IID)参数、通道间电平差(ILD)参数、通道间时差(ITD)参数、通道间相位差(IPD)参数、通道间话音参数、通道间音调参数、通道间增益参数等)。
第二装置106的接收器160可接收位流180,且解码器162解码位流180以产生第一通道(例如,左通道126)及第二通道(例如,右通道128)。第二装置106可经由第一扩音器142输出左通道126且可经由第二扩音器144输出右通道128。在替代性实例中,左通道126及右通道128可作为立体信号对发射至单个输出扩音器。关于图2至3进一步详细描述解码器162的操作。
参看图2,展示解码器162的特定实施方案。解码器162包含高频带中间通道解码器202、低频带中间通道解码器204、高频带中间通道滤波器207、通道间预测映射器208、低频带中间通道滤波器212、通道间预测器214、升混处理器224、ICBWE解码器226、组合电路228及组合电路230。根据一些实施方案,低频带中间通道滤波器212及高频带中间通道滤波器207经集成至单一组件(例如,单一滤波器)中。
经编码中间通道182经提供至高频带中间通道解码器202及低频带中间通道解码器204。低频带中间通道解码器204可经配置以解码经编码中间通道182的低频带部分以产生经解码低频带中间通道242。作为非限制性实例,如果经编码中间通道182为在50Hz与16kHz之间的具有音频内容的超宽带信号,那么经编码中间通道182的低频带部分可从50Hz跨越至8kHz,且经编码中间通道182的高频带部分可从8kHz跨越至16kHz。低频带中间通道解码器204可解码经编码中间通道182的低频带部分(例如,50Hz与8kHz之间的部分)以产生经解码低频带中间通道242。应理解,以上实例仅出于说明性目的,且不应解释为限制性的。在其它实例中,经编码中间通道182可为宽带信号、全频带信号等。经解码低频带中间通道242(例如,时域通道)经提供至升混处理器224。
经解码低频带中间通道242还提供至低频带中间通道滤波器212。低频带中间通道滤波器212可经配置以根据一或多个滤波器系数270对经解码低频带中间通道242进行滤波以产生低频带经滤波中间通道(Mid_filt)246。低频带经滤波中间通道156可为基于滤波器(例如,预定义滤波器)的经解码低频带中间通道242的调节版本。低频带经滤波中间通道246可包含经解码低频带中间通道242的适应性码簿分量或经解码低频带中间通道242的带宽延展版本。在替代实施方案中,低频带经滤波中间通道246可为经解码低频带中间通道242的经高通滤波版本且滤波器截止频率可取决于信号类型(例如,语音、音乐或背景噪音)。滤波器截止频率还可随位速率、核心取样速率,或使用的降混算法而变。低频带经滤波中间通道246可对应于经滤波(例如,经高通滤波)低频带中间通道。在替代实施方案中,低频带经滤波中间通道246还可对应于经滤波高频带中间通道。举例来说,低频带经滤波中间通道246可具有基本上类似于图1的经滤波中间通道156的特性。经滤波中间通道246经提供至通道间预测器214。
通道间预测器214还可接收通道间预测增益(g_icp)。通道间预测器214可经配置以基于低频带经滤波中间通道(Mid_filt)246及通道间预测增益(g_icp)164产生通道间预测信号(g_icp*Mid_filt)247。举例来说,通道间预测器214可将诸如通道间预测增益164的通道间预测参数映射至低频带经滤波中间通道246以产生通道间预测信号247。通道间预测信号247经提供至升混处理器224。
升混因数166(例如,α)及侧通道预测误差(error_ICP_hat)168还连同经解码低频带中间通道(Mid_hat)242及通道间预测信号(g_icp*Mid_filt)247一起提供至升混处理器224。升混处理器224可经配置以基于升混因数166(例如,α)、经解码低频带中间通道(Mid_hat)242、通道间预测信号(g_icp*Mid_filt)247及侧通道预测误差(error_ICP_hat)168产生低频带左通道248及低频带右通道250。举例来说,升混处理器224可分别根据公式7及公式8产生第一通道(Ch1)及第二通道(Ch2)。公式7及公式8表达为:
Ch1=α*Mid_hat+(1-α)*(g_icp*Mid_filt+error_ICP_hat) 公式7
Ch2=(1-α)*Mid_hat-α*(g_icp*Mid_filt+error_ICP_hat) 公式8
根据一个实施方案,第一通道(Ch1)为低频带左通道248及第二通道(Ch2)为低频带右通道250。根据另一实施方案,第一通道(Ch1)为低频带右通道250且第二通道(Ch2)为低频带左通道248。升混处理器224可在升混操作期间应用IID参数、ILD参数、ITD参数、IPD参数、通道间话音参数、通道间音调参数及通道间增益参数。低频带左通道248经提供至组合电路228,且低频带右通道250经提供至组合电路230。
根据一些实施方案,第一通道(Ch1)及第二通道(Ch2)分别根据公式9及公式10产生。
公式9及公式10表达为:
Ch1=α*Mid_hat+(1-α)*Side_hat+ICP_1 公式9
Ch2=(1-α)*Mid_hat-α*Side_hat+ICP_2 公式10,
其中Side_hat对应于经解码侧边通道(图中未示),其中ICP_1对应于α*(Mid-Mid_hat)+(1-α)*(Side-Side_hat),且其中ICP_2对应于(1-α)*(Mid-Mid_hat)-α*(Side-Side_hat)。根据公式9及公式10,Mid-Mid_hat相对于中间通道154更多被去相关且更多被白化。另外,Side-Side_hat是在编码器134处自Mid_hat预测同时减少项ICP_1及ICP_2。
高频带中间通道解码器202可经配置以解码经编码中间通道182的高频带部分以产生经解码高频带中间通道252。作为非限制性实例,如果经编码中间通道182为在50Hz与16kHz之间的具有音频内容的超宽带信号,那么经编码中间通道182的高频带部分可从8kHz跨越至16kHz。高频带中间通道解码器202可解码经编码中间通道182的高频带部分以产生经解码高频带中间通道252。经解码高频带中间通道252(例如,时域通道)经提供至高频带中间通道滤波器207及ICBWE解码器226。
高频带中间通道207可经配置以对经解码高频带中间通道252进行滤波以产生经滤波高频带中间通道253(例如,经解码高频带中间通道252的经滤波版本)。经滤波高频带中间通道253经提供至通道间预测映射器208。通道间预测映射器208可经配置以基于通道间预测增益(g_icp)164及经滤波高频带中间通道253产生经预测高频带侧通道254。举例来说,通道间预测映射器208可将通道间预测增益(g_icp)164应用于经滤波高频带中间通道253以产生经预测高频带侧通道254。在替代实施方案中,高频带中间通道滤波器207可基于低频带中间通道滤波器212或基于高频带特性。高频带中间通道滤波器207可经配置以执行频谱扩展或建立高频带中的扩散场声音。经滤波高频带经由ICP映射208映射至经预测侧频带通道254。经预测高频带侧通道254经提供至ICBWE解码器226。
ICBWE解码器226可经配置以基于经解码高频带中间通道252、经预测高频带侧通道254及ICBWE参数184产生高频带左通道256及高频带右通道258。关于图3描述ICBWE解码器226的操作。
参看图3,展示ICBWE解码器174的特定实施。ICBWE解码器226包含高频带残值产生单元302、频谱映射器304、增益映射器306、组合电路308、频谱映射器310、增益映射器312、组合电路314及通道选择器316。
经预测高频带侧通道254经提供至高频带残值产生单元302。残值预测增益390(经编码至位流180中)还经提供至高频带残值产生单元302。高频带残值产生单元302可经配置以将残值预测增益390应用于经预测高频带侧通道254以产生高频带残值通道324(例如,高频带侧通道)。高频带残值通道324经提供至组合电路314及频谱映射器310。
根据一个实施方案,对于12.8kHz低频带核心,经预测高频带侧通道254(例如,中间高频带立体填充信号)是通过高频带残值产生单元302使用残值预测增益而处理。举例来说,高频带残值产生单元302可将两频带增益映射至一阶滤波器。所述处理可在未翻转域(例如,涵盖32kHz信号的6.4kHz至14.4kHz)中执行。替代地,所述处理可对经频谱翻转及降混高频带通道(例如,涵盖基带处的6.4kHz至14.4kHz)执行。对于16kHz低频带核心,将中间通道低频带非线性激励与包络形状噪音混合以产生目标高频带非线性激励。目标高频带非线性激励是使用中间通道高频带低通滤波器来滤波以产生经解码高频带中间通道252。
经解码高频带中间通道252经提供至组合电路314及频谱映射器304。组合电路314可经配置以组合经解码高频带中间通道252与高频带残值通道324以产生高频带参考通道332。高频带参考通道332经提供至通道选择器316。
频谱映射器304可经配置以对经解码高频带中间通道252执行第一频谱映射操作以产生经频谱映射高频带中间通道320。举例来说,频谱映射器304可将频谱映射参数392(例如,经解量化频谱映射参数)应用于经解码高频带中间通道252以产生经频谱映射高频带中间通道320。经频谱映射高频带中间通道320经提供至增益映射器306。
增益映射器306可经配置以对经频谱映射高频带中间通道320执行第一增益映射操作以产生第一高频带增益映射通道322。举例来说,增益映射器306可将增益参数394应用于经频谱映射高频带中间通道320以产生第一高频带增益映射通道322。第一高频带增益映射通道322经提供至组合电路308。
频谱映射器310可经配置以对高频带残值通道324执行第二频谱映射操作以产生经频谱映射高频带残值通道326。举例来说,频谱映射器310可将频谱映射参数392应用于高频带残值通道324以产生经频谱映射高频带残值通道326。经频谱映射高频带残值通道326经提供至增益映射器312。
增益映射器312可经配置以对经频谱映射高频带残值通道326执行第二增益映射操作以产生第二高频带增益映射通道328。举例来说,增益映射器312可将增益参数394应用于经频谱映射高频带残值通道326以产生第二高频带增益映射通道328。第二高频带增益映射通道328经提供至组合电路308。
组合电路308可经配置以组合第一高频带增益映射通道322与第二高频带增益映射通道328以产生高频带目标通道330。高频带目标通道330经提供至通道选择器316。
通道选择器316可经配置以指定高频带参考通道332或高频带目标通道330中的一者作为高频带左通道256。通道选择器316还可经配置以指定高频带参考通道332或高频带目标通道330中的另一者作为高频带右通道258。举例来说,参考通道指示符192经提供至通道选择器316。如果参考通道指示符192具有二进制值“0”,那么通道选择器316指定高频带参考通道332作为高频带左通道256且指定高频带目标通道330作为高频带右通道258。如果参考通道指示符192具有二进制值“1”,那么通道选择器316指定高频带参考通道332作为高频带右通道285且指定高频带目标通道330作为高频带左通道256。
返回参看图2,高频带左通道256经提供至组合电路228,且高频带右通道258经提供至组合电路230。组合电路228可经配置以组合低频带左通道248与高频带左通道256以产生左通道126,且组合电路230可经配置以组合低频带右通道250与高频带右通道258以产生右通道128。
根据一些实施方案,左通道126及右通道128可经提供至通道间对准器(图中未展示)以基于在编码器134处确定的时间移位值时间移位通道126、128的滞后通道(例如,目标通道)。举例来说,编码器134可通过时间移位第二音频通道132(例如,目标通道)以与第一音频通道130(例如,参考通道)时间对准而执行通道间对准。通道间对准器(图中未示)可执行反向操作以时间移位通道126、128的滞后通道。
关于图1至3所描述的技术可使得增强型立体特性(例如,增强型立体平移及增强型立体加宽),通常通过发射侧通道155的经编码版本至解码器162来达成,在解码器162处使用比编码侧通道155所需要的位少的位实现。举例来说,替代译码侧通道155及发射侧通道155的经编码版本至解码器162,侧通道预测误差(error_ICP_hat)168及通道间预测增益(g_icp)164可经编码并作为位流180的部分发射至解码器162。侧通道预测误差(error_ICP_hat)168及通道间预测增益(g_icp)164包含比侧通道155少(例如,小于侧通道155)的数据,此可减少数据发射。结果,与次优立体平移及次优立体加宽相关联的失真可减少。举例来说,当模型化比定向更均一的环境噪音时,同相失真及异相失真可减少(例如,减至最小)。
根据一些实施方案,上文所描述的通道间预测技术可延展至多个流。举例来说,对应于一阶立体混响分量或信号的通道W、通道X、通道Y及通道Z可通过编码器134接收。编码器134可以类似于编码器产生经编码中间通道182的方式产生经编码通道W。然而,替代编码通道X、通道Y及通道Z,编码器134可自通道W(通道W的经滤波版本)产生残值分量(例如,“侧分量”),其使用上文所描述的通道间预测技术反映通道X至Z。举例来说,编码器134可编码反映通道W与通道X之间的差的残余分量(Side_X)、反映通道W与通道Y之间的差的残余分量(Side_Y),及反映通道W与通道Z之间的差的残余分量(Side_Z)。解码器162可使用上文所描述的通道间预测技术以使用通道W的经解码版本及通道X至Z的残值分量产生通道X至Z。
在实例实施方案中,编码器134可对通道W进行滤波以产生经滤波通道W。举例来说,编码器134可根据一或多个滤波器系数对通道W进行滤波以产生经滤波通道W。经滤波通道W可为通道W的经调节版本且可基于滤波操作(例如,预定义滤波器、适应性低通及高通滤波器,其截止频率是基于音频信号类型语音、音乐、背景噪音、用于译码的位速率或核心取样速率)。举例来说,经滤波通道W可为通道W的适应性码簿分量、通道W的带宽扩展版本(例如,A(z/γ1(gamma1))),或基于应用于通道W的激励的侧通道的感知加权滤波(PWF)。
在替代实施方案中,经滤波通道W可为通道W的经高通滤波版本且滤波器截止频率可取决于信号类型(例如,语音、音乐或背景噪音)。滤波器截止频率还可随位速率、核心取样速率,或使用的降混算法而变。在一个实施方案中,通道W可包含低频带通道及高频带通道。经滤波通道W可对应于用于估计通道间预测增益164的经滤波(例如,经高通滤波)低频带通道W。在替代实施方案中,经滤波通道W还可对应于用于估计通道间预测增益164的经滤波高频带通道W。在另一实施方案中,低通经滤波通道W(低频带)用以估计经预测通道W。经预测通道W是从经滤波通道X减去且经滤波X_error经编码。对于当前帧,经滤波误差及通道间预测参数经编码并经发射。类似地,可对其它通道Y及Z执行ICP以估计通道间参数及ICP_error。
参看图4,展示处理经编码位流的方法400。方法400可通过图1的第二装置106执行。更具体地,方法400可通过接收器160及解码器162执行。
方法400包含在402处接收包含经编码中间通道及通道间预测增益的位流。举例来说,参看图1,接收器160可经由网络120从第一装置104接收位流180。位流180包含经编码中间通道182,及通道间预测增益(g_icp)164,升混因数(α)166。根据一些实施方案,位流180还包含侧通道预测误差(例如,侧通道预测误差(error_ICP_hat)168)的指示。
方法400还包含在404处解码经编码中间通道的低频带部分以产生经解码低频带中间通道。举例来说,参看图2,低频带中间通道解码器204可解码经编码中间通道182的低频带部分以产生经解码低频带中间通道242。
方法400还包含在406处根据一或多个滤波器系数对经解码低频带中间通道进行滤波以产生低频带经滤波中间通道。举例来说,参看图2,低频带中间通道滤波器212可根据滤波器系数270对经解码低频带中间通道242进行滤波以产生经滤波中间通道246。
方法400还包含在408处基于低频带经滤波中间通道及通道间预测增益产生通道间预测信号。举例来说,参看图2,通道间预测器214可基于低频带经滤波中间通道246及通道间预测增益164产生通道间预测信号247。
方法400还包含在410处基于升混因数、经解码低频带中间通道及通道间预测信号产生低频带左通道及低频带右通道。举例来说,参看图2,升混处理器224可基于升混因数(α)166、经解码低频带中间通道(Mid_hat)242及通道间预测信号(g_icp*Mid_filt)247产生低频带左通道248及低频带右通道250。根据一些实施方案,升混处理器224还可基于侧通道预测误差(error_ICP_hat)168产生低频带左通道248及低频带右通道250。举例来说,升混处理器224可使用公式7及公式8产生通道248、250,如上文所描述。
方法400还包含在412处解码经编码中间通道的高频带部分以产生经解码高频带中间通道。举例来说,参看图2,高频带中间通道解码器202可解码经编码中间通道182的高频带部分以产生经解码高频带中间通道252。
方法400还包含在414处基于通道间预测增益及经解码高频带中间通道的经滤波版本产生经预测高频带侧通道。举例来说,参看图2,高频带中间通道滤波器207可对经解码高频带中间通道252进行滤波以产生经滤波高频带中间通道253(例如,经解码高频带中间通道252的经滤波版本),且通道间预测映射器208可基于通道间预测增益(g_icp)164及经滤波高频带中间通道253产生经预测高频带侧通道254。
方法400还包含在416处基于经解码高频带中间通道及经预测高频带侧通道产生高频带左通道及高频带右通道。举例来说,参看图2至3,ICBWE解码器226可基于经解码高频带中间通道252及经预测高频带侧通道254产生高频带左通道256及高频带右通道258。
图4的方法400可允许增强型立体特性(例如,增强型立体平移及增强型立体加宽),通常通过发射侧通道155的经编码版本至解码器162来达成,在解码器162处使用比编码侧通道155所需要的位少的位实现。举例来说,替代译码侧通道155及发射侧通道155的经编码版本至解码器162,侧通道预测误差(error_ICP_hat)168及通道间预测增益(g_icp)164可经编码并作为位流180的部分发射至解码器162。结果,与次优立体平移及次优立体加宽相关联的失真可减少。举例来说,当模型化比定向更均一的环境噪音时,同相失真及异相失真可减少(例如,减至最小)。
参看图5,描绘了装置(例如,无线通信装置)的特定说明性实例的框图,且通常将所述装置指定为500。在各种实施方案中,装置500可具有比图5中所说明更少或更多的组件。在说明性实施方案中,装置500可对应于图1的第一装置104或图1的第二装置106。在说明性实施方案中,装置500可执行参看图1至4的系统及方法所描述的一或多个操作。
在特定实施方案中,装置500包含处理器506(例如,中央处理单元(CPU))。装置500可包含一或多个额外处理器510(例如,一或多个数字信号处理器(DSP))。处理器510可包含媒体(例如,语音及音乐)译码器解码器(编码解码器)508及回音消除器512。媒体编码解码器508可包含解码器162、编码器134或其组合。
装置500可包含存储器553及编码解码器534。尽管媒体编码解码器508经说明为处理器510的组件(例如,专用电路系统及/或可执行程式码),但在其它实施方案中媒体编码解码器508的一或多个组件(诸如,解码器162、编码器134或其组合)可包含于处理器506、编码解码器534、另一处理组件或其组合中。
装置500可包含耦合至天线542的接收器162。装置500可包含耦合至显示控制器526的显示器528。一或多个扬声器548可耦合至编码解码器534。一或多个麦克风546可经由一或多个输入接口112耦合至编码解码器534。在特定实施方案中,扬声器548可包含图1的第一扩音器142、第二扩音器144或其组合。在特定实施方案中,麦克风546可包含图1的第一麦克风146、第二麦克风148或其组合。编码解码器534可包含数/模转换器(DAC)502及模/数转换器(ADC)504。
存储器553可包含可由处理器506、处理器510、编码解码器534、装置500的另一处理单元或其组合执行,以执行参看图1至4描述的一或多个操作的指令591。
装置500的一或多个组件可经由专用硬件(例如,电路系统)、通过用以执行一或多个任务的处理器执行指令或其组合来实施。作为实例,存储器553或处理器506、处理器510及/或编码解码器534的一或多个组件可为存储器装置,诸如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令591),所述指令在由一计算机(例如,编码解码器534中的处理器、处理器506及/或处理器510)执行时可促使计算机执行参看图1至4所描述的一或多个操作。作为实例,存储器553或处理器506、处理器510及/或编码解码器534中的一或多个组件可为包含指令(例如,指令591)的非暂时性计算机可读媒体,当由一计算机(例如,编码解码器534中的处理器、处理器506及/或处理器510)执行时,所述指令促使所述计算机执行参看图1至4所描述的一或多个操作。
在特定实施方案中,装置500可包含于系统级封装或系统单晶片装置(例如,移动站调制解调器(MSM))522中。在特定实施方案中,处理器506、处理器510、显示控制器526、存储器553、编码解码器534及接收器160包含于系统级封装或系统单晶片装置522中。在特定实施方案中,诸如触摸屏及/或小键盘的输入装置530及电源供应器544耦合至系统单晶片装置522。此外,在特定实施方案中,如图5中所说明,显示器528、输入装置530、扬声器548、麦克风546、天线542及电源供应器544在系统单晶片装置522的外部。然而,显示器528、输入装置530、扬声器548、麦克风546、天线542及电源供应器544中的每一者可耦合至系统单晶片装置522的组件,诸如接口或控制器。
装置500可包含:无线电话、移动通信装置、移动电话、智能手机、蜂窝电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
参看图6,描绘基站600的特定说明性实例的框图。在各种实施方案中,基站600可具有比图6中所说明更多或更少的组件。在说明性实例中,基站600可包含图1的第一装置104或第二装置106。在说明性实例中,基站600可根据参看图1至4所描述的方法或系统中的一或多者操作。
基站600可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或某其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA1X、演进数据优化(EVDO)、分时同步CDMA(TD-SCDMA),或某其它版本的CDMA。
无线装置还可被称作用户装备(UE)、移动站、终端、存取终端、用户单元、站等。所述无线装置可包含:蜂窝电话、智能手机、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记型计算机、迷你笔记型计算机、平板计算机、无接线电话、无线本地回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图6的装置600。
各种功能可通过基站600的一或多个组件(及/或在未图示的其它组件中)执行,诸如发送及接收消息及数据(例如,音频数据)。在特定实例中,基站600包含处理器606(例如,CPU)。基站600可包含转码器610。转码器610可包含音频编码解码器608。举例来说,转码器610可包含经配置以执行音频编码解码器608的操作的一或多个组件(例如,电路系统)。作为另一实例,转码器610可经配置以执行一或多个计算机可读指令以执行音频编码解码器608的操作。尽管音频编码解码器608经说明为转码器610的组件,但在其它实例中,音频编码解码器608的一或多个组件可包含于处理器606、另一处理组件,或其一组合中。举例来说,解码器638(例如,声码器解码器)可包含于接收器数据处理器664中。作为另一实例,编码器636(例如,声码器编码器)可包含于发射数据处理器682中。
转码器610可起到在两个或更多个网络之间转码消息及数据的作用。转码器610可经配置以将消息及音频数据从第一格式(例如,数字格式)转换成第二格式。举例来说,解码器638可解码具有第一格式的经编码信号,且编码器636可将经解码信号编码成具有第二格式的经编码信号。另外地或替代性地,转码器610可经配置以执行数据速率调适。举例来说,转码器610可在不改变音频数据的格式的情况下下转换数据速率或上转换数据速率。举例来说,转码器610可将64千位/s信号下转换成16千位/s信号。
音频编码解码器608可包含编码器636及解码器638。编码器636可包含图1的编码器134。解码器638可包含图1的解码器162。
基站600可包含存储器632。诸如计算机可读存储装置的存储器632可包含指令。指令可包含可由处理器606、转码器610或其组合执行,以执行参看图1至4的方法及系统所描述的一或多个操作的一或多个指令。基站600可包含耦合至天线阵列的多个发射器及接收器(例如,收发器),诸如第一收发器652及第二收发器654。天线阵列可包含第一天线642及第二天线644。天线阵列可经配置以与一或多个无线装置(诸如,图6的装置600)无线地通信。举例来说,第二天线644可从无线装置接收数据流614(例如,位流)。数据流614可包含消息、数据(例如,经编码语音数据),或其组合。
基站600可包含网络连接660,诸如从连接。网络连接660可经配置以与核心网络或无线通信网络的一或多个基站通信。举例来说,基站600可经由网络连接660自核心网络接收第二数据流(例如,消息或音频数据)。基站600可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供至一或多个无线装置,或经由网络连接660将其提供至另一基站。在特定实施方案中,网络连接660可为广域网络(WAN)连接,如说明性非限制性实例。在一些实施方案中,核心网络可包含或对应于公众交换电话网络(PSTN)、包基干网络或两者。
基站600可包含耦合至网络连接660及处理器606的媒体网关670。媒体网关670可经配置以在不同电信技术的媒体流之间转换。举例来说,媒体网关670可在不同发射协议、不同译码方案或两者之间转换。举例来说,媒体网关670可从PCM信号转换成实时输送协议(RTP)信号,如说明性非限制性实例。媒体网关670可在包交换式网络(例如,因特网通信协议语音(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络(诸如,LTE、WiMax及UMB)等)、电路切换式网络(例如,PSTN)及混合式网络(例如,第二代(2G)无线网络(诸如,GSM、GPRS及EDGE)、第三代(3G)无线网络(诸如,WCDMA、EV-DO及HSPA)等)之间转换数据。
另外,媒体网关670可包含转码且可经配置以当编码解码器不相容时转码数据。举例来说,媒体网关670可在适应性多重速率(AMR)编码解码器与G.711编码解码器之间进行转码,作为说明性非限制性实例。媒体网关670可包含路由器及多个物理接口。在一些实施方案中,媒体网关670还可包含控制器(图中未展示)。在一特定实施方案中,媒体网关控制器可在媒体网关670外部、在基站600外部或在两者外部。媒体网关控制器可控制并协调操作多个媒体网关。媒体网关670可从媒体网关控制器接收控制信号,且可起到在不同发射技术之间桥接器的作用,且可添加对最终用户能力及连接的服务。
基站600可包含耦合至收发器652、收发器654、接收器数据处理器664及处理器606的解调制器662,且接收器数据处理器664可耦合至处理器606。解调制器662可经配置以解调从收发器652、654所接收的经调制信号,且可经配置以将经解调数据提供至接收器数据处理器664。接收器数据处理器664可经配置以从经解调数据提取消息或音频数据,且将消息或音频数据发送至处理器606。
基站600可包含发射数据处理器682及发射多输入多输出(MIMO)处理器684。发射数据处理器682可耦合至处理器606及发射MIMO处理器684。发射MIMO处理器684可耦合至收发器652、收发器654及处理器606。在一些实施方案中,可将发射MIMO处理器684耦合至媒体网关670。发射数据处理器682可经配置以从处理器606接收消息或音频数据,且基于诸如CDMA或正交频分多路复用(OFDM)的译码方案译码所述消息或所述音频数据,作为说明性非限制性实例。发射数据处理器682可提供经译码数据至发射MIMO处理器684。
可使用CDMA或OFDM技术将经译码数据与诸如导频数据的其它数据多路复用在一起以产生经多路复用数据。经多路复用数据接着可通过发射数据处理器682基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M-元相移键控(“M-PSK”)、M-元正交振幅调制(“M-QAM”)等)调制(即,符号映射)以产生调制符号。在一特定实施方案中,经译码数据及其它数据可使用不同调制方案调制。针对每一数据流的数据速率、译码及调制可由处理器606执行的指令确定。
发射MIMO处理器684可经配置以自发射数据处理器682接收调制符号,且可进一步处理调制符号,且可对数据执行波束成形。举例来说,发射MIMO处理器684可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从所述天线发射调制符号)。
在操作期间,基站600的第二天线644可接收数据流614。第二收发器654可从第二天线644接收数据流614,且可将数据流614提供至解调制器662。解调制器662可解调数据流614的经调制信号且将经解调数据提供至接收器数据处理器664。接收器数据处理器664可从经解调数据提取音频数据且将所提取音频数据提供至处理器606。
处理器606可将音频数据提供至转码器610以供转码。转码器610的解码器638可将音频数据从第一格式解码成经解码音频数据,且编码器636可将经解码音频数据编码成第二格式。在一些实施方案中,编码器636可使用与从无线装置接收的数据速率相比较高数据速率(例如,上转换)或较低数据速率(例如,下转换)编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如,解码及编码)经说明为通过转码器610执行,但转码操作(例如,解码及编码)可通过基站600的多个组件执行。举例来说,解码可由接收器数据处理器664执行,且编码可由发射数据处理器682执行。在其它实施方案中,处理器606可将音频数据提供至媒体网关670用于转换成另一发射协议、译码方案或两者。媒体网关670可经由网络连接660将经转换数据提供至另一基站或核心网络。
可经由处理器606将在编码器636处产生的经编码音频数据(诸如,经转码数据)提供至发射数据处理器682或网络连接660。可将来自转码器610的经转码音频数据提供至发射数据处理器682,用于根据诸如OFDM的调制方案译码,以产生调制符号。发射数据处理器682可将调制符号提供至发射MIMO处理器684以供进一步处理及波束成形。发射MIMO处理器684可应用波束成形权重,且可经由第一收发器652将调制符号提供至天线阵列的一或多个天线,诸如第一天线642。因此,基站600可将对应于自无线装置所接收的数据流614的经转码数据流616提供至另一无线装置。经转码数据流616可具有与数据流614相比不同的编码格式、数据速率或两者。在其它实施方案中,经转码数据流616可提供至网络连接660以供发射至另一基站或核心网络。
在特定实施方案中,本文所揭示的系统及装置的一或多个组件可集成至解码系统或设备(例如,电子装置、编码解码器或其中的处理器)中,集成至编码系统或设备中,或集成至两者中。在其它实施方案中,本文所揭示的系统及装置的一或多个组件可集成至以下各者中:无线电话、平板计算机、台式计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
结合所描述技术,设备包含用于接收包含经编码中间通道及通道间预测增益的位流的装置。举例来说,用于接收位流的装置可包含图1及5的接收器160、图1、2及5的解码器162、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于解码经编码中间通道的低频带部分以产生经解码低频带中间通道的装置。举例来说,用于解码经编码中间通道的低频带部分的装置可包含图1、2及5的解码器162、图1至2的低频带中间通道解码器204、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于根据一或多个滤波器系数对经解码低频带中间通道进行滤波以产生低频带经滤波中间通道的装置。举例来说,用于对经解码低频带中间通道进行滤波的装置可包含图1、2及5的解码器162、图1至2的低频带中间通道滤波器212、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于基于低频带经滤波中间通道及通道间预测增益产生通道间预测信号的装置。举例来说,用于产生通道间预测信号的装置可包含图1、2及5的解码器162、图1至2的通道间预测器214、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于基于升混因数、经解码低频带中间通道及通道间预测信号产生低频带左通道及低频带右通道的装置。举例来说,用于产生低频带左通道及低频带右通道的装置可包含图1、2及5的解码器162、图1至2的升混处理器224、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于解码经编码中间通道的高频带部分以产生经解码高频带中间通道的装置。举例来说,用于解码经编码中间通道的高频带部分的装置可包含图1、2及5的解码器162、图1至2的高频带中间通道解码器202、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于基于通道间预测增益及经解码高频带中间通道的经滤波版本产生经预测高频带侧通道的装置。举例来说,用于产生经预测高频带侧通道的装置可包含图1、2及5的解码器162、图1至2的高频带中间通道滤波器207、图1至2的通道间预测映射器208、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于基于所述经解码高频带中间通道及经预测高频带侧通道产生高频带左通道及高频带右通道的装置。举例来说,用于产生高频带左通道及高频带右通道的装置可包含图1、2及5的解码器162、图1至2的ICBWE解码器226、图5的编码解码器508、图5的处理器506、可由处理器执行的指令591、图6的解码器638、一或多个其它装置、电路、模块或其任何组合。
设备还包含用于输出左通道及右通道的装置。左通道可基于低频带左通道及高频带左通道,且右通道可基于低频带右通道及高频带右通道。举例来说,用于输出的装置可包含图1的扩音器142、144、图5的扬声器548、一或多个其它装置、电路、模块或其任何组合。
应注意,通过本文所揭示的系统及装置的一或多个组件执行的各种功能经描述为通过某些组件或模块执行。组件及模块的此划分仅用于说明。在一替代性实施方案中,由特定组件或模块执行的功能可被划分于多个组件或模块之中。此外,在替代性实施方案中,两个或更多个组件或模块可被集成至单个组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合来实施。
本领域的技术人员将进一步了解,结合本文中所揭示的实施而描述的各种说明性逻辑块、配置、模块、电路及算法步骤可实施为电子硬件、由诸如硬件处理器的处理装置执行的计算机软件或两者的组合。上文一般在功能性方面描述各种说明性组件、块、配置、模块、电路及步骤。此功能性经实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束而定。本领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,而不应将这些实施决策解译为致使脱离本发明的范围。
结合本文中所揭示的实施所描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中或两者的组合中。软件模块可存在于存储器装置中,诸如随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋力矩转移(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合至处理器,以使得处理器可从存储器装置读取信息及将信息写入至存储器装置。在替代例中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代例中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供对所揭示实施的先前描述,以使得本领域的技术人员能够制作或使用所揭示的实施方案。本领域的技术人员将容易地显而易见对这些实施的各种修改,且在不背离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非旨在限于本文中所展示的实施方案,而应符合可能与如以下权利要求书所定义的原理及新颖特征相一致的最广泛范围。
Claims (31)
1.一种电子设备,其包括:
接收器,其经配置以接收包含经编码中间通道及通道间预测增益的位流;
低频带中间通道解码器,其经配置以解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道;
低频带中间通道滤波器,其经配置以根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道;
通道间预测器,其经配置以基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号;
升混处理器,其经配置以基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道;
高频带中间通道解码器,其经配置以解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道;
通道间预测映射器,其经配置以基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道;及
通道间带宽延展解码器,其经配置以基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
2.根据权利要求1所述的电子设备,其中所述位流还包含侧通道预测误差的指示,且其中所述低频带左通道及所述低频带右通道是进一步基于所述侧通道预测误差而产生的。
3.根据权利要求1所述的电子设备,其中所述通道间预测增益是在编码器处使用闭合回路分析来估计,以使得编码器侧的侧通道基本上等于经预测侧通道,所述经预测侧通道是基于所述通道间预测增益与编码器侧经滤波中间通道的乘积。
4.根据权利要求3所述的电子设备,其中编码器侧中间通道是根据所述一或多个滤波器系数来滤波以产生所述编码器侧经滤波中间通道。
5.根据权利要求2所述的电子设备,其中侧通道预测误差对应于编码器侧的侧通道与经预测侧通道之间的差。
6.根据权利要求1所述的电子设备,其中所述通道间预测增益是在编码器处使用闭合回路分析来估计,以使得编码器侧的侧通道的高频部分基本上等于经预测侧通道的高频部分,所述经预测侧通道的所述高频部分是基于所述通道间预测增益与编码器侧中间通道的高频部分的乘积。
7.根据权利要求1所述的电子设备,其中所述低频带经滤波中间通道包含所述经解码低频带中间通道的适应性码簿分量或所述经解码低频带中间通道的带宽扩展版本。
8.根据权利要求1所述的电子设备,其进一步包括:
第一组合电路,其经配置以组合所述低频带左通道与所述高频带左通道以产生左通道;及
第二组合电路,其经配置以组合所述低频带右通道与所述高频带右通道以产生右通道。
9.根据权利要求8所述的电子设备,其进一步包括经配置以输出所述左通道及所述右通道的输出装置。
10.根据权利要求1所述的电子设备,其中所述通道间带宽延展解码器包括:
高频带残值产生单元,其经配置以将残值预测增益应用于所述经预测高频带侧通道以产生高频带残值通道;及
第三组合电路,其经配置以组合所述经解码高频带中间通道与所述高频带残值通道以产生高频带参考通道。
11.根据权利要求10所述的电子设备,其中所述通道间带宽延展解码器进一步包括:
第一频谱映射器,其经配置以对所述经解码高频带中间通道执行第一频谱映射操作以产生经频谱映射高频带中间通道;及
第一增益映射器,其经配置以对所述经频谱映射高频带中间通道执行第一增益映射操作以产生第一高频带增益映射通道。
12.根据权利要求11所述的电子设备,其中所述通道间带宽延展解码器进一步包括:
第二频谱映射器,其经配置以对所述高频带残值通道执行第二频谱映射操作以产生经频谱映射高频带残值通道;及
第二增益映射器,其经配置以对所述经频谱映射高频带残值通道执行第二增益映射操作以产生第二高频带增益映射通道。
13.根据权利要求12所述的电子设备,其中所述通道间带宽延展解码器进一步包括:
第四组合电路,其经配置以组合所述第一高频带增益映射通道与所述第二高频带增益映射通道以产生高频带目标通道;及
通道选择器,其经配置以进行以下操作:
接收参考通道指示符;及
基于所述参考通道指示符进行以下操作:
将所述高频带参考通道或所述高频带目标通道中的一者指定为所述高频带左通道;及
将所述高频带参考通道或所述高频带目标通道中的另一者指定为所述高频带右通道。
14.根据权利要求1所述的电子设备,其进一步包括经配置以对所述经解码高频带中间通道进行滤波以产生所述经解码高频带中间通道的所述经滤波版本的高频带中间通道滤波器。
15.根据权利要求14所述的电子设备,其中所述高频带中间通道滤波器及所述低频带中间通道滤波器经集成至单一组件中。
16.根据权利要求1所述的电子设备,其中所述低频带中间通道解码器、中间通道解码器、中间通道滤波器、所述升混处理器、所述高频带中间通道解码器、所述通道间预测映射器及所述通道间带宽延展解码器经集成至基站中。
17.根据权利要求1所述的电子设备,其中所述低频带中间通道解码器、中间通道解码器、中间通道滤波器、所述升混处理器、所述高频带中间通道解码器、所述通道间预测映射器及所述通道间带宽延展解码器经集成至移动装置中。
18.一种信号处理方法,其包括:
接收包含经编码中间通道及通道间预测增益的位流;
解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道;
根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道;
基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号;
基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道;
解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道;
基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道;及
基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
19.根据权利要求18所述的信号处理方法,其中所述通道间预测增益是在编码器处使用闭合回路分析来估计,以使得编码器侧的侧通道基本上等于经预测侧通道,所述经预测侧通道是基于所述通道间预测增益与编码器侧经滤波中间通道的乘积。
20.根据权利要求19所述的信号处理方法,其中编码器侧中间通道是根据所述一或多个滤波器系数来滤波以产生所述编码器侧经滤波中间通道。
21.根据权利要求18所述的信号处理方法,其中所述位流还包含侧通道预测误差的指示,且其中所述低频带左通道及所述低频带右通道是进一步基于所述侧通道预测误差而产生的。
22.根据权利要求21所述的信号处理方法,其中所述侧通道预测误差对应于编码器侧的侧通道与经预测侧通道之间的差。
23.根据权利要求18所述的信号处理方法,其中所述通道间预测增益是在编码器处使用闭合回路分析来估计,以使得编码器侧的侧通道的高频部分基本上等于经预测侧通道的高频部分,所述经预测侧通道的所述高频部分是基于所述通道间预测增益与编码器侧中间通道的高频部分的乘积。
24.根据权利要求18所述的信号处理方法,其中所述低频带经滤波中间通道包含所述经解码低频带中间通道的适应性码簿分量或所述经解码低频带中间通道的带宽扩展版本。
25.根据权利要求18所述的信号处理方法,其进一步包括:
组合所述低频带左通道与所述高频带左通道以产生左通道;及
组合所述低频带右通道与所述高频带右通道以产生右通道。
26.根据权利要求25所述的信号处理方法,其进一步包括输出所述左通道及所述右通道。
27.根据权利要求18所述的信号处理方法,其中产生所述低频带左通道及所述低频带右通道是在基站处执行。
28.根据权利要求18所述的信号处理方法,其中产生所述低频带左通道及所述低频带右通道是在移动装置处执行。
29.一种非暂时性计算机可读介质,其包括指令,所述指令在由解码器内的处理器执行时促使所述处理器:
接收包含经编码中间通道及通道间预测增益的位流;
解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道;
根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道;
基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号
基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道;
解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道;
基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道;及
基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道。
30.一种信号处理设备,其包括:
用于接收包含经编码中间通道及通道间预测增益的位流的装置;
用于解码所述经编码中间通道的低频带部分以产生经解码低频带中间通道的装置;
用于根据一或多个滤波器系数对所述经解码低频带中间通道进行滤波以产生低频带经滤波中间通道的装置;
用于基于所述低频带经滤波中间通道及所述通道间预测增益产生通道间预测信号的装置;
用于基于升混因数、所述经解码低频带中间通道及所述通道间预测信号产生低频带左通道及低频带右通道的装置;
用于解码所述经编码中间通道的高频带部分以产生经解码高频带中间通道的装置;
用于基于所述通道间预测增益及所述经解码高频带中间通道的经滤波版本产生经预测高频带侧通道的装置;及
用于基于所述经解码高频带中间通道及所述经预测高频带侧通道产生高频带左通道及高频带右通道的装置。
31.根据权利要求30所述的信号处理设备,其中所述位流还包含侧通道预测误差的指示,且其中所述低频带左通道及所述低频带右通道是进一步基于所述侧通道预测误差而产生的。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762528378P | 2017-07-03 | 2017-07-03 | |
US62/528,378 | 2017-07-03 | ||
US16/003,704 | 2018-06-08 | ||
US16/003,704 US10475457B2 (en) | 2017-07-03 | 2018-06-08 | Time-domain inter-channel prediction |
PCT/US2018/036869 WO2019009983A1 (en) | 2017-07-03 | 2018-06-11 | INTER-CHANNEL PREDICTION IN THE TIME DOMAIN |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110770825A CN110770825A (zh) | 2020-02-07 |
CN110770825B true CN110770825B (zh) | 2020-12-01 |
Family
ID=64739063
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880041280.7A Active CN110770825B (zh) | 2017-07-03 | 2018-06-11 | 时域通道间预测 |
Country Status (10)
Country | Link |
---|---|
US (2) | US10475457B2 (zh) |
EP (1) | EP3649639B1 (zh) |
JP (1) | JP6798048B2 (zh) |
KR (1) | KR102154461B1 (zh) |
CN (1) | CN110770825B (zh) |
AU (1) | AU2018297938B2 (zh) |
BR (1) | BR112019027202A2 (zh) |
ES (1) | ES2882904T3 (zh) |
TW (1) | TWI713853B (zh) |
WO (1) | WO2019009983A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10475457B2 (en) | 2017-07-03 | 2019-11-12 | Qualcomm Incorporated | Time-domain inter-channel prediction |
EP3618464A1 (en) * | 2018-08-30 | 2020-03-04 | Nokia Technologies Oy | Reproduction of parametric spatial audio using a soundbar |
US10764676B1 (en) * | 2019-09-17 | 2020-09-01 | Amazon Technologies, Inc. | Loudspeaker beamforming for improved spatial coverage |
US20240108578A1 (en) | 2021-02-12 | 2024-04-04 | Medrx Co., Ltd. | Composition in which absorbability of poorly absorbable drug is improved |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE519981C2 (sv) * | 2000-09-15 | 2003-05-06 | Ericsson Telefon Ab L M | Kodning och avkodning av signaler från flera kanaler |
KR101218776B1 (ko) * | 2006-01-11 | 2013-01-18 | 삼성전자주식회사 | 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체 |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
US8374883B2 (en) * | 2007-10-31 | 2013-02-12 | Panasonic Corporation | Encoder and decoder using inter channel prediction based on optimally determined signals |
BR122019026166B1 (pt) * | 2010-04-09 | 2021-01-05 | Dolby International Ab | sistema decodificador, aparelho e método para emitir um sinal de áudio estereofônico tendo um canal esquerdo e um canal direito e meio legível por computador não transitório |
US9443534B2 (en) * | 2010-04-14 | 2016-09-13 | Huawei Technologies Co., Ltd. | Bandwidth extension system and approach |
US9626975B2 (en) * | 2011-06-24 | 2017-04-18 | Koninklijke Philips N.V. | Audio signal processor for processing encoded multi-channel audio signals and method therefor |
US8977902B2 (en) * | 2012-10-24 | 2015-03-10 | International Business Machines Corporation | Integrity checking including side channel monitoring |
CN103928031B (zh) * | 2013-01-15 | 2016-03-30 | 华为技术有限公司 | 编码方法、解码方法、编码装置和解码装置 |
CN109509478B (zh) | 2013-04-05 | 2023-09-05 | 杜比国际公司 | 音频处理装置 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
US9384746B2 (en) | 2013-10-14 | 2016-07-05 | Qualcomm Incorporated | Systems and methods of energy-scaled signal processing |
EP3067887A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
KR102083200B1 (ko) * | 2016-01-22 | 2020-04-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 스펙트럼-도메인 리샘플링을 사용하여 멀티-채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 |
US10224045B2 (en) * | 2017-05-11 | 2019-03-05 | Qualcomm Incorporated | Stereo parameters for stereo decoding |
US10475457B2 (en) | 2017-07-03 | 2019-11-12 | Qualcomm Incorporated | Time-domain inter-channel prediction |
-
2018
- 2018-06-08 US US16/003,704 patent/US10475457B2/en active Active
- 2018-06-11 JP JP2019571621A patent/JP6798048B2/ja active Active
- 2018-06-11 BR BR112019027202-0A patent/BR112019027202A2/pt unknown
- 2018-06-11 CN CN201880041280.7A patent/CN110770825B/zh active Active
- 2018-06-11 WO PCT/US2018/036869 patent/WO2019009983A1/en unknown
- 2018-06-11 AU AU2018297938A patent/AU2018297938B2/en active Active
- 2018-06-11 ES ES18735136T patent/ES2882904T3/es active Active
- 2018-06-11 KR KR1020197038701A patent/KR102154461B1/ko active IP Right Grant
- 2018-06-11 EP EP18735136.6A patent/EP3649639B1/en active Active
- 2018-06-12 TW TW107120169A patent/TWI713853B/zh active
-
2019
- 2019-09-19 US US16/576,401 patent/US10885922B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
BR112019027202A2 (pt) | 2020-06-30 |
US10475457B2 (en) | 2019-11-12 |
TWI713853B (zh) | 2020-12-21 |
TW201907730A (zh) | 2019-02-16 |
US10885922B2 (en) | 2021-01-05 |
JP2020525835A (ja) | 2020-08-27 |
US20190005970A1 (en) | 2019-01-03 |
EP3649639B1 (en) | 2021-07-21 |
JP6798048B2 (ja) | 2020-12-09 |
CN110770825A (zh) | 2020-02-07 |
AU2018297938A1 (en) | 2019-12-19 |
EP3649639A1 (en) | 2020-05-13 |
US20200013416A1 (en) | 2020-01-09 |
AU2018297938B2 (en) | 2021-05-20 |
ES2882904T3 (es) | 2021-12-03 |
KR20200004436A (ko) | 2020-01-13 |
WO2019009983A1 (en) | 2019-01-10 |
KR102154461B1 (ko) | 2020-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102230623B1 (ko) | 다중의 오디오 신호들의 인코딩 | |
CN110622242B (zh) | 用于立体声解码的立体声参数 | |
US10885922B2 (en) | Time-domain inter-channel prediction | |
US10885925B2 (en) | High-band residual prediction with time-domain inter-channel bandwidth extension | |
US10593341B2 (en) | Coding of multiple audio signals | |
KR102581558B1 (ko) | 채널간 위상차 파라미터 수정 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |