CN109313906A - 音频信号之间的声道间相位差的编码和解码 - Google Patents
音频信号之间的声道间相位差的编码和解码 Download PDFInfo
- Publication number
- CN109313906A CN109313906A CN201780036764.8A CN201780036764A CN109313906A CN 109313906 A CN109313906 A CN 109313906A CN 201780036764 A CN201780036764 A CN 201780036764A CN 109313906 A CN109313906 A CN 109313906A
- Authority
- CN
- China
- Prior art keywords
- ipd
- value
- signal
- audio signal
- sound channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 343
- 238000000034 method Methods 0.000 claims description 84
- 230000004044 response Effects 0.000 claims description 70
- 230000009466 transformation Effects 0.000 claims description 26
- 238000006073 displacement reaction Methods 0.000 claims description 23
- 230000000694 effects Effects 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 7
- 238000013139 quantization Methods 0.000 claims description 5
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 230000003111 delayed effect Effects 0.000 description 20
- 230000010363 phase shift Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000001364 causal effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000630 rising effect Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 4
- 238000005859 coupling reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 241000209140 Triticum Species 0.000 description 3
- 235000021307 Triticum Nutrition 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- TVEXGJYMHHTVKP-UHFFFAOYSA-N 6-oxabicyclo[3.2.1]oct-3-en-7-one Chemical compound C1C2C(=O)OC1C=CC2 TVEXGJYMHHTVKP-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于处理音频信号的装置包含声道间时间失配分析器、声道间相位差IPD模式选择器和IPD估计器。所述声道间时间失配分析器被配置成确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。所述IPD模式选择器被配置成至少基于所述声道间时间失配值选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
Description
优先权要求
本申请案要求共同拥有的2016年6月20日申请的名称为“音频信号之间的声道间相位差的编码和解码(ENCODING AND DECODING OF INTERCHANNEL PHASE DIFFERENCESBETWEEN AUDIO SIGNALS)”的美国临时专利申请案第62/352,481号以及2017年6月12日申请的名称为“音频信号之间的声道间相位差的编码和解码”的美国非临时专利申请案第15/620,695号的优先权,前述申请案中的每一者的内容明确地以全文引用的方式并入本文中。
技术领域
本发明大体上涉及音频信号之间的声道间相位差的编码和解码。
背景技术
技术的进展已导致更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动电话和智能电话)、平板计算机和膝上型计算机,所述便携式个人计算装置小、轻且容易由用户携带。此些装置可经由无线网络来传达语音和数据包。另外,许多此些装置并有额外功能性,例如数字静态相机、数字视频相机、数字记录器和音频文件播放器。而且,此些装置可处理可执行指令,所述指令包含可用以接入因特网的软件应用程序,例如网页浏览器应用程序。因而,此些装置可包含显著计算能力。
在一些实例中,计算装置可包含在例如音频数据的媒体数据的通信期间使用的编码器和解码器。为进行说明,计算装置可包含编码器,其基于多个音频信号产生经降混音频信号(例如,中带信号与旁带信号)。编码器可基于经降混音频信号和编码参数产生音频位流。
编码器可具有对音频位流进行编码的有限数目个位。取决于正被编码的音频数据的特性,某些编码参数可比其它编码参数对音频质量产生大的影响。此外,一些编码参数可“重叠”,在此状况下,当省略其它参数时,对一个参数进行编码便可能足够。因此,尽管将较多个位分配到对音频质量具有较大影响的参数可为有益的,但识别那些参数可能复杂。
发明内容
在一特定实施方案中,一种用于处理音频信号的装置包含声道间时间失配分析器、声道间相位差(IPD)模式选择器,和IPD估计器。所述声道间时间失配分析器被配置成确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。所述IPD模式选择器被配置成至少基于所述声道间时间失配值选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含声道间相位差(IPD)模式分析器和IPD分析器。所述IPD模式分析器被配置成确定IPD模式。所述IPD分析器被配置成基于与所述IPD模式相关联的分辨率从立体声提示位流提取IPD值。所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。
在另一特定实施方案中,一种用于处理音频信号的装置包含接收器、IPD模式分析器和IPD分析器。所述接收器被配置成接收与中带位流相关联的立体声提示位流,所述中带位流对应于第一音频信号和第二音频信号。所述立体声提示位流指示声道间时间失配值和声道间相位差(IPD)值。所述IPD模式分析器被配置成基于所述声道间时间失配值确定IPD模式。所述IPD分析器被配置成至少部分基于与所述IPD模式相关联的分辨率确定所述IPD值。
在另一特定实施方案中,一种用于处理音频信号的装置包含声道间时间失配分析器、声道间相位差(IPD)模式选择器,和IPD估计器。所述声道间时间失配分析器被配置成确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。所述IPD模式选择器被配置成至少基于所述声道间时间失配值选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。在另一特定实施方案中,一种装置包含IPD模式选择器、IPD估计器,和中带信号产生器。所述IPD模式选择器被配置成至少部分基于与频域中带信号的先前帧相关联的译码器类型而选择与所述频域中带信号的第一帧相关联的IPD模式。所述IPD估计器被配置成基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述中带信号产生器被配置成基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种用于处理音频信号的装置包含降混器、预处理器、IPD模式选择器和IPD估计器。所述降混器被配置成基于第一音频信号和第二音频信号产生经估计中带信号。所述预处理器被配置成基于所述经估计中带信号确定经预测译码器类型。所述IPD模式选择器被配置成至少部分基于所述经预测译码器类型选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含IPD模式选择器、IPD估计器和中带信号产生器。所述IPD模式选择器被配置成至少部分基于与频域中带信号的先前帧相关联的核心类型而选择与所述频域中带信号的第一帧相关联的IPD模式。所述IPD估计器被配置成基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述中带信号产生器被配置成基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种用于处理音频信号的装置包含降混器、预处理器、IPD模式选择器和IPD估计器。所述降混器被配置成基于第一音频信号和第二音频信号产生经估计中带信号。所述预处理器被配置成基于所述经估计中带信号确定经预测核心类型。所述IPD模式选择器被配置成基于所述经预测核心类型选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含话语/音乐分类器、IPD模式选择器和IPD估计器。所述话语/音乐分类器被配置成基于第一音频信号、第二音频信号或两者确定话语/音乐决策参数。所述IPD模式选择器被配置成至少部分基于所述话语/音乐决策参数选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含低带(LB)分析器、IPD模式选择器和IPD估计器。所述LB分析器被配置成基于第一音频信号、第二音频信号或两者确定一或多个LB特性,例如核心采样率(例如,12.8千赫兹(kHz)或16kHz)。所述IPD模式选择器被配置成至少部分基于所述核心采样率选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含带宽扩展(BWE)分析器、IPD模式选择器和IPD估计器。所述带宽扩展分析器被配置成基于第一音频信号、第二音频信号或两者确定一或多个BWE参数。所述IPD模式选择器被配置成至少部分基于所述BWE参数选择IPD模式。所述IPD估计器被配置成基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种用于处理音频信号的装置包含IPD模式分析器和IPD分析器。所述IPD模式分析器被配置成基于IPD模式指示符确定IPD模式。所述IPD分析器被配置成基于与所述IPD模式相关联的分辨率从立体声提示位流提取IPD值。所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。
在另一特定实施方案中,一种处理音频信号的方法包含在装置处确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。所述方法还包含至少基于所述声道间时间失配值在所述装置处选择IPD模式。所述方法进一步包含基于所述第一音频信号和所述第二音频信号在所述装置处确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种处理音频信号的方法包含在装置处接收与中带位流相关联的立体声提示位流,所述中带位流对应于第一音频信号和第二音频信号。所述立体声提示位流指示声道间时间失配值和声道间相位差(IPD)值。所述方法还包含基于所述声道间时间失配值在所述装置处确定IPD模式。所述方法进一步包含至少部分基于与所述IPD模式相关联的分辨率在所述装置处确定所述IPD值。
在另一特定实施方案中,一种对音频数据进行编码的方法包含确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。所述方法还包含至少基于所述声道间时间失配值选择IPD模式。所述方法进一步包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种对音频数据进行编码的方法包含至少部分基于与频域中带信号的先前帧相关联的译码器类型选择与所述频域中带信号的第一帧相关联的IPD模式。所述方法还包含基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述方法进一步包含基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种对音频数据进行编码的方法包含基于第一音频信号和第二音频信号产生经估计中带信号。所述方法还包含基于所述经估计中带信号确定经预测译码器类型。所述方法进一步包含至少部分基于所述经预测译码器类型选择IPD模式。所述方法还包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种对音频数据进行编码的方法包含至少部分基于与频域中带信号的先前帧相关联的核心类型而选择与所述频域中带信号的第一帧相关联的IPD模式。所述方法还包含基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述方法进一步包含基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种对音频数据进行编码的方法包含基于第一音频信号和第二音频信号产生经估计中带信号。所述方法还包含基于所述经估计中带信号确定经预测核心类型。所述方法进一步包含基于所述经预测核心类型选择IPD模式。所述方法还包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种对音频数据进行编码的方法包含基于第一音频信号、第二音频信号或两者确定话语/音乐决策参数。所述方法还包含至少部分基于所述话语/音乐决策参数选择IPD模式。所述方法进一步包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种对音频数据进行解码的方法包含基于IPD模式指示符确定IPD模式。所述方法还包含基于与所述IPD模式相关联的分辨率从立体声提示位流提取IPD值,所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。
在另一特定实施方案中,一种计算机可读存储装置存储指令,所述指令在由处理器执行时,使所述处理器执行包含确定声道间时间失配值的操作,所述声道间时间失配值指示第一音频信号与第二音频信号之间的时间未对准。所述操作还包含至少基于所述声道间时间失配值选择IPD模式。所述操作进一步包含基于所述第一音频信号或所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种计算机可读存储装置存储指令,所述指令在由处理器执行时,使所述处理器执行包括接收立体声提示位流的操作,所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。所述立体声提示位流指示声道间时间失配值和声道间相位差(IPD)值。所述操作还包含基于所述声道间时间失配值确定IPD模式。所述操作进一步包含至少部分基于与所述IPD模式相关联的分辨率确定所述IPD值。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含确定声道间时间失配值的操作,所述声道间时间失配值指示第一音频信号与第二音频信号之间的时间失配。所述操作还包含至少基于所述声道间时间失配值选择IPD模式。所述操作进一步包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含至少部分基于与频域中带信号的先前帧相关联的译码器类型而选择与所述频域中带信号的第一帧相关联的IPD模式的操作。所述操作还包含基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述操作进一步包含基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含基于第一音频信号和第二音频信号产生经估计中带信号的操作。所述操作还包含基于所述经估计中带信号确定经预测译码器类型。所述操作进一步包含至少部分基于所述经预测译码器类型选择IPD模式。所述操作还包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含至少部分基于与频域中带信号的先前帧相关联的核心类型而选择与所述频域中带信号的第一帧相关联的IPD模式的操作。所述操作还包含基于第一音频信号和第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。所述操作进一步包含基于所述第一音频信号、所述第二音频信号和所述IPD值产生所述频域中带信号的所述第一帧。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含基于第一音频信号和第二音频信号产生经估计中带信号的操作。所述操作还包含基于所述经估计中带信号确定经预测核心类型。所述操作进一步包含基于所述经预测核心类型选择IPD模式。所述操作还包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行编码的指令。所述指令在由编码器内的处理器执行时,使所述处理器执行包含基于第一音频信号、第二音频信号或两者确定话语/音乐决策参数的操作。所述操作还包含至少部分基于所述话语/音乐决策参数选择IPD模式。所述操作进一步包含基于所述第一音频信号和所述第二音频信号确定IPD值。所述IPD值具有对应于所述选定IPD模式的分辨率。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含用于对音频数据进行解码的指令。所述指令在由解码器内的处理器执行时,使所述处理器执行包含基于IPD模式指示符确定IPD模式的操作。所述操作还包含基于与所述IPD模式相关联的分辨率从立体声提示位流提取IPD值。所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。
在审阅整个申请案之后,本发明的其它实施方案、优势和特征将变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式和权利要求书。
附图说明
图1为一系统的特定说明性实例的框图,所述系统包含可操作以对音频信号之间的声道间相位差进行编码的编码器和可操作以对声道间相位差进行解码的解码器;
图2为图1的编码器的特定说明性方面的图式;
图3为图1的编码器的特定说明性方面的图式;
图4为图1的编码器的特定说明性方面的图式;
图5为说明对声道间相位差进行编码的特定方法的流程图;
图6为说明对声道间相位差进行编码的另一特定方法的流程图;
图7为图1的解码器的特定说明性方面的图式;
图8为图1的解码器的特定说明性方面的图式;
图9为说明对声道间相位差进行解码的特定方法的流程图;
图10为说明确定声道间相位差值的特定方法的流程图;
图11为根据图1到10的系统、装置和方法的可操作以对音频信号之间的声道间相位差进行编码和解码的装置的框图;以及
图12为根据图1到11的系统、装置和方法的可操作以对音频信号之间的声道间相位差进行编码和解码的基站的框图。
具体实施方式
装置可包含被配置成对多个音频信号进行编码的编码器。编码器可基于包含空间译码参数的编码参数产生音频位流。空间译码参数可替代地被称作“立体声提示”。接收音频位流的解码器可基于音频位流产生输出音频信号。立体声提示可包含声道间时间失配值、声道间相位差(IPD)值或其它立体声提示值。声道间时间失配值可指示多个音频信号中的第一音频信号与多个音频信号中的第二音频信号之间的时间未对准。IPD值可对应于多个频率子带。IPD值中的每一个可指示对应子带中的第一音频信号与第二音频信号之间的相位差。
公开可操作以对音频信号之间的声道间相位差进行编码和解码的系统和装置。在一特定方面中,编码器至少基于声道间时间失配值和与待编码的多个音频信号相关联的一或多个特性选择IPD分辨率。所述一或多个特性包含核心采样率、间距值、语音活动参数、发声因素、一或多个BWE参数、核心类型、编码解码器类型、话语/音乐分类(例如,话语/音乐决策参数)或其组合。BWE参数包含增益映射参数、频谱映射参数、声道间BWE参考声道指示符,或其组合。举例来说,编码器基于以下项选择IPD分辨率:声道间时间失配值、与声道间时间失配值相关联的强度值、间距值、语音活动参数、发声因素、核心采样率、核心类型、编码解码器类型、话语/音乐决策参数、增益映射参数、频谱映射参数、声道间BWE参考声道指示符,或其组合。编码器可选择对应于IPD模式的IPD值的分辨率(例如,IPD分辨率)。如本文所使用,参数的“分辨率”(例如IPD)可对应于经分配以供在输出位流中表示参数时使用的位的数目。在一特定实施方案中,IPD值的分辨率对应于IPD值的计数。举例来说,第一IPD值可对应于第一频带,第二IPD值可对应于第二频带,等等。在此实施方案中,IPD值的分辨率指示IPD值将包含于音频位流中的频带的数目。在一特定实施方案中,分辨率对应于IPD值的译码类型。举例来说,可使用第一译码器(例如,标量量化器)产生IPD值以具有第一分辨率(例如,高分辨率)。替代地,可使用第二译码器(例如,向量量化器)产生IPD值以具有第二分辨率(例如,低分辨率)。由第二译码器产生的IPD值可比由第一译码器产生的IPD值用较少位表示。编码器可基于多个音频信号的特性动态调整用以在音频位流中表示IPD值的位的数目。动态地调整所述位的数目可使较高分辨率IPD值在IPD值经预期对音频质量具有较大影响时能够被提供到解码器。在提供关于IPD分辨率的选择的细节之前,下文提出音频编码技术的概述。
装置的编码器可被配置成对多个音频信号进行编码。可使用多个记录装置(例如,多个麦克风)同时及时地俘获多个音频信号。在一些实例中,通过多路复用若干同时或在不同时间记录的音频声道,可合成地(例如,人工)产生多个音频信号(或多声道音频)。如说明性实例,音频声道的同时记录或多路复用可产生2声道配置(即,立体声:左和右)、5.1声道配置(左、右、中央、左环绕、右环绕和低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或网真(telepresence)室)中的音频俘获装置可包含获取空间音频的多个麦克风。空间音频可包含话语以及经编码且经发射的背景音频。来自给定源(例如,讲话者)的话语/音频可在不同时间、以不同到达方向或所述两者到达多个麦克风,此取决于麦克风如何布置以及源(例如,讲话者)相对于麦克风和房间维度位于何处。举例来说,相比于与装置相关联的第二麦克风,声源(例如,讲话者)可更靠近与装置相关联的第一麦克风。因此,从声源发出的声音可相比于第二麦克风更早地及时到达第一麦克风,以与在第二麦克风处截然不同的到达方向到达第一麦克风,或所述两者。装置可经由第一麦克风接收第一音频信号且可经由第二麦克风接收第二音频信号。
中侧(MS)译码和参数立体声(PS)译码为可提供相比双单声道译码技术效率改进的立体声译码技术。在双单声道译码中,左(L)声道(或信号)和右(R)声道(或信号)经独立地译码,而不使用声道间相关性。在译码之前,通过将左声道和右声道变换为总和声道和差声道(例如,侧声道),MS译码减少相关L/R声道对之间的冗余。总和信号和差信号在MS译码中经波形译码。总和信号比侧信号耗费相对多的位。PS译码通过将L/R信号变换为总和信号和一组侧参数来减少每一子带中的冗余。侧参数可指示声道间强度差(IID)、IPD、声道间时间失配等。总和信号经波形译码且与侧参数一起发射。在混合型系统中,侧声道可在较低带(例如,小于2千赫兹(kHz))中经波形译码且在较高带(例如,大于或等于2kHz)中经PS译码,其中声道间相位保持在感知上不太重要。
可在频域或子带域中进行MS译码和PS译码。在一些实例中,左声道和右声道可不相关。举例来说,左声道和右声道可包含不相关的合成信号。当左声道和右声道不相关时,MS译码、PS译码或两者的译码效率可接近双单声道译码的译码效率。
取决于记录配置,可在左声道与右声道之间存在时间移位以及其它空间效应(例如回声和室内混响)。如果并不补偿声道之间的时间移位和相位失配,那么总和声道和差声道可含有减少与MS或PS技术相关联的译码增益的相当能量。译码增益的减少可基于时间(或相位)移位的量。总和信号和差信号的相当能量可限制声道在时间上移位但高度相关的某些帧中的MS译码的使用。
在立体声译码中,可基于下列公式产生中间声道(例如,总和声道)和侧声道(例如,差声道):
M=(L+R)/2,S=(L-R)/2, 公式1
其中M对应于中间声道,S对应于侧声道,L对应于左声道且R对应于右声道。
在一些状况下,中间声道和侧声道可基于以下公式产生:
M=c(L+R),S=c(L-R), 公式2
其中c对应于频率相关的复合值。基于公式1或公式2产生中间声道和侧声道可被称作执行“降混”算法。基于公式1或公式2从中间声道和侧声道而产生左声道和右声道的反向过程可被称作执行“升混”算法。
在一些状况下,中间声道可基于其它公式,例如:
M=(L+gDR)/2,或 公式3
M=g1L+g2R 公式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在带中执行,其中mid(b)=c1L(b)+c2R(b),其中c1和c2为复数,其中side(b)=c3L(b)-c4R(b),且其中c3和c4为复数。
如上文所描述,在一些实例中,编码器可确定指示第一音频信号相对于第二音频信号的移位的声道间时间失配值。声道间时间失配可对应于声道间对准(ICA)值或声道间时间失配(ITM)值。ICA和ITM可为表示两个信号之间的时间未对准的替代性方式。ICA值(或ITM值)可对应于时域中的第一音频信号相对于第二音频信号的移位。替代地,ICA值(或ITM值)可对应于时域中的第二音频信号相对于第一音频信号的移位。ICA值和ITM值可两者均为使用不同方法产生的移位的估计。举例来说,可使用时域方法产生ICA值,而可使用频域方法产生ITM值。
声道间时间失配值可对应于在第一麦克风处的第一音频信号的接收与在第二麦克风处的第二音频信号的接收之间的时间未对准(例如,时间延迟)的量。编码器可(例如)基于每20毫秒(ms)话语/音频帧以逐个帧为基础确定声道间时间失配值。举例来说,声道间时间失配值可对应于第二音频信号的帧相对于第一音频信号的帧延迟的时间量。替代地,声道间时间失配值可对应于第一音频信号的帧相对于第二音频信号的帧延迟的时间量。
取决于声源(例如,讲话者)位于会议室或网真室何处或声源(例如,讲话者)位置相对于麦克风如何改变,声道间时间失配值可根据帧而改变。声道间时间失配值可对应于“非因果移位”值,借此经延迟信号(例如,目标信号)被及时“拉回”,使得第一音频信号与第二音频信号对准(例如,最大限度地对准)。“拉回”目标信号可对应于及时推进目标信号。举例来说,可与其它信号(例如,参考信号)的第一帧在大致相同时间在麦克风处接收经延迟信号(例如,目标信号)的第一帧。可在接收经延迟信号的第一帧之后接收经延迟信号的第二帧。当对参考信号的第一帧进行编码时,编码器可响应于确定经延迟信号的第二帧与参考信号的第一帧之间的差小于经延迟信号的第一帧与参考信号的第一帧之间的差,选择经延迟信号的第二帧,而非经延迟信号的第一帧。经延迟信号相对于参考信号的非因果移位包含将经延迟信号的第二帧(稍后接收)与参考信号的第一帧(较早接收)对准。非因果移位值可指示经延迟信号的第一帧与经延迟信号的第二帧之间的帧的数目。应理解,为了易于解释而描述帧级移位,在一些方面中,执行样本级非因果移位以将经延迟信号与参考信号对准。
编码器可基于第一音频信号和第二音频信号确定对应于多个频率子带的第一IPD值。举例来说,第一音频信号(或第二音频信号)可基于声道间时间失配值进行调整。在一特定实施方案中,第一IPD值对应于频率子带中的第一音频信号与经调整第二音频信号之间的相位差。在一替代性实施方案中,第一IPD值对应于频率子带中的经调整第一音频信号与第二音频信号之间的相位差。在另一替代性实施方案中,第一IPD值对应于频率子带中的经调整第一音频信号与经调整第二音频信号之间的相位差。在本文中所描述的各种实施方案中,第一或第二声道的时间调整可替代地在时域(而非在频域中)执行。第一IPD值可具有第一分辨率(例如,完全分辨率或高分辨率)。第一分辨率可对应于正用以表示第一IPD值的位的第一数目。
编码器可基于各种特性动态地确定待包含于经译码音频位流中的IPD值的分辨率,所述特性例如声道间时间失配值、与声道间时间失配值相关联的强度值、核心类型、编码解码器类型、话语/音乐决策参数,或其组合。编码器可基于所述特性选择IPD模式,如本文中所描述,而IPD模式对应于一特定分辨率。
编码器可通过调整第一IPD值的分辨率产生具有特定分辨率的IPD值。举例来说,IPD值可包含对应于多个频率子带的一子集的第一IPD值的一子集。
可基于声道间时间失配值、IPD值或其一组合对第一音频信号和第二音频信号执行确定中间声道和侧声道的降混算法。编码器可通过对中间声道进行编码产生中间声道位流,通过对侧声道进行编码产生侧声道位流,且产生立体声提示位流,其指示声道间时间失配值、IPD值(具有特定分辨率)、IPD模式的指示符或其一组合。
在一特定方面中,装置执行成帧或缓冲算法,以按第一采样率(例如,32kHz采样率,以产生每帧640个样本)产生帧(例如,20ms样本)。编码器可响应于确定第一音频信号的第一帧和第二音频信号的第二帧在相同时间到达装置,将声道间时间失配值估计为等于零个样本。可在时间上对准左声道(例如,对应于第一音频信号)和右声道(例如,对应于第二音频信号)。在一些状况下,甚至当对准时,左声道和右声道仍可归因于各种原因(例如,麦克风校准)在能量方面不同。
在一些实例中,左声道和右声道可归因于各种原因(例如,与麦克风中的另一者相比,声源(例如讲话者)可更靠近麦克风中的一者,且两个麦克风相隔距离可大于阈值(例如,1到20厘米))不在时间上对准。声源相对于麦克风的位置可在左声道和右声道中引入不同的延迟。此外,在左声道与右声道之间可存在增益差、能量差或电平差。
在一些实例中,当两个信号可能展示较少(例如,无)相关性时,可合成或人工产生第一音频信号和第二音频信号。应理解,本文所描述的实例为说明性且可在类似或不同情形中确定第一音频信号与第二音频信号之间的关系中具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较产生比较值(例如,差值或交叉相关值)。多个帧的每一帧可对应于特定声道间时间失配值。编码器可基于比较值产生声道间时间失配值。举例来说,声道间时间失配值可对应于一比较值,所述比较值指示第一音频信号的第一帧与第二音频信号的对应第一帧之间的较高时间类似性(或较小差)。
编码器可基于第一音频信号的第一帧与第二音频信号的对应第一帧的比较,产生对应于多个频率子带的第一IPD值。编码器可基于声道间时间失配值、与声道间时间失配值相关联的强度值、核心类型、编码解码器类型、话语/音乐决策参数或其一组合选择IPD模式。编码器可通过调整第一IPD值的分辨率,产生具有对应于IPD模式的一特定分辨率的IPD值。编码器可基于IPD值对第二音频信号的对应第一帧执行相移。
编码器可基于第一音频信号、第二音频信号、声道间时间失配值和IPD值产生至少一个编码信号(例如,中间信号、侧信号或两者)。侧信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的经相移的对应第一帧的第二样本之间的差。由于第一样本与第二样本之间的减小的差,如相比于对应于第二音频信号的帧(与第一帧同时由装置接收)的第二音频信号的其它样本,可使用极少的位对侧声道信号进行编码。装置的发射器可发射至少一个经编码信号、声道间时间失配值、IPD值、特定分辨率的指示符或其一组合。
参看图1,公开一系统的特定说明性实例且所述系统大体标示为100。系统100包含经由网络120以通信方式耦合到第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其一组合。
第一装置104可包含编码器114、发射器110、一或多个输入接口112或其组合。输入接口112中的第一输入接口可耦合到第一麦克风146。输入接口112中的第二输入接口可耦合到第二麦克风148。编码器114可包含声道间时间失配(ITM)分析器124、IPD模式选择器108、IPD估计器122、话语/音乐分类器129、LB分析器157、带宽扩展(BWE)分析器153或其一组合。编码器114可被配置成降混并对多个音频信号进行编码,如本文所描述。
第二装置106可包含解码器118和接收器170。解码器118可包含IPD模式分析器127、IPD分析器125或两者。解码器118可被配置成升混且呈现多个声道。第二装置106可耦合到第一扬声器142、第二扬声器144或两者。尽管图1说明一个装置包含编码器且另一装置包含解码器的实例,但应理解,在替代性方面中,装置可包含编码器和解码器两者。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频信号130,并可经由第二输入接口从第二麦克风148接收第二音频信号132。第一音频信号130可对应于右声道信号或左声道信号中的一个。第二音频信号132可对应于右声道信号或左声道信号中的另一个。声源152(例如,用户、扬声器、环境噪声、乐器等)可能比靠近第二麦克风148更靠近第一麦克风146,如图1中所展示。因此,可在输入接口112处经由第一麦克风146以比经由第二麦克风148早的时间接收来自声源152的音频信号。经由多个麦克风的多声道信号获取的此天然延迟可引入第一音频信号130与第二音频信号132之间的声道间时间失配。
声道间时间失配分析器124可确定声道间时间失配值163(例如,非因果移位值),其指示第一音频信号130相对于第二音频信号132的移位(例如,非因果移位)。在此实例中,第一音频信号130可被称作“目标”信号,且第二音频信号132可被称作“参考”信号。声道间时间失配值163的第一值(例如,正值)可指示第二音频信号132相对于第一音频信号130延迟。声道间时间失配值163的第二值(例如,负值)可指示第一音频信号130关于第二音频信号132延迟。声道间时间失配值163的第三值(例如,0)可指示第一音频信号130与第二音频信号132之间不存在时间未对准(例如,无时间延迟)。
声道间时间失配分析器124可基于第一音频信号130的第一帧与第二音频信号132的多个帧的比较,确定声道间时间失配值163、强度值150或两者(或反过来也一样),如参看图4进一步所描述。声道间时间失配分析器124可基于声道间时间失配值163,通过调整第一音频信号130(或第二音频信号132或两者)产生经调整第一音频信号130(或经调整第二音频信号132,或两者),如参看图4进一步所描述。话语/音乐分类器129可基于第一音频信号130、第二音频信号132或两者确定话语/音乐决策参数171,如参看图4进一步所描述。话语/音乐决策参数171可指示第一音频信号130的第一帧是否更紧密对应于(且因此更可能包含)话语或音乐。
编码器114可被配置成确定核心类型167、译码器类型169或两者。举例来说,在第一音频信号130的第一帧的编码之前,第一音频信号130的第二帧可已基于先前核心类型、先前译码器类型或两者进行编码。替代地,核心类型167可对应于先前核心类型,译码器类型169可对应于先前译码器类型,或两者。在一替代性方面中,核心类型167对应于经预测核心类型,译码器类型169对应于经预测译码器类型,或两者。编码器114可基于第一音频信号130和第二音频信号132确定经预测核心类型、经预测译码器类型,或两者,如参看图2进一步所描述。因此,核心类型167和译码器类型169的值可设定成用以对一先前帧进行编码的相应值,或此些值可独立于用以对先前帧进行编码的值进行预测。
LB分析器157被配置成基于第一音频信号130、第二音频信号132或两者确定一或多个LB参数159,如参看图2进一步所描述。LB参数159包含核心采样率(例如,12.8kHz或16kHz)、间距值、发声因素、发声活动参数、另一LB特性或其一组合。BWE分析器153被配置成基于第一音频信号130、第二音频信号132或两者确定一或多个BWE参数155,如参看图2进一步所描述。BWE参数155包含一或多个声道间BWE参数,例如增益映射参数、频谱映射参数、声道间BWE参考声道指示符或其一组合。
IPD模式选择器108可基于声道间时间失配值163、强度值150、核心类型167、译码器类型169、LB参数159、BWE参数155、话语/音乐决策参数171或其一组合选择IPD模式156,如参看图4进一步所描述。IPD模式156可对应于分辨率165,即,用以表示IPD值的位的数目。IPD估计器122可产生具有分辨率165的IPD值161,如参看图4进一步所描述。在一特定实施方案中,分辨率165对应于IPD值161的计数。举例来说,第一IPD值可对应于第一频带,第二IPD值可对应于第二频带,等等。在此实施方案中,分辨率165指示IPD值将包含于IPD值161中的频带的数目。在一特定方面中,分辨率165对应于相位值的范围。举例来说,分辨率165对应于表示包含于所述相位值范围中的值的位的数目。
在一特定方面中,分辨率165指示用以表示绝对IPD值的位的数目(例如,量化分辨率)。举例来说,分辨率165可指示第一数目个位(例如,第一量化分辨率)将用以表示对应于第一频带的第一IPD值的第一绝对值,指示第二数目个位(例如,第二量化分辨率)将用以表示对应于第二频带的第二IPD值的第二绝对值,指示额外位将用以表示对应于额外频带的额外绝对IPD值,或其一组合。IPD值161可包含第一绝对值、第二绝对值、额外绝对IPD值或其一组合。在一特定方面中,分辨率165指示将用以表示IPD值跨帧的时间方差的量的位的数目。举例来说,第一IPD值可与第一帧相关联,且第二IPD值可与第二帧相关联。IPD估计器122可基于第一IPD值与第二IPD值的比较确定时间方差的量。IPD值161可指示时间方差的量。在此方面中,分辨率165指示用以表示时间方差的量的位的数目。编码器114可产生指示IPD模式156、分辨率165或两者的IPD模式指示符116。
编码器114可基于第一音频信号130、第二音频信号132、IPD值161、声道间时间失配值163或其一组合,产生旁带位流164、中带位流166或两者,如参看图2到3进一步所描述。举例来说,编码器114可基于经调整第一音频信号130(例如,第一对准音频信号)、第二音频信号132(例如,第二对准音频信号)、IPD值161、声道间时间失配值163或其一组合,产生旁带位流164、中带位流166或两者。作为另一实例,编码器114可基于第一音频信号130、经调整第二音频信号132、IPD值161、声道间时间失配值163或其一组合产生旁带位流164、中带位流166或两者。编码器114也可产生立体声提示位流162,其指示IPD值161、声道间时间失配值163、IPD模式指示符116、核心类型167、译码器类型169、强度值150、话语/音乐决策参数171,或其一组合。
发射器110可经由网络120将立体声提示位流162、旁带位流164、中带位流166或其一组合发射到第二装置106。替代地或另外,发射器110可在稍后时间点在网络120的装置或用于进一步处理或解码的本地装置处存储立体声提示位流162、旁带位流164、中带位流166或其一组合。当分辨率165对应于多于零个位时,IPD值161外加声道间时间失配值163可实现在解码器(例如,解码器118或本地解码器)处的更精细子带调整。当分辨率165对应于零个位时,立体声提示位流162可具有极少位,或可具有可用于包含不同于IPD的立体声提示参数的位。
接收器170可经由网络120接收立体声提示位流162、旁带位流164、中带位流166或其一组合。解码器118可基于立体声提示位流162、旁带位流164、中带位流166或其一组合执行解码操作,以产生对应于输入信号130、132的经解码版本的输出信号126、128。举例来说,IPD模式分析器127可确定立体声提示位流162包含IPD模式指示符116,且确定IPD模式指示符116指示IPD模式156。IPD分析器125可基于对应于IPD模式156的分辨率165从立体声提示位流162提取IPD值161。解码器118可基于IPD值161、旁带位流164、中带位流166、或其一组合产生第一输出信号126和第二输出信号128,如参看图7进一步所描述。第二装置106可经由第一扬声器142输出第一输出信号126。第二装置106可经由第二扬声器144输出第二输出信号128。在替代性实例中,第一输出信号126和第二输出信号128可作为立体声信号对发射到单个输出扬声器。
系统100可因此使编码器114能够基于各种特性动态地调整IPD值161的分辨率。举例来说,编码器114可基于声道间时间失配值163、强度值150、核心类型167、译码器类型169、话语/音乐决策参数171或其一组合确定IPD值的分辨率。编码器114可因此在IPD值161具有低分辨率(例如,零分辨率)时使用具有可用于对其它信息进行编码的较多位,且可在IPD值161具有较高分辨率时实现在解码器处执行更精细子带调整。
参看图2,展示编码器114的一说明性实例。编码器114包含耦合到立体声提示估计器206的声道间时间失配分析器124。立体声提示估计器206可包含话语/音乐分类器129、LB分析器157、BWE分析器153、IPD模式选择器108、IPD估计器122或其一组合。
变换器202可经由声道间时间失配分析器124耦合到立体声提示估计器206、旁带信号产生器208、中带信号产生器212或其一组合。变换器204可经由声道间时间失配分析器124耦合到立体声提示估计器206、旁带信号产生器208、中带信号产生器212或其一组合。旁带信号产生器208可耦合到旁带编码器210。中带信号产生器212可耦合到中带编码器214。立体声提示估计器206可耦合到旁带信号产生器208、旁带编码器210、中带信号产生器212或其一组合。
在一些实例中,图1的第一音频信号130可包含左声道信号,且图1的第二音频信号132可包含右声道信号。时域左信号(Lt)290可对应于第一音频信号130,且时域右信号(Rt)292可对应于第二音频信号132。然而,应理解,在其它实例中,第一音频信号130可包含右声道信号且第二音频信号132可包含左声道信号。在此些实例中,时域右信号(Rt)292可对应于第一音频信号130,且时域左信号(Lt)290可对应于第二音频信号132。还应理解,图1到4、7到8和10中所说明的各种组件(例如,变换、信号产生器、编码器、估计器等)可使用硬件(例如,专用电路系统)、软件(例如,由处理器执行的指令)或其组合而实施。
在操作期间,变换器202可对时域左信号(Lt)290执行变换,且变换器204可对时域右信号(Rt)292执行变换。变换器202、204可执行产生频域(或子带域)信号的变换操作。作为非限制性实例,变换器202、204可执行离散傅立叶变换(DFT)操作、快速傅立叶变换(FFT)操作等。在一特定实施方案中,正交镜像滤波器组(QMF)操作(使用滤波器组,例如复杂低延迟滤波器组)用以将输入信号290、292分裂成多个子带,且所述子带可使用另一频域变换操作被转换成频域。变换器202可通过变换时域左信号(Lt)290来产生频域左信号(Lfr(b))229,且变换器304可通过变换时域右信号(Rt)292来产生频域右信号(Rfr(b))231。
声道间时间失配分析器124可基于频域左信号(Lfr(b))229和频域右信号(Rfr(b))231产生声道间时间失配值163、强度值150或两者,如参看图4所描述。声道间时间失配值163可在频域左信号(Lfr(b))229与频域右信号(Rfr(b))231之间提供时间失配的一估计。声道间时间失配值163可包含ICA值262。声道间时间失配分析器124可基于频域左信号(Lfr(b))229、频域右信号(Rfr(b))231和声道间时间失配值163产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232。举例来说,声道间时间失配分析器124可基于ITM值264,通过移位频域左信号(Lfr(b))229来产生频域左信号(Lfr(b))230。频域右信号(Rfr(b))232可对应于频域右信号(Rfr(b))231。替代地,声道间时间失配分析器124可基于ITM值264,通过移位频域右信号(Rfr(b))231来产生频域右信号(Rfr(b))232。频域左信号(Lfr(b))230可对应于频域左信号(Lfr(b))229。
在特定方面中,声道间时间失配分析器124基于时域左信号(Lt)290和时域右信号(Rt)292产生声道间时间失配值163、强度值150或两者,如参看图4所描述。在此方面中,声道间时间失配值163包含ITM值264而非ICA值262,如参看图4所描述。声道间时间失配分析器124可基于时域左信号(Lt)290、时域右信号(Rt)292和声道间时间失配值163产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232。举例来说,声道间时间失配分析器124可基于ICA值262,通过移位时域左信号(Lt)290来产生经调整时域左信号(Lt)290。声道间时间失配分析器124可通过分别对经调整时域左信号(Lt)290和时域右信号(Rt)292执行变换来产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232。替代地,声道间时间失配分析器124可基于ICA值262,通过移位时域右信号(Rt)292来产生经调整时域右信号(Rt)292。声道间时间失配分析器124可通过分别对时域左信号(Lt)290和经调整时域右信号(Rt)292执行变换来产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232。替代地,声道间时间失配分析器124可基于ICA值262通过移位时域左信号(Lt)290来产生经调整时域左信号(Lt)290,且基于ICA值262通过移位时域右信号(Rt)292来产生经调整时域右信号(Rt)292。声道间时间失配分析器124可通过分别对经调整时域左信号(Lt)290和经调整时域右信号(Rt)292执行变换来产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232。
立体声提示估计器206和旁带信号产生器208可各自从声道间时间失配分析器124接收声道间时间失配值163、强度值150或两者。立体声提示估计器206和旁带信号产生器208亦可从变换器202接收频域左信号(Lfr(b))230,从变换器204接收频域右信号(Rfr(b))232,或其一组合。立体声提示估计器206可基于频域左信号(Lfr(b))230、频域右信号(Rfr(b))232、声道间时间失配值163、强度值150或其一组合产生立体声提示位流162。举例来说,立体声提示估计器206可产生IPD模式指示符116、IPD值161或两者,如参看图4所描述。立体声提示估计器206可替代地被称作“立体声提示位流产生器”。IPD值161可在频域左信号(Lfr(b))230与频域右信号(Rfr(b))232之间提供频域中的相位差的估计值。在一特定方面中,立体声提示位流162包含额外(或替代性)参数,例如IID等。立体声提示位流162可被提供到旁带信号产生器208,且被提供到旁带编码器210。
旁带信号产生器208可基于频域左信号(Lfr(b))230、频域右信号(Rfr(b))232、声道间时间失配值163、IPD值161或其一组合产生频域旁带信号(Sfr(b))234。在一特定方面中,频域旁带信号234是在频域仓/带中进行估计,且IPD值161对应于多个带。举例来说,IPD值161的第一IPD值可对应于第一频带。旁带信号产生器208可基于第一IPD值,通过对第一频带中的频域左信号(Lfr(b))230执行相移,来产生相位经调整的频域左信号(Lfr(b))230。旁带信号产生器208可基于第一IPD值,通过对第一频带中的频域右信号(Rfr(b))232执行相移,来产生相位经调整的频域右信号(Rfr(b))232。此过程可针对其它频带/频率仓重复。
相位经调整频域左信号(Lfr(b))230可对应于c1(b)*Lfr(b),且相位经调整频域右信号(Rfr(b))232可对应于c2(b)*Rfr(b),其中Lfr(b)对应于频域左信号(Lfr(b))230,Rfr(b)对应于频域右信号(Rfr(b))232,且c1(b)和c2(b)为基于IPD值161的复合值。在一特定实施方案中,c1(b)=(cos(-γ)-i*sin(-γ))/20.5且c2(b)=(cos(IPD(b)-γ)+i*sin(IPD(b)-γ))/20.5,其中i为表示平方根-1的虚数,且IPD(b)为与一特定子带(b)相关联的IPD值161中的一个。在一特定方面中,IPD模式指示符116指示IPD值161具有一特定分辨率(例如,0)。在此方面中,相位经调整频域左信号(Lfr(b))230对应于频域左信号(Lfr(b))230,而相位经调整频域右信号(Rfr(b))232对应于频域右信号(Rfr(b))232。
旁带信号产生器208可基于相位经调整频域左信号(Lfr(b))230和相位经调整频域右信号(Rfr(b))232产生频域旁带信号(Sfr(b))234。可将频域旁带信号(Sfr(b))234表达为(l(fr)-r(fr))/2,其中l(fr)包含相位经调整频域左信号(Lfr(b))230,且r(fr)包含相位经调整频域右信号(Rfr(b))232。可将频域旁带信号(Sfr(b))234提供到旁带编码器210。
中带信号产生器212可从声道间时间失配分析器124接收声道间时间失配值163,从变换器202接收频域左信号(Lfr(b))230,从变换器204接收频域右信号(Rfr(b))232,从立体声提示估计器206接收立体声提示位流162,或其一组合。中带信号产生器212可产生相位经调整频域左信号(Lfr(b))230和相位经调整频域右信号(Rfr(b))232,如参考旁带信号产生器208所描述。中带信号产生器212可基于相位经调整频域左信号(Lfr(b))230和相位经调整频域右信号(Rfr(b))232产生频域中带信号(Mfr(b))236。可将频域中带信号(Mfr(b))236表达为(l(t)+r(t))/2,其中l(t)包含相位经调整频域左信号(Lfr(b))230,且r(t)包含相位经调整频域右信号(Rfr(b))232。可将频域中带信号(Mfr(b))236提供到旁带编码器210。也可将频域中带信号(Mfr(b))236提供到中带编码器214。
在一特定方面中,中带信号产生器212选择帧核心类型267、帧译码器类型269或两者,以用以对频域中带信号(Mfr(b))236进行编码。举例来说,中带信号产生器212可选择代数码激励线性预测(ACELP)核心类型、经变换译码激励(TCX)核心类型或另一核心类型作为帧核心类型267。为进行说明,中带信号产生器212可响应于确定话语/音乐分类器129指示频域中带信号(Mfr(b))236对应于话语而选择ACELP核心类型作为帧核心类型267。替代地,中带信号产生器212可响应于确定话语/音乐分类器129指示频域中带信号(Mfr(b))236对应于非话语(例如,音乐)而选择TCX核心类型作为帧核心类型267。
LB分析器157被配置成确定图1的LB参数159。LB参数159对应于时域左信号(Lt)290、时域右信号(Rt)292或两者。在一特定实例中,LB参数159包含核心采样率。在一特定方面中,LB分析器157被配置成基于帧核心类型267确定核心采样率。举例来说,LB分析器157被配置成响应于确定帧核心类型267对应于ACELP核心类型而选择第一采样率(例如,12.8kHz))作为核心采样率。替代地,LB分析器157被配置成响应于确定帧核心类型267对应于非ACELP核心类型(例如,TCX核心类型)而选择第二采样率(例如,16kHz)作为核心采样率。在一替代性方面中,LB分析器157被配置成基于默认值、用户输入、配置设定或其一组合确定核心采样率。
在一特定方面中,LB参数159包含间距值、语音活动参数、发声因素或其一组合。间距值可指示对应于时域左信号(Lt)290、时域右信号(Rt)292或两者的差分间距周期或绝对间距周期。语音活动参数可指示时域左信号(Lt)290、时域右信号(Rt)292或两者中是否检测到话语。发声因素(例如,从0.0到1.0的值)指示时域左信号(Lt)290、时域右信号(Rt)292或两者的有声/无声本质(例如,强有声、弱有声、弱无声或强无声)。
BWE分析器153被配置成基于时域左信号(Lt)290、时域右信号(Rt)292或两者确定BWE参数155。BWE参数155包含增益映射参数、频谱映射参数、声道间BWE参考声道指示符,或其一组合。举例来说,BWE分析器153被配置成基于高带信号与经合成高带信号的比较确定增益映射参数。在一特定方面中,高带信号和经合成高带信号对应于时域左信号(Lt)290。在一特定方面中,高带信号和经合成高带信号对应于时域右信号(Rt)292。在特定实例中,BWE分析器153被配置成基于高带信号与经合成高带信号的比较确定频谱映射参数。为进行说明,BWE分析器153被配置成通过将增益参数应用于经合成高带信号来产生经增益调整合成信号,且基于经增益调整合成信号与高带信号的比较产生频谱映射参数。频谱映射参数指示频谱倾斜。
中带信号产生器212可响应于确定话语/音乐分类器129指示频域中带信号(Mfr(b))236对应于话语而选择一般信号译码(GSC)译码器类型或非GSC译码器类型作为帧译码器类型269。举例来说,中带信号产生器212可响应于确定频域中带信号(Mfr(b))236对应于高频谱稀疏性(例如,高于稀疏性阈值)而选择非GSC译码器类型(例如,经修改离散余弦变换(MDCT))。替代地,中带信号产生器212可响应于确定频域中带信号(Mfr(b))236对应于非稀疏频谱(例如,低于稀疏性阈值)而选择GSC译码器类型。
中带信号产生器212可基于帧核心类型267、帧译码器类型269或两者,将频域中带信号(Mfr(b))236提供到中带编码器214供编码。帧核心类型267、帧译码器类型269或两者可与待由中带编码器214编码的频域中带信号(Mfr(b))236的第一帧相关联。帧核心类型267可存储于存储器中作为先前帧核心类型268。帧译码器类型269可存储于存储器中作为先前帧译码器类型270。立体声提示估计器206可使用先前帧核心类型268、先前帧译码器类型270或两者,关于频域中带信号(Mfr(b))236的第二帧确定立体声提示位流162,如参看图4所描述。应理解,图式中的各种组件的分组是为了易于说明,且为非限制性的。举例来说,话语/音乐分类器129可沿中间信号产生路径包含于任一组件中。为进行说明,话语/音乐分类器129可包含于中带信号产生器212中。中带信号产生器212可产生话语/音乐决策参数。话语/音乐决策参数可存储于存储器中作为图1的话语/音乐决策参数171。立体声提示估计器206被配置成使用话语/音乐决策参数171、LB参数159、BWE参数155或其一组合,关于频域中带信号(Mfr(b))236的第二帧确定立体声提示位流162,如参看图4所描述。
旁带编码器210可基于立体声提示位流162、频域旁带信号(Sfr(b))234和频域中带信号(Mfr(b))236产生旁带位流164。中带编码器214可通过对频域中带信号(Mfr(b))236进行编码来产生中带位流166。在特定实例中,旁带编码器210和中带编码器214可包含ACELP编码器、TCX编码器或两者,以分别产生旁带位流164和中带位流166。对于较低带,频域旁带信号(Sfr(b))334可使用变换域译码技术进行编码。对于较高带,可将频域旁带信号(Sfr(b))234表达为从先前帧的中带信号进行的预测(经量化或经去量化)。
中带编码器214可在编码之前将频域中带信号(Mfr(b))236变换到任何其它变换域/时域。举例来说,频域中带信号(Mfr(b))236可经反变换回到时域,或变换到MDCT域以供译码。
图2因此说明编码器114的一实例,其中先前经编码帧的核心类型和/或译码器类型用以确定IPD模式,且因此确定立体声提示位流162中的IPD值的分辨率。在一替代性方面中,编码器114使用经预测核心和/或译码器类型而非来自先前帧的值。举例来说,图3描绘编码器114的一说明性实例,其中立体声提示估计器206可基于经预测核心类型368、经预测译码器类型370或两者确定立体声提示位流162。
编码器114包含耦合到预处理器318的降混器320。预处理器318经由多路复用器(MUX)316耦合到立体声提示估计器206。降混器320可基于声道间时间失配值163通过降混时域左信号(Lt)290和时域右信号(Rt)292产生经估计时域中带信号(Mt)396。举例来说,降混器320可基于声道间时间失配值163,通过调整时域左信号(Lt)290来产生经调整时域左信号(Lt)290,如参看图2所描述。降混器320可基于经调整时域左信号(Lt)290和时域右信号(Rt)292产生经估计时域中带信号(Mt)396。可将经估计时域中带信号(Mt)396表达为(l(t)+r(t))/2,其中l(t)包含经调整时域左信号(Lt)290且r(t)包含时域右信号(Rt)292。作为另一实例,降混器320可基于声道间时间失配值163,通过调整时域右信号(Rt)292来产生经调整时域右信号(Rt)292,如参看图2所描述。降混器320可基于时域左信号(Lt)290和经调整时域右信号(Rt)292产生经估计时域中带信号(Mt)396。经估计时域中带信号(Mt)396可表示为(l(t)+r(t))/2,其中l(t)包含时域左信号(Lt)290且r(t)包含经调整时域右信号(Rt)292。
替代地,降混器320可在频域中而非在时域中操作。为进行说明,降混器320可基于声道间时间失配值163,通过降混频域左信号(Lfr(b))229和频域右信号(Rfr(b))231来产生经估计频域中带信号Mfr(b)336。举例来说,降混器320可基于声道间时间失配值163产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232,如参看图2所描述。降混器320可基于频域左信号(Lfr(b))230和频域右信号(Rfr(b))232产生经估计频域中带信号Mfr(b)336。可将经估计频域中带信号Mfr(b)336表达为(l(t)+r(t))/2,其中l(t)包含频域左信号(Lfr(b))230,且r(t)包含频域右信号(Rfr(b))232。
降混器320可将经估计时域中带信号(Mt)396(或经估计频域中带信号Mfr(b)336)提供到预处理器318。预处理器318可基于中带信号确定经预测核心类型368、经预测译码器类型370或两者,如参考中带信号产生器212所描述。举例来说,预处理器318可基于中带信号的话语/音乐分类、中带信号的频谱稀疏性或两者确定经预测核心类型368、经预测译码器类型370或两者。在一特定方面中,预处理器318基于中带信号的话语/音乐分类确定经预测话语/音乐决策参数,且基于经预测话语/音乐决策参数、中带信号的频谱稀疏性或两者确定经预测核心类型368、经预测译码器类型370或两者。中带信号可包含经估计时域中带信号(Mt)396(或经估计频域中带信号Mfr(b)336)。
预处理器318可将经预测核心类型368、经预测译码器类型370、经预测话语/音乐决策参数或其一组合提供到MUX 316。MUX 316可在以下项之间选择:将经预测译码信息(例如,经预测核心类型368、经预测译码器类型370、经预测话语/音乐决策参数或其一组合)或与频域中带信号Mfr(b)236的先前经编码帧相关联的先前译码信息(例如,先前帧核心类型268、先前帧译码器类型270、先前帧话语/音乐决策参数或其一组合)输出到立体声提示估计器206。举例来说,MUX 316可基于默认值、对应于用户输入的值或两者在经预测译码信息或先前译码信息之间选择。
将先前译码信息(例如,先前帧核心类型268、先前帧译码器类型270、先前帧话语/音乐决策参数或其一组合)提供到立体声提示估计器206(如参看图2所描述)可节省将用以确定经预测译码信息(例如,经预测核心类型368、经预测译码器类型370、经预测话语/音乐决策参数或其一组合)的资源(例如,时间、处理循环或两者)。相反地,当第一音频信号130和/或第二音频信号132的特性中存在高帧到帧变化时,经预测译码信息(例如,经预测核心类型368、经预测译码器类型370、经预测话语/音乐决策参数或其一组合)可更准确地对应于由中带信号产生器212选择的核心类型、译码器类型、话语/音乐决策参数或其一组合。因此,在将先前译码信息或经预测译码信息输出到立体声提示估计器206之间动态地切换(例如,基于到MUX 316的输入)可实现平衡资源使用和准确性。
参看图4,展示了立体声提示估计器206的一说明性实例。立体声提示估计器206可耦合到声道间时间失配分析器124,其可基于左信号(L)490的第一帧与右信号(R)492的多个帧的比较而确定相关性信号145。在一特定方面中,左信号(L)490对应于时域左信号(Lt)290,而右信号(R)492对应于时域右信号(Rt)292。在一替代性方面中,左信号(L)490对应于频域左信号(Lfr(b))229,而右信号(R)492对应于频域右信号(Rfr(b))231。
右信号(R)492的多个帧中的每一个可对应于一特定声道间时间失配值。举例来说,右信号(R)492的第一帧可对应于声道间时间失配值163。相关性信号145可指示左信号(L)490的第一帧与右信号(R)492的多个帧中的每一个之间的相关性。
替代地,声道间时间失配分析器124可基于右信号(R)492的第一帧与左信号(L)490的多个帧的比较确定相关性信号145。在此方面中,左信号(L)490的多个帧中的每一个对应于一特定声道间时间失配值。举例来说,左信号(L)490的第一帧可对应于声道间时间失配值163。相关性信号145可指示右信号(R)492的第一帧与左信号(L)490的多个帧中的每一个之间的相关性。
声道间时间失配分析器124可基于确定相关性信号145指示左信号(L)490的第一帧与右信号(R)492的第一帧之间的最高相关性,选择声道间时间失配值163。举例来说,声道间时间失配分析器124可响应于确定相关性信号145的峰对应于右信号(R)492的第一帧而选择声道间时间失配值163。声道间时间失配分析器124可确定强度值150,其指示左信号(L)490的第一帧与右信号(R)492的第一帧之间的相关性等级。举例来说,强度值150可对应于相关性信号145的峰的高度。当左信号(L)490和与右信号(R)492分别为例如时域左信号(Lt)290和时域右信号(Rt)292的时域信号时,声道间时间失配值163可对应于ICA值262。替代地,当左信号(L)490和右信号(R)492分别为例如频域左信号(Lfr)229和频域右信号(Rfr)231的频域信号时,声道间时间失配值163可对应于ITM值264。声道间时间失配分析器124可基于左信号(L)490、右信号(R)492和声道间时间失配值163产生频域左信号(Lfr(b))230和频域右信号(Rfr(b))232,如参看图2所描述。声道间时间失配分析器124可将频域左信号(Lfr(b))230、频域右信号(Rfr(b))232、声道间时间失配值163、强度值150或其一组合提供到立体声提示估计器206。
话语/音乐分类器129可使用各种话语/音乐分类技术,基于频域左信号(Lfr)230(或频域右信号(Rfr)232)产生话语/音乐决策参数171。举例来说,话语/音乐分类器129可确定与频域左信号(Lfr)230(或频域右信号(Rfr)232)相关联的线性预测系数(LPC)。话语/音乐分类器129可使用LPC通过反滤波频域左信号(Lfr)230(或频域右信号(Rfr)232)来产生残余信号,且可基于确定残余信号的残余能量是否满足阈值而将频域左信号(Lfr)230(或频域右信号(Rfr)232)分类为话语或音乐。话语/音乐决策参数171可指示频域左信号(Lfr)230(或频域右信号(Rfr)232)是否被分类为话语或音乐。在一特定方面中,立体声提示估计器206从中带信号产生器212接收话语/音乐决策参数171,如参看图2所描述,其中话语/音乐决策参数171对应于一先前帧话语/音乐决策参数。在另一方面中,立体声提示估计器206从MUX 316接收话语/音乐决策参数171,如参看图3所描述,其中话语/音乐决策参数171对应于先前帧话语/音乐决策参数或经预测话语/音乐决策参数。
LB分析器157被配置成确定LB参数159。举例来说,LB分析器157被配置成确定核心采样率、间距值、语音活动参数、发声因素或其一组合,如参看图2所描述。BWE分析器153被配置成确定BWE参数155,如参看图2所描述。
IPD模式选择器108可基于声道间时间失配值163、强度值150、核心类型167、译码器类型169、话语/音乐决策参数171、LB参数159、BWE参数155或其一组合从多个IPD模式选择IPD模式156。核心类型167可对应于图2的先前帧核心类型268或图3的经预测核心类型368。译码器类型169可对应于图2的先前帧译码器类型270或图3的经预测译码器类型370。多个IPD模式可包含对应于第一分辨率456的第一IPD模式465、对应于第二分辨率476的第二IPD模式467、一或多个额外IPD模式或其一组合。第一分辨率456可高于第二分辨率476。举例来说,第一分辨率456可对应于比对应于第二分辨率476的第二数目个位数目高的位。
IPD模式选择的一些说明性非限制性实例在下文中进行描述。应理解,IPD模式选择器108可基于包含(但不限于)以下项的因素的任何组合选择IPD模式156:声道间时间失配值163、强度值150、核心类型167、译码器类型169、LB参数159、BWE参数155和/或话语/音乐决策参数171。在一特定方面中,当声道间时间失配值163、强度值150、核心类型167、LB参数159、BWE参数155、译码器类型169或话语/音乐决策参数171指示IPD值161很可能对音频质量具有较大影响时,IPD模式选择器108选择第一IPD模式465作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于声道间时间失配值163满足(例如,等于)差阈值(例如,0)的确定而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于声道间时间失配值163满足(例如,等于)差阈值(例如,0)的确定而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定声道间时间失配值163不能满足(例如,不等于)差阈值(例如,0)而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于声道间时间失配值163不能满足(例如,不等于)差阈值(例如,0)且强度值150满足(例如,大于)强度阈值的确定而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于确定声道间时间失配值163不能满足(例如,不等于)差阈值(例如,0)且强度值150满足(例如,大于)强度阈值而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于声道间时间失配值163不能满足(例如,不等于)差阈值(例如,0)且强度值150不能满足(例如,小于或等于)强度阈值的确定而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于确定声道间时间失配值163小于差阈值(例如,阈值)而确定声道间时间失配值163满足差阈值。在此方面中,IPD模式选择器108响应于确定声道间时间失配值163大于或等于差阈值而确定声道间时间失配值163不能满足差阈值。
在一特定方面中,IPD模式选择器108响应于确定译码器类型169对应于非GSC译码器类型而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于确定译码器类型169对应于非GSC译码器类型而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定译码器类型169对应于GSC译码器类型而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于确定核心类型167对应于TCX核心类型或核心类型167对应于ACELP核心类型且译码器类型169对应于非GSC译码器类型而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于确定核心类型167对应于TCX核心类型或核心类型167对应于ACELP核心类型且译码器类型169对应于非GSC译码器类型而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定核心类型167对应于ACELP核心类型且译码器类型169对应于GSC译码器类型而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于确定话语/音乐决策参数171指示频域左信号(Lfr)230(或频域右信号(Rfr)232)被分类为非话语(例如,音乐)而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于确定话语/音乐决策参数171指示频域左信号(Lfr)230(或频域右信号(Rfr)232)被分类为非话语(例如,音乐)而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定话语/音乐决策参数171指示频域左信号(Lfr)230(或频域右信号(Rfr)232)被分类为话语而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于确定LB参数159包含核心采样率且核心采样率对应于第一核心采样率(例如,16kHz)而选择第一IPD模式465作为IPD模式156。IPD模式选择器108可响应于确定核心采样率对应于第一核心采样率(例如,16kHz)而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定核心采样率对应于第二核心采样率(例如,12.8kHz)而选择第二IPD模式467作为IPD模式156。
在一特定方面中,IPD模式选择器108响应于确定LB参数159包含特定参数且特定参数的值满足第一阈值而选择第一IPD模式465作为IPD模式156。特定参数可包含间距值、发声参数、发声因素、增益映射参数、频谱映射参数或声道间BWE参考声道指示符。IPD模式选择器108可响应于确定特定参数满足第一阈值而确定IPD值161很可能对音频质量具有较大影响。替代地,IPD模式选择器108可响应于确定特定参数不能满足第一阈值而选择第二IPD模式467作为IPD模式156。
下表1提供选择IPD模式156的上述说明性方面的概述。然而,应理解,所描述方面不应被视为限制性的。在替代性实施方案中,表1的一行中所展示的同一组条件可引导IPD模式选择器108选择不同于表1中所示的一者的IPD模式。此外,在替代性实施方案中,可考虑更多、更少和/或不同的因素。另外,在替代性实施方案中,决策表可包含更多或更少列。
表1
IPD模式选择器108可将指示选定IPD模式156(例如,第一IPD模式465或第二IPD模式467)的IPD模式指示符116提供到IPD估计器122。在一特定方面中,与第二IPD模式467相关联的第二分辨率476具有指示以下项的一特定值(例如,0):IPD值161将被设定成一特定值(例如,0)、IPD值161中的每一个将被设定成一特定值(例如,零),或IPD值161不存在于立体声提示位流162中。与第一IPD模式465相关联的第一分辨率456可具有截然不同于特定值(例如,0)的另一值(例如,大于0)。在此方面中,IPD估计器122响应于确定选定IPD模式156对应于第二IPD模式467而将IPD值161设定成特定值(例如,零),将IPD值161中的每一个设定成特定值(例如,零),或抑制将IPD值161包含于立体声提示位流162中。替代地,IPD估计器122可响应于确定选定IPD模式156对应于第一IPD模式465而确定第一IPD值461,如本文中所描述。
IPD估计器122可基于频域左信号(Lfr(b))230、频域右信号(Rfr(b))232、声道间时间失配值163或其一组合确定第一IPD值461。IPD估计器122可基于声道间时间失配值163,通过调整左信号(L)490或右信号(R)492中的至少一个来产生第一对准信号和第二对准信号。第一对准信号可在时间上与第二对准信号对准。举例来说,第一对准信号的第一帧可对应于左信号(L)490的第一帧,且第二对准信号的第一帧可对应于右信号(R)492的第一帧。第一对准信号的第一帧可与第二对准信号的第一帧对准。
IPD估计器122可基于声道间时间失配值163确定左信号(L)490或右信号(R)492中的一个对应于时间滞后声道。举例来说,IPD估计器122可响应于确定声道间时间失配值163不能满足(例如,小于)一特定阈值(例如,0)而确定左信号(L)490对应于时间滞后声道。IPD估计器122可非因果地调整时间滞后声道。举例来说,IPD估计器122可响应于确定左信号(L)490对应于时间滞后声道,基于声道间时间失配值163,通过非因果地调整左信号(L)490来产生经调整信号。第一对准信号可对应于经调整信号,且第二对准信号可对应于右信号(R)492(例如,未调整的信号)。
在一特定方面中,IPD估计器122通过在频域中执行相位旋转操作来产生第一对准信号(例如,第一经相位旋转频域信号)和第二对准信号(例如,第二经相位旋转频域信号)。举例来说,IPD估计器122可通过对左信号(L)490(或经调整信号)执行第一变换来产生第一对准信号。在一特定方面中,IPD估计器122通过对右信号(R)492执行第二变换来产生第二对准信号。在一替代性方面中,IPD估计器122将右信号(R)492指明为第二对准信号。
IPD估计器122可基于左信号(L)490(或第一对准信号)的第一帧和右信号(R)492(或第二对准信号)的第一帧确定第一IPD值461。IPD估计器122可确定与多个频率子带中的每一个相关联的相关性信号。举例来说,第一相关性信号可基于左信号(L)490的第一帧的第一子带和将应用于右信号(R)492的第一帧的第一子带的多个相移。多个相移中的每一个可对应于一特定IPD值。IPD估计器122可在特定相移被应用于右信号(R)492的第一帧的第一子带时确定第一相关性信号指示左信号(L)490的第一子带与右信号(R)492的第一帧的第一子带具有最高相关性。特定相移可对应于第一IPD值。IPD估计器122可将与第一子带相关联的第一IPD值添加到第一IPD值461。类似地,IPD估计器122可将对应于一或多个额外子带的一或多个额外IPD值添加到第一IPD值461。在一特定方面中,与第一IPD值461相关联的子带中的每一个是截然不同的。在一替代性方面中,与第一IPD值461相关联的一些子带重叠。第一IPD值461可与第一分辨率456(例如,最高可用的分辨率)相关联。由IPD估计器122考虑的频率子带可具有相同大小或可具有不同大小。
在一特定方面中,IPD估计器122通过调整第一IPD值461以具有对应于IPD模式156的分辨率165来产生IPD值161。在一特定方面中,IPD估计器122响应于确定分辨率165大于或等于第一分辨率456而确定IPD值161与第一IPD值461相同。举例来说,IPD估计器122可抑制调整第一IPD值461。因此,当IPD模式156对应于足以表示第一IPD值461的分辨率(例如,高分辨率)时,第一IPD值461可在无调整的情况下进行发射。替代地,IPD估计器122可响应于确定分辨率165小于第一分辨率456而产生IPD值161,可减小第一IPD值461的分辨率。因此,当IPD模式156对应于不足以表示第一IPD值461的分辨率(例如,低分辨率)时,第一IPD值461可经调整以在发射之前产生IPD值161。
在一特定方面中,分辨率165指示待用以表示绝对IPD值的位的数目,如参看图1所描述。IPD值161可包含第一IPD值461的绝对值中的一或多个。举例来说,IPD估计器122可基于第一IPD值461的第一值的绝对值确定IPD值161的第一值。IPD值161的第一值可与同第一IPD值461的第一值相同的频带相关联。
在一特定方面中,分辨率165指示待用以表示IPD值跨帧的时间方差的量的位的数目,如参看图1所描述。IPD估计器122可基于第一IPD值461与第二IPD值的比较而确定IPD值161。第一IPD值461可与特定音频帧相关联,且第二IPD值可与另一音频帧相关联。IPD值161可指示第一IPD值461与第二IPD值之间的时间方差的量。
下文描述减小IPD值的分辨率的一些说明性非限制性实例。应理解,可使用各种其它技术来减小IPD值的分辨率。
在一特定方面中,IPD估计器122确定IPD值的目标分辨率165小于所确定IPD值的第一分辨率456。即,IPD估计器122可确定存在比已经确定的由IPD占据的位的数目少的可用于表示IPD的位。作为响应,IPD估计器122可通过将第一IPD值461平均化而产生一群组IPD值,且可设定IPD值161以指示所述群组IPD值。IPD值161可因此指示具有低于多个IPD值(例如,8)的第一分辨率456(例如,24位)的一分辨率(例如,3位)的单一IPD值。
在一特定方面中,IPD估计器122响应于确定分辨率165小于第一分辨率456而基于预测性量化确定IPD值161。举例来说,IPD估计器122可使用向量量化器基于对应于先前经编码帧的IPD值(例如,IPD值161)来确定经预测IPD值。IPD估计器122可基于经预测IPD值与第一IPD值461的比较而确定校正IPD值。IPD值161可指示校正IPD值。IPD值161中的每一个(对应于一差量)可具有比第一IPD值461低的分辨率。IPD值161可因此具有比第一分辨率456低的分辨率。
在一特定方面中,IPD估计器122响应于确定分辨率165小于第一分辨率456而使用比IPD值161中的其它者少的位来表示其中的一些。举例来说,IPD估计器122可减小第一IPD值461的子集的分辨率,以产生IPD值161的对应子集。在一特定实例中,具有降低分辨率的第一IPD值461的子集可对应于特定频带(例如,较高频带或较低频带)。
在一特定方面中,IPD估计器122响应于确定分辨率165小于第一分辨率456而使用比IPD值161中的其它者少的位来表示其中的一些。举例来说,IPD估计器122可减小第一IPD值461的子集的分辨率,以产生IPD值161的对应子集。第一IPD值461的子集可对应于特定频带(例如,较高频带)。
在一特定方面中,分辨率165对应于IPD值161的计数。IPD估计器122可基于所述计数选择第一IPD值461的一子集。举例来说,子集的大小可小于或等于所述计数。在一特定方面中,IPD估计器122响应于确定包含于第一IPD值461中的IPD值的数目大于所述计数而从第一IPD值461选择对应于特定频带(例如,较高频带)的IPD值。IPD值161可包含第一IPD值461的选定子集。
在一特定方面中,IPD估计器122响应于确定分辨率165小于第一分辨率456而基于多项式系数确定IPD值161。举例来说,IPD估计器122可确定接近第一IPD值461的多项式(例如,最佳拟合多项式)。IPD估计器122可量化多项式系数以产生IPD值161。IPD值161可因此具有比第一分辨率456低的分辨率。
在一特定方面中,IPD估计器122响应于确定分辨率165小于第一分辨率456而产生IPD值161以包含第一IPD值461的一子集。第一IPD值461的子集可对应于特定频带(例如,高优先级频带)。IPD估计器122可通过减小第一IPD值461的第二子集的分辨率来产生一或多个额外IPD值。IPD值161可包含额外IPD值。第一IPD值461的第二子集可对应于第二特定频带(例如,中等优先级频带)。第一IPD值461的第三子集可对应于第三特定频带(例如,低优先级频带)。IPD值161可不包含对应于第三特定频带的IPD值。在一特定方面中,对音频质量具有较高影响的频带(例如较低频带)具有较高优先级。在一些实例中,哪些频带具有较高优先级可取决于包含在帧中的音频内容的类型(例如,基于话语/音乐决策参数171)。为进行说明,较低频带可针对话语帧进行优先化,但可并非针对音乐帧进行优先化,这是因为话语数据可主要位于较低频率范围中而音乐数据可更跨频率范围分散。
立体声提示估计器206可产生指示声道间时间失配值163、IPD值161、IPD模式指示符116或其一组合的立体声提示位流162。IPD值161可具有大于或等于第一分辨率456的一特定分辨率。特定分辨率(例如,3位)可对应于与IPD模式156相关联的图1的分辨率165(例如,低分辨率)。
IPD估计器122可因此基于声道间时间失配值163、强度值150、核心类型167、译码器类型169、话语/音乐决策参数171或其一组合动态地调整IPD值161的分辨率。IPD值161可在IPD值161经预测对音频质量具有较大影响时具有较高分辨率,且可在IPD值161经预测对音频质量具有较小影响时具有较低分辨率。
参看图5,展示了操作的方法且通常标示为500。方法500可由图1的IPD模式选择器108、编码器114、第一装置104、系统100或其一组合执行。
方法500包含在502处确定声道间时间失配值是否等于0。举例来说,图1的IPD模式选择器108可确定图1的声道间时间失配值163是否等于0。
方法500还包含在504,响应于确定声道间时间失配并非等于0而确定强度值是否小于强度阈值。举例来说,图1的IPD模式选择器108可响应于确定图1的声道间时间失配值163并非等于0而确定图1的强度值150是否小于强度阈值。
方法500进一步包含在506处,响应于确定强度值大于或等于强度阈值而选择“零分辨率”。举例来说,图1的IPD模式选择器108可响应于确定图1的强度值150大于或等于强度阈值而选择第一IPD模式作为图1的IPD模式156,其中第一IPD模式对应于使用立体声提示位流162的零个位表示IPD值。
在一特定方面中,图1的IPD模式选择器108响应于确定话语/音乐决策参数171具有一特定值(例如,1)而选择第一IPD模式作为IPD模式156。举例来说,IPD模式选择器108基于以下伪码选择IPD模式156:
其中“hStereoDft→no_ipd_flag”对应于IPD模式156,第一值(例如,1)指示第一IPD模式(例如,零分辨率模式或低分辨率模式),第二值(例如,0)指示第二IPD模式(例如,高分辨率模式),“hStereoDft→gainIPD_sm”对应于强度值150,且“sp_aud_decision0”对应于话语/音乐决策参数171。IPD模式选择器108将IPD模式156初始化为对应于高分辨率的第二IPD模式(例如,0)(例如,“hStereoDft→no_ipd_flag=0”)。IPD模式选择器108至少部分基于话语/音乐决策参数171将IPD模式156设定到对应于零分辨率的第一IPD模式(例如,“sp_aud_decision0”)。在一特定方面中,IPD模式选择器108被配置成响应于确定强度值150满足(例如,大于或等于)一阈值(例如,0.75f),话语/音乐决策参数171具有一特定值(例如,1),核心类型167具有一特定值,译码器类型169具有一特定值,LB参数159中的一或多个参数(例如,核心采样率、间距值、发声活动参数或发声因素)具有一特定值,BWE参数155中的一或多个参数(例如,增益映射参数、频谱映射参数或声道间参考声道指示符)具有一特定值,或其一组合而选择第一IPD模式作为IPD模式156。
方法500还包含响应于在504处确定强度值小于强度阈值而在508处选择低分辨率。举例来说,图1的IPD模式选择器108可响应于确定图1的强度值150小于强度临限而选择第二IPD模式作为图1的IPD模式156,其中第二IPD模式对应于使用低分辨率(例如,3个位)来在立体声提示位流162中表示IPD值。在一特定方面中,IPD模式选择器108被配置成响应于确定强度值150小于强度阈值,话语/音乐决策参数171具有一特定值(例如,1),LB参数159中的一或多个具有一特定值,BWE参数155中的一或多个具有一特定值或其一组合而选择第二IPD模式作为IPD模式156。
方法500进一步包含响应于在502处确定声道间时间失配等于0而在510处确定核心类型是否对应于ACELP核心类型。举例来说,图1的IPD模式选择器108可响应于确定图1的声道间时间失配值163等于0而确定图1的核心类型167是否对应于ACELP核心类型。
方法500还包含响应于在510处确定核心类型并不对应于ACELP核心类型而在512处选择高分辨率。举例来说,图1的IPD模式选择器108可响应于确定图1的核心类型167并不对应于ACELP核心类型而选择第三IPD模式作为图1的IPD模式156。第三IPD模式可与高分辨率(例如,16位)相关联。
方法500进一步包含响应于在510处确定核心类型对应于ACELP核心类型而在514处确定译码器类型是否对应于GSC译码器类型。举例来说,图1的IPD模式选择器108可响应于确定图1的核心类型167对应于ACELP核心类型而确定图1的译码器类型169是否对应于GSC译码器类型。
方法500还包含响应于在514处确定译码器类型对应于GSC译码器类型而继续前进到508。举例来说,图1的IPD模式选择器108可响应于确定图1的译码器类型169对应于GSC译码器类型而选择第二IPD模式作为图1的IPD模式156。
方法500进一步包含响应于在514处确定译码器类型并不对应于GSC译码器类型而继续前进到512。举例来说,图1的IPD模式选择器108可响应于确定图1的译码器类型169并不对应于GSC译码器类型而选择第三IPD模式作为图1的IPD模式156。
方法500对应于确定IPD模式156的一说明性实例。应理解,方法500中所说明的操作的序列是为了易于说明。在一些实施方案中,可基于包含比图5中所展示多、少的操作和/或不同的操作的不同序列选择IPD模式156。可基于声道间时间失配值163、强度值150、核心类型167、译码器类型169或话语/音乐决策参数171的任何组合选择IPD模式156。
参看图6,展示了操作的方法且大体标示为600。方法600可由图1的IPD估计器122、IPD模式选择器108、声道间时间失配分析器124、编码器114、发射器110、系统100,图2的立体声提示估计器206、旁带编码器210、中带编码器214或其一组合执行。
方法600包含在602处,在装置处确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。举例来说,声道间时间失配分析器124可确定声道间时间失配值163,如参看图1和4所描述。声道间时间失配值163可指示第一音频信号130与第二音频信号132之间的时间未对准(例如,时间延迟)。
方法600还包含在604处,至少基于声道间时间失配值在装置处选择IPD模式。举例来说,IPD模式选择器108可至少基于声道间时间失配值163确定IPD模式156,如参看图1和4所描述。
方法600进一步包含在606处,基于第一音频信号和第二音频信号在装置处确定IPD值。举例来说,IPD估计器122可基于第一音频信号130和第二音频信号132确定IPD值161,如参看图1和4所描述。IPD值161可具有对应于选定IPD模式156的分辨率165。
方法600还包含在608处,基于第一音频信号和第二音频信号在装置处产生中带信号。举例来说,中带信号产生器212可基于第一音频信号130和第二音频信号132产生频域中带信号(Mfr(b))236,如参看图2所描述。
方法600进一步包含在610处,基于中带信号在装置处产生中带位流。举例来说,中带编码器214可基于频域中带信号(Mfr(b))236产生中带位流166,如参看图2所描述。
方法600还包含在612处,基于第一音频信号和第二音频信号在装置处产生旁带信号。举例来说,旁带信号产生器208可基于第一音频信号130和第二音频信号132产生频域旁带信号(Sfr(b))234,如参看图2所描述。
方法600进一步包含在614处,基于旁带信号在装置处产生旁带位流。举例来说,旁带编码器210可基于频域旁带信号(Sfr(b))234产生旁带位流164,如参看图2所描述。
方法600还包含在616处,在装置处产生指示IPD值的立体声提示位流。举例来说,立体声提示估计器206可产生指示IPD值161的立体声提示位流162,如参看图2到4所描述。
方法600进一步包含在618处,从装置发射旁带位流。举例来说,图1的发射器110可发射旁带位流164。发射器110可另外发射中带位流166或立体声提示位流162中的至少一个。
方法600可因此实现至少部分基于声道间时间失配值163而动态地调整IPD值161的分辨率。当IPD值161很可能对音频质量具有较大影响时,可使用较高数目个位对IPD值161进行编码。
参看图7,展示说明解码器118的一特定实施方案的图式。经编码音频信号被提供到解码器118的多路分用器(DEMUX)702。经编码音频信号可包含立体声提示位流162、旁带位流164和中带位流166。多路分用器702可被配置成从经编码音频信号提取中带位流166,且将中带位流166提供到中带解码器704。多路分用器702也可被配置成从经编码音频信号提取旁带位流164和立体声提示位流162。可将旁带位流164和立体声提示位流162提供到旁带解码器706。
中带解码器704可被配置成对中带位流166进行解码以产生中带信号750。如果中带信号750为时域信号,那么可将变换708应用于中带信号750以产生频域中带信号(Mfr(b))752。可将频域中带信号752提供到升混器710。然而,如果中带信号750为频域信号,那么可将中带信号750直接提供到升混器710,且可绕过变换708或所述变换可不存在于解码器118中。
旁带解码器706可基于旁带位流164和立体声提示位流162产生频域旁带信号(Sfr(b))754。举例来说,一或多个参数(例如,误差参数)可针对低带和高带解码。也可将频域旁带信号754提供到升混器710。
升混器710可基于频域中带信号752和频域旁带信号754执行升混操作。举例来说,升混器710可基于频域中带信号752和频域旁带信号754产生第一升混信号(Lfr(b))756和第二升混信号(Rfr(b))758。因此,在所描述的实例中,第一升混信号756可为左声道信号,且第二升混信号758可为右声道信号。可将第一升混信号756表达为Mfr(b)+Sfr(b),且可将第二升混信号758表达为Mfr(b)-Sfr(b)。可将升混信号756、758提供到立体声提示处理器712。
立体声提示处理器712可包含IPD模式分析器127、IPD分析器125或两者,如参看图8进一步所描述。立体声提示处理器712可将立体声提示位流162应用于升混信号756、758以产生信号759、761。举例来说,可将立体声提示位流162应用于频域中的升混左声道和右声道。为进行说明,立体声提示处理器712可基于IPD值161,通过将升混信号756相位旋转来产生信号759(例如,经相位旋转频域输出信号)。立体声提示处理器712可基于IPD值161,通过将升混信号758相位旋转来产生信号761(例如,经相位旋转频域输出信号)。当可用时,可将IPD(相位差)散布于左声道和右声道上以维持声道间相位差,如参看图8进一步所描述。可将信号759、761提供到时间处理器713。
时间处理器713可将声道间时间失配值163应用于信号759、761以产生信号760、762。举例来说,时间处理器713可对信号759(或信号761)执行反时间调整以撤消在编码器114处执行的时间调整。时间处理器713可基于图2的ITM值264(例如,ITM值264的负值),通过移位信号759来产生信号760。举例来说,时间处理器713可基于ITM值264(例如,ITM值264的负值),通过对信号759执行因果移位运算来产生信号760。因果移位运算可“前拉”信号759,使得信号760与信号761对准。信号762可对应于信号761。在一替代性方面中,时间处理器713基于ITM值264(例如,ITM值264的负值),通过移位信号761来产生信号762。举例来说,时间处理器713可基于ITM值264(例如,ITM值264的负值),通过对信号761执行因果移位运算来产生信号762。因果移位运算可前拉(例如,在时间上移位)信号761,使得信号762与信号759对准。信号760可对应于信号759。
可将反变换714应用于信号760以产生第一时域信号(例如,第一输出信号(Lt)126),且可将反变换716应用于信号762以产生第二时域信号(例如,第二输出信号(Rt)128)。反变换714、716的非限制性实例包含反离散余弦变换(IDCT)操作、反快速傅立叶变换(IFFT)操作等。
在一替代性方面中,在反变换714、716之后于时域中执行时间调整。举例来说,可将反变换714应用于信号759以产生第一时域信号,且可将反变换716应用于信号761以产生第二时域信号。第一时域信号或第二时域信号可基于声道间时间失配值163进行移位,以产生第一输出信号(Lt)126和第二输出信号(Rt)128。举例来说,可基于图2的ICA值262(例如,ICA值262的负值)通过对第一时域信号执行因果移位运算来产生第一输出信号(Lt)126(例如,第一经移位时域输出信号)。第二输出信号(Rt)128可对应于第二时域信号。作为另一实例,可基于图2的ICA值262(例如,ICA值262的负值)通过对第二时域信号执行因果移位运算来产生第二输出信号(Rt)128(例如,第二经移位时域输出信号)。第一输出信号(Lt)126可对应于第一时域信号。
对第一信号(例如,信号759、信号761、第一时域信号或第二时域信号)执行因果移位运算可对应于在解码器118处及时延迟(例如,前拉)第一信号。第一信号(例如,信号759、信号761、第一时域信号或第二时域信号)可在解码器118处延迟以补偿在图1的编码器114处推进目标信号(例如,频域左信号(Lfr(b))229、频域右信号(Rfr(b))231、时域左信号(Lt)290或时域右信号(Rt)292)。举例来说,在编码器114处,基于ITM值163通过在时间上移位目标信号来推进目标信号(例如,图2的频域左信号(Lfr(b))229、频域右信号(Rfr(b))231、时域左信号(Lt)290或时域右信号(Rt)292),如参看图3所描述。在解码器118处,基于ITM值163的负值,通过在时间上移位输出信号来延迟对应于目标信号的经重建版本的第一输出信号(例如,信号759、信号761、第一时域信号或第二时域信号)。
在一特定方面中,在图1的编码器114处,通过将经延迟信号的第二帧与参考信号的第一帧对准来将所述经延迟信号与所述参考信号对准,其中经延迟信号的第一帧在编码器114处与参考信号的第一帧同时接收,其中经延迟信号的第二帧在经延迟信号的第一帧之后接收,且其中ITM值163指示经延迟信号的第一帧与经延迟信号的第二帧之间的帧的数目。解码器118通过将第一输出信号的第一帧与第二输出信号的第一帧对准来因果地移位(例如,前拉)第一输出信号,其中第一输出信号的第一帧对应于经延迟信号的第一帧的经重建版本,且其中第二输出信号的第一帧对应于参考信号的第一帧的经重建版本。第二装置106输出第一输出信号的第一帧,同时输出第二输出信号的第一帧。应理解,帧级移位是为了易于解释而描述,在一些方面中,对第一输出信号执行样本级因果移位。第一输出信号126或第二输出信号128中的一个对应于经因果移位的第一输出信号,且第一输出信号126或第二输出信号128中的另一个对应于第二输出信号。第二装置106因此保持(至少部分)第一输出信号126相对于第二输出信号128的时间未对准(例如,立体声效果),所述时间未对准对应于第一音频信号130相对于第二音频信号132之间的时间未对准(如果存在)。
根据一个实施方案,第一输出信号(Lt)126对应于相位经调整第一音频信号130的经重建版本,而第二输出信号(Rt)128对应于相位经调整第二音频信号132的经重建版本。根据一个实施方案,本文中描述为在升混器710处执行的一或多个操作在立体声提示处理器712处执行。根据另一实施方案,本文中描述为在立体声提示处理器712处执行的一或多个操作在升混器710处执行。根据又一实施方案,升混器710和立体声提示处理器712经实施于单个处理元件(例如,单个处理器)内。
参看图8,展示说明解码器118的立体声提示处理器712的特定实施方案的图式。立体声提示处理器712可包含耦合到IPD分析器125的IPD模式分析器127。
IPD模式分析器127可确定立体声提示位流162包含IPD模式指示符116。IPD模式分析器127可确定IPD模式指示符116指示IPD模式156。在一替代性方面中,IPD模式分析器127响应于确定IPD模式指示符116不包含于立体声提示位流162中,基于核心类型167、译码器类型169、声道间时间失配值163、强度值150、话语/音乐决策参数171、LB参数159、BWE参数155或其一组合确定IPD模式156,如参看图4所描述。立体声提示位流162可指示核心类型167、译码器类型169、声道间时间失配值163、强度值150、话语/音乐决策参数171、LB参数159、BWE参数155或其一组合。在一特定方面中,核心类型167、译码器类型169、话语/音乐决策参数171、LB参数159、BWE参数155或其一组合在先前帧的立体声提示位流中指示。
在一特定方面中,IPD模式分析器127基于ITM值163确定是否使用从编码器114接收的IPD值161。举例来说,IPD模式分析器127基于以下伪码确定是否使用IPD值161:
其中“hStereoDft→res_cod_mode[k+k_offset]”指示是否已由编码器114提供旁带位流164,“hStereoDft→itd[k+k_offset]”对应于ITM值163,且“pIpd[b]”对应于IPD值161。IPD模式分析器127响应于确定已由编码器114提供旁带位流164且ITM值163(例如,ITM值163的绝对值)大于阈值(例如,80.0f)而确定不使用IPD值161。举例来说,IPD模式分析器127至少部分基于确定已由编码器114提供旁带位流164且ITM值163(例如,ITM值163的绝对值)大于阈值(例如,80.0f)而将第一IPD模式作为IPD模式156(例如,“alpha=0”)提供到IPD分析器125。第一IPD模式对应于零分辨率。设定IPD模式156以对应于零分辨率在ITM值163指示大移位(例如,ITM值163的绝对值大于阈值)且残余译码被用于较低频带中时改进输出信号(例如,第一输出信号126、第二输出信号128或两者)的音频质量。使用残余译码对应于编码器114将旁带位流164提供到解码器118,和解码器118使用旁带位流164来产生输出信号(例如,第一输出信号126、第二输出信号128或两者)。在一特定方面中,编码器114和解码器118被配置成针对较高位率(例如,大于20千位每秒(kbps))使用残余译码(外加残余预测)。
替代地,IPD模式分析器127响应于确定旁带位流164尚未由编码器114提供,或ITM值163(例如,ITM值163的绝对值)小于或等于阈值(例如,80.0f)而确定将使用IPD值161(例如,“alpha=pIpd[b]”)。举例来说,IPD模式分析器127将(基于立体声提示位流162而确定的)IPD模式156提供到IPD分析器125。设定IPD模式156以对应于零分辨率在不使用残余译码时或在ITM值163指示较小移位(例如,ITM值163的绝对值小于或等于阈值)时对改进输出信号(例如,第一输出信号126、第二输出信号128或两者)的音频质量具有较小影响。
在一特定实例中,编码器114、解码器118或两者被配置成将残余预测(且并非残余译码)用于较低位率(例如,小于或等于20kbps)。举例来说,编码器114被配置成针对较低位率抑制将旁带位流164提供到解码器118,且解码器118被配置成针对较低位率独立于旁带位流164而产生输出信号(例如,第一输出信号126、第二输出信号128或两者)。解码器118被配置成在独立于旁带位流164而产生输出信号时或在ITM值163指示较小移位时基于(基于立体声提示位流162而确定的)IPD模式156产生输出信号。
IPD分析器125可确定IPD值161具有对应于IPD模式156的分辨率165(例如,第一数目个位,例如0个位、3个位、16个位等)。IPD分析器125可基于分辨率165从立体声提示位流162提取IPD值161(如果存在)。举例来说,IPD分析器125可确定由立体声提示位流162的第一数目个位表示的IPD值161。在一些实例中,IPD模式156也可不仅告知立体声提示处理器712正用以表示IPD值161的位的数目,且还可告知立体声提示处理器712立体声提示位流162的哪些特定位(例如,哪些位位置)正用以表示IPD值161。
在一特定方面中,IPD分析器125确定分辨率165、IPD模式156或两者,指示IPD值161被设定到一特定值(例如,零),IPD值161中的每一个被设定到一特定值(例如,零),或IPD值161不存在于立体声提示位流162中。举例来说,IPD分析器125可响应于确定分辨率165指示一特定分辨率(例如,0),IPD模式156指示与特定分辨率(例如,0)相关联的特定IPD模式(例如,图4的第二IPD模式467)或两者而确定IPD值161被设定到零或不存在于立体声提示位流162中。当IPD值161不存在于立体声提示位流162中或分辨率165指示特定分辨率(例如,零)时,立体声提示处理器712可在不执行对第一升混信号(Lfr)756和第二升混信号(Rfr)758的相位调整的情况下产生信号760、762。
当IPD值161存在于立体声提示位流162中时,立体声提示处理器712可基于IPD值161,通过执行对第一升混信号(Lfr)756和第二升混信号(Rfr)758的相位调整来产生信号760和信号762。举例来说,立体声提示处理器712可执行反相调整以撤消在编码器114处执行的相位调整。
解码器118可因此被配置成处置对正用以表示立体声提示参数的位的数目的动态帧级调整。输出信号的音频质量可在较高数目个位被用以表示对音频质量具有较大影响的立体声提示参数时得以改进。
参看图9,展示操作的方法且大体标示为900。方法900可由图1的解码器118、IPD模式分析器127、IPD分析器125、图7的中带解码器704、旁带解码器706、立体声提示处理器712或其一组合执行。
方法900包含在902处,基于对应于第一音频信号和第二音频信号的中带位流在装置处产生中带信号。举例来说,中带解码器704可基于对应于第一音频信号130和第二音频信号132的中带位流166产生频域中带信号(Mfr(b))752,如参看图7所描述。
方法900还包含在904处,至少部分基于中带信号在装置处产生第一频域输出信号和第二频域输出信号。举例来说,升混器710可至少部分基于频域中带信号(Mfr(b))752产生升混信号756、758,如参看图7所描述。
所述方法进一步包含在906处,在装置处选择IPD模式。举例来说,IPD模式分析器127可基于IPD模式指示符116选择IPD模式156,如参看图8所描述。
方法还包含在908处,基于与IPD模式相关联的分辨率在装置处从立体声提示位流提取IPD值。举例来说,IPD分析器125可基于与IPD模式156相关联的分辨率165从立体声提示位流162提取IPD值161,如参看图8所描述。立体声提示位流162可与中带位流166相关联(例如,可包含所述中带位流)。
所述方法进一步包含在910处,基于IPD值,通过相移第一频域输出信号来在装置处产生第一经移位频域输出信号。举例来说,第二装置106的立体声提示处理器712可基于IPD值161,通过相移第一升混信号(Lfr(b))756(或经调整第一升混信号(Lfr)756)来产生信号760,如参看图8所描述。
所述方法进一步包含在912处,基于IPD值,通过相移第二频域输出信号来在装置处产生第二经移位频域输出信号。举例来说,第二装置106的立体声提示处理器712可基于IPD值161,通过相移第二升混信号(Rfr(b))758(或经调整第二升混信号(Rfr)758)来产生信号762,如参看图8所描述。
方法还包含在914处,在装置处通过将第一变换应用于第一经移位频域输出信号来产生第一时域输出信号,且通过将第二变换应用于第二经移位频域输出信号来产生第二时域输出信号。举例来说,解码器118可通过将反变换714应用于信号760来产生第一输出信号126,且可通过将反变换716应用于信号762来产生第二输出信号128,如参看图7所描述。第一输出信号126可对应于立体声信号的第一声道(例如,右声道或左声道),且第二输出信号128可对应于立体声信号的第二声道(例如,左声道或右声道)。
方法900可因此使解码器118能够处置对正用以表示立体声提示参数的位的数目的动态帧级调整。输出信号的音频质量可在较高数目个位被用以表示对音频质量具有较大影响的立体声提示参数时得以改进。
参看图10,展示操作的方法且大体标示为1000。方法1000可由图1的编码器114、IPD模式选择器108、IPD估计器122、ITM分析器124或其一组合执行。
方法1000包含在1002处,在装置处确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值。举例来说,如参看图1到2所描述,ITM分析器124可确定指示第一音频信号130与第二音频信号132之间的时间未对准的ITM值163。
方法1000包含在1004处,至少基于声道间时间失配值在装置处选择声道间相位差(IPD)模式。举例来说,如参看图4所描述,IPD模式选择器108可至少部分基于ITM值163选择IPD模式156。
方法1000还包含在1006处,基于第一音频信号和第二音频信号在装置处确定IPD值。举例来说,如参看图4所描述,IPD估计器122可基于第一音频信号130和第二音频信号132确定IPD值161。
方法1000可因此使编码器114能够处置对正用以表示立体声提示参数的位的数目的动态帧级调整。输出信号的音频质量可在较高数目个位被用以表示对音频质量具有较大影响的立体声提示参数时得以改进。
参看图11,描绘一装置(例如,无线通信装置)的一特定说明性实例的框图,且大体标示为1100。在各种实施例中,装置1100可具有比图11中所说明少或多的组件。在一说明性实施例中,装置1100可对应于图1的第一装置104或第二装置106。在一说明性实施例中,装置1100可执行参考图1到10的系统和方法所描述的一或多个操作。
在一特定实施例中,装置1100包含一处理器1106(例如,中央处理单元(CPU))。装置1100可包含一或多个额外处理器1110(例如,一或多个数字信号处理器(DSP))。处理器1110可包含媒体(例如,话语和音乐)译码器-解码器(编码解码器)1108和回声消除器1112。媒体编码解码器1108可包含图1的解码器118、编码器114或两者。编码器114可包含话语/音乐分类器129、IPD估计器122、IPD模式选择器108、声道间时间失配分析器124或其一组合。解码器118可包含IPD分析器125、IPD模式分析器127或两者。
装置1100可包含存储器1153和编码解码器1134。尽管媒体编码解码器1108被说明为处理器1110的组件(例如,专用电路系统和/或可执行编程代码),但在其它实施例中,媒体编码解码器1108的一或多个组件(例如,解码器118、编码器114或两者)可包含于处理器1106、编码解码器1134、另一处理组件或其一组合中。在一特定方面中,处理器1110、处理器1106、编码解码器1134或另一处理组件执行本文中描述为由编码器114、解码器118或两者执行的一或多个操作。在一特定方面中,本文中描述为由编码器114执行的操作由包含于编码器114中的一或多个处理器执行。在一特定方面中,本文中描述为由解码器118执行的操作由包含于解码器118中的一或多个处理器执行。
装置1100可包含耦合到天线1142的收发器1152。收发器1152可包含图1的发射器110、接收器170或两者。装置1100可包含耦合到显示控制器1126的显示器1128。一或多个扬声器1148可耦合到编码解码器1134。可经由一或多个输入接口112将一或多个麦克风1146耦合到编码解码器1134。在一特定实施方案中,扬声器1148包含图1的第一扬声器142、第二扬声器144,或其一组合。在一特定实施方案中,麦克风1146包含图1的第一麦克风146、第二麦克风148,或其一组合。编码解码器1134可包含数字到模拟转换器(DAC)1102和模拟到数字转换器(ADC)1104。
存储器1153可包含可由处理器1106、处理器1110、编码解码器1134、装置1100的另一处理单元或其一组合执行的指令1160,以执行参看图1到10描述的一或多个操作。
装置1100的一或多个组件可经由专用硬件(例如,电路系统)由执行用以执行一或多个任务或其一组合的指令的处理器来实施。作为实例,存储器1153或处理器1106、处理器1110和/或编码解码器1134的一或多个组件可为存储器装置,例如,随机存取存储器(RAM)、磁电阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如,指令1160),所述指令在由计算机(例如,编码解码器1134中的处理器、处理器1106和/或处理器1110)执行时,可使计算机执行参看图1到10描述的一或多个操作。作为一实例,存储器1153或处理器1106、处理器1110和/或编码解码器1134中的一或多个组件可为包含指令(例如,指令1160)的非暂时性计算机可读媒体,所述指令当由计算机(例如,编码解码器1134中的处理器、处理器1106和/或处理器1110)执行时,使计算机执行参看图1到10所描述的一或多个操作。
在一特定实施例中,装置1100可包含于系统级封装或芯片上系统装置(例如,移动台调制解调器(MSM))1122中。在一特定实施例中,处理器1106、处理器1110、显示控制器1126、存储器1153、编码解码器1134和收发器1152包含于系统级封装或芯片上系统装置1122中。在一特定实施例中,输入装置1130(例如触摸屏和/或小键盘)和电力供应器1144耦合到芯片上系统装置1122。此外,在一特定实施例中,如图11中所说明,显示器1128、输入装置1130、扬声器1148、麦克风1146、天线1142和电力供应器1144在芯片上系统装置1122外部。然而,显示器1128、输入装置1130、扬声器1148、麦克风1146、天线1142和电力供应器1144中的每一个可耦合到芯片上系统装置1122的组件,例如接口或控制器。
装置1100可包含无线电话、移动通信装置、移动电话、智能电话、蜂窝式电话、膝上型计算机、台式计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
在一特定实施方案中,本文中公开的系统和装置的一或多个组件被集成到解码系统或设备(例如,电子装置、编码解码器或其中处理器中)、集成到编码系统或设备中,或集成到两者中。在一特定实施方案中,本文中公开的系统和装置的一或多个组件被集成到以下中:移动装置、无线电话、平板计算机、台式计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、PDA、固定位置数据单元、个人媒体播放器或另一类型的装置。
应注意,由本文所公开的系统和装置的一或多个组件执行的各种功能被描述为由某些组件或模块执行。组件和模块的此划分仅用于说明。在一替代性实施方案中,由特定组件或模块执行的功能被划分于多个组件或模块之间。此外,在一替代性实施方案中,两个或多于两个组件或模块被集成到单一组件或模块中。每一组件或模块可使用硬件(例如,现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如,可由处理器执行的指令)或其任何组合来实施。
结合所描述的实施方案,用于处理音频信号的设备包含用于确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值的装置。用于确定声道间时间失配值的装置包含图1的声道间时间失配分析器124、编码器114、第一装置104、系统100,媒体编码解码器1108、处理器1110、装置1100、被配置成确定声道间时间失配值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器),或其一组合。
所述设备还包含用于至少基于声道间时间失配值选择IPD模式的装置。举例来说,用于选择IPD模式的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于选择IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。IPD值161具有对应于IPD模式156的分辨率(例如,选定IPD模式)。
而且,与所描述实施方案结合,用于处理音频信号的设备包含用于确定IPD模式的装置。举例来说,用于确定IPD模式的装置包含图1的IPD模式分析器127、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于与IPD模式相关联的分辨率,从立体声提示位流提取IPD值的装置。举例来说,用于提取IPD值的装置包含图1的IPD分析器125、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成提取IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。立体声提示位流162与对应于第一音频信号130和第二音频信号132的中带位流166相关联。
而且,结合所描述实施方案,设备包含用于接收与中带位流相关联的立体声提示位流的装置,所述中带位流对应于第一音频信号和第二音频信号。举例来说,用于接收的装置可包含图1的接收器170、图1的第二装置106、系统100、图7的多路复用多路分用器多路复用器702、收发器1152、媒体编码解码器1108、处理器1110、装置1100、被配置成接收立体声提示位流的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。立体声提示位流可指示声道间时间失配值、IPD值,或其一组合。
设备还包含用于基于声道间时间失配值确定IPD模式的装置。举例来说,用于确定IPD模式的装置可包含图1的IPD模式分析器127、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备进一步包含用于至少部分基于与IPD模式相关联的分辨率确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD分析器125、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
此外,结合所描述实施方案,设备包含用于确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值的装置。举例来说,用于确定声道间时间失配值的装置可包含图1的声道间时间失配分析器124、编码器114、第一装置104、系统100、媒体编码解码器1108、处理器1110、装置1100、被配置成确定声道间时间失配值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
所述设备还包含用于至少基于声道间时间失配值选择IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
所述设备进一步包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值可具有对应于选定IPD模式的分辨率。
而且,结合所描述实施方案,设备包含用于至少部分基于与频域中带信号的先前帧相关联的译码器类型而选择与频域中带信号的第一帧相关联的IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值可具有对应于选定IPD模式的分辨率。所述IPD值可具有对应于选定IPD模式的分辨率。
设备进一步包含用于基于第一音频信号、第二音频信号和IPD值产生频域中带信号的第一帧的装置。举例来说,用于产生频域中带信号的第一帧的装置可包含图1的编码器114、第一装置104、系统100、图2的中带信号产生器212、媒体编码解码器1108、处理器1110、装置1100、被配置成产生频域中带信号的帧的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
另外,结合所描述实施方案,设备包含用于基于第一音频信号和第二音频信号产生经估计中带信号的装置。举例来说,用于产生经估计中带信号的装置可包含图1的编码器114、第一装置104、系统100、图3的降混器320、媒体编码解码器1108、处理器1110、装置1100、被配置成产生经估计中带信号的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于经估计中带信号确定经预测译码器类型的装置。举例来说,用于确定经预测译码器类型的装置可包含图1的编码器114、第一装置104、系统100、图3的预处理器318、媒体编码解码器1108、处理器1110、装置1100、被配置成确定经预测译码器类型的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备进一步包含用于至少部分基于经预测译码器类型选择IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值可具有对应于选定IPD模式的分辨率。
而且,结合所描述实施方案,装置包含用于至少部分基于与频域中带信号的先前帧相关联的核心类型选择与频域中带信号的第一帧相关联的IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值可具有对应于选定IPD模式的分辨率。
设备进一步包含用于基于第一音频信号、第二音频信号和IPD值产生频域中带信号的第一帧的装置。举例来说,用于产生频域中带信号的第一帧的装置可包含图1的编码器114、第一装置104、系统100、图2的中带信号产生器212、媒体编码解码器1108、处理器1110、装置1100、被配置成产生频域中带信号的帧的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
此外,与所描述实施方案结合,设备包含用于基于第一音频信号和第二音频信号产生经估计中带信号的装置。举例来说,用于产生经估计中带信号的装置可包含图1的编码器114、第一装置104、系统100、图3的降混器320、媒体编码解码器1108、处理器1110、装置1100、被配置成产生经估计中带信号的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于经估计中带信号确定经预测核心类型的装置。举例来说,用于确定经预测核心类型的装置可包含图1的编码器114、第一装置104、系统100、图3的预处理器318、媒体编码解码器1108、处理器1110、装置1100、被配置成确定经预测核心类型的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备进一步包含用于基于经预测核心类型选择IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值具有对应于选定IPD模式的分辨率。
而且,结合所描述实施方案,设备包含用于基于第一音频信号、第二音频信号或两者确定话语/音乐决策参数的装置。举例来说,用于确定话语/音乐决策参数的装置可包含图1的话语/音乐分类器129、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定话语/音乐决策参数的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于至少部分基于话语/音乐决策参数选择IPD模式的装置。举例来说,用于选择的装置可包含图1的IPD模式选择器108、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成选择IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
所述设备进一步包含用于基于第一音频信号和第二音频信号确定IPD值的装置。举例来说,用于确定IPD值的装置可包含图1的IPD估计器122、编码器114、第一装置104、系统100、图2的立体声提示估计器206、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。所述IPD值具有对应于所述选定IPD模式的一分辨率。
此外,结合所描述实施方案,设备包含用于基于IPD模式指示符确定IPD模式的装置。举例来说,用于确定IPD模式的装置可包含图1的IPD模式分析器127、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成确定IPD模式的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
设备还包含用于基于与IPD模式相关联的分辨率从立体声提示位流提取IPD值的装置,所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。举例来说,用于提取IPD值的装置可包含图1的IPD分析器125、解码器118、第二装置106、系统100、图7的立体声提示处理器712、媒体编码解码器1108、处理器1110、装置1100、被配置成提取IPD值的一或多个装置(例如,执行存储于计算机可读存储装置处的指令的处理器)或其一组合。
参看图12,描绘基站1200的一特定说明性实例的框图。在各种实施方案中,基站1200可具有比图12中所说明多的组件或少的组件。在一说明性实例中,基站1200可包含图1的第一装置104、第二装置106,或两者。在一说明性实例中,基站1200可执行参看图1到11描述的一或多个操作。
基站1200可为无线通信系统的部分。无线通信系统可包含多个基站和多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统或某一其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA),或某一其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动台、终端、接入终端、用户单元、工作台等。所述无线装置可包含蜂窝式电话、智能电话、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能本、迷你笔记型计算机、平板计算机、无线电话、无线区域回路(WLL)站、蓝牙装置等。无线装置可包含或对应于图1的第一装置104或第二装置106。
各种功能可由基站1200的一或多个组件执行(和/或,在未展示的其它组件中),例如发送和接收消息和数据(例如,音频数据)。在一特定实例中,基站1200包含一处理器1206(例如,CPU)。基站1200可包含一转码器1210。转码器1210可包含一音频编码解码器1208。举例来说,转码器1210可包含被配置成执行音频编码解码器1208的操作的一或多个组件(例如,电路系统)。作为另一实例,转码器1210可被配置成执行一或多个计算机可读指令以执行音频编码解码器1208的操作。尽管音频编码解码器1208被说明为转码器1210的组件,但在其它实例中,音频编码解码器1208的一或多个组件可包含于处理器1206、另一处理组件或其组合中。举例来说,解码器118(例如,声码器解码器)可包含于接收器数据处理器1264中。作为另一实例,编码器114(例如,声码器编码器)可包含于发射数据处理器1282中。
转码器1210可用以在两个或多于两个网络之间转码消息和数据。转码器1210可被配置成将消息和音频数据从第一格式(例如,数字格式)转换成第二格式。为了说明,解码器118可对具有第一格式的经编码信号进行解码,且编码器114可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器1210可被配置成执行数据速率自适应。举例来说,转码器1210可在不改变音频数据的格式的情况下降频转换数据速率或升频转换数据速率。为进行说明,转码器1210可将64kbit/s信号降频转换成16kbit/s信号。
音频编码解码器1208可包含编码器114和解码器118。编码器114可包含IPD模式选择器108、ITM分析器124或两者。解码器118可包含IPD分析器125、IPD模式分析器127或两者。
基站1200可包含一存储器1232。例如计算机可读存储装置的存储器1232可包含指令。指令可包含可由处理器1206、转码器1210或其一组合执行的一或多个指令,以执行参看图1到11描述的一或多个操作。基站1200可包含耦合到一天线阵列的多个发射器和接收器(例如,收发器),例如第一收发器1252和第二收发器1254。天线阵列可包含第一天线1242和第二天线1244。天线阵列可被配置成与一或多个无线装置(例如图1的第一装置104或第二装置106)无线地通信。举例来说,第二天线1244可从无线装置接收数据流1214(例如,位流)。数据流1214可包含消息、数据(例如,经编码话语数据),或其一组合。
基站1200可包含网络连接1260,例如回程连接。网络连接1260可被配置成与无线通信网络的核心网络或一或多个基站通信。举例来说,基站1200可经由网络连接1260从核心网络接收第二数据流(例如,消息或音频数据)。基站1200可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供到一或多个无线装置,或经由网络连接1260将其提供到另一基站。在一特定实施方案中,作为一说明性、非限制性实例,网络连接1260包含或对应于广域网(WAN)连接。在一特定实施方案中,核心网络包含或对应于公众交换电话网络(PSTN)、分组基干网络或两者。
基站1200可包含耦合到网络连接1260和处理器1206的媒体网关1270。媒体网关1270可被配置成在不同电信技术的媒体流之间转换。举例来说,媒体网关1270可在不同发射协议、不同译码方案或两者之间转换。为进行说明,作为一说明性、非限制性实例,媒体网关1270可从PCM信号转换到实时发射协议(RTP)信号。媒体网关1270可在分组交换式网络(例如,因特网通信协议语音(VoIP)网络、IP多媒体子系统(IMS)、例如LTE、WiMax和UMB的第四代(4G)无线网络等)、电路交换式网络(例如,PSTN)与混合型网络(例如,例如GSM、GPRS和EDGE的第二代(2G)无线网络、例如WCDMA、EV-DO和HSPA的第三代(3G)无线网络等)之间转换数据。
另外,媒体网关1270可包含例如转码器610的一转码器,且可被配置成在编码解码器不兼容时转码数据。举例来说,作为一说明性、非限制性实例,媒体网关1270可在自适应多速率(AMR)编码解码器与G.711编码解码器之间进行转码。媒体网关1270可包含一路由器和多个物理接口。在一特定实施方案中,媒体网关1270包含一控制器(图中未示)。在一特定实施方案中,媒体网关控制器在媒体网关1270外部、在基站1200外部或两者。媒体网关控制器可控制并协调操作多个媒体网关。媒体网关1270可从媒体网关控制器接收控制信号,且可用以在不同发射技术之间桥接,且可对最终用户能力和连接添加服务。
基站1200可包含耦合到收发器1252、1254、接收器数据处理器1264和处理器1206的解调器1262,且接收器数据处理器1264可耦合到处理器1206。解调器1262可被配置成将从收发器1252、1254接收的经调制信号解调,且将经解调数据提供到接收器数据处理器1264。接收器数据处理器1264可被配置成从经解调数据提取消息或音频数据,并将所述消息或音频数据发送到处理器1206。
基站1200可包含发射数据处理器1282和发射多输入多输出(MIMO)处理器1284。发射数据处理器1282可耦合到处理器1206和发射MIMO处理器1284。发射MIMO处理器1284可耦合到收发器1252、1254和处理器1206。在一特定实施方案中,发射MIMO处理器1284耦合到媒体网关1270。作为一说明性、非限制性实例,发射数据处理器1282可被配置成从处理器1206接收消息或音频数据,且基于例如CDMA或正交频分多路复用(OFDM)的译码方案译码所述消息或所述音频数据。发射数据处理器1282可将经译码数据提供到发射MIMO处理器1284。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用在一起以产生经多路复用数据。接着可由发射数据处理器1282基于特定调制方案(例如,二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M进制相移键控(“M-PSK”)、M进制正交振幅调制(“M-QAM”)等)调制(即,符号映射)经多路复用数据以产生调制符号。在一特定实施方案中,可使用不同调制方案调制经译码数据和其它数据。用于每一数据流的数据速率、译码和调制可通过处理器1206所执行的指令来确定。
发射MIMO处理器1284可被配置成从发射数据处理器1282接收调制符号,且可进一步处理调制符号,且可对所述数据执行波束成形。举例来说,发射MIMO处理器1284可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线,从所述一或多个天线发射调制符号。
在操作过程中,基站1200的第二天线1244可接收数据流1214。第二收发器1254可从第二天线1244接收数据流1214,且可将数据流1214提供到解调器1262。解调器1262可解调数据流1214的调制信号且将经解调数据提供到接收器数据处理器1264。接收器数据处理器1264可从经解调数据提取音频数据且将所提取音频数据提供到处理器1206。
处理器1206可将音频数据提供到转码器1210用于转码。转码器1210的解码器118可将音频数据从第一格式解码成经解码音频数据且编码器114可将经解码音频数据编码成第二格式。在一特定实施方案中,编码器114使用比从无线装置所接收高的数据速率(例如,升频转换)或低的数据速率(例如,降频转换)对音频数据进行编码。在一特定实施方案中,音频数据未经转码。尽管转码(例如,解码和编码)被说明为由转码器1210执行,但转码操作(例如,解码和编码)可由基站1200的多个组件执行。举例来说,解码可由接收器数据处理器1264执行,且编码可由发射数据处理器1282执行。在一特定实施方案中,处理器1206将音频数据提供到媒体网关1270以供转换到另一发射协议、译码方案或两者。媒体网关1270可经由网络连接1260将经转换数据提供到另一基站或核心网络。
解码器118和编码器114可基于逐个帧确定IPD模式156。解码器118和编码器114可确定具有对应于IPD模式156的分辨率165的IPD值161。编码器114处产生的经编码音频数据(例如经转码数据)可经由处理器1206提供到发射数据处理器1282或网络连接1260。
可将来自转码器1210的经转码音频数据提供到发射数据处理器1282,用于根据例如OFDM的调制方案译码,以产生调制符号。发射数据处理器1282可将调制符号提供到发射MIMO处理器1284以供进一步处理和波束成形。发射MIMO处理器1284可应用波束成形权重,且可经由第一收发器1252将调制符号提供到天线阵列的一或多个天线,例如第一天线1242。由此,基站1200可将对应于从无线装置接收的数据流1214的经转码数据流1216提供到另一无线装置。经转码数据流1216可具有与数据流1214不同的编码格式、数据速率或两者。在一特定实施方案中,经转码数据流1216被提供到网络连接1260以供发射到另一基站或核心网络。
基站1200可因此包含存储指令的一计算机可读存储装置(例如,存储器1232),所述指令在由处理器(例如,处理器1206或转码器1210)执行时,使处理器执行包含确定声道间相位差(IPD)模式的操作。操作还包含确定具有对应于IPD模式的分辨率的IPD值。
所属领域的技术人员将进一步了解,关于本文所公开的实施例所描述的各种说明性逻辑块、配置、模块、电路和算法步骤可实施为电子硬件、由处理装置(例如硬件处理器)执行的计算机软件或两者的组合。各种说明性组件、块、配置、模块、电路和步骤已在上文大体就其功能性来描述。此功能性被实施为硬件或是可执行软件取决于特定应用和强加于整个系统的设计约束而定。所属领域的技术人员可针对每一特定应用来以变化方式实施所描述的功能性,但此些实施决策不应被解译为导致脱离本发明的范围。
关于本文中所公开的实施例而描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件模块中,或两者的组合中。软件模块可驻留于存储器装置中,例如RAM、MRAM、STT-MRAM、快闪存储器、ROM、PROM、EPROM、EEPROM、寄存器、硬盘、可移动磁盘或CD-ROM。一示范性存储器装置耦合到处理器,以使得处理器可从存储器装置读取信息和将信息写入到存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器和存储媒体可驻留于ASIC中。ASIC可驻留于计算装置或用户终端中。在替代例中,处理器和存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供对所公开实施方案的先前描述,以使所属领域的技术人员能够制作或使用所公开的实施方案。对此些实施方案的各种修改对于所属领域的技术人员将容易地显而易见,且在不背离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本公开并非打算限于本文中所展示的实施方案,而应符合可能与如由以下权利要求书所定义的原理和新颖特征相一致的最广泛范围。
Claims (31)
1.一种用于处理音频信号的装置,其包括:
声道间时间失配分析器,其被配置成确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值;
声道间相位差IPD模式选择器,其被配置成至少基于所述声道间时间失配值选择IPD模式;以及
IPD估计器,其被配置成基于所述第一音频信号和所述第二音频信号确定IPD值,所述IPD值具有对应于所述选定IPD模式的分辨率。
2.根据权利要求1所述的装置,其中所述声道间时间失配分析器被进一步配置成基于所述声道间时间失配值,通过调整所述第一音频信号或所述第二音频信号中的至少一个来产生第一对准音频信号和第二对准音频信号,其中所述第一对准音频信号在时间上与所述第二对准音频信号对准,且其中所述IPD值是基于所述第一对准音频信号和所述第二对准音频信号。
3.根据权利要求2所述的装置,其中所述第一音频信号或所述第二音频信号对应于时间滞后声道,且其中调整所述第一音频信号或所述第二音频信号中的至少一个包含基于所述声道间时间失配值非因果地移位所述时间滞后声道。
4.根据权利要求1所述的装置,其中所述IPD模式选择器被进一步配置成响应于所述声道间时间失配值小于阈值的确定而选择第一IPD模式作为所述IPD模式,所述第一IPD模式对应于第一分辨率。
5.根据权利要求4所述的装置,其中第一分辨率与第一IPD模式相关联,其中第二分辨率与第二IPD模式相关联,且其中所述第一分辨率对应于高于对应于所述第二分辨率的第二量化分辨率的第一量化分辨率。
6.根据权利要求1所述的装置,其进一步包括:
中带信号产生器,其被配置成基于所述第一音频信号、经调整第二音频信号和所述IPD值产生频域中带信号,其中所述声道间时间失配分析器被配置成基于所述声道间时间失配值,通过移位所述第二音频信号来产生所述经调整第二音频信号;
中带编码器,其被配置成基于所述频域中带信号产生中带位流;以及
立体声提示位流产生器,其被配置成产生指示所述IPD值的立体声提示位流。
7.根据权利要求6所述的装置,其进一步包括:
旁带信号产生器,其被配置成基于所述第一音频信号、所述经调整第二音频信号和所述IPD值产生频域旁带信号;以及
旁带编码器,其被配置成基于所述频域旁带信号、所述频域中带信号和所述IPD值产生旁带位流。
8.根据权利要求7所述的装置,其进一步包括发射器,所述发射器被配置成发射包含所述中带位流、所述立体声提示位流、所述旁带位流或其组合的位流。
9.根据权利要求1所述的装置,其中所述IPD模式是选自第一IPD模式或第二IPD模式,其中所述第一IPD模式对应于第一分辨率,其中所述第二IPD模式对应于第二分辨率,其中所述第一IPD模式对应于基于第一音频信号和第二音频信号的所述IPD值,且其中所述第二IPD模式对应于设定到零的所述IPD值。
10.根据权利要求1所述的装置,其中所述分辨率对应于相位值的范围、所述IPD值的计数、表示所述IPD值的位的第一数目、表示带中的所述IPD值的绝对值的位的第二数目,或表示所述IPD值跨帧的时间方差的量的位的第三数目中的至少一个。
11.根据权利要求1所述的装置,其中所述IPD模式选择器被配置成基于译码器类型、核心采样率或两者选择所述IPD模式。
12.根据权利要求1所述的装置,其进一步包括:
天线;以及
发射器,其耦合到所述天线且被配置成发射指示所述IPD模式和所述IPD值的立体声提示位流。
13.一种用于处理音频信号的装置,其包括:
声道间相位差IPD模式分析器,其被配置成确定IPD模式;以及
IPD分析器,其被配置成基于与所述IPD模式相关联的分辨率从立体声提示位流提取IPD值,所述立体声提示位流与对应于第一音频信号和第二音频信号的中带位流相关联。
14.根据权利要求13所述的装置,其进一步包括:
中带解码器,其被配置成基于所述中带位流产生中带信号;
升混器,其被配置成至少部分基于所述中带信号产生第一频域输出信号和第二频域输出信号;以及
立体声提示处理器,其被配置成:
基于所述IPD值,通过相位旋转所述第一频域输出信号来产生第一相位旋转频域输出信号;以及
基于所述IPD值,通过相位旋转所述第二频域输出信号来产生第二相位旋转频域输出信号。
15.根据权利要求14所述的装置,其进一步包括:
时间处理器,其被配置成基于声道间时间失配值,通过移位所述第一相位旋转频域输出信号来产生第一经调整频域输出信号;以及
变换器,其被配置成通过将第一变换应用于所述第一经调整频域输出信号来产生第一时域输出信号,且通过将第二变换应用于所述第二相位旋转频域输出信号来产生第二时域输出信号,
其中所述第一时域输出信号对应于立体声信号的第一声道,且所述第二时域输出信号对应于所述立体声信号的第二声道。
16.根据权利要求14所述的装置,其进一步包括:
变换器,其被配置成通过对所述第一相位旋转频域输出信号应用第一变换来产生第一时域输出信号,且通过对所述旋转第二相位旋转频域输出信号应用第二变换来产生第二时域输出信号;以及
时间处理器,其被配置成基于声道间时间失配值,通过时间移位所述第一时域输出信号来产生第一经移位时域输出信号,
其中所述第一经移位时域输出信号对应于立体声信号的第一声道,且所述第二时域输出信号对应于所述立体声信号的第二声道。
17.根据权利要求16所述的装置,其中所述第一时域输出信号的所述时间移位对应于因果移位运算。
18.根据权利要求14所述的装置,其进一步包括被配置成接收所述立体声提示位流的接收器,所述立体声提示位流指示声道间时间失配值,其中所述IPD模式分析器被进一步配置成基于所述声道间时间失配值确定所述IPD模式。
19.根据权利要求14所述的装置,其中所述分辨率对应于频带中的所述IPD值的绝对值中的一或多个或所述IPD值跨帧的时间方差的量。
20.根据权利要求14所述的装置,其中所述立体声提示位流是从编码器接收,且与在所述频域中移位的第一音频声道的编码相关联。
21.根据权利要求14所述的装置,其中所述立体声提示位流是从编码器接收,且与经非因果移位的第一音频声道的编码相关联。
22.根据权利要求14所述的装置,其中所述立体声提示位流是从编码器接收,且与经相位旋转第一音频声道的编码相关联。
23.根据权利要求14所述的装置,其中所述IPD分析器被配置成响应于所述IPD模式包含对应于第一分辨率的第一IPD模式的确定而从所述立体声提示位流提取所述IPD值。
24.根据权利要求14所述的装置,其中所述IPD分析器被配置成响应于所述IPD模式包含对应于第二分辨率的第二IPD模式的确定而将所述IPD值设定成零。
25.一种处理音频信号的方法,其包括:
在装置处确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值;
至少基于所述声道间时间失配值在所述装置处选择声道间相位差IPD模式;以及
基于所述第一音频信号和所述第二音频信号在所述装置处确定IPD值,所述IPD值具有对应于所述选定IPD模式的分辨率。
26.根据权利要求25所述的方法,其进一步包括响应于确定所述声道间时间失配值满足差阈值和与所述声道间时间失配值相关联的强度值满足强度阈值,选择第一IPD模式作为所述IPD模式,所述第一IPD模式对应于第一分辨率。
27.根据权利要求25所述的方法,其进一步包括响应于确定所述声道间时间失配值不能满足差阈值或与所述声道间时间失配值相关联的强度值不满足强度阈值,选择第二IPD模式作为所述IPD模式,所述第二IPD模式对应于第二分辨率。
28.根据权利要求27所述的方法,其中与第一IPD模式相关联的第一分辨率对应于高于对应于所述第二分辨率的第二位数目的第一位数目。
29.一种用于处理音频信号的设备,其包括:
用于确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值的装置;
用于至少基于所述声道间时间失配值选择声道间相位差IPD模式的装置;以及
用于基于所述第一音频信号和所述第二音频信号确定IPD值的装置,所述IPD值、所述IPD值具有对应于所述选定IPD模式的分辨率。
30.根据权利要求29的设备,其中用于确定所述声道间时间失配值的所述装置、用于确定所述IPD模式的所述装置和用于确定所述IPD值的所述装置集成到移动装置或基站内。
31.一种计算机可读存储装置,其存储当由处理器执行时使所述处理器执行包含以下的操作的指令:
确定指示第一音频信号与第二音频信号之间的时间未对准的声道间时间失配值;
至少基于所述声道间时间失配值选择声道间相位差IPD模式;以及
基于所述第一音频信号或所述第二音频信号确定IPD值,所述IPD值具有对应于所述选定IPD模式的分辨率。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662352481P | 2016-06-20 | 2016-06-20 | |
US62/352,481 | 2016-06-20 | ||
US15/620,695 US10217467B2 (en) | 2016-06-20 | 2017-06-12 | Encoding and decoding of interchannel phase differences between audio signals |
US15/620,695 | 2017-06-12 | ||
PCT/US2017/037198 WO2017222871A1 (en) | 2016-06-20 | 2017-06-13 | Encoding and decoding of interchannel phase differences between audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109313906A true CN109313906A (zh) | 2019-02-05 |
CN109313906B CN109313906B (zh) | 2023-07-28 |
Family
ID=60659725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780036764.8A Active CN109313906B (zh) | 2016-06-20 | 2017-06-13 | 音频信号之间的声道间相位差的编码和解码 |
Country Status (10)
Country | Link |
---|---|
US (3) | US10217467B2 (zh) |
EP (1) | EP3472833B1 (zh) |
JP (1) | JP6976974B2 (zh) |
KR (1) | KR102580989B1 (zh) |
CN (1) | CN109313906B (zh) |
BR (1) | BR112018075831A2 (zh) |
CA (1) | CA3024146A1 (zh) |
ES (1) | ES2823294T3 (zh) |
TW (1) | TWI724184B (zh) |
WO (1) | WO2017222871A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI760705B (zh) * | 2019-03-06 | 2022-04-11 | 弗勞恩霍夫爾協會 | 降混器及降混方法 |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10109284B2 (en) * | 2016-02-12 | 2018-10-23 | Qualcomm Incorporated | Inter-channel encoding and decoding of multiple high-band audio signals |
CN107452387B (zh) * | 2016-05-31 | 2019-11-12 | 华为技术有限公司 | 一种声道间相位差参数的提取方法及装置 |
US10217467B2 (en) | 2016-06-20 | 2019-02-26 | Qualcomm Incorporated | Encoding and decoding of interchannel phase differences between audio signals |
CN108269577B (zh) | 2016-12-30 | 2019-10-22 | 华为技术有限公司 | 立体声编码方法及立体声编码器 |
US10304468B2 (en) * | 2017-03-20 | 2019-05-28 | Qualcomm Incorporated | Target sample generation |
CN109215668B (zh) * | 2017-06-30 | 2021-01-05 | 华为技术有限公司 | 一种声道间相位差参数的编码方法及装置 |
US10535357B2 (en) * | 2017-10-05 | 2020-01-14 | Qualcomm Incorporated | Encoding or decoding of audio signals |
IT201800000555A1 (it) * | 2018-01-04 | 2019-07-04 | St Microelectronics Srl | Architettura di decodifica di riga per un dispositivo di memoria non volatile a cambiamento di fase e relativo metodo di decodifica di riga |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10580424B2 (en) * | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
CN113259083B (zh) * | 2021-07-13 | 2021-09-28 | 成都德芯数字科技股份有限公司 | 一种调频同步网相位同步方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201103008A (en) * | 2009-02-27 | 2011-01-16 | Koninkl Philips Electronics Nv | Parametric stereo encoding and decoding |
US20110044457A1 (en) * | 2006-07-04 | 2011-02-24 | Electronics And Telecommunications Research Institute | Apparatus and method for restoring multi-channel audio signal using he-aac decoder and mpeg surround decoder |
US20140112482A1 (en) * | 2012-04-05 | 2014-04-24 | Huawei Technologies Co., Ltd. | Method for Parametric Spatial Audio Coding and Decoding, Parametric Spatial Audio Coder and Parametric Spatial Audio Decoder |
CN104681029A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
CN105023578A (zh) * | 2010-04-09 | 2015-11-04 | 杜比国际公司 | 解码器系统和解码方法 |
US20160133262A1 (en) * | 2013-07-22 | 2016-05-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050159942A1 (en) | 2004-01-15 | 2005-07-21 | Manoj Singhal | Classification of speech and music using linear predictive coding coefficients |
KR101228165B1 (ko) * | 2008-06-13 | 2013-01-30 | 노키아 코포레이션 | 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체 |
EP2169665B1 (en) | 2008-09-25 | 2018-05-02 | LG Electronics Inc. | A method and an apparatus for processing a signal |
US8620672B2 (en) | 2009-06-09 | 2013-12-31 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal |
WO2012045203A1 (en) | 2010-10-05 | 2012-04-12 | Huawei Technologies Co., Ltd. | Method and apparatus for encoding/decoding multichannel audio signal |
JP2015517121A (ja) | 2012-04-05 | 2015-06-18 | ホアウェイ・テクノロジーズ・カンパニー・リミテッド | インターチャネル差分推定方法及び空間オーディオ符号化装置 |
US9860669B2 (en) * | 2013-05-16 | 2018-01-02 | Koninklijke Philips N.V. | Audio apparatus and method therefor |
US9747910B2 (en) * | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
US10217467B2 (en) | 2016-06-20 | 2019-02-26 | Qualcomm Incorporated | Encoding and decoding of interchannel phase differences between audio signals |
-
2017
- 2017-06-12 US US15/620,695 patent/US10217467B2/en active Active
- 2017-06-13 WO PCT/US2017/037198 patent/WO2017222871A1/en active Search and Examination
- 2017-06-13 KR KR1020187036631A patent/KR102580989B1/ko active IP Right Grant
- 2017-06-13 ES ES17731782T patent/ES2823294T3/es active Active
- 2017-06-13 CA CA3024146A patent/CA3024146A1/en active Pending
- 2017-06-13 CN CN201780036764.8A patent/CN109313906B/zh active Active
- 2017-06-13 EP EP17731782.3A patent/EP3472833B1/en active Active
- 2017-06-13 JP JP2018566453A patent/JP6976974B2/ja active Active
- 2017-06-13 BR BR112018075831-0A patent/BR112018075831A2/pt unknown
- 2017-06-19 TW TW106120292A patent/TWI724184B/zh active
-
2019
- 2019-01-09 US US16/243,636 patent/US10672406B2/en active Active
- 2019-11-13 US US16/682,426 patent/US11127406B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110044457A1 (en) * | 2006-07-04 | 2011-02-24 | Electronics And Telecommunications Research Institute | Apparatus and method for restoring multi-channel audio signal using he-aac decoder and mpeg surround decoder |
TW201103008A (en) * | 2009-02-27 | 2011-01-16 | Koninkl Philips Electronics Nv | Parametric stereo encoding and decoding |
CN105023578A (zh) * | 2010-04-09 | 2015-11-04 | 杜比国际公司 | 解码器系统和解码方法 |
US20140112482A1 (en) * | 2012-04-05 | 2014-04-24 | Huawei Technologies Co., Ltd. | Method for Parametric Spatial Audio Coding and Decoding, Parametric Spatial Audio Coder and Parametric Spatial Audio Decoder |
US20160133262A1 (en) * | 2013-07-22 | 2016-05-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Reduction of comb filter artifacts in multi-channel downmix with adaptive phase alignment |
CN104681029A (zh) * | 2013-11-29 | 2015-06-03 | 华为技术有限公司 | 立体声相位参数的编码方法及装置 |
Non-Patent Citations (1)
Title |
---|
LINDBLOM JONAS 等: "Flexible sum-difference stereo coding based on time-aligned signal components", 《2005 IEEE APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI760705B (zh) * | 2019-03-06 | 2022-04-11 | 弗勞恩霍夫爾協會 | 降混器及降混方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3472833B1 (en) | 2020-07-08 |
US20200082833A1 (en) | 2020-03-12 |
US20190147893A1 (en) | 2019-05-16 |
KR20190026671A (ko) | 2019-03-13 |
TWI724184B (zh) | 2021-04-11 |
CN109313906B (zh) | 2023-07-28 |
ES2823294T3 (es) | 2021-05-06 |
CA3024146A1 (en) | 2017-12-28 |
US10672406B2 (en) | 2020-06-02 |
WO2017222871A1 (en) | 2017-12-28 |
US11127406B2 (en) | 2021-09-21 |
JP2019522233A (ja) | 2019-08-08 |
KR102580989B1 (ko) | 2023-09-21 |
US20170365260A1 (en) | 2017-12-21 |
BR112018075831A2 (pt) | 2019-03-19 |
EP3472833A1 (en) | 2019-04-24 |
JP6976974B2 (ja) | 2021-12-08 |
TW201802798A (zh) | 2018-01-16 |
US10217467B2 (en) | 2019-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313906A (zh) | 音频信号之间的声道间相位差的编码和解码 | |
CA3011741C (en) | Encoding of multiple audio signals | |
TWI775838B (zh) | 用於在多源環境中之非諧波語音偵測及頻寬擴展之裝置、方法、電腦可讀媒體及設備 | |
US11705138B2 (en) | Inter-channel bandwidth extension spectral mapping and adjustment | |
US10885922B2 (en) | Time-domain inter-channel prediction | |
CN110800051B (zh) | 具有时域信道间带宽延展的高频带残值预测 | |
KR102208602B1 (ko) | 채널간 대역폭 확장 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |