CN110537222B - 在多源环境中的非谐波语音检测及带宽扩展 - Google Patents

在多源环境中的非谐波语音检测及带宽扩展 Download PDF

Info

Publication number
CN110537222B
CN110537222B CN201880026185.XA CN201880026185A CN110537222B CN 110537222 B CN110537222 B CN 110537222B CN 201880026185 A CN201880026185 A CN 201880026185A CN 110537222 B CN110537222 B CN 110537222B
Authority
CN
China
Prior art keywords
band
signal
harmonic
flag
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880026185.XA
Other languages
English (en)
Other versions
CN110537222A (zh
Inventor
V·S·C·S·奇比亚姆
V·阿提
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN110537222A publication Critical patent/CN110537222A/zh
Application granted granted Critical
Publication of CN110537222B publication Critical patent/CN110537222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmitters (AREA)
  • Stereophonic System (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种装置,其包含经配置以进行以下操作的多声道编码器:接收第一音频信号及第二音频信号;对所述第一音频信号及所述第二音频信号执行降混操作以产生中间信号;基于所述中间信号产生低频带中间信号及高频带中间信号;及至少部分地基于对应于低频带信号的低频带话音值及对应于所述高频带中间信号的增益值来确定标记与所述高频带中间信号相关联的多源旗标的值。所述多声道编码器经配置以基于所述多源旗标产生高频带中间激励信号且基于所述高频带中间激励信号产生位流。所述装置还包含经配置以将所述位流及所述多源旗标发射至第二装置的发射器。

Description

在多源环境中的非谐波语音检测及带宽扩展
优先权主张
本申请案主张以下共同拥有的申请案的优先权益:2017年4月21日申请的名为“在多源环境中的声道间带宽扩展(INTER-CHANNEL BANDWIDTH EXTENSION IN A MULTI-SOURCE ENVIRONMENT)”的美国临时专利申请案第62/488,654号,及2018年4月18日申请的名为“在多源环境中的非谐波语音检测及带宽扩展(NON-HARMONIC SPEECH DETECTION ANDBANDWIDTH EXTENSION IN A MULTI-SOURCE ENVIRONMENT)”的美国非临时专利申请案第15/956,645号,前述申请案中的每一者的内容的全文以引用的方式并入本文中。
技术领域
本发明大体上涉及音频信号的编码或音频信号的解码。
背景技术
技术的进步已产生更小且更强大的计算装置。举例来说,当前存在多种便携式个人计算装置,包含无线电话(例如移动及智能电话)、平板计算机及膝上型计算机,所述便携式个人计算装置小而轻质且容易由用户携载。这些装置可经由无线网络传达话音及数据包。另外,许多此类装置结合额外功能性,例如数字静态相机、数字视频相机、数字记录器及音频文件播放器。此外,这些装置可处理可执行指令,包含软件应用程序,例如可用以存取互联网的网络浏览器应用程序。因而,这些装置可包含显著的计算能力。
第一装置可包含或耦合至一或多个麦克风以接收音频信号。第一装置编码经接收音频信号并将经编码音频信号发送至第二装置。第二装置可包含一或多个输出装置(例如一或多个扬声器)以产生输出。举例来说,第二装置解码经编码音频信号以产生经提供至所述一或多个输出装置的输出信号。
在单声道编码或立体声编码中,编码器可基于经接收音频信号产生低频带信号及高频带信号。在单声道编码或立体声编码中,经接收音频信号可为多个声源(例如同时讲话的两个人)的组合。举例来说,第一声源可提供有声区段(例如字母“r”的声音)且第二声源可提供无声区段(例如声音“ssss”)。在此情境中,有声区段的能量可集中于低频带中,而无声区段的能量集中于高频带中。因此,低频带为高度有声的,这是因为低频带的能量的大部分(或全部)来自第一声源的有声区段,且高频带有高度噪声,这是因为高频带的能量的大部分(或全部)来自第二声源的无声区段。
可基于低频带信号产生低频带话音参数。低频带话音参数接着可用以产生用以产生高频带激励的混频因数(例如指示低频带中的多少为噪声、低频带中的多少为谐波等的增益值)。低频带的谐波性质通过将低频带激励扩展至高频带中而外推至高频带中。如果低频带话音参数指示低频带为谐波,那么高频带扩展也将为谐波。替代地,如果低频带话音参数指示低频带为噪声,那么高频带扩展也将为噪声。在低频带及高频带具有不同调和性特性的情形中,低频带话音因数可不反映(或指示)高频带的调和性。因此,在此情形下,使用低频带话音参数以控制高频带激励的产生并不反映高频带。
在单声道解码或立体声解码中,解码器接收经编码低频带信号及经编码高频带信号。为产生输出信号(反映由编码器接收的音频信号),解码器以类似于编码器的方式产生高频带激励。类似于上文结合编码器所描述的问题,如果在解码器处使用的低频带话音参数不反映高频带(例如当低频带话音因数指示低频带为高度有声的且高频带为有高度噪声时),那么在解码器处产生的高频带激励可不匹配编码器处的高频带且解码器的输出的播出质量可降级。
发明内容
在特定实施方案中,一种装置包含经配置以进行以下操作的编码器:接收音频信号;基于经接收音频信号产生高频带信号;及确定指示高频带信号的谐波度量的旗标的值。所述装置进一步包含经配置以将高频带信号的经编码版本及旗标发射至第二装置的发射器。
在另一特定实施方案中,一种方法包含在编码器处接收音频信号及基于经接收音频信号产生高频带信号。所述方法还包含确定指示高频带信号的谐波度量的旗标的值及将高频带信号的经编码版本及旗标从编码器发射至装置。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由第一装置的编码器执行时使编码器执行包含以下操作的操作:在编码器处接收音频信号及基于经接收音频信号产生高频带信号。所述操作还包含确定指示高频带信号的谐波度量的旗标的值及将高频带信号的经编码版本及旗标从编码器发射至装置。
在另一特定实施方案中,一种设备包含用于接收音频信号的装置及用于基于经接收音频信号产生高频带信号的装置。所述设备还包含用于确定指示高频带信号的谐波度量的旗标的值的装置及用于将高频带信号的经编码版本及旗标发射至装置的装置。
在另一特定实施方案中,一种装置包含经配置以进行以下操作的编码器:确定对应于高频带信号的帧的增益帧参数;比较增益帧参数与阈值;及响应于增益帧参数大于阈值,修改对应于帧且指示高频带信号的谐波度量的旗标。所述装置进一步包含经配置以发射经修改旗标的发射器。
在另一特定实施方案中,一种方法包含确定对应于高频带信号的帧的增益帧参数及比较增益帧参数与阈值。所述方法还包含响应于增益帧参数大于阈值,修改对应于帧且指示高频带信号的谐波度量的旗标。所述方法进一步包含发射经修改旗标。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由第一装置的编码器执行时使编码器执行包含以下操作的操作:确定对应于高频带信号的帧的增益帧参数及比较增益帧参数与阈值。所述操作还包含响应于增益帧参数大于阈值,修改对应于帧且指示高频带信号的谐波度量的旗标。所述操作进一步包含发射经修改旗标。
在另一特定实施方案中,一种设备包含用于确定对应于高频带信号的帧的增益帧参数的装置及用于比较增益帧参数与阈值的装置。所述设备进一步包含用于响应于增益帧参数大于阈值而修改旗标的装置。旗标对应于帧且指示高频带信号的谐波度量。所述设备还包含用于发射经修改旗标的装置。
在另一特定实施方案中,一种装置包含经配置以接收至少第一音频信号及第二音频信号的多声道编码器。多声道编码器经配置以对第一音频信号及第二音频信号执行降混操作以产生中间信号。多声道编码器经配置以基于中间信号产生低频带中间信号及高频带中间信号。低频带中间信号对应于中间信号的低频部分,且高频带中间信号对应于中间信号的高频部分。多声道编码器经配置以至少部分地基于对应于低频带中间信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值。多声道编码器经配置以至少部分地基于多源旗标产生高频带中间激励信号。编码器经进一步配置以至少部分地基于高频带中间激励信号产生位流。所述装置进一步包含经配置以将位流及多源旗标发射至第二装置的发射器。
在另一特定实施方案中,一种方法包含在多声道编码器处接收至少第一音频信号及第二音频信号。所述方法包含对第一音频信号及第二音频信号执行降混操作以产生中间信号。所述方法包含基于中间信号产生低频带中间信号及高频带中间信号。低频带中间信号对应于中间信号的低频部分,且高频带中间信号对应于中间信号的高频部分。所述方法包含至少部分地基于对应于低频带中间信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值。所述方法包含至少部分地基于多源旗标产生高频带中间激励信号。所述方法包含至少部分地基于高频带中间激励信号产生位流。所述方法进一步包含将位流及多源旗标从多声道编码器发射至装置。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由第一装置的多声道编码器执行时使多声道编码器执行包含以下操作的操作:在多声道编码器处接收至少第一音频信号及第二音频信号。所述操作包含对第一音频信号及第二音频信号执行降混操作以产生中间信号。所述操作包含基于中间信号产生低频带中间信号及高频带中间信号。低频带中间信号对应于中间信号的低频部分,且高频带中间信号对应于中间信号的高频部分。所述操作包含至少部分地基于对应于低频带中间信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值。所述操作包含至少部分地基于多源旗标产生高频带中间激励信号。所述操作包含至少部分地基于高频带中间激励信号产生位流。所述操作进一步包含将位流及多源旗标从多声道编码器发射至装置。
在另一特定实施方案中,一种设备包含用于接收至少第一音频信号及第二音频信号的装置、用于对第一音频信号及第二音频信号执行降混操作以产生中间信号的装置,及用于基于中间信号产生低频带中间信号及高频带中间信号的装置。低频带中间信号对应于中间信号的低频部分,且高频带中间信号对应于中间信号的高频部分。所述设备包含用于至少部分地基于对应于低频带信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值的装置。所述设备包含用于至少部分地基于多源旗标产生高频带中间激励信号的装置。所述设备包含用于至少部分地基于高频带中间激励信号产生位流的装置。所述设备还包含用于将位流及多源旗标发射至装置的装置。
在另一特定实施方案中,一种装置包含经配置以接收对应于音频信号的经编码版本的位流的接收器。所述装置进一步包含经配置以进行以下操作的解码器:基于低频带激励信号且进一步基于指示高频带信号的谐波度量的旗标值而产生高频带激励信号。高频带信号对应于音频信号的高频带部分。
在另一特定实施方案中,一种方法包含接收对应于音频信号的经编码版本的位流。所述方法进一步包含基于低频带激励信号且进一步基于指示高频带信号的谐波度量的第一旗标值产生高频带激励信号。高频带信号对应于音频信号的高频带部分。
在另一特定实施方案中,一种非暂时性计算机可读媒体包含指令,所述指令在由装置的解码器执行时使解码器执行包含以下操作的操作:接收对应于音频信号的经编码版本的位流。所述操作还包含基于低频带激励信号且进一步基于指示高频带信号的谐波度量的第一旗标值产生高频带激励信号。高频带信号对应于音频信号的高频带部分。
在另一特定实施方案中,一种设备包含用于接收对应于音频信号的经编码版本的位流的装置。所述设备进一步包含用于基于低频带激励信号且进一步基于指示高频带信号的谐波度量的第一旗标值产生高频带激励信号的装置。高频带信号对应于音频信号的高频带部分。
在审阅整个申请案之后,本发明的其它实施方案、优势及特征将变得显而易见,所述整个申请案包含以下章节:附图说明、具体实施方式及权利要求书。
附图说明
图1为系统的特定说明性实例的框图,所述系统包含可操作以确定指示高频带信号的谐波度量的第一旗标值的编码器及可操作以使用指示高频带信号的谐波度量的第二旗标值的解码器;
图2A为绘示图1的编码器的图解;
图2B为绘示中间声道带宽扩展(BWE)编码器的图解;
图3A为绘示图1的解码器的图解;
图3B为绘示中间声道BWE解码器的图解;
图4为绘示图1的编码器的声道间带宽扩展编码器的第一部分的图解;
图5为绘示图1的编码器的声道间带宽扩展编码器的第二部分的图解;
图6为绘示图1的声道间带宽扩展解码器的图解;
图7为估计一或多个频谱映射参数的方法的特定实例;
图8为提取一或多个频谱映射参数的方法的特定实例;
图9为绘示经配置以使用指示高频带信号的谐波度量的旗标的中间声道带宽扩展(BWE)编码器的图解;
图10为绘示经配置以使用指示高频带信号的谐波度量的旗标的中间声道BWE解码器的图解;
图11为绘示经配置以使用指示高频带信号的谐波度量的旗标的图1的编码器的声道间带宽扩展编码器的第三部分的图解;
图12为绘示经配置以使用指示高频带信号的谐波度量的旗标的图1的声道间带宽扩展解码器的部分的图解;
图13为确定指示高频带信号的谐波度量的旗标值的方法的特定实例;
图14为修改指示高频带信号的谐波度量的旗标的方法的特定实例;
图15为至少部分地基于指示高频带信号的谐波度量的旗标产生高频带信号的方法的特定实例;
图16为使用指示音频信号的高频带部分的谐波度量的旗标的方法的特定实例;
图17为可操作以确定指示高频带信号的谐波度量的旗标值的移动装置的特定说明性实例的框图;且
图18为可操作以确定指示高频带信号的谐波度量的旗标值的基站的框图。
具体实施方式
下文参看附图描述本发明的特定方面。在本说明书中,共同部件由共同参考编号指示。如本文中所使用,各种术语仅仅用于描述特定实施方案的目的,且并不意图限制实施方案。举例来说,单数形式“一”及“所述”意图包含复数形式,除非上下文另外清楚地指示。可进一步理解,术语“包括(comprise/comprises/comprising)”可与“包含(include/includes/including)”互换地使用。另外,应理解,术语“其中(wherein)”可与“其中(where)”互换地使用。如本文中所使用,“示范性”可指示实例、实施方案及/或方面,且不应被视作限制或视为指示偏好或优选实施方案。如本文中所使用,用以修饰例如结构、组件、操作等的元件的序数术语(例如“第一”、“第二”、“第三”等)本身不指示元件相对于另一元件的任何优先权或次序,而是仅将元件与具有相同名称的另一元件区别开(除非使用序数术语)。如本文中所使用,术语“集合”是指特定元件中的一或多者,且术语“多个”是指特定元件中的多个(例如两个或多于两个)。
在本发明中,例如“确定”、“计算”、“估计”、“移位”、“调整”等的术语可用于描述如何执行一或多个操作。应注意,这些术语不应被解释为限制性的,且其它技术可用以执行类似操作。另外,如本文中所提及,“产生”、“计算”、“估计”、“使用”、“选择”、“存取”及“确定”可互换地使用。举例来说,“产生”、“计算”、“估计”或“确定”参数(或信号)可指积极地产生、估计、计算或确定参数(或信号),或可指使用、选择或存取已(例如)由另一组件或装置产生的参数(或信号)。
揭示了可操作以编码多音频信号的系统及装置。如本文中进一步所描述,本发明涉及当低频带可为谐波或非谐波时译码(例如编码或解码)在高频带中的信号。举例来说,系统、装置及方法可经配置以检测高频带信号的调和性并设定指示高频带信号的谐波度量(例如调和性,例如调和性的相对程度)的旗标的值。系统、装置及方法可经进一步配置以使用旗标以产生高频带信号并修改旗标(例如修改旗标的值)。举例来说,旗标(或经修改旗标)可用于确定一或多个混频参数、噪声包络参数、增益形状参数、增益帧参数或其组合。本文中所描述的系统、装置及方法适用于单声道译码(例如单声道编码或单声道解码)及立体声/多声道译码(例如立体声/多声道编码、立体声/多声道解码或两者)。
装置可包含经配置以编码多个音频信号的编码器。可使用多个记录装置(例如多个麦克风)在时间上同时捕获多个音频信号。在一些实例中,可通过多路复用若干同时或非同时记录的音频声道合成地(例如人工地)产生多个音频信号(或多声道音频)。作为说明性实例,音频声道的并行记录或多路复用可产生2声道配置(即,立体声:左及右)、5.1声道配置(左、右、中央、左环绕、右环绕及低频重音(LFE)声道)、7.1声道配置、7.1+4声道配置、22.2声道配置或N声道配置。
电话会议室(或远程呈现室)内的音频捕获装置可包含获取空间音频的多个麦克风。空间音频可包含语音以及经编码且经发射的背景音频。取决于如何布置麦克风以及给定源(例如讲话者)位于相对于麦克风及房间大小的位置,来自所述源(例如讲话者)的话语/音频可在不同时间到达多个麦克风处。举例来说,相比于与装置相关联的第二麦克风,声源(例如讲话者)可更接近与装置相关联的第一麦克风。因此,与第二麦克风相比,从声源发出的声音可更早到达第一麦克风。装置可经由第一麦克风接收第一音频信号,且可经由第二麦克风接收第二音频信号。
中侧(MS)译码及参数立体(PS)译码为可提供优于双单声道译码技术的经改进性能的立体译码技术。在双单声道译码中,左(L)声道(或信号)及右(R)声道(或信号)经独立地译码,而不利用声道间相关。在译码之前,通过将左声道及右声道变换为总声道及差声道(例如旁声道),MS译码减少相关L/R声道对之间的冗余。总信号及差信号经波形译码或基于MS译码中的模型而译码。总和信号比侧信号耗费相对更多的位。PS译码通过将L/R信号转换为总和信号及一组侧参数来减少每一子频带中的冗余。侧参数可指示声道间强度差(IID)、声道间相位差(IPD)、声道间时差(ITD)、侧或残差预测增益等。总和信号为经译码的波形且与侧参数一起发射。在混合式系统中,侧声道可在较低频带(例如小于2千赫兹(kHz))中经波形译码且在较高频带(例如大于或等于2kHz)中经PS译码,其中声道间相位保持在感知上不太关键。在一些实施方案中,PS译码还可在波形译码之前用于较低频带中以减少声道间冗余。
可在频域或子频带域中完成MS译码及PS译码。在一些实例中,左声道及右声道可不相关。举例来说,左声道及右声道可包含不相关的合成信号。当左声道及右声道不相关时,MS译码、PS译码或两者的译码效率可接近于双单声道译码的译码效率。
取决于记录配置,可在左声道与右声道之间存在时间移位以及其它空间效应(例如回声及室内回响)。如果并不补偿声道之间的时间移位及相位失配,那么总和声道及差声道可含有减少与MS或PS技术相关联的译码增益的可比能量。译码增益的减少可基于时间(或相位)移位的量。总和信号及差信号的可比能量可限制声道经时间移位但高度相关的某些帧中的MS译码的使用。在立体声译码中,中间声道(例如总和声道)及侧声道(例如差声道)可基于以下公式产生:
M=(L+R)/2,S=(L-R)/2, 公式1
其中M对应于中声道,S对应于侧声道,L对应于左声道,且R对应于右声道。
在一些情况下,中间声道及侧声道可基于以下公式产生:
M=c(L+R),S=c(L-R), 公式2
其中c对应于频率相依的复合值。基于公式1或公式2而产生中间声道及侧声道可被称作“降混”。基于公式1或公式2而从中间声道及侧声道产生左声道及右声道的相反过程可被称作“升混”。
在一些情况下,中声道可基于其它公式,例如:
M=(L+gDR)/2,或 公式3
M=g1L+g2R 公式4
其中g1+g2=1.0,且其中gD为增益参数。在其它实例中,降混可在频带中执行,其中中间(b)=c1L(b)+c2R(b),其中c1及c2为复数,其中侧(b)=c3L(b)-c4R(b),且其中c3及c4为复数。
用以在MS译码或双单声道译码之间选择特定帧的特别途径可包含:产生中信号及侧信号,计算中信号及侧信号的能量,并基于能量确定是否执行MS译码。举例来说,可执行MS译码以响应侧信号与中信号的能量比小于阈值的确定。举例来说,如果右声道经移位至少第一时间(例如在48kHz下约0.001秒或48个样本),那么中间信号(对应于左信号及右信号的总和)的第一能量可与用于有声语音帧的侧信号(对应于左信号与右信号之间的差)的第二能量相当。当第一能量与第二能量相当时,较高数目的位可用于编码侧声道,由此减少相对于双单声道译码的MS译码的译码性能。双单声道译码因此可在第一能量与第二能量相当时(例如在第一能量与第二能量的比率大于或等于阈值时)使用。在替代途径中,可针对特定帧基于阈值与左通道及右通道的归一化交叉相关值的比较来在MS译码与双单声道译码之间作出决定。
在一些实例中,编码器可确定指示第一音频信号与第二音频信号之间的时间未对准的量的失配值。如本文中所使用,“时间移位值”、“移位值”及“失配值”可被互换地使用。举例来说,编码器可确定指示第一音频信号相对于第二音频信号的移位(例如时间失配)的时间移位值。时间失配值可对应于在第一麦克风处第一音频信号的接收与在第二麦克风处第二音频信号的接收之间的时间延迟的量。此外,编码器可在逐帧基础上例如基于每一20毫秒(ms)话音/音频帧确定时间失配值。举例来说,时间失配值可对应于第二音频信号的第二帧相对于第一音频信号的第一帧延迟的时间量。替代地,时间失配值可对应于第一音频信号的第一帧相对于第二音频信号的第二帧延迟的时间量。
当声源距第一麦克风的距离比距第二麦克风的距离更近时,第二音频信号的帧可相对于第一音频信号的帧经延迟。在此情况下,第一音频信号可被称为“参考音频信号”或“参考声道”,且经延迟第二音频信号可被称为“目标音频信号”或“目标声道”。替代地,当声源距离第二麦克风的距离比距第一麦克风的距离更近时,第一音频信号的帧可相对于第二音频信号的帧经延迟。在此情况下,第二音频信号可被称为参考音频信号或参考声道,且经延迟第一音频信号可被称为目标音频信号或目标声道。
取决于声源(例如讲话者)位于会议室或远程呈现室内的位置及声源(例如讲话者)位置如何相对于麦克风改变,参考声道及目标声道可从一个帧改变至另一帧;类似地,时间延迟值也可从一个帧改变至另一帧。然而,在一些实施方案中,时间失配值可始终是正的,以指示“目标”声道相对于“参考”声道的延迟量。此外,时间失配值可对应于“无关联移位”值,经延迟目标声道通过所述“无关联移位”值在时间上“经拉回”,使得目标声道与“参考”声道对准(例如最大限度地对准)。可对参考声道及经无关联移位的目标声道执行确定中间声道及侧声道的降混算法。
编码器可基于参考音频声道及应用于目标音频声道的多个时间失配值而确定时间失配值。举例来说,参考音频声道的第一帧X可在第一时间(m1)接收。目标音频声道的第一特定帧Y可在对应于第一时间失配值(例如shift1=n1-m1)的第二时间(n1)接收。另外,可在第三时间(m2)接收参考音频声道的第二帧。目标音频声道的第二特定帧可在对应于第二时间失配值(例如shift2=n2-m2)的第四时间(n2)接收。
装置可以第一取样速率(例如32kHz取样速率(即,640个样本每帧))执行成帧或缓冲算法,以产生帧(例如20ms样本)。响应于第一音频信号的第一帧及第二音频信号的第二帧同时到达装置的确定,编码器可估计如等于零样本的时间失配值(例如shift1)。可在时间上对准左声道(例如对应于第一音频信号)及右声道(例如对应于第二音频信号)。在一些情况下,即使当对准时,左声道及右声道可由于各种原因(例如麦克风校准)在能量方面存在不同。
在一些实例中,左声道及右声道可由于各种原因(例如与麦克风中的另一者相比,声源(例如讲话者)可更接近麦克风中的一者,且两个麦克风相隔距离可大于阈值(例如1至20厘米)距离)在时间上未对准。声源相对于麦克风的位置可在左声道及右声道中引入不同的延迟。另外,在左声道与右声道之间可存在增益差、能量差或电平差。
在一些实例中,在存在超过两个声道的情况下,参考声道最初基于声道的电平或能量而被选择,且随后基于不同声道对之间的时间失配值(例如t1(ref,ch2),t2(ref,ch3),t3(ref,ch4),…)而被改进,其中ch1为最初参考声道且t1(.)、t2(.)等为估计失配值的函数。如果所有时间失配值是正的,那么ch1被视为参考声道。如果失配值中的任一者为负值,那么参考声道经重新配置成与产生负值的失配值相关联的声道,且上述过程继续直到实现参考声道的最佳选择(即,基于最大限度地去相关最大数目的侧声道)为止。滞后可用于克服参考声道选择中的任何急剧变化。
在一些实例中,当多个讲话者交替地讲话时(例如在不重叠情况下),音频信号从多个声源(例如讲话者)到达麦克风的时间可变化。在此情况下,编码器可基于讲话者动态地调节时间失配值以识别参考声道。在一些其它实例中,多个讲话者可同时讲话,取决于哪个讲话者最大声、距麦克风最近等,这可导致变化时间失配值。在此情况下,参考及目标声道的识别可基于当前帧中的变化的时间移位值及先前帧中的经估计时间失配值,及第一及第二音频信号的能量或时间演进。
在一些实例中,当两种信号可能展示较少(例如无)相关度时,可合成或人工地产生第一音频信号及第二音频信号。应理解,本文中所描述的实例为说明性且可在类似或不同情境中确定第一音频信号与第二音频信号之间的关系中具指导性。
编码器可基于第一音频信号的第一帧与第二音频信号的多个帧的比较而产生比较值(例如差值或交叉相关值)。所述多个帧中的每一帧可对应于特定时间失配值。编码器可基于比较值产生第一经估计时间失配值。举例来说,第一经估计时间失配值可对应于指示第一音频信号的第一帧与第二音频信号的对应第一帧之间较高时间类似性(或较低差)的比较值。
编码器可通过在多个阶段中改进一系列经估计时间失配值来确定最终时间失配值。举例来说,编码器可首先基于从第一音频信号及第二音频信号的立体声经预处理及经重新取样版本产生的比较值而估计“暂定”时间失配值。编码器可产生与接近于经估计“暂定”时间失配值的时间失配值相关联的经内插比较值。编码器可基于经内插的比较值确定第二经估计“内插”时间失配值。举例来说,第二经估计“内插”时间失配值可对应于指示比剩余经内插的比较值及第一经估计“暂定”时间失配值更高的时间类似性(或较低差)的特定内插比较值。如果当前帧(例如第一音频信号的第一帧)的第二经估计“内插”时间失配值与前一帧(例如先于第一帧的第一音频信号的帧)的最终时间失配值不同,那么当前帧的“内插”时间失配值经进一步“修正”以改进第一音频信号与经移位第二音频信号之间的时间类似性。具体来说,第三经估计“修正”时间失配值可通过查究当前帧的第二经估计“内插”时间失配值及前一帧的最终经估计时间失配值来对应于时间类似性的更准确度量。第三经估计“修正”时间失配值经进一步调节以通过限制帧之间的时间失配值中的任何伪改变来估计最终时间失配值,且受进一步控制以不在如本文中所描述的两个连续(或相连)帧中从负时间失配值切换到正时间失配值(或反之亦然)。
在一些实例中,编码器可制止在相连帧中或在邻近帧中在正时间失配值与负时间失配值之间切换或反之亦然。举例来说,编码器可将最终时间失配值设定成特定值(例如0),所述特定值基于第一帧的经估计“内插”或“修正”时间失配值及先于第一帧的特定帧中的对应经估计“内插”或“修正”或最终时间失配值而指示无时间移位。举例来说,响应于当前帧的经估计的“暂定”或“内插”或“修正”时间失配值中的一者为正数且前一帧(例如前于第一帧的帧)的经估计的“暂定”或“内插”或“修正”或“最终”经估计时间失配值中的另一者为负数的确定,编码器可设定当前帧(例如第一帧)的最终时间失配值以指示无时间移位,即,shift1=0。替代地,响应于当前帧的经估计的“暂定”或“内插”或“修正”时间失配值中的一者为负数且前一帧(例如前于第一帧的帧)的经估计的“暂定”或“内插”或“修正”或“最终”经估计时间失配值中的另一者为正数的确定,编码器还可设定当前帧(例如第一帧)的最终时间失配值以指示无时间移位,即,shift1=0。
编码器可基于时间失配值而将第一音频信号或第二音频信号的帧选作“参考”或“目标”。举例来说,响应于最终时间失配值为正数的确定,编码器可产生具有指示第一音频信号为“参考”信号且第二音频信号为“目标”信号的第一值(例如0)的参考声道或信号指示符。替代地,响应于最终时间失配值为负数的确定,编码器可产生具有指示第二音频信号为“参考”信号且第一音频信号为“目标”信号的第二值(例如1)的参考声道或信号指示符。
编码器可估计与参考信号及无关联经移位目标信号相关联的相对增益(例如相对增益参数)。举例来说,响应于最终时间失配值为正数的确定,编码器可估计增益值以归一化或等化第一音频信号相对于第二音频信号的按无关联时间失配值(例如最终时间失配值的绝对值)偏移的振幅或功率电平。替代地,响应于最终时间失配值为负数的确定,编码器可估计增益值以归一化或等化无关联经移位第一音频信号相对于第二音频信号的功率或振幅电平。在一些实例中,编码器可估计增益值以归一化或等化“参考”信号相对于无关联经移位“目标”信号的振幅或功率电平。在其它实例中,编码器可相对于目标信号(例如未移位的目标信号)基于参考信号来估计增益值(例如相对增益值)。
编码器可基于参考信号、目标信号、无关联时间失配值及相对增益参数产生至少一个经编码信号(例如中间信号、侧信号或两者)。在其它实施方案中,编码器可基于参考声道及时间失配经调整目标声道产生至少一个经编码信号(例如中间声道、侧声道或两者)。侧信号可对应于第一音频信号的第一帧的第一样本与第二音频信号的所选择帧的所选择样本之间的差。编码器可基于最终时间失配值选择所选帧。由于第一样本与所选择样本之间的减小的差,相比于对应于第二音频信号的帧(与第一帧同时由装置接收)的第二音频信号的其它样本,更少的位可用于编码侧声道信号。装置的发射器可发射至少一个经编码信号、无关联时间失配值、相对增益参数、参考声道或信号指示符或其组合。
编码器可基于参考信号、目标信号、无关联时间失配值、相对增益参数、第一音频信号的特定帧的低频带参数、特定帧的高频带参数或其组合产生至少一个经编码信号(例如中间信号、侧信号或两者)。特定帧可先于第一帧。来自一或多个前面帧的某些低频带参数、高频带参数或其组合可用于编码第一帧的中间信号、侧信号或两者。基于低频带参数、高频带参数或其组合对中间信号、侧信号或两者进行编码可改进无关联时间失配值及声道间相对增益参数的估计值。低频带参数、高频带参数或其组合可包含:音调参数、话音参数、译码器类型参数、低频带能量参数、高频带能量参数、包络参数(例如倾角参数)、音调增益参数、FCB增益参数、译码模式参数、话音活动参数、噪声估计参数、讯号噪声比参数、共振峰参数、语音/音乐决策参数、无关联移位、声道间增益参数或其组合。装置的发射器可发射至少一个经编码信号、无关联时间失配值、相对增益参数、参考声道(或信号)指示符或其组合。在本发明中,例如“确定”、“计算”、“估计”、“移位”、“调整”等的术语可用于描述如何执行一或多个操作。应注意,这些术语不应被解释为限制性的,且其它技术可用以执行类似操作。
在一些实施方案中,编码器包含经配置以将立体声声道对转换成中间/侧声道对的降混器。低频带中间声道(中间声道的低频带部分)及低频带侧声道经提供至低频带编码器。低频带编码器经配置以产生低频带位流。另外,低频带编码器经配置以产生低频带参数,例如低频带激励、低频带话音参数等。低频带激励及高频带中间声道(中间声道的高频带部分)经提供至BWE编码器。BWE编码器产生高频带中间声道位流及高频带参数(例如LPC、增益帧、增益移位等)。
例如BWE编码器的编码器经配置以确定指示高频带信号(例如高频带中间信号)的调和性的旗标值。举例来说,旗标值可指示高频带信号的调和性度量。举例来说,旗标值可指示高频带信号是谐波还是非谐波(例如噪声)。作为另一说明性实例,旗标值可指示高频带信号是强谐波、强非谐波,还是弱谐波(例如在强谐波与强非谐波之间)。
旗标值可基于一或多个低频带参数、一或多个高频带参数或其组合而确定。一或多个低频带参数及一或多个高频带参数可对应于当前帧或前一帧。举例来说,编码器可基于低频带(LB)及高频带(HB)参数确定指示HB是否为非谐波的非谐波HB旗标。可用于确定旗标值的参数的实例包含高频带长期能量、高频带短期能量、基于高频带短期能量与高频带长期能量的比率、前一帧的高频带增益帧、当前帧的高频带增益帧、低频带话音参数或其组合。另外或替代地,可用于编码器(或解码器)的其它参数可用于确定旗标值(高频带信号的调和性)。在特定实施方案中,旗标的值(用于当前帧)是基于(当前帧的)低频带话音、前一帧的增益帧及(当前帧的)高频带中间声道而确定。
基于一或多个低频带参数、一或多个高频带参数、一或多个其它参数或其组合,进行高频带是否为谐波(或为非谐波)的估计或预测。一或多种技术可用于确定旗标的值(例如以确定谐波度量)。一些技术可包含:如果-否则逻辑(决策树)(运用或不运用用于平滑器决策的某一平滑/滞后)、高斯混合模型(GMM)(例如基于通过GMM提供的测量值,例如HB谐波的程度及HB非谐波的程度)、其它分类工具(例如支持向量机器、神经网络等)或其组合。
作为说明性实例,为确定旗标的值,预定GMM可用于确定高频带信号是否为谐波及非谐波的概率。举例来说,可确定高频带为谐波的第一似然性。替代地,可确定高频带为非谐波的第二似然性。在一些实施方案中,确定第一似然性及第二似然性两者。在其中旗标可具有两个值(例如指示谐波的第一值及指示非谐波的第二值)中的一者的实施方案中,第一似然性(高频带为谐波)可与第一阈值相比较。如果第一似然性大于或等于第一阈值,那么旗标指示高频带信号为谐波;否则旗标的值指示高频带信号为非谐波。替代地,第二似然性(高频带为非谐波)可与第二阈值相比较。如果第二似然性大于或等于第二阈值,那么旗标指示高频带信号为非谐波;否则,旗标的值指示高频带信号为谐波。在另一实施方案中,旗标的值可设定成对应于第一似然性及第二似然性中的较大者。
在其中旗标可具有多于两个值的实施方案(例如指示谐波的第一值、指示非谐波的第二值及指示既不谐波占主导也不非谐波占主导的第三值)中,如果第一似然性小于第一阈值且第二似然性小于第二阈值,那么旗标设定成第三值。额外阈值可应用于第一似然性或第二似然性以确定对应于额外谐波度量的旗标的额外值。本文中进一步描述旗标的额外实例、旗标的值,及旗标的值可如何影响编码或解码操作。
在TD-BWE编码过程中,低频带激励经非线性地扩展(例如应用非线性函数)以产生谐波高频带激励。谐波高频带激励可用以确定高频带激励,如下文进一步所描述。一或多个高频带参数可基于高频带激励而确定。
为产生高频带激励,包络经调制噪声用以产生高频带激励的噪声分量。包络是从(例如基于)谐波高频带激励提取。包络调制是通过对谐波高频带激励的绝对值应用低通滤波器而执行。举例来说,噪声包络调制器可从谐波高频带激励提取包络且对随机噪声(来自随机噪声产生器)应用所述包络,使得由噪声包络调制器输出的调制噪声具有类似于高频带激励的时间包络。
旗标(指示谐波度量)用以控制估计将由噪声包络调制器应用于随机噪声(以产生调制噪声)的噪声包络的噪声包络估计过程。举例来说,噪声包络控制参数可包含将对谐波高频带激励执行的低通滤波的滤波器系数。举例来说,如果旗标指示高频带为谐波,那么噪声包络控制参数指示将应用于随机噪声的包络将为缓慢变化的包络(例如噪声包络调制器可使用大样本长度,使得噪声包络具有大分辨率)。作为另一实例,如果旗标指示高频带为非谐波,那么噪声包络控制参数指示将应用于随机噪声的包络将为快速变化的包络(例如噪声包络调制器可使用小样本长度,使得噪声包络具有精细分辨率)。
另外,将应用于谐波高频带激励及经调制噪声的混频参数(例如增益值,例如Gain1(编码器)及Gain2(编码器))可分别基于旗标及低频带话音因数而确定。换句话说,混频参数指示将被组合以产生高频带激励的谐波高频带激励与经调制噪声的比例。在一些实施方案中,Gain1+Gain2=1。Gain1可应用于谐波高频带激励且Gain2可应用于经调制噪声。经增益调整的谐波高频带激励及经增益调整的调制噪声可经组合(例如加总)以产生高频带激励。
举例来说,如果旗标指示高频带为非谐波(例如强非谐波),那么Gain2大于Gain1。在一些实施方案中,如果旗标指示高频带为非谐波(例如强非谐波),那么Gain2设定成一且Gain1设定成零。因此,如果旗标指示高频带为非谐波(例如强非谐波),那么高频带激励应反映噪声高频带。
如果旗标指示高频带为谐波(例如强谐波),那么Gain1可大于Gain2。在一些实施方案中,如果旗标指示高频带为谐波(例如强谐波),那么Gain1设定成一且Gain2设定成零。因此,如果旗标指示高频带为谐波(例如强谐波),那么高频带激励应反映谐波高频带。
如果旗标指示高频带并非为强谐波且并非为强非谐波,那么Gain1可设定成第一值且Gain2可设定成第二值。在一些实例中,Gain1可大于或等于Gain2。在其它实例中,Gain1可小于或等于Gain 2。Gain1的值及Gain2的值可基于低频带话音因数而确定。
在产生高频带激励之后,确定一或多个参数。举例来说,高频带增益形状及高频带增益帧可至少部分地基于高频带激励来确定。
由于旗标的值的估计是基于增益帧(例如前一帧的增益帧),但当前帧的增益帧是在高频带激励产生之后估计(且激励是基于旗标),所以可存在旗标与高频带增益帧之间的循环依赖性。在确定高频带增益帧后,旗标的值(用于当前帧)可经修改以产生经修改旗标。举例来说,如果(当前帧的)高频带增益帧大于阈值,因此指示高频带中存在非谐波内容,那么旗标可经修改以指示高频带为非谐波(例如强非谐波)。
上述修改是任选的且可能并不被执行。另外或替代地,旗标的修改可基于经预量化的高频带增益帧、经量化高频带增益帧、经量化或经去量化高频带增益形状或其组合。经修改旗标可经发射至解码器。在其中旗标的修改是任选的实施方案中,未经修改旗标经发射至解码器且解码器可产生旗标的经修改版本。
在一些实施方案中,旗标(或经修改旗标)可以用于译码将发射至解码器的声道间关系。举例来说,旗标(或经修改旗标)可用于确定与ICBWE非参考声道激励的产生相关联的混频值(例如增益)。
解码器可接收旗标(或经修改旗标)。在其中解码器接收旗标(且不接收经修改旗标)的实施方案中,解码器可基于旗标产生经修改旗标。在一些实施方案中,解码器不接收旗标或经修改旗标且经配置以基于一或多个参数产生经修改旗标,作为非限制性说明性实例,例如上文关于编码器所描述的参数(且其可用于解码器)、前端立体声场景分析结果、降混参数、其它参数或其组合。
为产生输出信号(反映由编码器接收的音频信号),解码器以类似于编码器的方式产生高频带激励。举例来说,基于接收的经修改旗标,解码器产生经组合以产生高频带激励的经增益调整的调制噪声及经增益调整的谐波高频带激励。基于所产生激励,产生增益帧及增益形状及其它参数的解码器值。应注意,由于在编码器及解码器处使用的旗标针对特定帧可能值不相同,所以在编码器处估计高频带增益帧及高频带增益形状所基于的高频带激励可不同于在解码器处应用这些值所针对的激励。
在一些实施方案中,旗标(或经修改旗标)可用于在解码器处译码声道间关系。举例来说,旗标(或经修改旗标)可用于确定与ICBWE非参考声道激励的产生相关联的混频值(例如增益)。
通过在编码器或解码器处使用旗标(或经修改旗标)以产生高频带激励,与不反映高频带的调和性(例如当低频带话音因数指示低频带为高度有声的且高频带为有高度噪声时)的低频带话音参数相关联的问题可得以减少或消除。举例来说,在解码器处使用旗标产生的高频带激励可较好匹配在编码器处的高频带且解码器的输出的播出质量可并不降级。
举例来说,在单声道编码或立体声编码中,编码器可基于经接收音频信号产生低频带信号及高频带信号。在单声道编码或立体声编码中,经接收音频信号可为多个声源(例如同时讲话的两个人)的组合。举例来说,第一声源可提供有声区段(例如字母“r”的声音)且第二声源可提供无声区段(例如声音“ssss”)。在此情境中,有声区段的能量可集中于低频带中,而无声区段的能量集中于高频带中。因此,低频带为高度有声的,这是因为低频带的能量的大部分(或全部)来自第一声源的有声区段,且高频带有高度噪声,这是因为高频带的能量的大部分(或全部)来自第二声源的无声区段。如果低频带话音参数指示低频带为噪声且高频带为谐波,那么旗标(或经修改旗标)可在编码、解码或两者期间使用,使得低频带信号的性质不负面影响高频带激励,使得高频带激励并不反映高频带。
参看图1,揭示系统的特定说明性实例且将其整体上指定为100。系统100包含经由网络120以通信方式耦合至第二装置106的第一装置104。网络120可包含一或多个无线网络、一或多个有线网络或其组合。
第一装置104可包含存储器153、编码器200、发射器110及一或多个输入接口112。存储器153可为包含指令191的非暂时性计算机可读媒体。指令191可为可由编码器200执行以执行本文中所描述的操作中的一或多者。输入接口112中的第一输入接口可耦合至第一麦克风146。输入接口112中的第二输入接口可耦合至第二麦克风148。编码器200可包含声道间带宽扩展(ICBWE)编码器204。ICBWE编码器204可经配置以基于合成的非参考高频带及非参考目标声道估计一或多个频谱映射参数。关于图2及4至5描述与ICBWE编码器204的操作相关联的额外细节。第一装置104还可包含旗标(例如非谐波高频带(HB)旗标(x)910)或经修改旗标(例如经修改非谐波高频带(HB)旗标(y)920),如参看图9进一步所描述。在一些实施方案中,第一装置104可能不包含经修改旗标(例如经修改非谐波HB旗标(y)920)。
第二装置106可包含解码器300。解码器300可包含ICBWE解码器306。ICBWE解码器306可经配置以从经接收频谱映射位流提取一或多个频谱映射参数。关于图3及6描述与ICBWE解码器306的操作相关联的额外细节。第二装置106可耦合至第一扩音器142、第二扩音器144或其两者。尽管未展示,但第二装置106可包含其它组件,例如处理器(例如中央处理单元)、麦克风、接收器、发射器、天线、存储器等。第二装置106还可包含经修改旗标(例如经修改非谐波HB旗标(y)920),如参看图10进一步所描述。在一些实施方案中,第二装置106可另外或替代地包含旗标(例如非谐波HB旗标(x)910)。
在操作期间,第一装置104可经由第一输入接口从第一麦克风146接收第一音频声道130(例如第一音频信号),并可经由第二输入接口从第二麦克风148接收第二音频声道132(例如第二音频信号)。第一音频声道130可对应于右声道或左声道中的一者。第二音频声道132可对应于右声道或左声道中的另一者。与第二麦克风148相比,声源152(例如用户、扬声器、环境噪声、乐器等)可更接近第一麦克风146。因此,来自声源152的音频信号可在与经由第二麦克风148相比较早时间处经由第一麦克风146在输入接口112处接收。经由多个麦克风获取的多声道信号的此固有延迟可在第一音频声道130与第二音频声道132之间引入时间未对准。
根据一个实施方案,第一音频声道130可为“参考声道”,且第二音频声道132可为“目标声道”。目标声道可经调整(例如经时间移位)以大致上与参考声道对准。根据另一实施方案,第二音频声道132可为参考声道,且第一音频声道130可为目标声道。根据一个实施方案,参考声道及目标声道可在逐帧基础上变化。举例来说,对于第一帧,第一音频声道130可为参考声道,且第二音频声道132可为目标声道。然而,对于第二帧(例如后续帧),第一音频声道130可为目标声道,且第二音频声道132可为参考声道。为便于描述,除非下文另外指出,否则第一音频声道130为参考声道,且第二音频声道132为目标声道。应注意,关于音频声道130、132所描述的参考声道可独立于下文所描述的高频带参考声道指示符。举例来说,高频带参考声道指示符可指示音频声道130、132中的任一者的高频带为高频带参考声道,且高频带参考声道指示符可指示可为与参考声道相同或不同的声道的高频带参考声道。
如关于图2A、4及5更详细所描述,编码器200可产生降混位流216、ICBWE位流242、高频带中间声道位流244及低频带位流246。发射器110可经由网络120将降混位流216、ICBWE位流242、高频带中间声道位流244或其组合发射至第二装置106。替代地或另外,发射器110可将降混位流216、ICBWE位流242、高频带中间声道位流244或其组合存储在网络120的装置或本地装置处,以供稍后进一步处理或解码。
解码器300可基于降混位流216、ICBWE位流242、高频带中间声道位流244及低频带位流246执行解码操作。举例来说,解码器300可基于降混位流216、低频带位流246、ICBWE位流242及高频带中间声道位流244产生第一声道(例如第一输出声道126)及第二通道(例如第二输出声道128)。第二装置106可经由第一扩音器142输出第一输出声道126。第二装置106可经由第二扩音器144输出第二输出声道128。在替代性实例中,第一输出声道126及第二输出声道128可作为立体声信号对发射至单个输出扬声器。
如下文所述,图1的ICBWE编码器204可基于最大似然性测量值或开环或闭环频谱失真减少测量值而估计频谱映射参数,使得频谱状合成的非参考高频带声道的频谱形状(例如频谱包络或频谱倾角)大致上类似于非参考目标声道的光谱形状(例如频谱包络)。可在ICBWE位流242中将频谱映射参数发射至解码器300,并在解码器300处使用以产生在左声道与右声道之间具有经减少伪影及改进式空间平衡的输出信号126、128。
在一些实施方案中,如下文进一步所描述,编码器200接收音频信号,例如第一音频声道130。编码器200基于经接收音频信号(例如第一音频声道130)产生高频带信号(未展示)。编码器200确定(非谐波HB旗标(x)910的)第一旗标值指示高频带信号的谐波度量。编码器200经进一步配置以至少部分地基于第一旗标值(例如非谐波HB旗标(x)910)产生高频带激励信号(未展示)。高频带激励信号可用于产生一或多个参数,例如增益形状参数、增益帧参数等。编码器200输出高频带信号的经编码版本,例如高频带中间声道位流244。
在一些实施方案中,编码器200可确定对应于高频带信号的帧的增益帧参数且可比较增益帧参数与阈值。响应于增益帧参数大于阈值,编码器200可选择性地修改旗标(例如对应于帧且指示高频带信号的谐波度量的非谐波HB旗标(x)910)以产生经修改旗标(例如经修改非谐波HB旗标(y)920)。编码器200可输出经修改旗标(例如经修改非谐波HB旗标(y)920)。
在一些实施方案中,解码器300可接收对应于音频信号的经编码版本的位流。举例来说,位流可包含或对应于高频带中间声道位流244、低频带位流246、ICBWE位流242、降混位流216或其组合。解码器300可基于低频带激励信号(未展示)且进一步基于指示高频带信号的谐波度量的旗标值(例如经修改非谐波HB旗标(y)920)产生高频带激励信号(未展示)。高频带信号对应于音频信号的高频带部分,例如第一音频声道130的高频带部分。
参看图2A,展示可操作以估计频谱映射参数的编码器200的特定实施方案。编码器200包含降混器202、ICBWE编码器204、中间声道BWE编码器206、低频带编码器208及滤波器组290。
可将左声道212及右声道214提供至降混器202。根据一个实施方案,左声道212及右声道214可为频域声道(例如变换域声道)。根据另一实施方案,左声道212及右声道214可为时域声道。降混器202可经配置以降混左声道212及右声道214以产生降混位流216、中间声道222及低频带侧声道224。尽管低频带侧声道224展示为经估计,但在其它替代性实施方案中,可以替代方式产生并编码全带宽侧声道,且可将对应位流发射至解码器。降混位流216可包含基于左声道212及右声道214的降混参数(例如移位参数、目标增益参数、参考声道指示符、声道间电平差、声道间相位差等)。降混位流216可从编码器200发射至例如图3A的解码器300的解码器。
中间声道222可表示声道212、214的整个频带,且低频带侧声道224可表示声道212、214的低频带部分。作为非限制性实例,中间声道222可在声道212、214为超宽带声道的情况下表示声道212、214的整个频带(20Hz至16kHz),且低频带侧声道224可表示声道212、214的低频带部分(例如20Hz至8kHz或20Hz至6.4kHz)。中间声道222可提供至滤波器组290,且低频带侧声道224可提供至低频带编码器208。
滤波器组290可经配置以将中间声道222的高频分量及低频分量分开。为了说明,滤波器组290可将中间声道222的高频分量分开以产生高频带中间声道292,且滤波器组290可将中间声道222的低频分量分开以产生低频带中间声道294。在译码模式为超宽带的情境中,高频带中间声道292可从8kHz跨越至16kHz,且低频带中间声道294可从20Hz跨越至8kHz。应了解,本文中所描述的译码模式及频率范围仅为达成说明的目的,且不应被理解为限制性的。在其它实施方案中,译码模式可不同(例如宽带译码模式、全频带译码模式等),及/或频率范围可不同。在其它实施方案中,降混器202可经配置以直接提供低频带中间声道294及高频带中间声道292。在这些实施方案中,可绕过滤波器组290处的滤波操作。高频带中间声道292可提供至中间声道BWE编码器206,且低频带中间声道294可提供至低频带编码器208。
低频带编码器208可经配置以编码低频带中间声道294及低频带侧声道224以产生低频带位流246。在一些实施方案中,可绕过以下步骤中的一或多者,包含低频带侧声道224的产生、低频带侧声道224的编码,及包含作为低频带位流246的部分的对应于低频带侧声道的信息。根据一个实施方案,低频带编码器208可包含中间声道低频带编码器(例如未展示且基于ACELP或TCX译码),其经配置以通过编码低频带中间声道294来产生低频带中间声道位流。低频带编码器208还可包含侧声道低频带编码器(例如未展示且基于ACELP或TCX译码),其经配置以通过编码低频带侧声道224来产生低频带侧声道位流。低频带位流246可从编码器200发射至解码器(例如图3A的解码器300)。
低频带编码器208还可产生被提供至中间声道BWE编码器206的低频带激励232。中间声道BWE编码器206可经配置以编码高频带中间声道292以产生高频带中间声道位流244。举例来说,中间声道BWE编码器206可基于低频带激励232及高频带中间声道292而估计线性预测系数(LPC)、增益形状参数、增益帧参数等,以产生高频带中间声道位流244。根据一个实施方案,中间声道BWE编码器206可使用时域带宽扩展编码高频带中间声道292。高频带中间声道位流244可从编码器200发射至解码器(例如图3A的解码器300)。
中间声道BWE编码器206可将一或多个参数234提供至ICBWE编码器204。一或多个参数234可包含谐波高频带激励(例如图2B的谐波高频带激励237)、经调制噪声(例如图4的经调制噪声482)、经量化增益形状、经量化线性预测系数(LPC)、经量化增益帧等。还可将左声道212及右声道214提供至ICBWE编码器204。ICBWE编码器204可经配置以提取与声道212、214相关联的增益映射参数、与声道212、214相关联的频谱形状映射参数等,以促进将一或多个参数234映射至声道212、214。所提取参数可包含于ICBWE位流242中。ICBWE位流242可从编码器200发射至解码器。与ICBWE编码器204相关联的操作关于图4至5更详细描述。因此,图2A的ICBWE编码器204可估计频谱形状映射参数,将频谱形状映射参数量化至ICBWE位流242中,并将ICBWE位流242发射至解码器。
图2A的编码器200可接收两个声道212、214,并执行声道212、214的降混以产生中间声道222、降混位流216,及(在一些实施方案中)低频带侧声道224。编码器200可使用低频带编码器208编码中间声道222及低频带侧声道224以产生低频带位流246。编码器200还可使用ICBWE编码器204产生映射信息,其指示如何从高频带中间声道(解码器处)映射经解码高频带左声道及右声道(解码器处)。
图2A的ICBWE编码器204可基于最大似然性度量或开环或闭环频谱失真减少度量而估计频谱映射参数,使得频谱状经合成非参考高频带声道的频谱包络大致上类似于非参考目标声道的频谱包络。频谱映射参数可在ICBWE位流242中发射至解码器300,且在解码器300处使用以产生具有经减少的伪影的输出信号。
在本文中所描述的本发明的方面的单声道实施方案中,图2A可不包含降混器202、ICBWE编码器204,及低频带编码器208的侧LB编码部分。在单声道实施方案中,存在单一输入声道且执行低频带及高频带拆分编码。低频带可经历ACELP编码,且来自低频带ACELP的激励可用于高频带译码。
参看图2B,展示中间声道BWE编码器206的特定实施方案。中间声道BWE编码器206包含线性预测系数(LPC)估计器251、LPC量化器252及LPC合成滤波器259。高频带中间声道292被提供至LPC估计器251,且LPC估计器251可经配置以基于高频带中间声道292预测高频带LPC 271。高频带LPC 271被提供至LPC量化器252。LPC量化器252可经配置以量化高频带LPC以产生经量化高频带LPC 457及高频带LPC位流272。经量化LPC 457被提供至LPC合成滤波器259,且高频带LPC位流被提供至多路复用器265。
中间声道BWE编码器206还包含高频带激励产生器299,其包含非线性带宽扩展(BWE)产生器253、随机噪声产生器254、乘法器255、噪声包络调制器256、求和器257及乘法器258。来自低频带编码器208的低频带激励232被提供至非线性BWE产生器253。非线性BWE产生器253可对低频带激励232执行非线性扩展以产生谐波高频带激励237。谐波高频带激励237可包含于一或多个参数234中。谐波高频带激励237被提供至乘法器255及噪声包络调制器256。信号乘法器可经配置以基于增益因数(Gain(1)(编码器))调整谐波高频带激励237,以产生经增益调整的谐波高频带激励273。经增益调整的谐波高频带激励273被提供至求和器257。
随机噪声产生器254可经配置以产生被提供至噪声包络调制器256的噪声274。噪声包络调制器256可经配置以基于谐波高频带激励237调制噪声274以产生经调制噪声482。经调制噪声482被提供至乘法器258。乘法器258可经配置以基于增益因数(Gain(2)(编码器))调整经调制噪声482以产生经增益调整的经调制噪声275。经增益调整的经调制噪声275被提供至求和器257,且求和器257可经配置以将经增益调整的谐波高频带激励273及经增益调整的经调制噪声275相加以产生高频带激励276。高频带激励276被提供至LPC合成滤波器259。
应注意,在一些实施方案中,Gain(1)(编码器)及Gain(2)(编码器)可为向量,其中向量的每一值对应于子帧中的对应信号的缩放因数。
LPC合成滤波器259可经配置以将经量化高频带LPC 457应用于高频带激励276以产生经合成高频带中间声道277。经合成高频带中间声道277被提供至高频带增益形状估计器260,且被提供至高频带增益形状缩放器262。高频带中间声道292也被提供至高频带增益形状估计器260。高频带增益形状估计器260可经配置以基于高频带中间声道292及经合成高频带中间声道277产生高频带增益形状参数278。高频带增益形状参数278被提供至高频带增益形状量化器261。
高频带增益形状量化器261可经配置以量化高频带增益形状参数278并产生经量化高频带增益形状参数279。经量化高频带增益形状参数279被提供至高频带增益形状缩放器262。高频带增益形状量化器261还可经配置以产生被提供至多路复用器265的高频带增益形状位流280。
高频带增益形状缩放器262可经配置以基于经量化高频带增益形状参数279缩放经合成高频带中间声道277,以产生经缩放的经合成高频带中间声道281。经缩放的经合成高频带中间声道281被提供至高频带增益帧估计器263。高频带增益帧估计器263可经配置以基于经缩放的经合成高频带中间声道281估计高频带增益帧参数282。高频带增益帧参数282被提供至高频带增益帧量化器264。
高频带增益帧量化器264可经配置以量化高频带增益帧参数282以产生高频带增益帧位流283。高频带增益帧位流283被提供至多路复用器265。多路复用器265可经配置以组合高频带LPC位流272、高频带增益形状位流280、高频带增益帧位流283及其它信息以产生高频带中间声道位流244。根据一个实施方案,其它信息可包含与经调制噪声482、谐波高频带激励237、经量化高频带LPC 457等相关联的信息。如关于图4更详细所描述,ICBWE编码器204可将提供至多路复用器265的信息用于信号处理操作。
参看图3A,展示可操作以执行频谱形状映射的解码器300的特定实施方案。解码器300包含中间声道BWE解码器302、低频带解码器304、ICBWE解码器306、低频带升混器308、信号组合器310、信号组合器312及声道间移位器314。
图3A绘示立体声实施方案中的解码器300。在单声道操作的情况下,中间侧LB解码器的升混、移位器、ICBWE及侧LB解码部分可省略。至解码器的输入为中间LB位流及中间HB位流,且LB解码中间信号与中间BWE解码HB信号混合以产生经解码中间信号,其是从解码器输出。
如图3A中所绘示,从编码器200发射的低频带位流246可提供至低频带解码器304。如上文所描述,低频带位流246可包含低频带中间声道位流及低频带侧声道位流。低频带解码器304可经配置以解码低频带中间声道位流以产生提供至低频带升混器308的低频带中间声道326。低频带解码器304还可经配置以解码低频带侧声道位流以产生提供至低频带升混器308的低频带侧声道328。低频带解码器304还可经配置以产生被提供至中间声道BWE解码器302的低频带激励信号325。
中间声道BWE解码器302可经配置以基于低频带激励信号325解码高频带中间声道位流244以产生一或多个参数322(例如谐波高频带激励、经调制噪声、经量化增益形状、经量化线性预测系数(LPC)、经量化增益帧等)及高频带中间声道324。一或多个参数322可对应于图2A的一或多个参数234。根据一个实施方案,中间声道BWE解码器302可使用时域带宽扩展解码来解码高频带中间声道位流244。一或多个参数322及高频带中间声道324被提供至ICBWE解码器306。
ICBWE位流242还可提供至ICBWE解码器306。ICBWE解码器306可经配置以基于ICBWE位流242、一或多个参数322及高频带中间声道324产生高频带左声道330及高频带右声道332。因此,基于ICBWE位流242及来自中间声道BWE解码的信号及参数,ICBWE解码器306可产生经解码高频带左声道330及经解码高频带右声道332。与ICBWE解码器306相关联的操作关于图6更详细描述。高频带左声道330被提供至信号组合器310,且高频带右声道332被提供至信号组合器312。低频带升混器308可经配置以基于降混位流216升混低频带中间声道326及低频带侧声道328,以产生低频带左声道334及低频带右声道336。低频带左声道334被提供至信号组合器310,且低频带右声道336被提供至信号组合器312。
信号组合器310可经配置以组合高频带左声道330及低频带左声道334以产生未经移位左声道340。未经移位左声道340被提供至声道间移位器314。信号组合器312可经配置以组合高频带右声道332及低频带右声道336以产生未经移位右声道342。未经移位右声道342被提供至声道间移位器314。应注意,在一些实施方案中,可绕过与声道间移位器314相关联的操作。举例来说,如果对应编码器处的降混器未经配置以在中间声道及侧声道产生之前移位声道中的任一者,那么可绕过与声道间移位器314相关联的操作。声道间移位器314可经配置以基于与降混位流216相关联的移位信息移位未经移位左声道340以产生左声道350。声道间移位器314还可经配置以基于与降混位流216相关联的移位信息移位未经移位右声道342,以产生右声道352。举例来说,声道间移位器314可使用来自降混位流216的移位信息来移位未经移位左声道340、未经移位右声道342或其组合,以产生左声道350及右声道352。根据一个实施方案,左声道350为左声道212的经解码版本,且右声道352为右声道214的经解码版本。
参看图3B,展示中间声道BWE解码器302的特定实施方案。中间声道BWE解码器302包含LPC反量化器360、高频带激励产生器362、LPC合成滤波器364、高频带增益形状反量化器366、高频带增益形状缩放器368、高频带增益帧反量化器370及高频带增益帧缩放器372。
高频带LPC位流272被提供至LPC反量化器360。LPC反量化器可从高频带LPC位流272提取经反量化高频带LPC 640。如关于图6所描述,经反量化高频带LPC 640可由ICBWE解码器306用于信号处理操作。
低频带激励信号325被提供至高频带激励产生器362。高频带激励产生器362可基于低频带激励信号325产生谐波高频带激励630,且可产生经调制噪声632。如关于图6所描述,谐波高频带激励630及经调制噪声632可由ICBWE解码器306用于信号处理操作。高频带激励产生器362还可产生高频带激励380。高频带激励产生器362可经配置以大致上类似于图2B的高频带激励产生器299的方式操作。举例来说,高频带激励产生器362可对低频带激励信号325执行类似操作以产生高频带激励380(如高频带激励产生器299对低频带激励232执行的操作)。根据一个实施方案,高频带激励380大致上类似于图2B的高频带激励276。高频带激励380被提供至LPC合成滤波器364。LPC合成滤波器364可将经反量化高频带LPC 640应用于高频带激励380以产生经合成高频带中间声道382。经合成高频带中间声道382被提供至高频带增益形状缩放器368。
高频带增益形状位流280被提供至高频带增益形状反量化器366。高频带增益形状反量化器366可经配置以从高频带增益形状位流280提取经反量化高频带增益形状648。经反量化高频带增益形状648被提供至高频带增益形状缩放器368及ICBWE解码器306,用于信号处理操作,如关于图6所描述。高频带增益形状缩放器368可经配置以基于经反量化高频带增益形状参数648缩放经合成高频带中间声道382,以产生经缩放的经合成高频带中间声道384。经缩放的经合成高频带中间声道384被提供至高频带增益帧缩放器372。
高频带增益帧位流283被提供至高频带增益帧反量化器370。高频带增益帧反量化器370可经配置以从高频带增益帧位流283提取经反量化高频带增益帧652。经反量化高频带增益帧652被提供至高频带增益帧缩放器372及ICBWE解码器306,用于信号处理操作,如关于图6所描述。高频带增益帧缩放器372可将经反量化高频带增益帧652应用于经缩放的经合成高频带中间声道384以产生经解码高频带中间声道662。经解码高频带中间声道662被提供至ICBWE解码器306用于信号处理操作,如关于图6所描述。
参看图4至5,展示ICBWE编码器204的特定实施方案。图4中展示ICBWE编码器204的第一部分204a,且图5中展示ICBWE编码器204的第二部分204b。
ICBWE编码器204的第一部分204a包含高频带参考声道确定单元404及高频带参考声道指示符编码器406。左声道212及右声道214被提供至高频带参考声道确定单元404。高频带参考声道确定单元404可经配置以确定是左声道212还是右声道214为高频带参考声道。举例来说,高频带参考声道确定单元404可产生高频带参考声道指示符440,其指示是左声道212还是右声道214用以估计非参考声道459。高频带参考声道指示符440可基于左声道212及右声道214的能量、左声道212与右声道214之间的声道间移位、在降混器处产生的参考声道指示符、基于无关联移位估计的参考声道指示符,及高频带左声道能量及高频带右声道能量进行估计。
根据一个实施方案,高频带参考声道指示符440可使用多阶段技术进行确定,其中每一阶段改进前一阶段的输出以确定高频带参考声道指示符440。举例来说,在第一阶段,高频带参考声道确定单元404可基于一参考信号产生高频带参考声道指示符440。举例来说,响应于参考信号指示第二音频声道132(例如右音频信号)被指定为参考信号的确定,高频带参考声道确定单元404可产生高频带参考声道指示符440,以指示右声道214被指定为高频带参考声道。替代地,响应于参考信号指示第一音频声道130(例如左音频信号)指定为参考信号的确定,高频带参考声道确定单元404可产生高频带参考声道指示符440,以指示左声道212指定为高频带参考声道。
在第二阶段,高频带参考声道确定单元404可基于增益参数、与左声道212相关联的第一能量、与右声道214相关联的第二能量或其组合改进(例如更新)高频带参考声道指示符440。举例来说,响应于增益参数满足第一阈值、第一能量(例如左全频带能量)与右侧能量(例如右全频带能量)的比率满足第二阈值或两者的确定,高频带参考声道确定单元404可设定(例如更新)高频带参考声道指示符440以指示左声道212经指定为参考声道且右声道214经指定为非参考声道。作为另一实例,响应于增益参数未能满足第一阈值、第一能量(例如左全频带能量)与右侧能量(例如右全频带能量)的比率未能满足第二阈值或两者的确定,高频带参考声道确定单元404可设定(例如更新)高频带参考声道指示符440以指示右声道214经指定为参考声道且左声道212经指定为非参考声道。
在第三阶段,高频带参考声道确定单元404可基于左侧能量及右侧能量而改进(例如进一步更新)高频带参考声道指示符440。举例来说,响应于左侧能量(例如左侧HB能量)与右侧能量(例如右侧HB能量)的比率满足阈值的确定,高频带参考声道确定单元404可设定(例如更新)高频带参考声道指示符440以指示左声道212被指定为参考声道且右声道214被指定为非参考声道。作为另一实例,响应于左侧能量(例如左侧HB能量)与右侧能量(例如右侧HB能量)的比率未能满足阈值的确定,高频带参考声道确定单元404可设定(例如更新)高频带参考声道指示符440以指示右声道214被指定为参考声道且左声道212被指定为非参考声道。高频带参考声道指示符编码器406可编码高频带参考声道指示符440以产生高频带参考声道指示符位流442。
ICBWE编码器204的第一部分204a还包含非参考高频带激励产生器408、线性预测系数(LPC)合成滤波器410、高频带目标声道产生器412、频谱映射估计器414及频谱映射量化器416。非参考高频带激励产生器408包含信号乘法器418、信号乘法器420及信号组合器422。
谐波高频带激励237被提供至信号乘法器418,且经调制噪声482被提供至信号乘法器420。在特定实施方案中,谐波高频带激励237可基于不同于用于低频带激励232产生的谐波建模的谐波建模(例如(.)^2或|.|)。在替代性实施方案中,谐波高频带激励237可基于非参考低频带激励信号。经调制噪声482可基于谐波高频带激励237或低频带激励232的包络经调制噪声。在另一替代性实施方案中,经调制噪声482可为基于非线性谐波高频带激励信号237(例如白化非线性谐波高频带激励信号)在时间上成形的随机噪声。时间成形可基于话音因数控制的一阶自适应滤波器。
信号乘法器418将增益(Gain(a)(编码器))应用于谐波高频带激励237,以产生经增益调整的谐波高频带激励452,且信号乘法器420将增益(Gain(b)(编码器))应用于经调制噪声482以产生经增益调整的经调制噪声454。经增益调整的谐波高频带激励452及经增益调整的经调制噪声454被提供至信号组合器422。信号组合器422可经配置以将经增益调整的谐波高频带激励452与经增益调整的经调制噪声454组合以产生非参考高频带激励456。非参考高频带激励456可以类似于高频带中间声道激励的方式产生。然而,增益(Gain(a)(编码器)及Gain(b)(编码器))可为用以基于高频带参考声道与高频带非参考声道的相对能量、高频带非参考声道的噪声底限等产生高频带中间声道激励的增益的修改版本。
应注意,在一些实施方案中,Gain(a)(编码器)及Gain(b)(编码器)可为向量,其中向量的每一值对应于子帧中的对应信号的缩放因数。
混合增益(Gain(a)(编码器)及Gain(b)(编码器))还可基于对应于高频带中间声道、高频带非参考声道的或从低频带话音因数或话音信息导出的话音因数。混合增益(Gain(a)(编码器)及Gain(b)(编码器))还可基于对应于高频带中间声道及高频带非参考声道的频谱包络。在另一替代性实施方案中,混合增益(Gain(a)(编码器)及Gain(b)(编码器))可基于信号中讲话者或背景源的数目,及左(或参考、目标)声道及右(或目标、参考)声道的有声-无声特性。
非参考高频带激励456被提供至LPC合成滤波器410。LPC合成滤波器410可经配置以基于非参考高频带激励456及经量化高频带LPC 457(例如高频带中间声道的LPC)产生经合成非参考高频带458。举例来说,LPC合成滤波器410可将经量化高频带LPC457应用于非参考高频带激励456以产生经合成非参考高频带458。经合成非参考高频带458被提供至频谱映射估计器414。
高频带参考声道指示符440可被提供(作为控制信号)至开关424,其接收左声道212及右声道214作为输入。基于高频带参考声道指示符440,开关424可将左声道212或右声道214提供至高频带目标声道产生器412作为非参考声道459。举例来说,如果高频带参考声道指示符440指示左声道212为参考声道,那么开关424可将右声道214提供至高频带目标声道产生器412作为非参考声道459。如果高频带参考声道指示符440指示右声道214为参考声道,那么开关424可将左声道212提供至高频带目标声道产生器412作为非参考声道459。
高频带目标声道产生器412可对非参考声道459的低频带信号分量滤波,以产生非参考高频带声道460(例如非参考声道459的高频带部分)。在一些实施方案中,非参考高频带声道460可基于进一步信号处理操作进行频谱翻转(例如频谱翻转操作)。非参考高频带声道460被提供至频谱映射估计器414。频谱映射估计器414可经配置以产生频谱映射参数462,其将非参考高频带声道460的频谱(或能量)映射至经合成非参考高频带458的频谱。举例来说,频谱映射估计器414可产生滤波器系数,其将非参考高频带声道460的频谱映射至经合成非参考高频带458的频谱。举例来说,频谱映射估计器414确定频谱映射参数462,其将经合成非参考高频带458的频谱包络映射为大致上接近于非参考高频带声道460的频谱包络(例如非参考高频带信号)。频谱映射参数462被提供至频谱映射量化器416。频谱映射量化器416可经配置以量化频谱映射参数462以产生高频带频谱映射位流464及经量化频谱映射参数466。可根据下式的滤波器h(z)应用经量化频谱映射参数466:
其中ui为经量化频谱映射参数466。
ICBWE编码器204的第二部分204b包含频谱映射施加器502、增益映射估计器与量化器504,及多路复用器590。经合成非参考高频带458及经量化频谱映射参数466被提供至频谱映射施加器502。频谱映射施加器502可经配置以基于经合成非参考高频带458及经量化频谱映射参数466产生频谱状经合成非参考高频带514。举例来说,频谱映射施加器502可将经量化频谱映射参数应用于经合成非参考高频带458以产生频谱状经合成非参考高频带514。在其它替代性实施方案中,频谱映射施加器502可将频谱映射参数462(例如经去量化参数)应用于经合成非参考高频带458,以产生频谱状经合成非参考高频带514。频谱状经合成非参考高频带514可用以估计高频带增益映射参数。举例来说,频谱状经合成非参考高频带514被提供至增益映射估计器与量化器504。
因此,频谱映射估计器414可使用频谱形状应用,其使用上文所描述的滤波器h(z)来滤波。频谱映射估计器414可估计并量化用于参数(ui)的值。在一实例实施方案中,滤波器h(z)可为一阶滤波器,且信号的频谱包络可近似于滞后索引一(lag(1))与滞后索引零(lag(0))的自相关系数的比率。如果t(n)表示非参考高频带声道460的第n个样本,x(n)表示经合成非参考高频带458的第n样本,且y(n)表示频谱状经合成非参考高频带514的第n个样本,那么其中/>为用于信号卷积操作的符号。
信号s(n)的频谱包络可表达为:
其中为在lag(n)处的信号的自相关。因为 所以/>为求解(ui,i=0,1),使得y(n)的包络近似于t(n)的包络,t(n)的包络(T)可等于:/>
另外,其可展示
如果
因此,编码器200可确定包络(T),使得
应注意,当ryy值经扩展时,可能存在许多近似值以获得值u的多个可能近似值。可针对上述等式获得反复及分析型解两者。本文中描述分析型解的非限制性实例。通过将上述等式扩展至u的幂数高达二的项,结果为:
a*u2+b*u+c=0,其中,
用于(u)的两个可能解可由于二次等式的本质而存在。因为两个可能解可能是真实或假想的,所以如果b2-4*a*c≥0,那么存在两个真实解。以其它方式,存在两个假想解。
因为非参考声道大体来说在较高频率下具有较陡的频谱能量滚降,所以较小(u)值可为优选的(包含负值)。较小(u)值包络所述信号,使得在较高频率下存在较陡的频谱能量滚降。根据一个实施方案,可使用绝对值<1(即,|ufinal|<1)的(u)的值。
如果不存在真实解,那么前一帧的(u)可被用作当前帧的(u)。如果存在一或多个真实解,且不存在绝对值小于一的真实解,那么前一帧的ufinal值可用于当前帧。如果存在一或多个真实解,且存在绝对值小于一的一个真实解,那么当前帧可使用真实解作为ufinal值。如果存在一或多个真实解且存在绝对值小于一的多于一个真实解,那么当前帧可使用最小(u)值作为ufinal值,或当前帧可使用最接近于前一帧的(u)值的(u)值。
在替代性实施方案中,频谱映射参数可基于非参考高频带声道及非参考高频带激励456的频谱分析进行估计,以最大化频谱状非参考HB信号与非参考HB目标声道之间的频谱匹配。在另一实施方案中,频谱映射参数可基于非参考高频带声道及经合成高频带中间声道520或高频带中间声道292的LP分析。
非参考高频带声道516、经合成高频带中间声道520及高频带中间声道292还被提供至增益映射估计器与量化器504。增益映射估计器与量化器504可基于频谱状经合成非参考高频带514、非参考高频带声道516、经合成高频带中间声道520及高频带中间声道292产生高频带增益映射位流522及经量化高频带增益映射位流524。举例来说,增益映射估计器与量化器504可基于经合成高频带中间声道520及频谱状经合成非参考高频带514产生调整增益参数集合。举例来说,增益映射估计器与量化器504可确定对应于经合成高频带中间声道510的能量(或功率)与频谱状经合成非参考高频带514的能量(或功率)之间的差(或比率)的经合成高频带增益。所述调整增益参数集合可指示经合成高频带增益。
增益映射估计器与量化器504可基于调整增益参数集合及经预测调整增益参数集合产生第一调整增益参数集合。举例来说,第一调整增益参数集合可指示所述调整增益参数集合与经预测调整增益参数集合之间的差。作为另一实例,第一调整增益参数集合可对应于经预测调整增益参数集合与经合成高频带中间声道520的第一能量与频谱状经合成非参考高频带514的第二能量的比率的积(例如第一调整增益参数集合=经预测调整增益参数集合*(经合成高频带中间声道520的第一能量/频谱状经合成非参考高频带514的第二能量)。
高频带参考声道指示符位流442、高频带频谱映射位流464及高频带增益映射位流522被提供至多路复用器590。多路复用器590可经配置以通过多路复用高频带参考声道指示符位流442、高频带频谱映射位流464及高频带增益映射位流522来产生ICBWE位流242。ICBWE位流242可被发射至解码器,例如图3A的解码器300。
参看图6,展示ICBWE解码器306的特定实施方案。ICBWE解码器306包含非参考高频带激励产生器602、LPC合成滤波器604、频谱映射施加器606、频谱映射反量化器608、高频带增益形状缩放器610、非参考高频带增益缩放器612、增益映射反量化器616、参考高频带增益缩放器618及高频带声道映射器620。非参考高频带激励产生器602包含信号乘法器622、信号乘法器624及信号组合器626。
谐波高频带激励630(从低频带位流246产生)被提供至信号乘法器622,且经调制噪声632被提供至信号乘法器624。信号乘法器622将增益(Gain(a)(解码器))应用于谐波高频带激励630,以产生经增益调整的谐波高频带激励634,且信号乘法器624将增益(Gain(b)(解码器))应用于经调制噪声632以产生经增益调整的经调制噪声636。应注意,在一些实施方案中,Gain(a)(解码器)及Gain(b)(解码器)可为向量,其中向量的每一值对应于子帧中的对应信号的缩放因数。混合增益(Gain(a)(解码器)及Gain(b)(解码器))还可基于对应于经合成高频带中间声道、经合成高频带非参考声道的或从低频带话音因数或话音信息导出的话音因数。混合增益(Gain(a)(解码器)及Gain(b)(解码器))还可基于对应于经合成高频带中间声道、经合成高频带非参考声道的或从低频带话音因数或话音信息导出的频谱包络。在另一替代性实施方案中,混合增益(Gain(a)(解码器)及Gain(b)(解码器))可基于信号中讲话者或背景源的数目,及左(或参考、目标)声道及右(或目标、参考)声道的有声-无声特性。经增益调整的谐波高频带激励634及经增益调整的经调制噪声636被提供至信号组合器626。信号组合器626可经配置以组合经增益调整的谐波高频带激励634及经增益调整的经调制噪声636以产生非参考高频带激励638。因此,非参考高频带激励638可以大致上类似于ICBWE编码器204的非参考高频带激励456的方式产生。
非参考高频带激励638被提供至LPC合成滤波器604。LPC合成滤波器604可经配置以基于高频带中间声道的非参考高频带激励638及经反量化高频带LPC 640(来自从编码器200发射的位流)产生经合成非参考高频带642。举例来说,LPC合成滤波器604可将经反量化高频带LPC 640应用于非参考高频带激励638以产生经合成非参考高频带642。经合成非参考高频带642被提供至频谱映射施加器606。
来自编码器200的高频带频谱映射位流464被提供至频谱映射反量化器608。频谱映射反量化器608可经配置以解码高频带频谱映射位流464以产生经反量化频谱映射位流644。经反量化频谱映射位流644被提供至频谱映射施加器606。频谱映射施加器606可经配置以将经反量化频谱映射位流644应用于经合成非参考高频带642(以大致上类似于ICBWE编码器204处的方式)以产生频谱状经合成非参考高频带646。举例来说,可根据如下滤波器应用经反量化频谱映射位流644:
其中u为经量化频谱映射参数。频谱状经合成非参考高频带646被提供至高频带增益形状缩放器610。
高频带增益形状缩放器610可经配置以基于经量化高频带增益形状(来自从编码器200发射的位流)缩放频谱状经合成非参考高频带646,以产生经缩放信号650。经缩放信号650被提供至非参考高频带增益缩放器612。乘法器651可经配置以将经反量化高频带增益帧652(例如中间声道增益帧)与经量化高频带增益映射参数660(来自高频带增益映射位流522)相乘以产生所得信号656。所得信号656可通过应用经反量化高频带增益帧652与经量化高频带增益映射参数660的乘积或使用两个顺序增益阶段而产生。所得信号656被提供至非参考高频带增益缩放器612。非参考高频带增益缩放器612可经配置以通过所得信号656缩放经缩放信号650,以产生经解码高频带非参考声道658。经解码高频带非参考声道658被提供至高频带声道映射器620。根据另一实施方案,经预测参考声道增益映射参数可应用于中间声道以产生经解码高频带非参考声道658。
来自编码器200的高频带增益映射位流522被提供至增益映射反量化器616。增益映射反量化器616可经配置以解码高频带增益映射位流522以产生经量化高频带增益映射参数660。经量化高频带增益映射参数660被提供至参考高频带增益缩放器618,且经解码高频带中间声道662(从高频带中间声道位流244产生)被提供至参考高频带增益缩放器618。参考高频带缩放器618可经配置以基于经量化高频带增益映射参数660缩放经解码高频带中间声道662,以产生经解码高频带参考声道664。经解码高频带参考声道664被提供至高频带声道映射器620。
高频带声道映射器620可经配置以指定经解码高频带参考声道664或经解码高频带非参考声道658作为高频带左声道330。举例来说,高频带声道映射器620可基于来自编码器200的高频带参考声道指示符位流442确定高频带左声道330是否为参考声道(或非参考声道)。在使用类似技术的情况下,高频带声道映射器620可经配置以将经解码高频带参考声道664及经解码高频带非参考声道658的另一者指定为高频带右声道332。
关于图1至6所描述的技术可实现改进的高频带估计,以供用于音频编码及音频解码。举例来说,经量化频谱映射参数466可用以产生具有近似于高频带声道(例如非参考高频带声道460)的频谱包络的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带514)。因此,经量化频谱映射参数466可在解码器300处用以产生近似于编码器200处的高频带声道的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带646)。因此,当在解码器300处重构高频带时,可出现减少的伪影,这是因为高频带可具有类似于编码器侧上的低频带的频谱包络。
参看图7,展示估计频谱映射参数的方法700。方法700可由图1的第一装置104执行。具体地说,方法700可由编码器200执行。
方法700包含:在702,在第一装置的编码器处基于高频带参考声道指示符选择左声道或右声道作为非参考目标声道。举例来说,参看图4,开关424可基于高频带参考声道指示符440选择左声道212或右声道214作为非参考高频带声道460。
方法700包含:在704,基于对应于非参考目标声道的非参考高频带激励产生经合成非参考高频带声道。举例来说,参看图4,LPC合成滤波器410可通过将经量化高频带LPC457应用于非参考高频带激励456来产生经合成非参考高频带458。在一些实施方案中,方法700还包含产生非参考目标声道的高频带部分。
方法700还包含:在706,基于经合成非参考高频带声道及非参考目标声道的高频带部分,估计一或多个频谱映射参数。举例来说,参看图4,频谱映射估计器414可基于经合成非参考高频带458及非参考高频带声道460估计频谱映射参数462。
根据一个实施方案,一或多个频谱映射参数是基于滞后索引一处的非参考目标声道的第一自相关值及滞后索引零处的非参考目标声道的第二自相关值进行估计。一或多个频谱映射参数可包含至少两个频谱映射参数候选者的特定频谱映射参数。在一个实施方案中,如果至少两个频谱映射参数候选者为非真实候选者,那么特定频谱映射参数可对应于前一帧的频谱映射参数。在另一实施方案中,如果至少两个频谱映射参数候选者的每一频谱映射参数候选者具有大于一的绝对值,那么特定频谱映射参数可对应于前一帧的频谱映射参数。在另一实施方案中,如果至少两个频谱映射参数候选者的仅仅一个频谱映射参数候选者具有小于一的绝对值,那么特定频谱映射参数可对应于具有小于一的绝对值的频谱映射参数候选者。在另一实施方案中,如果至少两个频谱映射参数候选者的多于一者具有小于一的绝对值,那么特定频谱映射参数可对应于具有最小值的频谱映射参数候选者。在另一实施方案中,如果至少两个频谱映射参数候选者的多于一者具有小于一的绝对值,那么特定频谱映射参数可对应于前一帧的频谱映射参数。
方法700还包含:在708,将一或多个频谱映射参数应用于经合成非参考高频带声道,以产生频谱状经合成非参考高频带声道。应用一或多个频谱参数可对应于基于频谱映射滤波器对经合成非参考高频带声道滤波。频谱状经合成非参考高频带声道可具有类似于非参考目标声道的频谱包络的频谱包络。举例来说,参看图5,频谱映射施加器502可将经量化频谱映射参数466应用于经合成非参考高频带458,以产生频谱状经合成非参考高频带514。频谱状经合成非参考高频带514可具有类似于非参考高频带声道460的频谱包络的频谱包络。频谱状经合成非参考高频带声道可用以估计增益映射参数。
方法700还包含:在710,基于一或多个频谱映射参数产生经编码位流。举例来说,参看图4,频谱映射量化器416可基于频谱映射参数462产生高频带频谱映射位流464。
方法700进一步包含:在712,将经编码位流发射至第二装置。举例来说,参看图1,发射器110可将ICBWE位流242(包含高频带频谱映射位流464)发射至第二装置106。
方法700可实现改进的高频带估计,以供用于音频编码及音频解码。举例来说,经量化频谱映射参数466可用以产生具有近似于高频带声道(例如非参考高频带声道460)的频谱包络的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带514)。因此,经量化频谱映射参数466可在解码器300处用以产生近似于编码器200处的高频带声道的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带646)。因此,当在解码器300处重构高频带时,可出现减少的伪影,这是因为高频带可具有类似于编码器侧上的低频带的频谱包络。
参看图8,展示提取频谱映射参数的方法800。方法800可由图1的第二装置106执行。具体地说,方法800可由解码器300执行。
方法800包含:在802,在装置的解码器处从经接收位流产生参考声道及非参考目标声道。位流可从第二装置的编码器接收。举例来说,参看图1,解码器300可从低频带位流246产生非参考声道。参考声道及非参考目标声道可为解码器300处产生的升混声道。作为非限制性实例,如果低频带参考声道为左声道的低频带部分,那么左声道的高频带部分可对应于高频带参考声道。根据一个实施方案,解码器300可在无参考声道及非参考目标声道的情况下产生左声道及右声道。
方法800还包含:在804,基于对应于非参考目标声道的非参考高频带激励产生经合成非参考高频带声道。举例来说,参看图6,LPC合成滤波器604可通过将经反量化高频带LPC 640应用于非参考高频带激励638来产生经合成非参考高频带642。
方法800进一步包含:在806,从经接收频谱映射位流提取一或多个频谱映射参数。频谱映射位流可从第二装置的编码器接收。举例来说,参看图6,频谱映射反量化器608可从高频带频谱映射位流464提取经反量化频谱映射位流644。
方法800还包含:在808,通过将一或多个频谱映射参数应用于经合成非参考高频带声道来产生频谱状非参考高频带声道。频谱状经合成非参考高频带声道可具有类似于非参考目标声道的频谱包络的频谱包络。举例来说,参看图6,频谱映射施加器606可将经反量化频谱映射位流644应用于经合成非参考高频带,以产生频谱状经合成非参考高频带646。频谱状经合成非参考高频带声道646可具有类似于非参考目标声道的频谱包络的频谱包络。
方法800还包含:在810,至少基于频谱状非参考高频带声道、参考声道及非参考目标声道产生输出信号。举例来说,参看图1,解码器300可基于频谱状经合成非参考高频带646产生输出信号126、128中的至少一者。
方法800进一步包含:在812,在回放装置处显现输出信号。举例来说,参看图1,扩音器142、144可分别显现并输出输出信号126、128。
方法800可实现改进的高频带估计,以供用于音频编码及音频解码。举例来说,经量化频谱映射参数466可用以产生具有近似于高频带声道(例如非参考高频带声道460)的频谱包络的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带514)。因此,经量化频谱映射参数466可在解码器300处用以产生近似于编码器200处的高频带声道的频谱包络的经合成高频带声道(例如频谱状经合成非参考高频带646)。因此,当在解码器300处重构高频带时,可出现减少的伪影,这是因为高频带可具有类似于编码器侧上的低频带的频谱包络。
参看图9,展示编码器900的特定实施方案。编码器900可包含或对应于图1的编码器200或图2B的中间声道BWE编码器206。
编码器900包含LPC估计器251、LPC量化器252、高频带激励产生器299(包含非线性BWE产生器253、乘法器255、求和器257、随机噪声产生器254、噪声包络调制器256,及乘法器258)、LPC合成滤波器259、高频带增益形状估计器260、高频带增益形状量化器261、高频带增益形状缩放器262、高频带增益帧估计器263、高频带增益帧量化器264、多路复用器265、非谐波高频带检测器906、高频带混合增益估计器912及噪声包络控制参数估计器916。另外,在一些实施方案中,编码器900还包含非谐波高频带旗标修改器922。
非谐波高频带检测器906经配置以产生非谐波HB旗标(x),(例如多源旗标)910。非谐波HB旗标(例如多源旗标x)910可具有指示高频带信号(例如高频带中间声道292)的谐波度量的值。举例来说,非谐波高频带检测器906可接收低频带话音(w)902、前一帧的增益帧904及高频带中间声道292,且非谐波高频带检测器906可基于低频带话音(w)902、前一帧的增益帧904及高频带中间声道292确定非谐波HB旗标(例如多源旗标x)910,如本文进一步所描述。
高频带混合增益估计器912经配置以接收低频带话音因数(z)908及非谐波HB旗标(x)910。高频带混合增益估计器912经配置以基于低频带话音因数(z)908及非谐波HB旗标(x)910产生混合增益(例如第一增益“Gain(1)”(编码器)及第二增益“Gain(2)”(编码器)),如本文进一步所描述。应注意,在解码器的高频带激励产生器处混合是基于Gain(1)(解码器)及Gain(2)(解码器)而执行,如参看图10所描述。
如上文参看图2B所描述,在TD-BWE编码过程中,低频带激励232是由非线性BWE产生器253非线性地扩展以产生谐波高频带激励237。
噪声包络控制参数估计器916经配置以接收低频带话音因数(z)914及非谐波HB旗标(x)910。低频带话音因数(z)914可与低频带话音因数(z)908相同或不同。噪声包络控制参数估计器916经配置以基于低频带话音因数(z)914及非谐波HB旗标(x)910而产生噪声包络控制参数918(编码器)。噪声包络控制参数估计器916经配置以将噪声包络控制参数918(编码器)提供至噪声包络调制器256。如本文中所使用,“参数(编码器)”是指由编码器使用的参数,且“参数(解码器)”是指由解码器使用的参数。
包络调制噪声(例如经调制噪声482(编码器))用于产生高频带激励276的噪声分量。举例来说,由噪声包络调制器256使用(以产生经调制噪声482(编码器))的包络可基于谐波高频带激励237而提取。包络调制是由噪声包络调制器256通过对谐波高频带激励237的绝对值应用低通滤波器而执行。低通滤波器参数是基于由噪声包络控制参数估计器916确定的噪声包络控制参数918(编码器)而确定。
应注意,类似(或相同)包络调制是在例如图1的解码器300的解码器处执行,如本文中参看图10进一步所描述。解码器可基于低频带话音因数及非谐波HB旗标(例如非谐波HB旗标(x)910、经修改非谐波HB旗标(y)920或另一非谐波HB旗标)确定噪声包络控制参数(解码器)。在其中非谐波HB旗标(x)910指示谐波度量并非为谐波(例如强非谐波)的情形中,经增益调整的谐波高频带激励273可不会产生或Gain(1)(编码器)可设定成零值。
举例来说,如果旗标(例如非谐波HB旗标(x)910)指示高频带为谐波,那么噪声包络控制参数918(编码器)指示将应用于噪声274的包络将为快速变化的包络(例如噪声包络调制器256可使用小样本长度-用于每一样本的噪声包络估计过程很大程度上不太依赖于谐波HB激励的对应样本的绝对值)。作为另一实例,如果旗标(例如非谐波HB旗标(x)910)指示高频带为非谐波,那么噪声包络控制参数918(编码器)指示将应用于噪声274的包络将为缓慢变化的包络(例如噪声包络调制器256可使用大样本长度-用于每一样本的噪声包络估计过程很大程度上更多依赖于谐波HB激励的对应样本的绝对值)。在另一实例中,旗标(例如非谐波旗标或多源旗标x)指示多个音频源是否与高频带中间信号相关联。在实例实施例中,非谐波旗标或多源旗标(x)用以控制噪声包络参数916、1016以及Gain(1)及Gain(2)以用于高频带激励产生299、362。噪声包络调制器256可将包络(例如基于噪声包络控制参数918)应用于噪声274以产生经调制噪声482(编码器)。
高频带激励276(例如基于谐波高频带激励237、Gain1(编码器)、经调制噪声482(经编码)及Gain2(编码器)确定的混合HB激励)用于进一步处理。举例来说,基于高频带中间声道292,编码器900可估计并量化一或多个LPC以将应用于高频带激励276以产生经合成高频带中间声道277。基于高频带中间声道292及经合成高频带中间声道277,高频带增益形状及高频带增益帧经进一步提取及量化以供发射至例如图1的解码器300的解码器。
非谐波高频带旗标修改器922经配置以接收高频带增益帧参数282及非谐波HB旗标(x)910。非谐波高频带旗标修改器922经配置以基于高频带增益帧参数282及非谐波HB旗标(x)910产生经修改非谐波HB旗标(y)920。对于一些帧,非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920可指示用于高频带的相同谐波度量(例如非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920可具有相同值)。对于其它帧,非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920可指示用于高频带的不同谐波度量(例如非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920可具有不同值)。尽管非谐波HB旗标(x)910的修改经描述为是基于高频带增益帧参数282(例如经预量化的HB增益帧参数),但在其它实施方案中,非谐波HB旗标(x)910可基于高频带增益帧位流283(例如经量化HB增益帧参数)或高频带增益帧位流283(例如经量化HB增益帧参数)及高频带增益帧参数282(例如经预量化的HB增益帧参数)两者而修改。另外,应注意非谐波HB旗标(x)910的修改是任选的。在一些实施方案(例如立体声操作实施方案)中,编码器900(例如TD-BWE编码器)输出一或多个其它参数以供用于如参看图2B及11所描述的ICBWE中。
参看图10,展示解码器1000的特定实施方案。解码器可包含或对应于图1的解码器300或图3的ICBWE解码器306。解码器1000包含LPC反量化器360、高频带激励产生器362、LPC合成滤波器364、高频带增益形状反量化器366、高频带增益形状缩放器368、高频带增益帧反量化器370、高频带增益帧缩放器372、高频带混合增益估计器1012及噪声包络控制参数估计器1016。在一些实施方案中,解码器1000为用于中间信号高频带译码(例如中间声道BWE解码)的TD-BWE解码器。
解码器1000经配置以接收一或多个位流。一或多个位流可包含高频带LPC位流272、高频带增益形状位流280及高频带增益帧位流283。解码器1000经进一步配置以接收经修改非谐波HB旗标(y)1020。经修改非谐波HB旗标(例如多源旗标y)1020可包含或对应于非谐波HB旗标(x)910或经修改非谐波HB旗标(y)920。举例来说,解码器1000可将经修改非谐波HB旗标(y)920(来自编码器900)接收为经修改非谐波HB旗标(y)1020。
在其它实施方案中,解码器1000可接收非谐波HB旗标(x)910(来自编码器900)且可产生经修改非谐波HB旗标(y)1020。举例来说,解码器1000可包含非谐波高频带旗标修改器,例如图9的非谐波高频带旗标修改器922,且可接收非谐波HB旗标(x)910。在此实例中,解码器1000还可接收高频带增益帧参数,例如来自编码器900的高频带增益帧参数282,且解码器1000可基于高频带增益帧参数及非谐波HB旗标(x)910确定非谐波HB旗标(y)1020。在一些实施方案中,解码器1000经配置以独立于非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920而产生经修改非谐波HB旗标(y)1020。
解码器1000还可接收低频带话音因数(z)1014。低频带话音因数(z)1014可包含或对应于图9的低频带话音因数(z)914。在一些实施方案中,解码器1000可将低频带话音因数(z)914接收为低频带话音因数(z)1014。在其它实施方案中,解码器1000可计算低频带话音因数(z)1014或可从另一组件(例如图3A的低频带解码器304、中间声道BWE解码器302或ICBWE解码器306)接收低频带话音因数(z)1014。
解码器1000可执行类似于关于图3A及3B的ICBWE解码器306所描述的操作及类似于关于图9的编码器900所描述的操作的操作。举例来说,高频带混合增益估计器1012可执行类似于关于图9的高频带混合增益估计器912所描述的操作的操作。举例来说,高频带混合增益估计器1012可接收低频带话音因数(z)1014及经修改非谐波HB旗标(y)1020。基于低频带话音因数(z)1014及经修改非谐波HB旗标(y)1020,高频带混合增益估计器1012产生混合增益(例如Gain(1)(解码器)及Gain(2)(解码器)),如本文进一步所描述。混合增益(例如Gain(1)(解码器)及Gain(2)(解码器))被提供至高频带激励产生器362。高频带激励产生器362可对应于图9的高频带激励产生器299并执行类似于关于图9的高频带激励产生器299所描述的操作的操作。
噪声包络控制参数估计器1016可执行类似于图9的噪声包络控制参数估计器916的操作。举例来说,噪声包络控制参数估计器1016接收低频带话音因数(z)1014及经修改非谐波HB旗标(y)1020。类似于关于图9所描述的噪声包络控制参数918的产生,噪声包络控制参数估计器1016基于低频带话音因数(z)1014及经修改非谐波HB旗标(y)1020产生噪声包络控制参数1018(解码器)。
基于经修改非谐波HB旗标(y)1020,解码器1000产生高频带激励380。高频带激励380的产生可包含高频带激励产生器362产生经调制噪声及执行混合操作以产生高频带激励380。经调制噪声可基于噪声包络控制参数1018(解码器)而产生。混合操作可基于Gain(1)(解码器)及Gain(2)(解码器)而执行,如关于图9所描述。
基于所产生高频带激励380,确定增益帧及增益形状的解码器值,及来自BWE位流的其它参数。另外,解码器1000产生经解码高频带中间声道662。举例来说,经反量化高频带LPC 640、经反量化高频带增益形状648及经反量化高频带增益帧652用以产生经解码高频带中间声道。应注意,由于由解码器1000使用的经修改非谐波HB旗标(y)1020可与由编码器900使用的非谐波HB旗标(x)910及经修改非谐波HB旗标(y)920不同(在特定帧的值方面),所以在编码器900处估计增益帧及增益形状所针对的高频带激励276可不同于在解码器1000处应用增益帧及增益形状所针对的高频带激励380。
在一些实施方案中,解码器1000(例如TD-BWE解码器)还输出在立体声操作的情况下在ICBWE解码中使用的某其它参数,如关于图3A、3B及6所描述。
在立体声编码及解码中,用于ICBWE、目标高频带声道及中间声道的包络形状经调制噪声可类似或针对不同声道可不同。另外,混合增益可针对中间声道、ICBWE及目标高频带声道而不同,且可如图11至12中所描述而确定。
如参看图9及10所描述,BWE可运用不同非线性混合、不同非线性配置等基于旗标(例如非谐波HB旗标(x)910)的值而执行。举例来说,旗标的值可指示多个源或多个对象等(其可对应于不同译码模式(例如有声、无声、背景等))的存在。因此,非谐波HB旗标(x)910可被称为多源旗标。因此,增强型译码及再生可由图9至12的编码器/解码器实现。
参看图11,展示图1的编码器的声道间带宽扩展编码器的第三部分1100的特定实施方案。在一些实施方案中,第三部分1100包含于ICBWE编码器204中。
第三部分1100包含高频带混合增益估计器1102。高频带混合增益估计器1102经配置以接收混合增益(例如Gain(1)(编码器)及Gain(2)(编码器)),关于图2B及9所描述,且接收经修改非谐波HB旗标(y)920,关于图9所描述。高频带混合增益估计器1102经配置以产生Gain(a)(编码器)及Gain(b)(编码器),其可被提供至图4的非参考高频带激励产生器408。
在一些实施方案中,Gain(a)(编码器)及Gain(b)(编码器)是基于HB参考声道与非参考声道的相对能量、HB非参考声道的噪声底限等而确定。另外或替代地,Gain(a)(编码器)及Gain(b)(编码器)可与关于图2B及9所描述的Gain(1)(编码器)及Gain(2)(编码器)相同。在其它实施方案中,Gain(a)(编码器)及Gain(b)(编码器)为根据每一处理帧在多个子帧中分别估计的Gain(1)(编码器)及Gain(2)(编码器)的平均值,且这些值是基于经修改非谐波HB旗标(y)920而经进一步修改。应注意,在一些替代性实施方案中,高频带混合增益估计器1102可基于非谐波HB旗标(x)910确定Gain(a)(编码器)及Gain(b)(编码器)的值。
参看图12,展示图1的解码器的声道间带宽扩展解码器的部分1200的特定实施方案。在一些实施方案中,部分1200包含于ICBWE解码器306中。
部分1200包含高频带混合增益估计器1202。高频带混合增益估计器1202经配置以接收混合增益(例如Gain(1)(解码器)及Gain(2)(解码器)),关于图3B及10所描述,且接收经修改非谐波HB旗标(y)920,关于图9及10所描述。高频带混合增益估计器1202经配置以产生Gain(a)(解码器)及Gain(b)(解码器)。Gain(a)(解码器)及Gain(b)(解码器)可被提供至图6的非参考高频带激励产生器602。在其它实施方案中,Gain(a)(解码器)及Gain(b)(解码器)为根据每一处理帧在多个子帧中分别估计的Gain(1)(解码器)及Gain(2)(解码器)的平均值,且这些值是基于经修改非谐波HB旗标(y)1020而经进一步修改。应注意,在一些替代性实施方案中,高频带混合增益估计器1202可基于从编码器发射或在ICBWE解码器306自身处估计的非谐波HB旗标(x)等值确定Gain(a)(解码器)及Gain(b)(解码器)的值。
在上文所描述方面的说明性实施方案中,连同与旗标(例如非谐波HB旗标(x)910)、经修改旗标(例如经修改非谐波HB旗标(y)920)或两者的产生、使用及修改相关的伪码一起提供以下实例。下文描述如何识别非谐波HB旗标(例如非谐波HB旗标(x)910)及如何修改非谐波HB旗标(例如非谐波HB旗标(x)910)的实例。
在特定实施方案中,确定帧的高频带(HB)能量(表示为HB_Energy)的估计。应注意,能量及功率(例如其可为能量的平方根)可被互换地使用。另外,检索长期HB能量(表示为HB_Energy_LongTerm)。长期HB能量可已针对多个帧而平滑。比率可计算为:比率=(HB_Energy)/(HB_Energy_LongTerm)。
LB话音的平均值是基于音调滞后处LB信号的相关性的强度而确定。话音不同于话音因数:话音因数为中间LB的代数码激励线性预测(ACELP)译码方法的参数,其表示自适应码簿增益与固定码簿增益的混合的比率。另外,前一(例如最新)帧的增益帧可被检索。
HB能量比、LB话音的平均值及前一帧的增益帧可用于运用非谐波HB信号的预计算平均值及协方差分量基于高斯混合模型(GMM)计算HB为非谐波的似然性(下文表示为pu)。另外,比率、LB话音的平均值及前一帧的增益帧可用于运用谐波HB信号的预计算平均值及协方差分量基于高斯混合模型计算HB为谐波的似然性(下文表示为pv)。基于这些似然性(pu及pv),这些似然性之间的不同可能关系可分类为HB的调和性的不同水平。
为进一步说明,以下实例描绘说明性伪码(例如浮点中的简化C码),其可经编译并存储于存储器中,例如图1的第一装置104的存储器153或第二装置106的存储器,或图18的存储器1832。伪码说明本文中所描述的方面的可能实施方案。伪码包含并非为可执行码的部分的注解。在伪码中,注解的开端由前向斜线及星号(例如“/*”)指示,且注解的末端由星号及前向斜线(例如“*/”)指示。为进行说明,注解“COMMENT”可作为/*COMMENT*/出现在伪码中。
在所提供的实例中,“==”运算符指示等同性比较,从而“A==B”在A的值等于B的值时具有真值,且否则具有假值。“&&”运算符指示逻辑AND运算。“||”运算符指示逻辑OR运算。“>”运算符表示“大于”,“>=”运算符表示“大于或等于”,且“<”运算符指示“小于”。在数字之后的项“f”指示浮点(例如十进制)数字格式。
在所提供实例中,“*”可表示乘法运算,“+”或“求和”可表示加法运算,“abs”可表示绝对值运算,“avg”可表示平均运算,“++”可指示递增,“-”可指示减法运算,且“/”可表示除法运算。“=”运算符表示赋值(例如“a=1”将值1赋予至变量“a”)。
下文呈现实例1A,其将似然性之间的不同可能关系分类为高频带的调和性的不同水平。在特定实施方案中,实例1A的操作是由图9的非谐波高频带检测器906执行。
实例1A
下文呈现实例1B,其将似然性之间的不同可能关系分类为高频带的调和性的两个不同水平中的一者。举例来说,非谐波HB旗标可指示谐波或非谐波。在特定实施方案中,实例1B的操作是由图9的非谐波高频带检测器906执行。
实例1B
/>
下文呈现实例2,其基于噪声包络控制参数提取噪声包络并针对白噪声信号应用所述噪声包络。实例2还包含用以确定噪声包络控制参数(例如噪声包络控制参数918(编码器)或噪声包络控制参数1018(解码器))的操作。在特定实施方案中,实例2的操作是由图9的噪声包络控制参数估计器916及噪声包络调制器256或图10的噪声包络控制参数估计器1016及高频带激励产生器362执行。尽管实例2包含具有至少三个可能值的非谐波旗标,但在其它实施方案中,可基于具有两个可能值的非谐波旗标执行类似操作。另外或替代地,可基于实例1B的多源旗标MSFlag执行类似操作。
实例2
如何基于Non_Harmonic_HB_Flag估计噪声包络的控制允许控制噪声的包络,其实际上控制经解码高频带信号的“嗡嗡响(buzziness)”。信号谐波越多,信号趋向于越“嗡嗡响”。替代地,信号谐波越少,信号趋向于越少“嗡嗡响”(且更清晰)。关于实例2的伪码,当在解码器(例如解码器300或解码器1000)处实施时,非谐波HB旗标由接收的非谐波HB旗标(其可能相同或其可为经修改非谐波HB旗标)替换。在其它实施方案中,当在解码器处实施时,在解码器处确定非谐波HB旗标。
下文呈现实例3,其中激励混合(例如增益)是基于非谐波HB旗标。在特定实施方案中,实例3的操作是由图9的高频带激励产生器299或图10的高频带激励产生器362执行。尽管实例3包含具有至少三个可能值的非谐波旗标,但在其它实施方案中,可基于具有两个可能值的非谐波旗标执行类似操作。另外或替代地,可基于实例1B的多源旗标MSFlag执行类似操作。
实例3
/>
参看图13,展示音频信号编码的方法1300。方法1300可由图1的第一装置104执行。具体地说,方法1300可由编码器200(例如在图9的编码器900(例如中间声道BWE编码器)处)执行。
方法1300包含:在1302,在编码器处接收音频信号。举例来说,在立体声实施方案中,音频信号可对应于在编码器900处接收的图2的中间声道222。在非立体声实施方案中,音频信号可对应于经由图1的第一音频声道130或第二音频声道132接收的音频信号。
方法1300包含:在1304,基于经接收音频信号产生高频带信号。举例来说,在立体声实施方案中,高频带信号可对应于图2的高频带中间声道292。
方法1300还包含:在1306,确定指示高频带信号的谐波度量的第一旗标值。举例来说,第一旗标值可对应于图9的非谐波HB旗标(x)910的值。谐波度量可经确定为具有强谐波、弱谐波或强非谐波的值。替代地,谐波度量可经确定为具有谐波或非谐波的值。
在一些实施方案中,在1308,可发射高频带信号的经编码版本。举例来说,高频带信号的经编码版本可对应于图2的高频带中间声道位流244、ICBWE位流242、降混位流216或其任何组合。
方法1300还可包含基于经接收音频信号(例如图2A的低频带中间声道294)产生低频带信号及至少部分地基于低频带信号的低频带话音值(例如图9的低频带话音(w)902)确定旗标值。对应于音频信号的第一帧的增益帧值(例如图9的高频带增益帧参数282)可经确定,且对应于在音频信号的第一帧之后的第二帧的第一旗标值可至少部分地基于第一帧的增益帧值(例如图9的前一帧的增益帧904)而确定。
第一旗标值可至少部分地基于高频带信号(例如图9的高频带中间声道292)的帧的能量度量与高频带信号的多帧能量度量的比率而确定,例如参看图9的非谐波高频带检测器906所描述。
高频带激励信号可基于调和扩展低频带激励信号且进一步基于第一旗标值而产生以产生高频带信号的经合成版本,例如使用是基于谐波高频带激励237的高频带激励276及使用是基于非谐波HB旗标(x)910的混合增益及噪声包络控制参数918产生的图9的经缩放的经合成高频带中间声道281。编码器可例如在非谐波高频带旗标修改器922处基于超过阈值的对应于经合成版本的增益帧参数修改第一旗标值。
方法1300可在接收音频信号(例如第一音频声道130)及第二音频信号(例如第二音频声道132)并基于音频信号及第二音频信号产生中间信号(例如中间声道222)的立体声编码器处执行。高频带信号可对应于中间信号的高频带部分(例如图2及图9的高频带中间声道292)。作为实例,第一旗标值可用于在图9的BWE编码器中产生高频带激励276。作为另一实例,第一旗标值可用于在声道间带宽扩展(ICBWE)编码操作期间至少部分地基于第一旗标值产生非参考高频带激励信号(例如使用来自图11的高频带混合增益估计器1102的混合增益产生的图6的非参考高频带激励638)。
方法1300可基于指示高频带信号的谐波度量的第一旗标值实现改进的编码准确度。举例来说,第一旗标值可用于控制高频带激励276的产生,例如参看图9的高频带激励产生器299所描绘。增强的编码准确度可实现在解码装置(例如图1的第二装置106)处音频回放的改进的准确度。
参看图14,展示音频信号编码的方法1400。方法1400可由图1的第一装置104执行。具体地说,方法1400可由编码器200(例如在图9的编码器900(例如中间声道BWE编码器)处)执行。
方法1400包含:在1402,确定对应于高频带信号的帧的增益帧参数。举例来说,增益帧参数可对应于图9的高频带增益帧参数282中的一或多者。增益帧参数可通过以下操作而产生:基于低频带激励信号及基于旗标(例如图9的非谐波HB旗标(x)910)产生高频带激励信号(例如图9的高频带激励276);基于高频带激励信号产生高频带信号的经合成版本(例如图9的经缩放的经合成高频带中间声道281);及比较高频带信号的帧与高频带信号的经合成版本的帧(例如以产生高频带增益帧参数282)。
方法1400包含:在1404,比较增益帧参数与阈值。举例来说,参看图9,非谐波高频带旗标修改器922可比较高频带增益帧参数中的一或多者与阈值量。举例来说,高频带增益帧参数的相对大值可指示经预测为强谐波的高频带信号的帧可能实际上为非谐波。
方法1400包含响应于增益帧参数大于阈值,修改对应于帧且指示高频带信号的谐波度量的旗标。在一些实施方案中,旗标(例如图9的非谐波HB旗标(x)910)可从具有指示高频带信号为谐波的第一值修改至具有指示高频带信号为非谐波的第二值。
方法1400进一步包含:在1408,发射经修改旗标。举例来说,经修改旗标(例如图9的经修改非谐波HB旗标(y)920)可经由图2的高频带中间声道位流244、ICBWE位流242、降混位流216或其任何组合发射至第二装置106。
方法1400可通过校正经确定为不正确地指示高频带的谐波度量的旗标值实现改进的编码准确度。经修改旗标值可用于额外编码,以便确定用于声道间BWE编码的混合增益值,如关于图2、6及11所描述。将经修改旗标值发送至解码器可使解码器能够在解码器处产生音频信号的更准确合成版本。增强的解码准确度可实现在解码装置处音频回放的改进的准确度。
参看图15,展示音频信号编码的方法1500。方法1500可由图1的第一装置104执行。具体地说,方法1500可由编码器200(例如在图9的编码器900(例如中间声道BWE编码器)处)执行。
方法1500包含:在1502,在编码器处接收至少第一音频信号及第二音频信号。举例来说,在立体声实施方案中,第一音频信号可对应于图2的左声道且第二音频信号可对应于图2的右声道。
方法1500包含:在1504,对第一音频信号及第二音频信号执行降混操作以产生中间信号。举例来说,中间信号可对应于图2的中间声道222。降混操作可由图2的降混器202执行。
方法1500包含:在1506,基于中间信号产生低频带中间信号及高频带中间信号。举例来说,低频带中间信号可对应于图2的低频带中间声道294,且高频带中间信号可对应于图2的高频带中间声道292。低频带中间信号对应于中间信号的低频部分,且高频带中间信号对应于中间信号的高频部分。
方法1500包含:在1508,至少部分地基于低频带信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值。举例来说,旗标可对应于图9的非谐波HB旗标(x)910(其可被称为多源旗标)的值。在特定实施方案中,多源旗标指示多个音频源是否与高频带中间信号相关联。旗标的值可基于图9的低频带话音(w)902及前一帧的增益帧904。
方法1500包含:在1510,至少部分地基于多源旗标产生高频带中间激励信号。举例来说,高频带中间激励信号可包含或对应于图9的高频带激励276。在特定实施方案中,编码器可经配置以通过组合非线性谐波激励信号(例如谐波高频带激励237)与经调制噪声(例如经调制噪声482)而产生高频带激励信号,且编码器可基于多源旗标控制非线性谐波激励信号与经调制噪声的混合。举例来说,编码器可经配置以基于多源旗标设定与非线性谐波激励信号相关联的第一增益(例如图9的Gain(1))及与经调制噪声相关联的第二增益(例如图9的Gain(2))中的至少一者的值。作为另一实例,编码器可经配置以基于非线性谐波激励信号(例如谐波高频带激励237)且进一步基于噪声包络控制参数(例如图9的噪声包络控制参数918)产生经调制噪声。噪声包络控制参数可至少部分地基于多源旗标(例如噪声包络控制参数估计器916响应于非谐波HB旗标(x)910),且编码器可经配置以至少部分地基于经调制噪声产生高频带中间激励信号(例如经由在乘法器258处将Gain(2)应用于经调制噪声482及与图9的乘法器255的输出组合以产生高频带激励276)。噪声包络控制参数可进一步基于低频带话音因数,例如图9的低频带话音因数(z)914中的一或多者。
方法1500包含:在1512,至少部分地基于高频带中间激励信号产生位流。举例来说,位流可对应于图2A的高频带中间声道位流244、ICBWE位流242、降混位流216或其任何组合。
方法1500进一步包含:在1514,将位流及多源旗标从编码器发射至装置。举例来说,位流可对应于图2A的高频带中间声道位流244、ICBWE位流242、降混位流216或其任何组合,且位流及多源旗标可被发射至图1的第二装置106(例如解码器)。
方法1500可基于指示高频带信号的谐波度量的用以控制高频带激励276产生(例如参看图9的高频带激励产生器299所描绘)的旗标实现改进的编码准确度。增强的编码准确度可实现在解码装置(例如图1的第二装置106)处音频回放的改进的准确度。
参看图16,展示音频信号解码的方法1600。方法1600可由图1的第二装置106执行。具体地说,方法1600可由解码器300(例如在图10的解码器1000(例如中间声道BWE解码器)处)执行。
方法1600包含:在1602,接收对应于音频信号的经编码版本的位流。举例来说,参看图1,解码器300可接收包含低频带位流246、高频带中间声道位流244、ICBWE位流242、降混位流216或其任何组合的位流。
方法1600还包含:在1604,基于低频带激励信号且进一步基于指示高频带信号的谐波度量的第一旗标值产生高频带激励信号,其中高频带信号对应于音频信号的高频带部分。举例来说,谐波度量可具有强谐波、弱谐波或强非谐波的值,例如参考非谐波HB旗标(x)910及图9及图10的经修改非谐波HB旗标(y)920、1020所描述。替代地,谐波度量可具有谐波或非谐波的值,如本文中所描述。
在一些实施方案中,位流包含旗标值。举例来说,图9中所绘示的中间声道BWE编码器可确定经修改非谐波HB旗标(y)920且可将经修改非谐波HB旗标(y)920(例如经由位流中的指示经修改非谐波HB旗标(y)920的值的数据)发射至解码器300。在其它实施方案中,解码器至少部分地基于低频带信号的低频带话音值确定旗标值,其中低频带信号对应于音频信号的低频带部分。举例来说,图10中所描绘的中间声道BWE解码器可包含图9的非谐波高频带检测器906及非谐波高频带旗标修改器922且可在解码期间确定非谐波HB旗标(x)910(基于低频带话音、前一帧的增益帧,及高频带中间声道的能量度量)及经修改非谐波HB旗标(y)1020(基于高频带增益帧参数)。在其它实施方案中,位流包含第一旗标值(例如非谐波HB旗标(x)910),且解码器确定对应于高频带信号的帧的增益帧参数且响应于所述增益帧参数大于阈值而修改第一旗标值以产生旗标值(例如图10的解码器从编码器接收非谐波HB旗标(x)910且包含非谐波高频带旗标修改器922产生经修改谐波HB旗标(y)1020)。
高频带激励信号可例如在以如参看图9的高频带激励产生器299所描述的类似方式起作用的图10的高频带激励产生器362处通过非线性扩展低频带激励信号及将非线性扩展低频带激励信号与经调制噪声组合而产生。方法1600可包含基于第一旗标值设定与非线性扩展的低频带激励信号相关联的第一增益及与经调制噪声相关联的第二增益(例如由高频带混合增益估计器1012输出并输入至图10的高频带激励产生器362的Gain(1)及Gain(2))中的至少一者的值。经调制噪声可通过非线性扩展低频带激励信号及通过基于非线性扩展低频带激励信号调制噪声信号且进一步基于噪声包络控制参数而产生。噪声包络控制参数可至少部分地基于第一旗标值,例如基于经修改非谐波HB旗标(y)920由噪声包络控制参数估计器1016产生的图10的噪声包络控制参数1018。噪声包络控制参数可进一步基于在噪声包络控制参数估计器1016处接收的低频带话音因数(z)1014。
高频带信号的经合成版本可基于高频带激励信号而产生。举例来说,高频带激励信号可用于产生图3B、图6及图10的经解码高频带中间声道662。经解码高频带中间声道662可用于产生高频带左声道330及高频带右声道332。高频带信号的经合成版本可与低频带信号(例如低频带左声道334或低频带右声道336)的经合成版本组合以产生音频信号(例如左声道350或右声道352)的经合成版本。作为另一实例,解码器可为立体声解码器且可在声道间带宽扩展(ICBWE)操作期间产生高频带激励信号,例如图6的ICBWE解码器306的非参考高频带激励638。
方法1600可实现经合成音频信号的改进的准确度,其中原始音频信号具有非谐波高频带。增强的准确度可实现在解码装置(例如图1的第二装置106)处在音频回放期间改进的用户体验。
参看图17,描绘了装置(例如无线通信装置)的特定说明性实例的框图,且将所述装置整体上指定为1700。在各种实施方案中,装置1700可具有比图17中所绘示更少或更多的组件。在说明性实施方案中,装置1700可对应于图1的第一装置104或图1的第二装置106。在说明性实施方案中,装置1700可执行参看图1至16的系统及方法所描述的一或多个操作。
在特定实施方案中,装置1700包含处理器1706(例如中央处理单元(CPU))。装置1700可包含一或多个额外处理器1710(例如一或多个数字信号处理器(DSP))。处理器1710可包含媒体(例如语音及音乐)译码器-解码器(编码解码器)1708及回音消除器1712。编码解码器1708可包含解码器300、编码器200或其组合。编码器200可包含ICBWE编码器204,且解码器300可包含ICBWE解码器306。编码器200可经配置以产生非谐波HB旗标(x)910。另外,在一些实施方案中,编码器200经配置以修改非谐波HB旗标(x)910以产生经修改非谐波HB旗标(y)920。编码器200可经配置以使用非谐波HB旗标(x)910、经修改非谐波HB旗标(y)920或两者,如本文参考至少图1及9至16所描述。解码器300可经配置以接收或产生非谐波HB旗标、经修改非谐波HB旗标或两者。解码器300可经配置以使用非谐波HB旗标、经修改非谐波HB旗标或两者,如本文参考至少图1及9至16所描述。
装置1700可包含存储器153及编码解码器1734。尽管编码解码器1708经绘示为处理器1710的组件(例如专用电路系统及/或可执行编程代码),但在其它实施方案中,编码解码器1708的一或多个组件(例如解码器300、编码器200或其组合)可包含于处理器1706、编码解码器1734、另一处理组件或其组合中。
装置1700可包含耦合至天线1742的发射器110。装置1700可包含耦合至显示控制器1726的显示器1728。一或多个扬声器1748可耦合至编码解码器1734。一或多个麦克风1746可经由输入接口112耦合至编编码解码器1734。在特定实施方案中,扬声器1748可包含图1的第一扩音器142、第二扩音器144,或其组合。在特定实施方案中,麦克风1746可包含图1的第一麦克风146、第二麦克风148,或其组合。编码解码器1734可包含数/模转换器(DAC)1702及模/数转换器(ADC)1704。
存储器153可包含可由处理器1706、处理器1710、编码解码器1734、装置1700的另一处理单元或其组合执行,以执行参看图1至16所描述的一或多个操作的指令191。
装置1700的一或多个组件可经由专用硬件(例如电路系统)、通过执行一或多个任务的处理器执行指令,或通过其组合而实施。作为实例,存储器153或处理器1706、处理器1710及/或编码解码器1734的一或多个组件可为存储器装置,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋扭矩转移MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。存储器装置可包含指令(例如指令191),所述指令在由计算机(例如编码解码器1734中的处理器、处理器1706及/或处理器1710)执行时可使所述计算机执行参看图1至16所描述的一或多个操作。作为实例,存储器153或处理器1706、处理器1710及/或编码解码器1734中的一或多个组件可为包含指令(例如指令191)的非暂时性计算机可读媒体,所述指令在由计算机(例如编码解码器1734中的处理器、处理器1706及/或处理器1710)执行时使所述计算机执行参看图1至16所描述的一或多个操作。
在特定实施方案中,装置1700可包含于系统级封装或系统单芯片装置1722(例如移动站调制解调器(MSM))中。在特定实施方案中,处理器1706、处理器1710、显示控制器1726、存储器153、编码解码器1734及发射器110包含于系统级封装或系统单芯片装置1722中。在特定实施方案中,例如触摸屏及/或小键盘的输入装置1730及电源1744耦合至系统单芯片装置1722。此外,在特定实施方案中,如图17中所绘示,显示器1728、输入装置1730、扬声器1748、麦克风1746、天线1742及电源1744位于系统单芯片装置1722外部。然而,显示器1728、输入装置1730、扬声器1748、麦克风1746、天线1742及电源1744中的每一者可耦合至系统单芯片装置1722的组件(例如接口或控制器)。
装置1700可包含:无线电话、移动通信装置、移动电话、智能电话、蜂窝电话、膝上型计算机、桌上型计算机、计算机、平板计算机、机顶盒、个人数字助理(PDA)、显示装置、电视、游戏控制台、音乐播放器、收音机、视频播放器、娱乐单元、通信装置、固定位置数据单元、个人媒体播放器、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航装置、解码器系统、编码器系统或其任何组合。
参看图18,描绘基站1800的特定说明性实例的框图。在各种实施方案中,基站1800可具有比图18中所绘示更多或更少的组件。在说明性实例中,基站1800可包含图1的第一装置104或第二装置106。在说明性实例中,基站1800可根据参看图1至16所描述的方法或系统中的一或多者操作。
基站1800可为无线通信系统的部分。无线通信系统可包含多个基站及多个无线装置。无线通信系统可为长期演进(LTE)系统、码分多址接入(CDMA)系统、全球移动通信系统(GSM)系统、无线局域网(WLAN)系统,或某其它无线系统。CDMA系统可实施宽带CDMA(WCDMA)、CDMA 1X、演进数据优化(EVDO)、时分同步CDMA(TD-SCDMA),或某其它版本的CDMA。
无线装置也可被称作用户设备(UE)、移动站、终端、存取终端、订户单元、站等。无线装置可包含:蜂窝电话、智能手机、平板计算机、无线调制解调器、个人数字助理(PDA)、手持型装置、膝上型计算机、智能笔记本计算机、迷你笔记本计算机、平板计算机、无线电话、无线本地环路(WLL)站、蓝牙装置等。所述无线装置可包含或对应于图17的装置1700。
可由基站1800的一或多个组件(及/或在未展示的其它组件中)执行各种功能,例如发送及接收消息及数据(例如音频数据)。在特定实例中,基站1800包含处理器1806(例如CPU)。基站1800可包含转码器1810。转码器1810可包含音频编码解码器1808。举例来说,转码器1810可包含经配置以执行音频编码解码器1808的操作的一或多个组件(例如电路系统)。作为另一实例,转码器1810可经配置以执行一或多个计算机可读指令以执行音频编码解码器1808的操作。尽管音频编码解码器1808经绘示为转码器1810的组件,但在其它实例中,音频编码解码器1808的一或多个组件可包含于处理器1806、另一处理组件或其组合中。举例来说,解码器1838(例如声码器解码器)可包含于接收器数据处理器1864中。作为另一实例,编码器1836(例如声码器编码器)可包含于发射数据处理器1882中。
转码器1810可起到在两个或多于两个网络之间转码消息及数据的作用。转码器1810可经配置以将消息及音频数据从第一格式(例如数字格式)转换成第二格式。举例来说,解码器1838可解码具有第一格式的经编码信号,且编码器1836可将经解码信号编码成具有第二格式的经编码信号。另外或替代地,转码器1810可经配置以执行数据速率适配。举例来说,转码器1810可在不改变音频数据的格式的情况下下转换数据速率或上转换数据速率。举例来说,转码器1810可将64千位/秒信号下转换成16千位/秒信号。
音频编码解码器1808可包含编码器1836及解码器1838。编码器1836可包含图1的编码器200。解码器1838可包含图1的解码器300。编码器1836可经配置以产生非谐波HB旗标(x)910。另外,在一些实施方案中,编码器1836经配置以修改非谐波HB旗标(x)910以产生经修改非谐波HB旗标(y)920。编码器1836可经配置以使用非谐波HB旗标(x)910、经修改非谐波HB旗标(y)920或两者,如本文参考至少图1及9至16所描述。解码器1838可经配置以接收或产生非谐波HB旗标(x)910、经修改非谐波HB旗标(y)920,或两者。解码器1838可经配置以使用非谐波HB旗标(x)910、经修改非谐波HB旗标(y)920或两者,如本文参考至少图1及9至16所描述。
基站1800可包含存储器1832。例如计算机可读存储装置的存储器1832可包含指令。指令可包含可由处理器1806、转码器1810或其组合执行,以执行参看图1至16的方法及系统所描述的一或多个操作的一或多个指令。基站1800可包含耦合至天线阵列的多个发射器及接收器(例如收发器),例如第一收发器1852及第二收发器1854。天线阵列可包含第一天线1842及第二天线1844。天线阵列可经配置成以无线方式与一或多个无线装置通信,例如图17的装置1700。举例来说,第二天线1844可从无线装置接收数据流1814(例如位流)。数据流1814可包含消息、数据(例如经编码语音数据),或其一组合。
基站1800可包含网络连接1860,例如回程连接。网络连接1860可经配置以与无线通信网络的核心网络或一或多个基站通信。举例来说,基站1800可经由网络连接1860从核心网络接收第二数据流(例如消息或音频数据)。基站1800可处理第二数据流以产生消息或音频数据,且经由天线阵列的一或多个天线将消息或音频数据提供至一或多个无线装置,或经由网络连接1860将其提供至另一基站。在特定实施方案中,网络连接1860可为广域网(WAN)连接,作为说明性非限制性实例。在一些实施方案中,核心网络可包含或对应于公众交换电话网络(PSTN)、数据包基干网络或两者。
基站1800可包含耦合至网络连接1860及处理器1806的媒体网关1870。媒体网关1870可经配置以在不同电信技术的媒体流之间进行转换。举例来说,媒体网关1870可在不同发射协议、不同译码方案或两者之间转换。举例来说,媒体网关1870可从PCM信号转换成实时输送协议(RTP)信号,作为说明性非限制性实例。媒体网关1870可在数据包交换式网络(例如基于互联网协议的语音业务(VoIP)网络、IP多媒体子系统(IMS)、第四代(4G)无线网络(例如LTE、WiMax及UMB等))、电路切换式网络(例如PSTN)及混合式网络(例如第二代(2G)无线网络(例如GSM、GPRS及EDGE)、第三代(3G)无线网络(例如WCDMA、EV-DO及HSPA等))之间转换数据。
另外,媒体网关1870可包含转码且可经配置以在编码解码器不兼容时转码数据。举例来说,媒体网关1870可在自适应多重速率(AMR)编码解码器与G.711编码解码器之间进行转码,作为说明性非限制性实例。媒体网关1870可包含路由器及多个物理接口。在一些实施方案中,媒体网关1870还可包含控制器(未展示)。在特定实施方案中,媒体网关控制器可在媒体网关1870外部、在基站1800外部或在两者外部。媒体网关控制器可控制并协调操作多个媒体网关。媒体网关1870可从媒体网关控制器接收控制信号,且可起到在不同发射技术之间桥接的作用,且可对最终用户能力及连接增加服务。
基站1800可包含耦合至收发器1852、收发器1854、接收器数据处理器1864及处理器1806的解调器1862,且接收器数据处理器1864可耦合至处理器1806。解调器1862可经配置以解调从收发器1852、收发器1854所接收的经调制信号,且可经配置以将经解调数据提供至接收器数据处理器1864。接收器数据处理器1864可经配置以从经解调数据提取消息或音频数据,并将所述消息或音频数据发送至处理器1806。
基站1800可包含发射数据处理器1882及发射多输入多输出(MIMO)处理器1884。可将发射数据处理器1882耦合至处理器1806及发射MIMO处理器1884。发射MIMO处理器1884可耦合至收发器1852、1854及处理器1806。在一些实施方案中,可将发射MIMO处理器1884耦合至媒体网关1870。作为说明性非限制性实例,发射数据处理器1882可经配置以从处理器1806接收消息或音频数据,且基于例如CDMA或正交频分多路复用(OFDM)的译码方案译码所述消息或所述音频数据。发射数据处理器1882可将经译码数据提供至发射MIMO处理器1884。
可使用CDMA或OFDM技术将经译码数据与例如导频数据的其它数据多路复用在一起以产生经多路复用数据。经多路复用数据接着可由发射数据处理器1882基于特定调制方案(例如二进制相移键控(“BPSK”)、正交相移键控(“QSPK”)、M元相移键控(“M-PSK”)、M元正交振幅调制(“M-QAM”)等)调制(即,符号映射)以产生调制符号。在特定实施方案中,经译码数据及其它数据可使用不同调制方案调制。针对每一数据流的数据速率、译码及调制可由处理器1806执行的指令确定。
发射MIMO处理器1884可经配置以从发射数据处理器1882接收调制符号,且可进一步处理调制符号,且可对所述数据执行波束成形。举例来说,发射MIMO处理器1884可将波束成形权重应用于调制符号。波束成形权重可对应于天线阵列的一或多个天线(从所述天线发射调制符号)。
在操作期间,基站1800的第二天线1844可接收数据流1814。第二收发器1854可从第二天线1844接收数据流1814,且可向解调器1862提供数据流1814。解调器1862可解调数据流1814的经调制信号,且将经解调数据提供至接收器数据处理器1864。接收器数据处理器1864可从经解调数据提取音频数据且将所提取音频数据提供至处理器1806。
处理器1806可将音频数据提供至转码器1810以用于转码。转码器1810的解码器1838可将音频数据从第一格式解码成经解码音频数据,且编码器1836可将经解码音频数据编码成第二格式。在一些实施方案中,编码器1836可使用相比从无线装置接收更高的数据速率(例如上转换)或更低的数据速率(例如下转换)编码音频数据。在其它实施方案中,音频数据可未经转码。尽管转码(例如解码及编码)经绘示为由转码器1810执行,但转码操作(例如解码及编码)可由基站1800的多个组件执行。举例来说,解码可由接收器数据处理器1864执行,且编码可由发射数据处理器1882执行。在其它实施方案中,处理器1806可将音频数据提供至媒体网关1870用于转换成另一发射协议、译码方案或两者。媒体网关1870可经由网络连接1860将经转换数据提供至另一基站或核心网络。
可经由处理器1806将在编码器1836处产生的经编码音频数据(例如经转码数据)提供至发射数据处理器1882或网络连接1860。可将来自转码器1810的经转码音频数据提供至发射数据处理器1882,用于根据例如OFDM的调制方案译码,以产生调制符号。发射数据处理器1882可将调制符号提供至发射MIMO处理器1884以供进一步处理及波束成形。发射MIMO处理器1884可应用波束成形权重,且可经由第一收发器1852将调制符号提供至天线阵列的一或多个天线,例如第一天线1842。因此,基站1800可将对应于从无线装置所接收的数据流1814的经转码数据流1816提供至另一无线装置。经转码数据流1816可具有与数据流1814相比不同的编码格式、数据速率或两者。在其它实施方案中,可将经转码数据流1816提供至网络连接1860,以供发射至另一基站或核心网络。
在特定实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至解码系统或设备(例如电子装置、编码解码器或其中的处理器)中、集成至编码系统或设备中,或集成至两者中。在其它实施方案中,本文中所揭示的系统及装置的一或多个组件可集成至以下各者中:无线电话、平板计算机、桌上型计算机、膝上型计算机、机顶盒、音乐播放器、视频播放器、娱乐单元、电视、游戏控制台、导航装置、通信装置、个人数字助理(PDA)、固定位置数据单元、个人媒体播放器或另一类型的装置。
结合所描述技术,第一设备包含用于接收音频信号的装置。举例来说,用于接收的装置可包含图1、2A或17的编码器200、图2A的滤波器组290、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第一设备还可包含用于基于经接收音频信号产生高频带信号的装置。举例来说,用于基于经接收音频信号产生高频带信号的装置可包含图1、2A或17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第一设备还可包含用于确定指示高频带信号的谐波度量的第一旗标值的装置。举例来说,用于确定第一旗标值的装置可包含图1、2A及17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图9的非谐波高频带检测器906、图9的非谐波高频带旗标修改器922、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第一设备还可包含用于发射高频带信号的经编码版本的装置。举例来说,用于发射的装置可包含图1及17的发射器110、图18的第一收发器1852、一或多个其它装置、电路,或其任何组合。
结合所描述技术,第二设备包含用于确定对应于高频带信号的帧的增益帧参数的装置。举例来说,用于接收的装置可包含图1、2A或17的编码器200、图2A的滤波器组290、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图2B或图9的高频带增益帧估计器263、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第二设备还可包含用于比较增益帧参数与阈值的装置。举例来说,用于比较增益帧参数与阈值的装置可包含图1、2A或17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图9的非谐波高频带旗标修改器922、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第二设备还可包含用于响应于增益帧参数大于阈值而修改旗标的装置,所述旗标对应于帧且指示高频带信号的谐波度量。举例来说,用于修改旗标的装置可包含图1、2A或17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图9的非谐波高频带旗标修改器922、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第二设备还可包含用于发射高频带信号的经编码版本的装置。举例来说,用于发射的装置可包含图1及17的发射器110、图18的第一收发器1852、一或多个其它装置、电路,或其任何组合。
结合所描述技术,第三设备包含用于接收至少第一音频信号及第二音频信号的装置。举例来说,用于接收的装置可包含图1、2A或17的编码器200、降混器202、图2A的滤波器组290、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于对第一音频信号及第二音频信号执行降混操作以产生中间信号的装置。举例来说,用于执行降混操作的装置可包含图1、2A或17的编码器200、图2A的降混器202、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于基于中间信号产生低频带中间及高频带中间信号的装置。举例来说,用于产生低频带中间信号及高频带中间信号的装置可包含图1、2A或17的编码器200、图2A的滤波器组290、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于至少部分地基于低频带信号的话音值及对应于高频带中间信号的增益值来确定与高频带中间信号相关联的多源旗标的值的装置。举例来说,用于确定多源旗标的值的装置可包含图1、2A及17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图9的非谐波高频带检测器906、图9的非谐波高频带旗标修改器922、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于至少部分地基于多源旗标产生高频带中间激励信号的装置。举例来说,用于产生高频带中间激励信号的装置可包含图1、2A及17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图2B或图9的高频带激励产生器299、乘法器255、乘法器258、求和器257、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于至少部分地基于高频带中间激励信号产生位流的装置。举例来说,用于产生位流的装置可包含图1、2A及17的编码器200、图2A或2B的中间声道BWE编码器206、图1或2A的ICBWE编码器204、图9的编码器900、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或编码器1836、一或多个其它装置、电路,或其任何组合。
第三设备还可包含用于将位流及多源旗标发射至装置的装置。举例来说,用于发射的装置可包含图1及17的发射器110、图18的第一收发器1852、一或多个其它装置、电路,或其任何组合。
结合所描述技术,第四设备包含用于接收对应于音频信号的经编码版本的位流的装置。举例来说,用于接收的装置可包含图1、3A及17的解码器300、图3A或3B的中间声道BWE解码器302、图3A或6的ICBWE解码器306、图10的解码器1000、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或解码器1838、一或多个其它装置、电路,或其任何组合。
第四设备还可包含用于基于低频带激励信号且进一步基于指示高频带信号的谐波度量的第一旗标值产生高频带激励信号的装置,其中高频带信号对应于音频信号的高频带部分。举例来说,用于产生高频带激励信号的装置可包含图1、3A及17的解码器300、图3A或3B的中间声道BWE解码器302、图3A或6的ICBWE解码器306、图10的解码器1000、图3B或10的高频带激励产生器362、图17的编码解码器1708、图17的处理器1706、可由处理器执行的指令191、图18的编码解码器1808或解码器1838、一或多个其它装置、电路,或其任何组合。
应注意,由本文中所揭示的系统及装置的一或多个组件执行的各种功能经描述为由某些组件执行。组件的此划分仅出于说明目的。在替代实施方案中,由特定组件执行的功能可划分于多个组件间。此外,在替代实施方案中,两个或多于两个组件可集成至单一组件中。每一组件可使用硬件(例如现场可编程门阵列(FPGA)装置、专用集成电路(ASIC)、DSP、控制器等)、软件(例如可由处理器执行的指令)或其任何组合来实施。
所属领域的技术人员将进一步了解,结合本文中所揭示的实施方案而描述的各种说明性逻辑块、配置、电路及算法步骤可被实施为电子硬件、由例如硬件处理器的处理装置执行的计算机软件或两者的组合。上文大体上在功能性方面描述了各种说明性组件、块、配置、电路及步骤。此功能性经实施为硬件还是软件取决于特定应用及强加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用而以变化的方式实施所描述的功能性,但不应将这些实施决策解释为致使脱离本发明的范围。
结合本文中所揭示的实施方案所描述的方法或算法的步骤可直接体现于硬件中、由处理器执行的软件中或两者的组合中。软件可驻留于存储器装置中,例如随机存取存储器(RAM)、磁阻随机存取存储器(MRAM)、自旋力矩转移(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可卸除式磁盘或光盘只读存储器(CD-ROM)。示范性存储器装置耦合至处理器,使得处理器可从存储器装置读取信息及将信息写入至存储器装置。在替代方案中,存储器装置可与处理器成一体式。处理器及存储媒体可驻留于专用集成电路(ASIC)中。ASIC可驻留于计算装置或用户终端中。在替代方案中,处理器及存储媒体可作为离散组件驻留于计算装置或用户终端中。
提供对所揭示实施方案的先前描述,使得所属领域的技术人员能够制作或使用所揭示的实施方案。所属领域的技术人员将容易地显而易见对这些实施方案的各种修改,且在不背离本发明的范围的情况下,本文中所定义的原理可应用于其它实施方案。因此,本发明并非意图限于本文中所展示的实施方案,而应符合可能与如所附权利要求书所定义的原理及新颖特征相一致的最广泛范围。

Claims (32)

1.一种用于音频信号处理的装置,其包括:
多声道编码器,其经配置以进行以下操作:
接收至少第一音频信号及第二音频信号;
对所述第一音频信号及所述第二音频信号执行降混操作以产生中间信号;
基于所述中间信号产生低频带中间信号及高频带中间信号,所述低频带中间信号对应于所述中间信号的低频部分且所述高频带中间信号对应于所述中间信号的高频部分;
至少部分地基于对应于所述低频带中间信号的话音值及对应于所述高频带中间信号的增益值来确定与所述高频带中间信号相关联的非谐波高频带HB旗标的值,其中,所述非谐波HB旗标指示所述高频带中间信号的谐波度量;
至少部分地基于所述非谐波HB旗标产生高频带中间激励信号;及
至少部分地基于所述高频带中间激励信号产生位流;及
发射器,其经配置以将所述位流及所述非谐波HB旗标发射至第二装置。
2.根据权利要求1所述的装置,其中所述非谐波HB旗标还指示多个音频源是否与所述高频带中间信号相关联。
3.根据权利要求1所述的装置,其中所述多声道编码器经进一步配置以进行以下操作:
基于低频带激励信号产生非线性谐波激励,所述低频带激励信号是基于所述低频带中间信号;
基于所述非线性谐波激励产生经调制噪声;及
基于所述非谐波HB旗标控制所述非线性谐波激励与所述经调制噪声的混合以产生所述高频带中间激励信号。
4.根据权利要求3所述的装置,其中所述多声道编码器经进一步配置以通过基于所述非线性谐波激励及一或多个滤波器参数确定包络及将所述包络应用于噪声信号以产生所述经调制噪声而产生所述经调制噪声。
5.根据权利要求4所述的装置,其中所述一或多个滤波器参数是基于所述非谐波HB旗标及一或多个低频带话音因数。
6.根据权利要求4所述的装置,其中所述多声道编码器经配置以通过对所述噪声信号应用低通滤波器而将所述包络应用于所述噪声信号,且其中所述低通滤波器的系数是至少部分地基于所述一或多个滤波器参数。
7.根据权利要求4所述的装置,其中所述多声道编码器经配置以通过组合所述非线性谐波激励与所述经调制噪声而产生所述高频带中间激励信号。
8.根据权利要求7所述的装置,其中所述多声道编码器经进一步配置以在产生所述高频带中间激励信号之前将第一增益应用于所述非线性谐波激励,且其中所述第一增益是基于所述非谐波HB旗标及一或多个低频带话音因数。
9.根据权利要求8所述的装置,其中所述多声道编码器经进一步配置以在产生所述高频带中间激励信号之前将第二增益应用于所述经调制噪声,且其中所述第二增益是基于所述非谐波HB旗标及所述一或多个低频带话音因数。
10.根据权利要求3所述的装置,其中所述多声道编码器经配置以通过组合所述非线性谐波激励以及所述经调制噪声来产生所述高频带中间激励信号。
11.根据权利要求1所述的装置,其中所述多声道编码器经进一步配置以进行以下操作:
确定对应于所述高频带中间信号的帧的增益帧参数;
比较所述增益帧参数与阈值;及
响应于所述增益帧参数大于所述阈值,修改所述非谐波HB旗标的值。
12.根据权利要求11所述的装置,其中所述多声道编码器经进一步配置以进行以下操作:
基于所述高频带中间激励信号产生所述高频带中间信号的经合成版本;及
比较所述高频带中间信号的所述帧与所述高频带中间信号的所述经合成版本的帧以产生所述增益帧参数。
13.根据权利要求1所述的装置,其中所述多声道编码器包含在声道间带宽扩展ICBWE编码操作期间至少部分地基于所述非谐波HB旗标产生非参考高频带激励信号的立体声编码器。
14.根据权利要求1所述的装置,其中所述多声道编码器及所述发射器集成至移动装置中。
15.根据权利要求1所述的装置,其中所述多声道编码器及所述发射器集成至基站中。
16.一种用于音频信号处理的方法,其包括:
在多声道编码器处接收至少第一音频信号及第二音频信号;
对所述第一音频信号及所述第二音频信号执行降混操作以产生中间信号;
基于所述中间信号产生低频带中间信号及高频带中间信号,所述低频带中间信号对应于所述中间信号的低频部分且所述高频带中间信号对应于所述中间信号的高频部分;
至少部分地基于对应于所述低频带中间信号的话音值及对应于所述高频带中间信号的增益值来确定与所述高频带中间信号相关联的非谐波高频带HB旗标的值,其中,所述非谐波HB旗标指示所述高频带中间信号的谐波度量;
至少部分地基于所述非谐波HB旗标产生高频带中间激励信号;
至少部分地基于所述高频带中间激励信号产生位流;及
将所述位流及所述非谐波HB旗标从所述多声道编码器发射至装置。
17.根据权利要求16所述的方法,其进一步包括:
基于低频带激励信号产生非线性谐波激励,所述低频带激励信号是基于所述低频带中间信号;
基于所述非线性谐波激励产生经调制噪声;及
基于所述非谐波HB旗标控制所述非线性谐波激励与所述经调制噪声的混合以产生所述高频带中间激励信号。
18.根据权利要求17所述的方法,其中产生所述经调制噪声包括:
基于所述非线性谐波激励及一或多个滤波器参数确定包络;及
将所述包络应用于噪声信号以产生所述经调制噪声。
19.根据权利要求18所述的方法,其中所述一或多个滤波器参数是基于所述非谐波HB旗标及一或多个低频带话音因数。
20.根据权利要求18所述的方法,其中应用所述包络包括对所述噪声信号应用低通滤波器,且其中所述低通滤波器的系数是至少部分地基于一或多个滤波器参数。
21.根据权利要求18所述的方法,其中产生所述高频带中间激励信号包括组合所述非线性谐波激励与所述经调制噪声。
22.根据权利要求17所述的方法,其进一步包括在发射所述非谐波HB旗标之前进行以下操作:
确定对应于所述高频带中间信号的帧的增益帧参数;
比较所述增益帧参数与阈值;及
响应于所述增益帧参数大于所述阈值,修改所述非谐波HB旗标的值。
23.根据权利要求17所述的方法,其中所述高频带中间激励信号是通过组合所述非线性谐波激励和所述经调制噪声来产生的。
24.根据权利要求22所述的方法,其中确定所述增益帧参数包括:
基于所述高频带中间激励信号产生所述高频带中间信号的经合成版本;及
比较所述高频带中间信号的所述帧与所述高频带中间信号的所述经合成版本的帧。
25.根据权利要求16所述的方法,其中在移动装置处执行确定所述非谐波HB旗标的所述值、产生所述高频带中间激励信号,及产生所述位流。
26.根据权利要求16所述的方法,其中在基站处执行确定所述非谐波HB旗标的所述值、产生所述高频带中间激励信号,及产生所述位流。
27.一种非暂时性计算机可读媒体,其包括用于编码信号的指令,所述指令在由多声道编码器的处理器执行时使所述多声道编码器执行包括以下操作的操作:
在所述多声道编码器处接收至少第一音频信号及第二音频信号;
对所述第一音频信号及所述第二音频信号执行降混操作以产生中间信号;
基于所述中间信号产生低频带中间信号及高频带中间信号,所述低频带中间信号对应于所述中间信号的低频部分且所述高频带中间信号对应于所述中间信号的高频部分;
至少部分地基于对应于所述低频带中间信号的话音值及对应于所述高频带中间信号的增益值来确定与所述高频带中间信号相关联的非谐波高频带HB旗标的值,其中,所述非谐波HB旗标指示所述高频带中间信号的谐波度量;
至少部分地基于所述非谐波HB旗标产生高频带中间激励信号;
至少部分地基于所述高频带中间激励信号产生位流;及
将所述位流及所述非谐波HB旗标从所述多声道编码器发射至装置。
28.根据权利要求27所述的非暂时性计算机可读媒体,其中所述操作进一步包括:
基于低频带激励信号产生非线性谐波激励,所述低频带激励信号是基于所述低频带中间信号;
基于所述非线性谐波激励产生经调制噪声;及
基于所述非谐波HB旗标控制所述非线性谐波激励与所述经调制噪声的混合以产生所述高频带中间激励信号。
29.根据权利要求28所述的非暂时性计算机可读媒体,其中产生所述经调制噪声包括:
基于所述非线性谐波激励及一或多个滤波器参数确定包络;及
将所述包络应用于噪声信号以产生所述经调制噪声。
30.根据权利要求29所述的非暂时性计算机可读媒体,其中所述操作进一步包括在产生所述高频带中间激励信号之前进行以下操作:
将第一增益应用于所述非线性谐波激励,其中所述第一增益是基于所述非谐波HB旗标及一或多个低频带话音因数;及
将第二增益应用于所述经调制噪声,其中所述第二增益是基于所述非谐波HB旗标及所述一或多个低频带话音因数。
31.一种用于音频信号处理的设备,其包括:
用于接收至少第一音频信号及第二音频信号的装置;
用于对所述第一音频信号及所述第二音频信号执行降混操作以产生中间信号的装置;
用于基于所述中间信号产生低频带中间信号及高频带中间信号的装置,所述低频带中间信号对应于所述中间信号的低频部分且所述高频带中间信号对应于所述中间信号的高频部分;
用于至少部分地基于对应于所述低频带中间信号的话音值及对应于所述高频带中间信号的增益值来确定与所述高频带中间信号相关联的非谐波高频带HB旗标的值的装置,其中,所述非谐波HB旗标指示所述高频带中间信号的谐波度量;
用于至少部分地基于所述非谐波HB旗标产生高频带中间激励信号的装置;
用于至少部分地基于所述高频带中间激励信号产生位流的装置;及
用于将所述位流及所述非谐波HB旗标发射至装置的装置。
32.根据权利要求31所述的设备,所述非谐波HB旗标的所述值是进一步基于所述高频带中间信号的帧的能量度量及所述高频带中间信号的多帧能量度量。
CN201880026185.XA 2017-04-21 2018-04-19 在多源环境中的非谐波语音检测及带宽扩展 Active CN110537222B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762488654P 2017-04-21 2017-04-21
US62/488,654 2017-04-21
US15/956,645 2018-04-18
US15/956,645 US10825467B2 (en) 2017-04-21 2018-04-18 Non-harmonic speech detection and bandwidth extension in a multi-source environment
PCT/US2018/028338 WO2018195299A1 (en) 2017-04-21 2018-04-19 Non-harmonic speech detection and bandwidth extension in a multi-source environment

Publications (2)

Publication Number Publication Date
CN110537222A CN110537222A (zh) 2019-12-03
CN110537222B true CN110537222B (zh) 2023-07-28

Family

ID=63852843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880026185.XA Active CN110537222B (zh) 2017-04-21 2018-04-19 在多源环境中的非谐波语音检测及带宽扩展

Country Status (9)

Country Link
US (1) US10825467B2 (zh)
EP (1) EP3613042B1 (zh)
KR (1) KR102308966B1 (zh)
CN (1) CN110537222B (zh)
AU (1) AU2018256414B2 (zh)
BR (1) BR112019021903A2 (zh)
SG (1) SG11201908390UA (zh)
TW (1) TWI775838B (zh)
WO (1) WO2018195299A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
KR102570480B1 (ko) * 2019-01-04 2023-08-25 삼성전자주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
CN114402544A (zh) * 2019-08-05 2022-04-26 舒尔获得控股公司 发射天线分集无线音频系统
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
KR20210073975A (ko) * 2019-12-11 2021-06-21 삼성전자주식회사 화자를 인식하는 방법 및 장치
CN112562686B (zh) * 2020-12-10 2022-07-15 青海民族大学 一种使用神经网络的零样本语音转换语料预处理方法
CN113763980B (zh) * 2021-10-30 2023-05-12 成都启英泰伦科技有限公司 一种回声消除方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180676A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
CN105593933A (zh) * 2013-10-10 2016-05-18 高通股份有限公司 用于改善高频带时间特性跟踪的增益形状估计

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
SE519976C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE0004163D0 (sv) * 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
CN1282156C (zh) * 2001-11-23 2006-10-25 皇家飞利浦电子股份有限公司 音频信号带宽扩展
US7983904B2 (en) * 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
JP5129115B2 (ja) * 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 高帯域バーストの抑制のためのシステム、方法、および装置
TWI324336B (en) * 2005-04-22 2010-05-01 Qualcomm Inc Method of signal processing and apparatus for gain factor smoothing
US8150684B2 (en) * 2005-06-29 2012-04-03 Panasonic Corporation Scalable decoder preventing signal degradation and lost data interpolation method
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
JP5339919B2 (ja) * 2006-12-15 2013-11-13 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
WO2010003544A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft Zur Förderung Der Angewandtern Forschung E.V. An apparatus and a method for generating bandwidth extension output data
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR101182258B1 (ko) * 2008-07-11 2012-09-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 스펙트럼 기울기 제어 프레이밍을 이용한 대역폭 확장 데이터를 계산하는 장치 및 방법
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
CN101763856B (zh) * 2008-12-23 2011-11-02 华为技术有限公司 信号分类处理方法、分类处理装置及编码系统
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
TWI643187B (zh) * 2009-05-27 2018-12-01 瑞典商杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
PL3570278T3 (pl) * 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
KR20120016709A (ko) * 2010-08-17 2012-02-27 삼성전자주식회사 휴대용 단말기에서 통화 품질을 향상시키기 위한 장치 및 방법
CN103026406B (zh) * 2010-09-28 2014-10-08 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
CN102737636B (zh) * 2011-04-13 2014-06-04 华为技术有限公司 一种音频编码方法及装置
US9384749B2 (en) * 2011-09-09 2016-07-05 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, encoding method and decoding method
JP5817499B2 (ja) * 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
MX355630B (es) * 2012-11-05 2018-04-25 Panasonic Ip Corp America Dispositivo de codificacion de voz audio, dispositivo de decodificacion de voz audio, metodo de codificacion de voz audio y metodo de decodificacion de voz audio.
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
KR101757349B1 (ko) * 2013-01-29 2017-07-14 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 부대역들의 시간적 평활을 이용하여 주파수 향상 신호를 발생시키는 장치 및 방법
KR101732059B1 (ko) * 2013-05-15 2017-05-04 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
US10083708B2 (en) * 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
JP6345780B2 (ja) * 2013-11-22 2018-06-20 クゥアルコム・インコーポレイテッドQualcomm Incorporated ハイバンドコーディングにおける選択的位相補償
US10163447B2 (en) * 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
US9583115B2 (en) * 2014-06-26 2017-02-28 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
US9984699B2 (en) * 2014-06-26 2018-05-29 Qualcomm Incorporated High-band signal coding using mismatched frequency ranges
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
US10341770B2 (en) * 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US10109284B2 (en) 2016-02-12 2018-10-23 Qualcomm Incorporated Inter-channel encoding and decoding of multiple high-band audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101180676A (zh) * 2005-04-01 2008-05-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
CN105593933A (zh) * 2013-10-10 2016-05-18 高通股份有限公司 用于改善高频带时间特性跟踪的增益形状估计

Also Published As

Publication number Publication date
KR20190139872A (ko) 2019-12-18
TWI775838B (zh) 2022-09-01
SG11201908390UA (en) 2019-11-28
BR112019021903A2 (pt) 2020-05-26
AU2018256414A1 (en) 2019-10-03
EP3613042B1 (en) 2022-09-21
AU2018256414B2 (en) 2022-05-19
KR102308966B1 (ko) 2021-10-05
TW201842494A (zh) 2018-12-01
WO2018195299A1 (en) 2018-10-25
CN110537222A (zh) 2019-12-03
US20180308505A1 (en) 2018-10-25
EP3613042A1 (en) 2020-02-26
US10825467B2 (en) 2020-11-03

Similar Documents

Publication Publication Date Title
CN110537222B (zh) 在多源环境中的非谐波语音检测及带宽扩展
US10872613B2 (en) Inter-channel bandwidth extension spectral mapping and adjustment
CN111164681B (zh) 音频信号的解码
CN111164680B (zh) 一种用于通信的装置及方法
US10593341B2 (en) Coding of multiple audio signals
CN111149158B (zh) 音频信号的解码
CN110800051B (zh) 具有时域信道间带宽延展的高频带残值预测
CN111149156B (zh) 音频信号的解码
CN110447072B (zh) 声道间带宽扩展

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40011829

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant