CN116075889A - 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法 - Google Patents

依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法 Download PDF

Info

Publication number
CN116075889A
CN116075889A CN202180053712.8A CN202180053712A CN116075889A CN 116075889 A CN116075889 A CN 116075889A CN 202180053712 A CN202180053712 A CN 202180053712A CN 116075889 A CN116075889 A CN 116075889A
Authority
CN
China
Prior art keywords
channel
noise
signal
audio
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180053712.8A
Other languages
English (en)
Inventor
伊曼纽尔·拉维利
简·弗雷德里克·基内
吉约姆·福克斯
斯里坎特·科塞
马尔库斯·穆特鲁斯
埃伦妮·福托波罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN116075889A publication Critical patent/CN116075889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuits Of Receivers In General (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供一种多声道信号产生器(200),用于产生具有第一声道(201)及第二声道(203)的多声道信号(204),多声道信号产生器(200)包括:第一音频源(211),用于产生第一音频信号(221);第二音频源(213),用于产生第二音频信号(223);混合噪声源(212),用于产生混合噪声信号(222);以及混合器(206),用于将混合噪声信号(222)与第一音频信号(221)混合以获得第一声道(201),以及将混合噪声信号(222)与第二音频信号(222)混合以获得第二声道(203)。本发明还提供一种音频编码器,包括:活动检测器(380),用于分析多声道信号(304)以确定(381)帧序列中的帧是非活动帧(308);噪声参数计算器(3040),用于计算多声道信号(304)的第一声道(301,201)的第一参数噪声数据(p_noise,vm,ind),并计算多声道信号(320)的第二声道(303)的第二参数噪声数据(p_noise,vs,ind);相干性计算器(320),用于计算指示非活动帧(308)中的第一声道(301,201)与第二声道(303,203)之间的相干情况的相干性数据(404,c);以及输出接口(310),用于产生编码的多声道音频信号(232),其具有活动帧(306)的编码音频数据,以及非活动帧(308)的第一参数噪声数据(p_noise,vm,ind)、第二参数噪声数据(p_noise,vs,ind)、和/或第一参数噪声数据与第二参数噪声数据的第一线性组合以及第一参数噪声数据与第二参数噪声数据的第二线性组合,以及相干性数据(c,404)。

Description

依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法
说明书
本发明特别关于用于在立体声编解码器中实现不连续传输(DTX)的柔和噪声生成(CNG)。本发明还关于多声道信号产生器、音频编码器及相关方法,例如依赖混合噪声信号。本发明可以实现于装置、设备、系统、方法、记录有指令的非暂时性存储单元、及编码的多声道音频信号中,其中,当计算机(处理器、控制器)执行上述指令时,能够让计算机(处理器、控制器)执行特定方法。
介绍
柔和噪声产生器通常用于音频信号的非连续传输(DTX),尤其是包含语音的音频信号。在这种模式下,音频信号首先由语音活动检测器(VAD)分为活动帧和非活动帧,根据VAD的结果,仅活动语音帧以标称比特率进行编码和传输。在仅存在背景噪声的长暂停期间,比特率被降低或归零,并且使用静音插入描述符帧(SID帧)对背景噪声进行参数化编码,由此明显降低平均比特率。
噪声是在解码器端的非活动帧期间由柔和噪声产生器(CNG)生成的,SID帧的大小在实际中非常有限。因此,描述背景噪声的参数数量必须尽可能小。为达此目的,噪声估计不直接应用于频谱变换的输出,相反地,其通过对频带组(例如,遵循巴克标度(Barkscale))之间的输入功率频谱进行平均来以较低的频谱分辨率应用。平均可以通过算术或几何方法来实现。不幸的是,在SID帧中传输的有限数量的参数不允许捕获背景噪声的精细频谱结构,因此,CNG只能再现噪声的平滑频谱封包。当VAD触发CNG帧时,重建的柔和噪声的平滑频谱与实际背景噪声的频谱之间的差异在活动帧(涉及对信号中的噪声语音部分的常规编码和解码)和CNG帧之间的转换处会变得非常明显。
一些典型的CNG技术可以在ITU-T建议书的G.729B[1]、G.729.1C[2]、G.718[3],或AMR[4]及AMR-WB[5]的3GPP规范中找到。所有这些技术都通过使用线性预测(LP)的分析/合成方法产生柔和噪声(CN)。
为了进一步降低传输速率,LTE[6]的增强型语音服务(EVS)的3GPP电信编解码器配备了不连续传输(DTX)模式,用于对非活动帧应用柔和噪声生成(CNG),非活动帧亦即被确定为仅由背景噪声组成的帧。对于这些帧,信号的低速率参数表示最多每8帧(160毫秒)由静音插入描述符(SID)帧传送,这允许解码器中的CNG产生类似于实际背景噪声的人工噪声信号。在EVS中,根据背景噪声的频谱特性,可以使用线性预测方案(LP-CNG)或频域方案(FD-CNG)来实现CNG。
EVS[7]中的LP-CNG方法在分带基础上运行,编码包括低频带和高频带分析/合成编码阶段。与低频带编码相反,没有对高频带信号执行高频带噪声频谱的参数建模。只有高频带信号的能量被编码并传输到解码器,并且高频带噪声频谱纯粹在解码器侧产生。低频带和高频带CN都是通过合成滤波器过滤激励来合成的。低频带激励从接收到的低频带激励能量和低频带激励频率封包得出。低频带合成滤波器从接收到的线谱频率(LSF)系数形式的LP参数得出。使用从低频带能量外推的能量获得高频带激励,并且从解码器侧LSF内插得出高频带合成滤波器。高频带合成在频谱上翻转并添加到低频带合成中,以形成最终的CN信号。
FD-CNG方法[8]、[9]使用频域噪声估计算法,然后对背景噪声的平滑频谱封包进行向量量化。解码封包在解码器中通过运行第二频域噪声估计器进行细化。由于在非活动帧期间使用纯参数表示,因此在这种情况下,解码器无法获得噪声信号。在FD-CNG中,基于最小统计算法在编码器和解码器端的每一帧(活动和非活动)中执行噪声估计。
在[10]中描述了一种在两个(或更多)声道的情况下产生柔和噪声的方法。在[10]中,描述了一种用于立体声DTX和CNG的系统,所述系统将单声道SID与在编码器中的两个输入立体声声道上计算的按频带相干性度量相结合。在解码器处,从比特流中解码单声道CNG信息和相干性值,并合成多个频带中的目标相干性。为了降低所得立体声SID帧的比特率,使用预测方案对相干值进行编码,然后是具有可变比特率的熵编码。使用前面段落中描述的方法为每个声道生成柔和噪声,然后使用基于SID帧中包含的传输频带相干值加权的公式对两个CN进行频带混合。
动机/现有技术的缺点
在立体声系统中,单独生成背景噪声会导致完全不相关的噪声,这听起来令人不快,并且与实际背景噪声非常不同,当我们切换到活动模式背景或从活动模式背景切换到DTX模式背景时,会导致突然的可听转换。此外,仅使用两个完全不相关的噪声源不可能保留背景的立体影像。最后,如果有背景噪声源并且讲话者带着手持设备围绕源移动,则背景噪声的空间图像将随时间变化,在为每个声道独立重建背景噪声时无法复制这种情况。因此,需要开发一种新的方法来解决立体声信号的问题。
这也在[10]中得到解决,然而,在实施例中,为两个声道插入共同噪声源以模仿相关噪声来生成最终柔和噪声在模仿立体声背景噪声记录方面有着重要作用。
当前的通信语音编解码器通常仅编码单声道信号,因此,大多数现有的DTX系统都是为单声道CNG设计的。简单地在立体声信号的两个声道上独立应用DTX操作看起来很直接,但其包含几个问题。首先,该方法需要在两个声道中传输描述两个背景噪声信号的两组参数。这将增加SID帧传输所需的数据率,从而减少降低网络负载的好处。另一个有问题的方面在于VAD决策,其必须在声道之间同步以避免立体声信号的空间图像的怪异和失真,并优化系统的比特率降低。此外,当在接收端独立地在两个声道上应用CNG时,两个独立的CNG算法通常会产生两个具有零或非常低相干性的随机噪声信号,这将导致在生成的柔和噪声中产生非常宽的立体图像。另一方面,仅应用噪声产生器并在两个声道中使用相同的柔和噪声信号会导致非常高的相干性和非常窄的立体图像。然而,对于大多数立体声信号而言,立体声图像及其空间印象将介于这两个极端之间。因此,切换到活动帧或从活动帧切换到DTX模式会引入突然的可听转换。此外,如果存在背景噪声源并且讲话者带着手持设备围绕源移动,则背景噪声的空间图像将随时间变化,这在为每个声道独立重建背景噪声时无法复制。因此,需要一种新的方法来解决立体声信号的问题。
在[10]中描述的系统通过传输单声道CNG的信息以及用于在解码器中重新合成背景噪声的立体声图像的参数值来解决这些问题。这种类型的DTX系统非常适合参数立体声编码器,这些编码器在编码和传输之前对两个输入声道应用降混,从中可以得出单声道CNG参数。然而,在离散立体声编码方案中,通常仍然以联合方式对两个声道进行编码,并且通常不会得出诸如细粒度相干性度量的升混参数。因此,对于这些类型的立体声编码器,需要一种不同的方法。
本发明的方面
本示例提供立体声语音信号的有效传输。与仅传输一个音频声道(单声道)相比,传输立体声信号可以提高用户体验和语音清晰度,尤其是在强加背景噪声或其他声音的情况下。立体声信号可以以参数方式被编码,其中应用两个立体声声道的单声道降混,并且该单个降混声道被编码并与用于在解码器中近似原始立体声信号的辅助信息一起传输到接收器。另一种方法是采用离散立体声编码,旨在通过一些信号预处理去除声道之间的冗余,以实现原始信号的更紧凑的双声道表示。然后对两个处理后的声道进行编码和传输。在解码器处,应用逆处理。尽管如此,与立体声处理相关的辅助信息可以沿两个声道传输。因此,参数和离散立体声编码方法之间的主要区别在于传输的声道的数量。
通常,在对话中,有并非所有说话者都在积极发言的期间。因此,在这些期间输入语音编码器的信号主要由背景噪声或(接近)静音组成。为了节省数据速率并降低传输网络的负载,语音编码器尝试区分包含语音的帧(活动帧)和主要包含背景噪声或静音的帧(非活动帧)。对于非活动帧,可以通过不像在活动帧中那样对音频信号进行编码,而是以静音插入描述符(SID)帧的形式得出当前背景噪声的参数化低比特率描述,来显著降低数据速率。这个SID帧被周期性地传输到解码器以更新描述背景噪声的参数,而对于其间的非活动帧,比特率会降低,甚至不传输任何信息。在解码器中,通过柔和噪声生成(CNG)算法,使用SID帧中传输的参数对背景噪声进行重构。通过这种方式,可以降低或甚至将非活动帧的传输率归零,而用户不会将其解释为连接中断或结束。
我们描述一种用于离散编码立体声信号的DTX系统,所述系统由立体声SID及CNG方法组成,CNG方法通过对两个声道中背景噪声的频谱特征以及他们之间的相关程度进行建模来生成立体声柔和噪声,同时保持与单声道应用相当的平均比特率。
概述
根据一方面,提供了一种用于产生具有第一声道及第二声道的多声道信号的多声道信号产生器,包括:
第一音频源,用于产生第一音频信号;
第二音频源,用于产生第二音频信号;
混合噪声源,用于产生混合噪声信号;以及
混合器,用于将混合噪声信号与第一音频信号混合以获得第一声道,以及将混合噪声信号与第二音频信号混合以获得第二声道。
根据一方面,第一音频源为第一噪声源且第一音频信号为第一噪声信号,或第二音频源为第二噪声源且第二音频信号为第二噪声信号,
其中,第一噪声源或第二噪声源被配置为产生第一噪声信号或第二噪声信号,使得第一噪声信号或第二噪声信号与混合噪声信号去相关。
根据一方面,混合器被配置为产生第一声道以及第二声道,使得混合噪声信号在第一声道中的量等于混合噪声信号在第二声道中的量,或是在混合噪声信号在第二声道中的量的80%至120%的范围内。
依据一方面,混合器包括控制输入,用于接收控制参数,其中混合器被配置为依据控制参数控制混合噪声信号在第一声道中及在第二声道中的量。
依据一方面,第一音频源、第二音频源及混合音频源为高斯噪声源。
依据一方面,第一音频源包括第一噪声产生器,用于产生第一音频信号作为第一噪声信号,其中第二音频源包括去相关器,用于去相关第一噪声信号以产生第二音频信号作为第二噪声信号,及其中混合噪声源包括第二噪声产生器,或
其中第一音频源包括第一噪声产生器,用于产生第一音频信号作为第一噪声信号,其中第二音频源包括第二噪声产生器,用于产生第二音频信号作为第二噪声信号,及其中混合噪声源包括去相关器,用于去相关第一噪声信号或第二噪声信号以产生混合噪声信号,或
其中第一音频源、第二音频源及混合噪声源中的一个包括噪声产生器,用于产生噪声信号,其中第一音频源、第二音频源及混合噪声源中的另一个包括第一去相关器,用于去相关噪声信号,及其中第一音频源、第二音频源及混合噪声源中的又一个包括第二去相关器,用于去相关噪声信号,其中第一去相关器与第二去相关器彼此不同,使得第一去相关器与第二去相关器的输出信号彼此为去相关,或
其中第一音频源包括第一噪声产生器,其中第二音频源包括第二噪声产生器,其中混合噪声源包括第三噪声产生器,其中第一噪声产生器、第二噪声产生器及第三噪声产生器被配置为产生互相为去相关的噪声信号。
依据一方面,第一音频源、第二音频源及混合噪声源中的一个包括伪随机数序列产生器,用于依据种子生成伪随机数序列,且其中第一音频源、第二音频源及混合噪声源中的至少两个被配置为使用不同的种子初始化伪随机数序列产生器。
依据一方面,第一音频源、第二音频源及混合噪声源中的一个被配置为使用预存储噪声表进行操作,或
其中第一音频源、第二音频源及混合噪声源中的一个被配置为针对帧产生复频谱,使用第一噪声值作为实部,并使用第二噪声值作为虚部,
其中,可选地,至少一个噪声产生器被配置为产生用于频率窗口(frequency bin)k的复噪声频谱值,使用索引k处的第一随机值作为实部及虚部中的一个,并使用索引(k+M)处的第二随机值作为实部及虚部中的另一个,其中第一噪声值及第二噪声值包括在噪声阵列中,例如从随机数序列产生器、噪声表或噪声过程得出,范围从起始索引到结束索引,起始索引小于M,结束索引等于或小于2M,其中M和k是整数。
依据一方面,混合器包括:
第一振幅元件,用于影响第一音频信号的振幅;
第一加法器,用于将第一振幅元件的输出信号和混合噪声信号的至少一部分相加;
第二振幅元件,用于影响第二音频信号的振幅;
第二加法器,用于将第二振幅元件的输出和混合噪声信号的至少一部分相加,
其中,第一振幅元件执行的影响量与第二振幅元件执行的影响量相等,或第二振幅元件执行的影响量与第一振幅元件执行的影响量的差异小于第一振幅元件执行的影响量的20%。
依据一方面,混合器包括第三振幅元件,用于影响混合噪声信号的振幅,
其中,第三振幅元件执行的影响量取决于第一振幅元件或第二振幅元件执行的影响量,使得当第一振幅元件执行的影响量或第二振幅元件执行的影响量变小时,第三振幅元件执行的影响量变大。
依据一方面,第三振幅元件执行的影响量是值cq的平方根,第一振幅元件执行的影响量及第二振幅元件执行的影响量是1和cq之间的差值的平方根。
依据一方面,输入接口用于接收帧序列中的编码音频数据,帧序列包括活动帧及跟随在活动帧之后的非活动帧;以及
音频解码器用于解码活动帧的编码音频数据以产生活动帧的解码多声道信号,
其中第一音频源、第二音频源、混合噪声源及混合器在非活动帧中是活动的,以产生非活动帧的多声道信号。
依据一方面,活动帧的编码音频信号具有描述第一数量的频率窗口的第一多个系数;以及
非活动帧的编码音频信号具有描述第二数量的频率窗口的第二多个系数,
其中第一数量的频率窗口大于第二数量的频率窗口。
依据一方面,非活动帧的编码音频数据包括静音插入描述符数据,静音插入描述符数据包括柔和噪声数据,指示对于非活动帧,两个声道的每一个、或者第一声道和第二声道的第一线性组合及第一声道和第二声道的第二线性组合中的每一个的信号能量,并且指示非活动帧中的第一声道及第二声道之间的相干性,以及
其中,所述混合器被配置为基于指示相干性的柔和噪声数据,对混合噪声信号及第一音频信号或第二音频信号进行混合,以及
其中,多声道信号产生器还包括信号修改器,用于修改第一声道及第二声道、或第一音频信号、或第二音频信号、或混合噪声信号,其中信号修改器被配置为由其指示第一音频声道及第二音频声道的信号能量、或指示第一音频声道及第二音频声道的第一线性组合与第一音频声道及第二音频声道的第二线性组合的信号能量的柔和噪声数据控制。
依据一方面,非活动帧的音频数据包括:
用于第一声道的第一静音插入描述符帧及用于第二声道的第二静音插入描述符帧,其中,第一静音插入描述符帧包括:
用于第一声道和/或用于第一声道与第二声道的第一线性组合的柔和噪声参数数据,及
用于第一声道与第二声道的柔和噪声产生辅助信息,以及
其中,第二静音插入描述符帧包括:
用于第二声道和/或用于第一声道与第二声道的第二线性组合的柔和噪声参数数据,及
指示非活动帧的第一声道与第二声道之间的相干性的相干性信息,以及
其中,多声道信号产生器包括控制器,用于控制非活动帧中的多声道信号的生成,使用第一静音插入描述符帧的柔和噪声产生辅助信息来确定用于第一声道与第二声道、和/或用于第一声道及第二声道的第一线性组合以及第一声道及第二声道的第二线性组合的柔和噪声产生模式,使用第二静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自第一静音插入描述符帧的柔和噪声参数数据及来自第二静音插入描述符帧的柔和噪声参数数据来设定第一声道的能量情况与第二声道的能量情况。
依据一方面,非活动帧的音频数据包括:
用于第一声道与第二声道的第一线性组合及用于第一声道与第二声道的第二线性组合的至少一个静音插入描述帧,
其中,至少一个静音插入描述符帧包括:
用于第一声道与第二声道的第一线性组合的柔和噪声参数数据(p_noise),及
用于第一声道与第二声道的第二线性组合的柔和噪声产生辅助信息,
其中,多声道信号产生器包括控制器,用于使用用于第一声道及第二声道的第一线性组合以及第一声道及第二声道的第二线性组合的柔和噪声产生辅助信息来控制非活动帧中的多声道信号的生成,使用第二静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自至少一个静音插入描述符帧的柔和噪声参数数据及使用来自至少一个静音插入描述符帧的柔和噪声参数数据来设定第一声道的能量情况和第二声道的能量情况。
依据一方面,频谱-时间转换器用于将经过频谱调整和相干性调整的调整后第一声道和调整后第二声道转换为相应的时域表示,以与活动帧的解码的多声道信号的相应声道的时域表示组合或连接。
依据一方面,非活动帧的音频数据包括:
静音插入描述符帧,其中静音插入描述符帧包括用于第一声道及第二声道的柔和噪声参数数据以及用于第一声道与第二声道,和/或用于第一声道与第二声道的第一线性组合与第一声道与第二声道的第二线性组合的柔和噪声产生辅助信息,以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,以及
其中,多声道信号产生器包括控制器,用于控制非活动帧中的多声道信号的生成,使用静音插入描述符帧的柔和噪声产生辅助信息来确定用于第一声道与第二声道的柔和噪声产生模式,使用静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自静音插入描述符帧的柔和噪声参数数据来设定第一声道的能量情况与第二声道的能量情况。
依据一方面,非活动帧的编码音频数据包括静音插入描述符数据,静音插入描述符数据包括指示中/侧表示中的每个声道的信号能量的柔和噪声数据、以及指示左/右表示中的第一声道与第二声道之间的相干性的相干性数据,其中多声道信号产生器被配置为将第一声道与第二声道中,中/侧表示的信号能量转换为左/右表示的信号能量,
其中,混合器被配置为基于相干性数据将混合噪声信号混合到第一音频信号与第二音频信号,以便获得第一声道及第二声道,以及
其中,多声道信号产生器还包括信号修改器,信号修改器被配置用于通过基于左/右域中的信号能量对第一声道及第二声道进行整形,以修改第一声道及第二声道。
依据一方面,多声道信号产生器被配置为在音频数据包含指示侧声道中的能量小于预定阈值的信令的情况下,将侧声道的系数归零。
依据一方面,非活动帧的音频数据包括:
至少一个静音插入描述符帧,其中至少一个静音插入描述符帧包括用于中声道及侧声道的柔和噪声参数数据以及用于中声道及侧声道的柔和噪声产生辅助信息,以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,以及
其中,多声道信号产生器包括控制器,用于控制非活动帧中的多声道信号的生成,使用静音插入描述符帧的柔和噪声产生辅助信息来确定用于第一声道与第二声道的柔和噪声产生模式,使用静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自静音插入描述符帧的柔和噪声参数数据或其处理版本来设定第一声道的能量情况与第二声道的能量情况。
依据一方面,多声道信号产生器被配置为通过增益信息缩放第一声道与第二声道的信号能量系数,增益信息使用第一声道与第二声道的柔和噪声参数数据被编码。
依据一方面,多声道信号产生器被配置为将生成的多声道信号从频域版本转换为时域版本。
依据一方面,第一音频源为第一噪声源且第一音频信号为第一噪声信号,或者第二音频源为第二噪声源且第二音频信号为第二噪声信号,
其中,第一噪声源或第二噪声源被配置为产生第一噪声信号或第二噪声信号,使得第一噪声信号或第二噪声信号至少部分相关,及
混合噪声源被配置为产生具有第一混合噪声部分与第二混合噪声部分的混合噪声信号,第二混合噪声部分至少部分地与第一混合噪声部分去相关;以及
混合器被配置为将混合噪声信号的第一混合噪声部分与第一音频信号混合以获得第一声道,并且将混合噪声信号的第二混合噪声部分与第二音频信号混合以获得第二声道。
依据一方面,提供一种用于产生具有第一声道及第二声道的多声道信号的方法,包括:
使用第一音频源产生第一音频信号;
使用第二音频源产生第二音频信号;
使用混合噪声源产生混合噪声信号;以及
对混合噪声信号与第一音频信号进行混合以获得第一声道,以及对混合噪声信号与第二音频信号进行混合以获得第二声道。
依据一方面,提供一种音频编码器,用于为包括活动帧及非活动帧的帧序列生成编码的多声道音频信号,音频编码器包括:
活动检测器,用于分析多声道信号以确定帧序列中的帧是非活动帧;
噪声参数计算器,用于计算多声道信号的第一声道的第一参数噪声数据,以及用于计算多声道信号的第二声道的第二参数噪声数据;
相干性计算器,用于计算指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据;以及
输出接口,用于产生编码的多声道音频信号,编码的多声道音频信号具有活动帧的编码音频数据,以及非活动帧的第一参数噪声数据、第二参数噪声数据、或第一参数噪声数据与第二参数噪声数据的第一线性组合以及第一参数噪声数据与第二参数噪声数据的第二线性组合、以及相干性数据。
依据一方面,相干性计算器被配置为计算相干值,并对相干值进行量化以获得量化的相干值,其中输出接口被配置为使用量化的相干值作为编码的多声道信号中的相干性数据。
依据一方面,相干性计算器被配置为:
从非活动帧中的第一声道与第二声道的复频谱值计算实中间值与虚中间值;
计算非活动帧中的第一声道的第一能量值和第二声道的第二能量值;以及
使用实中间值、虚中间值、第一能量值及第二能量值计算相干性数据,或
平滑实中间值、虚中间值、第一能量值及第二能量值中的至少一个,并使用至少一个平滑值计算相干性数据。
依据一方面,相干性计算器被配置为计算实中间值,作为非活动帧的第一声道与第二声道的对应频率窗口的复频谱值的乘积的实部的和,或
计算虚中间值,作为非活动帧的第一声道与第二声道的对应频率窗口的复频谱值的乘积的虚部的和。
依据一方面,相干性计算器被配置为对平滑的实中间值求平方以及对平滑的虚中间值求平方,并将平方值相加以获得第一分量数,
其中,相干性计算器被配置为将平滑后的第一能量值与第二能量值相乘以获得第二分量数,并且将第一分量数与第二分量数组合以获得相干值的结果数,相干性数据基于结果数。
依据一方面,相干性计算器被配置为计算结果数的平方根,以获得相干值,相干性数据基于相干值。
依据一方面,相干性计算器被配置为使用均匀量化器对相干值进行量化,以得到量化的相干值,作为n位数以作为相干性数据。
依据一方面,输出接口被配置为生成第一声道的第一静音插入描述符帧和第二声道的第二静音插入描述符帧,其中第一静音插入描述符帧包括第一声道的柔和噪声参数数据以及第一声道与第二声道的柔和噪声产生辅助信息,并且其中第二静音插入描述符帧包括第二声道的柔和噪声参数数据以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,或
其中,输出接口被配置为生成静音插入描述符帧,其中静音插入描述符帧包括第一声道与第二声道的柔和噪声参数数据以及第一声道与第二声道的柔和噪声产生辅助信息,以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,或
其中,输出接口被配置为生成第一声道与第二声道的第一静音插入描述符帧,以及第一声道与第二声道的第二静音插入描述符帧,其中第一静音插入描述符帧包括第一声道与第二声道的柔和噪声参数数据以及第一声道与第二声道的柔和噪声产生辅助信息,且其中第二静音插入描述符帧包括第一声道与第二声道的柔和噪声参数数据,以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息。
依据一方面,均匀量化器被配置为计算n位数,使得n的值等于第一静音插入描述符帧的柔和噪声产生辅助信息所占用的位的值。
依据一方面,活动检测器被配置为,
分析多声道信号的第一声道以将第一声道分类为活动或非活动,及
分析多声道信号的第二声道以将第二声道分类为活动或非活动,以及
如果第一声道及第二声道皆被分类为非活动,则确定帧序列的帧为非活动,否则确定帧为活动。
依据一方面,噪声参数计算器被配置为计算第一声道的第一增益信息以及第二声道的第二增益信息,并提供参数噪声数据作为第一声道的第一增益信息以及第二增益信息。
依据一方面,噪声参数计算器被配置为将第一参数噪声数据与第二参数噪声数据中的至少一些从左/右表示转换为具有中声道及侧声道的中/侧表示。
依据一方面,噪声参数计算器被配置为将第一参数噪声数据与第二参数噪声数据中的至少一些的中/侧表示重新转换为左/右表示,
其中,噪声参数计算器被配置为从重新转换的左/右表示计算第一声道的第一增益信息与第二声道的第二增益信息,以及提供包括在第一参数噪声数据中的第一声道的第一增益信息,以及包括在第二参数噪声数据中的第二增益信息。
依据一方面,噪声参数计算器被配置为计算:
第一增益信息,通过比较:
第一声道的第一参数噪声数据从中/侧表示重新转换为左/右表示的版本;与
第一声道的第一参数噪声数据从中/侧表示转换为左/右表示之前的版本;和/或
第二增益信息,通过比较:
第二声道的第二参数噪声数据从中/侧表示重新转换为左/右表示的版本;与
第二声道的第二参数噪声数据从中/侧表示转换为左/右表示之前的版本。
依据一方面,噪声参数计算器被配置为比较第一参数噪声数据及第二参数噪声数据之间的第二线性组合的能量与预定能量阈值,并且:
当第一参数噪声数据及第二参数噪声数据之间的第二线性组合的能量大于预定能量阈值时,将侧声道噪声形状向量的系数归零;以及
当第一参数噪声数据及第二参数噪声数据之间的第二线性组合的能量小于预定能量阈值时,保持侧声道噪声形状向量的系数。
依据一方面,音频编码器被配置为使用比编码第一参数噪声数据及第二参数噪声数据之间的第一线性组合的位量少的位量对第一参数噪声数据及第二参数噪声数据之间的第二线性组合进行编码。
依据一方面,输出接口被配置为:
使用用于第一数量的频率窗口的第一多个系数来生成具有活动帧的编码音频数据的编码的多声道音频信号;以及
使用用于描述第二数量的频率窗口的第二多个系数来生成第一参数噪声数据、第二参数噪声数据、或第一参数噪声数据与第二参数噪声数据的第一线性组合以及第一参数噪声数据与第二参数噪声数据的第二线性组合,
其中,第一数量的频率窗口大于第二数量的频率窗口。
依据一方面,提供一种音频编码方法,用于为包括活动帧与非活动帧的帧序列生成编码的多声道音频信号,方法包括:
分析多声道信号以确定帧序列中的帧为非活动帧;
计算用于多声道信号的第一声道、和/或用于多声道信号的第一声道与第二声道的第一线性组合的第一参数噪声数据,以及计算用于多声道信号的第二声道、和/或用于多声道信号的第一声道与第二声道的第二线性组合的第二参数噪声数据;
计算指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据;以及
生成编码的多声道音频信号,编码的多声道音频信号具有活动帧的编码音频数据,以及非活动帧的第一参数噪声数据、第二参数噪声数据、及相干性数据。
依据一方面,提供一种计算机程序,用于当运行于计算机或处理器上时,执行上述或下述的方法。
依据一方面,提供一种编码的多声道音频信号,其被组织于帧序列中,所述帧序列包括活动帧与非活动帧,编码的多声道音频信号包括:
活动帧的编码的音频数据;
非活动帧中的第一声道的第一参数噪声数据;
非活动帧中的第二声道的第二参数噪声数据;以及
指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据。
依据一方面,第一音频源为第一噪声源且第一音频信号为第一噪声信号,或第二音频源为第二噪声源且第二音频信号为第二噪声信号,
其中,第一噪声源或第二噪声源被配置为产生第一噪声信号或第二噪声信号,使得第一噪声信号或第二噪声信号与混合噪声信号去相关。
依据一方面,混合器被配置为产生第一声道以及第二声道,使得混合噪声信号在第一声道中的量等于混合噪声信号在第二声道中的量,或是在混合噪声信号在第二声道中的量的80%至120%的范围内。
依据一方面,混合器包括控制输入,用于接收控制参数,其中混合器被配置为依据控制参数控制混合噪声信号在第一声道中及在第二声道中的量。
依据一方面,第一音频源、第二音频源及混合音频源为高斯噪声源。
依据一方面,第一音频源包括第一噪声产生器,用于产生第一音频信号作为第一噪声信号,第二音频源包括去相关器,用于去相关第一噪声信号以产生第二音频信号作为第二噪声信号,及其中混合噪声源包括第二噪声产生器,或
其中第一音频源包括第一噪声产生器,用于产生第一音频信号作为第一噪声信号,其中第二音频源包括第二噪声产生器,用于产生第二音频信号作为第二噪声信号,及其中混合噪声源包括去相关器,用于去相关第一噪声信号或第二噪声信号以产生混合噪声信号,或
其中第一音频源、第二音频源及混合噪声源中的一个包括噪声产生器,用于产生噪声信号,其中第一音频源、第二音频源及混合噪声源中的另一个包括第一去相关器,用于去相关噪声信号,其中第一音频源、第二音频源及混合噪声源中的又一个包括第二去相关器,用于去相关噪声信号,其中第一去相关器与第二去相关器彼此不同,使得第一去相关器与第二去相关器的输出信号彼此为去相关,或
其中第一音频源包括第一噪声产生器,其中第二音频源包括第二噪声产生器,且其中混合噪声源包括第三噪声产生器,其中第一噪声产生器、第二噪声产生器及第三噪声产生器被配置为产生互相为去相关的噪声信号。
依据一方面,第一音频源、第二音频源及混合噪声源中的一个包括伪随机数序列产生器,用于依据种子生成伪随机数序列,以及
其中第一音频源、第二音频源及混合噪声源中的至少两个被配置为使用不同的种子初始化伪随机数序列产生器。
依据一方面,第一音频源、第二音频源及混合噪声源中的一个被配置为使用预存储噪声表进行操作,或
其中第一音频源、第二音频源及混合噪声源中的至少一个被配置为针对帧产生复频谱,使用第一噪声值作为实部,并使用第二噪声值作为虚部,
其中,可选地,至少一个噪声产生器被配置为产生用于频率窗口k的复噪声频谱值,使用索引k处的第一随机值作为实部及虚部中的一个,并使用索引(k+M)处的第二随机值作为实部及虚部中的另一个,
其中,第一噪声值及第二噪声值包括在噪声阵列中,例如从随机数序列产生器、噪声表或噪声过程得出,范围从起始索引到结束索引,起始索引小于M,结束索引等于或小于2M,其中M和k是整数。
依据一方面,混合器包括:
第一振幅元件,用于影响第一音频信号的振幅;
第一加法器,用于将第一振幅元件的输出信号和混合噪声信号的至少一部分相加;
第二振幅元件,用于影响第二音频信号的振幅;
第二加法器,用于将第二振幅元件的输出和混合噪声信号的至少一部分相加,
其中,第一振幅元件执行的影响量与第二振幅元件执行的影响量相等,或其差异小于第一振幅元件执行的影响量的20%。
依据一方面,混合器包括第三振幅元件,用于影响混合噪声信号的振幅,其中第三振幅元件执行的影响量取决于第一振幅元件执行的影响量或第二振幅元件执行的影响量,使得当第一振幅元件执行的影响量或第二振幅元件执行的影响量变小时,第三振幅元件执行的影响量变大。
依据一方面,所述多声道信号产生器还包括:
输入接口,用于接收帧序列中的编码音频数据,帧序列包括活动帧及跟随在活动帧之后的非活动帧;以及
音频解码器,用于解码活动帧的编码音频数据以产生活动帧的解码多声道信号,
其中第一音频源、第二音频源、混合噪声源及混合器在非活动帧中是活动的,以产生非活动帧的多声道信号。
依据一方面,非活动帧的编码音频数据包括静音插入描述符数据,静音插入描述符数据包括柔和噪声数据,指示对于非活动帧的两个声道中的每一个声道的信号能量,并且指示非活动帧中的第一声道及第二声道之间的相干性,以及
其中,混合器被配置为基于指示相干性的柔和噪声数据,对混合噪声信号及第一音频信号或第二音频信号进行混合,以及
其中,多声道信号产生器还包括信号修改器,用于修改第一声道及第二声道、或第一音频信号、或第二音频信号、或混合噪声信号,
其中,信号修改器被配置为由指示第一音频声道及第二音频声道的信号能量的柔和噪声数据控制。
依据一方面,非活动帧的音频数据包括:
用于第一声道的第一静音插入描述符帧及用于第二声道的第二静音插入描述符帧,其中第一静音插入描述符帧包括用于第一声道的柔和噪声参数数据,及用于第一声道与第二声道的柔和噪声产生辅助信息,其中第二静音插入描述符帧包括用于第二声道的柔和噪声参数数据,及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,以及
其中,多声道信号产生器包括控制器,用于控制非活动帧中的多声道信号的生成,使用第一静音插入描述符帧的柔和噪声产生辅助信息来确定用于第一声道与第二声道的柔和噪声产生模式,使用第二静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自第一静音插入描述符帧的柔和噪声参数数据及使用来自第二静音插入描述符帧的柔和噪声参数数据来设定第一声道的能量情况与第二声道的能量情况。
依据一方面,还包括频谱-时间转换器,用于将经过频谱调整和相干性调整的调整后第一声道和调整后第二声道转换为相应的时域表示,以与活动帧的解码的多声道信号的相应声道的时域表示组合或连接。
依据一方面,非活动帧的音频数据包括:
静音插入描述符帧,其中静音插入描述符帧包括用于第一声道及第二声道的柔和噪声参数数据,及用于第一声道与第二声道的柔和噪声产生辅助信息,以及指示非活动帧的第一声道与第二声道之间的相干性的相干性信息,以及
其中,多声道信号产生器包括控制器,用于控制非活动帧中的多声道信号的生成,使用静音插入描述符帧的柔和噪声产生辅助信息来以确定用于第一声道与第二声道的柔和噪声产生模式,使用第二静音插入描述符帧中的相干性信息来设定非活动帧中的第一声道和第二声道之间的相干性,并使用来自静音插入描述符帧的柔和噪声参数数据来设定第一声道的能量情况与第二声道的能量情况。
依据一方面,第一音频源为第一噪声源且第一音频信号为第一噪声信号,或者第二音频源为第二噪声源且第二音频信号为第二噪声信号,
其中,第一噪声源或第二噪声源被配置为产生第一噪声信号或第二噪声信号,使得第一噪声信号或第二噪声信号至少部分相关,及
其中,混合噪声源被配置为产生具有第一混合噪声部分与第二混合噪声部分的混合噪声信号,第二混合噪声部分至少部分地与第一混合噪声部分去相关;以及
其中,混合器被配置为将混合噪声信号的第一混合噪声部分与第一音频信号混合以获得第一声道,并且将混合噪声信号的第二混合噪声部分与第二音频信号混合以获得第二声道。
依据一方面,用于产生具有第一声道及第二声道的多声道信号的方法包括:
使用第一音频源产生第一音频信号;
使用第二音频源产生第二音频信号;
使用混合噪声源产生混合噪声信号;以及
对混合噪声信号与第一音频信号混合以获得第一声道,以及对混合噪声信号与第二音频信号混合以获得第二声道。
依据一方面,提供一种音频编码器,用于为包括活动帧及非活动帧的帧序列生成编码的多声道音频信号,音频编码器包括:
活动检测器,用于分析多声道信号以确定帧序列中的帧是非活动帧;
噪声参数计算器,用于计算多声道信号的第一声道的第一参数噪声数据,并用于计算多声道信号的第二声道的第二参数噪声数据;
相干性计算器,用于计算指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据;以及
输出接口,用于产生编码的多声道音频信号,其具有活动帧的编码音频数据,以及非活动帧的第一参数噪声数据、第二参数噪声数据、以及相干性数据。
依据一方面,相干性计算器被配置为计算相干值,并对相干值进行量化以获得量化的相干值,其中输出接口被配置为使用量化的相干值作为编码的多声道信号中的相干性数据。
依据一方面,相干性计算器被配置为:
从非活动帧中的第一声道与第二声道的复频谱值计算实中间值与虚中间值;
计算非活动帧中的第一声道的第一能量值和第二声道的第二能量值;以及
使用实中间值、虚中间值、第一能量值及第二能量值计算相干性数据,或
平滑实中间值、虚中间值、第一能量值及第二能量值中的至少一个,并使用至少一个平滑值计算相干性数据。
依据一方面,相干性计算器被配置为计算实中间值,作为非活动帧的第一声道与第二声道的对应频率窗口的复频谱值的乘积的实部的和,或
计算虚中间值,作为非活动帧的第一声道与第二声道的对应频率窗口的复频谱值的乘积的虚部的和。
依据一方面,相干性计算器被配置为对平滑的实中间值求平方以及对平滑的虚中间值求平方,并将平方值相加以获得第一分量数,
其中,相干性计算器被配置为将平滑后的第一与第二能量值相乘以获得第二分量数,并且将第一分量数与第二分量数组合以获得相干值的结果数,相干性数据基于结果数。
依据一方面,提供一种音频编码器,其中相干性计算器被配置为计算结果数的平方根,以获得相干值,相干性数据系基于相干值。
依据一方面,相干性计算器被配置为使用均匀量化器对相干值进行量化,以获得量化的相干值,作为N位数以作为相干性数据。
依据一方面,提供一种音频编码器,
其中,输出接口被配置为生成第一声道的第一静音插入描述符帧和第二声道的第二静音插入描述符帧,其中第一静音插入描述符帧包括第一声道的柔和噪声参数数据以及第一声道与第二声道的柔和噪声产生辅助信息,并且其中第二静音插入描述符帧包括第二声道的柔和噪声参数数据以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息,或
其中,输出接口被配置为生成静音插入描述符帧,其中静音插入描述符帧包括第一声道与第二声道的柔和噪声参数数据以及第一声道与第二声道的柔和噪声产生辅助信息,以及指示非活动帧中的第一声道与第二声道之间的相干性的相干性信息。
依据一方面,均匀量化器被配置为计算N位数,使得N的值等于第一静音插入描述符帧的柔和噪声产生辅助信息所占用的位的值。
依据一方面,用于为包括活动帧与非活动帧的帧序列生成编码的多声道音频信号的音频编码方法,所述方法包括:
分析多声道信号以确定帧序列中的帧为非活动帧;
计算用于多声道信号的第一声道的第一参数噪声数据,并计算用于多声道信号的第二声道的第二参数噪声数据;
计算指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据;以及生成编码的多声道音频信号,其具有活动帧的编码音频数据,以及非活动帧的第一参数噪声数据、第二参数噪声数据、及相干性数据。
依据一方面,编码的多声道音频信号被组织于帧序列中,帧序列包括活动帧与非活动帧,编码的多声道音频信号包括:
活动帧的编码的音频数据;
非活动帧中的第一声道的第一参数噪声数据;
非活动帧中的第二声道的一第二参数噪声数据;以及
指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据。
附图
图1显示编码器的示例,特别是将帧分类为活动的或非活动的。
图2显示编码器及解码器的示例。
图3a至3f显示可以在解码器中使用的多声道信号发生器的示例。
图4显示编码器及解码器的示例。
图5显示噪声参数量化阶段的示例。
图6显示噪声参数去量化阶段的示例。
可以在示例中实现的一些方面
在本说明书中,我们特别描述一种新技术,例如用于离散编码立体声信号的DTX和CNG。并非操作立体声信号的单声道降混,而是得出、联合编码及传输两个声道的噪声参数。在解码器中(或更一般地在多声道产生器中),三个独立的柔和噪声信号可以基于单一宽带声道间相干值进行混合,所述相干值例如伴随两组噪声参数被传输。示例的一些方面在部分示例中可以涵盖以下方面中的至少一个:
·解码器中的CNG,例如通过混合三个独立的噪声信号。在解码立体声SID并重构左右声道的噪声参数后,可能会生成两个噪声信号,例如作为相关和不相关噪声的混合。为此,可以将两个声道的一个共同噪声源(用作相关噪声源)和两个单独的噪声源(提供不相关噪声)混合在一起。混合过程可由立体声SID中传输的声道间相干值控制。混合后,两个混合噪声信号分别使用左右声道的重构噪声参数进行频谱整形。
·噪声参数的联合编码可以从立体声信号的两个声道中得出。为了保持立体声SID的低比特率,可以在将噪声参数编码到立体声SID之前先进一步压缩噪声参数。这可以例如通过将噪声参数的左/右声道表示转换为中/侧表示,并用比中噪声参数少的位数对侧噪声参数进行编码来达成。
·用于双声道DTX的SID(立体声SID)。此SID可以包含立体声信号的两个声道的噪声参数以及单一宽带声道间相干值和指示两个声道的相等噪声参数的标志。
以下本说明书将显示的示例可以在装置、设备、系统、方法、控制器及存储指令的非暂时性存储单元中实现,当处理器执行所存储的指令时,这些指令使处理器执行本说明书所述的技术(例如方法(如操作序列))。
特别地,以下块中的至少一个可以被控制器所控制。
示例
在详细讨论本示例的各种方面之前,先快速概述一些最重要的方面:
1)图3a-3f显示用于(例如在解码器处)产生多声道音频信号的多声道信号产生器(例如由至少一个第一信号或声道以及一个第二音频信号或声道所形成)的示例。多声道音频信号(最初以多个去相关声道的形式)可能受到振幅元件的影响(例如缩放)。影响量可以基于在编码器处估计的第一及第二音频信号之间的相干性数据。第一及第二音频信号可以与共同混合信号(其也可以由相干性数据进行去相关和影响(如缩放))进行混合。对混合信号的影响量可以为使得当混合信号按低权重(例如0或大于但例如接近于0)缩放时,第一及第二音频信号按高权重缩放(例如,1或小于但例如接近于1),反之亦然。对混合信号的影响量可以为使得在编码器处测量的高相干性导致第一及第二音频信号按低权重(例如0或大于但例如接近0)缩放,并且在编码器处测量的高相干性导致第一及第二音频信号按高权重(例如1或小于但例如接近1)缩放。如图3a-3f所示的技术可用于实现柔和噪声产生器(CNG)。
2)图1、2及4显示编码器的示例。编码器可以将音频帧分类为活动的或非活动的。若音频帧为非活动的,则在比特流中仅编码一些参数噪声数据(例如,提供参数噪声形状,其给出噪声形状的参数表示,而无需提供噪声信号本身),并且还可以提供两个声道之间的相干性数据。
3)图2及4显示解码器的示例。解码器可以生成音频信号(柔和噪声),例如通过:
a.使用如图3a-3f所示的技术的一个(上述第1点)(特别是考虑到编码器提供的相干值并将其作为权重应用于振幅元件);以及
b.使用在比特流中编码的参数噪声数据对生成的音频信号(柔和噪声)进行整形。
值得注意的是,编码器不必为非活动帧提供完整的音频信号,而只需提供相干值以及噪声形状的参数表示,从而减少要在比特流中编码的位量。
信号产生器(例如解码器侧),CNG
图3a-3f显示了CNG的示例,或更一般而言,一种多声道信号产生器200,用于生成具有第一声道201以及第二声道203的多声道信号204(在本说明书中,生成的音频信号221及223被认为是噪声,但也可能是非为噪声的不同类型的信号)。首先参考图3f,其显示一种一般性的示例,而图3a-3e则显示特定示例。
第一音频源211可以是第一噪声源,这里可以指示生成第一音频信号221,其可以是第一噪声信号。混合噪声源212可以产生混合噪声信号222。第二音频源213可以产生第二音频信号223,其可以是第二噪声信号。多声道信号产生器200可将第一音频信号(第一噪声信号)221与混合噪声信号222混合,将第二音频信号(第二噪声信号)223与混合噪声信号222混合(另外或可替代地,第一音频信号221可以与混合噪声信号222的版本221a混合,且第二音频信号223可以与混合噪声信号222的版本221b混合,其中版本221a和221b可以不同,例如,彼此相差20%;版本221a和221b中的每一个可以是例如共同信号222的放大和/或缩小的版本)。因此,可以从第一音频信号(第一噪声信号)221和混合噪声信号222中获得多声道信号204的第一声道201。类似地,可以通过混合噪声信号222与第二音频信号223的混合,获得多声道信号204的第二声道203。需注意,这里的信号可以在频域中,并且k表示特定索引或系数(与特定频率窗口相关联)。
从图3a-3f中可以看出,第一音频信号221、混合噪声信号222和第二音频信号223可以彼此去相关。这可以例如通过对相同信号去相关(例如在去相关器处)和/或通过独立生成噪声(如以下提供的示例)来获得。
混合器208可以被实现用于将第一音频信号221及第二音频信号223与混合噪声信号222混合。此混合可以是在通过缩放对第一音频信号221、混合噪声信号222及第二音频信号223进行加权(例如在振幅元件208-1、208-2、208-3处)后加总信号的类型(例如在加法器阶段206-1及206-3处)。混合是“加权后再相加到一起”的类型。图3a-3f显示了实际信号处理,其用于生成噪声信号Nl[k]及Nr[k],其中加法(+)元件表示两个信号的采样加法(k是频率窗口的索引)。
振幅元件(或加权元件、或缩放元件)208-1、208-2及208-3可以例如通过使用合适的系数来缩放第一音频信号221、混合噪声信号222及第二音频信号223而获得,并且可以输出第一音频信号221的加权版本221'、混合噪声信号222的加权版本222'、及第二音频信号223的加权版本223'。合适的系数可以是sqrt(coh)以及sqrt(1-coh),并且可以例如从在信令特定描述符帧中编码的相干性信息中获得(亦见于下文)(sqrt在此指平方根运算)。相干性“coh”将在下面详细讨论,并且可以是例如下面由“c”或“cind”或“cq”所表示的,例如编码在比特流232的相干性信息404中(参见下文,结合图2和4)。值得注意的是,混合噪声信号222例如可以通过以相干值的平方根为权重进行缩放,而第一音频信号221和第二音频信号222可以通过以相干性coh与1的互补值的平方根为权重进行缩放。然而,混合噪声信号222可以被认为是共模信号,其一部分被混合到第一音频信号221的加权版本221'和第二音频信号223的加权版本223',以分别获得多声道信号204的第一声道201和多声道信号204的第二声道203。在一些情况下,第一噪声源211或第二噪声源213可被配置为生成第一噪声信号221或第二噪声信号223,使得第一噪声信号221和/或第二噪声信号223与混合噪声信号222去相关(参见以下参考图3b-3e的叙述)。
第一音频源211、第二音频源213和混合噪声源212中的至少一个(或每一个)可以是高斯噪声源。
在3a的示例中,第一音频源211(在此以211a表示)可以包括或连接到第一噪声产生器,第二音频源213(213a)可以包括或连接到第二噪声产生器。混合噪声源212(212a)可以包括或连接到第三噪声产生器。第一噪声产生器211(211a)、第二噪声产生器213(213a)和第三噪声产生器212(212a)可以产生相互去相关的噪声信号。
在示例中,第一音频源211(211a)、第二音频源213(213a)和混合噪声源212(212a)中的至少一个可以使用预存储噪声表来操作,因此可以提供随机序列。
在一些示例中,第一音频源211、第二音频源213和混合噪声源212中的至少一个可以为帧生成复频谱,使用第一噪声值作为实部,并使用第二噪声值作为虚部。可选地,至少一个噪声产生器可以为频率窗口k生成复噪声频谱值(例如系数),使用在索引k处的第一随机值作为实部和虚部中的一个,并使用索引(k+M)处的第二随机值作为实部和虚部中的另一个。第一噪声值和第二噪声值可以被包括在噪声阵列中,例如从随机数序列产生器、噪声表或噪声过程得出,其范围从起始索引到结束索引,起始索引小于M,结束索引等于或小于2×M(即M的两倍)。M和k可以是整数(k是信号的频域表示中特定位频率窗口的索引)。
每个音频源211、212、213可以包括至少一个音频源产生器(噪声产生器),其例如按照N1[k]、N2[k]、N3[k]产生噪声。
图3a-3f的多声道信号产生器200可以例如用于解码器200a、200b(200')。特别地,多声道信号产生器200可被视为图4中的柔和噪声产生器(CNG)220的一部分。解码器200通常可用于解码已由编码器编码的信号,或通过生成将由从比特流获得的能量信息整形的信号,以生成与输入到编码器的原始输入音频信号相对应的音频信号。在一些示例中,在具有语音(或通常为非空音频信号)的帧和静音插入描述符帧之间进行分类。如本说明书所解释的,静音插入描述符帧(SID)(亦称“非活动帧308”,例如可以被编码为SID帧241和/或243)一般以低比特率信息提供,因此会比正常语音帧(所谓的“活动帧306”,亦见下文)更低频率地提供。此外,存在于静音插入描述帧(SID,非活动帧308)中的信息通常是有限的(并且可以实质上对应于信号的能量信息)。
尽管如此,应当理解可以用多声道信号产生器产生的多声道噪声204来补充SID帧的内容。基本上,音频源211、212、213可以处理彼此独立且不相关的信号(例如,噪声)。尽管第一音频信号221、混合噪声信号222和第二音频信号223可以由编码器提供的相干性信息进行缩放并插入比特流中。从图3a-3f中可以看出,混合噪声信号222的相干值可以相同,为第一音频信号221和第二音频信号223提供共模信号,因此允许获得第一声道201和第二声道203的多声道信号204。相干性信号通常是0和1之间的值:
-相干性等于0表示原始的第一音频声道(例如L,301)和第二音频声道(例如R,303)彼此完全不相关,并且混合噪声信号222的振幅元件208-2对混合噪声信号222的缩放为0,这将导致第一音频信号221和第二音频信号223不与任何共模信号混合(通过与恒定为0的信号混合),以及输出声道201、203将与多声道信号204的第一噪声信号221和第二噪声信号223基本相同。
-相干性等于1表示原始的第一音频声道(例如L,301)和第二音频声道(例如R,303)应相同,并且振幅元件208-1和208-3对输入信号的缩放为0,然后第一和第二声道等于混合噪声信号222(其在振幅元件208-2处的缩放为1)。
-介于0和1中间的相干性将导致上述两种情况之间的中间混合。
现在讨论混合器206和/或CNG 220的一些方面和变体。
第一音频源(211)可以是第一噪声源,第一音频信号(221)可以是第一噪声信号,或者第二音频源(213)可以是第二噪声源,第二音频信号(223)可以是第二噪声信号。第一噪声源(211)或第二噪声源(213)可被配置为产生第一噪声信号(221)或第二噪声信号(223),使得第一噪声信号(221)或第二噪声信号(223)与混合噪声信号(222)去相关。
混合器(206)可以被配置为产生第一声道(201)和第二声道(203),使得在第一声道(201)中的混合噪声信号(222)的量等于在第二声道(203)中的混合噪声声信号(222)的量,或者在第二声道(203)中混合噪声信号(222)的量的80%到120%的范围内(例如,其部分221a和221b是在80%到120%的范围内彼此不同并且与原始混合噪声信号222不同)。
在某些情况下,
第一振幅元件(208-1)执行的影响量和第二振幅元件(208-3)执行的影响量彼此相等(例如,当部分221a和221b之间没有区别时),或者
第二振幅元件(208-3)执行的影响量与第一振幅元件(208-1)执行的影响量的差异小于第一振幅元件(208-1)执行的影响量的20%(例如,当部分221a和221b之间的差异小于20%时)。
混合器(206)和/或CNG 220可以包括用于接收控制参数(404,c)的控制输入。因此,混合器(206)可以被配置为响应于控制参数(404,c)来控制第一声道(201)及第二声道(203)中的混合噪声信号(222)的量。
在图3a-3f中,显示出混合噪声信号222经受系数sqrt(coh),并且第一信号221和第二音频信号223经受系数sqrt(1-coh)。
如上所述,图3a显示CNG 220a,其中第一源211a(211)、第二源213a(213)和混合噪声源212a(212)包括不同的产生器。这不是绝对必要的,并且可以有多种变体。
更一般而言:
1.第一种变体的CNG 220b(如图3b):
a.第一音频源211b(211)可以包括第一噪声产生器,用于产生第一音频信号(221)作为第一噪声信号,
b.第二音频源213b(213)可以包括去相关器,用于对第一噪声信号(221)进行去相关以生成第二音频信号(213)作为第二噪声信号(例如,在经过去相关后从第一音频信号中获得的第二音频信号),以及
c.混合噪声源212b(212)可以包括第二噪声产生器(其与第一噪声产生器本身不相关);
2.第二种变体的CNG 220c(如图3c):
a.第一音频源211c(211)可以包括第一噪声产生器,用于产生第一音频信号(221)作为第一噪声信号,
b.第二音频源213c(213)可以包括第二噪声产生器,用于产生第二音频信号(223)作为第二噪声信号(例如,第二噪声产生器与第一噪声产生器本身不相关),以及
c.混合噪声源212c(212)可包括去相关器,用于对第一噪声信号(221)或第二噪声信号(223)进行去相关以产生混合噪声信号(222);
3.第三种变体的CNG 220d(如图3d及3e):
a.第一音频源211d或211e(211)、第二音频源213d或213e(213)及混合噪声源212d或212e(212)中的一个可以包括噪声产生器,用于产生噪声信号,
b.第一音频源211d或211e(211)、第二音频源213d或213e(213)及混合噪声源212d或212e(212)中的另一个可以包括第一去相关器,用于对噪声信号去相关,以及
c.第一音频源211d或211e(211)、第二音频源213d或213e(213)及混合噪声源212d或212e(212)中的又一个可以包括第二去相关器,用于对噪声信号去相关,
d.第一去相关器和第二去相关器可以互不相同,使得第一去相关器和第二去相关器的输出信号互不相关。
4.第四种变体的CNG 220(如图3a):
a.第一音频源211a(211)包括第一噪声产生器,
b.第二音频源213a(213)包括第二噪声产生器,
c.混合噪声源212a(212)包括第三噪声产生器,
d.第一噪声产生器、第二噪声产生器及第三噪声产生器可以生成相互去相关的噪声信号(例如,三个产生器彼此本身不相关)。
5.第五种变体:
a.第一音频源(211)、第二音频源(213)及混合噪声源(212)中的一个可以包括伪随机数序列产生器,用于依据种子生成伪随机数序列,
b.第一音频源(211)、第二音频源(213)及混合噪声源(212)中的至少两个可以使用不同的种子来初始化伪随机数序列产生器。
6.第六种变体:
a.第一音频源(211)、第二音频源(213)及混合噪声源(212)中的至少一个可以使用预存储噪声表进行操作,
b.可选地,第一音频源(211)、第二音频源(213)及混合噪声源(212)中的至少一个可以生成帧的复频谱,使用第一噪声值作为实部,并使用第二噪声值作为虚部,
c.可选地,至少一个噪声产生器可以产生用于频率窗口k的复噪声频谱值,其使用索引k处的第一随机值作为实部及虚部中的一个,并使用索引(k+M)处的第二随机值作为实部及虚部中的另一个(第一噪声值及第二噪声值包括在噪声阵列中,例如从随机数序列产生器、噪声表或噪声过程得出,范围从起始索引到结束索引,起始索引小于M,
结束索引等于或小于2×M,其中M和k是整数)。
如从图4可以看出,除了如图3所示的CNG 220之外,解码器200'(200a、200b)还可以包括:输入接口210,用于从帧序列中接收编码音频数据,帧序列包括活动帧及跟随在活动帧之后的非活动帧;以及音频解码器,用于解码活动帧的编码音频数据以产生活动帧的解码多声道信号,其中第一音频源211、第二音频源213、混合噪声源212及混合器206是在非活动帧中为活动的,以产生非活动帧的多声道信号。
需注意,活动帧是那些被编码器分类为具有语音(或任何其他类型的非噪声声音)的帧,而非活动帧是那些被分类为具有静音或只有噪声的帧。
CNG 220(220a-220e)的任何示例可由合适的控制器进行控制。
编码器
现在讨论编码器,编码器可以对活动帧和非活动帧进行编码。对于非活动帧,编码器可以编码参数噪声数据(例如噪声形状和/或相干值)但不完全编码音频信号。需要注意的是,可以相对于活动音频帧减少对非活动音频帧的编码,以减少比特流中要编码的信息量。此外,与在活动帧中编码的信息相比,非活动帧的参数噪声数据(例如噪声形状)对于每个频带可以具有更少的信息和/或可以具有更少的窗口。参数噪声数据可以在左/右域或另一个域(例如中/侧域)中给出,例如通过提供第一和第二声道的参数噪声数据之间的第一线性组合以及第一和第二声道的参数噪声数据之间的第二线性组合(在某些情况下,还可以提供不与第一和第二线性组合相关联,但在左/右域中给出的增益信息)。第一和第二线性组合通常彼此线性独立。
编码器可以包括活动检测器,其将帧分类为活动的还是非活动的。
图1、2及4显示编码器300a和300b(当不需要区分编码器300a和编码器300b时也称为300)的示例。每个音频编码器300可以为输入信号304的帧序列生成编码的多声道音频信号232。输入信号304在此被认为可区分为第一声道301(也表示为左声道或“l”,其中“l”的大写英文字母为“L”,是英文“left”的第一个字母)以及第二声道303(或“r”,其中“r”的大写英文字母为“R”,是英文“right”的第一个字母)。
编码的多声道音频信号232可以定义于帧序列中,其可以例如在时域中(例如,每个样本“n”可以指特定时刻并且帧的样本可以形成序列,如输入音频信号的采样序列或对输入音频信号进行滤波后的序列)。
编码器300(300a、300b)可包括活动检测器380,其未在图2及4中示出(尽管在其中部份示例中被实施),但在图1中示出,图1显示输入信号304的每一帧可被分类为“活动帧306”或“非活动帧308”。非活动帧308使得信号被认为是静音的(且例如只有静音或噪声),而活动帧306可能具有对无噪声音频信号(例如语音、音乐等)的一些检测。
在由编码器300编码的编码多声道音频信号232(例如比特流)中,关于帧是活动帧306还是静音帧308的信息可以例如在所谓的“柔和噪声产生辅助信息”402(p_frame)中进行信号发送,其亦称为“辅助信息”。
图1显示预处理阶段360,其可以确定(例如分类)帧是活动帧306还是静音帧308。这里要注意的是,输入信号304的声道301及303用大写字母表示,如L(301,左声道)和R(303,右声道),以指示他们在频域中。从图1中可以看出,可以应用频谱分析步骤阶段370(第一频谱分析370-1用于第一声道301,L;以及第二阶段370-3用于第二声道303,R)。频谱分析阶段370可以针对输入信号304的每一帧执行并且可以例如基于谐波测量。值得注意的是,在一些示例中,由阶段370对第一声道301执行的频谱分析可以与对同一帧中的第二声道303执行的频谱分析分开进行。在一些情况下,频谱分析阶段370可以包括能量相关参数的计算,例如预定频带范围的平均能量以及总平均能量。
可以进行活动检测阶段380(在搜索语音的情况下可以将其视为语音活动检测)。第一活动检测阶段380-1可以应用于第一声道301(并且特别地应用于在第一声道上执行的测量),并且第二活动检测阶段380-3可以应用于第二声道303(并且特别地应用于在第二声道上执行的测量)。在示例中,活动检测阶段380可以估计输入信号304中的背景噪声的能量并且使用所述估计来计算信噪比,将其与信噪比阈值进行比较以确定帧是被分类为活动帧还是非活动帧(即,计算的信噪比超过信噪比阈值表示帧被分类为活动;且计算的信噪比低于信噪比阈值表示帧被分类为非活动)。在示例中,阶段380可以将分别由频谱分析阶段370-1和370-3获得的谐波与一个或两个谐波阈值(例如,第一声道301的第一阈值和第二声道303的第二阈值)进行比较。在这两种情况下,不仅可以将每个帧分类,还可以将每个帧的每个声道分类为活动声道或非活动声道。
可以执行判断381,并且基于此判断,可以决定(如标识为开关381')是执行离散立体声处理306a还是执行立体声不连续传输处理(立体声DTX)306b。值得注意的是,在活动帧(及离散立体声处理306a)的情况下,可以根据任何策略或处理标准或过程来执行编码,因此在此不进一步详细分析。以下的大部分讨论都将与立体声DTX 306b相关。
值得注意的是,在示例中,仅当声道301及303两者分别被阶段380-1及380-3分类为非活动时,帧才(在阶段381)被分类为非活动帧。因此,可以避免如上所述在活动检测决策中的问题。特别地,没有必要为每个帧的每个声道用信号通知其活动/非活动的分类(从而减少信号通知),并且固有地获得声道之间的同步。此外,在本说明书所讨论的解码器中,可以使用第一声道301及第二声道303之间的相干性并生成一些噪声信号,这些噪声信号根据为信号304获取的相干性进行相关或去相关。于此,将详细讨论用于编码非活动帧的编码器300(300a、300b)的元件。如所解释的,可以使用任何其他技术来编码活动帧308,因此这里不讨论。
一般而言,编码器300a、300b(300)可以包括用于计算第一声道301及第二声道303的参数噪声数据401、403的噪声参数计算器3040。噪声参数计算器3040可以计算用于第一声道301及第二声道303的参数噪声数据401、403(例如索引和/或增益)。因此噪声参数计算器3040可以在帧序列中提供编码音频数据232,所述帧序列可以包括活动帧306及非活动帧308(其可以跟随在活动帧306之后)。特别地,在非活动帧308的情况下,编码音频数据232可以被编码为一个或两个静音插入描述符帧(SID)241、243。在一些示例中(例如,在图2中),只有仅一个单个SID帧,在其他一些示例中,可以有两个SID帧(例如,在图4中)。
非活动帧308可以特别地包括以下至少一项:
-柔和噪声产生辅助信息(例如,402、p_frame);
-第一声道301的柔和噪声参数数据401或第一声道301的柔和噪声参数数据与第二声道的柔和噪声参数数据的第一线性组合(vl,ind、vm,ind p_noise、增益gl,q);
-第二声道303的柔和噪声参数数据403或第一声道301的柔和噪声参数数据与第二声道的柔和噪声参数数据的第二线性组合(vr,ind、vs,ind p_noise、增益gr,q);
-相干性信息(相干性数据)(c,404)。
在一些示例中,第一静音插入描述符帧241可以包括以上列表的前两项,并且第二静音插入描述符帧243可以包括特定数据字段中的最后两个特征。尽管如此,不同的协议可以提供不同的数据字段或不同的比特流组织。然而在某些情况下(例如,在图2中),两个声道的噪声参数可能只有单一个非活动帧。
将表明的是,相干性信息(例如“静音插入描述符”的一部分)可以包括指示相干性信息(如相干性数据)的一个单一值(例如以几个位编码,如四位),例如同一非活动帧308的第一声道301与第二声道303之间的相干性。另一方面,柔和噪声参数数据401、403可以指示对于每个声道301、303的非活动帧308的信号能量(例如,其可以实质上提供封包),或者无论如何可以提供噪声形状信息。封包或噪声形状信息的形式可以是频率窗口的多个系数和每个声道的增益。可以在阶段312(见下文)使用原始输入声道(301、303)来获得噪声形状信息,然后对噪声形状参数向量进行中/侧编码。将表明的是,在解码器中可能产生一些可能受相干性信息404影响的噪声声道(如图3所示的201、203)。因此,由CNG 220(220a-220)生成的噪声声道201、203可以被由控制噪声数据(柔和噪声参数数据401、403、2312)所控制的信号修改器250修改,所述控制噪声数据指示用于第一音频声道Lout和第二音频声道Rout的信号能量。
音频编码器300(300a、300b)可以包括相干性计算器320,其可以获得用于编码在比特流(例如信号232、帧241或243)中的相干性信息(404)。相干性信息(c,404)可以指示非活动帧308中的第一声道301(如左声道)与第二声道303(如右声道)之间的相干情况。其示例将在后面讨论。
编码器300(300a、300b)可以包括输出接口310,其被配置用于生成多声道音频信号232(比特流),其具有活动帧306的编码音频数据和非活动帧308的第一参数数据(柔和噪声参数数据)401(p_noise,左)、第二参数噪声数据(p_noise,右、403)以及相干性数据c(404)。第一参数数据401可以是第一声道(如左声道)或第一与第二声道的第一线性组合(例如中声道)的参数数据。第二参数数据403可以是第二声道(如右声道)或第一与第二声道的第二线性组合(例如侧声道)的参数数据,其中第二线性组合不同于第一线性组合。
在比特流232中,还可以有辅助信息402,其包括当前帧是活动帧306还是非活动帧308的指示,例如以通知解码器要使用的解码技术。
特别地,图4显示噪声参数计算器(计算噪声参数阶段)3040,其包括用于计算第一声道301的柔和噪声参数数据401的第一噪声参数计算器阶段304-1、以及用于计算第二声道303的第二柔和噪声参数403的第二噪声参数计算器阶段304-3。图2显示了一个示例,其中噪声参数被联合处理和量化。内部部分(例如将噪声形状向量转换为M/S表示)如图5所示。基本上,我们可能有第一声道M的噪声形状以及第二声道S的噪声形状,其可以编码为中索引及侧索引,而左声道301的噪声形状的增益和右声道303的噪声形状的增益也可以被编码。
相干性计算器320可以计算指示第一声道L和第二声道R之间的相干情况的相干性数据(相干性信息)c(404)。在这种情况下,相干性计算器320可以在频域中操作。
可以看出,相干性计算器320可以包括计算声道相干性阶段320',其获得相干值c(404)。接着在其下游,可以使用统一量化器阶段320”。因此可以获得相干值c的量化版本cind
以下将说明如何获得相干性以及如何对其进行量化。
在一些示例中,相干性计算器320可以:
从非活动帧中的第一声道与第二声道(303)的复频谱值计算实中间值和虚中间值;
计算非活动帧中的第一声道的第一能量值以及第二声道(303)的第二能量值;以及
使用实中间值、虚中间值、第一能量值和第二能量值计算相干性数据(404,c),和/或
平滑实中间值、虚中间值、第一能量值和第二能量值中的至少一个,并使用至少一个平滑值计算相干性数据。
相干性计算器320可以对平滑后的实中间值求平方,以及对平滑后的虚中间值求平方,并将平方值相加以获得第一分量数。相干性计算器320可以将平滑后的第一和第二能量值相乘以获得第二分量数,并且组合第一分量数与第二分量数以获得相干值的结果数,相干性数据基于所述结果数。相干性计算器320可以计算结果数的平方根以获得作为相干性数据的基础的相干值。以下提供数个公式的示例。
现在解释如何获得要在解码器处呈现的噪声形状(或其他信号能量)的形状,将被编码的基本上是原始输入信号302的噪声的形状(或与能量有关的其他信息),其在解码器处将被应用于生成的噪声203并将对其进行整形,以便呈现噪声252(输出音频信号),其类似于信号304的原始噪声。
首先,需注意的是,上述信号304并未被编码器编码在比特流232中。然而,噪声信息(如能量信息、封包信息)可被编码在比特流232中,以便随后产生具有由编码器编码的噪声形状的噪声信号。
可以将获得噪声形状方块312应用于编码器的输入信号304。“获得噪声形状”方块312可以计算输入信号304中噪声的频谱封包的低分辨率参数表示1312。这可以例如通过计算输入信号304的频域表示的频带中的能量值来完成。能量值可以被转换成对数表示(如果需要)并且可以被压缩成较低数量(N)的参数,这些参数稍后在解码器中使用于生成柔和噪声。噪声的这些低分辨率表示在此被称为“噪声形状”1312。因此,“获得噪声形状”方块312的下游不应被理解为表示输入信号304,而是表示其噪声形状(在各个声道中噪声频谱封包的参数表示)。这很重要,因为编码器可能只在SID帧中传输噪声频谱封包的这种较低分辨率的表示。因此,在图2中,所有“噪声参数计算器”部分(3040)都可以理解为仅对这些与噪声相关的参数向量(例如标识为vl、vr、vm,ind、及vs,ind)进行操作,而不对信号304的信号表示进行操作。
图5显示“噪声参数计算器”部分3040(联合噪声形状量化)的示例。可以应用L/R到M/S转换器阶段314来获得噪声形状1312的中间声道表示vm(声道L和R的噪声形状的第一线性组合)和噪声形状1312的侧声道表示vr(声道L和R的噪声形状的第二线性组合)。以下将展示如何获得它。因此,噪声形状304可能会被分成两个声道vm和vr
接着,在归一化阶段316,噪声形状1312的中声道表示vm和噪声形状1312的侧声道表示vr中的至少一个可以被归一化,以获得噪声形状1312的中声道表示vm的归一化版本vm,n,和/或噪声形状1312的侧声道表示vr的归一化版本vr,n
接着,量化阶段(例如向量量化,VQ)318可以应用于信号1304的归一化版本,例如以噪声形状1312的归一化的中声道表示vm,n的量化版本vm,ind和噪声形状1312的归一化的侧声道表示vs,n的量化版本vs,ind的形式。可以使用向量量化(例如,通过多阶段向量量化器),因此,索引vm,ind[k](k是特定频率窗口的索引)可以描述噪声形状的中表示,并且索引vs,ind[k]可以描述噪声形状的侧表示。因此,索引vm,ind[k]和vs,ind[k]可以在比特流232中编码为第一声道的柔和噪声参数数据和第二声道的柔和噪声参数数据的第一线性组合以及第一声道的柔和噪声参数数据和第二声道的柔和噪声参数数据的第二线性组合。
在去量化阶段322,可以对噪声形状1312的归一化中声道表示vm,n的量化版本vm,ind和噪声形状1312的归一化侧声道表示vs,n的量化版本vs,ind执行去量化。
M/S到L/R转换器324可以应用于噪声形状1312的去量化的中表示vm,q和侧表示vs,q的去量化版本,以获得原始(左右)声道v’l和v’r中的噪声形状1312的版本。
随后,在阶段326,可以计算增益gl和gr。值得注意的是,增益对于同一非活动帧306的同一声道(v’l和v’r)的噪声形状的所有样本都是有效的。增益gl和gr可以通过考虑噪声形状表示v’l和v’r中的频率窗口的总体(或几乎其总体)而获得。
增益gl可以通过比较以下两者而获得:
-L/R域(L/R到M/S转换器314的上游)中的第一声道301的噪声形状的频率窗口的值;与
-一旦在L/R域中被重新转换,第一声道301(M/S到L/R转换器324的下游)的噪声形状1312的频率窗口的值。
类似地,增益gr可以通过比较以下两者而获得:
-L/R域(L/R到M/S转换器314的上游)中的第二声道303的噪声形状的系数的值;与
-在L/R域中重新转换的第二声道303(M/S到L/R转换器324的下游)的噪声形状1312的系数的值。
下面提出如何获得增益的示例。然而,在线性域中,增益可以例如与多个分数的几何平均值成正比,每个分数是L/R域中特定声道的噪声形状的系数(L/R到M/S转换器314的上游)和同一声道在L/R域下游再次转换到M/S到L/R转换器324的系数之间的分数。在对数域中,对于每个声道,增益可被获得为与代数平均值成正比,代数平均值为L/R域(L/R到M/S转换器314的上游)中噪声形状的FD版本的系数以及在L/R域下游重新转换到M/S到L/R转换器324的噪声形状的系数之间的差值。通常,在对数或标量域中,增益可以提供L/R到M/S转换和量化之前左或右声道的噪声形状的版本与在去量化和M/S到L/R重新转换之后左或右声道的噪声形状的版本之间的关系。
量化阶段328可以应用于增益gl以获得其标示为gl,q的量化版本,且应用于增益gr以获得其标示为gr,q的量化版本,其可以从非量化增益gr获得。增益gl,q和gr,q可以被编码在比特流232中(例如,作为柔和噪声参数数据401和/或403)以被解码器读取。
在一些示例中,还可以将侧声道噪声形状向量的能量(例如,在归一化之前,如在阶段314和316之间)与预定能量阈值α(其可以是正实数值)(在本示例中是0.1,但也可以是不同的值,例如介于0.05和0.15之间的值)进行比较。在比较方块435中,可以确定非活动帧308的噪声形状的侧表示vs是否具有足够的能量。如果噪声形状的侧表示vs的能量小于能量阈值α,则将二元结果(“无侧标志”)以辅助信息402的方式信令于比特流232中。这里假设,如果噪声形状的侧表示vs的能量小于能量阈值α,则无侧标志=1,如果噪声形状的侧表示vs的能量大于能量阈值α,则无侧标志=0。在某些情况下,在能量正好等于能量阈值的情况下,根据特定应用,所述标志可以是1或0。方块436否定无侧标志436’的二元值(如果方块436的输入为1,则输出436'为0;如果方块436的输入为0,则输出436'为1)。方块436被显示为用于提供标志的相反值的输出436'。因此,如果噪声形状的侧表示vs的能量大于能量阈值,则值436'可以是1,如果噪声形状的侧表示vs的能量小于预定阈值,那么值436'是0。需注意,去量化的值vs,q可以乘以二元值436'。这只是获得以下信息的一种可能方式,如果噪声形状的侧表示的能量vs小于预定能量阈值α,则噪声形状的去量化侧表示vs,q的窗口可被人为归零(方块437的输出437'将为0)。另一方面,如果噪声形状的侧表示vs的能量足够大(>α),则方块437(乘法器)的输出437'可能与vs,q完全相同。因此,如果噪声形状的侧表示的能量vs小于预定能量阈值α,则不考虑噪声形状的侧表示vs(特别是其去量化版本vs,q),以获得噪声形状的左/右表示,(将表明,另外或替代地,解码器也可以具有将噪声形状的侧表示的系数归零的类似机制)。需注意,也可以在比特流232中编码无侧标志作为辅助信息402的一部分。
应注意,噪声形状的侧表示的能量被显示为在噪声形状归一化(在方块316)之前所测量(由方块435),并且在将其与阈值进行比较之前,能量未被归一化。原则上,也可以在对噪声形状进行归一化之后,由方块435进行测量(例如,方块435可以由vs,n输入而不是由vs输入)。
参考用于比较噪声形状的侧表示的能量阈值α,此值为0.1,其在一些示例中可以任意选择。在示例中,可以在实验和调整(例如通过校准)之后选择阈值α。在一些示例中,原则上可以使用适用于数字格式(浮点或定点)或个别实现的精度的任何数字。因此,阈值α可以是能够在校准之后输入的实现特定的参数。
需注意,输出接口(310)可以被配置为:
使用用于第一数量的频率窗口的第一多个系数来生成具有活动帧(306)的编码音频数据的编码多声道音频信号(232);以及
使用用于描述第二数量的频率窗口的第二多个系数来生成第一参数噪声数据、第二参数噪声数据、或第一参数噪声数据与第二参数噪声数据的第一线性组合以及第一参数噪声数据与第二参数噪声数据的第二线性组合,
其中第一数量的频率窗口大于第二数量的频率窗口。
事实上,可以对非活动帧使用降低的分辨率,从而进一步减少用于编码为比特流的位量。这同样适用于解码器。
编码器的任何示例都可以由合适的控制器所控制。
解码器
现在,讨论根据示例的解码器。解码器可以包括例如以上讨论的柔和噪声产生器220(220a-220e),如图3a-3f所示。柔和噪声204(多声道音频信号)可以在信号修改器250处被整形,以获得输出信号252。我们在这里感兴趣的是显示用于在非活动帧308中产生噪声的操作,而不是用于活动帧306。
图4显示解码器200’的第一个例子,在此以200’(200b)表示。需注意,解码器200’包括柔和噪声产生器220,其可以包括根据图3a-3f的任一个所示的产生器220(220a-220e)。在产生器220(220a-220e)的下游,可以存在信号修改器250(未示出,但在图4中示出),用于根据柔和噪声参数数据(401、403)中编码的能量参数对生成的多声道噪声204进行整形。通过解码器输入接口210,解码器200'可以从比特流232中获得柔和噪声参数数据(401、403),其可以包括描述信号能量的柔和噪声参数数据(例如,对于第一声道与第二声道,或者对于第一和第二声道的第一线性组合与第二线性组合,第一和第二线性组合彼此线性独立)。通过解码器输入接口210,解码器200’可以获得相干性数据404,其指示不同声道之间的相干性。图4显示在比特流232中,对于非活动帧的编码,分别提供了两个不同的静音描述符帧241和243,但是有可能使用两个以上的描述符帧,或者仅使用单一个描述符帧。解码器200b的输出是多声道输出。
参考图2所示,现在讨论作为解码器200的示例的解码器200’(在此称为200a),其可用于生成输出信号252,例如其可以是噪声的形式。
首先,解码器200a(200')可以包括输入接口210,用于接收帧序列306、308中的编码音频数据232(比特流),其例如由编码器300a或300b编码的。解码器200a(200')可以是多声道信号产生器200,或更一般地是多声道信号产生器200的一部分,所述多声道信号产生器可以是或包括如图3a-3f中任一个的柔和噪声产生器220(220a-220e)。
首先,图2显示出了立体声柔和噪声产生器(CNG)220(220a-220e)。特别地,柔和噪声产生器220(220a-220e)可以类似于图3a-3f所示的柔和噪声产生器或其变体中的一个。在此,从编码器300a或300b获得的相干性信息404(例如,c,或更准确地说cq,也可用“coh”或cind表示)可用于生成先前已经讨论过的多声道信号204(在声道201、203中)。由CNG 220(220a-220e)产生的多声道信号204实际上可以被进一步修改,例如通过考虑柔和噪声参数数据401和403,例如待整形的多声道信号的第一(左)声道和第二(右)声道的噪声形状信息。特别地,在此将显示出可以获得在阶段316和/或318处由编码器300a(并且特别地由噪声参数计算器3040)生成的中索引vm,ind(401)和侧索引vs,ind(403),以及在阶段326和/或328处获得的增益gl,q和gr,q
如图2所示,辅助信息402可以允许确定当前帧是活动帧306还是非活动帧308。如图2所示的元件指的是非活动帧308的处理,并且其意图是可以使用任何技术来生成活动帧306中的输出信号,因此它们不是本说明书的目标。
如图2所示,从比特流232中获得柔和噪声数据的若干示例。如上所述,柔和噪声数据可以包括相干性信息(数据)404、表示噪声形状的参数401和403(vm,ind和vs,ind)和/或增益(gl,q和gr,q)。
阶段212-C可以对相干性信息404的量化版本cind进行去量化,以获得去量化的关性信息cq
阶段2120(联合噪声形状去量化)可以允许对从比特流232获得的其他柔和噪声数据进行去量化。可以参考图6。去量化阶段212由其他去量化阶段形成,这里以212-M、212-S、212-R、212-L表示。阶段212-M可以对中声道噪声形状参数401和403进行去量化,以获得去量化的噪声形状参数vm,q和vs,q。阶段212-S可以提供侧声道噪声形状参数403(vs,ind)的去量化版本vs,q。在一些示例中,可以使用无侧标志,以便在噪声形状向量vs的能量被编码器300a处的方块435识别为小于预定阈值α的情况下,归零阶段212-S的输出。在能量小于预定阈值α并以无侧标志对其信令的情况下,噪声形状向量vs的去量化版本vs,q可以被归零(概念上显示为乘以从方块536所取得的标志536’,其具有与编码器的方块436相同的功能,即使方块536实际上读取在比特流232的辅助信息中编码的无侧标志,而不执行与阈值α的任何比较)。因此,如果已确定编码器处的侧声道的能量小于预定阈值α,则噪声形状向量vs的去量化版本vs,q被人为地归零,并且缩放器方块537的输出537'处的值为零。否则,如果能量大于预定阈值,则输出537'与侧声道的噪声形状的侧索引403(vs,ind)的量化版本vs,q相同。换言之,在侧声道的能量低于预定能量阈值α的情况下,噪声形状向量vs,ind的值被忽略。
在M/S到L/R阶段516,执行M/S到L/R转换,以获得参数数据(噪声形状)的L/R版本v'l、v'r。随后,可以使用增益阶段518(由阶段518-L与518-R形成),使得在阶段518-L处声道v'l由增益gl,d缩放,而在阶段518-R处声道v'r由增益gr,q缩放。因此,可以获得能量声道vl,q与vr,q作为增益阶段518的输出。阶段方块518-L和518-R用“+”表示,因为值的转换被想象为在对数域中,因此另外指示了值的缩放。然而,增益阶段518指示重建的噪声形状向量vl,q和vr,q被缩放。重建的噪声形状向量vl,q和vr,q在这里用2312复杂地指示并且是噪声形状1312的重建版本,如最初由编码器处的“获得噪声形状”方块312获得的。一般而言,对于相同非活动帧的相同声道的所有索引(系数),每个增益是恒定的。
需注意,索引vm,ind、vs,ind和增益gl,q、gr,q是噪声形状的系数,并提供有关帧能量的信息。他们基本上是指与用于生成信号252的输入信号304相关联的参数数据,但不代表信号304或要生成的信号252。换句话说,噪声声道vr,q及vl,q描述了要应用于由CNG 220生成的多声道信号204的封包。
回到图2,在信号修改器250处使用重建的噪声形状向量vl,q及vr,q(2312),以通过对噪声204进行整形来获得修改的信号252。特别地,生成的噪声204的第一声道201可以在阶段250-L处由声道vl,q整形,且生成的噪声204的声道203可以在阶段250-R处整形,以获得输出多声道音频信号252(Lout和Rout)。
在示例中,柔和噪声信号204本身不是在对数域中生成的:只有噪声形状可以使用对数表示。可以执行从对数域到线性域的转换(尽管图未示)。
还可以执行从频域到时域的转换(尽管图未示)。
解码器200'(200a、200b)还可以包括频谱-时间转换器(例如信号修改器250),用于将经过频谱调整和相干性调整的调整后第一声道201和调整后第二声道203转换为相应的时域表示,以与活动帧的解码的多声道信号的相应声道的时域表示组合或连接。生成的柔和噪声转换为时域信号的转换发生在图2所示的信号修改器方块250之后。“组合或连接”的部分基本上意味着在使用这些CNG技术的一个的非活动帧之前或之后,也可以是活动帧之前或之后(图1所示的其他处理路径),并且为了生成没有任何间隙或可听闻的咔嗒声等的连续输出,需要正确连接多个帧。
在一些示例中:
用于活动帧(306)的编码音频信号(232)具有描述第一数量的频率窗口的第一多个系数;以及
用于非活动帧(308)的编码音频信号(232)具有描述第二数量的频率窗口的第二多个系数。
第一数量的频率窗口可以大于第二数量的频率窗口。
解码器的任何示例都可以由合适的控制器控制。
处理步骤:第一版本
在两个声道的两个SID帧中编码的噪声参数按照EVS[6]中的方法计算,例如LP-CNG或FD-CNG、或两者。解码器中噪声能量的整形也与EVS中的相同,例如LP-CNG或FD-CNG、或两者。
在编码器中,另外计算两个声道的相干性,使用四位均匀量化并在比特流232中发送。在解码器中,接着可以通过传输的相干值404来控制CNG操作。可以使用如图3a-3f所示的三个高斯噪声源N1、N2、N3(211a、212a、213a;211b、212b、213b;211c、212c、213c;211d、212d、213d;211e、212e、213e)。当声道相干性高时,主要相关噪声可被添加到声道221’与223’,而当相干性404低时,则添加更多不相关噪声。
对于所有非活动帧306,可以在编码器(例如300、300a、300b)中不断地估计用于柔和噪声生成的参数(噪声参数),例如,这可以通过应用频域噪声估计算法(例如[8])来完成,例如,如[6]中所述,分别在两个输入声道(如301、303)上计算两组噪声参数(如401、403),其也被解释为参数噪声数据。此外,两个声道的相干性(c、404)可以如下计算(例如在相干性计算器320处):给定两个输入声道
Figure BDA0004101391960000401
(L、R可以是301、303)的M点DFT-频谱,可以计算四个中间值,例如
Figure BDA0004101391960000402
Figure BDA0004101391960000403
以及两个声道的能量
Figure BDA0004101391960000404
Figure BDA0004101391960000405
在此,其中M=256,
Figure BDA0004101391960000406
表示复数的实部,
Figure BDA0004101391960000407
表示复数的虚部,且{·}*表示复共轭。接着可以例如使用上一帧的相应值来平滑这些中间值,:
Figure BDA0004101391960000408
Figure BDA0004101391960000409
Figure BDA00041013919600004010
Figure BDA00041013919600004011
这个段落可以是编码器处的“计算声道相干性”方块320'的一部分。这是内部参数的时间平滑,以避免帧之间参数的突然大跳跃。换句话说,这里对参数应用了低通滤波器。
可以使用区间0.95±0.03和
Figure BDA00041013919600004015
内的其他常数来代替常数0.95和0.05。
或者,可以定义:
Figure BDA00041013919600004012
Figure BDA00041013919600004013
Figure BDA00041013919600004014
Figure BDA0004101391960000411
其中,β,γ∈[0,1],且β+γ=1,例如β=0.95且γ=0.05。
然后可以计算相干性(c、404)(可能在0和1之间),其例如在相干性计算器(320)处计算如下
Figure BDA0004101391960000412
并且使用例如四位均匀量化(例如在量化器320”处),如下
cind=0,min(15,floor(15×c+0.5))
两个声道的估计噪声参数1312、2312的编码可以分别完成,例如,如[6]中所述。然后可以对两个SID帧241、243进行编码并发送到解码器。第一SID帧241可以包含声道L的估计噪声参数401和数个位(如四位)的辅助信息402,例如,如[6]中所述。在第二SID帧243中,声道R的噪声参数403可以与四位量化的相干值c、404一起发送(在不同的示例中可以选择不同的位量)。
在解码器(如200’、200a、200b)中,两个SID帧的噪声参数(401、403)和第一帧的辅助信息402都可以被解码,如[6]中所述。第二帧中的相干值404可以在阶段212-C中被去量化如下
Figure BDA0004101391960000413
(在图2中,
Figure BDA0004101391960000414
被cq取代)。
对于柔和噪声生成(例如,在产生器220或产生器220a-220e中的任一个,其可以包括图3a-3e中的任一个),根据示例,可以使用如图3所示的三个高斯噪声源211、212、213。噪声源211、212、213可以例如基于相干值(c、404)自适应地相加在一起(例如在加法器阶段206-1和206-3处)。左及右声道噪声信号Nl[k]、Nr[k]的DFT-频谱可以计算如下
Figure BDA0004101391960000415
Figure BDA0004101391960000416
其中,k∈{0,1,…,M-1}(这是特定频率窗口的索引,而每个声道有M个频率窗口),j2=-1(即j是虚数单位),“×”是正常的乘法。这里,“频率窗口”分别指的是频谱Nl和Nr中复数值的数量。M是所使用的FFT或DFT的变换长度,所以频谱的长度为M。
需要注意的是,实部插入的噪声和虚部插入的噪声可能不同。因此,对于频谱长度M
而言,我们需要从每个噪声源生成2×M个值(一个实数和一个虚数)。或者,换句话说:
Nl和Nr是长度为M的复数值向量,而N1、N2和N3是长度为2×M的实数值向量。
之后,两个声道中的噪声信号204使用从相应的SID帧中解码的相应噪声参数(2312)进行频谱整形(在如图2中的阶段250-L、250-R内),并随后变换回时域(如[6]中所述),用于频域柔和噪声生成。
处理的任何示例可以由合适的控制器执行。
处理步骤:第二版本
如上所述的处理步骤的方面可以与以下方面中的至少一个整合。这里主要参考图2及5,但也可参考图4。
编码器的通用框架的方块图如图1所示。对于编码器中的每一帧,如[6]中所述,通过在每个声道上单独运行VAD,可以将当前信号分类为活动或非活动。然后可以在两个声道之间同步VAD决定。在示例中,仅当两个声道都被分类为非活动时,帧才被分类为非活动帧308。否则,所述帧被归类为活动的,并且两个声道都在基于MDCT的系统中使用[10]中描述的按频带M/S进行联合编码。当从活动帧切换到非活动帧时,信号可能会进入如图3所示的SID编码路径。
可以在编码器(如300、300a、300b)中为活动和非活动帧(306、308)不断地估计用于柔和噪声生成的参数(如1312、401、403、ql,q、gr,q)(如噪声参数)。这可以例如通过应用如[8]中讨论的和/或[6]中描述的那样的频域噪声估计过程来完成,例如分别在两个输入声道301、303上计算两组噪声参数,其包括例如在每个声道的对数域中的频谱噪声形状(Mi、401、和/或Is或403)。
此外,两个声道的相干性(404、c)可以计算如下(例如在相干性计算器320中计算):给定两个输入声道的M点DFT-频谱L,
Figure BDA0004101391960000421
四个中间值可以计算如下
Figure BDA0004101391960000422
Figure BDA0004101391960000431
以及两个声道的能量
Figure BDA0004101391960000432
Figure BDA0004101391960000433
这里,可以是M=256(M可以使用其他值),
Figure BDA0004101391960000434
表示复数的实部,
Figure BDA0004101391960000435
表示复数的虚部,{·}*表示复数共轭。接着在10毫秒子帧的基础上平滑这些中间值,其中,{·}previous表示来自前一个子帧的相应值,平滑后的值可以计算如下:
Figure BDA0004101391960000436
Figure BDA0004101391960000437
Figure BDA0004101391960000438
Figure BDA0004101391960000439
可以使用区间0.95±0.03和
Figure BDA00041013919600004314
内的其他常数来代替常数0.95和0.05。
或者,可以定义:
Figure BDA00041013919600004310
Figure BDA00041013919600004311
Figure BDA00041013919600004312
Figure BDA00041013919600004313
其中,β,γ∈[0,1],且β+γ=1,例如β=0.95且γ=0.05(β>γ,例如β>3×γ、或β>6×γ)。
然后可以计算相干性c∈[0,1](例如在320')如下:
Figure BDA0004101391960000441
并使用四位(但可能使用不同数量的位)来统一量化(例如在320”)如下:
Figure BDA0004101391960000444
其中,
Figure BDA0004101391960000445
表示向下舍入到最接近的整数(向下取整函数)。
两个声道的估计噪声形状的编码可以联合完成。从左(vl)和右(vr)声道噪声形状,可以获得不同的声道(例如通过线性组合),例如可以计算中声道(vm)噪声形状和侧声道(vs)噪声形状(例如在方块314)如下
Figure BDA0004101391960000442
Figure BDA0004101391960000443
其中,例如在频域中,N表示噪声形状向量的长度(例如对于每个非活动帧308)。如EVS[6]中估计的,N表示噪声形状向量的长度,其可以在17到24之间。噪声形状向量可以看作是输入帧中噪声的频谱封包的更紧凑的表示。或者,更抽象地说,使用N个参数对噪声信号进行参数化频谱描述。N与FFT或DFT的变换长度无关。
然后,这些噪声形状可以被归一化(例如在阶段316)和/或量化。例如可以被向量量化(例如在阶段318),例如使用多阶段向量量化器(MSVQ)(在[6,p 442]中描述了一个示例)。
在阶段318处用于量化vm形状(以获得vm,ind、401)的MSVQ可以具有6个阶段(但也可能是其他数量的阶段)和/或使用37位(但也可能是其他数量的位),如[6]中为单声道实现的,而在阶段318用于量化vs形状(以获得vs,ind 403)的MSVQ可能已减少到4个阶段(或在任何情况下,阶段数量少于在阶段318中所使用的阶段数量),和/或总共使用25个位(或在任何情况下,位数量少于在阶段318中所使用的用于编码形状vm的位数量)。
MSVQ的码本索引可以在比特流中传输(例如在数据232中,更具体地在柔和噪声参数数据401、403中)。然后对索引进行去量化,以产生去量化的噪声形状vm,q和vm,q
在背景噪声是立体影像中心的单一噪声源的情况下,两个声道的估计噪声形状vm、vs预计非常相似,或者甚至相等。然后产生的S声道噪声形状将只包含零。然而,用于对当前实现进行量化的向量量化器(阶段322)可能无法对全零向量进行建模,并且在去量化之后,去量化后的vs噪声形状(vs,q)可能不再是全零。这可能会导致表示这种中心背景噪声的感知问题。为了规避向量量化器322的这个缺点,可以根据未量化vs形状向量的能量(例如在阶段314之后和/或在阶段316之前的vs噪声形状向量的能量)计算(并且也可以信令在比特流中)无侧值(无侧标志),无侧标志可以是:
Figure BDA0004101391960000451
举例来说,能量阈值α可以是0.1或区间[0.05,0.15]中的另一个值。然而,阈值α可以是任意的,并且在实现中可以取决于所使用的数字格式(例如,定点或浮点)和/或可能使用的信号归一化。在示例中,可以使用正实数值,这取决于“静音”S声道所采用的定义的严酷程度。因此,此区间可能是(0,1)。无侧值可用于指示是否应使用vs噪声形状来重建vl和vr声道噪声形状(例如在解码器处)。如果无侧值为1,则去量化的vs形状设置为0(例如,通过图2中的436'的值对声道vs,q缩放,这是一个逻辑反(NOT)(无侧值))。无侧值在比特流232中传输(信令),例如在辅助信息402中传输。随后,可以将逆M/S变换(例如阶段324)应用于去量化的噪声形状向量vm,q和vs,q(当能量为低时,后者被例如替换为0,因此在图2中用437'表示),得到中间向量v'l和v'r如下:
Figure BDA0004101391960000452
Figure BDA0004101391960000453
使用这些中间向量v'l和v'r以及去量化的噪声形状向量vl和vr,计算出两个增益值如下:
Figure BDA0004101391960000454
Figure BDA0004101391960000455
然后可以将两个增益值线性量化(例如在阶段328)如下
Figure BDA0004101391960000456
(其他量化也是可能的)。
量化增益可以编码在SID比特流中(例如作为柔和噪声参数数据401或403的一部分,更具体地,gl,q可以是第一参数噪声数据的一部分,并且gr,q可以是第二参数噪声数据的一部分),例如对增益值gl,q使用七位,和/或对增益值gr,q使用七位(对每个增益值也可以使用不同数量的位)。
在解码器(例如200'、200a、200b)中,量化的噪声形状向量(例如,柔和噪声参数数据401或403的一部分,并且更具体地是第一参数噪声数据和第二参数噪声数据的一部分)可以例如是在阶段212去量化(特别地,在子阶段212-M、212-S中的任何一个)。
增益值可以例如在阶段212被去量化(特别地,在子阶段212-L、212-R中的任何一个)如下
Figure BDA0004101391960000461
Figure BDA0004101391960000462
(值45取决于量化,并且可能因不同的量化而不同)。(在图2中,使用gl,d和gr,d代替gl,deq和gr,deq)。
相干值404可以被去量化(例如在阶段212-C)如下
cq=15×cind.
如果无侧标志(在辅助信息402中)为1,则在计算中间向量v’l和v’r之前(例如,在阶段516),将去量化的vs形状vs,q设置为0(值537’)。然后将相应的增益值与相应的中间向量的所有元素相加以生成去量化的噪声形状vl,q和vr,q,其以复数表示522,如下
vl,q={v′l,1+gL,deq,…,v′l,N+gL,deq}
vr,q={v′r,1+gR,deq,…,v′r,N+gR,deq}.
(加法是因为我们在对数域中并且对应于与线性域中的因子的乘积。)
对于柔和噪声生成,如图3a-3f中的任何一个所示(或可以使用任何其他技术),可以使用三个高斯噪声源N1,N2,N3(例如,图3a所示的211a、212a、213a,图3b所示的211b、212b、212c等),当声道相干性高时,主要向两个声道添加相关噪声,而如果相干性低,则添加更多不相关噪声。
使用三个噪声源,左及右声道噪声信号Nl(201)和Nr(203)的DFT频谱可以计算如下
Figure BDA0004101391960000463
Figure BDA0004101391960000471
其中,k∈{0,1,…,M-1}而且j2=-1。在此,M表示DFT的方块长度。为了在复频谱的实部和虚部生成独立的噪声,每个噪声源必须在每帧生成2×M个值(一个频率窗口有两个值)。因此,N1、N2和N3(分别位于图3f中的211、212、213)可以看作是长度为2×M的实数值噪声向量,而Nr和Nk(分别位于201、203)是长度为M的复数值向量。
之后,两个声道中的噪声信号可以使用从比特流232解码的其对应的噪声形状(vl,q或vr,q)进行频谱整形(例如在信号修改器252处),并随后从对数域变换回标量域,并从频域回到时域,如[6]中所述,以便生成立体声柔和噪声信号。
本处理的任何示例可以由合适的控制器执行。
一些优点
本发明可以提供一种特别适用于离散立体声编码方案的立体声柔和噪声生成技术。通过联合编码和传输两个声道的噪声形状参数,可以应用立体声CNG而无需单声道降混。
与两组独立的噪声参数一起,由单一相干值控制的一个共同噪声源和两个独立噪声源的混合允许忠实地重建背景噪声的立体声影像,而无需传输通常仅存在于参数音频编码器中的细粒度立体声参数。由于只使用了这一个参数,SID的编码是直接的,不需要复杂的压缩方法,同时仍然保持SID帧在较低的大小。
一些重要方面:
在一些示例中,可获得以下方面中的至少一个:
1.通过混合三个高斯噪声源(每个声道一个)和第三共同噪声源来为立体声信号生成柔和噪声,以创建相关的背景噪声。
2.控制噪声源与随SID帧传输的相干值的混合。
3.通过以M/S方式联合编码噪声形状,为两个立体声声道传输独立的噪声形状参数。通过使用比M少的位编码S形状来降低SID帧比特率。
其他技术
还可以实现一种产生具有第一声道与第二声道的多声道信号的方法,包括:
使用第一音频源产生一第一音频信号;
使用第二音频源产生一第二音频信号;
使用混合噪声源产生一混合噪声信号;以及
混合所述混合噪声信号与第一音频信号以获得第一声道,以及混合所述混合噪声信号与第二音频信号以获得第二声道。
还可以实现一种音频编码方法,用于为包括活动帧与非活动帧的帧序列生成编码的多声道音频信号,所述方法包括:
分析多声道信号以确定帧序列中的帧为非活动帧;
为多声道信号的第一声道计算第一参数噪声数据,并为多声道信号的第二声道计算第二参数噪声数据;
计算指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据;以及
生成编码的多声道音频信号,其具有活动帧的编码音频数据,以及非活动帧的第一参数噪声数据、第二参数噪声数据、及相干性数据。
本发明还可以在存储指令的非暂时性存储单元中实现,当这些指令被计算机(或处理器、或控制器)执行时,使计算机(或处理器、或控制器)执行上述方法。
本发明还可以在以帧序列组织的多声道音频信号中实现,所述帧序列包括活动帧和非活动帧,编码的多声道音频信号包括:
活动帧的编码音频数据;
非活动帧中的第一声道的第一参数噪声数据;
非活动帧中的第二声道的第二参数噪声数据;以及
指示非活动帧中的第一声道与第二声道之间的相干情况的相干性数据。多声道音频信号可以用以上和/或以下所揭露的技术中的一个来获得。
实施例的优点
为两个声道插入一个共同噪声源以模拟相关噪声来产生最终的柔和噪声对于仿真立体声背景噪声记录具有重要作用。
本发明的实施例也可以被认为是通过混合三个高斯噪声源(每个声道一个)和第三个共同噪声源,来为立体声信号生成柔和噪声,以创建相关的背景噪声的过程,或者附加地或单独地控制依据和SID帧一起传输的相干值来混合噪声源,或者附加地或单独地,如下所示:在立体声系统中,单独生成背景噪声会导致完全不相关的噪声,这听起来会令人不快,并且与实际背景非常不同,当我们切换到活动模式背景或从活动模式背景切换到DTX模式背景时,会导致突然的音频转换。在实施例中,在编码器侧,除了噪声参数之外,两个声道的相干性被计算、均匀量化并添加到SID帧。在解码器中,接着使用传输的相干值来控制CNG操作。使用三个高斯噪声源N_1、N_2、N_3;当声道相干性高时,主要将相关噪声添加到两个声道,而当相干性低时,则添加更多不相关噪声。
这里要提到的是,之前讨论的所有替代方案或方面以及由以下权利要求中的独立权利要求定义的所有方面都可以单独使用,亦即,除了预期的替代方案、目标或独立权利要求外,没有任何其他替代方案或目标。然而,在其他实施例中,两个或更多个替代方案或方面或独立权利要求可以彼此组合,并且在其他方面中,所有方面或替代方案和所有独立权利要求可以彼此组合。
本发明的编码信号可以存储在数字存储介质或非暂时性存储介质上,或者可以在诸如无线或有线传输介质(如因特网)之类的传输介质上传输。
尽管已经在设备的说明中描述了一些方面,但很明显地,这些方面也代表了相应方法的描述,其中方块或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤的说明中描述的方面也表示相应设备的相应方块或项目或特征的描述。
根据某些实施要求,本发明的实施例可以使用硬件或软件来实现,所述实现可以使用数字存储介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH内存,其具有存储在其上的电子可读控制信号,其协作或能够协作于可编程计算器系统,从而执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述电子可读控制信号能够与可编程计算器系统协作,从而执行本说明书所述的方法中的一个。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,所述程序代码可操作用于执行所述方法中的一个。程序代码可以例如存储在机器可读载体上。
其他实施例包括用于执行本说明书描述的方法的一个的计算机程序,其存储在机器可读载体或非暂时性存储介质上。
换句话说,本发明的方法的实施例因此是具有程序代码的计算机程序,其当所述计算机程序在计算机上运行时,用于执行所述的方法中的一个。
因此,本发明的方法的另一实施例是数据载体(或数字存储介质、或计算机可读介质),其记录有用于执行所述的方法中的一个的计算机程序。
因此,本发明的方法的另一实施例是数据流或信号序列,其表示用于执行所述的方法中的一个的计算机程序。数据流或信号序列可以例如被配置为经由数据通信连接(如经由因特网)来传输。
另一个实施例包括处理装置,例如计算机或可编程逻辑设备,其被配置为或适合于执行所述的方法中的一个。
另一实施例包括计算机,其安装有用于执行所述的方法中的一个的计算机程序。
在一些实施例中,可编程逻辑设备(例如现场可编程逻辑门阵列)可用于执行所述的方法的一些或全部功能。在一些实施例中,现场可编程逻辑门阵列可与微处理器协作以执行所述的方法中的一个。一般而言,这些方法优选地由任意硬件设备执行。
上述实施例仅用于说明本发明的原理。应当理解,对本领域技术人员而言,本说明书所描述的修改与变化的配置与细节是显而易见的。因此,本发明的范围有后叙的权利要求的范围限制,而非仅限于所述实施例的描述与说明所呈现的具体细节。
参考书目或参考文献
[1]ITU-T G.729Annex B A silence compression scheme for G.729optimizedfor terminals conforming to ITU-T Recommendation V.70.InternationalTelecommunication Union(ITU)Series G,2007.
[2]ITU-T G.729.1Annex C DTX/CNG scheme.InternationalTelecommunication Union (ITU)Series G,2008.
[3]ITU-T G.718 Frame error robust narrow-band and wideband embeddedvariable bit-rate coding of speech and audio from 8-32 kbit/s.InternationalTelecommunication Union(ITU)Series G,2008.
[4]Mandatory Speech Codec speech processing functions;Adaptive Multi-Rate(AMR)speech codec;Transcoding functions,3GPP Technical Specification TS26.090,2014.
[5]Adaptive Multi-Rate-Wideband(AMR-WB)speech codec;Transcodingfunctions,3GPP,2014.
[6]3GPP TS 26.445,Codec for Enhanced Voice Services(EVS);Detailedalgorithmic description.
[7]Z.Wang and e.al,"Linear prediction based comfort noise generationin the EVS codec,"in IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),Brisbane,QLD,2015.
[8]A.Lombard,S.Wilde,E.Ravelli,S.
Figure BDA0004101391960000511
G.Fuchs and M.Dietz,"Frequency-domain Comfort Noise Generation for Discontinuous Transmission inEVS,"in IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP),Brisbane,QLD,2015.
[9]A.Lombard,M.Dietz,S.Wilde,E.Ravelli,P.Setiawan and M.Multrus,"Generation of a comfort noise with high spectro-temporal resolution indiscontinuous transmission of audio signals".United States of America Patent9583114B2,19 June 2015.
[10]E.NORVELL and F.JANSSON,"SUPPORT FOR GENERATION OF COMFORTNOISE.AND GENERATION OF COMFORT NOISE".WO Patent WO 2019/193149 A1,5 April2019.

Claims (45)

1.一种多声道信号产生器(200),用于产生具有第一声道(201)及第二声道(203)的多声道信号(204),包括:
第一音频源(211),用于产生第一音频信号(221);
第二音频源(213),用于产生第二音频信号(223);
混合噪声源(212),用于产生混合噪声信号(222);以及
混合器(206),用于将所述混合噪声信号(222)与所述第一音频信号(221)混合以获得所述第一声道(201),以及将所述混合噪声信号(222)与所述第二音频信号(223)混合以获得所述第二声道(203)。
2.如权利要求1所述的多声道信号产生器,其中所述第一音频源(211)为第一噪声源且所述第一音频信号(221)为第一噪声信号,和/或所述第二音频源(213)为第二噪声源且所述第二音频信号(223)为第二噪声信号,
其中,所述第一噪声源(221)和/或所述第二噪声源(213)被配置为产生所述第一噪声信号(221)和/或所述第二噪声信号(223),使得所述第一噪声信号(221)和/或所述第二噪声信号(223)与所述混合噪声信号(222)去相关。
3.如权利要求1或2所述的多声道信号产生器,其中所述混合器(206)被配置为产生所述第一声道(201)以及所述第二声道(203),使得所述混合噪声信号(222)在所述第一声道(201)中的量等于所述混合噪声信号(222)在所述第二声道(203)中的量,或是在所述混合噪声信号(222)在所述第二声道(203)中的量的80%至120%的范围内。
4.如上述权利要求中任一项所述的多声道信号产生器,其中所述混合器(206)包括用于接收控制参数(404,c)的控制输入,其中所述混合器(206)被配置为依据所述控制参数(404,c)控制所述混合噪声信号(222)在所述第一声道(201)中及在所述第二声道(203)中的量。
5.如上述权利要求中任一项所述的多声道信号产生器,其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的每个为高斯噪声源。
6.如上述权利要求中任一项所述的多声道信号产生器,
其中所述第一音频源(211)包括第一噪声产生器,用于产生所述第一音频信号(221)作为第一噪声信号,其中所述第二音频源包括去相关器,用于去相关所述第一噪声信号(221)以产生所述第二音频信号(213)作为第二噪声信号,以及其中所述混合噪声源(212)包括第二噪声产生器,或
其中所述第一音频源(211)包括第一噪声产生器,用于产生所述第一音频信号(221)作为第一噪声信号,其中所述第二音频源(213)包括第二噪声产生器,用于产生所述第二音频信号(223)作为第二噪声信号,其中所述混合噪声源(212)包括去相关器,用于去相关所述第一噪声信号(221)或所述第二噪声信号(223)以产生所述混合噪声信号(222),或
其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的一个包括噪声产生器,用于产生噪声信号,其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的另一个包括第一去相关器,用于去相关所述噪声信号,其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的又一个包括第二去相关器,用于去相关所述噪声信号,其中所述第一去相关器与所述第二去相关器彼此不同,使得所述第一去相关器与所述第二去相关器的输出信号彼此为去相关,或
其中所述第一音频源(211)包括第一噪声产生器,其中所述第二音频源(213)包括第二噪声产生器,以及其中所述混合噪声源(212)包括第三噪声产生器,其中所述第一噪声产生器、所述第二噪声产生器及所述第三噪声产生器被配置为产生互相为去相关的噪声信号。
7.如上述权利要求中任一项所述的多声道信号产生器,
其中,所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的一个包括伪随机数序列产生器,用于依据种子生成伪随机数序列,且其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的至少两个被配置为使用不同的种子初始化所述伪随机数序列产生器。
8.如权利要求1至6中任一项所述的多声道信号产生器,
其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的至少一个被配置为使用预存储噪声表进行操作,或
其中所述第一音频源(211)、所述第二音频源(213)及所述混合噪声源(212)中的至少一个被配置为针对帧,使用第一噪声值作为实部并使用第二噪声值作为虚部而产生复频谱,
其中,可选地,至少一个噪声产生器被配置为产生用于频率窗口k的复噪声频谱值,其中使用索引k处的第一随机值作为所述实部及所述虚部中的一个,并使用索引(k+M)处的第二随机值作为所述实部及所述虚部中的另一个,其中所述第一噪声值及所述第二噪声值包括在噪声阵列中,例如从随机数序列产生器、噪声表或噪声过程得出,范围从起始索引到结束索引,所述起始索引小于M,所述结束索引等于或小于2M,其中M和k是整数。
9.如上述权利要求中任一项所述的多声道信号产生器,其中所述混合器(206)包括:
第一振幅元件(208-1),用于影响所述第一音频信号(221)的振幅;
第一加法器(206-1),用于将所述第一振幅元件的输出信号(221)和所述混合噪声信号(222)的至少一部分相加;
第二振幅元件(208-3),用于影响所述第二音频信号(223)的振幅;
第二加法器(206-3),用于将所述第二振幅元件(208-3)的输出(223)和所述混合噪声信号(222)的至少一部分相加,
其中,所述第一振幅元件(208-1)执行的影响量与所述第二振幅元件(208-3)执行的影响量彼此相等,或所述第二振幅元件(208-3)执行的影响量与所述第一振幅元件(208-1)执行的影响量的差异小于所述第一振幅元件(208-1)执行的影响量的20%。
10.如权利要求9所述的多声道信号产生器,其中所述混合器(206)包括第三振幅元件(208-2),用于影响所述混合噪声信号(222)的振幅,
其中所述第三振幅元件(208-2)执行的影响量取决于所述第一振幅元件(208-1)或所述第二振幅元件(208-3)执行的影响量,使得当所述第一振幅元件执行的影响量或所述第二振幅元件(208-3)执行的影响量变小时,所述第三振幅元件(208-2)执行的影响量变大。
11.如权利要求10所述的多声道信号产生器,
其中所述第三振幅元件(208-2)执行的影响量是预定值(cq)的平方根,所述第一振幅元件(208-1)执行的影响量及所述第二振幅元件(208-3)执行的影响量是1和所述预定值(cq)的差值的平方根。
12.如上述权利要求中任一项的多声道信号产生器,还包括:
输入接口(210),用于接收帧序列(306,308)中的编码音频数据(232),所述帧序列(306,308)包括活动帧(306)及跟随在所述活动帧(306)之后的非活动帧(308);以及
音频解码器(200’,200a,200b),用于解码所述活动帧(306)的编码音频数据以产生所述活动帧的解码多声道信号,
其中所述第一音频源(211)、所述第二音频源(213)、所述混合噪声源(212)及所述混合器(206)在所述非活动帧(308)中是活动的,以产生所述非活动帧的所述多声道信号(204)。
13.如上述权利要求中任一项所述的多声道信号产生器,其中:
所述活动帧(306)的所述编码音频信号(232)具有描述第一数量的频率窗口的第一多个系数;以及
所述非活动帧(308)的所述编码音频信号(232)具有描述第二数量的频率窗口的第二多个系数,
其中所述第一数量的频率窗口多于所述第二数量的频率窗口。
14.如权利要求12或13所述的多声道信号产生器,
其中,所述非活动帧(308)的所述编码音频数据(232)包括静音插入描述符数据(p_noise,c),所述静音插入描述符数据(p_noise,c)包括柔和噪声数据(c,p_noise),指示对于所述非活动帧,所述两个声道的每一个、或者所述第一声道和所述第二声道的第一线性组合及所述第一声道和所述第二声道的第二线性组合中的每一个的信号能量(1312),并且指示所述非活动帧中的所述第一声道(301)及所述第二声道(303)之间的相干性(404,c),以及
其中,所述混合器(206,220)被配置为基于指示所述相干性(404,c)的所述柔和噪声数据,混合所述混合噪声信号(222)及所述第一音频信号(221)或所述第二音频信号(223),以及
其中,所述多声道信号产生器(200,220,220a-220e)还包括信号修改器(250),用于修改所述第一声道(201)及所述第二声道(203)、或所述第一音频信号(221)、或所述第二音频信号(223)、或所述混合噪声信号(222),
其中,所述信号修改器(250)被配置为由所述柔和噪声数据(p_noise)控制,所述柔和噪声数据(p_noise)指示所述第一音频声道(301)及所述第二音频声道(303)的信号能量、或指示所述第一音频声道及所述第二音频声道的第一线性组合与所述第一音频声道及所述第二音频声道的第二线性组合的信号能量。
15.如权利要求12或13或14所述的多声道信号产生器,其中所述非活动帧的所述音频数据(232)包括:
用于所述第一声道(201)的第一静音插入描述符帧(241)及用于所述第二声道(203)的第二静音插入描述符帧(243),
其中,所述第一静音插入描述符帧(241)包括:
用于所述第一声道(201)和/或所述第一声道与所述第二声道的第一线性组合的柔和噪声参数数据(p_noise),及
用于所述第一声道与所述第二声道(203)的柔和噪声产生辅助信息(p_frame),以及
其中,所述第二静音插入描述符帧(243)包括
用于所述第二声道(203)和/或所述第一声道与所述第二声道的第二线性组合的柔和噪声参数数据(p_noise),及
指示所述非活动帧的所述第一声道(201)与所述第二声道(203)之间的相干性的相干性信息(404,c),以及
其中,所述多声道信号产生器包括控制器,用于使用所述第一静音插入描述符帧(241)的所述柔和噪声产生辅助信息(p_frame)来确定用于所述第一声道(201)与所述第二声道(203)、和/或用于所述第一声道及所述第二声道的第一线性组合以及所述第一声道及所述第二声道的第二线性组合的柔和噪声产生模式,使用所述第二静音插入描述符帧(243)中的所述相干性信息(404,c)来设定所述非活动帧中的所述第一声道(201)和所述第二声道(203)之间的相干性(404,c),并使用来自所述第一静音插入描述符帧(241)的所述柔和噪声参数数据(p_noise)以及来自所述第二静音插入描述符帧(243)的所述柔和噪声参数数据(p-noise)来设定所述第一声道(301)的能量情况(vl,q)与所述第二声道(303)的能量情况(vr,q),来控制所述非活动帧中的所述多声道信号(204)的生成。
16.如权利要求12或13或14或15所述的多声道信号产生器,其中所述非活动帧的所述音频数据(232)包括:
用于所述第一声道与所述第二声道的第一线性组合及所述第一声道与所述第二声道的第二线性组合的至少一个静音插入描述符帧(241),
其中,所述至少一个静音插入描述符帧(241)包括
用于所述第一声道与所述第二声道的所述第一线性组合的柔和噪声参数数据(p_noise),及
用于所述第一声道与所述第二声道的所述第二线性组合的柔和噪声产生辅助信息(p_frame),
其中,所述多声道信号产生器包括控制器,用于使用所述第一声道及所述第二声道的所述第一线性组合以及所述第一声道及所述第二声道的所述第二线性组合的所述柔和噪声产生辅助信息(p_frame),使用所述第二静音插入描述符帧(243)中的所述相干性信息(404,c)来设定所述非活动帧中的所述第一声道(201)和所述第二声道(203)之间的相干性,并使用来自所述至少一个静音插入描述符帧(241)的所述柔和噪声参数数据(p_noise)和使用来自所述至少一个静音插入描述符帧(243)的所述柔和噪声参数数据(p_noise)来设定所述第一声道(301)的能量情况(vl,q)及所述第二声道(303)的能量情况(vr,q),来控制所述非活动帧中的所述多声道信号(204)的生成。
17.如权利要求14或15或16所述的多声道信号产生器,还包括频谱-时间转换器,用于将经过频谱调整和相干性调整的调整后第一声道和调整后第二声道转换为相应的时域表示,以与所述活动帧的所述解码的多声道信号的相应声道的时域表示组合或连接。
18.如权利要求12至17中任一项所述的多声道信号产生器,其中所述非活动帧的所述音频数据包括:
静音插入描述符帧(241,243),其中所述静音插入描述符帧(241,243)包括用于所述第一及第二声道(201,203)的柔和噪声参数数据(p_noise)以及用于所述第一声道(201)与所述第二声道(203),和/或用于所述第一声道与所述第二声道的第一线性组合与所述第一声道与所述第二声道的第二线性组合的柔和噪声产生辅助信息(p_frame),以及指示所述非活动帧中的所述第一声道(201)与所述第二声道(203)之间的相干性的相干性信息(404,c),以及
其中,所述多声道信号产生器(200)包括控制器,用于使用所述静音插入描述符帧(241,243)的所述柔和噪声产生辅助信息(p_frame)来确定用于所述第一声道(201)与所述第二声道(203)的柔和噪声产生模式,使用所述静音插入描述符帧(241)中的所述相干性信息(404,c)来设定所述非活动帧中的所述第一声道(201)和所述第二声道(203)之间的相干性(404,c),并使用来自所述静音插入描述符帧(241,243)的所述柔和噪声参数数据(p_noise)来设定所述第一声道(301)的能量情况(vl,q)与所述第二声道(303)的能量情况(vr,q),来控制所述非活动帧中的所述多声道信号(202)的生成。
19.如权利要求12至18中任一项所述的多声道信号产生器,
其中,所述非活动帧的所述编码音频数据(232)包括静音插入描述符数据(p_noise,c),所述静音插入描述符数据(p_noise,c)包括指示在中/侧表示中的每个声道的信号能量的柔和噪声数据(c,p_noise)、以及指示在左/右表示中的所述第一声道与所述第二声道之间的相干性的相干性数据(404,c),其中所述多声道信号产生器被配置为将所述第一声道(301)与所述第二声道(303)中,所述中/侧表示的所述信号能量转换为所述左/右表示的所述信号能量,
其中,所述混合器(206,220)被配置为基于所述相干性数据(404,c)将所述混合噪声信号(222)混合(206-1,206-3)到所述第一音频信号(221)与所述第二音频信号(223)中,以便获得所述第一声道(201)及所述第二声道(203),以及
其中,所述多声道信号产生器还包括信号修改器(250),所述信号修改器(250)被配置用于通过基于所述左/右域中的所述信号能量对所述第一及第二声道(201,203)进行整形,以修改所述第一及第二声道(201,203)。
20.如权利要求19所述的多声道信号产生器,被配置为,在所述音频数据包含指示所述侧声道中的所述能量小于预定阈值的信令的情况下,将所述侧声道(vs,q)的系数归零(337)。
21.如权利要求19或20所述的多声道信号产生器,其中所述非活动帧的所述音频数据包括:
至少一个静音插入描述符帧(241,243),其中所述至少一个静音插入描述符帧(241,243)包括用于所述中声道及所述侧声道(vm,q,vs,q)的柔和噪声参数数据(p_noise,vm,ind,ql,q,qr,q,vs,ind)以及用于所述中声道及所述侧声道(vm,q,vs,q)的柔和噪声产生辅助信息(p_frame),以及指示所述非活动帧中的所述第一声道(201)与所述第二声道(203)之间的相干性的相干性信息(404,c),以及
其中,所述多声道信号产生器(200)包括控制器,用于使用所述静音插入描述符帧(241,243)的所述柔和噪声产生辅助信息(p_frame)来确定用于所述第一声道(201)与所述第二声道(203)的柔和噪声产生模式,使用所述静音插入描述符帧(241)中的所述相干性信息(404,c)来设定所述非活动帧中的所述第一声道(201)和所述第二声道(203)之间的相干性(404,c),并使用来自所述静音插入描述符帧(241,243)的所述柔和噪声参数数据(p_noise)或其处理版本来设定所述第一声道(301)的能量情况(vl,q)与所述第二声道(303)的能量情况(vr,q),来控制所述非活动帧中的所述多声道信号(202)的生成。
22.如权利要求12-21中任一项所述的多声道信号产生器,还被配置为通过增益信息(gl,q,qr,q)缩放所述第一声道与所述第二声道的信号能量系数(1312,v’l,v’r),所述增益信息使用所述第一声道与所述第二声道的所述柔和噪声参数数据(401,403)被编码。
23.如上述权利要求中任一项所述的多声道信号产生器,被配置为将生成的所述多声道信号(252)从频域版本转换为时域版本。
24.如上述权利要求中任一项所述的多声道信号产生器,其中所述第一音频源(211)为第一噪声源且所述第一音频信号(221)为第一噪声信号,或者所述第二音频源(213)为第二噪声源且所述第二音频信号(223)为第二噪声信号,
其中,所述第一噪声源或所述第二噪声源被配置为产生所述第一噪声信号(201)或所述第二噪声信号(203),使得所述第一噪声信号(201)或所述第二噪声信号(203)至少部分相关,及
其中,所述混合噪声源(212)被配置为产生具有第一混合噪声部分(221a)与第二混合噪声部分(221b)的所述混合噪声信号(222),所述第二混合噪声部分(221b)至少部分地与所述第一混合噪声部分(221b)去相关;以及
其中,所述混合器(206)被配置为将所述混合噪声信号(222)的所述第一混合噪声部分(221a)与所述第一音频信号(221)混合以获得所述第一声道(201),并且将所述混合噪声信号(222)的所述第二混合噪声部分(221b)与所述第二音频信号(223)混合以获得所述第二声道(203)。
25.一种用于产生具有第一声道及第二声道(203)的多声道信号的方法,包括:
使用第一音频源(211)产生第一音频信号(221);
使用第二音频源(213)产生第二音频信号(223);
使用混合噪声源(212)产生混合噪声信号(222);以及
混合(206)所述混合噪声信号(222)与所述第一音频信号(221)以获得所述第一声道(201),以及混合所述混合噪声信号(222)与所述第二音频信号(223)以获得所述第二声道(202)。
26.一种音频编码器(300,300a,300b),用于为包括活动帧(306)及非活动帧(308)的帧序列生成编码的多声道音频信号(232),所述音频编码器包括:
活动检测器(380),用于分析多声道信号(304)以确定(381)所述帧序列中的帧是非活动帧(308);
噪声参数计算器(3040),用于计算所述多声道信号(304)的第一声道(301,201)的第一参数噪声数据(p_noise,vm,ind),并用于计算所述多声道信号(320)的第二声道(303)的第二参数噪声数据(p_noise,vs,ind);
相干性计算器(320),用于计算指示非活动帧(308)中的所述第一声道(301,201)与所述第二声道(303,203)之间的相干情况的相干性数据(404,c);以及
输出接口(310),用于产生所述编码的多声道音频信号(232),所述编码的多声道音频信号(232)具有所述活动帧(306)的编码音频数据,以及所述非活动帧(308)的所述第一参数噪声数据(p_noise,vm,ind)、所述第二参数噪声数据(p_noise,vs,ind)、和/或所述第一参数噪声数据与所述第二参数噪声数据的第一线性组合以及所述第一参数噪声数据与所述第二参数噪声数据的第二线性组合,以及所述相干性数据(c,404)。
27.如权利要求26所述的音频编码器,其中所述相干性计算器(320)被配置为计算(320’)相干值(404,c),并对所述相干值(320’)进行量化(320”)以获得量化的相干值(cind),其中所述输出接口(310)被配置为使用所述量化的相干值(cind)作为所述编码的多声道信号中的所述相干性数据。
28.如权利要求26或27所述的音频编码器,其中所述相干性计算器(320)被配置为:
从所述非活动帧中的所述第一声道与所述第二声道(303)的复频谱值中计算实中间值与虚中间值;
计算所述非活动帧中的所述第一声道(301)的第一能量值和所述第二声道(303)的第二能量值;以及
使用所述实中间值、所述虚中间值、所述第一能量值及所述第二能量值计算所述相干性数据(404,c),或
平滑所述实中间值、所述虚中间值、所述第一能量值及所述第二能量值中的至少一个,并使用至少一个平滑值计算所述相干性数据。
29.如权利要求28所述的音频编码器,
其中,所述相干性计算器(320)被配置为计算所述实中间值,作为所述非活动帧中的所述第一声道与所述第二声道(303)的对应频率窗口的复频谱值的乘积的实部的和,或
计算所述虚中间值,作为所述非活动帧中的所述第一声道与所述第二声道(303)的对应频率窗口的所述复频谱值的所述乘积的虚部的和。
30.如权利要求28或29所述的音频编码器,
其中,所述相干性计算器(320)被配置为对平滑的实中间值求平方以及对平滑的虚中间值求平方,并将所述平方值相加以获得第一分量数,
其中,所述相干性计算器(320)被配置为将平滑后的第一能量值与第二能量值相乘以获得第二分量数,并且将所述第一分量数与所述第二分量数组合以获得所述相干值的结果数,所述相干性数据基于所述结果数。
31.如权利要求30所述的音频编码器,其中所述相干性计算器被配置为计算所述结果数的平方根,以得到相干值,所述相干性数据基于所述相干值。
32.如权利要求27至31中任一项所述的音频编码器,其中所述相干性计算器(320)被配置为使用均匀量化器(320”)对所述相干值(404,c)进行量化,以得到所述量化的相干值(cind),作为n位数以作为所述相干性数据。
33.如权利要求26-32中任一项所述的音频编码器,其中所述输出接口(310)被配置为生成所述第一声道(301,L)的第一静音插入描述符帧(241)和所述第二声道(303,R)的第二静音插入描述符帧(243),其中所述第一静音插入描述符帧(241)包括所述第一声道(301,L)的柔和噪声参数数据(p_noise)以及所述第一声道(301,L)与所述第二声道(303,R)的柔和噪声产生辅助信息(p_frame),并且其中所述第二静音插入描述符帧(243)包括所述第二声道(303)的柔和噪声参数数据(p_noise)以及指示所述非活动帧中的所述第一声道与所述第二声道(303)之间的相干性的相干性信息(404,c),或
其中,所述输出接口(310)被配置为生成静音插入描述符帧(241,243),其中所述静音插入描述符帧包括所述第一声道与所述第二声道(301,303)的柔和噪声参数数据(p_noise)以及所述第一声道(301,L)与所述第二声道(303,R)的柔和噪声产生辅助信息(p_frame),以及指示所述非活动帧中的所述第一声道(301,L)与所述第二声道(303,R)之间的相干性的相干性信息(404,c),或
其中,所述输出接口(310)被配置为生成所述第一声道(301,L)与所述第二声道(303,R)的第一静音插入描述符帧(241),以及所述第一声道与所述第二声道(303,R)的第二静音插入描述符帧(243),其中所述第一静音插入描述符帧(241)包括所述第一声道与所述第二声道的柔和噪声参数数据(p_noise)以及所述第一声道(301,L)与所述第二声道(303,R)的柔和噪声产生辅助信息(p_frame),所述第二静音插入描述符帧(243)包括所述第一声道与所述第二声道(303)的柔和噪声参数数据(p_noise),以及指示所述非活动帧中的所述第一声道与所述第二声道(303)之间的相干性的相干性信息(404,c)。
34.如权利要求32或权利要求33所述的音频编码器,其中所述均匀量化器(320”)被配置为计算n位数,使得n的值等于所述第一静音插入描述符帧(241)的所述柔和噪声产生辅助信息(p_frame)所占用的位的值。
35.如权利要求26至34中任一项所述的音频编码器(300),其中所述活动检测器(380)被配置为,对所述帧序列中的至少一个帧,
分析(370-1)所述多声道信号(304)的所述第一声道(301,L)以将所述第一声道(301,L)分类为活动或非活动,及
分析(370-2)所述多声道信号(304)的所述第二声道(303,R)以将所述第二声道(303,R)分类为活动或非活动,以及
如果所述第一声道(301,L)及所述第二声道(303,R)皆被分类为非活动,则确定(381)所述帧为非活动,否则确定所述帧为活动。
36.如权利要求26至35中任一项所述的音频编码器(300),其中所述噪声参数计算器(3040)被配置为计算所述第一声道(301)的第一增益信息(gl)以及所述第二声道(gl)的第二增益信息(gs),并提供所述参数噪声数据作为所述第一声道(301)的所述第一增益信息(gl)以及所述第二增益信息(gs)。
37.如权利要求26至36中任一项所述的音频编码器(300),其中所述噪声参数计算器(3040)被配置为将所述第一参数噪声数据与所述第二参数噪声数据中的至少一些从左/右表示转换为具有中声道及侧声道的中/侧表示。
38.如权利要求37所述的音频编码器,其中所述噪声参数计算器(3040)被配置为将所述第一参数噪声数据与所述第二参数噪声数据中的至少一些的所述中/侧表示(M,S)重新转换为左/右表示,
其中,所述噪声参数计算器(3040)被配置为从重新转换的左/右表示计算所述第一声道(301)的第一增益信息(gl)与所述第二声道(303)的第二增益信息(gr),以及提供包括在所述第一参数噪声数据中的所述第一声道(301)的所述第一增益信息(gl),以及包括在所述第二参数噪声数据中的所述第二增益信息(gr)。
39.如权利要求38所述的音频编码器(300),其中所述噪声参数计算器(3040)被配置为通过比较:
所述第一声道(301)的所述第一参数噪声数据从所述中/侧表示重新转换为所述左/右表示的版本(v’l);与
所述第一声道(301)的所述第一参数噪声数据从所述中/侧表示转换为所述左/右表示之前的版本(vl),
来计算所述第一增益信息(gl);和/或
通过比较:
所述第二声道(301)的所述第二参数噪声数据从所述中/侧表示重新转换为所述左/右表示的版本(v’r);与
所述第二声道(301)的所述第二参数噪声数据从所述中/侧表示转换为所述左/右表示之前的版本(vr),
来计算所述第二增益信息(gr)。
40.如权利要求26至39中任一项所述的音频编码器,其中所述噪声参数计算器(3040)被配置为比较所述第一参数噪声数据及所述第二参数噪声数据之间的所述第二线性组合的能量与预定能量阈值(α),并且:
当所述第一参数噪声数据及所述第二参数噪声数据之间的所述第二线性组合的所述能量大于所述预定能量阈值(α)时,将侧声道噪声形状向量的系数归零(437);以及
当所述第一参数噪声数据及所述第二参数噪声数据之间的所述第二线性组合的所述能量小于所述预定能量阈值(α)时,保持所述侧声道噪声形状向量的系数。
41.如权利要求26至40中任一项所述的音频编码器,被配置为使用比编码所述第一参数噪声数据及所述第二参数噪声数据之间的所述第一线性组合的位的量少的位对所述第一参数噪声数据及所述第二参数噪声数据之间的所述第二线性组合进行编码。
42.如权利要求26至41中任一项所述的音频编码器,
其中,所述输出接口(310)被配置为:
使用用于第一数量的频率窗口的第一多个系数来生成具有所述活动帧(306)的编码音频数据的所述编码的多声道音频信号(232);以及
使用用于描述第二数量的频率窗口的第二多个系数来生成所述第一参数噪声数据、所述第二参数噪声数据、或所述第一参数噪声数据与所述第二参数噪声数据的所述第一线性组合以及所述第一参数噪声数据与所述第二参数噪声数据的所述第二线性组合,
其中,所述第一数量的频率窗口多于所述第二数量的频率窗口。
43.一种音频编码方法,用于为包括活动帧与非活动帧的帧序列生成编码的多声道音频信号,所述方法包括:
分析多声道信号以确定所述帧序列中的帧为非活动帧;
计算所述多声道信号的第一声道、和/或所述多声道信号的所述第一声道与第二声道的第一线性组合的第一参数噪声数据,以及计算所述多声道信号的所述第二声道(303)、和/或所述多声道信号的所述第一声道与所述第二声道的第二线性组合的第二参数噪声数据;
计算指示所述非活动帧中的所述第一声道与所述第二声道(303)之间的相干情况的相干性数据;以及
生成所述编码的多声道音频信号,所述编码的多声道音频信号具有所述活动帧的编码音频数据,以及所述非活动帧的所述第一参数噪声数据、所述第二参数噪声数据、及所述相干性数据。
44.一种计算机程序,用于在运行于计算机或处理器上时,执行如权利要求25的方法、或如权利要求43的方法。
45.一种编码的多声道音频信号,被组织在帧序列中,所述帧序列包括活动帧与非活动帧,所述编码的多声道音频信号包括:
所述活动帧的编码的音频数据;
所述非活动帧中的第一声道的第一参数噪声数据;
所述非活动帧中的第二声道(303)的第二参数噪声数据;以及
指示所述非活动帧中的所述第一声道与所述第二声道(303)之间的相干情况的相干性数据。
CN202180053712.8A 2020-08-31 2021-06-30 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法 Pending CN116075889A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20193716 2020-08-31
EP20193716.6 2020-08-31
PCT/EP2021/068079 WO2022042908A1 (en) 2020-08-31 2021-06-30 Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal

Publications (1)

Publication Number Publication Date
CN116075889A true CN116075889A (zh) 2023-05-05

Family

ID=72432694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180053712.8A Pending CN116075889A (zh) 2020-08-31 2021-06-30 依赖混合噪声信号的多声道信号产生器、音频编码器及相关方法

Country Status (11)

Country Link
US (1) US20230206930A1 (zh)
EP (1) EP4205107A1 (zh)
JP (1) JP2023539348A (zh)
KR (1) KR20230058705A (zh)
CN (1) CN116075889A (zh)
AU (2) AU2021331096B2 (zh)
BR (1) BR112023003557A2 (zh)
CA (1) CA3190884A1 (zh)
MX (1) MX2023002238A (zh)
TW (1) TWI785753B (zh)
WO (1) WO2022042908A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051954A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata
WO2024051955A1 (en) * 2022-09-09 2024-03-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for discontinuous transmission of parametrically coded independent streams with metadata

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2007312597B2 (en) * 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
BR112015014212B1 (pt) 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio
CN104050969A (zh) * 2013-03-14 2014-09-17 杜比实验室特许公司 空间舒适噪声
ES2687617T3 (es) * 2014-02-14 2018-10-26 Telefonaktiebolaget Lm Ericsson (Publ) Generación de ruido de confort
US11495237B2 (en) * 2018-04-05 2022-11-08 Telefonaktiebolaget Lm Ericsson (Publ) Support for generation of comfort noise, and generation of comfort noise
KR102550424B1 (ko) * 2018-04-05 2023-07-04 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치, 방법 또는 컴퓨터 프로그램

Also Published As

Publication number Publication date
KR20230058705A (ko) 2023-05-03
AU2021331096A1 (en) 2023-03-23
JP2023539348A (ja) 2023-09-13
CA3190884A1 (en) 2022-03-03
AU2023254936A1 (en) 2023-11-16
TW202320057A (zh) 2023-05-16
US20230206930A1 (en) 2023-06-29
WO2022042908A1 (en) 2022-03-03
MX2023002238A (es) 2023-04-21
EP4205107A1 (en) 2023-07-05
AU2021331096B2 (en) 2023-11-16
TW202215417A (zh) 2022-04-16
BR112023003557A2 (pt) 2023-04-04
TWI785753B (zh) 2022-12-01

Similar Documents

Publication Publication Date Title
JP7124170B2 (ja) セカンダリチャンネルを符号化するためにプライマリチャンネルのコーディングパラメータを使用するステレオ音声信号を符号化するための方法およびシステム
US20140343953A1 (en) Multi-mode audio codec and celp coding adapted therefore
US20230206930A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
TWI840892B (zh) 音頻編碼器、音頻編碼方法、電腦程式及編碼的多聲道音頻信號
RU2809646C1 (ru) Генератор многоканальных сигналов, аудиокодер и соответствующие способы, основанные на шумовом сигнале микширования
US20210027794A1 (en) Method and system for decoding left and right channels of a stereo sound signal

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination