CN117730546A - 音频信号处理方法 - Google Patents

音频信号处理方法 Download PDF

Info

Publication number
CN117730546A
CN117730546A CN202280053065.5A CN202280053065A CN117730546A CN 117730546 A CN117730546 A CN 117730546A CN 202280053065 A CN202280053065 A CN 202280053065A CN 117730546 A CN117730546 A CN 117730546A
Authority
CN
China
Prior art keywords
filter
signal
frequency
channel
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280053065.5A
Other languages
English (en)
Inventor
彼得·多姆斯
阿尔诺·沃特曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Areal Corp
Original Assignee
Areal Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Areal Corp filed Critical Areal Corp
Publication of CN117730546A publication Critical patent/CN117730546A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种计算机实现的音频信号处理方法,该方法用于将输入音频立体声信号(S)上混成一组多通道输出信号(O)。

Description

音频信号处理方法
技术领域
本发明涉及一种计算机实现的音频信号处理方法,该方法用于将输入音频立体声信号(S)上混成一组多通道输出信号(O)。
背景技术
在许多应用中,希望生成能够模拟嵌入多个定向声源的现实的三维音景,以增强用户的感知。然而,现有技术中的大多数方法仅依赖于规则的立体声馈送来尝试创建清晰的多维音景。由于音景中散布的伪影的固有存在,这些尝试往往会导致音质受损和用户体验下降。因为立体声的到来,音乐和媒体制作往往在馈送中分配侧信息,以促进歌曲/录音的空间特性的提高。然而,现有技术中的大多数方法依赖于规则的立体声馈送来创建清晰的音景。现有的上混方法通常会损害用户体验的质量。就这个程度而言,用户将体验到由于高度层中包含的过多信息而产生的显著的空间方向差异,这导致用户体验下降。
现有技术中提出的大多数方法依赖于在频域中不提供线性相位响应的处理滤波器,导致音景中的定向声音伪影,最终降低用户体验并损害馈送的多维性。就这个程度而言,非线性相位响应会导致最终用户听到过度处理的音景。另外,现有技术中提出的大多数方法依赖于在跨人类可听频率支持之外的宽频率范围内操作的处理滤波器。这导致部分频谱就给定方向的振幅而言变得不相等,从而由于声音被感知为在空间中不均匀分布而导致用户体验下降。
现有技术中提出的大多数方法依赖于左立体声通道与右立体声通道之间的关系来提供中心通道的表示,然而这导致用户对左侧和右侧的不同感知。更特别地,利用这种方法,重要的声音项目可能无法准确地定位在音景内,也无法保留音调特色,从而导致给用户带来过度处理的感觉。最终,诸如人声之类的重要声音对象会导致较差的用户体验。
现有的上混音方法通常使用混响来创建空间感。这是通过向原始信号添加人工信息来实现的,这又会导致原始声音失去其清晰度并不自然地改变声音空间存在,从而阻碍用户体验。另外,混响只能在有限的空间中使用,并且不适合大型现场设置。
因此,需要一种用于将输入音频立体声信号呈现为多个在空间上分布的伪环绕通道以增强用户体验的方法。
发明内容
发明人惊奇地发现,这些问题中的一个或更多个可以通过本发明及本发明的实施方式来解决。本方法允许详细的预设,该预设包括符合所需的高环绕声标准的新见解和新特征。本发明尊重声音设计的创作过程。本发明不需要混响来创建空间感,从而保持了音乐的原始特色。不需要向音乐添加任何效果,音乐只是在空间上(且等同地)分布。
本发明提供了一种计算机实现的音频信号处理方法,该方法用于将输入音频立体声信号(S)上混在多个在空间上分布的伪环绕通道中以限定高度层。所述方法优选地包括以下步骤:
-接收至少一个输入音频立体声信号(S);
-对输入音频立体声信号(S)执行预处理阶段,该预处理阶段包括以下步骤:
·执行中侧解码,以产生至少一个和(SUM)信号和至少一个差(DIFF)信号;
·对至少一个差(DIFF)信号执行极性反转;
·借助于至少2个滤波器组(PF)对至少一个差(DIFF)信号执行滤波,优选地借助于至少4个滤波器组(PF)对至少一个差(DIFF)信号执行滤波;
-根据滤波器组(PF)重建至少2个信号从而获得经上混的输出信号(O),优选地,根据滤波器组(PF)重建至少4个信号从而获得经上混的输出信号(O);
-对至少一个经上混的输出信号(O)执行高通滤波;优选地对所有经上混的输出信号(O)执行高通滤波;
-对至少一个经上混的输出信号(O)执行电平调整;优选地对所有经上混的输出信号(O)进行电平调整;以及,
-将经上混的重建的音频信号(O)路由至音频扬声器通道(C)
以馈送顶部通道,从而限定形成高度层的在空间上分布的通道的矩阵,该顶部通道例如为至少顶部左前置通道(TFL)、顶部右前置通道(TFR)、顶部左后置通道(TRL)和顶部右后置通道(TRR)。
在一些实施方式中,滤波器组(PF)被配置成在频域中具有线性相位响应。
在一些实施方式中,滤波器组(PF)被配置成围绕滤波器子带(PSB)进行操作,这些子带(PSB)中的每个子带具有中心频率FSB-C,并且这些子带(PSB)中的每个子带被配置成围绕高于下截止频率FSB-L的低频声波范围和低于上截止频率FSB-U的高频声波的范围进行操作。
在一些实施方式中,滤波器子带(PSB)中的每个子带被配置成具有在子带中心频率FSB-C附近的振幅,所述子带中心频率在跨-3dB至-15dB的范围中选择,优选地在跨-6dB至-12dB的范围中选择,并且更优选地为-9dB。
在一些实施方式中,滤波器组(PF)被配置成具有在1/9倍频程与1倍频程之间的宽度。
在一些实施方式中,滤波器子带(PSB)的操作频率范围被配置成在跨FL和FU的频率范围内进行操作,其中,FL和FU为从350Hz至20kHz,优选地为400Hz至10kHz,更优选地为500Hz至9kHz。
在一些实施方式中,在滤波器组(PF)的频率支持之外执行振幅补偿,其中,与FL和FU处的振幅电平相关地执行该振幅补偿,并且其中,该振幅补偿使所得到的振幅电平在FL和FU附近,该FL和FU在跨-3dB至-12dB的范围内选择,优选地在跨-6dB至-9dB的范围内选择,并且更优选地为-6dB。
在一些实施方式中,使用高通滤波器(HPF)对高度通道中的每个高度通道执行高通滤波(HPF),其中,这样的高通滤波器(HPF)被配置成以中心频率FHFC=500Hz进行操作。
在一些实施方式中,高通滤波器是高架滤波器并且该高通滤波器在频域中具有线性相位响应。
在一些实施方式中,对经上混的输出音频信号中的每个经上混的输出音频信号执行电平调整。
在一些实施方式中,处理时间为毫秒量级,优选地该处理时间短于5ms,更优选地该处理时间短于3ms,并且更优选地该处理时间短于1ms。
在一些实施方式中,在中侧解码步骤处执行同步,并且对未经过中侧解码步骤的输入通道执行延迟补偿。
在一些实施方式中,该方法还包括以下步骤:
-对至少一个(SUM)信号执行延迟调整(D–ADJ);
-将经上混的重建的音频信号(O)路由至音频扬声器通道(C)
以馈送至少中心通道(CE)和低频效果(LFE)通道,从而限定形成中心层的在空间上分布的通道的矩阵;以及,
-对LFE通道执行低通滤波(LPF)。
在一些实施方式中,所述方法还被配置成对获得的经上混的输出信号(O)执行补偿滤波。
在一些实施方式中,补偿滤波器是低架滤波器和/或高架滤波器并且在频域中具有线性相位响应。
附图说明
图1示出了显示根据本发明的一个优选实施方式的滤波器组的曲线图。
图2示出了根据本发明的一个优选实施方式的框图。
具体实施方式
本发明将参照特定实施方式来描述,但本发明不限于这些特定实施方式,而仅受权利要求的限制。权利要求中的任何附图标记不应被解释为限制其范围。
如本文所用的,单数形式“一”、“一个”和“该”包括单数和复数两者指示物,除非上下文另外明确指出。
本文所使用的术语“包括(comprising)”、“包括有(comprise)”和“由……构成(comprised of)”与“包含(including)”、“包含有(include)”或“含有(containing)”、含有(contain)同义,并且本文所使用的术语是包容性的或开放式的,以及不排除附加的、非列举构件、元件或方法步骤。当提及所列举的构件、元件或方法步骤时,术语“包括”、“包括有”和“由……构成”还包括“由所述所列举的构件、元件或方法步骤……组成”的实施方式。
此外,除非另有说明,否则说明书和权利要求中的术语第一、第二、第三等用于对相似的元件进行区分,而不一定用于描述顺序或时间顺序。应当理解的是,如此使用的术语在适当的情况下是可以互换的,并且本文所描述的本发明的实施方式能够以本文所描述或示出的以外的其他顺序进行操作。
本文所使用的术语“约”在指可测量值诸如参数、量、持续时间等时,意在涵盖从指定值的+/-10%或更少、优选地+/-5%或更少,更优选地+/-1%或更少,并且还更优选地+/-0.1%或更少的变化,只要这样的变化适合在所公开的发明中执行即可。应当理解的是,修饰语“约”所指的值本身也是具体地且优选地公开的。
通过端点列举的数值范围包括在各个范围内的所有数字和分数,以及所列举的端点。本说明书中引用的所有文献均通过引用以其整体并入本文。除非另有限定,否则公开本发明时使用的所有术语(包括技术和科学术语)具有本发明所属领域的普通技术人员通常理解的含义。
借助于进一步的指导,包括了说明书中所使用的术语的定义以更好地理解本发明的教导。本文所使用的术语或定义仅仅是为了帮助理解本发明而提供的。在整个说明书中提及“一个实施方式”或“实施方式”意味着结合该实施方式描述的特定特征、结构或特性被包括在本发明的至少一个实施方式中。
因此,在整个说明书的各个地方出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式。此外,在一个或更多个实施方式中,如本领域技术人员根据本公开将显而易见的是,可以以任何合适的方式组合特定特征、结构或特性。此外,虽然本文所描述的一些实施方式包括其他实施方式中包括的一些特征但不包括其他特征,但是不同实施方式的特征的组合意味着在本发明的范围内,并且形成不同的实施方式,如本领域技术人员将理解的。例如,在下面的权利要求和描述中,任何要求保护的或描述的实施方式均可以以任何组合使用。
当聚焦于高度层时,需要执行几个重要步骤。当修改这些步骤中的一个或更多个时,用户可能会体验到结果中的重大差异。
为了创建高度层,本发明使用称为MS编码的技术。通过对立体声信号进行MS编码,不再有左信号和右信号,而是有和信号(称为单声道)和差信号(侧)。在音乐制作中,歌曲的宽度或空间属性由侧信息的数量限定。例如,人工立体声混响会创建大量侧信息来创建空间感。因此,可以说创建具有大量侧信息的轨道以感受空间感,并且因此在3D上混中发挥了自己的作用。因此,差通道中MS编码器的信息在高度层中得到完美使用。
在本发明中,使用MS矩阵来从左右立体声信号生成差信号。该差信号用于创建高度层以实现真正的3D上混。如果跳过MS矩阵,将替代地使用常规立体声馈送来创建高度层,高度扬声器中将会有太多立体声中心信息。通常,音乐中最重要的项目出现在立体声馈送的中心。通过不在高度层中包括该信息,本发明允许这些项目保持正确的焦点。
MS矩阵可以应用于原始立体声信号,以创建原始左信号和右信号以及差(侧)信号的单声道(求和)。单声道和可以通过简单地将右信号和左信号相加在一起来创建。可以通过将右信号与左信号相减来创建差信号。优选地通过反转右信号的相位、创建负的右信号并将负的右信号与左信号相加来完成减法。结果,获得包含在左信号和右信号中不相同的信号的差信号。这些信号通常包含立体声轨道的“空间”信息。声音(诸如混响信息或极端全景声音)存在于差信号中。
在声音设计中,音乐轨道的最重要的特征被放置在立体声图像的中心。当立体声馈送由MS矩阵处理时,该中心被称为“单声道”。该差包含除立体声中心之外的所有信息。因此,如果使用立体声来创建高度层,那么重要的声音(诸如主唱)将不仅以2D方式划分,而且也以3D方式划分。然后,用户将体验到来自歌曲中的重要特征的过大分散。这样就很难聚集在特定的声音上。
在本发明中,2D划分和中心通道的单声道馈送的组合不会干扰经3D上混信号的下层。通过使用针对高度扬声器的差信号,重要声音不会进一步恶化。
另外,在音乐制作中,当一首歌曲被创建得声音很大时,差信号中就会有很多信息。当一首歌曲被创建得声音很小时,差信号中只会有一些细节。这导致高度层将成为为每首歌曲设计的创作过程的延伸。大型的音乐作品比小型的亲密歌曲有更多高度感,这正是该作品的原意。
差(侧)信号是用于生成高度层的信号。优选地,从左到左A和左B的处理与用于生成高度A和高度B的处理之间存在一个主要区别。在用于生成高度A和高度B的处理中,补偿滤波器优选地仅用于高于处理范围(例如9kHz及以上)的区域。优选地通过在处理范围的底部边界频率处引入高通滤波器来从高度扬声器去除低于处理范围的区域。因为大多数空间声音不包含较低频率,所以不需要在高度扬声器中生成较低频率。
高度扬声器的电平优选地被衰减,以匹配前置扬声器和后置扬声器。如果电平太高,高度扬声器的焦点就会太大,结果会造成干扰。因此,高度扬声器优选地被衰减,例如高度扬声器优选地被衰减5dB。确切的数量可能取决于环绕声设置中使用的扬声器。
为了避免前置扬声器与前置高度扬声器之间过多的交互,高度B信号优选地被路由至前置高度扬声器,该前置高度扬声器可以与由前置扬声器生成的左A信号和右A信号完美地结合。
因为差信号是也存在于原始立体声信号中的信号,所以高度扬声器与前置扬声器之间可能会出现不期望的交互。为了避免这种情况,优选地对高度扬声器应用B处理,并且对前置扬声器应用A处理。同样的过程也适用于后置扬声器和后置高度扬声器。只有后置扬声器有左B和右B信号,因此高度A信号被引入到后置高度通道。
在这种情况下,后置高度扬声器对角地朝向前置扬声器生成部分相同的信号。因为这些扬声器通常面对面,所述在设置的中心这些扬声器之间可能会产生令人不愉快的交互。为了解决这个问题,优选的是反转路由至高度扬声器的所有信号的极性。当这些信号与前置扬声器信号组合时,它们将相加而不是相减。由于下层前置扬声器和上层后置扬声器产生(少量)的信号是相同的并且它们面对面,所以特别优选地在高度通道上执行极性反转。这不会导致音质下降。
因此,在一些实施方式中,在高度层中使用的信号的极性朝向下层反转。针对3D上混,在较低电平的前置扬声器中使用的处理滤波器优选地与在后置高度扬声器中使用的处理滤波器相同。在来自MS矩阵的差通道的信号中,有一小部分立体声信号。因此,后置高度扬声器和前下层扬声器生成彼此相同的信号。因为它们面对面,所以信号可能会在环绕声设置的中心减弱。用户会注意到声音和音质的巨大差异,具体取决于用户是坐着听还是站着听。
然而,通过对高度层进行极性反转,在环绕声中心相遇的信号将叠加,并且用户将沿Z轴体验更稳定的声音体验。
本发明优选地使用设计用于创建LA、LB、RA和RB的相同系列的滤波器,就像用于高度扬声器的相同系列的滤波器一样,不同之处在于,对于高度通道,低架滤波器(例如在502Hz处起始)优选地被更改为高通滤波器(例如在502Hz处),因为高度通道中不需要低频。在高度通道(A或B处理)中使用的一系列滤波器优选地与在下层中使用的系列滤波器相反。例如,左前置高度通道和右前置高度通道将生成由B系列滤波器处理后的侧信息。因此,下层和上层将完美地合作。这同样适用于左后置高度通道和右后置高度通道,它们将生成由A系列滤波器处理的侧信息。
3D上混中的高度层是对下层的补充,与2D上混和绝对立体声混合相比,高度层创建了更多的音乐感。然而,优选的是,高度层保持补充并且不成为主要声源。因此,优选地衰减到达高度层的信号。如果没有信号衰减,用户可能会体验到下层信号的干扰,这些信号包含正常音乐制作中的所有主要声音。这听起来令人不愉快并且不能满足期望。然而,当根据优选实施方式衰减高度层时(例如在从-3dB到-12dB的范围内),主要声源将保持集中在下层并且高度层将更像是将感觉自然添加到体验。
在一些实施方式中,滤波器组(PF)被配置成在频域中具有线性相位响应。缺乏线性相位会导致声音处理过度和声音伪影,从而降低最终用户的空间感知。需要使用线性相位滤波器来达到本发明所期望的质量水平。使用线性相位滤波器将防止传统滤波器发生的相移。由于信号的相位响应不变,交互将是自然的,而不是听起来经过过度处理的。
本发明的基本原理包括通过对频率进行划分而将一个信号分割成两个信号。左信号被划分成左A和左B。从左到左A和左B的划分是通过一系列频率滤波器来完成的,更具体地,本发明采用线性相位滤波器来去除由传统滤波器导致的扬声器之间的相移。所使用的滤波器具有3个特定属性:振幅、频率和宽度。这些属性中的每个都彼此相关。右通道以相同的方式被划分成右A和右B,左信号被划分成左A和左B。左A信号被路由至左前置扬声器,右A信号被路由至右前置扬声器,左B信号被路由至左后置扬声器,右B信号被路由至右后置扬声器。
在优选示例中,使用-9db的幅度,使用1/3倍频程的宽度,并且使用以下示例频率:502Hz、652.6Hz、848.8Hz、1102.9Hz、1433.7Hz、1863.8Hz、2423Hz、3149.9Hz、4094.9Hz、5323.3Hz、6920.3Hz、8999.4Hz。如此处所示例的,频率的间隔优选地是1/3倍频程。这与所使用的滤波器宽度直接相关。如果滤波器宽度变得更窄,则必须调整频率间隔以匹配所使用的滤波器宽度。然而,优选地避免滤波器太小或太宽。根据一些优选实施方式,滤波器组(PF)中的每个被配置成具有在1/9倍频程与1倍频程之间的宽度。
在一些实施方式中,滤波器组(PF)被配置成在滤波器子带(PSB)附近进行操作,这些滤波器子带被配置成在跨FL和FU的操作频率范围内进行操作,其中,FL至FU优选地为从350Hz至20kHz,优选地从400Hz至10kHz,更优选地从500Hz至9kHz。此外,所述滤波子带可以被配置成提取至少4个子带(PSB)信号,优选地提取8个子带(PSB)信号,更优选地提取16个子带(PSB)信号。发明人惊奇地发现,提取足够数量的用于重建音频馈送的子带信号致使表达提高的动态范围和改进的空间分辨率的输出馈送。
普通人不能够定位在空间中低于500Hz和高于9kHz的区域。因此,用于划分左A与左B之间的频率的处理优选地仅在该区域中是有效的。当滤波频率在9kHz之上时,与这些频率相关的开放声音将在收听区域上变成不等同地划分,从而导致令人不满意的“开放声音”的覆盖。如果滤波下降在500Hz之下,低频的和将几乎为零,导致横跨经上混的信号中的声音不佳,而这种低频和声会给人一种温暖的感觉。
在一些优选实施方式中,在子带滤波的操作频带之外执行振幅补偿,其中,这种补偿优选地具有从-9dB至-3dB的振幅,更优选地振幅为约-6dB。在一些优选实施方式中,补偿滤波器是低架滤波器和高架滤波器。在高度层的情况下,低架滤波器可以变成高通滤波器。
由于滤波器可能会有重叠,因此在处理频率范围内可能有普遍的振幅减小。因此,优选地在处理范围之上和处理范围之下引入补偿滤波器。这些滤波器优选为地低架滤波器和高架滤波器,也优选地为线性相位类型。当使用具有1/3宽度和1/3间距的-9dB幅度时,优选-6dB的补偿滤波器。
补偿滤波器的频率是处理范围的边界频率。如上面列表可见,示例的边界频率为502Hz和8999.4Hz。因为将补偿滤波器的频率设置为该边界频率,所以将这些补偿滤波器在该边界频率处降低3dB幅度。因此,处理中使用的边界频率滤波器的幅度优选地设置为-6dB,使得边界频率两者之和的结果将为-9dB。
在一些实施方式中,会将(小的)延迟引入中心信号。当扬声器设置根据ITU-RBS.775标准正确执行时,不需要对中心信号进行延迟。然而,在大多数实际设置中,左前置扬声器、右前置扬声器和中置扬声器实际上放置在同一条线上。在这种情况下,小的延迟(例如范围从1ms至5ms)可能会阻止焦点集中到中间通道,而不是等同地集中到所有扬声器。
在一些实施方式中,低频效应通道(LFE)还可以从MS矩阵接收单声道和。中间通道的相同原理也适用于LFE。除了电平和延迟之外,还可以引入低通滤波器。这可以防止LFE生成对于应用而言过高的频率。该滤波器的频率取决于扬声器的频率响应,例如取决于在5.1.4设置中使用的扬声器。频率可以从60Hz至200Hz变化。针对LFE信号使用的电平优选地为-9dB,但这也可能根据环绕声设置而变化。
在一些优选实施方式中,本发明使用动态EQ滤波器。这些滤波器具有固定的频率和带宽,类似于在上一节中所描述的频率和带宽。动态滤波器有可能与振幅域中馈送至该动态滤波器的信号进行交互。滤波器优选地被设置为当输入信号上升时减小幅度。在优选实施方式中,使用2层系列滤波器。第一层优选地包含具有如本文所描述的频率和带宽的静态滤波器,例如包含具有设置为-6dB而不是-9dB的幅度。第二层优选地包含一系列动态滤波器,例如包含具有-6dB的最大振幅范围。
这项技术的好处是,该方法将隔离从歌曲中弹出的特定的声音并将该特定声音放置在空间中。当声音消失并且电平下降在动态滤波器阈值之下时,该方法将返回到其静态位置。这会导致与音乐进行交互的有机上混,并且产生更具创作的上混技术。
该技术的变体可以通过使用多频带压缩来实现。应该将多频段压缩器引入动态上混的第二层上,并且应该取代动态滤波器。通过使用多频带压缩器,可以压缩(衰减)或扩展(增加)特定频率区域。大多数多频带压缩器比动态滤波器具有更宽的工作频率范围。本发明的动态上混可以使用多频带压缩器,以例如衰减后置扬声器上的频率区域并增加前置扬声器中的相同区域。这导致处理与音乐之间的动态交互。当音乐中弹出一个声音时,该声音将投射至该前置扬声器;当声音停止时,上混返回到声音的静态位置。
本方法还可以用在现场设置中。该方法甚至有可能与音乐进行现场交互,以在创作水平上做出贡献,其中基本原理保持不变(例如线性相位、从500Hz至9khz的滤波)。在一些实施方式中,频率范围与算法分离,并且该方法包括隔离范围不应用处理的单声道和。这导致与静态上混隔离的歌曲的特定频率范围(例如800Hz至3kHz)并且可以围绕声场移动,从现在起可以将声场描述为“对象”。围绕声场移动可以通过基于矢量/强度/层的振幅平移类型来执行。然而,优选的是不使用基于平移延迟的系统,因为这会在对象与上混之间创建时间差。本方法可以启用或禁用对象的创建。本方法可以调整对象的频率范围的宽度。本方法可以使对象移动通过声场。本方法的使用超越了之前已知的立体声体验,并且为上混算法添加了另外的创作层。
在一些实施方式中,本方法用在数字声音处理器单元(DSP)上或者替代性地用在现场可编程门阵列(FPGA)上。
在一些实施方式中,本方法对未经过中/侧编码的音频通道使用延迟补偿。在本发明中,非中侧编码音频通道经过调整信号路径,这导致由于处理/调整信号路径而发生的延迟。本方法在非中/侧编码信号路径上引入延迟补偿,以建立与中/侧编码信号路径的时间同步。补偿延迟在0.1ms至2.0ms范围内选择。
示例
利用当前方法及其实施方式,还可能从2D环绕格式创建高度层。例如,可能从5.1混音创建5.1.4混音。
高度层是通过使用MS矩阵来实现的。例如,前置高度扬声器接收由MS矩阵生成的信号,该信号放置在5.1混音的左前置信号和右前置信号上。差信号用于高度通道。对差信号应用A滤波器处理和B滤波器处理,以创建前置高度A信号和前置高度B信号。前置高度A信号被馈送至左前置高度扬声器,前置高度B信号被馈送至右前置高度扬声器。
对于中间通道,优选地对中间通道的电平进行衰减,使中间通道的电平不会在5.1.4设置中变得太明显,但足以关闭左前置扬声器与右前置扬声器之间的间隙。在示例的设置中,信号衰减了10dB。此电平可能会根据所使用的音乐/内容而有所不同。
将2D环绕格式上混为3D时,不一定存在相位反转问题。由于后置高度扬声器不会生成与较低电平前置扬声器相同的少量信息,因此可能不需要对高度层进行相位反转。然而,由于左前置高度和右前置高度确实生成了相同的信号,因此优选对前置高度信号应用先前描述的处理。这会导致为前置高度扬声器提供2个单独的通道。
在电影声音设计中,设计师经常使用左前置扬声器和右前置扬声器,以扩大例如声音或重要声音等的宽度。该声音将同等地出现在左前置信号和右前置信号中。由于本方法对于高度层使用MS技术,因此这个重要的声音将保持不变,并且不会上混为3D。另一方面,当电影声音设计师想要创建空间感时,他们将使用人工混响来创建空间感。当通过MS矩阵处理混响时,其主要存在于差信号中。因此,混响将被上混成3D,这将产生预期的更好的空间感。牢记这些基本原则,各种2D到3D上混都是可能的。例如,可以通过对左前置扬声器/右前置扬声器进行上混来从7.1创建7.1.2。

Claims (15)

1.一种计算机实现的音频信号处理方法,所述方法用于将输入音频立体声信号(S)上混在多个在空间上分布的伪环绕通道中以限定高度层,所述方法包括以下步骤:
-接收至少一个输入音频立体声信号(S);
-对所述输入音频立体声信号(S)执行预处理阶段,所述预处理阶段包括以下步骤:
·执行中侧解码,以产生至少一个和(SUM)信号和至少一个差(DIFF)信号;
·对所述至少一个差(DIFF)信号执行极性反转;
·借助于至少2个滤波器组(PF)对所述至少一个差(DIFF)信号执行滤波,优选地借助于至少4个滤波器组(PF)对所述至少一个差(DIFF)信号执行滤波;
-根据所述滤波器组(PF)重建至少2个信号从而获得经上混的输出信号(O),优选地,根据所述滤波器组(PF)重建至少4个信号从而获得经上混的输出信号(O);
-对至少一个经上混的输出信号(O)执行高通滤波;优选地对所有经上混的输出信号(O)执行高通滤波;
-对至少一个经上混的输出信号(O)进行电平调整;优选地对所有经上混的输出信号(O)进行电平调整;以及,
-将经上混的重建的音频信号(O)路由至音频扬声器通道(C)以馈送顶部通道,从而限定形成所述高度层的在空间上分布的通道的矩阵,所述顶部通道例如为至少顶部左前置通道(TFL)、顶部右前置通道(TFR)、顶部左后置通道(TRL)和顶部右后置通道(TRR)。
2.根据权利要求1所述的方法,其中,所述滤波器组(PF)被配置成在频域中具有线性相位响应。
3.根据权利要求1或2中的任一项所述的方法,其中,所述滤波器组(PF)被配置成围绕滤波器子带(PSB)进行操作,这些子带(PSB)中的每个子带具有中心频率FSB-C,并且这些子带(PSB)中的每个子带被配置成围绕高于下截止频率FSB-L的低频声波范围和低于上截止频率FSB-U的高频声波范围进行操作。
4.根据权利要求3所述的方法,其中,所述滤波器子带(PSB)中的每个子带被配置成具有在子带中心频率FSB-C附近的振幅,所述子带中心频率在跨-3dB至-15dB的范围中选择,优选地在跨-6dB至-12dB的范围中选择,并且更优选地为-9dB。
5.根据权利要求1至4中的任一项所述的方法,其中,所述滤波器组(PF)中的每个滤波器组被配置成具有在1/9倍频程与1倍频程之间的宽度。
6.根据权利要求1至5中的任一项所述的方法,其中,所述滤波器子带(PSB)的操作频率范围被配置成在跨FL和FU的频率范围内进行操作,其中,FL至FU为从350Hz至20kHz,优选地从400Hz至10kHz,更优选地从500Hz至9kHz。
7.根据权利要求1至6中的任一项所述的方法,其中,在所述滤波器组(PF)的频率支持之外执行振幅补偿,并且其中,与FL和FU处的振幅电平相关地执行所述振幅补偿,并且其中,所述振幅补偿使所得到的振幅电平在FL和FU附近,所述FL和FU在跨-3dB至-12dB的范围内选择,优选地在跨6dB至-9dB的范围内选择,并且更优选地为-6dB。
8.根据权利要求1至7中的任一项所述的方法,其中,使用高通滤波器(HPF)对所述高度通道中的每个高度通道执行高通滤波(HPF),并且其中,这样的高通滤波器(HPF)被配置成以中心频率FHFC=500Hz进行操作。
9.根据权利要求8所述的方法,其中,所述高通滤波器是高架滤波器并且所述高通滤波器在频域中具有线性相位响应。
10.根据权利要求1至9中的任一项所述的方法,其中,对经上混的输出音频信号中的每个经上混的输出音频信号执行电平调整。
11.根据权利要求1至10中的任一项所述的方法,其中,所述处理时间为毫秒量级,优选地所述处理时间短于5ms,更优选地所述处理时间短于3ms,并且更优选地所述处理时间短于1ms。
12.根据权利要求1至11中的任一项所述的方法,其中,在所述中侧解码步骤处执行时间同步,并且对未经过中侧解码步骤的输入通道执行延迟补偿。
13.根据权利要求1至12中的任一项所述的方法,其中,所述方法还包括以下步骤:
-对至少一个(SUM)信号执行延迟调整(D-ADJ);
-将所述经上混的重建的音频信号(O)路由至音频扬声器通道(C)以馈送至少中心通道(CE)和低频效果(LFE)通道,从而限定形成中心层的在空间上分布的通道的矩阵;以及,
-对所述LFE通道执行低通滤波(LPF)。
14.根据权利要求1至13中的任一项所述的方法,其中,所述方法还被配置成对获得的经上混的输出信号(O)执行补偿滤波。
15.根据权利要求14所述的方法,其中,补偿滤波器是低架滤波器和/或高架滤波器,并且所述补偿滤波器在频域中具有线性相位响应。
CN202280053065.5A 2021-07-30 2022-07-29 音频信号处理方法 Pending CN117730546A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
BE20215604A BE1029638B1 (nl) 2021-07-30 2021-07-30 Werkwijze voor het verwerken van een audiosignaal
BEBE2021/5604 2021-07-30
PCT/EP2022/071342 WO2023006945A1 (en) 2021-07-30 2022-07-29 Audio signal processing method

Publications (1)

Publication Number Publication Date
CN117730546A true CN117730546A (zh) 2024-03-19

Family

ID=77912941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280053065.5A Pending CN117730546A (zh) 2021-07-30 2022-07-29 音频信号处理方法

Country Status (5)

Country Link
EP (1) EP4378179A1 (zh)
KR (1) KR20240038003A (zh)
CN (1) CN117730546A (zh)
BE (1) BE1029638B1 (zh)
WO (1) WO2023006945A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
EP3453190A4 (en) * 2016-05-06 2020-01-15 DTS, Inc. SYSTEMS FOR IMMERSIVE AUDIO PLAYBACK
US9820073B1 (en) * 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals

Also Published As

Publication number Publication date
EP4378179A1 (en) 2024-06-05
BE1029638A1 (nl) 2023-02-21
KR20240038003A (ko) 2024-03-22
BE1029638B1 (nl) 2023-02-27
WO2023006945A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
JP7378515B2 (ja) ヘッドマウントスピーカのためのオーディオエンハンスメント
EP3329489B1 (en) Encoded audio metadata-based equalization
AU2008278072B2 (en) Method and apparatus for generating a stereo signal with enhanced perceptual quality
KR102160254B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
JP6009547B2 (ja) オーディオ・システム及びオーディオ・システムのための方法
US9532156B2 (en) Apparatus and method for sound stage enhancement
CA2599969C (en) Device and method for generating an encoded stereo signal of an audio piece or audio data stream
US9326085B2 (en) Device and method for generating an ambience signal
US8781133B2 (en) Apparatus for generating a multi-channel audio signal
CN117730546A (zh) 音频信号处理方法
Vickers Fixing the phantom center: diffusing acoustical crosstalk
US11197113B2 (en) Stereo unfold with psychoacoustic grouping phenomenon
US20200045419A1 (en) Stereo unfold technology
KR102217832B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
von Schultzendorff et al. Real-diffuse enveloping sound reproduction
Arthi et al. Perceptual evaluation of simulated auditory source width expansion
Rumsey Basic psychoacoustics for surround recording

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication