CN109416915A - 用于处理多声道音频信号的装置和方法 - Google Patents

用于处理多声道音频信号的装置和方法 Download PDF

Info

Publication number
CN109416915A
CN109416915A CN201780031302.7A CN201780031302A CN109416915A CN 109416915 A CN109416915 A CN 109416915A CN 201780031302 A CN201780031302 A CN 201780031302A CN 109416915 A CN109416915 A CN 109416915A
Authority
CN
China
Prior art keywords
signal
sound channel
phase
combination
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780031302.7A
Other languages
English (en)
Other versions
CN109416915B (zh
Inventor
克里斯丁·乌勒
迈克尔·克拉茨
保罗·克洛斯
蒂莫西·伦纳德
安德烈·卢维佐托
塞巴斯蒂安·沙勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN109416915A publication Critical patent/CN109416915A/zh
Application granted granted Critical
Publication of CN109416915B publication Critical patent/CN109416915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)

Abstract

提供了一种用于处理多声道音频信号(100)的装置(1),所述信号包括多个声道信号(x1,x2)。该装置执行对多声道音频信号(100)的时标调制,并包括相位适配器(5)和分离器(6)。相位适配器(5)通过基于声道信号(x1,x2)的组合修改信号(Xs,Xd)的相位来提供经处理的信号(Ys,Yd)。分离器(6)基于经处理的信号(Ys,Yd)提供分离的信号(Y1,Y2)。还提供了相应的方法。

Description

用于处理多声道音频信号的装置和方法
技术领域
本发明涉及一种用于处理多声道音频信号的装置。多声道音频信号包括多个(即,至少两个)声道信号。所述装置执行对多声道音频信号的时标(time scale)调制。本发明还涉及对应的方法和计算机程序。
背景技术
时标修改(TSM)是指用于在不影响音调的情况下减慢或加速音频信号的回放的处理。TSM与采样率转换相结合,还可以在不改变速度的情况下改变音调。TSM的挑战是保持音频信号的所有其他特性(速度或音调除外),特别是音质。处理不应产生可听见的伪音。
对于单声道输入信号,主要的重要特性是音色。对于具有多于一个声道的信号,还需要保持空间特性。空间特性包括直接声源的位置和宽度以及环境声音的漫射。它们可以通过声道间电平差(ICLD)、声道间时间差(ICTD)、声道间相位差(ICPD)或声道间相干性(ICC)来量化。
存在两种完全不同的时标修改方法。一种应用在时域中,而另一种应用在频域中。
时域中的处理使用同步重叠相加(SOLA)方案。将信号切割成重叠的帧,并将这些帧进行移位和组合以拉伸或收缩信号。通常通过使相似性(例如,信号帧与其移位后副本之间的相关性)的度量达最大化来计算移位位置。
时域中的这种方法具有低计算复杂度。对于单音(与复音相对)信号(例如,语音或长笛音),它产生良好的结果,因为可以将移位偏移量确定为基频周期的整数倍,以避免输出信号中的不连续性和相消干涉。换句话说,移位后的信号帧以相位相干方式相加。对于包含多个具有不同基频的音调的复音输入,无法确定移位使得对于所有音调(声调)满足波形相似性。
对于许多音乐信号,通过在频域中应用处理,在音质方面获得了更好结果。例如,该方法使用如图1所示的方框图中所示的相位声码器方案[1],其将在下面简要说明。
使用短时傅立叶变换(STFT)将输入音频信号x(n)变换到频域。等效地,可以使用其他类型的滤波器组或变换,其中可以以足够小的重建误差应用逆处理。
在所提到的实施例中,将输入信号x(n)切割成重叠帧,并且根据以下等式(1)针对每个帧计算离散傅立叶变换(DFT),从而根据以下等式(1)产生信号的短时傅立叶变换(STFT)表示,也称为STFT系数(或频谱系数):
时间帧索引以m表示,k是离散频率索引,其中0≤k≤N-1,wa是窗口函数。归一化角频率Ωk由Ωk=2πk/N给出。DFT的大小为N,Ra是分析跳(hop)大小。
为简洁起见,在可能的情况下在描述中省略时间和频率的索引。
输出时域信号y(n)是通过STFT的逆根据合成级中的输出频谱系数Y(m,k)计算的,其以两个步骤来执行:
首先,根据下式,针对M个帧中的每一帧,计算逆离散傅里叶变换:
其次,根据下式,应用重叠相加过程:
其中可选的合成窗口为ws(n),合成跳大小为Rs
通过将合成跳大小Rs和分析跳大小Ra设置为不同的值来实现时标修改:如果Ra<Rs,则信号在时间上拉伸,如果Ra>Rs,则信号在时间上收缩。
选择分析窗口wa和合成窗口ws,使得如果Ra=Rs且Y(m,k)=X(m,k),则输入信号和输出信号是相同的。
用于实值输入信号(这里考虑的音频信号的情况)的短时傅里叶变换系数X(m,k)是复数值,其可以通过其大小|X|和相位Φx以极坐标表示为:
X=|X|exp(jΦx), (4)
Φx=arg X, (5)
其中,j=√-1。
如果两个跳的大小Ra和Rs不同,即,如果Ra≠Rs,则需要修改Y(m,k)的相位,使得实现“水平相位相干”。这意味着对于恒定频率的正弦波,连续帧相干地叠加,没有不连续点或相位抵消(相消干涉)。
相位声码器方法适用于复音输入,例如音乐录音。其缺点在于:相位的修改会产生称为“瞬态拖尾”的伪音,即,信号的时间包络被修改,使得音符冲击被感知为具有较少的打击并且声音较少敲击感。可以对输出相位应用附加处理以减轻瞬态拖尾,例如,通过应用一种称为“锁相”的方法[2]或通过重置静默时段期间的相位[3]来实现。
在合适的修改相位的过程之后,获得输出。输出的频谱系数可以用极坐标写为Y=|Y|exp(jΦy),其中Φy表示修改后的相位。计算相位Φy的处理在下文中称为相位适配(PA)。
处理双声道音频输入信号的各种方法是已知的:
一种选择是将多声道信号混缩成单声道信号,即,将所有声道的缩放版本进行相加,并处理单声道(单一声道)信号。处理输入信号的单声道混缩具有以下缺点:立体声信息丢失,从而声音质量降低。
另一种选择是独立地处理分离的输入声道信号。分开处理每个声道信号的主要缺点是引入了声道之间的任意去相关(decorrelation),这使得立体声图像失真。因为时标修改的相位适配是信号相关处理,所以当相应的声道信号不同时,不保留各个声道的相位之间的关系。空间信息的失真可以被感知为直接声源(例如,歌手或独奏者)的立体声图像的模糊或加宽。
发明内容
本发明的一个目的在于:针对的空间特性(例如,立体声图像)的质量经处理的信号,改进现有时标修改方法。
该目的通过装置以及方法来实现。
该目的通过一种用于处理多声道音频信号的装置来实现。多声道音频信号包括多个(或者至少两个)声道信号。该装置被配置为:执行对多声道音频信号的时标调制,即,多声道音频信号被减速或加速而不影响其音调。该装置包括相位适配器和分离器。相位适配器被配置为:通过基于声道信号的组合来修改信号的相位,从而提供至少一个经处理的信号。分离器被配置为:基于所述至少一个经处理的信号,提供分离的信号。
本发明对处理信号(尤其是音频或语音信号)进行了改进。特别解决了处理具有两个或更多个声道的立体声输入信号的问题。
本发明的一个优点是:保留了输入音频信号的空间特性,使得感知的立体声图像不会失真。特别地,声源的位置和扩散性不因为TSM处理而发生改变。
因此,本发明解决了现有技术中输出信号的空间特性严重失真的问题,该问题在收听移动到立体声图像中心的声源时最为显著。
该装置通过执行相位适配来执行对多声道音频信号的时标修改。在现有技术中,修改相位的不同过程(包括锁相和其他手段)是已知的。
用于修改相位的一个实施例包括:修改相位,使得在合成跳大小Rs的情况下相邻帧之间的相位传播与输入信号在分析跳大小Ra的情况下的相位传播相同。这确保了水平相位相干性(即,每个频率仓(bin)中的相位的时间演变)得以保持。这是通过在给定当前时间帧和前一时间帧的输入相位以及分析跳大小Ra和STFT(短时傅里叶变换)参数的情况下计算时间帧m处的瞬时频率来实现的。使用瞬时频率和合成跳大小Rs计算期望的相位传播。
在另外的实施例中,通过包括“锁相”在内的方法来增强前述方法。锁相旨在改善垂直相位相干性,即,保持每帧中相邻频率仓之间的相位关系。这改善了声音质量,例如这在处理包含瞬变或打击乐音符的音乐信号时是显著的。
相位适配器被配置为适配多声道音频信号所包括的声道信号的至少一个组合的相位。为此,要由相位适配器处理的信号通过大小和相位以极坐标来给出。
相位适配器之后的分离器基于经处理的信号(即,基于具有修改后的相位的信号)提供分离的信号。分离器反转信号的组合,并提取或产生分离的信号。
因此,该装置修改至少一个声道信号组合的相位,并通过将经相位适配的声道信号组合分成分离的信号来提供各个修改后的信号。
本发明的相位适配最适合作为使用相位声码器(即,在频域中进行处理)的时标修改的扩展。但是,它也可以应用作为时域中的TSM的扩展。为此,时域TSM被配置为处理通过组合多声道音频信号所包括的声道信号而获得的至少一个信号。时域TSM之后的分离器基于经处理的信号提供分离的信号。
在一个实施例中,相位适配器被配置为:通过基于N个声道信号的组合修改N个信号的相位,提供N个经处理的信号。分离器被配置为:基于经处理的信号,提供N个分离的信号。N是多声道音频信号所包括的声道信号的数量,并且是大于或等于2的整数。在一个实施例中,N是多声道音频信号所包括的所有声道信号的数量。因此,N个声道信号被转换成N个组合信号,其在相位适配之后被分离成N个信号。
根据一个实施例,声道信号的N个组合是声道信号的线性组合。在一个实施例中,相位适配器处理声道信号的各种组合,其中组合是线性组合,例如,声道信号的和或差。
在一个实施例中,N等于2(N=2),并且两个声道信号的两个组合是和信号以及差信号。在不同的实施例中,N大于2。
在另一实施例中,该装置包括变换器。变换器被配置为通过将信号从时域变换到频域来提供变换信号。变换器允许将信号从时域变换到频域,并且随后在频域中处理这些信号。在一个实施例中,要变换的信号是多声道音频信号所包括的声道信号。
根据一个实施例,变换器被配置为:通过应用短时傅立叶变换来提供变换信号。短时傅里叶变换或者备选地短期傅里叶变换(STFT)是对随时间变化的信号的局部部分的傅立叶相关的变换。实际上,较长的信号被分成相等长度的较短的段,并且在每个段上分别计算傅立叶变换。
在另一实施例中,该装置包括组合器,其中组合器被配置为基于声道信号提供组合信号。变换器被配置为:通过应用变换来基于组合信号提供变换信号。这里,声道信号被组合,并且组合被变换到频域。
在不同的实施例中,组合器和变换器的顺序是相反的。在该实施例中,该装置包括的组合器被配置为基于变换器提供的变换信号提供组合信号。在该实施例中,组合器接收来自变换器的变换信号并将它们组合以便提供组合信号。因此,声道信号被各自变换到频域,并由组合器在该域中进行组合。
在另一实施例中,组合器被配置为:通过计算两个变换信号的和来提供和信号作为组合信号。在该实施例中,通过其求和形式的变换信号进行的声道信号的线性组合被用于提供至少一个组合信号。如果多声道音频信号包括例如两个声道信号作为立体声信号,则将两个声道信号彼此相加以获得作为和信号的一个组合信号。在不同的实施例中,组合器计算至少两个声道信号的声道信号之和。
根据一个实施例,组合器被配置为:通过计算两个变换信号之间的差来提供差信号作为组合信号。在该实施例中,信号的线性组合是两个信号之间的差。这里,要组合的信号是变换信号。在不同的实施例中,组合器计算两个声道信号之间的差。
根据一个实施例,组合器被配置为:通过根据将N乘N维的混合矩阵(称为g)应用于包括N个变换信号的多声道信号来提供组合信号。
N是多声道音频信号所包括的声道信号的数量,并且是基于变换信号的矩阵多声道信号,并因此表示一般形式的组合信号。
换句话说:组合器被配置为通过将N乘N维的混合矩阵应用于(优选地是矩阵格式的)N个变换信号来提供组合信号,其中变换信号基于属于多声道音频信号的N个声道信号。
由于混合矩阵具有相同的列数和行数,因此要组合的信号数等于组合信号的数量,如下面的等式所示:
应用混合矩阵等效于通过对多声道音频信号的所有声道信号乘以矩阵的第k行的对应元素再进行求和来计算组合信号的第k个声道信号,如下面的等式所示:
在不同的实施例中,将定义的混合矩阵应用于基于N个声道信号的信号。混合矩阵允许组合任何给定数量的信号,所述信号可以是变换信号或声道信号中的任一种。
在另一实施例中,相位适配器被配置为通过应用相位声码器方法来修改相位。相位声码器是通过使用相位信息对音频信号的频域和时域都进行尺度调制的声码器。
根据一个实施例,相位适配器被配置为通过其具有幅度和修改后的相位的极坐标来提供经处理的信号。因此,在具有N=2个声道信号Ys、Yd的一个实施例中,经处理的信号由下式给出:Ys/d=|Ys/d|exp(jΦs/d),其中,Φs/d=arg Ys/d,j=√-1。
分离器基于以组合信号为基础的经处理的信号来提供单个信号。分离器提供的信号将被用作经时标修改的声道信号。因此,根据一个实施例,如果多声道音频信号包括N个声道信号,则分离器提供N个分离的信号。
根据一个实施例,分离器被配置为基于两个经处理的信号之间的差来提供分离的信号。
在另一实施例中,分离器被配置为基于两个经处理的信号的和来提供分离的信号。
在一个实施例中,分离器将因子(例如,0.5)应用于经处理的信号的相应组合的幅度。
根据一个实施例,分离器被配置为通过将N乘N维的逆混合矩阵应用于基于N个经处理的信号的矩阵信号来提供N个分离的信号。N是多声道音频信号所包含的声道信号的数量。该实施例允许处理任何给定数量的经处理的信号,并提供相应数量的分离的信号。逆混合矩阵是用于获得组合信号的混合矩阵的逆。
根据一个实施例,该装置包括校正器,其中校正器被配置为:通过用基于多声道音频信号所包括的声道信号的幅度的幅度替换分离的信号的幅度来修改分离的信号。
该实施例包括:处理声道信号的线性组合,并在信号已在频域中经过修改之后应用幅度校正过程。
因此,所提出的方法的新颖性在该实施例中是双重的:
1)将TSM处理优选地应用于线性组合,例如,和信号和差信号;以及
2)应用用于恢复时频域中的输出信号幅度的处理,以恢复声道间电平差(lCLD)。
在另一实施例中,校正器被配置为:用由变换器提供的相应变换信号的幅度(即,用频域中的声道信号的幅度)来替换分离的信号的幅度。
因此,校正器用适配之前的相应信号的幅度替换具有适配后相位的分离的信号的幅度。因此,原始幅度得以恢复。
以下实施例关心频域中的信号,并允许在时域中处理它们。
在一个实施例中,该装置包括逆变换器。逆变换器被配置为:通过应用逆变换来基于分离的信号提供经修改的声道信号。在一个实施例中,该逆变换将信号从频域变换到时域。
根据另一实施例,该装置包括逆变换器。逆变换器被配置为:通过应用逆变换,基于由校正器提供的校正信号来提供经修改和校正的声道信号。
根据不同的实施例,逆变换器被配置为应用逆短时傅立叶变换。
因此,逆变换器被配置为反转在相位适配之前的步骤中执行的变换的类型。
根据一个实施例,该装置包括提取器,其中提取器被配置为提供多声道音频信号所包括的声道信号。在该实施例中,例如,该装置接收多声道音频信号,并且提取器提供各个声道信号。在不同的实施例中,将声道信号分开提交给该装置。
以下实施例允许便利于计算步骤和对单元的要求。
根据一个实施例,该装置被配置为:基于声道信号的差来执行关于声道信号组合的步骤,这与基于声道信号的不同组合相比精度较差。
该目的还通过一种用于处理多声道音频信号的方法来实现。
该方法至少包括以下步骤:
基于多声道音频信号所包括的声道信号提供至少一个组合信号;
通过执行对组合信号的时标调制来提供经处理的信号;以及
基于经处理的信号的分离来提供经修改的声道信号。
在一个实施例中,时标调制通过相位适配来执行。
根据一个实施例,该方法还包括:通过用基于相应声道信号的幅度的幅度替换幅度来修改经修改的声道信号的幅度。
在该实施例中,发生以下步骤:将声道信号组合成组合信号。组合信号或基于组合信号的信号经历相位适配以便执行时标修改。经相位适配的信号被分成分离的信号。信号包括相位和幅度。这些信号的幅度/大小被基于声道信号的幅度所替换。
装置的实施例也可以通过方法的步骤和方法的相应实施例来执行。因此,对于装置的实施例的解释也适用于方法。
该目的还通过一种计算机程序来实现,该计算机程序用于在计算机或处理器上运行时执行任何前述实施例的方法。
附图说明
下面将参考附图和附图中描述的实施例来解释本发明,其中:
图1示出了根据现有技术的在频域中的时标修改方法的框图;
图2示出了本发明的用于具有两个声道的输入音频信号的时标修改方法的框图;
图3示意性地提供了装置的实施例;
图4提供了装置的不同实施例;以及
图5示出了图4的实施例的一般版本。
具体实施方式
图2中针对具有两个声道(例如,立体声声音的左右声道)的输入信号的示例示出了本发明方法的实施例的框图。
输入音频信号是x=[x1x2]T,其中x1表示第一声道信号,x2表示第二声道信号。在步骤STFT中,针对x1和x2计算短时傅里叶变换(STFT)表示,从而分别产生X1和X2
根据本发明,在名为MS的步骤中根据下式从声道信号(这里是多声道音频信号的经变换的声道信号X1和X2)计算和信号Xs和差信号Xd
Xs=(X1+X2), (6)
Xd=(X1-X2) (7)
在不同实施例中,交换STFT和步骤MS中的信号组合的顺序。这考虑到,计算和信号和差信号也可以在时域中执行,并且可以根据时域的和信号和差信号计算STFT。然而,应用如图2所示的顺序以降低计算负荷是有利的。
然后通过相位适配(PA)方法(例如,通过使用[2]中描述的相位声码器方法)或任何其他时标修改方法来处理和信号Xs和差信号Xd。经处理的和信号和差信号分别由Ys和Yd表示。
之后在步骤inverseMS(逆MS)中进行逆变换,例如通过逆短时傅立叶变换对信号Ys和Yd进行变换。
在所示实施例中,通过应用以下等式(8)和(9),即等式(6)和(7)的逆处理,来获得第一声道和第二声道的经处理的信号。
因此,在所示实施例中通过下式给出两个分离的信号Y1和Y2
Y1=0.5(Ys+Yd), (8)
Y2=0.5(Ys-Yd) (9)
在一般形式中,和信号和差信号的计算(作为组合信号的示例)以矩阵表示法表示为:
其中,输入信号的STFT系数为X=[X1 … XN]T,声道的数量为N,矩阵信号的STFT系数为以及混合矩阵g的大小为N乘N。
例如,通过设置来获得N=2时的和信号Xs和差信号Xd,如由等式(6)和(7)给出的那样。
根据下式获得矩阵运算的逆处理,即,从矩阵信号计算声道信号Y=[Y1 … YN]T
其中,是对应用PA处理的结果,g-1是矩阵g的逆。利用这种归纳,所提出的方法也可以应用于具有多于两个声道的信号。
所示实施例的一个非常有利的步骤是:校正频谱系数的大小,使得所得到的复值频谱系数具有使用等式(8)和(9)的分离步骤的结果的相位和变换后的声道信号X1和X2的幅度。
分离的信号以极坐标给出为:
Y1/2=|Y1/2|exp(jΦy,1/2),其中,Φy,1/2=arg Y1/2,并且j=√-1。
因此,对于所示的双声道输入信号,步骤MC之后的校正信号Z1和Z2由下式给出:
Z1=|X1|exp(jΦy,1), (12)
Z2=|X2|exp(jΦy,2) (13)
该步骤确保了保持音频信号的声道间电平差(ICLD)。
因此,在该步骤中,经处理的信号的幅度由变换后的声道信号的原始幅度代替。
对于具有多于两个声道的输入信号的一般情况,在一个实施例中,在逆矩阵运算之后(即,在各自相位适配之后的分离成分离的信号之后)的每个输出信号被修改,使得其幅度被(在矩阵计算之前,即,在计算不同声道信号的组合之前的)相应的(优选地是变换后的)声道信号的幅度所替换。
PA处理具有相当大的计算复杂度。它涉及各种处理步骤,这些处理步骤可以以降低的精度实现,以便降低计算负荷。
例如,可以以更低或更高的精度实现由其笛卡尔坐标(实部和虚部)给出的复数的极坐标(幅度和相位)的计算。通常,较低精度的计算具有较低的计算成本但引入了误差。
通过利用以下事实可以降低计算负荷:对于典型的音频信号(例如,音乐录音或广播信号),和信号与差信号相比具有更高的能量。由计算中的近似产生的误差在它们被引入差信号中时具有较小的影响,而在它们出现在和信号中时具有较大的影响。这可以通过对于计算差信号Yd应用具有较小精度的方法和在计算和信号Ys时应用具有较大精度的方法来加以利用。
用于降低计算负荷的另一种方法是跳过某些处理步骤。例如,在计算差信号Yd时可以跳过锁相。锁相是指用于改善声音质量的附加处理步骤。为了降低计算负荷,以使得保持相位传播而不应用锁相处理的方式来计算差信号Yd的相位。
用于降低计算负荷的另一种方法是将高质量的处理(大精度,包括如锁相之类的所有处理步骤)仅应用于高达一最大频率值。例如,对于以48kHz采样的数字信号,高质量处理仅被应用于最大值为10kHz的频带。对于差信号的计算,以最佳可能质量的处理应用到的最大频率可被进一步减小。
图3示出了装置1的实施例,其执行对多声道音频信号100的时标修改。多声道音频信号100可包括两个以上的声道信号。时标修改通过相位适配来实现。
提取器2获取多声道音频信号100所包括的声道信号x1、x2。在所示实施例中,只有两个声道信号。然而,本发明不限于两个声道信号。
在不同的(未示出的)实施例中,声道信号x1、x2被分开提供给装置1。因此,对于这样的实施例,不需要提取器。
声道信号x1、x2是时域中的信号,并且在所示实施例中,被提交给变换器3。变换器3将声道信号x1、x2变换到频域,从而提供变换后的信号X1、X2
变换后的信号X1、X2被提交给组合器4。组合器4对变换后的信号X1、X2进行组合——在给定的示例中,通过应用它们的线性组合来组合,例如,通过计算变换后的信号的和Xs和它们之间的差Xd。在一个实施例中,组合信号的数量与声道信号的数量相同。
在不同的(未示出的)实施例中,变换器3和组合器4的顺序反转。这意味着在该不同且未示出的实施例中,组合器4组合声道信号,并且变换器3变换组合后的信号。
在所描绘的实施例中,将变换后的声道信号进行组合所得的组合信号Xs和Xd被提交给相位适配器5。
相位适配器5修改组合信号Xs和Xd的相位,并提供经处理的信号Ys和Yd。经处理的信号Ys和Yd具有适配后的相位,该适配后的相位反映了对组合信号Xs和Xd的适当的时标修改。因此,组合信号要么减慢要么加速。
为了获得经时标修改的声道信号,经处理的信号Ys和Yd通过分离器6被分离,从而提供由逆变换器7进行逆变换后的分离的信号Y1和Y2。所得到的经修改的声道信号y1和y2是时间信号并具有所需的时标。
图4示出了装置1的不同实施例。
图4中所示的装置1的结构类似于图3中所示的实施例。这两个实施例之间的差异通过分离器6之后的单元给出。关于其他元件的说明,请参见图3的描述。
图4所示实施例中的分离器6也提供分离的信号Y1和Y2。在该实施例中,这些频域信号Y1和Y2被提交给在逆变换器7上游的校正器8。
校正器8用相应的变换后的信号X1和X2的幅度(即,用相位适配之前的,尤其是在声道信号的组合之前的,幅度或大小)替代分离的信号Y1和Y2的幅度。
所得到的经校正或幅度修改的信号Z1和Z2(比照等式(12)和(13))被提交给逆变换器7,并且被变换到时域作为经修改和校正的声道信号z1、z2
为了实现校正,变换器3与校正器8连接。
在另一个未示出的实施例中,变换器3和组合器4的顺序被交换,因此变换器3变换组合信号。为了校正分离的信号Y1、Y2,校正器8因此参考对相应的声道信号x1、x2的附加变换。
图5的实施例是图4中所示实施例的一般化版本。
这里,多声道音频信号100包括N个声道信号x1、x2、...、xN,其中N是大于2的整数。
由提取器2获取的作为时间信号的声道信号x1、x2、...、xN被提交给变换器3,以提供频域中的变换信号X1、X2、...、XN,在这里它们由矢量给出(备选地,由X给出)。
之后的组合器4通过应用等式(10)提供线性组合的矢量
之后,相位适配器5提供经处理的信号(这里由矢量给出),所述经处理的信号由分离器6进行分离。分离的信号Y1、Y2、...、YN(这里由矢量给出)由校正器8校正它们的幅度。校正后的信号Z1、Z2、...、ZN(这里由矢量给出)被提交给逆变换器7,以产生N个经修改和校正的声道信号z1、z2、...、zN。从大写到小写的切换表示从频域到时域的变换。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方案也表示对对应装置的对应块或项或特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要方法步骤中的某一个或多个方法步骤。
本发明的经传输或编码的信号可以存储在数字存储介质上或可以在诸如无线传输介质或有线传输介质(诸如因特网)的传输介质上传输。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以通过使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、Blu-Ray、CD、ROM、PROM和EPROM、EEPROM或闪存)来执行所述实现方案,所述控制信号与可编程计算机系统合作(或能够与之合作),使得执行各个方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
因此,本发明方法的另一实施例是数据载体(或诸如数字存储介质或计算机可读介质的非暂时性存储介质),包含记录于其上的用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录的介质通常是有形的和/或非暂时性的。
因此,本发明方法的另一实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围来限制而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。
参考文献
[1]M.Dolson,“The Phase Vocoder:A Tutorial”,Computer Music Journal,vol.10,pp.14-27,1986.
[2]J.Laroche and M.Dolson,“lmproved Phase Vocoder Time-ScaleModification of Audio”.IEEE Transaction on Speech and Audio Processing,vol.7,no.3,pp.323-332,1999.
[3]T.Karrer,E.Lee,and J.Borchers,“PhaVoRIT:A Phase Vocoder for Real-Time Interactive Time-Stretching,”in Proc.of ICMC,2006.

Claims (24)

1.一种用于处理多声道音频信号(100)的装置(1),所述多声道音频信号包括多个声道信号(x1,x2),
其中,所述装置(1)被配置为执行对多声道音频信号(100)的时标调制,以及
其中,所述装置(1)包括:
相位适配器(5),
其中所述相位适配器(5)被配置为通过基于声道信号(x1,x2)的组合修改信号(Xs,Xd)的相位来提供至少一个经处理的信号(Ys,Yd),以及
分离器(6),
其中所述分离器(6)被配置为基于所述至少一个经处理的信号(Ys,Yd)来提供分离的信号(Y1,Y2)。
2.根据权利要求1所述的装置(1),
其中所述相位适配器(5)被配置为:通过基于N个声道信号(x1,x2)的组合修改N个信号(Xs,Xd)的相位来提供N个经处理的信号(Ys,Yd),
其中所述分离器(6)被配置为基于所述经处理的信号(Ys,Yd)来提供N个分离的信号(Y1,Y2),以及
其中N是多声道音频信号(100)所包括的声道信号(x1、x2)的数量。
3.根据权利要求2所述的装置(1),
其中所述声道信号(x1,x2)的N个组合是所述声道信号(x1,x2)的线性组合。
4.根据权利要求1至3中的任何一个所述的装置(1),
其中所述装置(1)包括变换器(3),以及
其中所述变换器(3)被配置为通过将信号从时域变换到频域来提供变换信号(X1,X2)。
5.根据权利要求4所述的装置(1),
其中所述变换器(3)被配置为应用短时傅里叶变换。
6.根据权利要求1至5中的任何一个所述的装置(1),
其中所述装置(1)包括组合器(4),
其中所述组合器(4)被配置为基于声道信号(x1,x2)提供组合信号(Xs,Xd),以及
其中所述变换器(3)被配置为通过应用变换来基于组合信号提供变换信号。
7.根据权利要求4或5所述的装置(1),
其中所述装置(1)包括组合器(4),以及
其中所述组合器(4)被配置为基于由变换器(3)提供的变换信号(X1,X2)来提供组合信号(Xs,Xd)。
8.根据权利要求7所述的装置(1),
其中所述组合器(4)被配置为通过计算两个变换信号(X1,X2)的和来提供和信号(Xs)。
9.根据权利要求7或8所述的装置(1),
其中所述组合器(4)被配置为通过计算两个变换信号(X1,X2)之间的差来提供差信号(Xd)。
10.根据权利要求7所述的装置(1),
其中所述组合器(4)被配置为:通过将N乘N维的混合矩阵(g)应用于基于属于多声道音频信号(100)的N个声道信号(x1,x2)的N个变换信号(X1,X2)来提供组合信号(Xs,Xd),以及
其中N是多声道音频信号(100)所包括的声道信号(x1、x2)的数量。
11.根据权利要求1至10中的任何一个所述的装置(1),
其中所述相位适配器(5)被配置为:通过应用相位声码器方法来修改相位。
12.根据权利要求2至11中的任何一个所述的装置(1),
其中所述分离器(6)被配置为基于所述经处理的信号(Ys,Yd)中的两个之间的差来提供分离的信号(Y1,Y2)。
13.根据权利要求2至12中的任何一个所述的装置(1),
其中所述分离器(6)被配置为基于所述经处理的信号(Ys,Yd)中的两个的和来提供分离的信号(Y1,Y2)。
14.根据权利要求2至13中的任何一个所述的装置(1),
其中所述分离器(6)被配置为:通过将N乘N维的逆混合矩阵(g-1)应用于基于N个经处理的信号(Ys,Yd)的矩阵信号来提供N个分离的信号(Y1,Y2),以及
其中N是多声道音频信号(100)所包括的声道信号(x1、x2)的数量。
15.根据权利要求1至14中的任何一个所述的装置(1),
其中所述装置(1)包括校正器(8),以及
其中所述校正器(8)被配置为:通过用基于声道信号(x1,x2)的幅度的幅度替换分离的信号(Y1,Y2)的幅度来修改分离的信号(Y1,Y2)。
16.根据权利要求16所述的装置(1),
其中所述校正器(8)被配置为用变换器(3)提供的变换信号(X1,X2)的幅度替换分离的信号(Y1,Y2)的幅度。
17.根据权利要求1至16中的任何一个所述的装置(1),
其中所述装置(1)包括逆变换器(7),以及
其中所述逆变换器(7)被配置为:通过应用逆变换来基于分离的信号(Y1,Y2)提供经修改的声道信号(y1,y2)。
18.根据权利要求15或16所述的装置(1),
其中所述装置(1)包括逆变换器(7),以及
其中所述逆变换器(7)被配置为:通过应用逆变换来基于校正器(8)所提供的校正信号(Z1,Z2)提供经修改和校正的声道信号(z1,Z2)。
19.根据权利要求17或18所述的装置(1),
其中所述逆变换器(7)被配置为应用逆短时傅里叶变换。
20.根据权利要求1至19中的任何一个所述的装置(1),
其中所述装置(1)包括提取器(2),以及
其中所述提取器(2)被配置为提供多声道音频信号(100)所包括的声道信号(x1,x2)。
21.根据权利要求1至20中的任何一个所述的装置(1),
其中所述装置(1)被配置为:基于信号之间的差来执行关于声道信号(x1,x2)的组合的步骤,这与基于信号的不同组合相比精度较差。
22.一种用于处理多声道音频信号(100)的方法,
包括:
基于多声道音频信号所包括的声道信号提供至少一个组合信号;
通过执行对组合信号的时标调制来提供经处理的信号;以及
基于对所述经处理的信号的分离来提供经修改的声道信号。
23.根据权利要求22所述的方法,
还包括:
通过用基于相应声道信号的幅度的幅度替换幅度来修改经修改的声道信号的幅度。
24.一种计算机程序,当运行在计算机或处理器上时,用于执行根据权利要求22或权利要求23所述的方法。
CN201780031302.7A 2016-05-20 2017-05-17 用于处理多声道音频信号的装置和方法 Active CN109416915B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16170723.7 2016-05-20
EP16170723 2016-05-20
EP16179531.5A EP3246923A1 (en) 2016-05-20 2016-07-14 Apparatus and method for processing a multichannel audio signal
EP16179531.5 2016-07-14
PCT/EP2017/061895 WO2017198737A1 (en) 2016-05-20 2017-05-17 Apparatus and method for processing a multichannel audio signal

Publications (2)

Publication Number Publication Date
CN109416915A true CN109416915A (zh) 2019-03-01
CN109416915B CN109416915B (zh) 2020-11-24

Family

ID=56080267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780031302.7A Active CN109416915B (zh) 2016-05-20 2017-05-17 用于处理多声道音频信号的装置和方法

Country Status (13)

Country Link
US (1) US11929089B2 (zh)
EP (2) EP3246923A1 (zh)
JP (1) JP6728400B2 (zh)
KR (1) KR102329707B1 (zh)
CN (1) CN109416915B (zh)
AU (1) AU2017266294B2 (zh)
BR (1) BR112018073894A2 (zh)
CA (1) CA3023401C (zh)
ES (1) ES2841302T3 (zh)
MX (1) MX2018014041A (zh)
PL (1) PL3459078T3 (zh)
RU (1) RU2713094C1 (zh)
WO (1) WO2017198737A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079265A (zh) * 2007-07-11 2007-11-28 北京中星微电子有限公司 一种语音信号处理系统
WO2008046967A1 (en) * 2006-10-18 2008-04-24 Nokia Corporation Time scaling of multi-channel audio signals
CN101989426A (zh) * 2009-08-05 2011-03-23 立积电子股份有限公司 立体音频解码器以及多工信号解码方法
CN102016983A (zh) * 2008-03-04 2011-04-13 弗劳恩霍夫应用研究促进协会 用于对多个输入数据流进行混合的设备
CN103714847A (zh) * 2013-12-31 2014-04-09 广州市花都区中山大学国光电子与通信研究院 一种基于dsp的多通道数字音频处理器

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
JP2000049614A (ja) 1998-07-31 2000-02-18 Kobe Steel Ltd 再生装置
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
US20050137729A1 (en) * 2003-12-18 2005-06-23 Atsuhiro Sakurai Time-scale modification stereo audio signals
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
EP1810279B1 (en) * 2004-11-04 2013-12-11 Koninklijke Philips N.V. Encoding and decoding of multi-channel audio signals
US7957960B2 (en) * 2005-10-20 2011-06-07 Broadcom Corporation Audio time scale modification using decimation-based synchronized overlap-add algorithm
US20070135952A1 (en) 2005-12-06 2007-06-14 Dts, Inc. Audio channel extraction using inter-channel amplitude spectra
EP2002963A4 (en) 2006-03-30 2009-11-04 Mitsui Chemicals Inc METHOD FOR PRODUCING AN ORIENTED FILM
EP1918911A1 (en) * 2006-11-02 2008-05-07 RWTH Aachen University Time scale modification of an audio signal
RU2493618C2 (ru) * 2009-01-28 2013-09-20 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование
EP2214165A3 (en) * 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
US8705769B2 (en) * 2009-05-20 2014-04-22 Stmicroelectronics, Inc. Two-to-three channel upmix for center channel derivation
EP2476113B1 (en) * 2009-09-11 2014-08-13 Nokia Corporation Method, apparatus and computer program product for audio coding
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
RU2559899C2 (ru) * 2010-04-09 2015-08-20 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
FR2966634A1 (fr) * 2010-10-22 2012-04-27 France Telecom Codage/decodage parametrique stereo ameliore pour les canaux en opposition de phase
EP2705516B1 (en) * 2011-05-04 2016-07-06 Nokia Technologies Oy Encoding of stereophonic signals
JP5734517B2 (ja) * 2011-07-15 2015-06-17 華為技術有限公司Huawei Technologies Co.,Ltd. 多チャンネル・オーディオ信号を処理する方法および装置
EP4300488A3 (en) 2013-04-05 2024-02-28 Dolby International AB Stereo audio encoder and decoder
WO2014202770A1 (en) * 2013-06-21 2014-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
WO2015038578A2 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation System aspects of an audio codec

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008046967A1 (en) * 2006-10-18 2008-04-24 Nokia Corporation Time scaling of multi-channel audio signals
CN101079265A (zh) * 2007-07-11 2007-11-28 北京中星微电子有限公司 一种语音信号处理系统
CN102016983A (zh) * 2008-03-04 2011-04-13 弗劳恩霍夫应用研究促进协会 用于对多个输入数据流进行混合的设备
CN101989426A (zh) * 2009-08-05 2011-03-23 立积电子股份有限公司 立体音频解码器以及多工信号解码方法
CN103714847A (zh) * 2013-12-31 2014-04-09 广州市花都区中山大学国光电子与通信研究院 一种基于dsp的多通道数字音频处理器

Also Published As

Publication number Publication date
CN109416915B (zh) 2020-11-24
US20190066712A1 (en) 2019-02-28
EP3459078B1 (en) 2020-11-04
US11929089B2 (en) 2024-03-12
JP2019518988A (ja) 2019-07-04
MX2018014041A (es) 2019-04-01
CA3023401A1 (en) 2017-11-23
KR20190013756A (ko) 2019-02-11
JP6728400B2 (ja) 2020-07-22
AU2017266294B2 (en) 2019-10-17
KR102329707B1 (ko) 2021-11-22
ES2841302T3 (es) 2021-07-08
EP3246923A1 (en) 2017-11-22
WO2017198737A1 (en) 2017-11-23
AU2017266294A1 (en) 2018-11-29
RU2713094C1 (ru) 2020-02-03
BR112018073894A2 (pt) 2019-02-26
EP3459078A1 (en) 2019-03-27
CA3023401C (en) 2022-04-05
PL3459078T3 (pl) 2021-05-04

Similar Documents

Publication Publication Date Title
US11966660B2 (en) Method, system and artificial neural network
CN102881294B (zh) 操纵具有瞬变事件的音频信号的方法和设备
CN102741921B (zh) 改进的基于子带块的谐波换位
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
KR20180050652A (ko) 음향 신호를 사운드 객체들로 분해하는 방법 및 시스템, 사운드 객체 및 그 사용
CN103650538B (zh) 用于使用采用谱权重生成器的频域处理分解立体声录音的方法和装置
CN103518386B (zh) 用于产生立体声输出信号以提供额外输出声道的装置、方法及计算机可读存储介质
Yang et al. Don’t separate, learn to remix: End-to-end neural remixing with joint optimization
Han et al. Reconstructing completely overlapped notes from musical mixtures
CN109416915A (zh) 用于处理多声道音频信号的装置和方法
US8781134B2 (en) Method and apparatus for encoding and decoding stereo audio
Muñoz‐Montoro et al. Online score‐informed source separation in polyphonic mixtures using instrument spectral patterns
Juillerat Audio Time Stretching with Controllable Phase Coherence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant