CN102859579A

CN102859579A - 用于利用包络整形修改音频信号的装置和方法

Info

Publication number: CN102859579A
Application number: CN2011800212724A
Authority: CN
Inventors: 萨沙·迪施
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2010-02-26
Filing date: 2011-02-25
Publication date: 2013-01-02
Anticipated expiration: 2031-02-25
Also published as: MY154205A; AU2011219778B2; EP2539885A1; TW201205555A; TWI470618B; AR080320A1; RU2591732C2; WO2011104356A3; KR101492702B1; PL2539885T3; US20130182862A1; EP2539886B1; KR20130010118A; EP2362376A2; AU2011219780B2; CA2790651A1; TW201142815A; US9203367B2; AR080319A1; KR101494062B1

Abstract

一种用于修改音频信号的装置，包括包络形状确定器、滤波器组处理器、信号处理器、合成器和包络整形器。包络形状确定器基于表示时域输入音频信号的频域音频信号来确定包络形状系数，以及滤波器组处理器基于频域音频信号来生成次频带域中的多个带通信号。此外，信号处理器基于预定修改目标来修改多个次频带域带通信号中的一个次频带域带通信号。合成器合成包括修改后的次频带域带通信号的多个次频带域带通信号的至少一个子集来获得时域音频信号。此外，包络整形器基于包络形状系数来整形时域音频信号的包络，基于包络形状系数来整形包括修改后的次频带域带通信号的多个次频带域带通信号的包络，或者在次频带域带通信号被信号处理器修改之前，基于包络形状系数来整形多个次频带域带通信号的包络以获得整形音频信号。

Description

用于利用包络整形修改音频信号的装置和方法

技术领域

根据本发明的实施方式涉及音频处理，且具体地，涉及用于修改音频信号的装置和方法。

背景技术

数字信号处理技术能解决极值信号处理需求以将预先记录的例如取自数据库的音频信号匹配成新的音乐环境，对此种技术的需求在逐渐增加。为达成此项目的，需要调适高阶语义信号的特性，诸如音高、音乐音调及音阶模式。所有这些操作的共同之处在于其在针对实质上改变原始音频材料的音乐性质，同时仍尽可能良好地保留主观声音质量。换言之，这些编辑有力地改变了音频材料的音乐内容，但尽管如此，仍需保留处理后的音频样本的自然性并由此来维持可靠性。这理想上要求能广义应用至不同类别信号（包括复曲调混合音乐内容）的信号处理方法。

目前，已知有多种用于修改音频信号的概念。这些概念部分基于声码器（vocoder）。

例如，在“S.Disch and B.Edler,"An amplitude-and frequencymodulation vocoder for audio signal processing,"Proc.of the Int.Conf onDigital Audio Effects(DAFx),2008”、“S.Disch and B.Edler,"Multibandperceptual modulation analysis,processing and Synthesis of audio signals,"Proc.of the IEEE-ICASSP,2009”或“S.Disch and B.Edler,"An iterativesegmentation algorithm for audio signal spectra depending on estimated localcenters of gravity,"12th International Conference on Digital Audio Effects(DAFx-09),2009”中，已介绍了调制声码器（MODVOC）的概念，且已指出其对复曲调音乐内容执行有意义的选择性转调（transposition）的一般能力。这使得针对改变预先记录的PCM音乐样本的音调模式的应用变得可能（例如，参见“S.Disch and B.Edler,"Multiband perceptual modulationanalysis,processing and Synthesis of audio signals,"Proc.of theIEEE-ICASSP，2009”）。也可购买可处理这种复曲调操作工作的第一市售软件（由西蒙尼公司（Celemony）出品的旋律聆（Melodyne）编辑器）。该软件实现了已有品牌且利用术语“直接音符存取（DNA）”上市的一项技术。后来已公开了专利申请（由P.Neubacker于2009年9月提交的“用于复曲调声音记录的听觉对象取向分析和音符对象取向处理的方法”的第EP2099024号），推定其涵盖并由此公开了DNA的必要功能。独立于用以修改音频信号的方法，其期望获得具有高感知质量的音频信号。

发明内容

本发明的目的是提供一种用于修改音频信号的改进型概念，其允许提高修改后的音频信号的感知质量。

该目的由根据权利要求1所述的装置、根据权利要求14所述的方法或根据权利要求15所述的计算机程序来解决。

本发明的实施方式提供了一种用于修改音频信号的装置，该装置包括滤波器组处理器、基音（fundamental）确定器、泛音（overtone）确定器、信号处理器和合成器。滤波器组处理器被配置为基于音频信号生成多个带通信号。此外，基音确定器被配置为选择多个带通信号中的一个带通信号来获得基音带通信号。泛音确定器被配置为识别多个带通信号中满足有关所选基音带通信号的泛音标准的一个带通信号来获得与所选基音带通信号相关联的泛音带通信号。此外，信号处理器被配置为基于预定修改目标来修改所选基音带通信号。另外，信号处理器被配置为根据所选基音带通信号的修改来修改与所选基音带通信号相关联的所识别的泛音带通信号。此外，合成器被配置为合成多个带通信号来获得修改后的音频信号。

通过识别基音频率的泛音和以对应基音的相同方式修改泛音，可避免基音及其泛音的不同修改，使得相比原始音频信号，可更准确地保留修改后的音频信号的音质。以此方式，修改后的音频信号的感知质量可被显著改善。例如，若期望选择性音高转调（例如，将给定音乐信号的曲调模式从C大调改成C小调），则所识别的泛音带通信号的修改与基音带通信号的修改相关。相比之下，与基音带通信号不同，已知方法修改了带通信号的表示泛音的频率区。换言之，通过使用所述概念，所识别的泛音带通信号被锁定为基音带通信号。

在本发明的一些实施方式中，通过比较基音带通信号与多个带通信号中的带通信号的频率，通过比较基音带通信号与多个带通信号中的带通信号的能量含量和/或通过评估基音带通信号的时间包络与多个带通信号中的带通信号的时间包络的相关性，可识别泛音带通信号。以此方式，可定义一项或多项泛音标准来最小化错误泛音的识别。

根据本发明的一些实施方式与基音带通信号的迭代确定和从多个带通信号中对泛音带通信号的识别有关。已选择的基音带通信号和已识别的泛音带通信号可从搜寻空间去除，或者换言之，可不考虑另一基音带通信号或另一泛音带通信号的确定。以此方式，该多个带通信号的各个带通信号可被选用为基音带通信号（且由此可独立于其他基音带通信号而被修改）或泛音带通信号（且由此可根据相关联的所选基音带通信号来修改）。

本发明的另一实施方式提供了一种用于修改音频信号的装置，该装置包括包络形状确定器、滤波器组处理器、信号处理器、合成器和包络整形器。包络形状确定器被配置为基于表示时域输入音频信号的频域音频信号来确定包络形状系数。此外，滤波器组处理器被配置为基于频域音频信号来生成次频带域中的多个带通信号。信号处理器被配置为基于预定修改目标来修改多个次频带域带通信号中的一个次频带域带通信号。此外，合成器被配置为合成多个次频带域带通信号中的至少一个子集来获得时域音频信号。另外，包络整形器被配置为基于包络形状系数来整形时域音频信号的包络，基于包络形状系数来整形包括修改后的次频带域带通信号的多个次频带域带通信号的包络，或者在次频带域带通信号被信号处理器修改之前，基于包络形状系数来整形多个次频带域带通信号的包络以获得整形音频信号。

通过在多个次频带域带通信号中分离该频域音频信号之前确定该频域音频信号的包络形状系数，可保留有关该音频信号的频谱相干性（coherence）的信息，且可用于在一个或多个次频带域带通信号的修改之后整形该时域音频信号的包络。以此方式，可更准确地保留该修改后的音频信号的频谱相干性，尽管只有一些（或仅一个）次频带域带通信号被修改或者次频带域带通信号被不同地修改，这可能干扰该音频信号的频谱相干性。以此方式，可显著改善修改后的音频信号的感知质量。

根据本发明的一些实施方式与一种被配置为基于第二预定修改目标来修改多个次频带域带通信号中的第二次频带域带通信号的信号处理器有关。该预定修改目标与第二预定修改目标不同。尽管带通信号被不同地修改，但由于在带通信号的个别修改后进行包络整形，所以可更准确地保留修改后的音频信号的频谱相干性。

附图说明

以下将参照附图详细描述根据本发明的实施方式，其中：

图1是用于修改音频信号的装置的框图；

图2是用于修改音频信号的装置的框图；

图3是用于修改音频信号的方法的流程图；

图4是使用谐波锁定的调制声码器的一部分的框图；

图5是用于修改音频信号的方法的流程图；

图6a、图6b、图6c、图6d是用于修改音频信号的装置的框图；

图7是滤波器组处理器的框图；

图8是包络整形器的框图；

图9是具有包络整形的调制分析的示意性说明图；

图10是具有包络整形的调制合成的示意性说明图；

图11是用于修改音频信号的方法的流程图；

图12是用于修改音频信号的装置的框图；

图13是调制分析的示意性说明图；

图14是调制分析的实现的示意性说明图；

图15是调制合成的示意性说明图；

图16是对调制声码器分量的选择性转调的示意性说明图；

图17是用于生成评估处理选择性音高转调工作的调制声码器的主观质量的测试集合的程序的示意性说明图；

图18是指示绝对MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的示意图；

图19是指示有关调制声码器条件的差异MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的示意图；以及

图20是指示有关DNA条件的差异MUSHRA分数和解决选择性音高转调的收听测试的95%置信区间的示意图。

下文中，相同附图标记部分地用于具有相同或类似功能特性的物体及功能单元，且其关于一幅图的描述也将适用于其他图，以减少实施方式描述中的冗余。

具体实施方式

选择性频带修改也被称作选择性音高转调，其例如可由声码器或调制声码器来实现。

多频带调制分解（例如，参见“S.Disch and B.Edler,"Multibandperceptual modulation analysis,processing and Synthesis of audio signals,"Proc.of the IEEE-ICASSP,2009”）将音频信号分割成（分析）带通信号的分析适应性集合，其各自进一步划分成正弦载波及其调幅（AM）和调频（FM）。带通滤波器的设置（set）可被计算为使得一方面，全频带频谱被无缝式覆盖，以及另一方面，例如，滤波器与总重心（COG）对准。此外，人类听觉可通过选择滤波器带宽以匹配感知音阶（例如，ERB音阶）来加以考虑（例如，参见“B.C.J.Moore and B.R.Glasberg,"A revision ofzwicker′s loudness model"ActaAcustica,vol.82,pp.335-345,1996”）。

例如，局部COG与收听者因该频率区的频谱贡献而感知的平均频率相对应。此外，中心在局部COG位置的频带可与传统相位声码器的基于影响区的相位锁定相对应（例如，参见“J.Laroche and M.Dolson,"Improvedphase vocoder timescale modification of audio,"IEEE Transactions on Speechand Audio Processing,vol.7,no.3,pp.323-332,1999”或者“C.Duxbury,M.Davies,and M.Sandler,"Improved timescaling of musical audio using phaselocking at transients,"in 112th AES Convention,2002”）。带通信号包络表示型态和传统影响区相位锁定均保留带通信号的时间包络：本质上或者在后述情况下，通过在合成期间确保局部频谱的相位相干性。至于与所估算的局部COG相对应的频率的正弦载波，AM和FM均分别被捕捉在分析带通信号的振幅包络和外差（heterodyne）相位中。专用合成方法允许从载波频率AM和FM呈现输出信号。

信号分解成载波信号及其相关调制分量的可行实施1300的框图被示出在图13中。该图中示出了用于提取多频带分量（带通信号）中的一个的示意性信号流程。所有其他分量以类似方式获得。首先，宽带输入信号x被馈送至已指派信号来适应性产生输出信号的带通滤波器。其次，分析信号根据方程（1）由希尔伯特（Hilbert）变换导出。

AM（调幅信号）由

的振幅包络给出，

AM (t) = | \hat{x} (t) | - - - (2)

而FM（调频信号）通过由具有角频率ω_c的稳态正弦载波外差的该分析信号的相位导数来获得。载波频率被确定为局部COG的估值。因此，FM可被解释为在载波频率fc处的IF（瞬时频率）变化。

\overset{`}{x} (t) = \hat{x} (t) \cdot \exp ({- jω}_{c} t)

FM (t) = \frac{1}{2 π} \cdot \frac{d}{dt} &angle; (\overset{`}{x} (t)) - - - (3)

例如，在专属公开文献中描述了前端滤波器组的局部COG的估算和信号适应性设计（参见“S.Disch and B.Edler,"An iterative segmentationalgorithm for audio signal spectra depending on estimated local centers ofgravity,"12th International Conference on Digital Audio Effects(DAFx-09),2009”）。

实际上，在离散时间系统中，可如图14所示对全部分量联合进行分量提取。该处理方案可支持实时计算。某个时间块的处理仅取决于之前块的参数。因此，无需前瞻来维持总处理延迟尽可能地低。该处理使用例如75%的分析块交叠和对各窗口信号块施加离散傅里叶变换（DFT）来以逐个块为基础计算。窗口可以是根据方程（4）的平顶窗口。这确保了用于利用50%交叠的后续调制合成而传送的中心的N/2样本不受分析窗口的裙裾影响。较高度的交叠可用于改善准确度，但以计算复杂度增大为代价。

{window (i)}_{analysis} = \{\begin{matrix} \sin^{2} (\frac{2 iπ}{N}) & 0 < i < \frac{N}{4} \\ 1 & \frac{N}{4} \leq i < \frac{3 N}{4} \\ \sin^{2} (\frac{2 iπ}{N}) & \frac{3 N}{4} \leq i < N \end{matrix} - - - (4)

给定该频谱表示型态，接下来，计算与局部COG位置对准的信号适应性频谱带通加权函数集合。在带通加权施加至频谱之后，信号被转换为时域，且分析信号可由希尔伯特变换导出。这两个处理步骤可通过对各带通信号计算单边IDFT来有效结合。给定该离散时间带通信号，由方程（3）估算IF通过如方程（5）定义的相位差分（phase differencing）来实现，其中，*表示复共轭（complex conjugate）。该表示便于使用，因为其避免了相位模糊以及由此避免了对相位展开的需要。

FM (n) = &angle; (\overset{`}{x} (n) \overset{`}{x} {(n - 1)}^{*}) - - - (5)

信号以全部分量的加法为基础来合成。连续块通过由结合机制控制的交叠-相加运算（OLA）混合。即便该分量实质上由调制域处理来改变，分量结合也确保了相邻块的边界间的平滑变迁。该结合确实仅考虑前一块，因此潜在地允许实时处理。该结合本质上执行实际（actual）块分量与其前一块中的前任（predecessor）的成对匹配。此外，该结合将实际块的绝对分量相位与前一块的绝对分量相位对准。对于跨时间块而无匹配的分量，分别施加淡入或淡出。

对于一个分量，处理链如图15所示。详言之，首先将FM信号增加至稳态载波频率，且所得信号被传送至OLA级，该OLA级的输出随后被时间积分。将所得相位信号提供给正弦振荡器。AM信号由第二OLA级处理。接下来，振荡器的输出在其振幅上被AM信号调制来获得该分量对输出信号的加法贡献。在最后步骤中，全部分量的贡献相加来获得输出信号y。

换言之，图13和图14示出了调制分析器1300。调制分析器1300优选包括带通滤波器1320a，其提供带通信号。该带通信号被输入分析信号转换器1320b。块1320b的输出用于计算AM信息和FM信息。为计算AM信息，分析信号的幅值由块1320c计算。分析信号块1320b的输出被输入乘法器1320d，该乘法器1320d在其另一输入端接收来自振荡器1320e的振荡信号，该振荡器1320e由带通滤波器1320a的实际载波频率f_c1310控制。随后，乘法器输出的相位在块1320f中确定。瞬时相位在块1320g处被差分来最终获得FM信息。此外，图14示出了生成音频信号的DFT频谱的前置处理器1410。

多频带调制分解将音频信号分割成（分析）带通信号的信号适应性集合，其各自又被分割成正弦载波及其调幅（AM）和调频（FM）。带通滤波器的设置被计算为使得一方面，全频带频谱被无缝式覆盖，且另一方面，滤波器各自对准局部COG。此外，人类听觉通过选择滤波器带宽以匹配感知音阶（例如，ERB音阶）来加以考虑（例如，参见“B.C.J.Moore and B.R.Glasberg,“A revision of Zwicker’s loudness model,”Acta Acustica,vol.82,pp.335–345,1996”）。

局部COG与收听者因该频率区的频谱贡献而感知的平均频率相对应。此外，中心在局部COG位置的频带与传统相位声码器的基于影响区的相位锁定相对应（参见“J.Laroche and M.Dolson,“Improved phase vocodertimescale modification of audio”,IEEE Transactions on Speech and AudioProcessing,vol.7,no.3,pp.323–332,1999”、“Ch.Duxbury,M.Davies,andM.Sandler,“Improved timescaling of musical audio using phase locking attransients,”in 112^th AES Convention,2002”、“A.

“A new approach totransient processing in the phase vocoder,”Proc.Of the Int.Conf.on DigitalAudio Effects(DAFx),pp.344-349,2003”、“A.

“Transient detectionand preservation in the phase vocoder”,Int.Computer Music Conference(ICMC’03),pp.247250,2003”）。带通信号包络表示型态和传统影响区相位锁定均保留带通信号的时间包络：本质上或者在后述情况下，通过在合成期间确保局部频谱的相位相干性。至于与所估算的局部COG相对应的频率的正弦载波，AM和FM均分别被捕捉在分析带通信号的振幅包络和外差相位中。专用合成方法允许从载波频率AM和FM呈现输出信号。

信号分解成载波信号及其相关调制分量的框图被示出在图12中。图中示出了用于提取一个分量的示意性信号流。全部其他分量以类似方式来获得。实际上，通过施加离散傅里叶变换（DFT）至各窗口信号块，使用例如以48千赫兹采样频率和75%分析交叠（大致相当于340毫秒的时间间隔和85毫秒的跨幅）的N=2¹⁴的块大小，以逐个块为基础对全部分量联合进行提取。该窗口可以是根据方程（a）的“平顶”窗口。这可确保用于随后的调制合成而传送的中心的N/2样本不受分析窗口的斜率影响。较高度的交叠可用于改善准确度，但以计算复杂度增大为代价。

{window (i)}_{analysis} = \{\begin{matrix} \sin^{2} (\frac{2 iπ}{N}) & 0 < i < \frac{N}{4} \\ 1 & \frac{N}{4} \leq i < \frac{3 N}{4} \\ \sin^{2} (\frac{2 iπ}{N}) & \frac{3 N}{4} \leq i < N \end{matrix} - - - (a)

给定频谱表示型态，接下来可（以载波频率估算或多载波COG频率估算的方式由载波频率确定器1330）计算对准局部COG位置的（具有带通特性的）信号适应性频谱加权函数集合。在施加带通加权至频谱后，信号被变换至时域，且分析信号由希尔伯特变换导出。这两个处理步骤可通过对各带通信号的单边IDFT计算来有效组合。随后，各分析信号由其所估算的载波频率来外差。最终，信号被进一步分解成其振幅包络以及通过计算相位导数而获得的其瞬时频率（IF）跟踪，从而产生所期望的AM和FM信号（还参见“S.Disch and B.Edler,“An amplitude-and frequency modulationvocoder for audio signal processing,”Proc.of the Int.Conf.on Digital AudioEffects(DAFx),2008”）。

恰当地，图15示出了音频信号的参数化表示型态的修改合成器1500的框图。例如，有利的实现基于调制域（即，在生成时域带通信号之前的域）中的交叠相加运算（OLA）。输入信号可以是位串流，但也可直接连接至分析器或修改器，该输入信号被分离成AM分量1502、FM分量1504和载波频率分量1506。AM合成器优选包括交叠加法器1510，且此外，分量结合控制器1520优选不仅包括块1510而且也包括块1530，块1530是FM合成器内的交叠加法器。FM合成器另外包括频率交叠加法器1530、瞬时频率积分器1532、相位合成器1534（其也可被实施为常规加法器）以及移相器1536（其可由分量结合控制器1520控制以从一个块到另一个块再生出常数相位，使得来自前一块的信号的相位与实际块的相位连续。因此，我们可以说在组件1534、1536中的相位加法对应于图13中在分析器侧的块1520g内的差分期间丢失的常数的再生。从感知域中的信息丢失的观点来看，需注意这是唯一的信息丢失，即，图13中由差分装置1320g导致的常数部分丢失。该丢失可通过增加由分量结合装置1520确定的常数相位来补偿。

交叠相加（OLA）被施加于参数域，而非施加于已合成信号来避免相邻时间块间的拍频效应（beating effect）。OLA被分量结合机制控制，该机制由（以ERB音阶测量的）频谱邻近来引导，并执行实际块分量与其前一块的前任的成对匹配。此外，该结合将实际块的绝对分量相位与前一块的绝对分量相位对准。

详言之，首先FM信号被增加至载波频率，且结果被传送至OLA级，OLA级的输出随后被积分。正弦振荡器1540被提供所得相位信号。AM信号被第二OLA级处理。最终，振荡器的输出在其振幅上被所得的AM信号调制1550，以获得该分量对输出信号1560的加法贡献。

应当强调，在调制分析内部信号的适当频谱分段对于任何进一步的调制参数处理的令人信服的结果均具有参数重要性。因此，这里描述适当分段算法的一个实例。

恰当地，图16示出了用于复曲调模式变化应用的一个实例1600。该图示出了对调制声码器分量的选择性转调。载波频率被量化为MIDI音符，其被映射到适当相应的MIDI音符上。通过将映射分量乘以原始载波频率与修改后载波频率的比来保留相对FM调制。

在维持原始播放速度的同时，音频信号的转调是一项挑战性工作。使用所建议系统，这通过全部载波分量乘以常数因子来直接实现。由于输入信号的时间结构单独由AM信号捕捉，所以其不受载波频谱间隔的伸展影响。

通过选择性处理可获得更加有需求的效应。一段音乐的音调模式可从例如小调转成大调，或者反之亦然。因此，仅与某个预定频率区间相对应的载波的子集被映射为合适的新值。为实现该目的，载波频率被量化1670为MIDI音高，其随后被映射1672到合适的新的MIDI音高（使用先验的待处理的音乐项目的模式和音调知识）。

随后，所映射的MIDI音符被逆转换1574来获得用于合成的修改后的载波频率。不要求有专用的MIDI音符开始/偏移（onset/offset）检测，因为时间特性主要由未修改的AM表示并因此保留该时间特性。可定义任意的映射表，从而允许在与其他小调流行风味（minor flavour）（例如，谐波小调（和声小调，harmonic minor））间互相转换。

在音频效果领域中的应用是音频信号的整体转调。该音频效果所要求的处理是载波与常数转调因子的简单相乘。也通过FM乘以相同因子，为各分量确保保留相对的FM调制深度。由于输入信号的时间结构单独由AM信号捕捉，所以其不受处理影响。整体转调向着目标音调改变原始的音乐信号音调（例如，从C大调改成G大调），同时仍保留原始节奏（拍子，tempo）。

然而，由于所建议的调制分析的信号适应性本质，调制声码器具有超越该工作的潜力。现在，甚至复曲调音乐的所选分量的转调也变为可行，从而能允许例如改变给定音乐信号的音调模式（例如，从C大调改成C小调）的应用（例如，参见“S.Disch and B.Edler,"Multiband perceptualmodulation analysis,processing and Synthesis of audio signals,"Proc.of theIEEE-ICASSP，2009”）。这是可行的，原因在于各分量载波紧密对应于其频谱区中的感知音高（perceived pitch）这一事实。若仅与某个原始音高相关的载波向着新目标值被映射，则操纵由音调模式确定的总音乐特性。

如前所述，对MODVOC分量的必要处理被示出在图16中。在MODVOC分解域内，载波频率被量化成MIDI音符，其随后被映射到适当相应的MIDI音符上。为有意义地重新指派MIDI音高和音符名称，可能要求先验的原始音乐项目的模式和音调知识。全部分量的AM丝毫不受影响，原因在于这些不包括音高信息。

具体地，表示分量音高的分量载波频率f根据方程6被转换成MIDI音高值m，其中，f_std表示对应于MIDI音高69、音符A0的标准音高。

m (f) = 69 + 12 \cdot \log_{2} \frac{| f |}{f_{std}}

n(f)＝round(m(f))

o(f)＝m(f)-n(f)

n→n′ （6）

n→n′

f′＝f_std·2^{(n′+o(f)-69)/12} （7）

随后，MIDI音高被量化成MIDI音符n(f)，且此外，确定各音符的音高偏移o(f)。通过利用根据音调、原始模式和目标模式的MIDI音符映射表，这些MIDI音符被变换成适当的目标值n’。在下表中，对C调从大调转成自然小调给出了映射实例。该表示出了用于从C大调转成C自然小调的音阶模式变换的MIDI音符映射表。该映射适用于全部八度音阶的音符。

原始音符	目标音符
		C	C
D	D
		E	Eb
F	F
		G	G
A	Ab
		B	Bb

最后，所映射的包括其音高偏移的MIDI音符被转换回频率f’以获得用于合成的修改后的载波频率（方程7）。此外，为保留相对的FM调制深度，映射分量的FM与单个音高转调因子相乘，该单个音高转调因子作为原始载波频率与修改后的载波频率的比来获得。可以不要求专用的MIDI音符开始/偏移检测，因为时间特性主要由未修改的AM表示并因此保留时间特性。

所述调制声码器是有差异地修改音频信号的不同频率范围（带通信号）的一种可能性，它被描述为选择性音高转调。本发明的概念允许增强这种修改后的音频信号的感知质量。尽管本发明概念的一些实施方式与声码器或调制声码器相结合来描述，但其也可一般性地独立于声码器的使用而被用于提高修改后的音频信号的感知质量。

图1示出了根据本发明实施方式的用于修改音频信号102的装置100的框图。装置100包括滤波器组处理器110、基音确定器120、泛音确定器130、信号处理器140和合成器150。滤波器组处理器110连接至基音确定器120、泛音确定器130和信号处理器140，以及基音确定器120连接至泛音确定器130和信号处理器140。此外，泛音确定器130连接至信号处理器140，以及信号处理器140连接至合成器150。滤波器组处理器110基于音频信号102来生成多个带通信号112。此外，基音确定器选择多个带通信号中的一个带通信号112来获得基音带通信号122。泛音确定器识别多个带通信号中满足有关所选基音带通信号122的泛音标准的一个带通信号112来获得与该所选基音带通信号122相关联的泛音带通信号132。此外，信号处理器140基于预定修改目标来修改所选基音带通信号122。另外，信号处理器140根据所选基音带通信号122的修改来修改与所选基音带通信号122相关联的所识别的泛音带通信号132。合成器150合成包括修改后的所选基音带通信号和修改后的所识别的泛音带通信号的多个带通信号来获得修改后的音频信号152。

通过以相同方式修改基音带通信号122和与基音带通信号122相关联的所识别的泛音带通信号132，可保留这些谐波的共同表现，尽管多个带通信号中的其他带通信号可以不同方式修改。以此方式，可更准确地保留原始音频信号102的音色，从而可显著提高修改后的音频信号的感知质量。例如，大部分乐器激发出由基音频率部分及其谐波组成的和声。若基音频率部分应被修改，则根据所述概念的谐波的相关性修改可产生修改后的音频信号的显著较好的感知质量。此外，音频信号可被实时修改，因为可不需要有关整个音频信号（例如，整个复曲调音乐名称（title））的先验信息。

例如，音频信号102可以是时域输入音频信号或表示时域输入音频信号的频域音频信号。

基音确定器120可提供所选基音带通信号122给信号处理器140以用于修改，或者可提供触发信号122（例如，所选基音带通信号的索引i∈[0...I-1]，其中，I为多个带通信号中的带通信号数量）来触发信号处理器140，以根据预定修改目标来修改多个带通信号中的所选带通信号。因此，泛音确定器130也可提供所识别的用于修改的泛音带通信号132给信号处理器140，或者可提供触发信号132（例如，指示多个带通信号中的该带通信号的索引被识别为泛音带通信号）来触发信号处理器140，以修改多个带通信号中的所识别的带通信号。

泛音标准可包括识别基音的泛音的一项或多项规则。可以有一项或多项要满足的泛音标准来将多个带通信号中的一个带通信号识别为所选基音带通信号122的泛音。

预定修改目标可针对包括不同频率范围的带通信号而不同，且可取决于音频信号102的期望修改。例如，音频信号的原始音调应向着目标音调改变。对于从C大调到C自然小调的音调，由上表给出了映射实例。例如，若多个带通信号中的一个带通信号的频率范围与原始音符C相对应，则目标音符也将是C，使得该带通信号未被修改（除了被识别为相关联的基音带通信号的泛音带通信号之外，它会被修改）。在该情况下，修改目标将该带通信号保持为未修改。另一方面，可修改多个带通信号中包括与原始音符A相关的频率范围的一个带通信号，使得修改后的带通信号可包括与目标音符Ab相关的频率范围（除了带通信号被识别为要根据另一修改目标来修改的基音带通信号的泛音带通信号的情况之外）。此外，所识别的泛音带通信号（包括与原始音符A的泛音相关的频率范围的带通信号）可被修改，使得修改后的泛音带通信号包括与目标音符Ab的泛音相关的频率范围。

多个带通信号中的全部带通信号112可包括载波频率。该载波频率可以是由带通信号表示的或包括的频率范围的特性频率，例如该带通信号的频率范围的平均频率、频率范围的上截止频率、频率范围的下截止频率或频率范围的重心。带通信号的载波频率可与其他带通信号的载波频率彼此不同。这些载波频率可被泛音确定器130使用来识别泛音带通信号。例如，泛音确定器130可将多个带通信号中的一个带通信号112的载波频率与所选基音带通信号122的载波频率相比较。由于泛音可能约为基音频率的倍数，所以若带通信号112的载波频率是所选基音带通信号122的载波频率的倍数（具有预定载波频率容差，例如，100Hz、50Hz、20Hz以下），则可满足泛音标准。换言之，泛音标准可以是例如在具有预定载波频率容差的情况下，带通信号112的载波频率是所选基音带通信号122的载波频率的倍数。

此外或可替代地，泛音确定器130可将多个带通信号的带通信号112的能量含量与所选基音带通信号122的能量含量相比较。在该实例中，若带通信号112的能量含量与所选基音带通信号122的能量含量的比可处于预定能量容差范围内，则可满足泛音标准。该泛音标准考虑了通常谐波表现为比基音更低的能量。预定能量容差范围例如可从0.3至0.9、从0.5至0.8、从0.6至0.7或其他范围。这种基于能量含量的泛音标准可与上述基于载波频率的泛音标准相结合。

此外或可替代地，泛音确定器130可计算指示多个带通信号中的该带通信号112的时间包络与所选基音带通信号122的时间包络的相关性的相关性值。在该情况下，若相关性值高于预定相关性阈值，则可满足泛音标准。这种泛音标准考虑了基音及其谐波共享相当类似的时间包络这一事实。预定相关性阈值可以是例如0.2、0.3、0.4以上。所述基于相关性的泛音标准可与上述基于载波频率的泛音标准和/或基于能量含量的泛音标准相结合。

基音确定器120可选择多个带通信号中的另一带通信号112而不考虑全部已选择的基音带通信号122和全部已识别的泛音带通信号132。换言之，基音确定器120可从带通信号的一个集合中选出迭代的基音带通信号122，其包括并非已选择的基音带通信号和已识别的泛音带通信号132的带通信号。可这样进行，直到多个带通信号中的全部带通信号可被选为基音带通信号或被识别为基音带通信号的泛音。因此，泛音确定器130可识别多个带通信号中满足有关另外被选出的基音带通信号的泛音标准的带通信号112，而不考虑全部已识别的泛音带通信号且不考虑全部已选择的基音带通信号122。

此外，信号处理器140可基于另外的预定修改目标来修改另外选择的基音带通信号122，且独立于全部其他的所选择的基音带通信号。换言之，对于各基音带通信号或对于所选基音带通信号中的一些，可定义不同的修改目标。例如，该修改目标可由上述指示从一个音调音符变换为另一音调音符的表来定义。由于基音带通信号可彼此独立而被修改，所以例如也选择性地，仅特定乐器的基音和谐波可被修改来改变该乐器的音调模式或响度。

带通信号112可由基音确定器120基于能量标准来选择。例如，具有最高能量含量或最高能量含量中的一个（例如，高于其他带通信号的70%以上）的带通信号可被选择。在该实例中，已选择的基音带通信号可通过设定指示所选基音带通信号的能量含量等于零的能量含量参数来从另一选择中排除。为选择带通信号112，各带通信号的能量含量（例如，通过由基音确定器确定的能量含量参数来指示）可被加权（例如，通过a-加权）来增强感知上重要的带通信号的选择。

信号处理器140可以各种方式修改所选基音带通信号132和相关联的泛音带通信号132。例如，通过所选基音带通信号122的载波频率乘以转调因子（例如，取决于音调模式改变）或者通过将转调频率增加至所选基音带通信号122的载波频率，信号处理器140可修改所选基音带通信号122。此外，通过将所识别的带通信号132的载波频率乘以转调因子（例如，具有20%、10%、5%、1%以下的容差）或者通过将转调频率的倍数（例如，具有20%、10%、5%、1%以下的容差）增加至所识别的泛音带通信号132的载波频率，信号修改器140可修改所识别的泛音带通信号132。换言之，例如通过将基音和相关联的谐波乘以相同转调因子或者通过将转调频率增加至基音以及将转调频率的倍数增加至泛音，可实现音调模式改变。以此方式，所识别的泛音带通信号132根据所选基音带通信号122（以相同方式）来修改。

图2示出了根据本发明实施方式的用于修改音频信号102的装置200的框图。装置200类似于图1所示装置，但另外包括载波频率确定器260以及包括滤波器组212和信号转换器214的滤波器组处理器110。滤波器组212连接至信号转换器214，以及信号转换器214连接至信号处理器140。可选择的载波频率确定器260连接至滤波器组处理器110的滤波器组212和信号处理器140。

滤波器组212可基于音频信号102来生成带通信号，以及信号转换器214可将所生成的带通信号转换为次频带域来获得提供给基音确定器120、泛音确定器130和信号处理器140的多个带通信号。信号转换器214例如可作为单边离散傅里叶逆变换单元来实现，使得多个带通信号中的各带通信号112可表示分析信号。在该次频带域中，基音确定器120可从多个带通信号中选出这些次频带域带通信号中的一个来获得基音带通信号122。此外，泛音确定器可识别多个带通信号中的这些次频带域带通信号中的一个。

此外，载波频率确定器260可基于音频信号102来确定多个载波频率，以及滤波器组处理器110的滤波器组212可生成带通信号，使得各带通信号包括含有多个载波频率中的不同载波频率262的频率范围，以获得与多个载波频率中的各载波频率262相关联的带通信号。换言之，由滤波器组212生成的带通信号的带宽和平均频率可被载波频率确定器260控制。这可以各种方式进行，例如，如上所述通过计算音频信号102的重心（COG）。

如上文已述，带通信号112可以各种方式被修改。例如，信号处理器140可为多个带通信号中的各带通信号112生成调幅信号（AM）和调频信号（FM）。由于各带通信号表示在次频带域中的分析信号，所以信号处理器140例如可如前所述与调制声码器相结合来生成调幅信号和调频信号。此外，信号处理器140可基于预定修改目标来修改所选基音带通信号122的调幅信号和调频信号，以及可根据所选基音带通信号122的修改来修改与所选基音带通信号122相关联的所识别的泛音带通信号132的调幅信号或调频信号。

滤波器组处理器110、基音确定器120、泛音确定器130、信号处理器140、合成器150和/或载波频率确定器260例如可以是数字信号处理器、计算机或微控制器的单个硬件单元或部件，以及可以是被配置为在数字信号处理器、计算机或微控制器上运行的计算机程序或软件产品。

根据本发明的一些实施方式与根据本发明实施方式的用于修改音频信号的方法300有关。方法300可包括基于音频信号生成310多个带通信号，以及选择320多个带通信号中的一个带通信号来获得基音带通信号。此外，方法300可包括识别330多个带通信号中满足有关所选基音带通信号的泛音标准的一个带通信号来获得与所选基音带通信号相关联的泛音带通信号。此外，所选基音带通信号基于预定修改目标而被修改340，以及与所选基音带通信号相关联的所识别的泛音带通信号根据所选基音带通信号的修改来修改350。另外，该方法300可包括合成360包括修改后的所选基音带通信号和修改后的所识别的泛音带通信号的多个带通信号来获得修改后的音频信号。

可选择地，方法300可包括表示上述以及下文所述的本发明的概念的可选特征的其他步骤。

下文中，所述概念通过使用调制声码器实施的实例来更详细地说明，尽管所建议的概念也可更一般地被用于其他实施方式。

大部分乐器激发出由基音频率部分及其约为该基音频率的整数倍的谐波组成的和声。由于音乐间隔遵循对数标度，所以各谐波泛音相对于基音（及其八度音阶）彷佛是不同的音乐区间。下表列出了谐波数与针对前七个谐波的音乐区间的对应关系。该表示出了关于基音及其八度音阶的谐波数和相关音乐区间。

因此，在复曲调音乐内容的选择性转调工作中，对于MODVOC分量的音乐函数存在固有模糊。若源自基音的分量必须根据期望音阶映射来转调，且若由归于基音的谐波来主控，则其必须连同该基音一起转调，以最好地保留原始音调的音色。由此出现了对指派各个MODVOC分量（带通信号）来选择最适当的转调因子的需要。

为实现该目的，之前介绍的简单处理方案由谐波锁定功能加以扩展。谐波锁定检查转调前的全部MODVOC分量是否一个分量（带通信号）归于基音或者被视为独立实体。这可通过迭代算法进行。该算法的流程被示出在图5中。该算法评估510测试分量t（基音带通信号）相对于全部其他由iE[0...I-1]\t索引的分量（带通信号）的频率比、能量比和包络交叉相关性，其中，I表示分量总数（多个带通信号的带通信号数）。在迭代期间测试分量（基音带通信号）的连续性由其A-加权能量来确定520，使得评估顺序按照能量递减的顺序。A-加权（ANSI，“Ansi标准sl.4-1983”，1983），（ANSI，“Ansi标准sl.42-2001”，2001）被用于在其响度方面模型化各分量的感知凸显（例如，参见“H.Fletcher and W.A.Munson,"Loudness,its definition,measurement and calculation,"J.Acoust Soc Amer.,vol.5,pp.82-108,1933”）。

通过确定阈值可检查谐波载波频率匹配、谐波载波频率不匹配、分量能量和/或零-延迟的标准化振幅包络相关性。

频率匹配和频率不匹配可根据方程8来定义，其中，f_t为测试分量载波频率（所选基音带通信号的载波频率）以及f_i为具有索引i的分量（多个带通信号中的一个带通信号）。对于频率匹配，全部大于1的乘数均为可能的谐波。针对可能谐波所容许的频率不匹配的适当阈值（载波频率阈值）例如为22Hz。

不匹配_i=|f_i-(匹配_i·f_t)| （8）

谐波相对于基音的a-加权分量能量比（方程9）可能要求小于预定阈值，从而反映出实际上对大部分乐器而言，谐波表现出比基音更低的能量。适当阈值（能量容差范围）例如为0.6的比值。

{nrgRatio}_{i} = \frac{{nrg}_{i}}{{nrg}_{t}} - - - (9)

测试分量env_t的包络与具有索引i的分量的包络env_i的标准化零延迟交叉相关性由方程10来定义。该测量利用了以下事实，基音及其谐波共享在块长度M内的相当类似的时间包络。通过非正式实验，适当阈值（相关性阈值）被确定为0.4。

{xcorr}_{i} = \frac{Σ_{m = 0}^{M - 1} {env}_{i} (m) \cdot {env}_{t} (m)}{\sqrt{Σ_{m = 0}^{M - 1} {env}_{i}^{2} (m) Σ_{m = 0}^{M - 1} {env}_{t}^{2} (m)}} - - - (10)

在被检查后，满足570全部阈值条件的全部分量i被标记580为针对测试分量被锁定的谐波，并随后从检索中被移除。接下来，通过设定542其能量为零，测试分量也从进一步的迭代中被排除。重复该算法，直到全部分量均已被指派，这由最大分量能量为零来指示。

图4示出了利用MODVOC结合谐波锁定的选择性转调的增强处理方案。与图16相反，仅未锁定的分量进入转调级，而被锁定的分量在第二级中由已施加至其所归于的基音的相同转调因子来修改。

换言之，图5示出了所述谐波锁定的流程图（用于修改音频信号的方法500）。匹配作为测试基音（所选基音带通信号）的谐波的条件的分量被迭代标记并从检索空间移除。为此，多个带通信号中的各个带通信号包括载波频率、能量含量和时间包络，或者为多个带通信号中的各个带通信号确定510载波频率、能量含量和/或时间包络（时间包络参数）。此外，各带通信号的能量含量（能量含量参数）被a-加权520。随后，选择530包括最大能量（能量含量参数）的基音带通信号（测试基音f_t）。由于全部已选基音带通信号均被设定为零且全部所识别的泛音带通信号均从检索空间排除，所以所选基音带通信号可包括等于零的能量含量参数，从而迭代算法在该点处停止540。否则，比较560多个带通信号中的所选基音带通信号与其余带通信号的频率匹配（或不匹配）、能量含量和/或时间包络交叉相关性。若满足570一项、一些或全部条件（泛音标准），则相应带通信号被识别580为泛音带通信号，并可生成谐波锁定数据（例如，将所识别的带通信号的索引存储在泛音列表中），以及所识别的泛音带通信号从检索空间中被移除。可参照相关联的所选基音带通信号来存储590谐波锁定数据。在识别全部所选基音带通信号的泛音带通信号之后，所选基音带通信号的能量（能量含量参数）被设定592为零，并选出530包括最高能量的下一基音带通信号。

信号处理器可使用谐波锁定数据来修改带通信号。图4中示出了一种可行实施方式。在该实施方式中，例如，信号处理器包括MIDI映射器1600和泛音修改器400。MIDI映射器1600可根据各修改目标（其也可包括未被修改的基音带通信号）来修改每个所选基音带通信号的载波频率。MIDI映射器1600例如可如图16所示以及所述来实现。泛音修改器400可包括泛音修改控制器410、泛音乘法器420和泛音修改提供器430。泛音修改控制器410可连接至泛音乘法器420和泛音修改提供器430，以及泛音乘法器420可连接至泛音修改提供器430。泛音乘法器420可将所识别的泛音带通信号的载波频率f乘以与相关联的基音带通信号相乘的相同转调因子（具有上述容差），且可提供修改后的载波频率f’给泛音修改提供器430。若泛音修改器400将该载波频率识别为所识别的泛音带通信号的载波频率（例如，基于谐波锁定数据），则泛音修改控制器410可触发泛音修改提供器430来提供所识别的泛音带通信号的修改后的载波频率。否则，泛音修改提供器430可提供MIDI映射器1600的输出。此外，图4示出了声码器中所建议概念的实施，使得除带通信号的载波频率之外，相应的调频信号（FM）也通过乘以修改前的载波频率与修改后的载波频率的比来修改。可替代地，对于频率修改或除频率修改之外，音频信号的响度可被带通信号选择性修改。为此，可修改带通信号的调幅信号（AM）。

换言之，图4示出了使用谐波锁定来对调制声码器分量（带通信号）的增强选择性转调（根据相关联的基音带通信号的修改来修改所识别的泛音带通信号）。仅未被锁定的载波频率（其随后可以是基音带通信号）被量化为MIDI音符，该MIDI音符被映射到适当相应的MIDI音符上（根据各修改目标）。被锁定的分量（所识别的泛音带通信号）可通过乘以所归于的基音（相关联的基音带通）的原始载波频率与修改后的载波频率的比来转调。

图6a示出了根据本发明实施方式的用于修改音频信号的装置600的框图。装置600包括包络形状确定器610、滤波器组处理器620、信号处理器630、合成器640和包络整形器650。包络形状确定器610连接至包络整形器650，滤波器组处理器620连接至信号处理器630，信号处理器630连接至合成器640，以及合成器640连接至包络整形器650。包络形状确定器610基于表示时域输入音频信号的频域音频信号602来确定包络形状系数612。此外，滤波器组处理器620基于频域音频信号602来生成次频带域中的多个带通信号622。信号处理器630基于预定修改目标来修改多个次频带域带通信号中的一个次频带域带通信号622。此外，合成器640合成多个次频带域带通信号中的至少一个子集（例如，包括修改后的次频带域带通信号）来获得时域音频信号642。包络整形器650基于包络形状系数612来整形时域音频信号642的包络以获得整形音频信号652。

可替代地，包络整形器650可被定位在信号处理器630与合成器640之间（信号处理器630连接至包络整形器650，以及包络整形器650连接至合成器640），且可基于包络形状系数612来整形包括修改后的次频带域带通信号的多个次频带域带通信号的包络。

通过在音频信号成为被选择性处理后的带通信号之前提取包络形状系数612，以及通过在修改一个或多个带通信号之后使用包络形状系数612来整形音频信号的包络，可更准确地保留不同修改后的带通信号的频谱相干性。此外，特别对于瞬时信号，随时间而展开的量化噪声也可被包络整形器650整形。以此方式，修改后的音频信号的感知质量可被显著提高。另外，音频信号可被实时修改，因为无需有关整个音频信号（例如，整个复曲调音乐名称）的先验信息。

另外可替代地，包络整形器650可被定位在信号处理器630与滤波器组处理器620之间（滤波器组处理器620连接至包络整形器650，以及包络整形器650连接至信号处理器630），且可在次频带域带通信号被信号处理器630修改以获得整形音频信号652之前，基于包络形状系数612来整形多个次频带域带通信号的包络。

通过在音频信号成为被选择性处理后的带通信号之前提取包络形状系数612，以及通过在次频带域中由滤波器组处理器620生成多个带通信号622之后使用包络形状系数612来整形多个带通信号622的包络，可实现适应性滤波器组，这特别针对瞬时信号可增加局部相干性（例如，参见J.Herreand J.D.Johnston,"A continuously signal-adaptive filterbank for high-qualityperceptual audio coding,"IEEE ASSP Workshop on Applications of SignalPmcessing to Audio and Acoustics,Mohonk,1997）。在该情况下，不整形修改后的信号（或修改后的带通信号），而是在修改之前可提高以瞬时再现方式生成的带通信号的质量。

频域音频信号602例如可由前置处理器基于时域输入音频信号生成频域音频信号602来提供（例如，通过离散傅里叶变换），或者可从存储单元提供。由包络形状确定器610确定的包络形状系数612例如可以是将频域音频信号602的频谱参数化的线性预测系数或其他系数。

信号处理器630可修改多个次频带域带通信号中的一个、一些或全部次频带域带通信号622。例如，对于全部或对于一些次频带域带通信号，预定修改目标可以不同。例如，为改变音频信号的音调模式，次频带域带通信号的预定修改目标可如已结合上表所述来定义。

频域音频信号602可包括例如由傅里叶变换获得的频谱线。频域音频信号（其也可被假设为带通信号）与由滤波器组处理器620生成的带通信号的频谱线之间的差异可以是频域音频信号602的频谱线表示比通过由滤波器组处理器620生成的次频带域带通信号622表示的带宽更窄的带宽。例如，频域音频信号602指示由离散傅里叶变换获得的频谱，其被滤波器组处理器620分成多个带通信号，其中，多个带通信号的带通信号数（例如，10、16、20以上）显著少于频谱的频谱值或频谱线数量（例如，512个以上的频谱值）。

包络形状确定器610可基于对频域音频信号602的频率的预测来确定包络形状系数，这例如可如上已述通过线性预测系数的确定来实现。

滤波器组处理器620可提供多个带通信号，各带通信号622表示频域音频信号602的具体频率范围。可替代地，滤波器组处理器620可包括预测滤波器710、信号减法器720和滤波器组730，以基于剩余音频信号722来获得多个带通信号622，如图7所示。为此，预测滤波器710可基于频域音频信号602和包络形状系数612（例如，线性预测滤波器）来生成预测音频信号712。此外，信号减法器720可从频域音频信号602减去预测音频信号712来获得剩余音频信号722。该剩余音频信号722可被滤波器组730使用来生成带通信号以获得多个带通信号。

此外，滤波器组处理器620可包括可选信号转换器。该信号转换器（例如，单边离散傅里叶逆变换器）可将由滤波器组730生成的带通信号转换至次频带域来获得多个带通信号622。可替代地，信号转换器也可以是信号处理器630的一部分。

在根据本发明的一些实施方式中，输入音频信号的低频部分可以从可行的修改中被排除，以避免在修改后的音频信号的低频部分中生成伪像（artifact）。为此，用于修改音频信号的装置680可包括高通/低通滤波器，例如，如图6b所示。高通/低通滤波器660对时域输入音频信号或表示该时域输入音频信号的频域音频信号高通滤波，使得包络形状确定器610基于高通频域音频信号602来确定包络形状系数612，以及滤波器组处理器620基于高通频域音频信号602来生成次频带域中的多个带通信号622。此外，高通/低通滤波器660对时域输入音频信号或表示该时域输入音频信号的频域音频信号低通滤波来获得低通音频信号662。此外，装置680包括全频带信号提供器670，其被配置为合成整形音频信号652和低通音频信号662来获得全频带音频信号。换言之，高通/低通滤波器660可将时域输入音频信号或表示该时域输入音频信号的频域音频信号分成高通音频信号和低通音频信号。高通音频信号或该高通音频信号的频域表示可被提供给包络形状确定器610和滤波器组处理器620。这取决于高通/低通滤波器是在随后信号前置处理器基于该高通音频信号生成频域音频信号的时域中实施，还是该高通/低通滤波器在已接收到表示该时域输入音频信号的频域音频信号的频域中实施。

高通/低通滤波器660可对时域输入音频信号或表示该时域输入音频信号的频域音频信号滤波，使得低通音频信号包括高达预定阈值频率（例如，100Hz以上）的频率。因此，高通音频信号可包括低至预定阈值频率的频率。换言之，大于预定阈值频率的频率可被高通/低通滤波器660衰减来提供低通音频信号662，以及低于预定阈值频率的频率可被高通/低通滤波器660衰减来提供高通信号。

可替代地，包络整形器650被定位在信号处理器630与合成器640之间，如图6c所示。在该情况下，高通/低通滤波器660提供低通音频信号给合成器640。合成器640将包括修改后的次频带域带通信号的多个次频带域带通信号与低通音频信号662合成来获得时域音频信号642。在该情况下，包络整形器650可基于针对与相应次频带域带通信号相对应的每个次频带域带通信号（例如，对应于由相应次频带域带通信号包括的频率区）的包络形状系数612来确定带通包络形状系数的集合（例如，通过系数转换器810）。随后，例如，次频带域带通信号的各时间样本可乘以相应的包络形状系数集合的带通包络形状系数。例如，在图15所示声码器实施方式中，包络整形器650可被定位在乘法器1550与合成器1560之间。

另外可替代地，包络整形器650可被定位在信号处理器630与滤波器组处理器620之间（滤波器组处理器620连接至包络整形器650，以及包络整形器650连接至信号处理器630），且可在次频带域带通信号被信号处理器630修改之前，基于包络形状系数612来整形多个次频带域带通信号的包络以获得整形音频信号652。

在根据本发明的一些实施方式中，输入音频信号的低频部分可从包络整形中被排除，以避免在修改后的音频信号的低频部分中生成伪像。为此，用于修改音频信号的装置680可包括高通/低通滤波器，例如，如图6d所示。高通/低通滤波器660对时域输入音频信号或表示该时域输入音频信号的频域音频信号高通滤波。此外，高通/低通滤波器660对时域输入音频信号或表示该时域输入音频信号的频域音频信号低通滤波来获得低通音频信号662。包络形状确定器610基于高通频域音频信号602来确定包络形状系数612，而不考虑低通音频信号622。滤波器组处理器620基于高通频域音频信号602和低通音频信号622来生成次频带域中的多个带通信号622。若使用预测滤波器，例如如图7所示，则仅高通频域音频信号602被提供给预测滤波器和信号减法器来生成高通剩余音频信号。低通音频信号622可直接被提供给滤波器组来生成次频带域带通信号。信号处理器630可修改与该高通频域音频信号602或低通音频信号622相对应的次频带域带通信号。可替代地，信号处理器630可修改与该高通频域音频信号602相对应的次频带域带通信号以及与该低通音频信号622相对应的次频带域带通信号。合成器640可仅合成与高通频域音频信号602相对应的次频带域带通信号，使得仅与高通频域音频信号602相对应的次频带域带通信号（而非与低通音频信号622相对应的次频带域带通信号）可被包络整形器650整形。

此外，装置680包括全频带信号提供器670，其被配置为合成整形音频信号652和与低通音频信号662相对应的次频带域带通信号来获得全频带音频信号。为此，信号处理器630可将与低通音频信号662相对应的次频带域带通信号提供给全频带信号提供器670。

可替代地，包络整形器650被定位在信号处理器630与合成器640之间。在该情况下，信号处理器630可提供与低通音频信号662相对应的次频带域带通信号给合成器640。合成器640合成包括修改后的次频带域带通信号的多个次频带域带通信号（与低通音频信号662相对应的次频带域带通信号以及与高通频域音频信号602相对应的次频带域带通信号）来获得时域音频信号642。在该情况下，包络整形器650可基于针对与高通频域音频信号602相对应的次频带域带通信号的与相应次频带域带通信号相对应的各个次频带域带通信号（例如，对应于由相应次频带域带通信号包括的频率区）的包络形状系数612来确定带通包络形状系数集合（例如，通过系数转换器810）。随后，例如，次频带域带通信号的各个时间样本可乘以相应的包络形状系数集合的带通包络形状系数。例如，在图15所示声码器实施方式中，包络整形器650可被定位在乘法器1550与合成器1560之间。

另外可替代地，包络整形器650可被定位在信号处理器630与滤波器组处理器620之间（滤波器组处理器620连接至包络整形器650，以及包络整形器650连接至信号处理器630），且可在次频带域带通信号被信号处理器630修改之前，基于包络形状系数612来整形与高通频域音频信号602相对应的次频带域带通信号的包络以获得整形音频信号652。

以此方式，输入音频信号的低频部分可免于包络整形。然而，低频部分被路由以进行其余处理（例如，次频带域带通信号的修改）。此外，预测滤波器（例如，如图7所示）可仅被应用在预定阈值频率以上。可替代地，若高通/低通分离已在分析侧被执行，则高通信号包络可在时域中由包络形状系数的倒数修改。

例如，在选择性转调应用中，所示安置可提供与处理后的安置等价的结果，因为AM可未被修改。

根据一个方面，包络整形器650可确定频域音频信号602的能量含量E_FDAS与剩余音频信号722的能量含量E_RAS的能量比。基于该能量比，若能量比低于预定能量阈值PET（0.1、0.2、0.5、0.8、1、2或甚至更多或更少），则包络整形器650可中断对时域音频信号642的包络的整形。

PET = \frac{E_{FDAS}}{E_{RAS}}

换言之，包络整形的衔接可根据预测的良好情况来适应性地开启信号或切断信号。预测的良好情况可由预测增益来测量，该预测增益可被定义为信号（频域音频信号）与预测误差（剩余音频信号）的能量比。若对时域音频信号642的包络整形被中断，则整形音频信号652可等于由合成器640提供的时域音频信号642。

包络整形器650可以各种方式来实施。图8中示出了一个实例。包络整形器650可包括系数转换器810和乘法器820。系数转换器810可将包络形状系数612变换到时域，使得变换后的包络形状系数812可乘以时域音频信号642来整形时域音频信号的时间包络并获得整形音频信号652。这可由乘法器820进行。例如，时域音频信号642的时间块可包括512个（或以上）时间样本，以及系数转换器810可提供512个（或以上）转换后的包络形状系数812来将各个时间样本乘以转换后的包络形状系数812。

如上已述，装置600可以不同方式修改不同次频带域带通信号。更一般地，这意味着信号处理器630可基于第二或其他预定修改目标来修改多个次频带域带通信号中的第二或其他次频带域带通信号622。已述的或第一预定修改目标以及其他或第二预定修改目标可以不同。

在一些实施方式中，所述概念可结合声码器或调制声码器来使用。在该情况下，信号处理器630可为多个次频带域带通信号中的每个次频带域带通信号622生成调幅信号（AM）和调频信号（FM）。此外，信号处理器630可基于预定修改目标来修改所要修改的次频带域带通信号的调幅信号或调频信号。

此外，可选择地，装置600可包括如已针对装置200所述且如图2所示的载波频率确定器。载波频率确定器可基于频域音频信号602来确定多个载波频率。这些所确定的载波频率可由滤波器组处理器620使用或在图7所示实施方式中由滤波器组处理器620的滤波器组730使用来生成次频带域带通信号，使得各个次频带域带通信号包括含有多个载波频率中的不同载波频率的频率范围来获得与多个载波频率的每个载波频率相关联的次频带域带通信号。例如，这可通过如上所述确定频域音频信号的重心来进行。

包络形状确定器610、滤波器组处理器620、信号处理器630、合成器640和/或包络整形器650例如可以是单个硬件单元或数字信号处理器的一部分、计算机或微控制器以及被配置为在数字信号处理器、计算机或微控制器上运行的计算机程序或软件产品。

根据本发明的一些实施方式与在调制声码器中所述概念的实施有关。对于该实例，下文中更详细地描述该概念。所述特征也可被用于其他实施方式或应用。

前文已描述了MODVOC处理了保留围绕载波位置的带通区域中的频谱相干性。然而，未保留宽带整体频谱相干性。对于准稳态信号，这可能对于合成信号的感知质量仅有微小影响。若信号包括类似于例如击鼓或响板的突发瞬间，则整体相干性的保留可大大提高这些信号的再现质量。

通过频谱域中的线性预测可改善整体相干性的保留。某些方法被用于音频编译码器，例如，在MPEG 2/4进阶音频编码（AAC）中利用时间噪声整形（TNS）工具（例如，参见J.Herre and J.D.Johnston,"Enhancing theperformance of perceptual audio coders by using temporal noise shaping(tns),"101st AES convention,Los Angeles,no.Preprint 4384,1996）。在“J.Herre and J.D.Johnston,"A continuously signal-adaptive filterbank forhigh-quality perceptual audio coding,"IEEE AS SP Workshop on Applicationsof Signal Pmcessing to Audio and Acoustics,Mohonk,1997”中，示出了高分辨率时频变换与频谱预测的结合以本质上对应于信号适应性变换。

图9略述了所述概念向MODVOC处理方案中的结合。在该分析中，输入信号x初步DFT之后，具有脉冲响应h(w)的正向预测器随频率的线性预测系数（LPC）通过例如在最小二乘意义上最小化预测误差的自相关法来导出。随后，滤波器被应用于频谱值，且剩余信号进一步由MODVOC算法处理。表示整体包络的滤波系数被传送至合成级。在合成中，由在单位圆上评估预测滤波器而导出的整体包络|H(e^jt)|通过与产生输出信号y的求和信号相同的乘法应用来恢复，如图10所示。

换言之，图9和图10示出了在调制声码器中所述概念的实施。图9示出了包括前置处理器910的调制分析器部分，其例如执行时域音频信号的离散傅里叶变换来获得频域音频信号602，并将该频域音频信号602提供给包络形状确定器610、预测滤波器710（例如，LPC滤波器h(ω)）、信号减法器710以及载波频率确定器920。信号减法器720可提供剩余音频信号722给滤波器组730。载波频率确定器920可估算多个载波重心频率，并将这些载波频率提供给滤波器组730来控制带通频谱权重。滤波器组730可提供带通信号给信号转换器930来对各个带通信号执行单边离散傅里叶逆变换以提供多个次频带域带通信号给信号处理器。调制声码器的分量已在上文更详细地被描述。此外，图10示出了调制声码器的合成部分。它包括合成器640以及包括系数转换器810和乘法器820的包络整形器。有关调制声码器分量和包络整形器的进一步细节已在上文说明。

图11示出了根据本发明实施方式的用于修改音频信号的方法1100的流程图。方法1100包括基于表示时域输入音频信号的频域音频信号来确定1110包络形状系数，以及基于频域音频信号来生成1120次频带域中的多个带通信号。此外，方法1100包括基于预定修改目标来修改1130多个次频带域带通信号中的一个次频带域带通信号。此外，多个次频带域带通信号中的至少一个子集被合成1140以获得时域音频信号。另外，方法110包括基于包络形状系数来整形1150时域音频信号的包络，基于包络形状系数来整形1150包括修改后的次频带域带通信号的多个次频带域带通信号的包络，或者在次频带域带通信号被信号处理器修改之前，基于包络形状系数来整形1150多个次频带域带通信号的包络以获得整形音频信号。

可选择地，方法1100可包括表示上述所述概念的特征的其他步骤。

根据本发明的一些实施方式与用于将图1或图2所示装置的特征与图6所示装置的特征相结合来修改音频信号的装置有关。适当地，图12示出了根据本发明实施方式的装置1200的框图。

始于图1所示装置，装置1200另外包括包络形状确定器610和包络整形器650。在该连接中，音频信号可以是表示时域输入音频信号的频域音频信号，其可被包络形状确定器使用以基于频域音频信号来确定包络形状系数。此外，由滤波器组生成的多个带通信号可基于频域音频信号在次频带域中生成。在合成包括修改后的所选基音带通信号和修改后的所识别的泛音带通信号的多个次频带域带通信号之后，所获得的时域音频信号152、642可被提供给包络整形器650。包络整形器650可基于包络形状系数612来整形时域音频信号的包络以获得整形音频信号652。

此外，始于图6所示装置，装置1200另外包括如结合图1所示装置描述的基音确定器120和泛音确定器130。基音确定器120可选择多个次频带域带通信号中的一个次频带域带通信号来获得基音带通信号122。此外，泛音确定器130可识别多个次频带域带通信号中满足有关所选基音带通信号122的泛音标准的次频带域带通信号112来获得与所选基音带通信号122相关联的泛音带通信号132。信号处理器140、630可基于预定修改目标来修改所选基音带通信号，以及根据如上所述所选基音带通信号122的修改来修改与所选基音带通信号122相关联的所识别的泛音带通信号132。

以此方式，基音的泛音以及泛音在音频信号的修改期间可被同等处理，且在带通信号修改之前，基于所导出的包络形状系数通过整形修改后的时域音频信号可非常准确地保留多个带通信号的频谱相干性。以此方式，可显著提高修改后的音频信号的感知质量。

装置1200可实现上述不同实施实例的其他特征。

下文中，通过收听测试结果来示出修改后的音频信号的感知质量的提高。对于该收听测试，使用基于调制声码器（MODVOC）的实施方式，但该结果通常对所建议的概念也有效。

为评估用于选择性音高转调应用的调制声码器（MODVOC）的主观音频质量以及此外所建议的对基本MODVOC原理增强的优势，已组合并据此处理了示例性音频文件的集合。此外，针对复曲调音频操作，将MODVOC技术与市售音频软件相比较。由西蒙尼出版的旋律聆编辑器自2009年之后已上市。

由于测试下的处理显著改变了信号的音频内容，所以原始信号与处理后的信号的直接比较（通常是标准收听测试中的固有部分）显然不适于该情况。尽管如此，为了以有意义的方式测量主观音频质量，已应用了专用收听测试程序：收听测试集合源自符号MIDI数据，其使用高质量MIDI扩展器被渲染成波形。该方法允许直接比较测试中的相似变化的音频文件，并允许研究单独进行选择性音高处理的效果。生成测试集合的程序略示于图17中。原始测试信号在符号MIDI数据表示中准备（左上）。这些信号的第二版本由符号MIDI处理生成，该处理类似于在对波形渲染原始音频的测试下的目标处理（右上）。随后，这些信号对被高质量MIDI扩展器渲染成波形（WAV）文件（左下和右侧）。在收听测试中，比较从处理后的MIDI文件渲染的波形和渲染后的原始MIDI文件的若干调制声码器（MODVOC）处理版本（右下）。此外，将MODVOC的输出与旋律聆编辑器的输出相比较。

除MODVOC处理条件之外，该测试包括通过使用旋律聆编辑器获得的条件，旋律聆编辑器目前是用于解决该类型音频操作的唯一市售应用软件，且因此可被视为工业标准。旋律聆编辑器初始执行整个音频文件的自动分析。在初始化阶段之后，旋律聆建议音频文件分解。通过用户互动，该分解可被进一步细化。为了与MODVOC处理结果公平比较，评估基于该自动初始分析的结果，因为除了音调和标准音高的先验知识以外，MODVOC分解也是全自动的。

收听测试设置基于根据ITU推荐BS.1534的标准带有隐藏基准（HiddenReference）和锚定的多重刺激（MUSHRA）测试（ITU-R,"Method for thesubjective assessment of intermediate sound quality(mushra),"2001）。MUSHRA是一种盲目收听测试。一次仅一个人接受测试。对于各个项目，该测试以时间对准方式给出全部测试条件连同隐藏基准和隐藏低通滤波锚定给收听者。隐藏基准和较低锚定被包括以检查收听者信赖度。在收听时允许条件间切换，且因此对任意选择的项目区设定循环，如BS.1116-1建议（ITU-R,"Methods for the subjective assessment of small impairments in audio systemsincluding multichannel sound Systems,"1994-1997）且也可应用于MUSHRA测试。在评级该项目并继续至下一测试项目之前测试主题可收听的重复次数并无限制，因此允许非常密切的比较和彻底检查不同条件。项目的感知质量以范围从<<优异>>（100分）经由<<良好>>和<<普通>>至<<不良>>（0分）的尺度来评级。测试项目的顺序随机排序，且此外，各项目的条件的顺序也随机化。

八个测试项目已源于MUTOPIA计划（http://www.mutopiaproject.org/），其提供了公开使用的免费乐谱。具有至多约20秒持续时间的适当摘录已从包括单一乐器（例如，G、E）和密集完整的管弦乐队部分（例如，F）的各段传统音乐中提取。此外，伴随有其他乐器（例如，C）的主乐器独奏旋律被包括在测试集合中。除了短期准稳态音调部分之外，打击乐元素也被包括在若干项目中（C中拨弦吉他和G中钢琴的起点），这对测试下系统的瞬时响应施加了一项特殊挑战。下表列出了该集合的全部项目。

为获得原始所提出信号的MIDI处理已在由凯沃克（Cakewalk）制造的Sonar8进行。已使用声音库1.0.1 R3版本中的来自国家乐器公司（NativeInstrument）的演奏台进行高质量波形渲染。MODVOC处理在具有作为谐波锁定和包络整形的两个增强处理步骤的三个不同组合中评估。为与旋律聆编辑器比较，采用1.0.11版本。全部条件均列于下表。

主观收听测试在隔音收听实验室中进行，该实验室被设计为允许在类似于<<理想>>起居室的环境中进行高质量收听测试。收听者装配有STAX静电耳机，该耳机从连接至苹果迷你计算机（Apple MAC mini）的EdirolUSB声音接口被驱动。收听测试软件是工作在MUSHRA模式下的逢霍弗（Fraunhofer）IIS出品的wavswitch，其提供了简单GUI来支持收听者进行测试。收听者可在播放期间在基准（1）与不同条件（2-7）之间切换。各收听者可单独判断对各项目和各条件收听多长时间。想实际切换期间，声音播放变为无声。在GUI中，直条视觉显示出属于各种条件的评级。选择有经验的收听者，其熟悉音频编码但也具有音乐背景，从而一方面对典型信号处理伪像（类似于前后回声）或瞬时分散进行受过训练的判断，且另一方面，对音乐参数（诸如频谱音高、旋律和音色）进行判断。此外，要求收听者提供其非正式的观察和印象。

共有15人提供测试结果，然而一位收听者必需接受后筛选，原因在于其显然未能成功识别隐藏原音（评分为64分）。

图18略示出该收听测试结果。通过选择性音高转调处理的各项目的感知质量范围从普通到良好。较低锚定被评级在不良到差之间，从而到所处理项目和锚定的距离达到约40MUSHRA分。

绝对分数提供（在各测试条件中）量化各项目的感知质量的信息，并从而暗示性地在测试集合中评级了项目之间的质量差异，但不适合比较收听测试中的不同条件，因为这些条件的评级不具相关性。为直接比较源自不同选择性转调处理方案的条件，以下考虑分数差异。

图19示出了基于增强MODVOC的变形例（条件4和5）对于普通MODVOC（条件3）结果的分数差的研究结果。这里，全部增强MODVOC变形例分数上显著优于普通MODVOC处理（全部分数均很好地高于零）。除了仅项目A和C中谐波锁定的应用之外，这对于全部项目和条件在95%的置信意义上是很有意义的。

图20示出了作为针对条件6（旋律聆编辑器）的分数差的测试分数。对于项目C，条件5中的MODVOC分数上显著优于旋律聆编辑器，而条件4甚至略微正面，以及条件3在95%置信区间意义（置信区间与0交叠）上无结论。对于项目B（条件2）、F、G（条件5）也无法获得显著结论，但MODVOC的较好表现倾向对于条件4的项目C以及条件4和5的项目F也可见。在全部其他情况下，MODVOC分数均显著比旋律聆编辑器更差。

分数反映出总体质量判定，包括如非自然声音伪像（例如前后回声的瞬时降级、音高准确度、旋律正确性和音色保留）的方面。为更详细地解释结果，要求收听者注意其非正式观察连同记录实际分数。根据这些观察，可得出结论：音色保留和非自然声音伪像的不存在比例如旋律保留的良好程度在总分上占有更高程度。此外，若某个旋律对于收听者未知，则似乎测试人在测试期间无法记忆skort通知上的基准旋律，且因此不确定真实旋律。这可说明旋律聆编辑器处理项目的总分较高，其对于音色保留具有较高可靠度，尤其是源自单一乐器的声音。然而，这以意外发生严重旋律错误（其由于归类错误可推定发生）为代价而获得。在该方面，MODVOC更稳健，因为其并非主要依赖于基于特征的分类技术。

根据本发明的一些实施方式与用于音高选择性转调的增强式调制声码器有关。已介绍了调制声码器（MODVOC）的概念，且已指出其对复曲调音乐内容执行选择性转调的一般能力。这提供了针对改变预先记录的PCM音乐样本的音调模式的应用可行性。提出了两种用于由MODVOC选择性音高转调的增强技术。选择性转调应用的性能和这些技术的优势由得自具体设计的收听测试方法的结果作为基准，该方法能针对原始音频刺激在音高方面管理极端变化。该主观感知质量评估结果被呈现给已由MODVOC在小调与大调音调模式之间转换过的项目，以及此外，利用首先上市的软件也能处理该项工作。

值得注意，尽管旋律聆编辑器在允许任何操作之前初始执行全部音频文件的自动化分析，但MODVOC以逐个块为基础工作，因此潜在地允许实时运行。

已提出了调制声码器（MODVOC）用于音高选择性转调的增强技术。根据从MIDI提供的测试信号获得的收听测试结果，可得出结论：普通MODVOC的感知质量确实被谐波锁定和包络整形增强。对于全部项目，可预期有高达10 MUSHRA分的提高。改善的主要份额源于谐波锁定。

此外，MODVOC与市售软件（旋律聆编辑器）的比较揭示了在选择性音高转调中可达到一般质量水平，此时可能位于《普通》与《良好》之间。MODVOC更稳健不易发生旋律错误解释，因为其本质上主要并非依赖于分类决策。

与操作之前由旋律聆编辑器对整个音频文件执行的多通分析相反，MODVOC单独基于单通逐块处理，从而潜在地允许串流化或实时运行情况。

尽管已在装置背景下描述了所述概念的一些方面，但显然这些概念也表示相应方法的描述，其中，一个块或装置对应于一个方法步骤或方法步骤的特征。类似地，在方法步骤背景下所述的方面也表示对相应块或项目或者相应装置的特征的描述。

本发明的编码音频信号可被存储在数字存储介质上，或者可在诸如无线传输介质或有线传输介质（诸如因特网）的传输介质上传送。

根据特定实施要求，本发明的实施方式可在硬件或软件中实施。该实施可使用具有其上存储的电可读控制信号的数字存储介质进行，例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存（FLASHmemory），其与可编程计算机系统协作（或能够协作），从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包括具有电可读控制信号的数据载体，其能够与可编程计算机系统协作，从而执行本文所述方法中的一个。

一般地，本发明的实施方式可被实施为具有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作以执行方法中的一个。该程序代码例如可存储在机器可读载体上。

其他实施方式包括用于执行本文所述方法中的一个且存储在机器可读载体上的计算机程序。

换言之，本发明方法的实施方式因此是一种具有程序代码的计算机程序，当该计算机程序在计算机上运行时，该程序代码用于执行本文所述方法中的一个。

因此，本发明方法的另一实施方式是一种数据载体（或数字存储介质或者计算机可读介质），其包括在其上记录的用于执行本文所述方法中的一个的计算机程序。

因此，本发明方法的另一实施方式是一种表示用于执行本文所述方法中的一个的计算机程序的数据串流或信号序列。该数据串流或信号序列例如可被配置为经由数据通信连接（例如，经由因特网）来传送。

另一实施方式包括一种处理装置（例如计算机或可编程逻辑器件），其被配置为或适用于执行本文所述方法中的一个。

其他实施方式包括一种具有安装在其上的用于执行本文所述方法中的一个的计算机程序的计算机。

在一些实施方式中，可编程逻辑器件（例如，现场可编程门阵列）可被用于执行本文所述方法中的一些或全部功能。在一些实施方式中，现场可编程门阵列可与微处理器协作来执行本文所述方法中的一个。一般地，该方法优选由任何硬件装置执行。

上述实施方式仅是为了说明本发明的原理。需要理解，本文所述配置和细节的修改以及变形对于本领域技术人员而言将是显而易见的。因此，其旨在仅通过所附专利的权利要求的范围来限定，且不由通过本文实施方式的描述和说明的方式给出的具体细节来限定。

Claims

1.一种用于修改音频信号的装置（600），包括：

包络形状确定器（610），其被配置为基于表示时域输入音频信号的频域音频信号（602）来确定包络形状系数（612）；

滤波器组处理器（620），其被配置为基于所述频域音频信号（602）来生成次频带域中的多个带通信号（622）；

信号处理器（630），其被配置为基于预定修改目标来修改多个次频带域带通信号中的一个次频带域带通信号（622）；

合成器（640），其被配置为合成所述多个次频带域带通信号的至少一个子集来获得时域音频信号（642）；以及

包络整形器（650），其被配置为基于所述包络形状系数（612）来整形所述时域音频信号（642）的包络，基于所述包络形状系数（612）来整形包括修改后的次频带域带通信号的所述多个次频带域带通信号的包络，或者在次频带域带通信号被所述信号处理器（630）修改之前，基于所述包络形状系数（612）来整形所述多个次频带域带通信号的包络以获得整形音频信号（652）。

2.根据权利要求1所述的装置，其中，所述包络整形器（650）包括系数转换器（810）和乘法器（820），其中，所述系数转换器（810）被配置为将所述包络形状系数（612）转换至时域，其中，所述乘法器（820）被配置为将所述时域音频信号（642）与转换后的包络形状系数（812）相乘。

3.根据权利要求1或2所述的装置，其中，所述包络形状确定器（610）被配置为基于对所述频域音频信号（602）的频率的预测来确定所述包络形状系数（612）。

4.根据权利要求1至3中任一项所述的装置，其中，所述滤波器组处理器（620）包括预测滤波器（710）、信号减法器（720）和滤波器组（730），其中，所述预测滤波器（710）被配置为基于所述频域音频信号（602）和所述包络形状系数（612）来生成预测音频信号（712），其中，所述信号减法器（720）被配置为从所述频域音频信号（602）中减去所述预测音频信号（712）来获得剩余音频信号（722），其中，所述滤波器组（730）被配置为基于所述剩余音频信号（722）来生成带通信号（622）以获得所述多个带通信号。

5.根据权利要求4所述的装置，其中，所述包络整形器（650）被配置为确定所述频域音频信号（602）的能量含量与所述剩余音频信号（722）的能量含量的能量比，其中，所述包络整形器（650）被配置为若所述能量比低于预定能量阈值，则中断对所述时域音频信号（642）的包络的整形。

6.根据权利要求4或5所述的装置，其中，所述滤波器组处理器（620）包括信号转换器（930），其被配置为将由所述滤波器组（730）生成的所述带通信号转换至所述次频带域来获得所述多个带通信号。

7.根据权利要求1至6中任一项所述的装置，其中，所述信号处理器（630）被配置为基于第二预定修改目标来修改所述多个次频带域带通信号中的第二次频带域带通信号，其中，所述预定修改目标与所述第二预定修改目标不同。

8.根据权利要求1至7中任一项所述的装置，其中，所述信号处理器（630）被配置为针对所述多个次频带域带通信号中的每个次频带域带通信号（622）生成调幅信号（AM）和调频信号（FM），其中，所述信号处理器（630）被配置为基于所述预定修改目标来修改要被修改的所述次频带域带通信号（622）的调幅信号（AM）或调频信号（FM）。

9.根据权利要求1至8中任一项所述的装置，包括载波频率确定器（920），其被配置为基于所述频域音频信号（602）来确定多个载波频率，其中，所述滤波器组处理器（620）被配置为生成带通信号，使得每个带通信号包括含有所述多个载波频率中的不同载波频率的频率范围来获得与所述多个载波频率中的每个载波频率相关联的带通信号。

10.根据权利要求1至9中任一项所述的装置，包括高通/低通滤波器（660），其被配置为对所述时域输入音频信号或表示所述时域输入音频信号的所述频域音频信号高通滤波，其中，所述高通/低通滤波器（660）被配置为对所述时域输入音频信号或表示所述时域输入音频信号的所述频域音频信号低通滤波来获得低通音频信号（662），其中，所述包络形状确定器（610）被配置为基于高通频域音频信号（602）来确定所述包络形状系数（612），其中，所述滤波器组处理器620被配置为基于所述高通频域音频信号（602）和所述低通音频信号（622）来生成次频带域中的所述多个带通信号（622），其中，所述信号处理器（630）被配置为修改与所述高通频域音频信号（602）或所述低通音频信号（622）相关联的次频带域带通信号，其中，所合成器（640）被配置为合成与所述高通频域音频信号（602）相应的所述次频带域带通信号来获得所述时域音频信号（642），或者被配置为合成与所述高通频域音频信号（602）相对应的所述次频带域带通信号和与所述低通音频信号（662）相对应的所述次频带域带通信号来获得所述时域音频信号（642）。

11.根据权利要求1至10中任一项所述的装置，包括高通/低通滤波器（660），其被配置为对所述时域输入音频信号或表示所述时域输入音频信号的所述频域音频信号高通滤波，使得所述包络形状确定器（610）基于所述高通频域音频信号（602）来确定所述包络形状系数（612），以及所述滤波器组处理器（620）基于所述高通频域音频信号（602）来生成次频带域中的所述多个带通信号（622），其中，所述高通/低通滤波器（660）被配置为对所述时域输入音频信号或表示所述时域输入音频信号的所述频域音频信号低通滤波来获得低通音频信号，其中，所述合成器（640）被配置为合成包括修改后的次频带域带通信号的所述多个次频带域带通信号和所述低通音频信号来获得时域音频信号（642），或者全频带信号提供器（670）被配置为合成所述整形音频信号（652）和所述低通音频信号来获得全频带音频信号。

12.根据权利要求1至11中任一项所述的装置，包括基音确定器和泛音确定器，其中，所述基音确定器被配置为选择所述多个次频带域带通信号中的一个次频带域带通信号（622）来获得基音带通信号，其中，所述泛音确定器被配置为识别所述多个次频带域带通信号中满足有关所选基音带通信号的泛音标准的一个次频带域带通信号（622）来获得与所述所选基音带通信号相关联的泛音带通信号，其中，所述信号处理器（630）被配置为基于预定修改目标来修改所述所选基音带通信号，以及被配置为根据所述所选基音带通信号的修改来修改与所述所选基音带通信号相关联的所识别的泛音带通信号。

13.根据权利要求12所述的装置，其中，每个次频带域带通信号（622）包括载波频率，其中，所述泛音确定器被配置为将所述多个次频带域带通信号中的一个次频带域带通信号（622）的所述载波频率与所述所选基音带通信号的所述载波频率相比较，其中，若在具有预定载波频率容差的情况下，所述次频带域带通信号（622）的所述载波频率是所述所选基音带通信号的所述载波频率的倍数，则满足泛音标准。

14.一种用于修改音频信号的方法（1100），包括：

基于表示时域输入音频信号的频域音频信号来确定（1110）包络形状系数；

基于所述频域音频信号来生成（1120）次频带域中的多个带通信号；

基于预定修改目标来修改（1130）多个次频带域带通信号中的一个次频带域带通信号；

合成（1140）所述多个次频带域带通信号的至少一个子集来获得时域音频信号；以及

基于所述包络形状系数来整形（1150）所述时域音频信号的包络，基于所述包络形状系数来整形（1150）包括修改后的次频带域带通信号的所述多个次频带域带通信号的包络，或者在次频带域带通信号被信号处理器修改之前，基于所述包络形状系数来整形（1150）所述多个次频带域带通信号的包络以获得整形音频信号。

15.一种具有程序代码的计算机程序，当所述计算机程序在数字信号处理器、计算机或微控制器上运行时，所述程序代码用于执行根据权利要求14所述的方法。