CN101111884B

CN101111884B - 用于声学特征的同步修改的方法和装置

Info

Publication number: CN101111884B
Application number: CN2006800034105A
Authority: CN
Inventors: 菲利普·J.·布卢姆; 威廉·J.·埃尔伍德; 乔纳森·纽兰德
Original assignee: Synchro Arts Ltd
Current assignee: Synchro Arts Ltd
Priority date: 2005-01-27
Filing date: 2006-01-26
Publication date: 2011-05-25
Anticipated expiration: 2026-01-26
Also published as: GB2422755A; CN101111884A; DE602006018867D1; ATE492013T1; ES2356476T3; GB0501744D0

Abstract

将数字化音频信号(310)(例如业余演唱)以及数字向导音频信号(312)提供给产生与向导信号进行时间校准的时间校准的新信号(330)的时间校准处理(320)。在处理(340)和(345)中，测量沿着时间校准的新信号(330)和沿着向导信号(312)的音调，在处理(340)和(345)中，将这些测量提供给音调调整计算器(370)，音调调整计算器(370)从这些测量以及信号的最接近的八度音阶比率来计算音调校正因子C(Fp)。音调改变处理(380)调制时间校准的新信号(330)的音调，以产生时间校准且音调调整的新信号(390)。

Description

用于声学特征的同步修改的方法和装置

技术领域

本发明涉及信号修改。更具体地说，但并非排他性地，本发明涉及在基于其它数字化声音信号中的特征修改一数字化声音信号过程中出现的问题，其中，第一声音信号和第二声音信号的对应的特征在各个信号中不出现在时间上相同的相对位置。

背景技术

公知的是，难以随着音频或音频/视频片段进行演讲或演唱，使得新的表演是原来的演员或歌手的话语的恰好被同步地重复。因此，新的表演的记录很不可能使其开始和细节的声学特性与原唱音频音轨同步。相似地，诸如新的歌手的音调(pitch)的特征可能不如原唱歌手精确或复杂地改变。在专业音频记录产业和消费者基于计算机的游戏和活动中存在许多情况，其中，声音记录包括语音，新记录话音的音乐音调将受益于音调调整，通常意味着校正，以使其与原唱语音记录合拍。此外，即使普通业余演唱的记录合拍，也将不具有专业歌手的熟练的发音方式和音调变化。

图4显示对相同音乐音轨演唱相同词语的大众成员的音调测量(新的音调402)和专业歌手的音调测量(向导音调401)。语音化的信号(非零Hz音调值)的对应的部分(脉冲)的开始和结束之间的定时差异以及非语音化或静默部分(处于零Hz)的位置的定时差异是频繁且显著的。在相同的相对时间直接将来自向导音调401的音调数据应用于新的音调402的数据是明显错误的，并且不适合于所示段的真实量。这是典型的结果，并且示出待解决的基本问题。

可以通过商业可用的硬件和软件设备，自动将音乐的逐音高的音调调整应用于记录的或实况演唱，所述商业可用的硬件和软件设备通常将到来的音高调谐到可接受的音高音调的指定的固定栅格。在这样的系统中，可以自动校正每一输出音高，但因为该方法可能移除自然的和期望的“真人”变调，因此可能经常导致不可接受的或不好的结果。

在这样的已知软件和硬件设备中的目标音调识别的基本基础是音乐的音阶升降，其基本地是那些特定音高频率的列表，设备应该首先比较输入信号和所述特定音高频率。多数设备有用于标准音阶升降的预设音乐音阶升降，并允许对其进行定制，例如以改变目标音调或保留未改变的特定音调化的音高。

可以将已知软件设置为自动模式，这也是通常硬件设备如何工作：设备检测输入音调，在用户指定的预设音阶升降中识别最接近的音阶升降音高，并改变输入信号，从而输出音调匹配于指定的音阶升降音高的音调。输出音调回旋或重调音到目标音调的速率(有时描述为“速度”)被控制以帮助更精确和更自然地维持自然音调轮廓(即作为时间的函数的音调)，并允许“风格”的较大的变化。

然而，所记录的业余的演唱不能通过这样的已知自动调整技术而被增强以实现在专业歌手的表演中找到的复杂和熟练的音调变调。

还存在通过使用目标语音或其它存储的目标语音参数数据的序列执行音调校正和/或其它发音修改以指定期望的修改的已知语音处理方法和系统。这些已知方法具有一个或多个明显的缺点。例如：

1、被严格地应用于用户的输入语音信号的目标音调(或其它发音特征)采用卡拉OK音轨的定时或用户通常实时演唱的其它这样的伴奏，并且不尝试校准对应的发音特征(美国专利5966687，日本专利2003044066)。如果用户的语音相对于目标特征(例如音调)数据的定时开始太早，则目标特征将被错误地应用于稍后的词句或音节。如果用户的语音较晚，则出现相似的问题。在乐句中，具有音乐音轨的不符合时间的词句或音节将被分配错误的音调或用于所述词句或音节的其它特征。相似地，当期望非语音化的段时出现的任意语音化的段不接收存储的目标音调或其它目标特征信息。

2、应用于用户的输入语音的目标音调(或其它发音特征)依赖并采用输入的音素或相似地语音化/非语音化模式或仅仅元音的期望的存储的序列(例如美国5750912)。这些方法通常需要用户训练或输入音素数据的固定特性和/或需要充分接近用于精确识别的相同词句的发音出现。如果不存在训练并且用户的音素设置充分不同于将不识别的所存储的设置，则系统将不正确地运作。如果没有将用户的音素保持足够长，或保持太短，则输出音高可能被截断或切断。如果音素到达太早或太晚，则音调或特征可能应用于正确的音素，但其将脱离音乐伴奏的时间。如果用户发出错误的音素，则系统可能很容易无法保持匹配。此外，在歌曲中，单个音素通常被给定多个和/或连续音调的范围，在这样的音调上，基于音素的系统将不可能实现正确的音调或特征改变。精确的音素识别还需要非零处理时间，这在实时系统中将延迟正确的特征的应用。非发音的声音(例如笛子)不能被用作向导信号或输入。

3、目标音调模型基于由表典型地描述的一组离散音高(例如Midi数据)，其通常在音调和时间上被量化。在此情况下，对输入的语音的修改被限制为存储的音高。该方法导致可以生成的受限的一组可用发音模式。内部音高过渡、颤音和滑奏控制通常将受限于基于粗音高的描述符(即Midi)。此外，处理过的音调校正的演唱语音可以出现机械(单调)的声音，如果音调通过错误定时被应用于词句的错误部分，则歌曲将听起来很古怪，并且可能跑调。

4、系统被设计为接近于实时地工作(如同在实况卡拉OK系统中)并在已经接收到(待校正的)输入之后短暂地创建输出。使用音素或相似特征的系统(例如美国专利5750912)受限于非常局部化的时隙。这样的系统可能脱离音阶，导致例如卡拉OK歌手的元音匹配于向导目标演唱的错误部分。

发明内容

因此，需要一种在新的发音表演的时变特征和向导发音表演的对应的特征之间首先建立详细定时关系的方法和装置。其次，必须将时间校准路径用作时间映射以在准确的正确时间正确地确定特征(例如音调)调整和将其应用于新的发音表演。当正确地完成时，这允许将在向导发音表演中发现的细微差别和复杂性(例如对于音调：颤音、变化曲线、滑音、跳跃等)施加到新的发音表演。此外，如果应用了时间校准，则可以控制除了音调之外或作为音调的替换的其它特征；例如声门特性(例如呼吸或刺耳的语音)、声道共振、EQ以及其它。

本发明的另一目的在于提供用于发声修改的方法，其操作在非理想输入的信号条件下，尤其是新输入(例如用户语音)：(a)是带限的，和/或限制在动态范围中(例如经由电话系统输入)；(b)包含特定类型的噪声或失真；或(c)来自于向导(目标)语音的具有不同口音、性别或年龄的人、或具有词句和音素的传递的非常不同的定时，无论它们与向导(目标)信号相同还是不同，并且甚至具有不同的输入语言。

另一目的在于提供一种不需要关于待存储的信号(例如关于信号的音素特性)或可以应用于输出信号的一组详细的可能的信号状态的任意先验信息的方法。因此，有关的另一目的在于提供一种可以以向导音频信号和新音频信号操作的方法，向导音频信号和新音频信号中的一个或两者不需要是话音或演唱。

已经存在用于音频信号的时间映射和校准的系统和方法。在英国专利2117168和美国专利4591928(Bloom等人)中已经描述了用于确定两个音频信号之间的时间差并通过自动波形编辑来将音频信号中的一个自动时间校准到另一音频信号的方法和装置。在J Holmes andW Holmes，(2001)，“Speech synthesis and recognition，2nd Edition”，Taylor and Francis，London中描述了用于时间校准的其它技术。

用于音调改变和其它发音修改的技术也被很好地建立，一个示例是K.Lent(1989)，“An efficient method for pitch shifting digitallysampled sound，”Computer Music Journal Vol.13，No.4，at pages 65to 71。

根据本方面的一个方面提供了一种用于修改音频信号的至少一个声学特征的方法，该方法包括：比较第一采样音频信号和第二采样音频信号，从而从第二采样音频信号中的依赖于时间的声学特征的出现时间和第一采样音频信号中的依赖于时间的声学特征的出现时间之间的定时差而确定时间校准数据；在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征，以从其中产生第一采样音频信号声学特征测量的序列；处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列；以及将声学特征修改数据的序列应用于第二采样音频信号，以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征。

根据本方面的另一个方面提供了一种用于修改音频信号的至少一个声学特征的装置，该装置包括：用于比较第一采样音频信号和第二采样音频信号，从而从第二采样音频信号中的依赖于时间的声学特征的出现时间和第一采样音频信号中的依赖于时间的声学特征的出现时间之间的定时差而确定时间校准数据的装置；用于在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征以从其中产生第一采样音频信号声学特征测量的序列的装置；用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置；以及用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置。

根据本方面的另一个方面提供了一种音频信号修改装置，包括：时间校准模块，被布置为接收新信号和向导音频信号并从其中产生时间校准的新信号；第一音调测量模块，耦合到时间校准模块，并被布置为测量时间校准的新信号中的音调；第二音调测量模块，被布置为接收向导音频信号并测量向导音频信号中的音调；音调调整计算器，耦合到第一音调测量模块和第二音调测量模块，并被布置为计算音调校正因子；以及音调调制器，耦合到时间校准模块，以接收时间校准的新信号，并耦合到音调调整计算器，以接收音调校正因子，并且被布置为根据音调校正因子修改时间校准的新信号中的音调。

根据本方面的另一个方面提供了一种音频信号修改装置，包括：时间校准模块，被布置为接收新音频信号和向导音频信号并从其中产生时间校准的新信号；第一声学特征测量模块，被布置为接收向导音频信号，并测量向导音频信号的至少一个声学特征；声学特征调整计算器，耦合到第一声学特征测量模块，并被布置为计算声学特征修改因子；以及声学特征调制器，耦合到时间校准模块，以接收时间校准的新信号，并耦合到声学特征调整计算器，以接收声学特征修改因子，并且被布置为根据声学特征修改因子修改时间校准的新信号的所述至少一个声学特征。

根据本方面的另一个方面提供了一种音频信号修改装置，包括：时间校准模块，被布置为接收新音频信号和向导音频信号并从其中产生时间校准数据；第一声学特征测量模块，被布置为接收向导音频信号，并测量向导音频信号的至少一个声学特征；声学特征调整计算器，耦合到时间校准模块和第一声学特征测量模块，并被布置为计算声学特征修改因子的时间校准的值；以及声学特征调制器，被耦合以接收新音频信号，以及被耦合到声学特征调整计算器以接收声学特征修改因子的时间校准的值，并且被布置为根据声学特征修改因子的时间校准的值修改新音频信号的所述至少一个声学特征，从而产生修改的新音频信号。

本发明的优选实施例提供用于将第二数字化音频信号的一个或多个信号特性自动和正确修改为第一数字化音频信号中指定的特征的函数的方法和装置。在这些实施例中，首先建立两个信号中指定的特征的相对定时关系。基于这些定时关系，可以正确地应用信号的特征的详细的和时间严格的修改。为了实现这个方面，生成时间校准函数以创建第一信号的特征和第二信号的特征之间的映射，并提供用于可选地编辑第二(用户的)信号的函数。

本发明的特定应用包括：将所选择的专业表演者的数字化发音表演的音频特性精确地传输到不熟练的人的数字化音频表演，并因此对其进行增强。本发明的一个具体应用在于将由公众的典型成员生成的新音频信号(“新信号”)的音调自动调整到由专业歌手生成的另一音频信号(“向导信号”)的音调。该应用的示例是使用数字化音乐视频作为原唱源的卡拉OK风格的记录和回放系统，其中，在原唱音频和可选的对应的视频的回放期间，用户的语音被数字化并输入到所述装置(作为新的记录)。采用该系统，可以创建自动进行时间和音调校正的修改的用户的语音信号。当修改的语音信号同步于原唱视频而被回放时，关于音调和时间，用户的语音可以精确地替代原唱表演者的记录的语音，包括任意唇同步。在回放音乐视频期间，如果在以用户的修改的语音记录进行回放期间原唱的、替代的语音信号不可听见，则这种替代的影响甚至将更有效。在WO 2004/040576中描述了修改的语音记录可以与原唱背景音乐组合。

本发明的其它应用在于创建用于电话系统的个性化声音文件。在这样的应用中，用户演唱或甚至演讲以提供语音信号，语音信号被记录并其后被增强(例如被音调和时间校正以符合专业歌手版本的特性)，并且可选地与适当的背景音乐混合。其后，得到的增强的用户记录可以用于电话用户作为个性化铃音或用于其它目的的声音文件。实施本发明的装置其后可以采用例如耦合到包括电信网络和/或互联网的电信系统的服务器计算机，并可以使用移动电话作为装置和用户之间的接口。附加地或可选地，移动电话可以适用于实施本发明。在这样的系统中，可以将由本发明的实施例产生的表示这样的信号的数据或修改的语音信号通过铃音传递系统发送到所选择的接收方，以用作铃音或其它识别声音信号。

在本发明的优选实施例中，包括创建向导信号和新信号之间的依赖于时间的映射函数的步骤确保了无论向导信号和新信号之间的实质差别如何都在新信号中在适当的时间进行信号特征修改。时间校准函数用于将控制特征函数数据映射到期望的信号修改处理。所述修改处理访问新信号并按照需要对其进行修改。该行动从新信号创建新的第三音频信号。相应地，第三信号其后具有由作为向导信号的控制特征指定的特征所确定的期望的时变特征。

在一个实施例中，第二音频信号(新信号)是使用来自时间校准函数的映射信息而被时间修改的(非线性时间压缩或扩展)，从而其时变特征在时间上与第一音频信号校准。在上述期望的修改已经发生之前或之后可以产生这样的时间校准。

在替换实施例中，不对新的波形或修改的波形执行时间校准处理。反之，使用时间规整路径来将第一信号的控制特征(向导信号音频控制参数)映射到第二信号，以修改第二信号的波形的适当的部分并保持其原唱定时。

通过执行处理而没有实时处理的限制，可以执行向导信号和新信号的存储的版本的详细分析，开始在时间校准处理之前处理的两种信号的统计上显著且实质的量(即达到30秒或甚至是整个信号)，并关于长期信号特性进行关键判断。

相应地，可以容纳大规模的时间差异(例如几秒)，并且校正的和本地化的优化校准可以发生在词句和乐句之内。此外，特征修改也被“离线”完成，允许应用最高质量的处理以及与修改有关的数据的内插和/或平滑，以在应用于新信号之前移除明显的总体错误。

无需预先定义新信号的输出特征值的集合。例如，如果由用户提供的新信号的音调将要被校正，从而匹配于以专业歌手的形式的向导信号的音调，则无需定义或设置可接受的音调值。反之，用户的语音将被调整到在向导信号记录中呈现和测量的值。

无需将新信号限制为类似于向导信号或由与向导信号相同的声学处理的类型来生成。例如，可以将单调话音时间和音调修改为符合独奏木管乐器或鸟鸣。只要两种信号具有可以被相关地对待的一些时变特征，实现本发明的方法就可以创建具有适当的修改的特性的输出信号。此外，新信号和向导信号的特征可以在频率上彼此偏离。例如，一个信号的音调可以是八度音阶或更加偏离另一信号。

应注意，一种或两种音频信号可以处在超声或次声区域。

通过本发明的优选实施例的操作，可以将在专业歌手的表演中找到的复杂和熟练音调变奏(以及可选地其它特性)精确地传送到用户(例如业余)歌手的数字化语音。这样将用户的表演的方面增强到专业水准。

本发明的实施例还可以应用于自动对话替换(ADR)领域，以增强演员的ADR影棚记录的表演。实施例可以用于修改影棚记录的发音特性，例如音调、能量级别和韵律的特征，以匹配或符合在具有图像的位置或设置上记录的原唱向导信号的那些特征。此外，影棚中的演员可以不同于记录向导信号的演员。

此外，本发明在可以应用的处理的范围内是灵活的。例如，在音调调整的情况下，可以作为音调调整函数的函数来引入例如时间校准的协奏生成的另一音调改变函数，以创建替换的输出信号。此外，可以由任意函数将向导信号中的一个测量的特征映射为控制新信号中的完全不同的特征。

可以以具有音频输入和输出的装置的计算机系统(例如PC或基于计算机的游戏控制台)中的计算机程序来实现实施本发明的方法。

存在可以实现的处理序列的布置的许多置换，在某些情况下一些置换具有超过其它布置的优点。以下关于处理音调给出示例，以示出变奏如何影响处理复杂性和/或减少用于生成输出信号中的可听信号伪像(artefact)的潜力。在考虑除了音调之外的处理特征，例如响度、音调或共振峰结构过程中，可能出现相似的观察和结果。

典型地，在实施例中，在开始时，对新信号和向导信号采样，并对其进行数字化存储。接下来，鲁棒的独立于演讲者的短时间特征分析提取两个信号中的特征调制的简档。采用所提供的噪声和电平补偿算法(例如美国专利4,591,928中所描述的)，在信号的连续窗口化的“帧”上每隔10毫秒就进行谱能量测量。在整个输入信号执行这种分析以最大化处理的精度和鲁棒性。可以替换地使用其它短期特征测量，可以在L.R.Rabiner and R.W.Schafer(1978)“DigitalProcessing of Speech Signals，”Prentince Hall中找到其示例。

采用音调确定的示例，将在计算机系统中对记录的信号及其测量的信号特征数据执行的其余主要信号处理步骤是：

方法1

(a)在确定并输出优化时间校准路径函数作为数据序列的模式匹配算法中处理向导信号和新信号的依赖于时间的特征序列。该路径优化地将新信号的帧映射到向导信号的帧。

(b)将来自时间校准路径的数据用于编辑新信号并生成被时间校准到向导信号的新信号。

(c)向导信号被分段为离散的连续帧，测量每一帧的音调。对音调测量序列值进行平滑以提供向导信号音调轮廓。

(d)对于校准的(编辑的)新信号重复步骤(c)中的处理，以生成其音调轮廓。

(e)向导信号的每一音调轮廓值由对应的用于校准的新信号的音调轮廓值划分，并对于八度音阶变换而被调整，以生成校正轮廓，所述校正轮廓是给出校正因子以应用于校准的新信号的每一帧的一组值。所述校正轮廓被平滑以移除任意总体误差。

(f)音调变换算法用于将校准的新信号的音调变换(shift)到根据来自步骤(e)的平滑的校正轮廓的值，从而生成在时间和音调上匹配于给出的向导信号的新信号。

方法1采用级联的两种编辑算法，并在新信号的音调经历了编辑的一个步骤之后对其进行测量。因此，方法1中的生成的输出的质量取决于来自步骤(b)的编辑的信号的输出质量。因此，在编辑期间引入的瑕疵在于，信号可能降低步骤(d)和(f)的输出的质量。这将导致在校正的音调中的偶然性小误差，并且在生成的输出中可能创建微小的粗糙度。

方法2

为了减小这样的误差的风险，另一实施例组合上述步骤(b)和(f)，以形成单个编辑阶段。此外，从未修改的新信号而不是从时间校准的(编辑的)版本测量新信号的任意特性(在该示例中，音调)。通过计算时间校准路径的逆路径来实现该目的。逆路径将未编辑的新信号的每一帧映射到向导信号的对应的帧。从该映射中，计算用于新信号的音调校正轮廓，其在时间上被校准到向导信号。在效果上，在计算音调校正轮廓之前，向导信号在时间上被校准到新信号。

下面的步骤总结了该方法。

(a)在确定并输出优化时间校准路径函数作为数据序列的模式匹配算法中处理向导信号和新信号的依赖于时间的特征序列，该路径优化地将新信号的帧映射到向导信号的帧。

(b)将来自时间校准路径的数据用于产生将向导信号的帧映射到新信号的对应的帧的逆路径函数。

(c)向导信号被分段为离散帧，测量每一帧的音调。对音调测量序列值进行平滑以提供向导信号音调轮廓。

(d)对于校准的(未编辑的)新信号重复步骤(c)中的处理，以生成其音调轮廓。

(e)使用逆路径函数以将向导信号音调轮廓校准到新信号音调轮廓，映射的向导信号的每一音调轮廓值由新信号的对应的音调轮廓值来划分，并对于八度音阶变换而被调整，以生成校准的校正轮廓，所述校正轮廓是给出校正因子以应用于新信号的每一帧的一组值。所述校准的校正轮廓被平滑以移除任意总体误差。

(f)使用时间校准路径函数和平滑的校准的校正轮廓，使用变换其音调并根据需要对新信号进行时间压缩或时间扩展的处理算法来编辑新信号，以生成在时间和音调上校准到向导信号的输出信号。

(g)或者，作为步骤(f)的替换，可以应用平滑的校准的校正轮廓，而无需新信号对向导信号的时间校准。这将保持新信号的原唱定时，但即使新信号在时间上尚未被校准到向导信号，也将把音调校正应用于新信号的校正帧。

方法2的各种形式在所有词句和乐句上提供更加可靠和自然的声音音调校正，这可以采用并如实地再次创建诸如颤音和其它细节的精细的细微差别。

方法3

虽然方法2仅编辑新信号一次，但其同时使用修改音调和时间校准的处理技术。通过稍微改变步骤的顺序，能够分离地处理音调变换和时间修改，而不使用方法1。虽然这样引入了两个编辑阶段，但对于每一阶段可以分离地选择最适当的专用处理算法。

下面的步骤总结了该方法：

(a)在确定并输出优化的时间校准路径函数作为优化地将新信号帧映射到向导信号的帧的数据序列的模式匹配算法中处理向导信号和新信号的依赖于时间的特征序列。

(b)向导信号被分段为离散帧，测量每一帧的音调。对音调测量序列值进行平滑以提供向导信号音调轮廓。

(c)对于(未编辑的)新信号重复步骤(b)中的处理，以生成其音调轮廓。

(d)使用时间校准路径函数，将新信号的音调轮廓有效地时间校准到向导信号音调轮廓。

(e)每一向导信号音调轮廓由对应的时间校准的新信号的音调轮廓值来划分，并且对于八度音阶变换调整结果。这样生成包含校正因子的校准的校正轮廓以应用于时间校准的新信号的每一帧。所述校准的校正轮廓被平滑以移除任意总体误差。

(f)把来自时间校准路径的数据用于编辑新信号并生成被时间校准到向导信号的新信号。

(g)使用音调变换算法，由在步骤(e)中生成的平滑的校准的校正轮廓来变换时间校准的新信号的音调。这样给出在时间和音调上校准到给定的向导信号的编辑的新信号。

方法3使用原唱时间校准路径函数而不使用其逆函数。此外，方法3具有方法2的优点：测量未修改的新信号的音调而不是时间校准的(编辑的)版本的音调。然而，在没有首先生成时间校准的版本(步骤f)的情况下，不能修改新信号的音调(步骤g)。

在其它实施例中，一旦已经创建时间校准函数，就可以修改除了音调的声音信号的其它特征，以符合向导信号中的那些特征。在给定了用于分析的适合的机制并且指定特征的修改可用的情况下，其它类型的时间同步的可修改的特征包括声音信号特征(例如瞬时响度、均衡、话音共振峰或共振模式、回响和回音特性)以及甚至词句本身的修改。

在本发明中，无需视频信号，可以需要输入音频信号以仅伴随或替代另一音频信号。

在本发明的优选实施例中，包括用于确定时间校准函数或时间规整路径的装置，其可以提供与第一(向导)音频信号中的时变特征对应的第二(新的)音频信号的时变特征之间的优化的和充分详细的时间映射。这种映射确保了时变变化是基于在与被修改的新信号的适当的部分对应的向导(控制)信号的部分中的指定的特征的。在采样的信号波形的窗口或短部分上，每隔T秒进行用于确定时间校准的具体时变特征的测量，其中每一窗口持续时间为T’，T’可以不同于T。基于连续的逐帧进行测量，通常采用采样窗口重叠。这是“短时间”信号分析，如L.R.Rabiner and R.W.Schafer(1978)“Digital Processing ofSpeech Signals，”Prentince Hall所描述的那样。

应理解，对于时间校准处理测量的特征可能是不同于被改变的特征以及用于控制的特征两者的特征。必须定义将要改变的特征和控制特征参数之间的函数关系。例如，下文中更详细地描述的一种简单关系，在调整以维持创建新信号的人的自然音调范围的情况下，修改新信号的音调以匹配于向导信号的音调。这种修改函数的定义以及其它定义可以附加地根据需要随着时间而改变。可以在音频处理计算机系统中将修改函数编程为输出值对于输入值的的数据数组、或算术函数、或一组处理规则。注意，该函数无需依赖于信号自身，所以信号可能不需要任何分析。在其它步骤中，指定为在第二信号中修改的特征和在第一信号中的指定的控制特征两者都被测量为时间的函数。这些测量被存储作为数据。

附图说明

图1是适合用于实现本发明的计算机系统的框图。

图2是示出可以被添加到实现本发明的图1的计算机的附加软件组件的框图。

图3是示出用于基于具体不同音调和定时特性的输入信号创建具有音调调整的输出音频信号的信号和处理模块的本发明的一个实施例的框图。

图4是示出用于专业歌手的记录的向导语音的时间函数的音调测量和来自以相同音乐伴奏演唱相同歌曲的未受过训练的用户的所记录的新信号上的相同测量的典型示例的示图。

图5是表示时间规整函数或校准路径的示图。

图6是示出(在音调校正之前)对于左频率轴的来自图4的向导信号的音调和校准的新信号音调以及对于右垂直轴的所计算的经过平滑的音调校正因子的示图。

图7是在图6中示出为未校正的、经过校正的新信号音调和向导信号音调的示图。

图8是示出用于基于任意输入信号的时间校准的特征创建具有任意普通信号特征修改的输出音频信号的信号和处理模块的本发明的另一实施例的框图。

图9A是根据本发明的具有如下处理的另一实施例的框图，在所述处理中，以与向导信号同时的时间校准或不以与向导信号同时的时间校准对新信号的特征修改。

图9B是根据本发明的具有如下处理的另一实施例的框图，在所述处理中将时间校准路径用于创建时间校准的新信号并提供用于精确地确定对时间校准的新信号进行的修改的映射函数。

图10(a)是用于使用重叠和相加合成来创建信号s″(n)的分析窗口的相对位置和形状的示例的示图。

图10(b)是用于使用重叠和相加合成来创建信号s″(n)的合成窗口的相对位置和形状的示例的示图。

图11是使用电信系统的本发明的另一实施例的框图。

具体实施方式

能够记录声音输入同时从数字化的计算机视频和音频文件回放声音和/或视频信号的计算机系统是公知的。附图的图1中示出了可以支持这些函数的典型的PC系统和环境的组件，该系统可以用于图2中的软件作为提供用于本发明的多个实施例的硬件和软件环境的基础。

在图1中，示出传统的计算机系统100，其包括：计算机110，具有CPU(中央处理单元)112、RAM(随机存取存储器)118；用户接口硬件，通常包括指示设备120(例如鼠标)、键盘125、以及显示屏幕130；内部存储设备140，例如硬盘或另一RAM；用于访问固定或可拆卸存储介质165(例如CD ROM或DVD ROM)上的数据的设备160；并且可选地包括调制解调器或网络接口170，用于提供对互联网175的访问。指示设备120控制所显示的屏幕光标(未示出)的位置以及显示在屏幕130上的函数的选择。

计算机110可以是任意传统或商用计算机，例如PC或AppleMacintosh，或是具有指示设备120并且作为游戏控制器设备的的专用“游戏机”，例如

Xbox^TM、或Sony Playstation 2^TM。特定游戏机可能缺省图1中示出的某些组件。图2示出可以安装在计算机110中的另一软件。

用户可以从CD ROM或其它装置获得包含音频和可选的伴随视频片段的数字数据文件115，所述可选的伴随视频片段例如可以是诸如avi或

电影格式的公共格式，并且例如可以被拷贝和存储在硬盘140上或存储到RAM中。计算机110具有：已知的操作系统135，例如由或

OS的任意可用版本所提供的操作系统；以声卡150或计算机主板上的等同硬件的形式的音频软件或硬件，其包含：ADC(模数转换器)，连接到用于进行记录的麦克风159；以及DAC(数模转换器)，连接到一个或多个用于回放音频的扬声器156。

如图2所示，这样的操作系统135通常安装了音频记录和编辑软件180，支持经由声卡150进行音频记录以及编辑函数，例如随安装的“Sound Recorder”应用程序。记录程序和/或其它程序可以使用声卡150来将到来的模拟音频信号转换为数字音频数据，并将该数据记录在硬盘驱动器140上的计算机文件中。音频/视频播放软件190(例如随

安装的Windows Media Player和/或其它软件)可以用于通过声卡150、其它内建的视频硬件和软件、显示屏幕130和扬声器156播放合成的数字视频和音频文件或仅播放音频文件。合成的视频和音频文件包括视频数据和一个或多个平行的同步的音频数据轨道。或者，可以将音频数据保持为分配给音频数据的存储多流的分离的文件。音频数据可以是语音数据，例如对话或歌唱、乐器音乐、“声效”、或它们的任意组合。结合135和110，块180和190还可以表示可以实现将在此描述的信号处理系统的软件或硬件。

可以采用100和110中的硬件和软件系统的替换发布的实施例，一个示例是由远程服务器将计算机系统100的主要元件提供给用户。在此情况下，在经由电话系统和/或互联网在用户和100之间发送模拟或数字化音频信号的情况下，可以由连接到用户的PC系统的扬声器和麦克风或电话在用户端处提供输入和输出变换器159和156。用户可以通过包括电话触摸音键盘、计算机键盘、语音输入或其它手段的多种方法来远程控制系统操作。

以非实时消费者卡拉OK系统形式的本发明的实施例允许公共成员在基于计算机的系统中将他们演唱流行歌曲的语音记录为音乐视频。当修改用户记录的语音其后对其进行回放时，修改的语音被唇同步为原唱歌手的嘴型运动，并且具有与音乐视频中的替代的歌手相同的音调。图2的系统允许以伴奏视频或不要伴奏视频对唱歌的原唱表演者进行音频回放。用户可以回放歌曲，并且系统将对用户的语音进行数字化并将其记录(存储)在计算机硬盘或其它存储器设备上。由于需要测量原唱歌手语音的精确特征，所以最好使该语音信号与伴奏音乐音轨相分离。可以通过从提供媒体内容的录制公司或组织请求语音的隔离的记录来最高效地实现该需求。

在该实施例中，使用第一信号，向导信号，其是在隔离中表演歌曲的歌手的数字化记录(例如从记录自原唱记录会话的多音轨记录传送的独奏声乐音轨)，优选地没有添加诸如回声或反射。可以将这样的数字化的向导信号g(n)在CD或DVD/ROM165上或经由互联网175提供给用户的系统。或者，在另一实施例中，可以在相同系统或另一系统中预先分析向导信号的所需特征(对于时间校准和特征修改控制)，以提取所需数据。可以经由165、175或其它数据传送方法将该数据输入到系统100，以用作数据文件。图3示出实施例的数据存储和处理模块。

通过运行声音记录并回放节目，用户播放可听见或不可听见原唱歌手的期望的歌曲，并同时进行演唱。用户的演唱被数字化并记录到数据存储310中的数据文件。所述数字化的信号是第二信号，即新信号s(n)。

图3的实施例执行在前描述的方法1。目的在于校正用户的新信号的音调和定时校正以模仿向导信号的音调和定时。在此情况下被用作控制函数的向导信号中的特征以及在新信号中被修改的特征具有相同特征，即各个信号的音调轮廓。跟踪时间校准的新信号音调测量和向导信号音调测量之间的差的处理用于计算音调调整函数，以制作向导信号的音调之后的新信号的音调。在此假定新信号s(n)在乐节、内容和长度方面相似于向导信号g(n)。对于非实时卡拉OK类型应用，这是合理的假设，因为用户总是尝试在定时、音调和词语中模仿原唱表演。

如下是在此非实时地对数字音频数据执行的方法1。

输入信号描述和测量

新信号和向导信号很不可能在没有处理的情况下被充分地时间校准。美国专利4591928(Bloom等人)描述了非时间校准但相似的话音信号的能量模式之间的差以及与能量有关的测量(例如滤波器组输出)作为对时间校准处理的输入的使用。

图4示出通过测量专业女性歌手的向导信号而获得的时间序列Pg(M)(下文中称为音调轮廓401)作为音调测量帧编号M的函数，其中，M＝0，1，2，......N，以及示出作为在根据相同时间比例的时间校准之前典型业余者的新信号(男性语音)音调轮廓402的时间序列Ps(M)。两个信号的音调轮廓中的差异以及它们的时间上的未校准是明显的。在时间上没有与第二序列Ps(M)校准的第一序列Pg(M)不能直接用作用于第二信号的控制或目标音调函数而不生成明显的可听见的错误。

在音调轮廓401或402中的零HZ示出的数据点表示对应的音调测量帧包含静默或没有语音的话音。非零测量表示在该帧中的各个信号的音调测量。

在图4中，新信号音调轮廓402中的语音化的声音的非零值段(脉冲)通常落后于向导信号音调轮廓401中的对应的特征，并具有不同的持续时间。此外，两个音调轮廓的语音化的声音处于不同的八度音阶。此外，向导信号音调轮廓401的每一脉冲中的音调范围变化远比新信号音调轮廓402中的对应的脉冲要宽。由于向导信号音调轮廓401得自专业歌手，因此这是理所当然的。这是这样的细节和将施加到业余用户的记录演唱的向导信号音调轮廓401的定时。

新信号的时间校准

在图3中，通过使用诸如US 4,591,928中描述的技术来创建中间音频信号、存储在例如盘330上的时间校准的新信号s’(n)，从数据存储器310读取的采样的新信号波形s(n)在时间上首先校准到从数据存储器312读取的向导信号g(n)。这样确保了在与向导信号中的系统的相对时间出现s’(n)中的能量模式的细节。这进一步确保了任意所需的唇同步将是有效的，以及从向导信号到新信号的特征的传递不需要进一步的时间映射。用于创建新信号s(n)和向导信号g(n)的采样频率在该示例中是44.1kHz。

US 4,591,928中描述的时间校准处理测量每隔10毫秒就测量谱能量特征(例如滤波器组输出)，并生成将新信号中相似的谱特征与向导信号中的最接近的对应的特征关联的每隔10毫秒具有路径点的时间校准或“时间规整”路径。

图5示出时间规整路径w(k)的示例，k＝0，1，2...，其中，新信号的每一特征帧具有帧编号j，向导信号每一特征帧具有帧编号k，帧采样间隔是T秒，其中，T＝10毫秒。在时间校准处理模块320之内创建这样的规整路径，并且在创建存储在盘330上的时间校准的新信号s’(n)中，该路径用于控制模块320中的新信号s(n)的编辑(即时间压缩/扩展)。如US 4,591,928中描述的那样，通过构建s(n)的编辑的版本而由模块320创建时间校准新信号s’(n)，在所述s(n)的编辑的版本中，s(n)的部分已经根据w(k)以及来自编辑系统的附加定时错误反馈而被重复或删除，这被约束为当存在语音化的声音时进行音调同步编辑。

生成新信号的音调轮廓

在连续的离散音调测量帧中使用运动分析汉宁(Hann)窗口从s’(n)的测量来创建校准的新信号s’(n)的原始音调轮廓Ps’(M)，其中，M是帧编号，M＝1，2，3，......。为了获得精确的音调测量，推荐分析窗口长度为所测量的最低周期长度的2.5到3倍。因此，在当前实施例中，为了测量具有近似0.0139秒周期的低的72Hz的音调，使用1536个采样(以44.1kHz的采样频率)分析窗口(或近似35毫秒)。音调测量帧的采样间隔是10毫秒。音调估计器模块340的分析窗口以采样的每一音调测量帧为中心。对于每一音调测量帧，使用用于音调估计的公知方法(例如自动校正、梳状滤波器等)中的一种方法对音调进行估计。可以在参考文献(例如Wolfgng Hess(1983)“PitchDetermination of Speech Signals.Algorithms and Devices，”Springer-Verlag；R.J.McAulay and T.F.Quatieri(1990)“Pitchestimation and voicing detection based on a sinusoidal model，”Proc.Int Conf.on Acoustics，Speech and Signal Processing，Albuquerque，NM pp.249-252；and T.R.Quatieri(2002)“Discrete-Time SpeechSignal Processing：Principles and Practices，”Prentice Hall)中找到这些技术的详细描述。

可以在没有分析窗口的重叠的情况下进行测量，但通常推荐在25至50％之间的连续窗口化的数据的重叠。在该实施例中，M的测量帧率是100Hz(即10毫秒的间隔)，这样提供了足够的重叠并且与时间校准函数的测量率同样方便。为了正确地进行分析窗口必须扩展超过可用的数据采样的最先和最后的几个音调测量，在进行这些音调测量之前，将信号的开始和结束添加到零幅度采样的一个分析窗口的长度。

为了创建最终平滑的音调轮廓，时间校准的新信号的P’s’(M)使用平均化滤波器之前的3点中值滤波器在滤波器模块350处平滑各个帧的音调测量，此外，时间校准的新信号s(n)的静默和非语音化的帧在P’s’(M)中被标记为具有零音调。

生成向导的音调轮廓

相似地，在音调估计器模块345处，使用与用于创建音调轮廓Ps’(M)所描述的相同的方法和参数来创建向导信号g(n)的音调轮廓Pg(M)。

计算音调调整

下一处理是用于时间校准的新信号的每一帧的音调调整或校正因子的计算。该处理由音调调整模块370来完成，并且考虑了向导信号音调对时间校准的新信号的比率以及八度音阶中任意期望的改变。对于具有相同帧编号M的每一对音调测量帧完成该计算。于是，模块370内的低通滤波器平滑校正因子。这些处理分为两个步骤：确定八度音阶并改变新信号的音调。考虑到关于音调的调整，存在两个主要选项：a)将输出音调调整为与向导信号的音调相同，或b)维持输入新信号的音调范围，从而调整的语音声音最自然。现将描述实现后一种效果的八度音阶调整。八度音阶调整模块358计算八度音阶乘数Q，其在信号的持续时间被保持为常数。这样强调了在能够设置该值之前需要全部新信号或至少分析真实量的新信号。

对于时间校准的新信号的每一音调分析帧，用于来自音调估计器模块350和355的帧M的未平滑的音调估计被用来计算本地音调校正，C_L(M)，其中，M是帧编号，将所述计算限制为这样的帧：时间校准的新信号及其对应的向导信号帧两者都被语音化，即这两种帧都具有有效的音调。在这些帧中，由下式给出本地音调校正因子C_L(M)，其将使得时间校准的新信号的帧M的音调与向导信号的帧M的音调相同：

C_L(M)＝Pg(M)/Ps′(M) (1)

其后，根据下表通过选择指数幂2将每一比率C_L(M)向其最近的八度音阶取整：

比率C_L(M)	八度音阶	注解
			0.5至0.75	0.5	新信号高出一个八度音阶
0.75至1.5	1.0	新信号是相同的八度音阶
			1.5至3	2.0	新信号低出一个八度音阶
3.0至6.0	4.0	新信号低出两个八度音阶
			其它

将所有得到的八度音阶值输入到柱状图，其后选择出现最频繁的八度音阶校正值Q。在此情况下，Q不是时间的函数，但是在替换实施例中其可以是时间的函数。如果需要，则Q将被乘以另一因子以实现音调频率中的任意期望的偏移。在模块358中执行Q的计算。八度音阶校正值Q被提供给音调调整模块370并用于下面的式(2)以产生八度音阶校正的音调校正因子，C(M)，其中

C(M)＝P’g(M)/(Q＊P′s′(M)) (2)

其中

C(M)是在信号的帧M的音调校正因子，

P’s’(M)和P’g(M)分别是在时间校准的新信号和向导信号的帧M处的平滑估计的音调。

为了生成音调校正信号，在时间校准的新信号的全部帧中从式(2)计算音调校正因子C(M)，从而修改的时间校准的新信号的音调寄存器将最接近地匹配于原唱新信号的音调寄存器。

如果没有对应的向导信号音调存在于第一信号特征测量M(即向导信号是非语音化的，或时间校准的新信号稍微长于向导信号)，则重新使用在M-1处的最近的校正因子值。在此情况下，还可能使用外插来得到较好的估计。

得到的校正处理值的示例是：1.0的校正因子C(M)表示在帧M处s(n)没有改变；0.5表示将音调降低一个八度音阶；2.0表示将音调升高一个八度音阶等。

新信号的变换音调

音调校正信号中的每一值C(M)提供时间校准的新信号s’(n)的采样的对应的帧M所需的校正乘数。在该示例中，将C(M)的帧率选择为与时间校准算法所使用的相同，也就是100帧每秒(或fps)换句话说，C(M)将具有s’(n)每秒100个采样。

为了正确地运行，一些音调变换算法必须具有远低于时间校准算法的帧率；即sn间隔(分析帧)非常长。例如，如果时域音调变换技术工作在向下到50至60Hz的频率，则它们通常具有大约25至30fps的帧率。然而，在整个信号中，它们的帧率无需是常数，也就是说，帧率可以随着信号s’(n)的基本音调而改变。然而，在当前实施例中，将固定帧率用于音调变换。

在当前实施例中，用于计算音调校正因子C(M)和运行音调变换算法的各个帧率是不同的，因此使用线性内插从在时间上最接近于音调变换算法的每一分析帧的中心得到在该中心处所需的音调校正的估计。如下得到该内插校正因子：

音调校正信号的帧M具有等于新信号s(n)的Lc个采样的长度，其中，Lc由下式给出：

Lc＝新信号s(n)的采样率/C(M)的帧率 (3)

如下确定在需要音调校正的估计的音调变换算法的每一分析帧的中心处沿着s’(n)的采样编号：

如果Nc(Fps-1)是在音调变换分析帧Fps-1的中心处的沿着s’(n)的采样编号，则在下一帧Fps的中心处的采样编号Nc(Fps)是：

Nc(Fps)＝Nc(Fps-1)+Ls(Fps，To(Fps-1)) (4)

其中，

Fps是音调变换分析帧编号，Fps＝0，1，2...并且

Ls(Fps，To(Fps-1))＝新信号的采样率/音调变换算法帧率。

在一般情况下，Ls是帧编号Fps和To(Fps-1)、在Fps-1处的音调周期持续时间的函数，以允许随时间而改变的帧率。在该实施例中，Ls被保持为常数，并被设置为1536个采样，即34.83毫秒。

在首先计算的帧Nc(-1)和之前的音调变换分析帧以及首先计算的帧Nc(0)两者的中心处沿着s’(n)的采样编号的初始值取决于音调变换算法。在该实施例中，Nc(-1)＝0.5＊To(-1)and Nc(0)＝0。

使用Nc(Fps)和Lc，在音调变换算法中限制或包括特定分析帧Fps处的采样的C(M)的音调校正帧编号Fc(M)为：

Fc(Fps)＝Nc(Fps)/Lc. (5)

其中：

/表示整除

Fc(Fps)是仅出现在音调变换算法帧Fps之前或其中心处的C(M)的帧，并且

Lc如上被定义。

如果Fc(Fps)是出现在音调变换算法帧仅之前或在其中心处的音调校正帧，则(Fc(Fps)+1)将是出现在其中心之后的下一音调校正帧。

音调校正C(Fc(Fps))和C(Fc(Fps)+1)之间的线性内插给出在音调变换分析帧的中心处的内插的校正因子Cs(Fps)以控制音调变换：

Cs(Fps)＝C(Fc(Fps))＊(1-alpha)+alpha＊C(Fc(Fps)+1) (6)

其中：

alpha＝(Nc(Fps)-Lc＊Fc(Fps))/Lc，

并且其中：

/表示整除，

其它符号如上所述。

由简单低通滤波器来平滑内插的校正因子值Cs(Fps)，以使其变成C’s(Fps)并且表示为提供给音调改变模块380的模块370的输出。对于音调校正，在与音调变换算法帧对应的帧Fps中处理时间校准的新信号s’(n)。时间校准的新信号s’(n)的每一个这样的帧在模块380处根据其平滑的校正因子在音调中动态变换，并且得到的音调校正且时间校准的新信号s”(n)被写入盘390，用于后续回放背景音乐，并且如果对应的音乐视频可用，则可选地用于对其进行回放。该输出信号s’(n)将具有所需的时间校准以及音调校正，以被回放作为用于向导信号g(n)的替代，或与其同步。图7示出将在s’(n)中被观察作为将时间校准的新信号s’(n)的音调值乘以图6所示的参与到校正因子值的结果的时间校准的和校正的音调轮廓701的示例。向导信号音调轮廓401的大多数细节现在出现在计算的修改的音调轮廓701的这个示例中。

可以使用在诸如以下参考文献中描述的任意标准音调变换方法(例如TDHS、PS-OLA、FFT)来实现由模块380执行以在存储器390处创建校正的时间校准输出信号波形s”(n)的音调变换：K.Lent(1989)，“An efficient method for pitch shifting digitally sampled sound，”Computer Music Journal Vol.13，No.4，at pages 65 to 71；N.Schnell，G.Peeters，S.Lemouton，P.Manoury，and X.Rodet(2000)“Synthesizing a choir inreal-time using Pitch Synchronous OverlapAdd(PSOLA)，”International Computer Music Conference，at pages102-108；J.Laroche and M.Dolson(1999)，“New Phase-VectorTechniques for Pitch-Shifting，Harmonizing and other ExoticEffects.”Proc.1999IEEE Workshop on Applications of SignalProcessing to Audio and Acoustic at pages 91-94；G.Peeters(1998)“Analyse-Synthese des sons musicaux par la method PSOLA，”Proceedings of the Journees d’Informatique Musicale，Agelonde，France；and V.Goncharoff and P.Gries(1998)，“An algorithm foraccurately marking pitch pulses in speech signals”，Proceeding of theIASTED International Conference Signal and Image Proceeding(SIP’98)，October 28-31。

在该实施例中，实质上在D.Malah(1979)“Time DomainAlgorithms for Harmonic Bandwidth Reduction and Time Scaling ofSpeech Signals”，IEEE Transactions Acoustics，Speech and SignalProceeding，Volume 27，No，2，pages 121-133中所描述时域算法在模块380处被使用以变换信号s’(n)的音调。

在s’(n)的每一帧Fps处，测量在此定义为To(Fps)的音调周期。下文中为了简明，虽然基于包括To(Fps)的计算的变量也是Fps的变量，但在这些表达式中不暗含参数Fps。

在该实施例中，通过将s’(n)乘以h(p)，时间校准的新信号s’(n)被分解为信号的一系列窗口s’(u，n)，按时间周期性变换的分析窗口函数801，从而：

s′(u，n)＝h(n)＊s′(n-ta(u)) (7)

其中

h(p)是长度P采样的音调变换窗口，其长度在时间上等于测量的帧Fps的音调周期的两倍，即2＊To(Fps)。在该实施例中，h(p)是P采样的汉宁窗口。

ta(u)是以语音化的帧的音调同步速率设置的第u个分析示例，从而ta(u)-ta(u-1)＝To(Fps)，其中，u＝0，1，2...。对于非语音化的帧，ta(u)被设置为10毫秒的恒定速率。也可以从语音化的帧将其设置为To的最近的有效值。

从平滑的音调校正C’s(Fps)计算校正的信号的新的输出周期To’(Fps)。对于非语音化的信号，在帧Fps中，To’(Fps)＝To(Fps)。对于帧Fps中的语音化的信号，

To′(Fps)＝To(Fps)/C′s(Fps) (8)

通过这样的处理，生成短期合成窗口ts(v)的序列802，其被同步到新的输出周期To’(Fps)，从而

ts(v)-ts(v-1)＝To′(Fps) (9)

其中：

ts(v)是输出帧中的第v个合成实例。

如图10(a)和10(b)所示，对于每一ts(v)，选择在时间上最接近的s’(n)数据的窗口ta(u)。其后，将所选择的s’(n)的数据的窗口ta(u)添加到输出流缓冲器(未示出)，以根据组合所有短期合成窗口，一个帧Fps的ts(v)的重叠和添加的已知方法按时间生成一个帧输出信号流s”(n)。在效果上，重新组合了具有To’(Fps)的音调周期而不是To(Fps)的周期的窗口化的采样s’(u，n)。

现将描述另一实施例。

除了包括颤音和形变曲线的音调之外，可以测量和修改声音信号的许多其它特征。示例是瞬时响度、声门特性、话音共振峰或谐振模式、均衡、回响和回声特性。此外，无需将新信号和向导信号限制为具有韵律的、节奏的或声学的相似性。

在图8中，示出分别在模块840和850处作用于新信号和向导信号，以创建fs(N)和fg(M)的特征分析操作。它们被表示为粗体作为特征向量，指定分别在帧N和M处测量的所选择的特征。这些向量无需具有相同的特征。虽然fg(M)必须包含至少一个特征，但在另一实施例中，fs(N)可以是没有特征的空向量。

必须提供特征调整函数A(fs(N)，fg(M)，M)，并且将其输入到系统作为来自源865的处理规范。该函数定义了在第一信号特征测量M和N处的两个信号的特征之间的期望的关系，其中，它们可以是相同的帧或可以是不同的帧、由帧参数M表示的逝去的时间、以及在模块870处应用和在软件中实现的时变信号修改处理。通常可以由系统程序员定义并输入该函数和变量，因此可以将它们表示为可以由系统用户选择的一组预设和/或提供的用户定义的变量。

使用A(fs(N)，fg(M)，M)中的两个不同的特征的示例是：在新信号包含运动带通滤波器组中的能量的条件下，使向导信号的响度控制新信号上的运动带通滤波器处理的中心频率。执行M的函数的A还概括了处理以包括可能的对于函数的基于时间的修改。

图9A示出采用在此之前描述的方法2的另一实施例，其中，没有生成时间校准的新信号波形作为第一步骤。相反，在模块920中图3和8的实施例中获得的时间校准的数据被用于模块960中的时间失真，向导信号的测量的特征被用于新信号中的适当的时间。模块970对新信号进行时间校准的修改。可以在(将模块970和975组合为一个算法)同时在特征修改处理模块970中对修改的新信号，或在后面的处理模块975中对特征修改的信号执行可选的时间校准。以下给出该方法的进一步的细节。

图5中的时间校准函数的反函数将在帧k处的向导信号的匹配帧映射到在帧j处的新信号的每一帧。如果Fs是新信号的帧编号并且W(Fs)是由时间校准处理模块920生成的(逆)时间规整函数(或映射函数)，则

Fag(Fs)＝W(Fs) (10)

其中，Fag是时间校准的向导的对应的帧编号。

通过该映射，生成特征调整函数的时间校准的或规整的版本，并将其用于图9A中的调整模块960。

作为示例，返回音调校正中的应用，如下计算基于式(1)的音调校正函数的规整版本：

C(Fs)＝Pg(Fag(Fs))/Ps(Fs) (11)

根据(10)和(11)

C(Fs)＝Pg(W(Fs))/Ps(Fs) (12)

其中，C(Fs)是新信号的帧Fs的校正因子。

Ps(Fs)是新信号的帧Fs的估计的音调。W(Fs)是来自规整函数的向导中的对应的帧。包括八度音阶修改(根据需要)如前所述的C(Fs)的进一步的处理发生在调整模块960中，调整模块960然后基于式(2)提供由下式给出的修改函数

C(Fs)＝P’g(W(Fs))/(Q＊P′s(Fs)) (13)

该修改函数以逐帧为基础在修改模块970处应用于s(n)以产生修改的输出s^＊(n)。

图9A中的处理被概况为在图8中的描述，以允许指定用于分析和修改的任意信号特征，但不同之处在于，存储器980中的修改的输出s^＊(n)没有与向导信号时间校准，而是具有初始化新信号s(n)的定时。对于同时执行模块970中的特征修改和模块975中的时间校准的单个处理中的音调修改，可以实现对于向导信号g(n)的修改的输出s^＊(n)的时间校准。用于实现例如(可以减少潜在的处理伪像并改进计算效率的)同时的音调和时间修改的方法的描述在例如以下参考文献中可以找到：J.McAulay and T.Quatieri(1992)，“Shape InvariantTime-Scale and Pitch Modification of Speech”，IEEE Trans.Sig.Processing，March，Vol，40No 3，pp 497-510and D.O’Brien and A.Monaghan(1999)，“Shape Invariant Pitch Modification of SpeechUsing a Harmonic Model”，EuroSpeech 1999，pp 1059-1062。这些参考文献假定基于原唱信号的测量的恒定音调变换或任意很多音调变换以确定要应用的变换量。例如，如果在原唱语音波形中检测到非语音化的帧，则正常实践来切换掉、或至少减少在该帧期间所应用的任意时间或音调修改。

可选地，可以将正常的时间校准函数应用于模块975中的非线性编辑处理，以创建信号s’^＊(n)，信号s’^＊(n)是特征修改的新信号s^＊(n)的时间校准的版本。

图9B示出执行方法3的另一实施例，其中，使用模块920中创建的原唱时间校准路径而由模块975创建存储命令982中的时间校准信号s’(n)。在这种布置中，由模块840从没有修改的新信号s(n)中产生新信号特征轮廓。在模块960中式：

C(M)＝P’g(M)/Q＊P’s(w(M)) (14)

其中，w(M)是由模块920生成的时间规整路径，实现上式以产生特征修改轮廓C(M)。在模块972中将这种修改轮廓应用于时间校准的新信号以在输出存储模块987中创建时间校准的并且特征修改的信号s^＊’(n)。

在另一实施例中，可以将向导信号组合为一系列不同的各个向导信号而不是一个连续的信号，或可以从单个新信号将多个向导信号(例如合声元音)用于生成多个元音部分。

在另一实施例中，无需测量新信号中的特征或将其输入到新信号特征调整计算，并且可以基于向导信号的特征的测量简单对其进行修改。这种操作的示例可以是将回响或EQ应用于新信号作为向导信号中的这些特征的函数。

应理解，当实现在诸如图1和图2的系统100的系统中时用于前述实施例的处理模块将是软件模块，但在替换实现中，可以是硬件模块或硬件和软件模块的混合。

本发明的一种应用是创建可以提供例如基于计算机的电话系统或移动电话上的电话铃音的具有用户语音的个性化声音文件。其它示例包括在电话呼叫或其它数据交换期间替换可以被呈现给主叫或被叫的任意振铃或其它声音。这样的交换可以经由电话网络、VOIP(基于互联网协议的语音)系统或其它消息传递系统而产生。其它示例包括生成用于可以使用个性化的预先记录的消息的任意设备或系统的个性化声音文件。

图11示出用于使用户能够生成、发送和接收这样的声音文件的本发明的实施例。在操作中，用户通过电话网络1140并从陆地线路手机1110或移动电话手机1120发起电话呼叫。适当的转换器1150从电话网络1140接收信号并将其转换为数字音频信号和可操作的命令音调、以及由服务器计算机1160处理的那些信号。服务器计算机1160可以可选地从模块1165提供交互式语音响应(IVR)以给出用户关于操作的选择和反馈。

服务器计算机1160可以在一个或多个计算机中被实现，并可以包括用于实现图3或图8或图9A或图9B中描述的处理的音频处理模块1170。计算机1160访问用于存储歌曲音频文件和用于参考这些歌曲文件的数据库的存储模块1180。计算机1160还将原唱的和处理过的用户音频记录以及用于参考这些记录的数据库存储在存储模块1185中。

服务器计算机1160解释触摸音或其它信号以发起操作。例如，采用该实现中的电话键盘，用户可以命令计算机1160进行以下操作：

(a)选择“音轨”，例如(存储在模块1180中)的歌曲的部分；

(b)通过转换器1150和网络1140将所选择的音轨发送到电话手机1110或1120以使用户听到或复述。

(c)在所选择的音轨通过电话手机1110或1120重放并且用户对手机麦克风演唱的同时记录用户的语音；

(d)重放混合了适当的背景音轨的用户的语音的处理过的记录(例如没有原唱歌手语音的音轨的版本)。

在步骤(c)，用户的语音被记录在存储模块1185中，经由处理模块1170而被处理，示例诸如图3或图8或图9A或图9B所示的处理，并且结果被存储在模块1185中。

最后，用户于是以键盘或他/她的手机1110或1120输入接收方的移动电话号码。其后，计算机1160使用诸如“WAP push”系统的铃音传递系统1190将消息发送到接收方的号码。该数据消息向接收方给出将处理过的音频下载到他的移动电话或其它设备所需的信息。

在替换实现中，具有麦克风159或扬声器156的用户计算机100用于直接经由互联网175或通过使用VOIP软件1135的电话呼叫来访问服务器计算机1160。其后，用户可以经历与前述相同的程序，但通过计算机100进行收听和记录，并将在计算机100的键盘125(未示出)上输入的命令发送到服务器计算机1160。用户可以根据其号码最终指定移动电话以通过传递系统1190接收创建的声音文件。声音文件还可以在用户计算机100或另一指定的计算机(例如朋友的计算机)中被使用作为铃音或指定的计算机的VOIP系统中的其它识别声音文件。

在用户经由互联网访问服务器计算机1160的另一替换实现中，可以将图3或图8或图9A或图9B的一些或全部处理模块下载到由模块1130表示的用户计算机100。可以经由互联网175或电话网络1140将在服务器计算机1160处在音频处理模块的帮助下或没有音频处理模块的帮助而由于使用模块1130而产生的并存储在用户计算机100上或存储模块1185上声音文件发送到所请求的目的地电话或其它个人计算机。

在其它实施例中，可以在电话或包含计算机系统和存储器以及用于输入和输出所需的音频信号的装置的任意其它设备中全部或部分地实现这些处理。

在另一实施例中，可以从具有用户接收的歌曲音频文件的服务器计算机1160提供视频信号(例如音乐视频)。用户可以重放这些音频和视频信号，并如前所述制作声音记录。混合了背景音轨以及同步的视频的处理过的文件被传递到指定的电话、个人计算机或其它能够播放音频/可视文件的设备。

歌曲音频文件并不限于歌曲，并且可以是任意声音记录，包括话音、声效、音乐或它们的任意组合。

Claims

1.一种用于修改音频信号的至少一个声学特征的方法，该方法包括：

比较第一采样音频信号和第二采样音频信号，从而从第二采样音频信号中的依赖于时间的声学特征的出现时间和第一采样音频信号中的依赖于时间的声学特征的出现时间之间的定时差而确定时间校准数据；

在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征，以从其中产生第一采样音频信号声学特征测量的序列；

处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列；以及

将声学特征修改数据的序列应用于第二采样音频信号，以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征。

2.如权利要求1所述的方法，其中，所述方法包括以下步骤：在沿着第二采样音频信号的所选择的位置处测量第二采样音频信号的所述至少一个声学特征，以从其中产生第二采样音频信号声学特征测量的序列，并且所述处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的步骤包括：比较第一采样音频信号声学特征测量和第二采样音频信号声学特征测量，并从这种比较中确定声学特征修改数据。

3.如权利要求1或2所述的方法，其中，所述将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的步骤包括以下步骤：使用时间校准数据来从第二采样音频信号产生时间校准的第二采样音频信号，并将声学特征修改数据应用于所述时间校准的第二采样音频信号。

4.如权利要求2所述的方法，其中，所述处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列步骤包括以下步骤：使用具有第一采样音频信号声学特征测量的时间校准数据来产生与第二采样音频信号声学特征测量时间校准的声学特征修改数据。

5.如权利要求1或2所述的方法，其中，所述将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的步骤包括：根据预定函数调制所述声学特征修改数据，从而根据声学特征修改数据和预定函数联合地修改所述第二采样音频信号的所述选择的部分的所述至少一个声学特征。

6.如权利要求1或2所述的方法，其中，所述第一采样音频信号的至少一个声学特征是音调。

7.如权利要求1或2所述的方法，其中，所述第二采样音频信号的至少一个声学特征是音调。

8.如权利要求1或2所述的方法，其中，所述第一采样音频信号和第二采样音频信号的依赖于时间的声学特征是采样的谱能量测量。

9.如权利要求1所述的方法，其中，第一采样音频信号的所述至少一个声学特征是音调，第二采样音频信号的所述至少一个声学特征是音调，所述处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列步骤包括以下步骤：从第一采样音频信号的音调测量对第二采样音频信号的时间校准的音调测量的比率的值来确定乘数因子，从而在所述应用声学特征修改数据的步骤中包括所述因子，以便变换在第二采样音频信号中在修改的所选择的信号部分中的音调改变的频率范围。

10.如权利要求9所述的方法，进一步包括以下步骤：以指数幂2来缩放所述乘数因子，从而根据所述指数幂2的选择来改变所述修改的所选择的信号部分中的音调。

11.如权利要求2所述的方法，其中，所述在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征以从其中产生第一采样音频信号声学特征测量的序列的步骤包括以下步骤：使用时间校准数据以从第二采样音频信号产生时间校准的第二采样音频信号，在所述时间校准的第二采样音频信号中，第二采样音频信号的所述依赖于时间的声学特征的出现时间基本上与第一采样音频信号中的所述依赖于时间的声学特征的出现时间一致；以及在被选择为在定时方面与沿着第一采样音频信号的所述所选择的位置有关的、沿着时间校准的第二采样音频信号的位置处测量时间校准的第二采样音频信号中的至少一个声学特征。

12.如权利要求2所述的方法，其中，第一采样音频信号的所述至少一个声学特征是音调，所述第二采样音频信号的至少一个声学特征是音调，所述将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的步骤包括以下步骤：使用时间校准数据以从第二采样音频信号产生时间校准的第二采样音频信号，并将声学特征修改数据应用于时间校准的第二采样音频信号以产生音调修改的时间校准的第二采样音频信号。

13.如权利要求12所述的方法，其中，应用声学特征修改数据的步骤包括：根据预定函数调制声学特征修改数据，从而根据声学特征修改数据和预定函数联合地修改第二采样音频信号的所述所选择的部分中的音调。

14.如权利要求13所述的方法，其中，预定函数是第一采样音频信号中的音调测量对于沿着第二采样音频信号的第二采样音频信号中的对应的音调测量的比率的值的函数。

15.如权利要求1所述的方法，其中，所述将声学特征修改数据的序列应用于第二采样音频信号，以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征步骤包括：由此产生表示修改的第二采样音频信号的数据。

16.如权利要求15所述的方法，进一步包括以下步骤：将表示修改的第二采样音频信号的数据提供给电信装置。

17.如权利要求16所述的方法，其中，所述将表示修改的第二采样音频信号的数据提供给电信装置步骤包括：通过铃声传递系统发送表示修改的第二采样音频信号的数据。

18.一种用于修改音频信号的至少一个声学特征的装置，该装置包括：

用于比较第一采样音频信号和第二采样音频信号，从而从第二采样音频信号中的依赖于时间的声学特征的出现时间和第一采样音频信号中的依赖于时间的声学特征的出现时间之间的定时差而确定时间校准数据的装置；

用于在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征以从其中产生第一采样音频信号声学特征测量的序列的装置；

用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置；以及

用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置。

19.如权利要求18所述的装置，进一步包括：用于在沿着第二采样音频信号的所选择的位置处测量第二采样音频信号的所述至少一个声学特征以从其中产生第二采样音频信号声学特征测量的序列的装置，并且其中，用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置包括：用于比较第一采样音频信号声学特征测量和第二采样音频信号声学特征测量并从这种比较中确定声学特征修改数据的装置。

20.如权利要求18或19所述的装置，其中，所述用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置包括：用于使用时间校准数据来从第二采样音频信号产生时间校准的第二采样音频信号并将声学特征修改数据应用于所述时间校准的第二采样音频信号的装置。

21.如权利要求19所述的装置，其中，所述用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置包括：用于使用具有第一采样音频信号声学特征测量的时间校准数据来产生与第二采样音频信号声学特征测量时间校准的声学特征修改数据的装置。

22.如权利要求18所述的装置，其中，所述用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置包括：用于根据预定函数调制所述声学特征修改数据从而根据声学特征修改数据和预定函数联合地修改第二采样音频信号的所述选择的部分的所述至少一个声学特征的装置。

23.如权利要求18所述的装置，其中，第一采样音频信号的所述至少一个声学特征是音调。

24.如权利要求18所述的装置，其中。第二采样音频信号的所述至少一个声学特征是音调。

25.如权利要求18所述的装置，其中，所述第一采样音频信号和第二采样音频信号的依赖于时间的声学特征是采样的谱能量测量。

26.如权利要求18所述的装置，第一采样音频信号的所述至少一个声学特征是音调，第二采样音频信号的所述至少一个声学特征是音调，所述用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置包括：用于从第一采样音频信号的音调测量对第二采样音频信号的时间校准的音调测量的比率的值来确定乘数因子，从而在应用声学特征修改数据过程中包括所述因子，以便变换在第二采样音频信号中在修改的所选择的信号部分中的音调改变的频率范围的装置。

27.如权利要求26所述的装置，进一步包括：用于以指数幂2来缩放所述乘数因子，从而根据所述指数幂2的选择来改变第二修改的所选择的信号部分中的音调的装置。

28.如权利要求19所述的装置，其中，所述用于在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征以从其中产生第一采样音频信号声学特征测量的序列的装置包括：用于使用时间校准数据以从第二采样音频信号产生时间校准的第二采样音频信号的装置，在所述时间校准的第二采样音频信号中，第二采样音频信号的所述依赖于时间的声学特征的出现时间基本上与第一采样音频信号中的所述依赖于时间的声学特征的出现时间一致；以及用于在被选择为在定时方面与沿着第一采样音频信号的所述所选择的位置有关的、沿着时间校准的第二采样音频信号的位置处测量时间校准的第二采样音频信号中的至少一个声学特征的装置。

29.如权利要求28所述的装置，其中，所述被选择为在定时方面与沿着第一采样音频信号的所述所选择的位置有关的、沿着时间校准的第二采样音频信号的位置基本上在定时方面与沿着第一采样音频信号的所述所选择的位置一致。

30.如权利要求19所述的装置，其中，第一采样音频信号的所述至少一个声学特征是音调，第二采样音频信号的所述至少一个声学特征是音调，所述用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置包括：用于使用时间校准数据以从第二采样音频信号产生时间校准的第二采样音频信号，并将声学特征修改数据应用于时间校准的第二采样音频信号以产生音调修改的时间校准的第二采样音频信号的装置。

31.如权利要求30所述的装置，其中，用于应用声学特征修改数据的装置包括：用于根据预定函数调制声学特征修改数据从而根据声学特征修改数据和预定函数联合地修改第二采样音频信号的所述所选择的部分中的音调的装置。

32.如权利要求31所述的装置，其中，预定函数是第一采样音频信号中的音调测量对于沿着第二采样音频信号的第二采样音频信号中的对应的音调测量的比率的值的函数。

33.如权利要求19所述的装置，其中，所述用于比较第一采样音频信号和第二采样音频信号从而从第二采样音频信号中的依赖于时间的声学特征的出现时间和第一采样音频信号中的依赖于时间的声学特征的出现时间之间的定时差而确定时间校准数据的装置、所述用于在沿着第一采样音频信号的所选择的位置处测量第一采样音频信号的至少一个声学特征以从其中产生第一采样音频信号声学特征测量的序列的装置、所述用于处理第一采样音频信号声学特征测量的序列以产生声学特征修改数据的序列的装置以及所述用于将声学特征修改数据的序列应用于第二采样音频信号以根据时间校准数据修改第二采样音频信号的选择的部分的至少一个声学特征的装置被合并在电信装置中。

34.如权利要求33所述的装置，其中，电信装置包括耦合到电信网络的服务器计算机。

35.如权利要求33所述的装置，其中，电信装置包括移动电话。

36.如权利要求33所述的装置，其中，电信装置将表示修改的第二采样音频信号的数据提供给铃音传递系统。

37.如权利要求35所述的装置，其中，移动电话将表示修改的第二采样音频信号的数据提供给铃音传递系统。

38.一种音频信号修改装置，包括：

时间校准模块，被布置为接收新信号和向导音频信号并从其中产生时间校准的新信号；

第一音调测量模块，耦合到时间校准模块，并被布置为测量时间校准的新信号中的音调；

第二音调测量模块，被布置为接收向导音频信号并测量向导音频信号中的音调；

音调调整计算器，耦合到第一音调测量模块和第二音调测量模块，并被布置为计算音调校正因子；以及

音调调制器，耦合到时间校准模块，以接收时间校准的新信号，并耦合到音调调整计算器，以接收音调校正因子，并且被布置为根据音调校正因子修改时间校准的新信号中的音调。

39.一种音频信号修改装置，包括：

时间校准模块，被布置为接收新音频信号和向导音频信号并从其中产生时间校准的新信号；

第一声学特征测量模块，被布置为接收向导音频信号，并测量向导音频信号的至少一个声学特征；

声学特征调整计算器，耦合到第一声学特征测量模块，并被布置为计算声学特征修改因子；以及

声学特征调制器，耦合到时间校准模块，以接收时间校准的新信号，并耦合到声学特征调整计算器，以接收声学特征修改因子，并且被布置为根据声学特征修改因子修改时间校准的新信号的所述至少一个声学特征。

40.如权利要求39所述的音频信号修改装置，其中，处理函数模块耦合到声学特征调整计算器以对其提供信号函数，声学特征调整计算器适用于根据信号函数计算声学特征修改因子。

41.如权利要求39或40所述的音频信号修改装置，其中，第二声学特征测量模块耦合到时间校准模块，并且被布置为测量时间校准的新信号的至少一个声学特征；声学特征调整计算器耦合到第二声学特征测量模块。

42.如权利要求39所述的音频信号修改装置，其中，第二声学测量模块被布置为接收新音频信号，并测量新音频信号的所述至少一个声学特征，并且其中，声学特征调整计算器耦合到第二声学特征测量模块和时间校准模块，并且适用于将新音频信号的测量的声学特征校准到向导音频信号的测量的声学特征。

43.一种音频信号修改装置，包括：

时间校准模块，被布置为接收新音频信号和向导音频信号并从其中产生时间校准数据；

声学特征调整计算器，耦合到时间校准模块和第一声学特征测量模块，并被布置为计算声学特征修改因子的时间校准的值；以及

声学特征调制器，被耦合以接收新音频信号，以及被耦合到声学特征调整计算器以接收声学特征修改因子的时间校准的值，并且被布置为根据声学特征修改因子的时间校准的值修改新音频信号的所述至少一个声学特征，从而产生修改的新音频信号。

44.如权利要求43所述的音频信号修改装置，其中，时间校准器被耦合到声学特征调制器，以接收修改的新音频信号，并耦合到时间校准模块，以接收时间校准数据，并且被布置为根据所述修改的新音频信号和时间校准数据产生时间校准的修改的新信号。

45.如权利要求43或44所述的音频信号修改装置，其中，第二声学特征测量模块被布置为接收新音频信号并测量新音频信号的至少一个声学特征；以及声学特征调整计算器耦合到第二声学特征测量模块。