CN1135531C

CN1135531C - 音调转换装置

Info

Publication number: CN1135531C
Application number: CNB961239727A
Authority: CN
Inventors: 新原寿子; 松本光雄; ĥ; 铃木琢磨
Original assignee: Victor Company of Japan Ltd
Current assignee: Victor Company of Japan Ltd
Priority date: 1995-12-28
Filing date: 1996-12-28
Publication date: 2004-01-21
Anticipated expiration: 2016-12-28
Also published as: KR970050862A; TW418384B; US5862232A; JP3265962B2; KR100256718B1; JPH09185392A; CN1164084A

Abstract

改变声音信号音调的转换装置，用第一窗口设备将声音信号分为一组多帧并形成帧的包络，用音调频率检测设备检测每帧内音调频率，用傅里叶变换设备将每帧信号变为频率范畴信号，用频率改变设备将帧信号中全部频率分量变为较高或较低要求的级次，用谐音电平控制设备按检测的音调频率控制帧信号中的谐音电平，用逆傅里叶变换设备将帧信号变回时间范畴信号，用第二窗口设备形成输出帧信号的包络并将各帧组合成音调改变的声音信号。

Description

音调转换装置

技术领域

本发明涉及诸如卡拉OK(随曲调唱歌)唱机的音调转换装置和用于改变音调或声音的原始频率的声音和图像编辑器，尤其涉及在不引起声音失真的情况下容易改变保持有原始声音特性的音调的装置。

背景技术

诸如传统的卡拉OK唱机这样的传统音调转换装置具有称为键控的用于改变伴音的音调以将其调整到演唱者音域的功能。这种键控功能通过改变摸拟信号伴音的重放速度来改变乐曲音调。

最近，已经开发了一种通信卡拉OK系统，其中乐曲提供装置储存多种歌曲并根据终端用户的要求将它们送到多个用户终端。

这样传送的歌曲的数字数据包括用于显示字符的数据及改变与伴奏音乐同步的字符的彩色，用于驱动终端合成器来重放伴奏音乐的MIDI(乐器数字接口)信号和用于重放男或女声伴唱的自然声音的压缩声音信号。

这种卡拉OK系统的MIDI信号，通过控制合成器的设置使其音调频率高于或低于原始音调，而不改变原始节拍。

然而，在不改变其节拍和原始声音的特性，以及不引起音质失真的情况下，不容易改变男或女声伴唱的自然声音的音调，因为它不是MIDI信号而是不具有音调控制信息的摸拟信号。

最近，已开发一种编辑数字声音信号的音频/视频编辑装置，然而，它不能在不失去高品质的原始声音的情况下改变音调。

在保持原始节拍的情况下，主要存在两种改变音调的传统方法。

其中之一是在时间范畴内采样和处理声音信号的方法。例如当打算将音调较原始音调提高两倍时，声音信号被分成预定的段，并以原始读取速度两倍的速度读取这些分离的声音信号的数据从而获得两倍音调信号，或者检测每个分离的声音信号段的音调频率(当对分离的信号段进行频谱分析时呈现的最低频率，“音调频率”也称为“基本频率”)并将其加倍以获得两倍音调信号。在这两种情况下，通过重复使用加倍的音调信号，填充对应于预定段的分离的时间间隔。这样，可加倍音调频率而不改变声音的原始节拍。这种方法的问题在于加倍音调信号段的平滑连接。事实上，由于不完善的连接会使重放声音恶化，并且原始声音的特性变得失真。

另一种方法是在频率范畴使用处理声音信号的傅里叶变换。声音信号被分成多个预定段。通过傅里叶变换提取频率范畴内的分离信号段的振幅和相位分量，并分别按要求的量移位。然后，通过逆傅里叶变换将移动(改变)的振幅和相位分量还原到时间范畴。在此之后，音调改变的声音信号段互相连接。然而，本发明人认为这种方法会使重放声音不自然和不满意。

由本申请的日本专利特开申请No59-204096/1984公开了使用傅里叶变换的另一种方法。声音信号被分成多个预定段，然后对其进行傅里叶变换。检测变换的声音信号的音调频率。仅对该检测的音调频率附近的分量移动(改变)一预定值。

日本专利特开申请No.59-204096/1984公开的方法是在保留谐音时提醒收听者他们的原始音调。因此，收听者不但听到原始音调而且还听到移位的音调。

除卡拉OK唱机之外，其它系统也存在类似的音调改变要求，例如磁带记录器或VCR，当这些装置以高于标准速度的速度演奏时，在磁带记录器或VCR中希望保持原始的音调。

发明内容

因此，本发明总的目的是要消除上述问题。

本发明的另一个目的在于提供一种具有简单电路结构、短处理时间、将音调转换为高于或低于原始音调、没有声音恶化以及保持原始声音的自然声音特性的改进性能的音调转换装置。

本发明的特定目的是要提供一种用于将声音信号的音调以预定比率改变的音频转换装置，包括：第一窗口装置，用于将以数字格式输入的声音信号分为一系列多帧并形成分离的多帧的每帧的包络；音调频率检测装置，用于检测所述的每帧内的音调频率；傅里叶变换装置，用于将所述的每帧声音信号变换为频率范畴信号；频率改变装置，用于将所述傅里叶变换装置的输出中的全部频率分量改变到较高频率侧或较低频率侧；谐音电平控制装置，用于根据由所述的音调频率检测装置检测的音调频率控制包含在所述频率改变装置的输出中的谐音电平，其中，当全部频率分量改变到所述较高频率侧时，减少改变音调的所述声音信号的谐音电平，而当全部频率分量改变到所述较低频率侧时，增大改变音调的所述声音信号的谐音电平；逆傅里叶变换装置，用于将所述谐音电平控制装置的输出变换为时间范畴信号；和第二窗口装置，用于形成从所述的逆傅里叶变换装置输出的声音信号的各个帧的包络，并将所述的各个帧组合成音调改变的声音信号。

附图说明

图1是本发明的音调转换装置实施例的方块图。

图2是由本发明的音调转换装置实施例完成的信号处理的流程图；

图3(A)到3(C)表示借助窗口作用在本发明实施例中完成两个相邻信号段的耦合处理。

具体实施方式

现在参考附图详细描述本发明。

图1是本发明的音调转换装置实施例的方块图。

图2是由本发明的音调转换装置实施例完成的信号处理的流程图。

现给出将具有44.1KHz采样频率fs的声音信号的音调改变三个半音(半音音阶)的典型装置的描述。

首先，将帧号码“i”，即信号处理单元，设定到初始值(步骤11)。将改变音调的数字声音信号输入第一窗口设备1。如果数字声音信号(除其它说明外，下文称为“声音信号”)的长度较该帧长(步骤12→是)，该声音信号例如通过第一窗口设备1被分成每个具有预定数目采样的多个帧，比如4096个采样(采样“0”到采样“4095”)，并且借助第一窗口设备1的窗口作用，将帧头部的0到第999个采样的振幅控制(其模拟包络的)为正弦波的形式，以此方式来读取所述这4096个采样(步骤13)并将其输出。将该帧尾部的第3096到第4095个采样的振幅控制为余弦波，并将其输出。读出在头尾之间的其他采样(1000-3095)，使其具有电平“1”，如图3(A)所示，并将其输出。在步骤14完成这三个过程。分别用于每帧的头和尾部使其成为正弦和余弦波的上述振幅控制，通过向各个帧的结尾提供淡入和淡出作用使相邻帧之间能够平滑耦合。(图3中所示)。

通过改变200个和2000个采样之间的数目的实验确定头和尾部中的最佳采样数，即帧的正弦和余弦周期。因此500个到1500个采样审定为大部分声音源的最佳采样数，它对应于声音源的大约10到35毫秒的时间间隔。因此，本实施例中用于头或尾部的时间窗口的宽度确定为1000个采样，并且对应于大约23毫秒的时间间隔。在小于半帧长度的范围内能够改变头或尾部的时间窗口的宽度。

由第一窗口设备1到多个帧的声音信号的一组帧输入音调频率检测器2，在这里通过利用自相关函数或逆谱技术提取每帧中的声音信号的频谱中的最低频率(步骤15)。声音信号的一组帧也输入傅里叶变换(FFT)设备3，并从时间范畴信号变换为频率范畴信号(步骤16)，然后，开始时为时间范畴的每个采样变换为频率范畴，这样，时间范畴中的“采样数”成为“频率”。当具有采样频率fs的声音信号分为每个具有N(正整数)个采样的多个帧时，由频率pHz表示的从FFT设备3输出的信号的采样数为第(pxN/fs)采样。在本实施例中，fs为44.1KHz，而且N为4096。这样，频率pHz的采样为第(px4096/44100)采样，这里把小数四舍五入。

频率改变(移动)设备4将傅里叶变换的声音信号频率的实部和虚部改变3个半音，本实施例中的音调改变量。通过八音度改变音调，即，高于12半音意味着原始声音频率被加倍。因此，将声音信号改变“h”(正整数)半音是使声音信号频率提高2^h/12倍。在本实施例中，“h”为3。因此，改变为2^3/12，大约为1.19。因此，第n个采样变为第(1.19×n)采样。当音调频率为P₁Hz时，改变频率的采样数为p₁×2^h/12×N/fs。

检测歌手的声音显示出当他的音调变高时所包含的高谐音为低电平，而当他的音调变低时所包含的谐音为高电平，这些谐音的电平取决于重放声音的质量。这样，在将全部声音信号频率变为较高或较低之后，通过操纵谐间的电平能改进音质。

当音调频率检测器2的输出音调频率为零(无输出)(步骤18→是)时，谐音电平控制器5将音调频率输出到逆傅里叶变换设备6，而没有任何操作(步骤22)。

当音调频率检测器2输出的音调频率为正数(步骤18→否)时，谐音电平控制器5控制音调频率谐音电平。当帧中的全部频率分量变为较高时，即，改变值2^h/12的次数等于或大于1，(步骤19→是)，改变的声音信号的谐音电平减少(步骤20)。在另一方面，当全部的频率分量变为较低(步骤19→否)时，改变的声音信号的谐音电平增大(步骤21)。步骤19对应于改变值的次数小于1的情况。通过实验，显示出检测的音调步骤的谐音减小或增大10分贝的电平对于保持在改变的声音信号中的原始音质是最佳的。这样，在本实施例中，该电平选择为10分贝。

尤其是，当检测的音调频率为200Hz，并且改变三个半音时，改变的音调频率为200×1.19Hz。这样，在改变之后谐音变为200×1.19xm。这里，“m”是大于1的整数。这些频率的傅里叶变换数据的各个实部和虚部乘以10^-0.5，这意味着这旋据将增加-10分贝。由此推广，音调频率P₁的改变“h”半音的第m谐音的采样数为第(m×P₁×2^h/12×N/fs)采样，然后该采样数的傅里叶变换数据的实部和虚部乘以10^-0.5或10^0.5，这意味着该数据改变-10分贝或10分贝。

在此之后，转换的各个数据输入逆傅里叶变换(IFFT)设备6，并从频率范畴信号变换为时间范畴信号(步骤22)。

由IFFT设备6转换回时间范畴信号的声音信号的第一帧输入第二窗口设备7。第一帧头部的第一帧中的零到999采样通过第二窗口设备7形成为正弦波，并由此输出。第一帧尾部的第3096到第4095采样通过第二窗口设备7形成为余弦波，并由此输出。在头和尾部之间的剩余采样恢复为具有恒定电平“1”并输出。在步骤23执行这三个窗口处理。

第3096到第4095采样通过后面将描述的加法器8存储在存储器9。零到第3095采样输出到D/A(数字到模拟)转换器10。

第一窗口设备1从图3(B)所示的第3096个采样到第7191个采样中读取输入的声音信号，由此产生声音信号的接着的第二帧，因此第3096到第4095采样被冗读取。否则，第二帧的采样3096到采样7191要进行与该帧相同的信号处理，直到存储器9中的存储过程为止。

由加法器8将储存在存储器9中的第一帧尾部的第3096到第4095个采样加到新读出的第3096个到第4095个采样上，并将其处理为第二帧的头部(步骤24)。因为在该加法过程中余弦尾部和正弦头部相加，结果成为具有电平“1”的第2帧的平滑耦合，如图3(c)所示。第6192个采样到第7191个采样，即第二帧的尾部，储存在存储器9中(步骤25)。

形成为具有电平“1”的相加的采样3096到4095及采样4096到6191从第二窗口设备7输出到D/A转换器10(步骤26)。通过控制器(MPU)32重复这些过程直到一组声音信号的结束为止，因为每个周期增加一次帧号码“i”(步骤27)。从数字信号转换为模拟信号的声音信号从D/A转换器10输出。

应该注意到通过DSP31实现第一和第二窗口设备1和7，音调频率检测器2，FFT3，频率改变设备4，谐音电平控制器5，IFFT6和加法器8。这样，通过控制器(MPU)32控制DSP31，存储器9和D/A转换器10来执行图2所示的过程。

在本实施例中，每帧的全部采样数为4096，但是采样数量可以不同，作为实验结果，发现为产生好音质每帧的最佳采样为每采样10-25Hz。考虑到包括FFT的数字信号处理一帧中的采样数最好是2ⁿ(n为正整数)。因此，在本实施例中，在采样频率为44.1KHz的情况下，一帧中的采样数应该为2048或4096。每帧2048个采样和每帧4096个采样分别等于21.5Hz/采样和10.8Hz/采样。当采样频率为22.05KHz时，例如MPEG2音频的声音数据，一帧中的采样数应该为1024或2048。每帧1024个采样和每帧2048个采样等于21.5Hz/采样和10.8Hz/采样。

对于具有采样频率44.1KHz的声音数据，对于每帧的采样数为512，1024，2048，4096和8192的情况已进行实验。在512采样的情况下，音调改变是不精确的。在1024采样的情况下，音质是令人不能接受的，在8192采样的情况下，获得要求的音调改变，并且检测到一种混响效果。在2048和4096采样的情况下，获得最好的音质。

如上所述，本发明的优点是提供一种高性能的音调转换装置，利用分离和形成声音信号的第一窗口设备、用于检测声音信号的音调频率的音调频率检测设备、用于将声音信号变换为时间范畴信号的傅里叶变换设备、用于将傅里叶交换的数字声音信号改变预定值的频率改变设备、用于操纵波峰值频率的谐音电平的谐音电平控制器、用于将音调改变及谐音电平控制声音信号回到时间范畴信号的逆傅里叶变换设备、用于重新形成逆傅里叶变换的声音信号的第二窗口设备、和用于耦合分离的声音信号帧的加法器，使该装置具有简单的电路结构、短的处理时间、将音调转换为较原始音调高或低而没有声音失真并保持原始声音的特点。

Claims

1.一种用于将声音信号的音调以预定比率改变的音调转换装置，包括：

第一窗口装置，用于将以数字格式输入的声音信号分为一系列多帧并形成分离的多帧的每帧的包络；

音调频率检测装置，用于检测所述的每帧内的音调频率；

傅里叶变换装置，用于将所述的每帧声音信号变换为频率范畴信号；

频率改变装置，用于将所述傅里叶变换装置的输出中的全部频率分量改变到较高频率侧或较低频率侧；

谐音电平控制装置，用于根据由所述的音调频率检测装置检测的音调频率控制包含在所述频率改变装置的输出中的谐音电平，其中，当全部频率分量改变到所述较高频率侧时，减少改变音调的所述声音信号的谐音电平，而当全部频率分量改变到所述较低频率侧时，增大改变音调的所述声音信号的谐音电平；

逆傅里叶变换装置，用于将所述谐音电平控制装置的输出变换为时间范畴信号；和

第二窗口装置，用于形成从所述的逆傅里叶变换装置输出的声音信号的各个帧的包络，并将所述的各个帧组合成音调改变的声音信号。

2.根据权利要求1的音调转换装置，其中所述的第一和第二窗口装置以每帧的头部形成为π/2周期的正弦波并且每帧的尾部形成为π/2周期的余弦波的形式形成每帧的包络。

3.根据权利要求2的音调转换装置，其中每帧的所述头部和所述尾部的每个长度为10到35毫秒的时间间隔。